FACULDADE DE TECNOLOGIA DE SÃO JOSÉ DOS CAMPOS LUIZ HENRIQUE NOGUEIRA LORENA

Transcrição

1 FACULDADE DE TECNOLOGIA DE SÃO JOSÉ DOS CAMPOS LUIZ HENRIQUE NOGUEIRA LORENA UTILIZAÇÃO DE TÉCNICAS DE BUSINESS INTELLIGENCE PARA AVALIAR O PROCESSO SELETIVO FATEC-SJC SÃO JOSÉ DOS CAMPOS 2011

2 i LUIZ HENRIQUE NOGUEIRA LORENA UTILIZAÇÃO DE TÉCNICAS DE BUSINESS INTELLIGENCE PARA AVALIAR O PROCESSO SELETIVO FATEC-SJC Trabalho de graduação apresentado à Faculdade de Tecnologia de São José dos Campos, como parte dos requisitos necessários para obtenção de título de Tecnólogo em Banco de Dados. Orientador: Fernando Masanori Ashikaga, Me SÃO JOSÉ DOS CAMPOS 2011

3 ii LUIZ HENRIQUE NOGUEIRA LORENA UTILIZAÇÃO DE TÉCNICAS DE BUSINESS INTELLIGENCE PARA AVALIAR O PROCESSO SELETIVO FATEC-SJC Trabalho de graduação apresentado à Faculdade de Tecnologia de São José dos Campos, como parte dos requisitos necessários para obtenção de título de Tecnólogo em Banco de Dados. ANDERSON VIÇOSO DE ARAÚJO, ME JULIANA FORIN PASQUINI MARTINEZ, ME FERNANDO MASANORI ASHIKAGA, ME / / DATA DE APROVAÇÃO

4 iii Dedico este trabalho a meus pais e irmã que amo incondicionalmente, a memória de meus avós que não tiveram as mesmas oportunidades que tive mas me deram exemplos de caráter e integridade que levarei por toda a vida, a meu orientador por sua eterna paciência e apoio durante o curso deste trabalho, a minha querida sobrinha Amanda que conseguiu, através de seus olhos e sorriso, me motivar quando me achava perdido ou cansado e a todos aqueles que não tiveram as oportunidades de estudo que tive em vida, espero retribuí-los na forma de contribuições que possa deixar na área de tecnologia da informação assim como na de saúde.

5 iv AGRADECIMENTOS Agradeço primeiramente a Deus pela oportunidade de estar vivo e pela capacidade de poder concretizar mais este projeto. Agradeço novamente a Ele por me colocar para caminhar ao lado de pessoas tão especiais como meus pais, que sempre me deram os exemplos, suporte e a principal ferramenta em minha vida, o estudo. À minha irmã por ser uma fonte inesgotável de inspiração e orgulho. À meu orientador Prof. Fernando Masanori pela orientação neste trabalho e principalmente por sua paciência. À FATEC por seu apoio em relação à infra estrutura, materiais didáticos, professores e funcionários, que ajudaram a tornar este trabalho realidade. Aos professores Anderson Viçoso De Araújo e Juliana Forin Pasquini Martinez pelas sugestões e comentários que muito enriqueceram este trabalho.

6 v "Sou o que quero ser, porque possuo apenas uma vida e nela só tenho uma chance de fazer o que quero. Tenho felicidade o bastante para fazê-la doce, dificuldades para fazê-la forte, tristeza para fazê-la humana e esperança suficiente para fazê-la feliz. As pessoas mais felizes não tem as melhores coisas, elas sabem fazer o melhor das oportunidades que aparecem em seus caminhos." Clarice Lispector

7 vi RESUMO A Faculdade de Tecnologia de São José dos Campos (FATEC-SJC) recebe, a cada processo seletivo, dados sobre os candidatos que optaram por um de seus cursos. Estes dados são disponibilizados pelo Centro Paula Souza em formato de planilha eletrônica, contendo os dados submetidos pelo candidato via formulário eletrônico de cadastro disponibilizado no endereço eletrônico do processo seletivo da instituição, assim como o desempenho destes candidatos. Apesar disto, não existe atualmente uma iniciativa específica para se analisar estes dados de forma analítica na instituição. Desta maneira, informações importantes sobre o processo seletivo podem ser desperdiçadas, tais como o perfil destes candidatos e os seus respectivos desempenhos. Uma das áreas da Tecnologia da Informação que mais se destaca e pode auxiliar no processo de avaliação destes dados é a área de Business Intelligence, sendo o Data Warehouse uma de suas principais técnicas. Através desta técnica pode-se criar um Banco de Dados modelado de forma analítica, com a finalidade de responder questionamentos sobre o processo seletivo. Sendo assim, o objetivo deste trabalho é utilizar técnicas e ferramentas da área de Business Intelligence para extrair, modelar e exibir analiticamente os dados sobre o processo seletivo da instituição, obtendo informações que sejam relevantes aos responsáveis pela promoção de melhorias deste processo dentro da instituição. Palavras - chave: Business Intelligence, Data Warehouse, Processo seletivo.

8 vii ABSTRACT The Faculdade de Tecnologia de São José dos Campos (FATEC-SJC) receives, at each selection process, data from the applicants who have chosen one of the courses. Those data are provided by Centro Paula Souza on spreadsheet format, containing the data submitted by the applicant via electronic registration form available on the selection process website of the institution, as well as the performance of these candidates. Despite this, there is no currently initiative to analyze these data in an analytical way. Thus, important information about the selection process can be wasted, like the applicants profile and their respective performances. One of the areas of Information Technology that stands out and can assist in the evaluation of these data is the area of Business Intelligence, being the Data Warehouse one of its main techniques. Through this technique one can create an analytically modeled database, in order to answer questions about the selection process. Therefore, the objective of this work is to use techniques and tools of the Business Intelligence area to extract, model and display analytical data of the institution selection process, retrieving relevant information to people responsible for promoting improvements on the process within the institution. Keywords: Business Intelligence, Data Warehouse, Selection process

9 viii LISTA DE FIGURAS Figura SpatialKey: alia dados demográficos a uma plataforma de mapas Figura SpatialKey: comparação da mesma região em tempos distintos Figura Visão geral do Data Warehouse Figura Arquitetura Genérica de um DW Figura O Data Warehouse: onde a Modelagem Dimensional é o destaque Figura Fatos e Dimensões em um Esquema em Estrela Figura Exemplo de um Esquema em Estrela com dados do setor de vendas Figura Esquema em Estrela para o processo de Vendas Figura Exemplo de Snowflake e Outriggers Figura Ambiente de Atuação do ETL Figura Visão geral do processo de ETL Figura Sequência a ser executada a carga do Modelo em Estrela Figura Processo de Carga de uma Tabela de Dimensão Figura Sequência do processo de carga de uma Tabela de Fatos Figura Questionário Sócio Econômico: comparação do número de questões Figura Manuais do Candidato ao Vestibular Figura Disciplinas com peso 2, processo seletivo 1º Semestre de Figura Software DataCleaner: Avaliação do CEP frente a uma Expressão Regular Figura Arquitetura Geral da Solução Proposta neste Trabalho Figura Resultado: Afrodescendência e Escolaridade Pública

10 ix LISTA DE TABELAS Tabela Sistemas de Suporte ao Operacional X Analíticos Tabela Tipos de Mudanças possíveis em atributos de uma tabela de dimensões Tabela Exemplos de Desafios da Integração de Dados Tabela Cuidados durante o processo de ETL Tabela Formulário Processo Seletivo FATEC - Etapas de preenchimento Tabela Planilhas Disponíveis - Inconsistências encontradas Tabela Gabaritos: diferenças na composição das provas Tabela Disciplina que compõem a prova 2011 primeiro semestre Tabela 6.5 Todos os candidatos de Escolas Públicas (Afro ou não) por cidade Tabela Dados Demográficos: Total de candidatos por Estado Tabela Dados Demográficos: Quantidade de candidatos por cidade Tabela Quantidade de candidatos por deficiência física Tabela Quantidade candidatos por estado civil Tabela Quantidade de candidatos por faixa etária Tabela Quantidade de candidatos entre anos Tabela Quantidade de candidatos por resposta à questão Tabela Quantidade de alunos por resposta à questão Tabela Quantidade de candidatos de por resposta à questão Tabela Quantidade de candidatos de por resposta à questão Tabela Quantidade de candidatos por opção de curso Tabela Quantidade de candidatos de por opção de curso Tabela Quantidade de candidatos de por opção de curso Tabela Quantidade de alunos de escola pública aprovados em 1º chamada por curso.. 87 Tabela Média dos Candidatos - Banco de Dados ou Redes Tabela Média dos Candidatos - Logística por disciplina Tabela Média dos Candidatos - Manutenção e Manufatura de aeronaves Tabela Comparação das médias nas disciplinas de todos os candidatos por curso Tabela Comparação das médias nas disciplinas dos candidatos de 1ª chamada

11 x LISTA DE ABREVIATURAS E SIGLAS BI - Business Intelligence DW - Data Warehouse DSS - Decision Support Systems ETL - Extract, Transform, Load EIS Executive Support System FAT - Fundação de Apoio à Tecnologia FATEC - Faculdade de Tecnologia do Estado de São Paulo FATEC-SJC - Faculdade de Tecnologia de São José dos Campos UFSC - Universidade Federal de Santa Catarina CEETEPS - Centro Estadual de Educação Tecnológica Paula Souza

12 xi SUMÁRIO 1 INTRODUÇÃO MOTIVAÇÃO DEFINIÇÃO DO PROBLEMA PROPOSTA DE SOLUÇÃO ORGANIZAÇÃO DO TRABALHO BUSINESS INTELLIGENCE E DATA WAREHOUSE BUSINESS INTELLIGENCE A EVOLUÇÃO DOS COMPONENTES DO BUSINESS INTELLIGENCE FATORES QUE COLABORARAM PARA ORIGEM DO DW DATA WAREHOUSE: O NOVO PARADIGMA Data Warehouse Arquitetura Genérica de um DW CONSIDERAÇÕES FINAIS MODELAGEM DIMENSIONAL DESIGN MULTIDIMENSIONAL Medidas e Contexto Reconhecendo Fatos e Dimensões O ESQUEMA EM ESTRELA Tabela de Dimensão Tabelas de Fatos SLOWLY CHANGING DIMENSIONS CONSIDERAÇÕES FINAIS ETL (EXTRACT, TRANSFORM, LOADING) DEFINIÇÃO BLOCOS BASE DO ETL DESAFIOS DA INTEGRAÇÃO DE DADOS CUIDADOS NO PLANEJAMENTO DO PROCESSO DE ETL CDC (CHANGE DATA CAPTURE) QUALIDADE DOS DADOS Profilling de Dados Validação de Dados CONSIDERAÇÕES FINAIS PROCESSO DE CONSTRUÇÃO DE UM DATA WAREHOUSE ATIVIDADES ENVOLVIDAS CARREGANDO AS TABELAS DE DIMENSÃO Pré-Processamento dos dados Processamento de Novos Registros... 49

13 xii Processamento de Mudanças do Tipo Processamento de Mudanças do Tipo PROCESSO DE CARGA DA TABELA DE FATOS Requisitos a serem atendidos Pré-Processamento dos dados IDENTIFICAÇÃO DAS CHAVES SUBSTITUTAS CONSIDERAÇÕES FINAIS PROPOSTA DE SOLUÇÃO O PROBLEMA ANALISADO O Processo Seletivo da FATEC ESCOPO DO TRABALHO FERRAMENTAS UTILIZADAS NO PROJETO Qualidade dos dados ETL Banco de Dados: MySQL ARQUITETURA DO PROTÓTIPO Primeira Etapa: FONTE DE DADOS Segunda Etapa: PROCESSO DE ETL Terceira Etapa: DATA WAREHOUSE Quarta Etapa: APRESENTAÇÃO DOCUMENTAÇÃO DO MODELO DIMENSIONAL RESULTADOS OBTIDOS Afrodescendência e Escolaridade Pública Dados Demográficos Dados Sócio Econômicos Opção de Curso e Desempenho do Candidato CONSIDERAÇÕES FINAIS CONSIDERAÇÕES FINAIS SOBRE O PRESENTE TRABALHO CONTRIBUIÇÕES E CONCLUSÕES TRABALHOS FUTUROS... 92

14 13 1 INTRODUÇÃO 1.1 Motivação A diminuição do custo de dispositivos de armazenamento e a internet disponibilizaram uma quantidade enorme de recursos que foram acumulados por organizações em diversos campos de atuação durante os anos. As instituições que foram capazes de transformar estes dados em informação e conhecimento conseguiram tomar decisões mais efetivas ganhando vantagem competitiva (VERCELLIS, 2009). Para as empresas, segundo Reeves (REEVES, 2009), o principal foco é aumentar as receitas e/ou reduzir custos, melhorando assim seu desempenho e aumentado o lucro. Para o setor público, o foco principal é o serviço oferecido aos cidadãos, assim como lidar com restrições orçamentárias e usar recursos sabiamente. Golfarelli (GOLFARELLI, 2009), por sua vez, afirma que existe uma propriedade comum aos ramos de atuação públicos e privados: a necessidade de ferramentas para extrair informações desta grande quantidade de dados de maneira rápida e fácil. As informações retiradas podem ajudar a estudar o funcionamento de uma organização, as correlações entre seus processos internos e auxiliar em seu processo de tomada de decisões estratégicas. Neste intuito muitos esforços vêm sendo aplicados na tentativa de reunir estas informações assim como facilitar as suas interpretações, tendo os sistemas de Business Intelligence (BI) alcançado sucesso no mercado empresarial com ferramentas de previsão de custos, relatórios e tomada de decisões (WILLIAMS, 2007). Na área da educação, os sistemas de BI podem ser utilizados em diferentes contextos. No trabalho proposto por Piedade (PIEDADE, 2009), por exemplo, o intuito foi identificar fatores que promovem o sucesso dos estudantes, para que sejam planejadas estratégias para se evitar a evasão escolar. Outro exemplo na área educacional pode ser encontrado no trabalho realizado por Shigunov (SHIGUNOV, 2007). Neste trabalho, as técnicas de BI foram utilizadas para avaliar o desempenho dos candidatos ao vestibular da Universidade Federal de Santa Catarina (UFSC, 2010), de maneira a facilitar a detecção de possíveis deficiências em seu processo seletivo. Seguindo os exemplos citados acima, este trabalho terá como objetivo final a utilização de técnicas de BI sobre os dados provenientes das fichas de inscrição, assim como

15 14 os de desempenho dos candidatos ao vestibular da Faculdade de Tecnologia de São José dos Campos (FATEC-SJC, 2010), de maneira a se extrair informações que auxiliem a tomada de decisões estratégicas pelas pessoas responsáveis pelo planejamento educacional da instituição. As informações provenientes desta análise podem facilitar, por exemplo, a observação de deficiências em uma determinada disciplina nos alunos entrantes, auxiliando a instituição a tomar uma decisão como ministrar aulas iniciais de reforço, fazendo com que os alunos se motivem mais com o curso, evitando assim o aumento nas evasões. As mesmas informações podem direcionar os esforços de iniciativas como o VESTEC (VESTEC, 2010), um curso pré-vestibular gratuito criado por iniciativa de alunos da FATEC-SJC, servindo de base para avaliar quais matérias seriam candidatas a grupos de reforço ou estudos, direcionados ao vestibular da instituição. Conhecer o perfil do candidato é outro fator que motiva este trabalho. Sua idade, localização, faixa etária, assim como outras informações são importantes para o planejamento estratégico da FATEC-SJC como instituição pública de ensino superior, responsável por oferecer currículos que respondem ao desenvolvimento tecnológico e econômico do país e que se adéquam às demandas sociais de bens e serviços. Tendo em mãos dados regionais e aliando-os a um mapa (Figura 1.1), por exemplo, tanto a instituição quanto os responsáveis por políticas públicas no setor educacional no estado, poderiam avaliar a eficiência de suas ações, assim como conhecer a distribuição geográfica de seus candidatos e compará-la em tempos distintos (Figura 1.2), avaliando a eficiência na operação de divulgação de seu vestibular por exemplo. Figura SpatialKey: alia dados demográficos a uma plataforma de mapas. Fonte: SPATIALKEY (2010). Figura SpatialKey: comparação da mesma região em tempos distintos. Fonte: SPATIALKEY (2010).

16 15 Este mesmo recurso citado aliado a outras informações e técnicas podem evidenciar demandas a serem supridas por novos investimentos ou políticas educacionais por parte do estado por exemplo. Portanto, este trabalho vem atender essa necessidade apresentada pela instituição FATEC-SJC em relação à análise de seus dados de uma maneira estratégica, propondo para isso uma solução, que poderá ser enriquecida em trabalhos futuros utilizando-se outras técnicas que se beneficiarão da arquitetura proposta neste projeto. 1.2 Definição do Problema A FATEC-SJC acumula a cada processo seletivo, um conjunto de dados referentes à ficha de inscrição e desempenho de seus candidatos. Entretanto, inexiste atualmente uma forma eficiente de se analisar e interpretar estes dados históricos dentro da instituição. Desta maneira, muitas informações estratégicas poderiam auxiliar no processo decisório da instituição são mal aproveitadas. O presente trabalho visa suprir esta necessidade, sendo uma primeira etapa, que poderá ser complementada com trabalhos futuros, focado em outras áreas, que não a de análise do processo seletivo da instituição. 1.3 Proposta de Solução Este trabalho propõe a modelagem dos dados provenientes do vestibular FATEC-SJC de maneira a utilizá-los de forma analítica, utilizando para isto técnicas de modelagem e ferramentas disponíveis na área de BI. Os dados coletados no processo seletivo da instituição serão preparados e modelados de forma a facilitar e auxiliar à tomada de decisão quanto ao planejamento educacional e estratégico da instituição. O primeiro passo para o desenvolvimento da solução proposta é extrair os dados relevantes à construção de um modelo analítico. Estes dados se encontram em arquivos que contém o cadastro dos candidatos assim como os seus respectivos desempenhos no processo

17 16 seletivo da FATEC-SJC. Deverá ser realizada uma seleção, padronização e filtragem de maneira que se possam retirar possíveis inconsistências. O segundo passo é a construção do modelo analítico a ser aplicado sobre estes dados extraídos, para que seja montada uma arquitetura baseada na técnica de Data Warehouse. O terceiro e último passo é o desenvolvimento de um protótipo usado para exibir os relatórios usados pelos usuários finais que desejarem melhorar seu processo decisório. 1.4 Organização do Trabalho Este trabalho está organizado da seguinte forma: a) Os Capítulos de número 2 ao 5 são dedicados a Revisão da Literatura referente ao tema do trabalho: Capítulo 2: apresenta o conceito de Business Intelligence, sua evolução e principais componentes constituintes, dando ênfase à técnica de Data Warehouse; Capítulo 3: apresenta a técnica de Modelagem Dimensional e os principais conceitos que serviram de base para a criação da solução proposta neste trabalho; Capítulo 4: aborda os principais conceitos e técnicas dentro de um dos principais processos envolvidos na construção de um Data Warehouse, o processo de ETL (Extract, Transform, Loading); Capítulo 5: aborda a sequência em que será realizada a criação do Data Warehouse proposto assim como os principais detalhes e conceitos envolvidos. b) O Capítulo 6 aborda os detalhes do problema a ser resolvido pela solução proposta, a arquitetura da solução, as ferramentas utilizadas em cada etapa de seu desenvolvimento, assim como toda a documentação que foi criada sobre a análise dos requisitos; c) O Capítulo 7 apresenta as considerações finais deste trabalho.

18 17 2 BUSINESS INTELLIGENCE E DATA WAREHOUSE 2.1 Business Intelligence Business Intelligence é um termo abrangente, utilizado para descrever uma variedade de técnicas voltadas a identificar, extrair e analisar dados de modo a se obter informações importantes sobre o desempenho empresarial. O objetivo final é utilizar estas informações para tornar mais eficiente o processo de tomada de decisões pelos gestores das empresas (Willians 2007). A origem do conceito de BI remete ao artigo A Business Intelligence System, escrito por Hans Peter Luhn no jornal IBM System Journal em 1958 (LUHN, 1958). Neste artigo, o termo inteligência foi definido como: A habilidade de encontrar relações presentes em fatos de maneira a guiar ações a determinado objetivo. Segundo Bouman e Dongen (BOUMAN, 2010), este artigo é considerado hoje em dia por muitos o marco para o desenvolvimento dos atuais sistemas de BI. A definição dada por Luhn (LUHN, 1958) ainda é válida, entretanto, o termo BI foi reintroduzido e popularizado por Howard Dresner em 1989, na época trabalhando como analista do grupo de pesquisa Gartner Inc (GARTNER, 2011). Naquele tempo, a indústria de software estava focada em acrônimos como DSS (Decision Support Sytem) e EIS (Executive Support System), mas Dresner estava procurando um termo mais geral, que unificasse e definisse melhor o conceito de se analisar dados para tomadas de decisões no contexto empresarial. Deste modo, ele definiu BI como sendo: Conceitos e métodos para melhorar o processo de tomada de decisão em negócios utilizando-se sistemas de suporte baseados em fatos. As definições de Hans Peter Luhn e Howard Dresner têm em comum a característica de serem gerais, não focando em uma tecnologia específica, e de terem o foco na resolução de problemas utilizando-se sistemas baseados em fatos. Uma característica importante em comum entre as diferentes definições apresentadas - a tomada de decisões a partir da análise de fatos - é justamente a base para os atuais sistemas de BI. Desta maneira, para tomar melhores decisões baseadas em fatos, os sistemas atuais devem retirar a informação factual de um ou mais sistemas de informação, integrá-las, e

19 18 apresentá-las ao usuário final de uma maneira útil, em relatórios ou análises que ajudarão a compreender o desempenho passado e presente da organização analisada. 2.2 A evolução dos componentes do Business Intelligence Segundo Ponniah (PONNIAH, 2010), as organizações usam sistemas computacionais desde a década de 60 e conforme foram crescendo se tornaram completamente dependentes destes para suportar seus processos de negócio. Estes sistemas são efetivos para o que foram criados, suportando com sucesso as rotinas operacionais do dia a dia. Na década de 90 as organizações começaram a ficar mais complexas, corporações se expandiram globalmente, e a concorrência entre empresas se tornou mais acirrada, com executivos buscando cada vez mais informações para se manterem competitivos. Os sistemas que suportam o dia a dia operacional continuaram a fornecer a base necessária para o correto funcionamento das empresas, entretanto, o que os executivos necessitavam eram diferentes tipos de informações em um formato próprio que pudessem auxiliá-los no processo decisório. Desta maneira, várias soluções foram propostas dentro das empresas com este enfoque, como pode ser visto a seguir nos estágios evolutivos dos Sistemas de Suporte a Decisão: Relatórios: Foi uma tentativa inicial de fornecer informações estratégicas. Usuários fazem requisição para o departamento de Tecnologia da Informação (TI) que programará os relatórios especialmente para aquela requisição; Programas de Extração de Dados: Tentativa das equipes de TI em antecipar alguns tipos de relatórios. Os profissionais de TI criam uma série de programas especializados em extrair os dados de suas respectivas fontes de tempo em tempo; Pequenas Aplicações: O processo de extração dos dados já está formalizado, podendo-se criar aplicações. Os profissionais de TI podem criar aplicações em que o usuário possa estipular parâmetros para cada relatório tendo a opção de impressão ou visualização dos resultados filtrados de acordo com parâmetros; Centros de Informação: No início da década de 70, algumas grandes corporações criaram o que se denominou de Centros de Informação. Os usuários poderiam ir

20 19 até estes centros e requisitar relatórios específicos ou ver informações de relatórios pré-definidos em telas informativas. Decision-Support Systems (DSS): Surgem aplicações mais sofisticadas com intenção de fornecer algo que pode se caracterizar como informações estratégicas. Novamente, parecido com as outras iniciativas anteriores, estes sistemas eram baseados nos dados extraídos de arquivos. Os sistemas eram orientados a menus e proviam informações online e habilidade de se criar relatórios específicos. Executive Information Systems (EIS): Tentativa de levar as informações estratégicas ao computador dos executivos de focando na simplicidade e facilidade de uso. O sistema exibe informações chaves todos os dias e provê a habilidade de se construir relatórios de maneira simplificada. Entretanto, apenas telas e relatórios pré-programados eram disponíveis. Segundo Ponniah (PONNIAH, 2010), todas as estratégias apresentadas foram insatisfatórias em fornecerem as informações estratégicas que os gestores necessitavam. Os seguintes fatores colaboraram para que estas técnicas não obtivessem o sucesso previsto: Os usuários finais dependem totalmente dos profissionais de TI para lhes prover a informação, pois não acessam a informação diretamente, apenas por relatórios pré-programados; As informações requisitadas podem mudar de tempos em tempos, necessitando reformular programas e relatórios. Além dos fatores listados anteriormente, a razão fundamental para que estas estratégias não tenham sido bem sucedidas é que todas procuraram prover as informações estratégicas usando diretamente os dados na forma em que eram usados nos sistemas de suporte ao operacional. Estes sistemas, tais como os responsáveis pelo controle de estoque, pagamento de contas, processamento de pedidos, e outros, não foram criados de forma a prover informações estratégicas em sua concepção original. Na seção que segue será dada sequência dos principais fatores que contribuíram para o nascimento da técnica de DW como uma solução analítica.

21 Fatores que colaboraram para origem do DW Os sistemas de suporte ao operacional são classificados como Online Transaction Processing Systems (OLTP), especializados em transações que processam informações sobre uma entidade única como uma ordem de compra, um pagamento, ou um cliente específico. Portanto, estes sistemas são tipicamente modelados e especializados em inserir e atualizar dados nos bancos de dados (DATE, 2003). Baseado nas diferenças expostas entre os sistemas de suporte operacionais e os sistemas analíticos procurou-se modelar e criar um sistema de informação que tivesse escopo, propósitos, conteúdo, padrão de uso e tipos de acesso diferentes dos sistemas propostos anteriormente. Desta maneira, nasce o DW como um novo paradigma, voltado especificamente para sanar a necessidade dos gestores por informações estratégicas. Segundo Adamson (ADAMSON, 2010), as principais diferenças entre os sistemas de suporte operacional e o analítico podem ser vistas na Tabela 2.2. Tabela Sistemas de Suporte ao Operacional X Analíticos Propósito OPERACIONAL Execução dos processos de negócio ANALÍTICO Avaliação dos processos da empresa Conteúdo dos dados Valores recentes Valores recentes e passados Estrutura dos dados Otimizada para transações individuais Otimizada para consultas complexas (agregações) Frequência de Acesso Alta Média a Baixa Tipo de Acesso Leitura, Atualização, Eliminação Leitura Uso Previsível e Repetitivo Randômico, Heurístico Tempo de Resposta Milissegundos Alguns segundos a minutos Usuários Grande Número Número Relativamente Pequeno Fonte: Adaptado de Adamson (2010).

22 Data Warehouse: o novo paradigma Este novo modelo começou a ser implementado nas empresas no final da década de 80 e início dos anos 90, preconizando que o DW deve ser mantido separado dos sistemas que suportam a rotina operacional da empresa, dedicado exclusivamente a tomada de decisões estratégicas (Ponniah, 2010). Uma visão geral do DW como fonte de informações estratégicas pode ser visto na Figura 2.1. De uma maneira bem geral o DW contém as métricas críticas dos processos de negócio da empresa guardados em diferentes contextos. Por exemplo, unidade de vendas por produto, dia, grupo de clientes, região, promoção etc. A unidade de vendas representa a métrica sendo medida, enquanto que produto, dia e os demais atributos demonstram o contexto em que essa medida está sendo avaliada (Adamson, 2010). DADOS OPERACIONAIS EXTRAÇÃO, LIMPEZA E AGREGAÇÃO INFORMAÇÕES ESTRATÉGICAS Medidas Chave / Dimensões de Negócio SISTEMAS OPERACIONAIS TRANSFORMAÇÃO DOS DADOS DATA WAREHOUSE Figura Visão geral do Data Warehouse. Fonte: Adaptado de Ponniah (2010). Nas subseções que seguem serão apresentadas definições mais formais para o termo DW assim como os seus principais componentes desta técnica.

23 Data Warehouse De acordo com Bouman e Dougen (2010), assim como BI, os conceitos utilizados em um Data Warehouse foram utilizados antes mesmo de o termo ter sido definido por Willian H. Inmon (INMON, 1990). Barry Devlin e Paul Murphy, em 1988, expuseram os conceitos fundamentais usados até hoje nos sistemas de DW (DEVLIN e MURPHY, 1988). Eles definiram o conceito de um Business Data Warehouse (BDW) como sendo: Um local único de armazenamento lógico de toda a informação utilizada para extrair relatórios sobre um determinado negócio Inmon (INMON, 1990) por sua vez, contribuiu com sua definição dizendo que o DW é uma coleção de dados que suporta decisões gerenciais e que possui as seguintes características: Orientado a Assuntos : Todas as entidades e eventos estão relacionadas a determinado assunto, por exemplo, vendas; Variante com o Tempo : Todas as mudanças nos dados são guardadas para permitir relatórios que mostram mudanças ao longo do tempo; Não volátil : Os dados que entram em um DW nunca são sobrepostos ou eliminados (apenas no caso de falhas); Integrado : contém dado de múltiplas fontes de dados depois de serem limpos e padronizados, mostrando uma visão única sobre determinado assunto Single version of the truth. Segundo Ponniah (2010), a criação de um ambiente separado para o DW acarretou em benefícios tais como: Visão integrada e total dos dados da empresa; Dados recentes e históricos facilmente acessíveis para a tomada de decisão; Tornar possíveis Sistemas de Suporte a Decisão sem sobrecarregar os Sistemas de Suporte ao Operacional; Tornar a informação consistente dentro de toda a organização.

24 23 Ao longo dos anos, para se garantir os princípios enunciados acima, diferentes arquiteturas foram propostas, assim como formas de se modelar os dados em um DW, entretanto, uma característica que todos os autores concordam é que o DW deve ser um repositório de dados separado, dedicado a análise e relatórios, assim como preconizado no trabalho feito por Devlin e Murphy (1988). A subseção que segue apresenta uma arquitetura genérica para o ambiente do DW assim como seus componentes principais Arquitetura Genérica de um DW Segundo Kimball (2002), existem quatro componentes separados e distintos a serem considerados em um ambiente de DW sistemas de suporte ao operacional, uma área de estágio de dados, uma área de representação de dados, e uma ferramenta de acesso. Existem diversas arquiteturas específicas para um DW. Bouman e Dongen (2010) apresentam uma arquitetura genérica explicando cada um de seus componentes. O diagrama utilizado por ele foi adaptado e pode ser visto na Figura 2.2. Este mesmo diagrama pode ser analisado e interpretado como o descrito abaixo: FONTE DE DADOS : Uma ou mais fontes de dados provenientes de diferentes sistemas dentro da empresa; PROCESSO DE ETL : Um processo para extrair, transformar e carregar os dados no DW denominado ETL (Extract, Transform, Loading). Utilizando-se para isso uma área intermediária denominada área de estágio. Este componente e o processo de ETL serão apresentados em maiores detalhes no Capítulo 4; DATA WAREHOUSE : Composto pelo DW, que consiste em um banco de dados central e zero ou mais Data Marts. Data Marts, segundo Inmon (1990), são um subconjunto de dados presentes no DW que foram modelados de forma a atender as necessidades analíticas de uma determinada área de negócio, por exemplo, vendas;

25 24 APRESENTAÇÃO : Uma camada composta de várias ferramentas para trabalhar com os dados e exibi-los ao usuário final. Extraindo os dados diretamente do DW. Este tópico, entretanto, estará fora do escopo deste trabalho. 2.5 Considerações Finais Este capítulo abordou um resumo dos principais conceitos de Business Intelligence e o nascimento de uma de suas técnicas mais importantes atualmente, o Data Warehouse, que consiste na base da solução proposta neste trabalho, sendo a utilização desta técnica um de seus objetivos específicos. O capítulo que segue apresentará o assunto Modelagem Dimensional, cujos conceitos elucidam como o DW organiza seus dados e funcionamento de forma a cumprir seu papel analítico.

26 25 Figura Arquitetura Genérica de um DW. Fonte: Adaptado de (BOUMAN e DONGEN, 2010).

27 26 3 MODELAGEM DIMENSIONAL O presente capítulo apresenta o assunto Modelagem Dimensional dentro do processo de criação de uma DW. Este capítulo tem como base teórica os livros dos autores Ralph Kimball (2002) e Christopher Adamson (2010). O primeiro autor foi escolhido por ser criador da base de quase tudo que é utilizado hoje em Modelagem Dimensional, enquanto o segundo foi escolhido por possuir uma abordagem didática única dentre os livros de Modelagem Dimensional utilizados como referência neste trabalho. A Figura 3.1 isola os tópicos a serem abordados. Figura O Data Warehouse: onde a Modelagem Dimensional é o destaque. Fonte: Adaptado de Bouman e Dongen (2010). 3.1 Design Multidimensional Conforme foi apresentado no Capítulo 2, os Sistemas de Informação são classificados em duas categorias principais: os que suportam a execução dos processos de negócio e aqueles que suportam a análise dos processos de negócio. Seus propósitos distintos refletem diferentes perfis de uso, sugerindo assim que diferentes princípios irão guiar seu design.

28 27 Kimball (2002) explica que a Modelagem Dimensional (MD) é o nome dado a uma técnica de design lógico diferente do tradicional modelo utilizado nos sistemas de caráter operacional. O autor afirma ser uma técnica que procura apresentar os dados em uma maneira padronizada, intuitiva e que permita um acesso de alto-desempenho. A técnica de MD ajuda na análise de negócios de uma maneira simples: ela modela a medida dos processos de negócios. Desta maneira, o modelo dimensional de um processo de negócios é composto por dois componentes: medidas e seu contexto (ADAMSON, 2010) Medidas e Contexto As medidas são denominadas fatos, e o contexto dimensões. Estes componentes são organizados em um design de banco de dados que facilita uma variedade de usos analíticos (BOUMAN e DONGEM, 2010). Segundo Adamson (2010), se implementado em um Banco de Dados Relacional, este modelo será chamado de Esquema em Estrela, mas se implementado em um Banco de Dados Multidimensional, será chamado de Cubo. O nome Esquema em Estrela foi dado porque a disposição dos componentes constituintes deste modelo se parece com o formato de uma estrela (Figura 3.2). (Contexto) DIMENSÃO TEMPO (Contexto) DIMENSÃO (Contexto) DIMENSÃO CLIENTE PRODUTO (Medidas) FATOS VENDAS (Contexto) DIMENSÃO (Contexto) DIMENSÃO PROMOÇÃO LOJA Figura Fatos e Dimensões em um Esquema em Estrela. Fonte: Adaptado de Bouman (2010). Figura Exemplo de um Esquema em Estrela com dados do setor de vendas. Fonte: Adaptado de Bouman (2010).

29 28 O centro de cada modelo dimensional é um conjunto de métricas de negócio que demonstram como o processo é avaliado, ligado a uma ou mais tabelas que garantem o contexto em que cada medida central foi avaliada (Figuras 3.2 e 3.3). O presente trabalho irá se focar na modelagem dimensional utilizando-se um Banco de Dados Relacional, portanto, mais informações sobre a modelagem dimensional em Banco de Dados Multidimensionais podem ser encontradas em Bouman (2010), Adamson (2010) ou Kimball (2002) Reconhecendo Fatos e Dimensões Segundo Bouman (2010), a distinção entre o que é fato e o que é dimensão dentro da análise de um problema nem sempre é clara, mas uma explicação simples dada pelo autor é de que as tabelas de dimensão contêm informações qualitativas sobre as entidades de negócio (clientes, produtos, lojas) e as tabelas de fatos sobre eventos de negócios (vendas, compras, pedidos), ou seja, dados quantitativos em geral. Adamson (2010) explica que por se tratarem de medidas, os fatos tendem a ser numéricos em valor, e as pessoas querem vê-los em vários níveis de detalhes. Kimball (2002) afirma que os fatos mais úteis são numéricos e aditivos, tais como a quantidade vendida de determinado produto. A propriedade aditiva do fato é crucial porque aplicações de DW quase nunca trabalham em cima de uma única linha do Banco de Dados, ao invés disso trabalham com centenas, milhares e até milhões de linhas de ao mesmo tempo, e a operação mais útil de ser realizada com tantas linhas é somá-las. Podem-se identificar fatos olhando para as coisas que as pessoas querem medir. Enquanto que em uma declaração escrita ou falada, a palavra "por" e para é quase sempre seguida de uma dimensão (ADAMSON, 2010). Considere a questão abaixo: Qual a quantidade de pedidos em dólares por categoria de produto para janeiro? Neste caso a pessoa que solicita esta pergunta quer uma medição separada para cada categoria de produto, como indica a expressão "por categoria de produto". A categoria de produto é uma dimensão, assim como janeiro é um valor ou instância de uma dimensão. Apesar da dimensão tempo não ter sido nomeada, pode-se inferir que é mês e o que

30 29 se quer medir é a quantidade de pedidos em dólares, representando desta maneira o fato a ser analisado. Qual a quantidade de pedidos em dólares por categoria de produto para Janeiro? FATO DIMENSÃO DIMENSÃO Mas, nem tudo o que é numérico é um fato. Às vezes, um elemento de dados numérico é uma dimensão. Adamson (2010) explica que a chave é determinar como o atributo está sendo usado. É algo que pode ser especificado em diferentes níveis de detalhe? Se assim for, é um fato. Esta fornecendo um contexto? Se assim for, é uma dimensão. Exemplo: "Mostre-me a margem em dólares por número de pedido" A sentença acima contém dois elementos numéricos. A margem em dólares pode ser especificada em diferentes níveis de detalhe, e quem pergunta está pedindo que seja agrupado pelo número do pedido. Sendo assim a "margem em dólares" é um fato. Mas e o número do pedido? Ele também é numérico, mas o falante não está pedindo que os números de pedido sejam somados. Em vez disso, o número do pedido está sendo usado para especificar o contexto para a margem em dólares. Neste caso o número do pedido é uma dimensão. "Mostre-me a margem em dólares por número de pedido" FATO DIMENSÃO Outros exemplos de dados numéricos comportando-se como dimensões incluem o tamanho, idade, números de telefone, números de documentos, e os montantes unitários, tais como custo unitário ou preço unitário. A dica de que estes elementos são dimensões reside em sua utilização.

31 O Esquema em Estrela No Modelo Dimensional denominado de Esquema em Estrela, os contextos são agrupadas em tabelas de dimensão e os fatos são armazenados nas colunas de uma tabela de fatos. A Figura 3.4 mostra um Esquema em Estrela simples baseado nos fatos e dimensões para o processo de vendas. Figura Esquema em Estrela para o processo de Vendas. Fonte: Adaptado de Adamson (2010).

32 31 As seções que seguem descrevem os componentes principais que compõem a modelagem dimensional e um Esquema em Estrela em maiores detalhes Tabela de Dimensão As Tabelas de Dimensão possuem as colunas que serão usadas para fornecer um rico contexto necessário para o estudo dos fatos, geralmente sob a forma de rótulos textuais que antecedem os fatos em cada linha de um relatório. Elas também podem ser usadas para conduzir as relações de maior ou menor detalhe, subtotalização ou ordenações (Adamson, 2010). Segundo Kimball (2002), os atributos das Tabelas de Dimensão têm um papel vital dentro de um DW, pois são fonte de todo o tipo de filtragem que pode ser realizada nos dados analisados. O autor afirma que o poder de um DW é diretamente proporcional à qualidade e abrangência de seus atributos dimensionais. Estas tabelas apresentam uma série de características: Contém descritores textuais do negócio; Costumam ter muitas colunas ou atributos (de 50 a 100); Os campos devem ser palavras reais evitando-se utilizar códigos ou abreviações; Geralmente o número de linhas é menor que um milhão, representando no total de espaço consumido por tabelas geralmente igual a 10% do tamanho do banco; Informações descritivas hierárquicas são armazenadas de modo redundante. Ex.: categoria de produto presente na tabela DIM_PRODUTO (Figura 3.4). Tabelas de Dimensão conseguem representar relações hierárquicas dos negócios, mas colocando-as em uma mesma tabela. A Figura 3.4 mostra o atributo categoria na tabela de dimensão produto. Para cada linha da tabela produto, a informação descritiva sobre a categoria do produto é guardada de forma redundante. É realizado desta maneira para facilitar o uso e por motivos de performance. Uma característica marcante das tabelas de dimensão é que são tipicamente desnormalizadas (Kimbal, 2002). Como geralmente são pequenas e geometricamente menores

33 32 que as tabelas de fatos, a melhora na eficiência de armazenamento ao se normalizar não terá impacto significante sobre o tamanho global do Banco de Dados. Além disso, o impacto causado ao ter que fazer uma junção com esta tabela inserida não compensa a quantidade de espaço ganho. Prefere-se então não se preocupar com o tamanho da Tabela de Dimensão, priorizando-se assim a simplicidade e acessibilidade Outriggers e Snowflakes A normalização trás benefícios para os sistemas operacionais, que devem suportar a uma variedade de transações concorrentes, sendo fator decisivo para que seja mantida a integridade dos dados. Os sistemas analíticos por sua vez são usados de maneira diferente, possuindo um comportamento de uso normalmente focado em consultas. Desta maneira, as Tabelas de Dimensão contém várias redundâncias. Entretanto existem algumas situações onde o uso limitado de normalizações trás benefícios analíticos. Neste tipo de normalização a tabela que se liga a dimensão recebe o nome de Outrigger, enquanto que o modelo final recebe o nome de Snowflake devido à forma da disposição de suas tabelas (Figura 3.5). Na Figura 3.5 a tabela Categoria seria apenas requerida se a categoria do produto mudasse demais em tempos relativamente curtos, o que faria com que um número grande de linhas repetidas para guardar o histórico de mudanças fosse gerado. Desta maneira o atributo de categoria poderia ser colocado em uma tabela denominada Outrigger. Outro tipo de Outrigger válido é visto na tabela de dimensão DIM_PROMOCAO (Figura 3.5). Os atributos Promocao_Data_Inicio e Promocao_Data_Fim são links para visões da tabela Data, a visão VIEW_DATA_PROMOCAO é um Outrigger neste modelo Chaves e história Em um Esquema em Estrela, cada tabela de dimensão recebe uma Chave Substituta (Surrogate Key). Esta coluna é um identificador único, criado exclusivamente para o DW e são atribuídas e mantidas como parte do processo de carga do Esquema em Estrela.

34 33 Figura Exemplo de Snowflake e Outriggers. Fonte: Adaptado de Adamson (2010). A chave substituta não tem um significado intrínseco; ela é tipicamente um número inteiro sendo a chave primária da tabela de dimensão. As tabelas de dimensão também contêm colunas chave que identificam unicamente algo em um sistema de suporte ao operacional. Encontramos exemplos na Figura 3.4: Cliente_ID, Loja_ID, Promocao_ID e Produto_SKU. Nestes sistemas, estas colunas identificam clientes específicos, lojas, promoções e produtos respectivamente. Estas colunas chave são referidas como Chaves Naturais. A separação das Chaves Substitutas e Chaves Naturais permite que o armazém de dados possa rastrear mudanças, mesmo que o sistema operacional original não possa. Por exemplo, suponha que o cliente de nome Ana Maria seja identificado pelo valor de Cliente_ID 10 em um sistema operacional. Se o cliente muda sua sede local, o sistema operacional pode simplesmente sobrescrever o endereço do Cliente_ID 10. Para fins de análise, no entanto, pode ser útil rastrear a história do consumidor Ana Maria. Como o modelo em estrela não utiliza Cliente_ID para identificar uma linha única na dimensão do

35 34 Cliente, é possível armazenar várias versões de ABC, embora ambos tenham o mesmo Cliente_ID igual a 10. As duas versões podem ser distinguidas por diferentes valores de Chave Substituta Tabelas de Fatos O núcleo de um modelo em estrela é a Tabela de Fatos. Além de apresentar os fatos ela inclui Chaves Substitutas que a ligam às tabelas de dimensões. O Esquema em Estrela simples da Figura 3.5, por exemplo, inclui os fatos Venda_Valor, Venda_Custo, Venda_Lucro e Venda_Quantidade. A tabela inclui também chaves substitutas que se referem a clientes, datas, produtos, lojas e promoções que ocorreram as vendas. Juntas, as chaves estrangeiras de uma tabela de fatos são consideradas às vezes para identificar uma única linha na tabela fato. Isto é certamente verdadeiro na Figura 3.4, onde cada linha da tabela fato representa pedidos de um produto vendido por um vendedor a um cliente em um determinado dia. Em outros casos, no entanto, as chaves estrangeiras de uma tabela de fatos não são suficientes para identificar uma linha única. Cada linha na tabela de fatos armazena dados em um determinado nível de detalhe. Este nível de detalhe é conhecido como granularidade da tabela de fato. A lista de dimensões define a granularidade em que as medidas na tabela de fatos estão e todas as medidas em uma tabela de fatos devem estar no mesmo nível de detalhe. As informações contidas nas tabelas de fatos podem ser consumidas em uma variedade de níveis diferentes, no entanto, deve-se previamente agregar os dados a um mesmo nível de detalhe. Os fatos nestas tabelas são medições realizadas em negócios representando uma quantidade. Em sua maioria os fatos são aditivos, entretanto existem fatos semi-aditivos e até não aditivos. No caso dos semi-aditivos podemos utilizar contagens e médias para resumir linhas. As tabelas de fatos possuem algumas características: Tendem a ser complexas no número de linhas, mas simples no número de colunas;

36 35 Granularidades: existem três tipos de tabelas de fatos que serão descritas com mais detalhes na subseção que se segue. Os tipos são: Transação, Instantâneo Periódico e Instantâneo Acumulado; Possui uma chave composta formada pela chave substituta de cada uma de dimensões que formam o modelo; Expressam relações de muitos-para-muitos em modelos dimensionais; Costumam consumir 90% do espaço de um Banco de Dados Tipos de Tabelas de Fatos Existem três tipos de Tabelas de Fatos: Transacionais: acompanham as atividades individuais que definem um processo de negócio e suportam diversos fatos que descrevem estas características; Instantâneo Periódico: amostras de medidas periódicas de estado tais como balanços ou níveis. Estas medidas podem ser equivalentes ao efeito cumulativo de uma série de transações, mas não são fáceis de estudar neste formato. Algumas medidas como temperatura não podem ser modeladas como transações, por exemplo; Instantâneo Acumulativo: é usado para acompanhar o progresso de um item individual durante uma série de passos de processamento. Permite o estudo do tempo passado entre etapas chaves de um processo ou eventos. Este tipo de tabela de fato correlaciona várias atividades diferentes em uma única linha. Segundo Adamson (2010), para criaro melhor Modelo Dimensional para um processo de negócio deve-se pensar em algum destes tipos de Tabela de Fatos. Alguns processos de negócios pode requerer apenas uma Tabela de Fatos, mas outras podem requerer mais de uma. Portanto, deve-se escolher o tipo de tabela certa para cada situação.

37 Slowly Changing Dimensions Segundo Kimball (2002), inicialmente assume-se que as Tabelas de Dimensões sejam logicamente independentes entre si e que em particular sejam independentes do tempo. Entretanto, isto não acontece no mundo real. Apesar dos atributos em uma tabela de dimensão se manterem relativamente estáticos, não são fixos indefinidamente. Os atributos das dimensões mudam, embora em uma velocidade relativamente baixa ao longo do tempo. Quando necessitamos monitorar as mudanças que ocorrem nos atributos das dimensões é inaceitável colocar tudo na tabela de fatos ou fazer com que cada dimensão se torne dependente do tempo. Estaríamos normalizado-a e consequentemente perdendo a facilidade de entendimento do modelo e performance. Ao invés disso, aproveitamos o fato que a maioria das dimensões são aproximadamente constantes ao longo do tempo. Desta maneira, podemos preservar esta estrutura de dimensões independentes com relativamente poucos ajustes para lidar com estas mudanças. O termo Slowly Changing Dimensions (Dimensões que Mudam Lentamente) refere-se exatamente à frequência relativamente baixa em que as dimensões acumulam mudanças se comparada com as tabelas de fatos, que acumulam linhas a uma velocidade maior (KIMBALL, 2002). À medida que os dados são atualizados nos sistemas operacionais deve-se tomar alguma atitude do lado do DW nas tabelas que são alimentadas por estes sistemas. Segundo Kimball (KIMBALL, 2002), devemos especificar uma estratégia para lidar com a mudança de cada atributo das tabelas de dimensão. Desta maneira, os sistemas analíticos deverão adequar seus modelos dimensionais às mudanças vindas do ambiente operacional.. Existem três técnicas básicas para lidar com mudanças de atributos, assim como um conjunto de técnicas híbridas. Pode-se decidir aplicar uma ou mais técnicas destas, por exemplo, em uma única tabela: 1. Sobrescreve-se o valor do atributo na tabela de dimensão 2. Insere uma nova linha na tabela de dimensão 3. Insere uma nova coluna na tabela de dimensão tabela 3.1: Cada uma destas técnicas possuem vantagens e desvantagens que são apresentadas na

38 37 Tabela Tipos de Mudanças possíveis em atributos de uma tabela de dimensões. TIPOS DE MUDANÇAS Tipo 1 Tipo 2 Tipo 3 Dificuldade de Implementação Frequência no DW Baixa Média Média Baixa Alta Baixa Descrição O atributo é sobrescrito Inserir um novo registro com nova chave substituta Adicionar nova coluna a cada mudança Quando Usar? Correção Guardar o histórico Quando não conseguimos associar o novo valor do atributo ao antigo histórico de fatos ou vice-versa Desvantagem Perdemos o Histórico Muitas mudanças causam impacto em armazenamento Impacto em armazenamento, pois repete-se dados da coluna para cada registro no banco Fonte: Adaptado de Adamson (2010). 3.4 Considerações Finais Este capítulo abordou um resumo dos principais conceitos sobre o assunto Modelagem Dimensional e que foram importantes para o desenvolvimento da solução proposta neste trabalho. O capítulo que segue apresentará o assunto ETL, cujos conceitos elucidam o processo de obtenção a manipulação e a carga de dados no DW.

39 38 4 ETL (EXTRACT, TRANSFORM, LOADING) O presente capítulo apresenta o assunto ETL dentro do processo de criação de uma DW. Este capítulo tem como base teórica os livros dos autores Ralph Kimball e Joe Caserta (2004) e Caster et al. (2010). A figura abaixo isolam os tópicos a serem abordados. Figura Ambiente de Atuação do ETL. Fonte: Adaptado de Adamson (2010). 4.1 Definição O acrônimo ETL (Extract, Transform, Load) corresponde especificamente a Extração, Transformação e Carga. Uma definição mais formal seria: um conjunto de processos para retirar dados dos sistemas OLTP (Online Transaction Processing) e colocá-los em um Data Warehouse (KIMBALL e CASERTA, 2004). Os passos principais do ETL podem ser agrupados como segue:

40 39 1. Extração: Todo o processamento requerido para se conectar a vários sistemas fontes, extrair os dados das fontes de dados, e deixá-los disponíveis para os passos subsequentes. 2. Transformação: Qualquer função aplicada ao dado extraído no momento em que estes saem do sistema fonte e são carregados em seu objetivo final. Essas funções podem conter (mas não são limitadas) as seguintes operações: Validação dos dados frente a regras de qualidade; Modificação do conteúdo ou estrutura dos dados; Integração com dados de diferentes fontes; Cálculo de valores derivados e agregados baseados nos dados processados. 3. Carga: Todo o processamento requerido para carregar os dados no sistema alvo. Esta parte do processo consiste em mais do que a carga em massa dos dados transformados na tabela alvo. As partes deste processo incluem, por exemplo, gerenciamento de Chaves Substitutas (Surrogate Keys) e gerenciamento de tabelas dimensionais. 4.2 Blocos base do ETL Segundo Kimball e Caserta (2004) a melhor forma de compreender uma solução de ETL é vê-la como um processo. Um processo tem entrada, saída, e uma ou mais unidades de trabalho, os passos do processo. Estes passos, entretanto, têm entradas e saídas, e executam uma operação para transformar a entrada em uma saída (Figura 4.2). As funções dos principais passos constituintes do processo de ETL demonstrados na Figura 4.2 acima são apresentadas a seguir: EXTRAÇÃO: os dados brutos vindos dos sistemas fonte são guardados em uma área de estágio onde serão manipulados como arquivos ou em um banco de dados. A área de estágio dará flexibilidade de se recomeçar todo o processo se ocorrer

41 40 uma interrupção, evitando a sobrecarga que o reinício do processo pode causar sobre os sistemas de suporte ao operacional; LIMPEZA : execução de testes para checar a qualidade dos dados que pode envolver vários passos incluindo a checagem de valores válidos, garantia da consistência entre valores, remoção de dados duplicados, e checagem se regras e procedimentos de negócio foram seguidos. Esta limpeza pode envolver a intervenção humana; CONFORMIZAÇÃO : A conformidade dos dados é requerida sempre que duas ou mais fontes de dados são unidos em um DW. Dados de fontes separadas não podem ser usados juntos a menos que alguns ou todos os rótulos textuais destas fontes sejam feitas idênticas e medidas numéricas sejam matematicamente racionalizadas de maneira que as medidas unidas façam sentido. A padronização requer um acordo dentro da empresa para se usar domínios e medidas padronizados; CARGA : estruturar fisicamente os dados em um conjunto de modelos simples e simétricos denominados modelos dimensionais, ou equivalentemente, esquemas em estrela. 4.3 Desafios da Integração de Dados Os desafios podem ser políticos, organizacionais, funcionais ou de natureza tecnológica. Segundo Kimball e Caserta (2004) as barreiras tecnológicas são um desafio, mas na maioria das vezes removíveis; barreiras organizacionais são muito mais difíceis de vencer. A Tabela 4.2 resume algumas das barreiras que podem ser encontradas.

42 41 Figura Visão geral do processo de ETL. Fonte: Adaptado de Kimball e Caserta (2004).

43 42 Tabela Exemplos de Desafios da Integração de Dados. TIPOS DE DESAFIOS DESCRIÇÃO Políticos regras e políticas internas de acesso aos dados Organizacionais Tecnológicos Funcionais quais dados são necessários para responder as questões da organização a metodologia de desenvolvimento usada pode dificultar o processo grande quantidade de dados para extrair de uma vez encontrar mudanças que ocorreram nos dados integração entre sistemas diferentes lidar com dados incompletos e inconsistentes definir quais trabalhos e transformações serão construídos não puramente pelo lado técnico, mas pelo lado funcional o mesmo modelo conceitual deve ser usado para resolver problemas similares Fonte: Adaptado de Kimball e Caserta (2004). Após resolver os desafios organizacionais, de projeto e de design, a primeira tarefa técnica é ver de que lugar os dados serão retirados, em que forma estão disponíveis e o que exatamente faz parte dos dados que você está interessado. Estes passos fazem parte do processo de design do ETL, que será abordado na próxima subseção. 4.4 Cuidados no Planejamento do processo de ETL Deve-se ter o cuidado para que sejam criadas transformações que saibam lidar com as possíveis falhas durante o processo de ETL.

44 43 processo. A tabela a seguir lista alguns dos cuidados mais importantes a se tomar durante este Tabela Cuidados durante o processo de ETL CUIDADO Aquisição de Dados Cuidado com Planilhas Design para Falhas DESCRIÇÃO Ter acesso a sistemas fontes proprietários. Exemplo: ERP s comerciais Políticas Internas que impeçam acesso direto aos dados Problemas com a flexibilidade dada ao usuário final que poderá renomear, excluir ou mover colunas prejudicando o processo de ETL Configurações de Internacionalização Pode-se aceitar planilhas desde que criadas por um processo automatizado ou em formato padronizado Testar a conexão com o repositório Checar se um host está disponível Espera para que o comando SQL retornar o sucesso/falha baseado na condição de contagem de linha Checar por diretórios vazios Checar pela existência de um arquivo, tabela, ou coluna Comparar os arquivos e diretórios Configurar um timeout em conexões FTP e SSH Criar saídas sucesso/falhas para cada passo disponível Tratamento de exceção no nível de trabalhos e transformações Tabelas de Fatos devem ser carregadas depois que todas as dimensões sejam carregadas. Se o processo de carga de uma dimensão falhar, permite-se reiniciá-lo apenas nas partes que deram falhas e não foram executados ainda Fonte: Caster et al. (2010).

45 CDC (Change Data Capture) O primeiro passo em um processo de ETL é a extração de dados de vários sistemas e a passagem destes para o processo seguinte. A melhor prática é utilizar uma área intermediária denominada área de estágio (Staging Area). Os dados extraídos podem ser armazenados em banco de dados ou arquivos nesta área para que se possa recomeçar sem a necessidade de pegar todos os dados novamente, sobrecarregando os sistemas de suporte ao operacional. Ao carregar pela primeira vez um DW todos os dados serão carregados nesta área de estágio. A partir da primeira carga necessitamos apenas atualizar os dados para refletir o seu estado atual. Tudo que estamos interessados é no que mudou desde a última vez que foi realizada uma carga, desta maneira deve-se identificar quais registros foram inseridos, modificados, ou até eliminados nos sistemas fonte. O processo de identificação destas mudanças e apenas retornar os registros que são diferentes dos que você já carregou no DW é chamado de Change Data Capture ou CDC. Basicamente, existem duas categorias principais de processos CDC, intrusivos ou não intrusivos. Considera-se intrusivo aqueles em que a operação CDC tem um possível impacto na performance do sistema que os dados são retirados. A maioria dos métodos usados para capturar a mudança dos dados é intrusiva, deixando apenas uma opção não intrusiva. 4.6 Qualidade dos Dados Deve-se assumir que sempre existem problemas de qualidade nos dados extraídos, desta maneira é necessário fazer o planejamento de uma transformação para lidar com estes problemas. O ideal é que problemas de qualidade de dados sejam resolvidos nos sistemas fonte, não no processo ETL (KIMBALL; CASERTA, 2004). Entretanto, arrumar a qualidade de dados antes de começar um projeto de DW é um luxo que muitas organizações não podem arcar. Duas categorias de ferramentas estão disponíveis para lidar com os problemas de qualidade:

46 45 1. Ferramentas de Profilling: usadas para investigar a qualidade dos dados, buscando-se dois objetivos: o primeiro é comunicar os resultados deste exercício para o dono dos dados; o segundo é servir de entrada para a validação dos passos de um processo ETL; 2. Ferramentas de Monitoramento: usadas para constantemente monitorar e avaliar os dados baseados em regras de negócio e qualidade Profilling de Dados Uma das primeiras coisas a se fazer ao começar um projeto de ETL é realizar o profile nos dados. Este processo dirá quantos dados existem e sua semelhança, tanto tecnicamente quanto estatisticamente. A forma mais comum de profilling é o realizado por coluna, onde para cada coluna em uma tabela, estatísticas são criadas. Dependendo do tipo de dados consegue-se obter as seguintes informações:: Número de valores nulos ou vazios; Número de valores distintos; Valores Mínimo, Máximo e Médio (campos numéricos); Tamanhos Mínimo, Máximo e Médio (campos string); Padrões (Por exemplo, ###-###-#### para números); Distribuição dos Dados. Deve-se tomar cuidado, pois o profile de dados levará apenas às conclusões listadas acima, problemas de qualidade lógicos e entre sistemas não podem ser detectados pela maioria das ferramentas de profilling. Para detectá-las, deve existir em um primeiro momento um glossário de negócios e um sistema de metadados, entretanto, estes sistemas ainda são muito raros.

47 Validação de Dados A validação é usada para conferir se as regras de negócio estão sendo respeitadas durante o processo de ETL. Usado dentro do processo para marcar, por exemplo, a ausência de elementos em um sistema fonte representada por valores nulos, substituindo-o por um valor padrão como Desconhecido, Ilegível ou qualquer outra forma que for necessária. 4.7 Considerações Finais Este capítulo abordou um resumo dos principais conceitos da técnica denominada ETL, responsável pela obtenção, transformação e carga dos dados na forma preconizada pela Modelagem Dimensional dentro do DW. O capítulo que segue apresentará o processo de Construção de um DW Modelagem Dimensional e a descrição de seus principais passos que serão seguidos para confecção da solução proposta neste trabalho.

48 47 5 PROCESSO DE CONSTRUÇÃO DE UM DATA WAREHOUSE O presente capítulo apresenta de forma detalhada o processo de Construção do Data Warehouse e os principais passos envolvidos. O conteúdo exposto tem como base teórica o livro do autor Adamson (2010) que propõem a sequência de construção do DW que deverá ser seguida pelo presente projeto. 5.1 Atividades envolvidas O processo de construção de um DW envolve duas categorias principais de atividades: processar os dados para armazená-los nas Tabelas de Dimensão e nas Tabelas de Fatos. Carregar uma tabela de dimensão é um processo incremental, que envolve tarefas como reconhecer novos dados e dados que mudaram; gerenciar chaves substitutas e inserir ou fazer a atualizações de registros de uma dimensão se apropriado. No caso das Tabelas de Fatos o processo de carga só pode ser executado se todas as dimensões com que a mesma se relaciona já tiverem sido carregadas (Figura 5.1), pois existe uma dependência fundamental em um Modelo Estrela: cada tabela de fatos possui uma chave estrangeira que referencia linhas das tabelas de dimensão. Figura Sequência a ser executada a carga do Modelo em Estrela. Fonte: Adaptado de Adamson (2010).

49 48 O passo 1 da Figura 5.1 será decomposto em uma série de atividades que deverão ser executadas para cada tabela de dimensão. Assim como o passo 2 será decomposto em uma série de atividades que deverão ser executadas para carregar as tabelas de fatos. 5.2 Carregando as Tabelas de Dimensão Deve-se tomar cuidado para inspecionar os sistemas fontes das tabelas de dimensão por mudanças na informação de tempos em tempos e inserir registros assim que apropriado. A lista que segue enumera os requisitos que deverão ser atendidos durante o processo de carga de uma tabela de dimensão: Extrair dados dos sistemas fontes; Selecionar os atributos da dimensão; Identificar novos registros de tabelas de dimensão que mudaram; Gerenciar chaves substitutas; Processar novos registros; Processar mudanças do Tipo 1; Processar mudanças do Tipo 2. Devido a complexidade do processo de carga de tabelas de Dimensão é interessante quebrá-lo em uma série de passos individuais, sendo que cada um deles deve ser executado para cada tabela de dimensão no esquema em estrela Pré-Processamento dos dados Inicialmente os dados devem ser obtidos de uma fonte e formatados como especificado no design das tabelas alvo. Estas atividades são representadas pelos três primeiros passos na Figura 5.2.

50 49 O passo 1.1 representa a aquisição dos dados dos sistemas fonte. Uma vez extraído, os dados devem ser reorganizados de forma a serem processados uma linha por vez (passo 1.2 da Figura 5.2). Assim que os dados estão estruturados para serem lidos uma linha por vez, o passo 1.3 da Figura 5.2 separa os atributos de Dimensão de cada uma delas. Os seguintes processos podem ser executados neste passo: Os códigos devem ser decodificados em valores descritivos; Campos com atributos compostos devem ser separados em uma série de atributos; Conjunto de campos podem ser concatenados; Valores nulos podem ser substituídos com textos mais compreensivos com Indisponível ou Desconhecido ; Pode-se formatar os atributos em maiúsculo assim como outras operações podem ser executadas. O passo 1.3 pode ser quebrado para incluir tarefas de limpeza de dados, tais como padronização de nomes e endereço. Assim que as tarefas de 1.1 a 1.3 estiverem completas, um ou mais potenciais registros para as dimensões estarão prontos para processamento futuro. Os próximos passos determinarão como um registro em potencial é analisado, se ele se encaixa como um novo registro ou possui mudanças do Tipo 1 ou Tipo 2 ou ambas Processamento de Novos Registros Os novos registros serão os com Chave Natural que ainda não exista no esquema em estrela. A cada novo valor encontrado, deve-se atribuir uma chave substituta e inseri-la diretamente na respectiva Tabela de Dimensão. Na Figura 5.2 este processo é representado pelos passos 1.4, 1.9 e 1.10.

51 50 Figura Processo de Carga de uma Tabela de Dimensão. Fonte: Adaptado de Adamson (2010).

52 51 Para determinar se um registro que chega é novo, o passo 1.4 busca por sua chave natural na Tabela de Dimensão. Este processo de checagem é referido como lookup. Se o valor da Chave Natural não é encontrado na tabela existente, o registro é novo devendo-se designar a próxima chave substituta para o registro (passo 1.9), a partir deste momento podese carregá-lo na Tabela de Dimensão (passo 1.10). Se, por outro lado, um registro é encontrado como resultado do processo de lookup feito no passo 1.4, a Chave Natural já está presente na Dimensão e o registro deve ser analisado com mais calma para determinar se aconteceram mudanças do Tipo 1 e Processamento de Mudanças do Tipo 1 Todo registro que não é novo pode conter mudanças do Tipo 1. Quando um atributo muda no lado do sistema fonte e se comporta como uma mudança deste tipo, seu valor é sobreposto no DW. Para identificar uma mudança do Tipo 1, um registro que chega é comparado com o valor de Chave Natural do registro mais atual no DW. Os atributos do Tipo 1 são comparados, se não são iguais, uma mudança do Tipo 1 foi identificada. Na Figura 5.2 esta comparação é realizada no passo 1.5. No passo 1.6 da Figura 5.2, as mudanças do Tipo 1 são aplicadas para todos os registros de tabelas dimensionais que compartilham uma Chave Natural não somente o registro com a versão mais atual. Assim que as mudanças do Tipo 1 forem aplicadas, o processo deste novo registro fonte ainda não está completo. Deve-se checar para ver se mudanças do Tipo 2 ocorreram Processamento de Mudanças do Tipo 2 Depois que uma mudança do Tipo 1 foi identificada e aplicada, o registro a ser inserido deve ser checado por mudanças do Tipo 2. Na Figura 5.2, isso acontece no passo 1.7. Esta tarefa pode ser completa por um terceiro lookup, usando a combinação da Chave Natural e todos os atributos do Tipo 2 deste registro. Se pelo menos um dos atributos de Tipo 2 tiver sido modificado, uma mudança de Tipo 2 ocorreu, senão o processo é finalizado.

53 52 Ao ocorrer uma mudança, o registro anterior não será mais o atual, portanto, o passo 1.8 é utilizado para atualizar o campo de controle de versão do registro anterior para o valor Não é mais o atual, enquanto que o novo registro atual recebe uma nova Chave Substituta (Passo 1.9) e é carregado na tabela do DW (Passo 1.10). Um registro único pode conter tanto uma mudança do Tipo 1 e 2. Isto explica porque o passo 1.6 é conectado ao passo 1.7, e não ao final do processo de fluxo. 5.3 Processo de Carga da Tabela de Fatos O processo de carga da Tabela de Fatos pega as transações dos sistemas fonte, calcula os fatos, identifica as chaves estrangeiras apropriadas e insere os registros em um esquema em estrela. A parte mais complexa deste processo envolve identificar os valores de chaves estrangeiras apropriados. Os sistemas fonte fornecem apenas a chave natural, mas as tabelas de fato devem usar chaves estrangeiras para referir-se a dimensões. Para cada fato no sistema fonte, as chaves naturais que identificam o contexto dimensional devem ser substituídas por Chaves Substitutas que identificam linhas nas Tabelas de Dimensão. Como mudanças do Tipo 2 são possíveis, existem múltiplas linhas em uma tabela de dimensão para um valor particular Requisitos a serem atendidos A Tabela de Fatos é governada pelos seguintes requisitos: Extrair dados dos sistemas fonte; Computar os Fatos; Agregar os novos fatos à granularidade da tabela de fatos; Obter Chaves Substitutas para cada uma das Dimensões; Carregar os registros das Tabelas de Fato dentro de um DW.

54 53 O fluxo de processo para suportar estes requisitos é mostrado na Figura 5.3. Novamente, estes passos são lógicos, que servem para guiar a discussão do processo de carga. As tarefas e técnicas específicas usadas irão variar baseadas nos sistemas fonte, design, as capacidades da ferramenta ETL sendo usada e as preferências do desenvolvedor Pré-Processamento dos dados O primeiro passo é extração dos dados dos sistemas fonte, representado pelo passo 2.1 da Figura 5.3. As informações necessárias para carregar as transações em uma tabela de fatos incluem os elementos de dados que serão usados para criar os fatos e as chaves naturais que serão usadas para identificar as dimensões associadas. Depois que os dados são adquiridos, pode ser necessário reestruturar os dados de modo que possam ser processados uma linha por vez. Isto é representado pelo passo 2.2 na Figura 5.3. Figura Sequência do processo de carga de uma Tabela de Fatos. Fonte: Adaptado de Adamson (2010). Depois que os dados são extraídos e organizados por linha, os fatos devem ser calculados a partir dos dados disponibilizados pelo sistema fonte. Fatos aditivos como valores monetários e quantidade de itens em linhas separadas. Para cada linha de pedido, estes registros devem ser consolidados em uma única linha. Esta atividade é representada pelo passo 2.3 na Figura 5.3.

55 54 Alguns cuidados devem ser tomados no processo de carga das tabelas de fatos: Se as fontes de dados proverem dados em uma granularidade menor que o de uma tabela de fatos existente estes deverão ser agregados ao mesmo nível de detalhe; Deve-se tomar cuidado para não agregar fatos semi aditivos impropriamente; Fatos não aditivos devem ser quebrados em componentes totalmente aditivos no design do esquema. Na Figura 5.3, a agregação é realizada no Passo 2.4. Quando existem múltiplos sistemas fonte, este processo pode ser repetido para cada um. Alternativamente, extrações iniciais podem ser realizadas separadamente com dados sendo consolidados em uma Área de Estágio única. Tarefas subsequentes são executadas usando este conjunto consolidado de dados. Quando existe uma fonte única que é relacional, estes quatro primeiros passos podem ser executados em apenas uma consulta. As consultas selecionam as chaves naturais relevantes e depois agregam e calculam os fatos. O próximo passo é atribuir as Chaves Substitutas. 5.4 Identificação das Chaves Substitutas Cada transação do sistema fonte é extraída com valores de Chave Natural que descrevem seu contexto. Nas Tabelas de Fatos, as chaves estrangeiras que se referem às tabelas dimensionais não contêm os valores de Chaves Naturais. Os valores de chave dos sistemas fonte são substituídos por Chaves Substitutas (Surrogate Keys) para que se carreguem os registros na tabela de fatos. Este processo é representado na Figura 5.3 pelo passo 2.5 e deve ser feito uma vez para cada Dimensão referenciada na Tabela de Fatos. A identificação dos valores de Chave Substituta é realizada em um processo de lookup. Busca-se na tabela de Dimensão por uma linha que contém valores de Chave Natural providas pelos sistemas fonte. Assim que a Dimensão apropriada é encontrada, sua chave substituta é obtida. Para garantir uma Chave de Dimensão correta o processo de lookup deve ser refinado em uma das seguintes formas:

56 55 Se o Design Dimensional inclui uma coluna de controle de versão de registro atual, pode-se utilizá-la para identificar a versão mais recente. Se o Design Dimensional inclui campos para datas efetivas e de expiração, a data de transação pode ser comparada com estas datas para identificar a versão correta. Se nenhuma das ferramentas de design acima está disponível, todos os atributos do Tipo 2 deverão ser extraídos com as transações fonte junto com as chaves naturais, e serão usadas no processo de lookup. Se um dado fonte passa por múltiplas mudanças do Tipo 2 entre as cargas, ou se for necessário carregar a história passada nas Tabelas de Fatos, o procedimento não será efetivo, sendo necessário tratar este atributo como sendo uma mudança do Tipo 3 e atualizando-o de acordo ou, se necessário, deve-se utilizar algum tipo de técnica híbrida para lidar com mudanças. Maiores detalhes sobre técnicas híbridas podem ser consultados no livro The Data Warehouse ETL Toolkit: Practical Techniques for Extracting, Cleaning, Conforming, and Delivering Data (KIMBALL; CASERTA, 2004). 5.5 Considerações Finais Este capítulo abordou o processo de construção de um DW e seus principais passos. O processo enunciado neste capítulo será seguido para o desenvolvimento da solução proposta neste trabalho. O capítulo que segue apresentará a proposta de solução deste trabalho, abordando-se o problema analisado, o escopo deste trabalho, ferramentas utilizadas assim como os modelos criados.

57 56 6 PROPOSTA DE SOLUÇÃO O objetivo deste capítulo é apresentar o problema escolhido para ser solucionado neste trabalho, assim como apresentar os processos envolvidos no desenvolvimento da solução proposta. Este capítulo está dividido como segue: A seção 6.1 abordará o problema a ser solucionado, detalhando-o, a seção 6.2 apresentará o escopo deste trabalho, a seção 6.3 mostra as ferramentas utilizadas neste projeto, a seção 6.4 detalha a arquitetura proposta para a solução, a seção 6.5 descreve o processo de implementação da solução, a seção 6.6 apresenta os resultados obtidos, enquanto que a seção 6.7 tece as considerações finais deste capítulo. 6.1 O Problema Analisado A cada semestre a instituição FATEC-SJC acumula arquivos em formato de planilhas, contendo as informações dos candidatos que participam do processo seletivo. Os dados armazenados são tanto os que o candidato preenche na ficha de inscrição do respectivo vestibular, assim como os referentes a seu desempenho neste. Apesar de receber estes dados do CEETEPS, a instituição FATEC-SJC não efetua uma análise para que possa extrair algum tipo de conhecimento em relação aos seus candidatos, tal como o perfil demográfico, seu desempenho assim como a quantidade de alunos que passam se tornam efetivamente alunos da instituição. A ideia deste trabalho nasceu a partir do resultado obtido pelo professor da FATEC- SJC Fernando Masanori Ashikaga que, por iniciativa própria, avaliando o desempenho dos alunos nas disciplinas que possuem ponderações diferenciadas (peso 2), descobriu que candidatos que vieram do cursinho pré-vestibular VESTEC (VESTEC, 2010) poderiam melhorar seu desempenho se o cursinho desse ênfase nestas matérias, de maneira a ajudá-los a ingressar na instituição FATEC-SJC. Ao analisar os dados históricos ele constatou que os alunos ingressantes costumavam acertar apenas 30% das questões de matemática. Em contrapartida, os mesmos candidatos acertavam em média 70% dos pontos de História. Essa informação o ajudou no planejamento pedagógico do cursinho oferecido pelo VESTEC, que

58 57 possui uma restrição de tempo, espaço físico e de profissionais, pois é oferecido aos sábados (7h00-19h20), no prédio da faculdade UNESP e é ministrado por alunos voluntários de renomadas instituições de ensino do Estado de São Paulo, como a UNICAMP, ITA, USP, UFABC, UNIFESP, FATEC. O resultado da iniciativa descrita acima foi que com estas informações em mãos e dentro do contexto apresentado, decidiu-se aumentar a carga de aulas de Matemática e realizar aulas de nivelamento nesta disciplina. Da mesma forma, este trabalho é uma iniciativa para que estes dados possam ser aproveitados de uma maneira mais eficiente, de forma a obter informações importantes sobre os candidatos que participam do processo seletivo da instituição. Para isso as subseções que seguem irão descrever em mais detalhes o problema analisado neste trabalho O Processo Seletivo da FATEC Semestralmente as Faculdades de Tecnologia do Estado de São Paulo oferecem atualmente vagas, distribuídas entre 60 cursos de graduação tecnológica e 51 unidades pelo estado de São Paulo (CEETEPS, 2011). O candidato que deseja ingressar na instituição deverá participar de um processo seletivo (VESTIBULAR, 2011), realizado semestralmente de maneira unificada pela FAT (Fundação de Apoio a Tecnologia), uma fundação de direito privado sem fins lucrativos, criada por professores da Faculdade de Tecnologia de São Paulo - FATEC-SP, mais detalhes podem ser encontrados em FAT, A FATEC-SJC em específico (FATEC-SJC, 2010a) foi criada em 2 de março de 2006 conforme o Decreto Nº publicado no Diário Oficial, mais detalhes podem ser encontrados no website da instituição ao se acessar o menu Sobre a FATEC (FATEC-SJC, 2010b). A instituição iniciou suas atividades no primeiro semestre de 2006 e de acordo com o tempo ofereceu os seguintes cursos: No 1º semestre de 2006, iniciou suas atividades com a implantação do Curso de Logística com Ênfase em Transportes;

59 58 No 1º semestre de 2007, foi implantado o curso de Tecnologia em Informática - Ênfases em Banco de Dados e Redes de Computadores; No 1º semestre de 2009, foi implantado o curso de Tecnologia em Sistemas Aeronáuticos. Uma característica marcante da instituição e que influi também em seu processo seletivo é a liberdade que possui para adequar a estrutura de seus cursos ao perfil de profissional que o mercado procura, agora de uma maneira ainda mais significativa, após a conquista de sua autonomia acadêmica (CLARA, 2011). Esta característica importante para a instituição também é um dos fatores que dificultaram uma parte do processo de desenvolvimento da solução proposta neste trabalho, já que o processo seletivo mudou com o decorrer dos anos e estas mudanças começaram a ficar difíceis de serem evidenciadas somente verificando os dados brutos já consolidados nos arquivos em formato de planilhas enviados pelo CEETEPS. Mais detalhes sobre as dificuldades encontradas durante o processo de estudo dos dados obtidos para a realização do desenvolvimento deste projeto serão apresentados nas subseções que seguem Ficha de inscrição (dados a serem analisados) A ficha de inscrição do vestibular atual FATEC (segundo semestre de 2011) é composta por um formulário eletrônico que deve ser preenchido em cinco etapas. O apêndice A (FICHA DE INSCRIÇÃO 2º SEMESTRE DE 2011) apresenta o passo a passo do processo de preenchimento (Figuras A1 até A20). Os dados preenchidos pelo candidato neste formulário são importantes para o presente trabalho, pois fornecem um rico contexto a um dos fatos que se desejam analisar: o perfil demográfico do candidato, entretanto problemas foram encontrados. A Tabela 6.1 apresenta um resumo dos principais detalhes de cada uma das cinco etapas envolvidas no preenchimento da ficha de inscrição ao processo seletivo FATEC.

60 59 Tabela Formulário Processo Seletivo FATEC - Etapas de preenchimento ETAPAS CONTEÚDO 1. Dados Pessoais (Mais detalhes no ANEXO A ) Dados Cadastrais Gerais: Data de nascimento, Documento de Identidade, Nome do Candidato, CPF, e outros Dados sobre o ENEM Dados sobre Necessidades Especiais 2. Pontuação Acrescida (Mais detalhes no ANEXO A) Declarações sobre: Afrodescendência Escolaridade Pública 3. Fatec, curso e período (Mais detalhes no ANEXO A) Seleção da unidade Fatec Curso e período 4. Confirmação (Mais detalhes no ANEXO A) Confirmação do cadastro e da veracidade das informações 5. Questionário Sócio Econômico (Mais detalhes no ANEXO A) 17 questões sócio econômicas Fonte: Autoria própria. Uma dificuldade com os dados refere-se ao questionário sócio econômico. Os formulários dos processos seletivos anteriores (2009 e 2010, primeiro e segundo semestres assim como o do primeiro semestre de 2011) não estão mais disponíveis na internet para consulta. A Figura 6.1 que segue demonstra este problema.

61 60 Figura Questionário Sócio Econômico: comparação do número de questões. Fonte: Autoria própria. Sem os formulários originais e os respectivos enunciados das perguntas referentes ao questionário sócio econômico não podemos afirmar, olhando apenas para os dados apresentados na Figura 6.1, que o enunciado da questão 15 do questionário do 1º semestre de 2009 é o mesmo que o da questão 15 do 1º semestre de Só conseguiríamos aceitar tal proposição se tivéssemos acesso ao enunciado das questões de cada processo seletivo elencado na Figura 6.1, senão estaríamos a assumir um risco desnecessário, inserindo possivelmente uma inconsistência no DW e comprometendo a sua validade como ferramenta analítica. Ressalta-se que apenas o formulário correspondente ao processo seletivo FATEC para o segundo semestre de 2011 está disponível na internet, disponibilizando as seguintes questões sócio econômicas: 1. Você já prestou Vestibular da Fatec anteriormente? 2. Como você ficou conhecendo a Fatec? 3. Por que você deseja fazer um curso tecnológico na Fatec? 4. Você já iniciou algum curso superior? 5. Onde você mora? 6. Que tipo de curso de ensino médio (antigo 2º grau) você concluiu ou concluirá? 7. Onde você cursa ou cursou o ensino médio (antigo 2º grau) ou equivalente? 8. Em que período você cursa ou cursou o ensino médio (antigo 2º grau) ou equivalente?

62 61 9. Você exerce atualmente atividade remunerada? 10. Que tipo de atividade profissional você exerce? 11. Qual a sua participação na vida econômica da família? 12. Qual é a renda familiar mensal de seu domicílio? (considere a soma de todos os salários dos membros de sua família e assinale a alternativa que mais se aproxima do valor total) 13. Quantas pessoas contribuem para obtenção dessa renda familiar, incluindo você? 14. Qual é o nível de instrução de seu pai? 15. Qual é o nível de instrução de sua mãe? 16. Você acessa a Internet em sua casa? 17. Você pretende futuramente ingressar em outro curso superior? Possivelmente, olhando para as questões acima, poderíamos concluir que a questão 15 dos formulários antigos poderia ser a mesma que a do formulário atual, entretanto, não é compensador levar esta dúvida para dentro do ambiente do DW, pois uma inconsistência como essa pode comprometer a qualidade dos dados e gerar um esforço adicional para sua correção. Se as questões de número 1 à 15 fossem iguais para todos os processos seletivos da Figura 6.1 e as novas questões anexadas durante o tempo fossem sempre colocadas ao final do formulário, o questionário poderia ser modelado analiticamente, colocando-se o valor Não aplicável nas questões dos candidatos que responderam formulários mais antigos. Outro problema encontrado foi referente à maneira como os dados desta ficha de inscrição foram disponibilizados pelo CEETEPS à FATEC-SJC. O formato planilha, como explicado no Capítulo 4 Tabela 4.3, possui uma série de desvantagens se não utilizado adequadamente. A Tabela 6.2 expõe alguns destes problemas. Como enfatizado no Capítulo 4, podemos confiar nos dados em planilhas desde que a planilha tenha sido criada a partir de um processo automatizado ou se estiver em um formato padronizado. Podemos corrigir este problema de dois modos: corrigindo na fonte que gera esta inconsistência ou através de scripts ETL personalizados para lidar com cada uma destas inconsistências. O ideal e recomendado sempre é corrigir o processo de obtenção destes dados, pois ele é a fonte de toda as inconsistências presentes. Desta maneira, recomenda-se que os próximos arquivos venham seguindo algum padrão definido pela instituição FATEC- SJC e o CEETEPS, de maneira a facilitar o processo automatizado de ETL.

63 62 Tabela Planilhas Disponíveis - Inconsistências encontradas. PLANILHAS DISPONÍVEIS INCONSISTÊNCIAS 1s2009.xls 2s2009.xls 1s2010.xls 2s2010.xls 1s2011.xls Número de Colunas Nome Divergente de colunas Colunas Inexistentes AFRODESCEN DENTE AFRODESCEN DENTE AFRODESCEN DENTE AFRODESCEN DENTE AFRODESCEN NOME_CURSO NOME_CURSO NOME_CURSO NOME_CURSO CURSO_1 HISTÓRIA HIST HISTÓRIA HISTÓRIA HISTÓRIA QUÍMICA QUIM QUÍMICA QUÍMICA QUÍMICA INGLÊS INGL INGLÊS INGLÊS INGLÊS MATEMÁTICA MATE MATEMÁTICA MATEMÁTICA MATEMÁTICA FISICA FISI FISICA FISICA FISICA GEOGRAFIA GEOG GEOGRAFIA GEOGRAFIA GEOGRAFIA BIOLOGIA BIOL BIOLOGIA BIOLOGIA BIOLOGIA PORTUGUÊS PORT PORTUGUÊS PORTUGUÊS PORTUGUÊS... ANOENEM MULT MULTIDISCIPLI NAR NOTAPARCIAL... NOTAPARCIAL NOTAPARCIAL NOTAPARCIAL NOTAFINAL... NOTAFINAL NOTAFINAL NOTAFINAL Fonte: Autoria própria A composição da Prova e o desempenho dos alunos Para avaliar o desempenho dos candidatos foi necessário entender como este processo é feito. A melhor fonte para este tipo de informação encontra-se nos manuais do candidato de cada processo seletivo. Foram encontrados os manuais dos candidatos apenas dos processos seletivos do primeiro semestre de 2010, assim como os de primeiro e segundo semestres de 2011 (Figura 6.2). Sendo assim, as provas dos processos seletivos do segundo semestre de 2010 e primeiros e segundos semestres de 2009 não puderem ser avaliadas da forma mais adequada. Os processos seletivos anteriores a 2009 não farão parte do escopo da solução proposta, pois não fizeram parte das planilhas disponibilizadas para a implementação da solução.

64 63 Figura Manuais do Candidato ao Vestibular Fonte : MANUAL (2010, 2011a, 2011b). Foram feitas avaliações sobre os dados encontrados nos gabaritos disponibilizados na seção Provas e Gabaritos do website do processo seletivo FATEC (VESTIBULAR, 2011), para compreender melhor os detalhes do processo seletivo e do cálculo das notas das provas correspondentes aos manuais que não foram encontrados. Tabela Gabaritos: diferenças na composição das provas. PROCESSOS SELETIVOS 1s2009 2s2009 1s2010 2s2010 1s2011 Número total de Questões (48) Novo total de Questões (54) e Disciplina Número total de Questões (54) e Disciplina iguais Número total de Questões (54) e Disciplina iguais Número total de Questões (54) e Disciplina iguais Fonte: GABARITOS (2009a, 2009b, 2010a, 2010b, 2011).

65 64 Os gabaritos dos processos seletivos estudados neste trabalho foram encontrados no website ajudaram a avaliar um pouco das mudanças que ocorreram na prova ao longo dos processos seletivos. Nota-se na Tabela 6.2 que no processo seletivo de 2009, ocorreram mudanças entre os semestres: o número de questões passou de 48 para 54 enquanto que uma nova disciplina foi adicionada. A partir do segundo semestre de 2009 não houve mudanças no número de questões e disciplinas. Por falta dos manuais do candidato relativos aos anos de 2009 e do 1º semestre de 2010, além de novas mudanças previstas nos manuais dos semestres de 2011 em relação ao número de questões (MANUAL 2011a e 2011b), decidiu-se analisar o desempenho dos candidatos somente no processo seletivo referente ao 1º semestre de Analisando os dados disponíveis, a prova escolhida para avaliação foi composta por uma redação e por 54 (cinquenta e quatro) questões, cada uma com 5 (cinco) alternativas (A, B, C, D e E), com 6 (seis) questões de cada uma das disciplinas a seguir relacionadas: Tabela Disciplina que compõem a prova 2011 primeiro semestre. DISCIPLINA NÚMERO DE QUESTÕES Biologia 6 Física 6 Geografia 6 História 6 Matemática 6 Química 6 Inglês 6 Português 6 Multidisciplinar (Raciocínio Lógico) 6 TOTAL DE QUESTÕES 54 Fonte: MANUAL, 2011a.

66 65 Existe uma ponderação diferente para duas disciplinas das elencadas acima de acordo com o escopo do curso escolhido como é visto na Figura 6.3. A nota final do candidato é calculada conforme instruções do manual (MANUAL, 2011a). Figura Disciplinas com peso 2, processo seletivo 1º Semestre de Fonte: MANUAL, 2011a. 6.2 Escopo do Trabalho De acordo com os resultados da avaliação realizada na seção anterior, o escopo deste trabalho ficou reduzido à avaliação do processo seletivo do 1º semestre de 2011 com relação ao desempenho dos candidatos e questionário sócio econômico. Uma análise demográfica dos candidatos será realizada usando todos os arquivos de processo seletivo disponíveis. Para que o escopo deste projeto seja atingido serão utilizados conceitos e técnicas da área de BI para a extração, modelagem e consulta dos dados, assim como para a consulta dos resultados em um banco de dados analítico. A extração dos dados terá como base os princípios enunciados nos capítulos 4 deste trabalho. A modelagem dos dados de acordo com o Modelo Dimensional se apoiará sobre os princípios enunciados no capítulo 3 e a sequência para a construção do ambiente analítico do DW seguirá os princípios enunciados no capítulo 5. A seção que segue apresentará as ferramentas que foram utilizadas em cada etapa da montagem do ambiente do DW.

67 Ferramentas Utilizadas no Projeto As subseções que se seguem trazem um breve resumo das tecnologias, suas principais características e as vantagens de utilização dentro do processo de montagem de um DW Qualidade dos dados O software DataCleaner (DATACLEANER, 2011) é uma aplicação de código livre utilizada para analisar, avaliar a qualidade, transformar e limpar dados. É uma alternativa livre (LGPL) aos softwares de gerenciamento de dados usados em projetos de DW, pesquisas estatísticas e outras. A versão deste software utilizada neste projeto foi: DataCleaner (stable) para Windows. O DataCleaner foi importante no processo de avaliação da qualidade dos dados fonte a serem usados na solução proposta neste trabalho. A Figura 6.4 corresponde ao resultado obtido pela ferramenta DataCleaner após uma busca utilizado-se um filtro para procurar valores que seguem uma determinada expressão regular. A expressão regular deste exemplo em particular é a seguinte: ^([0-9]{5})-([0-9]{3})$ No contexto da Figura 6.4 a expressão regular foi usada para checar se os valores de CEP do arquivo 1s2009 (Seta 1 Figura 6.4) estão de acordo com a simples regra: cinco algarismos numéricos seguidos de um hífen e mais três algarismos numéricos. Neste caso a ferramenta DataCleaner obteve os resultados e os apresentou em uma tabela indicada pela Seta 2 Figura 6.4.

68 Figura Software DataCleaner: Avaliação do CEP frente a uma Expressão Regular. Fonte: Autoria própria. Esta tabela apresenta os resultados da operação em quatro linhas distintas: Número de linhas: 1232 Número de Valores Nulos: 0 Número de resultados que seguem a expressão regular: 1231 Número de resultados que não seguem a expressão regular: 1 Ao clicar no botão que fica ao lado direito do valor da linha que não segue a expressão regular (última linha da tabela), o software exibe em uma nova janela quais os valores não seguem o formato definido na expressão regular (Seta 3 Figura 6.4), neste caso apenas um elemento , que não possui o último algarismo numérico do CEP. Resultados como este nos ajudaram a ter mais confiança na confecção dos scripts envolvidos na fase de ETL do sistema proposto, expondo a qualidade dos dados em termos de integridade, padrões seguidos, possíveis surpresas e desafios a serem encontrados na transformação e limpeza de dados incompletos ou até mesmo inexistentes.

69 ETL Para a execução do processo de ETL o conjunto de ferramentas escolhido foi o Pentaho Data Integration (PDI, 2011). O PDI oferece uma série de ferramentas poderosas para os processos de Extração, Transformação e Carga (ETL) de dados, seguindo uma abordagem de construção de código orientada a metadados e visual. O software possui uma interface intuitiva, baseada em drag-and-drop e blocos base. Estes blocos base proveem uma quantidade enorme de possibilidades ao profissional de ETL em termos de construção de transformações. A versão do software utilizada neste projeto foi: Pentaho Data Integration Community Edition (stable) para Microsoft Windows. O PDI foi fundamental como ferramenta em todo o processo de ETL, desde a extração dos dados dos arquivos em formato Microsoft Excel à construção do DW com suas respectivas tabelas de Fatos, Dimensões e Chaves Substitutas Banco de Dados: MySQL O MySQL (MYSQL, 2011) é um dos Bancos de Dados de código livre mais populares devido a sua performance, alta confiabilidade e facilidade de uso. É utilizado em muitos projetos construídos em uma arquitetura LAMP (Linux, Apache, MySQL, PHP/Perl/Python). O trabalho proposto utilizará o Banco de Dados Relacional MySQL para armazenar o DW, entretanto, qualquer outro Banco de Dados Relacional poderia ou pode ser utilizado para o mesmo sem muitas modificações. A versão do MySQL utilizada no projeto foi: MySQL A justificativa para a utilização do MySQL advém do artigo escrito por Jos Van Dongen (DONGEN, 2009). Sendo o autor um consultor de BI, dono de uma empresa de Consultoria desde 1999 e autor de livros como Pentaho Kettle Solutions (CASTER; BOUMAN; DONGEN, 2010) e Pentaho Solutions (BOUMAN; DONGEN, 2010). Neste artigo ele questiona sobre quais são as opções que existem em Bancos de Dados Analíticos de código livre e se impressiona com o levantamento realizado pelo Instituto Gartner. A pesquisa feita pelo instituto apresentou que na época 18% das empresas

70 69 entrevistadas continuavam a utilizar o MySQL como Banco de Dados para Data Warehouse. O autor então testou as opções de código livre oferecidas como o PostgreSQL, LucidDB, MonetDB, MySQL 5.0 e 5.1 fazendo um comparativo dos recursos oferecidos e desempenho frente a uma instância de teste. O resultado é que o MySQL em sua versão 5.1 apresentou no quesito recursos uma quantidade maior de opções que seus concorrentes enquanto que, no quesito desempenho, não apresentou uma diferença que justificasse a adoção de um banco de dados como o LucidDB. Trabalhos futuros podem explorar uma gama de Banco de Dados que seguem arquiteturas diferentes da Relacional, como os Bancos de Dados Colunares Open Source como o MonetDB (MONODB, 2011), Infobright Community Edition (INFOBRIGHT, 2011), HBase (HBASE, 2011) entre outros. 6.4 Arquitetura do protótipo A arquitetura a ser utilizada neste projeto é mostrada na Figura 6.5. A figura demonstra os principais componentes envolvidos no processo de construção da solução de BI proposta neste trabalho. O processo de construção pode ser visto em quatro etapas. As subseções que seguem explicam os componentes utilizados em cada uma. Figura Arquitetura Geral da Solução Proposta neste Trabalho.

71 Primeira Etapa: FONTE DE DADOS A fonte de dados para este sistema foi composta por cinco arquivos em planilhas com os dados cadastrais dos candidatos assim como os seus respectivos desempenhos nas provas do vestibular FATEC-SJC. Outra fonte de dados para o sistema advém de arquivos no formato separado por vírgulas (CSV) que serão obtidos durante o processo de ETL diretamente do site do IBGE (IBGE, 2011) Segunda Etapa: PROCESSO DE ETL Os dados dos arquivos fonte foram extraídos em uma Área de Estágio construída como um Banco de Dados Relacional, em nosso caso o MySQL. O modelo relacional desta área de estágio se encontra no Apêndice A2. Nesta região os dados foram limpos, padronizados e transformados de forma a serem utilizados analiticamente, seguindo os princípios da Modelagem Dimensional descritos no Capítulo 4 da Revisão Bibliográfica. Um esquema sobre como foi feito o processo de ETL é apresentado no Apêndice A Terceira Etapa: DATA WAREHOUSE Nesta etapa já temos o Bando de Dado Analítico montado, com seus principais componentes como: Tabelas de Fatos, Dimensões, Chaves Substitutas e outros modelados dimensionalmente. Maiores detalhes sobre a Modelagem Dimensional podem ser encontrados no Apêndice C. A Figura 6.5 mostra que teremos no DW apenas um Data Mart, que será o que avalia o Processo Seletivo da FATEC-SJC.

72 Quarta Etapa: APRESENTAÇÃO A quarta etapa apresenta os relatórios obtidos a partir da análise feitas sobre os dados. Os relatórios serão realizados manualmente, através de buscas realizadas diretamente no DW. 6.5 Documentação do Modelo Dimensional Os requisitos de negócio da solução proposta estão descritos em detalhes nos apêndices deste trabalho. O Apêndice B.1 refere-se ao documento de requisitos, enumerando os requisitos de negócio do projeto proposto. No Apêndice B.2 apresenta-se a Matriz de referência cruzada de requisitos que descreverá como as principais Dimensões do Modelo Dimensional se relacionarão com cada uma das medidas avaliadas. O Apêndice C.1 apresenta o Modelo Dimensional da solução proposta, enquanto que o Apêndice C.2 apresenta o Dicionário de Dados das tabelas de Dimensão e da Tabela de Fatos. 6.6 Resultados Obtidos As subseções a seguir apresentam os resultados obtidos ao se analisar os dados do processo seletivo FATEC - 1º semestre de Os dados foram analisados de acordo com os seguintes tópicos: Afrodescendência e Escolaridade Pública; Dados Demográficos; Dados Sócio Econômicos; Opção de Curso e Desempenho do Candidato.

73 Afrodescendência e Escolaridade Pública A seguir serão apresentados os resultados obtidos na avaliação feita em relação ao número de candidatos que possuem características importantes para o cálculo de seu desempenho final. Segundo o manual do candidato do processo seletivo FATEC primeiro semestre (MANUAL 2011a), os candidatos que declararam as características que seguem puderam participar do seu Sistema de Pontuação Acrescida: Afrodescendente: acréscimo de 3% sobre a nota final; Apenas Escolaridade Pública: acréscimo de 10% sobre a nota final; Afrodescendente e Escolaridade Pública: acréscimo de 13% sobre a nota final. A Figura 6.6 mostra a quantidade de candidatos para cada uma das características que participam do Sistema de Pontuação Acrescida % 28% Afrodescendente e Escolaridade Pública Apenas Escolaridade Pública 70 4% % Apenas Afrodescendente Nenhuma das Opções Figura Resultado: Afrodescendência e Escolaridade Pública. Conforme a Figura 6.6 nota-se que a maioria dos candidatos é originária de escola pública, representando 68% (afrodescendentes ou não). Esta informação pode ser importante mais adiante para avaliar uma possível causa do fraco desempenho apresentado em determinadas disciplinas.

74 73 Os mesmos resultados obtidos na Figura 6.6 podem ser enriquecidos agregando informações geográficas. A Tabela 6.5, por exemplo, apresenta o importante resultado obtido anteriormente referente à quantidade de candidatos que responderam ter cursado todo o ensino médio em escola pública localizando-os geograficamente. Tabela 6.5 Todos os candidatos de Escolas Públicas (Afro ou não) por cidade. TOTAL DE CANDIDATOS AGRUPADOS POR MUNICÍPIO CIDADES TOTAL São José dos Campos Jacareí São Paulo Pindamonhangaba Caraguatatuba OUTRAS Caçapava Taubate Jambeiro Tremenbé Ilhabela São José dos Campos ,52% Caçapava 108 9,33% Jacareí 104 8,98% Taubaté 33 2,85% São Paulo 12 1,04% Jambeiro 8 0,69% Pindamonhangaba 6 0,52% Tremembé 5 0,43% Caraguatatuba 4 0,35% Ilhabela 4 0,35% OUTRAS 69 5,96% %

75 Dados Demográficos A seguir serão apresentadas algumas características dos candidatos escolhidas para serem analisadas: Distribuição Geográfica: Tabelas 6.6 e 6.7; Deficiência Física: Tabela 6.8; Estado Civil: Tabela 6.9; Faixa-Etária: Tabela Tabela Dados Demográficos: Total de candidatos por Estado. TOTAL DE ALUNOS POR ESTADO ESTADO TOTAL SP MG DF SP ,12% MG 14 0,82% DF 1 0,06% %

76 75 Tabela Dados Demográficos: Quantidade de candidatos por cidade. TOTAL DE CANDIDATOS POR CIDADE TOP 10 Cidades CIDADE UF TOTAL São José dos Campos SP ,62% Caçapava SP 169 9,95% Jacareí SP 161 9,48% Taubaté SP 58 3,41% São Paulo SP 21 1,24% Pindamonhangaba SP 11 0,65% Caraguatatuba SP 8 0,47% Jambeiro SP 8 0,47% São José dos Campos Jacareí São Paulo Caraguatatuba Guaratinguetá OUTRAS Caçapava Taubaté Pindamonhangaba Jambeiro Tremembé Guaratinguetá SP 6 0,35% Tremembé SP 6 0,35% OUTRAS ,00% %

77 76 Tabela Quantidade de candidatos por deficiência física. QUANTIDADE DE CANDIDATOS POR DEFICIÊNCIA TIPO DE DEFICIÊNCIA TOTAL Nenhuma ,82% Nenhuma Motora 1 0,06% Motora Visual Visual 1 0,06% Dislexia Dislexia 1 0,06% % Tabela Quantidade candidatos por estado civil. QUANTIDADE DE CANDIDATOS POR ESTADO CIVIL ESTADO CIVIL TOTAL SOLTEIRO ,16% SOLTEIRO CASADO CASADO ,13% OUTROS OUTROS 80 4,71% %

78 77 Tabela Quantidade de candidatos por faixa etária. QUANTIDADE DE CANDIDATOS POR FAIXA ETÁRIA FAIXA ETÁRIA TOTAL ,37% ,13% ,48% ,30% ,12% ,88% ,06% ,47% ,12% ,06% %

79 78 Tabela Quantidade de candidatos entre anos. QUANTIDADE DE CANDIDATOS ENTRE IDADES FAIXA ETÁRIA IDADE TOTAL ,22% ,00% ,84% ,78% ,16% % ,25% ,48% ,52% ,84% ,92% %

80 79 A partir dos resultados apresentados anteriormente podemos concluir que: Distribuição Geográfica: existe uma predominância de candidatos do Estado de São Paulo, mais específicamente da região do Vale do Paraíba; Deficiência Física: o número de candidatos que possuem algum tipo de deficiência física é relativamente baixo se comparado com o total; Estado civil: predomina candidatos solteiros; Faixa-Etária: existe uma proximidade na quantidade de alunos nas faixas etárias de e (Tabela 6.10). Além disso, estas duas faixas etárias correspondem a 53,50% do total de candidatos, por isso para descobrir o quanto cada idade dentro destas faixas etárias contribui para este percentual foi criada a Tabela O maior valor é justamente na idade de 18 anos, idade em que candidatos que não foram aprovados com 17 anos em nenhum vestibular está em algum cursinho preparatório para o vestibular. Devido à quantidade representativa de candidatos entre nas faixas etárias e 20-24, os resultados referentes aos dados sócios econômicos da subseção que segue serão apresentados também para estas faixas etárias Dados Sócio Econômicos A seguir seguem exemplos de resultados obtidos na análise realizada sobre os dados sócio econômicos dos candidatos. Foram selecionadas duas questões do questionário sócio econômico presente no formulário do processo seletivo 2011 primeiro semestre. A primeira questão refere-se à forma em que o candidato tomou conhecimento da FATEC. Esta questão foi selecionada para avaliar a eficiência do processo de divulgação do processo seletivo da instituição. Os resultados obtidos são apresentados nas Tabelas 6.12 à A segunda questão selecionada pretende avaliar a participação do candidato na vida econômica de sua família. As Tabelas 6.15 à 6.17 apresentam os resultados obtidos.

81 80 Questão 2: Como você ficou conhecendo a Fatec? A. Por intermédio de aluno ou de ex-aluno da Fatec B. Na empresa em que trabalho C. Por jornal, televisão, rádio ou INTERNET D. Na escola ou cursinho E. Por cartazes ou faixas F. Outros Tabela Quantidade de candidatos por resposta à questão 2. QUANTIDADE DE CANDIDATOS POR RESPOSTA ITEM RESPOSTA TOTAL C Por jornal televisão rádio ou INTERNET ,14% A Por intermédio de aluno ou de ex-aluno da Fatec ,31% D Na escola ou cursinho ,30% F Outros ,18% B Na empresa em que trabalho 108 6,36% E Por cartazes ou faixas 97 5,71% C A D F B E %

82 81 Tabela Quantidade de candidatos de por resposta à questão 2. QUANTIDADE DE CANDIDATOS DE POR RESPOSTA ITEM RESPOSTA TOTAL D Na escola ou cursinho ,13% C A Por jornal televisão rádio ou INTERNET Por intermédio de aluno ou de ex-aluno da Fatec ,13% ,44% F Outros 58 12,95% E Por cartazes ou faixas 25 5,58% B Na empresa em que trabalho 8 1,79% C A D F B E % Tabela Quantidade de candidatos de por resposta à questão 2. QUANTIDADE DE CANDIDATOS DE POR RESPOSTA ITEM RESPOSTA TOTAL A C Por intermédio de aluno ou de ex-aluno da Fatec Por jornal televisão rádio ou INTERNET ,84% ,32% D Na escola ou cursinho 59 12,80% F Outros 46 9,98% E Por cartazes ou faixas 27 5,86% B Na empresa em que trabalho 24 5,21% A C D F E %

83 82 Questões 11: Qual a sua participação na vida econômica da família? A. Não trabalho e meus gastos são financiados por minha família ou outras pessoas; B. Trabalho para custear meus estudos; C. Trabalho para custear os meus estudos e recebo ajuda da família; D. Trabalho para minha própria manutenção e para auxiliar no orçamento familiar ou de outras pessoas; E. Trabalho e sou responsável pelo sustento de minha família. Tabela Quantidade de alunos por resposta à questão 11. QUANTIDADE DE CANDIDATOS POR RESPOSTA ITEM RESPOSTA TOTAL A D Não trabalho e meus gastos são financiados por minha família ou outras pessoas Trabalho para minha própria manutenção e para auxiliar no orçamento familiar ou de outras pessoas ,02% ,19% E Trabalho e sou responsável pelo sustento de minha família ,02% B Trabalho para custear meus estudos 129 7,59% C Trabalho para custear os meus estudos e recebo ajuda da família 88 5,18% A D E B C %

84 83 Tabela Quantidade de candidatos de por resposta à questão 11. QUANTIDADE DE CANDIDATOS DE POR RESPOSTA ITEM RESPOSTA TOTAL A D B C E A D B C E Não trabalho e meus gastos são financiados por minha família ou outras pessoas Trabalho para minha própria manutenção e para auxiliar no orçamento familiar ou de outras pessoas Trabalho para custear meus estudos Trabalho para custear os meus estudos e recebo ajuda da família Trabalho e sou responsável pelo sustento de minha família ,42% 71 15,85% 32 7,14% 31 6,92% 3 0,67% % Tabela Quantidade de candidatos de por resposta à questão 11. QUANTIDADE DE ALUNOS DE POR RESPOSTA ITEM RESPOSTA TOTAL D A Trabalho para minha própria manutenção e para auxiliar no orçamento familiar ou de outras pessoas Não trabalho e meus gastos são financiados por minha família ou outras pessoas ,91% ,85% B Trabalho para custear meus estudos 63 13,67% D A B E C E C Trabalho e sou responsável pelo sustento de minha família Trabalho para custear os meus estudos e recebo ajuda da família 41 8,89% 40 8,68% %

85 Opção de Curso e Desempenho do Candidato Tabela Quantidade de candidatos por opção de curso QUANTIDADE DE CANDIDATOS POR OPÇÃO DE CURSO ITEM CURSOS VAGAS CANDIDATO VAGA TOTAL 1 LOGÍSTICA (NOITE) 40 8, ,54% 2 MANUTENÇÃO DE AERONAVES (NOITE) 40 7, ,42% 3 BANCO DE DADOS OU REDES DE COMPUTADORES (NOITE) 40 7, ,36% 4 MANUFATURA AERONÁUTICA (NOITE) 80 2, ,42% 5 MANUTENÇÃO DE AERONAVES (MANHÃ) 40 5, ,36% 6 LOGÍSTICA (MANHÃ) 40 4, ,71% 7 BANCO DE DADOS OU REDES DE COMPUTADORES (TARDE) 40 3, ,18% %

86 85 Tabela Quantidade de candidatos de por opção de curso. QUANTIDADE DE CANDIDATOS DE POR OPÇÃO DE CURSO ITEM CURSOS TOTAL 1 BANCO DE DADOS OU REDES DE COMPUTADORES (NOITE) 80 17,86% 2 LOGÍSTICA (NOITE) 78 17,41% 3 MANUTENÇÃO DE AERONAVES (MANHÃ) 72 16,07% 4 MANUTENÇÃO DE AERONAVES (NOITE) 66 14,73% 5 LOGÍSTICA (MANHÃ) 66 14,73% 6 MANUFATURA AERONÁUTICA (NOITE) 50 11,16% 7 BANCO DE DADOS OU REDES DE COMPUTADORES (TARDE) 36 8,04% %

87 86 Tabela Quantidade de candidatos de por opção de curso. QUANTIDADE DE CANDIDATOS DE POR OPÇÃO DE CURSO ITEM CURSOS TOTAL 1 LOGÍSTICA (NOITE) ,43% 2 BANCO DE DADOS OU REDES DE COMPUTADORES (NOITE) 85 18,44% 3 MANUTENÇÃO DE AERONAVES (NOITE) 79 17,14% 4 MANUFATURA AERONÁUTICA (NOITE) 55 11,93% 5 LOGÍSTICA (MANHÃ) 46 9,98% 6 MANUTENÇÃO DE AERONAVES (MANHÃ) 44 9,54% 7 BANCO DE DADOS OU REDES DE COMPUTADORES (TARDE) 44 9,54% %

88 87 Tabela Quantidade de alunos de escola pública aprovados em 1º chamada por curso. QUANTIDADE DE CANDIDATOS DE ESCOLA PÚBLICA APROVADOS NA 1º CHAMADA Escola Pública Total Vagas ITEM CURSOS VAGAS TOTAL 1 MANUTENÇÃO DE AERONAVES (NOITE) ,50% 2 LOGÍSTICA (MANHÃ) ,50% 3 MANUFATURA AERONÁUTICA (NOITE) ,75% 4 LOGÍSTICA (NOITE) ,50% 5 BANCO DE DADOS OU REDES DE COMPUTADORES (TARDE) ,00% 6 MANUTENÇÃO DE AERONAVES (MANHÃ) ,00% 7 BANCO DE DADOS OU REDES DE COMPUTADORES (NOITE) ,50%

89 88 Tabela Média dos Candidatos - Banco de Dados ou Redes Cursos Banco de Dados ou Redes (Tarde) Banco de Dados ou Redes (Noite) Banco de Dados ou Redes (Tarde e Noite) Peso 1 Peso 2 Disciplinas Todos 1ª Chamada Todos 1ª Chamada Todos 1ª Chamada Historia Química Inglês Geografia Biologia Português Física Matemática Multidisciplinar Tabela Média dos Candidatos - Logística por disciplina Cursos Logística (Manhã) Logística (Noite) Logística (Manhã e Noite) Peso 1 Peso 2 Disciplinas Todos 1ª Chamada Todos 1ª Chamada Todos 1ª Chamada Historia Química Inglês Geografia Biologia Física Multidisciplinar Matemática Português

90 89 Tabela Média dos Candidatos - Manutenção e Manufatura de aeronaves Cursos Peso 1 Peso 2 Disciplinas Manutenção de Aeronaves (Manhã) Todo s 1ª Chama da Manutenção de Aeronaves (Noite) Todos 1ª Chama da Manufatura Aeronáutica (Noite) Todos 1ª Chama da Manutenção de Aeronaves (Manhã e Noite) + Manufatura Aeronáutica (Noite) 1ª Todos Chama da Historia ,63 6,48 Química ,17 5,86 Inglês ,12 4,93 Geografia ,03 6,49 Biologia ,46 5,39 Multidisciplinar ,89 6,49 Português ,05 5,54 Matemática ,28 4,07 Física ,41 5,26 Tabela Comparação das médias nas disciplinas de todos os candidatos por curso. Cursos Disciplinas BD ou REDES (TARDE) BD ou REDES (NOITE) LOGÍSTICA (MANHÃ) LOGÍSTICA (NOITE) MANUFATURA (NOITE) MANUTENÇÃO (MANHÃ) MANUTENÇÃO (NOITE) História Química Inglês Geografia Biologia Português Física Matemática Multidisciplinar 4,75 4,03 3,48 4,44 3,66 4,37 3,46 2,02 3,89 4,99 4,28 3,89 4,33 3,80 4,26 3,36 2,05 4,05 4,73 4,02 2,79 3,94 3,50 4,15 2,65 1,93 3,22 4,53 4,10 3,01 3,68 3,44 4,13 2,86 2,06 3,30 4,77 4,41 3,11 4,40 3,67 4,21 3,60 2,42 4,06 4,39 3,89 3,14 3,73 3,22 3,82 3,17 2,20 3,52 4,74 4,21 3,12 3,97 3,50 4,06 3,46 2,23 4,08 Legenda Matérias Peso 2 Maior Média Menor Média

91 90 Tabela Comparação das médias nas disciplinas dos candidatos de 1ª chamada. Cursos Disciplinas BD ou REDES (TARDE) História Química Inglês Geografia Biologia Português Física Matemática Multidisciplinar BD ou REDES (NOITE) LOGÍSTICA (MANHÃ) LOGÍSTICA (NOITE) MANUFATURA (NOITE) MANUTENÇÃO (MANHÃ) MANUTENÇÃO (NOITE) Legenda Matérias Peso 2 Maior Média Menor Média 6.7 Considerações Finais Este capítulo descreveu o problema analisado pelo presente trabalho, detalhando os passos envolvidos na concepção da solução, análise dos dados, modelagem, proposta da arquitetura, ferramentas utilizadas, assim como os resultados obtidos. O próximo capítulo apresentará as conclusões finais deste trabalho, as principais contribuições, assim como seus trabalhos futuros.

92 91 7 CONSIDERAÇÕES FINAIS SOBRE O PRESENTE TRABALHO Este trabalho apresentou a modelagem dos dados provenientes do vestibular FATEC- SJC de maneira a utilizá-los de forma analítica, utilizando para isto técnicas de modelagem e ferramentas disponíveis na área de BI. Os dados coletados no processo seletivo da instituição foram preparados e modelados de forma a facilitar e auxiliar à tomada de decisão quanto ao planejamento educacional e estratégico da instituição. Estes dados se encontram em arquivos que contém o cadastro dos candidatos assim como os seus respectivos desempenhos no processo seletivo da FATEC- SJC. Foi realizada uma seleção, padronização e filtragem visando retirar possíveis inconsistências. O modelo analítico foi aplicado sobre estes dados extraídos, montando uma arquitetura baseada na técnica de Data Warehouse. Finalmente foram realizadas algumas consultas sobre o DW de forma a extrair resultados. 7.1 Contribuições e Conclusões As principais contribuições deste trabalho foram: Descoberta de inconsistências nos arquivos disponibilizados pelo CEETEPS, que poderão ser aprimorados ao se utilizar algum tipo de modelo ou uma padronização em sua criação; Análise, preparação e modelagem dimensional dos dados disponibilizados pelos CEETEPS apresentando uma análise superficial do perfil do candidato FATEC, e que poderá servir de base para novos projetos dentro da instituição; O potencial das análises apresentadas nos resultados do capítulo 6, que mostra informações sócio econômicas, demográficas e de desempenho dos candidatos que realizaram o processo seletivo de 2011; Ressaltar a importância de se analisar dados acumulados e não aproveitados.

93 92 A partir destas contribuições pode-se concluir que: No processo ETL foram encontradas dificuldades devido à falta de padronização na composição das planilhas que contém os dados disponibilizados. Algumas colunas apresentaram inconsistências em nome de colunas, falta de campos, e surgimento de novos, o que torna o processo de criação de scripts de ETL imprevisível e sujeito a retrabalhos a cada novo processo seletivo; A partir dos resultados da análise realizada podem-se traçar iniciativas de melhorar o processo seletivo com maior e melhor divulgação, verificar se os incentivos de cotas estão sendo atingidos, além de outros indicadores sócio econômicos e sociais; Embora o modelo tenha sido criado para analisar dados de processos seletivos, poderá ser ampliado em trabalhos futuros para acompanhamento do aluno durante o curso. 7.2 Trabalhos Futuros As contribuições alcançadas com este Trabalho não encerram as pesquisas relacionadas à área de BI e sua utilização para avaliar o processo seletivo FATEC-SJC, mas abrem oportunidades para alguns trabalhos futuros: Novas áreas podem ser avaliadas além do processo seletivo, tais como desempenho dos alunos durante o curso assim como o período de um ano após a sua saída da instituição, mapeando assim toda a sua trajetória desde a entrada até a saída da instituição; Pode-se empregar outras técnicas de BI para se extrair informações sobre estes dados, como o Data Mining, de forma a se descobrir padrões e correlações desconhecidos entre os dados, assim como outras técnicas de visualização de dados.

94 93 REFERÊNCIAS BIBLIOGRÁFICAS ADAMSON, C.; Star Schema: The Complete Reference. 1 st ed. McGraw-Hill, ISBN: BOUMAN, R.; DONGEN, J. van; Pentaho Solutions: Business Intelligence and Data Warehousing with Pentaho and MySQL. 1 ed. Indianapolis: Wiley Publishing, ISBN: CASTER, M.; BOUMAN, R.; DONGEN, J. van; Pentaho Kettle Solutions: Building Open Source ETL Solutions with Pentaho Data Integration. 1 st ed. Indianapolis: Wiley Publishing, ISBN: CLARA, G. S.; A maioridade acadêmica. Revista do Centro Paula Souza, Print Com, n. 22, p Disponível em: < maio-junho.pdf>. Acesso em: 18 mai, CEETEPS: Centro Estadual de Educação Tecnológica Paula Souza Disponível em: < Acesso em: 10 ago CEETEPS: Vestibular - Centro Estadual de Educação Tecnológica Paula Souza Disponível em: < Acesso em: 7 mai DATACLEANER: Software para Análise, Profiling, Transformação e Limpeza de Dados Disponível em: < Acesso em: 4 mar DATE, C. J.; An Introduction to Database Systems. 8 th ed. Addison Wesley, ISBN- 10: DEVLIN, B. A.; MURPHY, P. T.; An Architecture for a Business and Information System. IBM Systems Journal, IBM, v.27, n.1, p.60-80, ISSN: DONGEN: Open Source Data Warehousing? Disponível em: < Acesso em: 10 mai, FAT: Fundação de Apoio à Tecnologia Disponível em: < Acesso em: 18 maio, 2011.

95 94 FATEC-SJC: Faculdade de Tecnologia de São José dos Campos. 2010a. Disponível em: < Acesso em: 6 ago FATEC-SJC: Sobre a Fatec São José dos Campos. 2010b. Disponível em: < Acesso em: 6 ago GABARITOS: Gabarito Vestibular Fatec 2009 primeiro semestre. 2009a. Disponível em: < Acesso em: 18 mai, GABARITOS: Gabarito Vestibular Fatec 2009 segundo semestre. 2009b. Disponível em: < Acesso em: 18 mai, GABARITOS: Gabarito Vestibular Fatec 2010 primeiro semestre. 2010a. Disponível em: < Acesso em: 18 mai, GABARITOS: Gabarito Vestibular Fatec 2010 segundo semestre. 2010b. Disponível em: < Acesso em: 18 mai, GABARITOS: Gabarito Vestibular Fatec 2011 primeiro semestre Disponível em: < Acesso em: 18 mai, GARTNER: Gartner Group. Disponível em: < Acesso em: 3 fev, 2011 GOLFARELLI, M.; RIZZI, S.; Data Warehouse Design: Modern Principles and Methodologies. 1st ed. McGraw-Hill Osborne, ISBN-10: HBASE: Open-source, distributed, versioned, column-oriented store Database. Disponível em: < Acesso em: 18 mai, IBGE: Instituto Brasileiro de Geografia e Estatística. Disponível em: < Acesso em: 18 mai, INFOBRIGHT: The Open-Source Database for Ad hoc Analytics. Disponível em: < Acesso em: 18 mai, INMON, W. H.; Building the Data Warehouse. 1st ed. John Wiley & Sons, Inc, ISBN:

96 95 KIMBALL, R.; CASERTA, J.; The Data Warehouse ETL Toolkit: Practical Techniques for Extracting, Cleaning, Conforming, and Delivering Data. 2nd ed. John Wiley and Sons, eisbn: KIMBALL, R.; ROSS, M.; The Data Warehouse Toolkit: the complete guide to Dimensional Modeling. 2nd ed. John Wiley and Sons, ISBN: LUHN, H. P.; A Business Intelligence System. IBM Journal of Research and Development, IBM, v.2, n.4, p , ISSN: MANUAL: Manual do Candidato ao Vestibular FATEC primeiro semestre Disponível em: < Acesso em: 18 mai, MANUAL: Manual do Candidato ao Vestibular FATEC primeiro semestre. 2011a. Disponível em: < Acesso em: 18 mai, MANUAL: Manual do Candidato ao Vestibular FATEC segundo semestre. 2011b. Disponível em: < Acesso em: 18 mai, MONODB: Column-Store Pionner. Disponível em: < Acesso em: 18 mai, MYSQL: The world s most popular open source database. Disponível em: < Acesso em: 18 mai, PDI: Pentaho Data Integration Project Disponível em: < Acesso em: 5 mar PIEDADE, M. B.; SANTOS, M. Y.; Business intelligence supporting the teaching-learning process. In: Proceedings of the 9th WSEAS international Conference on Simulation, Modeling and Optimization (Budapest, Hungary, September 03-05, 2009). R. Imre, M. Demiralp, and N. Mastorakis, Eds. Mathematics And Computers In Science And Engineering. World Scientific and Engineering Academy and Society (WSEAS), Stevens Point, Wisconsin,

97 96 PONNIAH, P.; Data Warehouse Fundamentals For IT Professionals. 2nd ed. John Wiley and Sons, ISBN REEVES, L.; A Managers Guide to Data Warehousing. 1st ed. Wiley, ISBN- 10: SHIGUNOV, F.; Uma Aplicação OLAP sobre a Web para Análise dos Dados do Vestibular da UFSC e Diretrizes para a sua Integração com GIS f., Trabalho de conclusão de curso de Bacharel em Sistemas de Informação UFSC, Santa Catarina, 2007 SPATIALKEY: Location Intelligence for Decision Makers. Disponível em: < Acesso em: 4 set, UFSC: Universidade Federal de Santa Catarina. Disponível em: < >. Acesso em: 10 ago, WILLIAMS, S.; WILLIAMS N.; The profit impact of Business Intelligence. 1st ed. San Francisco: Morgan Kaufmann, ISBN10: VERCELLIS, C.; Business Intelligence: Data Mining and Optimization for Decision Making. Milano: John Wiley & Sons, Ltd., ISBN: VESTEC: Curso Pré-Vestibular. Disponível em: < >. Acesso em: 12 ago VESTIBULAR: Website do Processo Seletivo FATEC Disponível em: < Acesso em: 18 mai, 2011.

98 97 APÊNDICE A: DOCUMENTAÇÃO ÁREA DE ESTÁGIO A.1 Etapas do processo de ETL usado para carregar Área de Estágio: A.2 Modelo Entidade Relacionamento da Área de Estágio:

99 98 APÊNDICE B: DOCUMENTAÇÃO DE REQUISITOS B.1 Documento de Requisitos Documento de Requisitos para o Processo Seletivo FATEC-SJC Área Avaliada: Processo Seletivo FATEC-SJC Descrição: Avaliação do desempenho dos candidatos no processo seletivo assim como o seu perfil demográfico. Papéis dos Usuários Finais: Diretor Coordenadores de Curso Professores FATEC-SJC Representantes Municipais, Estaduais e Federais Tomar decisões estratégicas. Tomar decisões estratégicas. Tomar decisões estratégicas. Tomar decisões estratégicas. Requisitos Analíticos: 1. Visualizar o desempenho do candidato por matéria, curso, prova. 2. Quantidade total de candidatos por município, prova, deficiência. 3. Quantidade total de candidatos por questão do questionário sócio econômico.

100 99 Medidas de Processo: PROCESSO MEDIDAS CONTEXTO DA MEDIDA Desempenho do Candidato Processo Seletivo Questionário Sócio Econômico (17 questões) Média Quantidade de Candidatos Quantidade de candidatos por Resposta das questões Curso Prova Semestre Disciplina Área da Disciplina Curso Prova Semestre Candidato: Inscrição Sexo Estado Civil Raça Bairro Município Estado UF Provedor de Situação DDD Escola Pública Faixa Etária IBGE Necessidade Especial ENEM Curso Prova Semestre Candidato: Inscrição Sexo Estado Civil Raça Bairro Município Estado UF Provedor de Situação DDD Escola Pública Faixa Etária IBGE Necessidade Especial ENEM

101 100 B.2 Matriz de Referência Cruzada de Requisitos Processo Seletivo FATEC-SJC Dimensões Envolvidas Medidas Avaliadas Desempenho do Candidato Processo Seletivo Questionário Sócio Econômico Curso Prova Semestre Disciplina Disciplina Área da Disciplina ENEM Faixa Etária IBGE Necessidade Especial Inscrição Candidato Sexo Estado Civil Raça Bairro Município Estado UF Provedor de Situação DDD Escola Pública

102 101 APÊNDICE C: DOCUMENTAÇÃO DIMENSIONAL C.1 Modelo Dimensional Processo: Desempenho do Aluno Tipo: Instantâneo Periódico

103 102 Granularidade: Semestre Fatos: numero_candidatos Quantidade total de candidatos que se enquadram Fatos Não Aditivos: media_candidatos (Semi Aditivo) Média dos candidatos Tabelas de Dimensão: candidato curso disciplina enem faixa_etaria_ibge necessidade_especial prova questao resposta semestre Frequência de Carga: Candidato ao vestibular Curso escolhido pelo candidato Disciplina da prova analisada Dados sobre o enem Faixa etária em que o candidato se encaixa Detalhes sobre deficiência física Detalhes sobre a prova Questões do questionário sócio econômico Respostas do questionário sócio econômico Semestre em que a prova foi realizada Semestral Interação com outras Estrelas: -

104 103 C.2 Dicionário de Dados do Modelo Dimensional C.2.1 Documentação Tabelas de Dimensão Tabela: candidato Fonte: Tabela stg_candidato da área de estágio Relacionamentos: Relacionada com cada uma das tabelas da área de estágio. Regras de Processamento: Requisitos de Segurança: Intervalo de Carga: Número Inicial de linhas: Crescimento Anual: Campo: Existe um pré-processamento necessário em alguns campos e na retirada de outros que não são necessários à análise. Dados que identifiquem o candidato (RG, nome) e que o localize fisicamente foram suprimidos do modelo. Semestral 1800 registros em média 4000 registros em média id_candidato Tipo de Dado: unsigned int Tamanho: 0 a Tipo de Coluna: SK (Surrogate Key) Definição: Chave substituta para a dimensão candidato. Dados Exemplo: 1 Elementos Fonte: Inserido automaticamente à cada carga. Regras de Transformação: Nenhuma. Campo: candidato_numero_inscricao Tipo de Dado: varchar Tamanho: 45 Tipo de Coluna: Tipo 1 Definição: Chave Natural do candidato no Sistema Fonte. Dados Exemplo: Elementos Fonte: Campo INSCRICAO da planilha 1s2011.xls. Regras de Transformação: Nenhuma. Campo: Tipo de Dado: DATE Tamanho: - candidato_data_nascimento

105 104 Tipo de Coluna: Tipo 1 Definição: Data de nascimento do Candidato. Dados Exemplo: 10/06/1997 Elementos Fonte: Campo NASCIMENTO da planilha 1s2011.xls Regras de Transformação: Utilizado para colocar o candidato dentro de sua faixa etária correspondente do IBGE. Campo: candidato_afrodescendencia Tipo de Dado: CHAR Tamanho: 3 Tipo de Coluna: Tipo 1 Definição: Confirmação ou não de afrodescendência. Dados Exemplo: SIM Elementos Fonte: Campo AFRODESCENDENTE da planilha 1s2011.xls Regras de Transformação: Nenhuma Campo: candidato_escola_publica Tipo de Dado: CHAR Tamanho: 3 Tipo de Coluna: Tipo 1 Definição: Confirmação ou não de escolaridade pública. Dados Exemplo: SIM Elementos Fonte: Campo ESCOLARIDADE da planilha 1s2011.xls Regras de Transformação: Nenhuma Campo: candidato_estado_civil Tipo de Dado: VARCHAR Tamanho: 10 Tipo de Coluna: Tipo 1 Definição: Estado civil do candidato. Dados Exemplo: SOLTEIRO Elementos Fonte: Campo ESTADO_CIV da planilha 1s2011.xls Regras de Transformação: Nenhuma Campo: Tipo de Dado: VARCHAR Tamanho: 10 Tipo de Coluna: Tipo 1 Definição: Gênero do candidato. Dados Exemplo: FEMININO Elementos Fonte: Campo SEXO da planilha 1s2011.xls Regras de Transformação: Nenhuma Campo: candidato_genero candidato_servidor_

106 105 Tipo de Dado: VARCHAR Tamanho: 50 Tipo de Coluna: Tipo 1 Definição: Provedor de do candidato. Dados Elementos Fonte: Campo da planilha 1s2011.xls Regras de Transformação: Retirada do primeiro pedaço que corresponde ao do candidato, isolando apenas o provedor de . Campo: candidato_classificacao Tipo de Dado: unsigned short int Tamanho: 0 a Tipo de Coluna: Tipo 1 Definição: Classificação final do candidato. Dados Exemplo: 1 Elementos Fonte: Campo CLASS da planilha 1s2011.xls Regras de Transformação: Colocar zero nos locais onde existem valores nulos. Campo: candidato_situacao_vestibular Tipo de Dado: VARCHAR Tamanho: 10 Tipo de Coluna: Tipo 1 Definição: Situação final do candidato no processo seletivo. Dados Exemplo: AUSENTE Elementos Fonte: Campo SITUACAO da planilha 1s2011.xls Substituição dos códigos: A => AUSENTE Regras de 1 => APROVADO Transformação: S => SUPLENTES C => CLASSIFICADO Campo: candidato_bairro Tipo de Dado: VARCHAR Tamanho: 100 Tipo de Coluna: Tipo 1 Definição: Bairro onde reside o candidato. Dados Exemplo: JARDIM DA GRANJA Elementos Fonte: Campo BAIRRO da planilha 1s2011.xls Regras de Transformação: Nenhuma Campo: Tipo de Dado: VARCHAR Tamanho: 100 Tipo de Coluna: Tipo 1 Definição: Município onde reside o candidato. candidato_municipio

107 106 Dados Exemplo: Elementos Fonte: Regras de Transformação: Campo: São José dos Campos Campo MUNICIPIO da planilha 1s2011.xls Nenhuma candidato_estado Tipo de Dado: VARCHAR Tamanho: 100 Tipo de Coluna: Tipo 1 Definição: Estado onde reside o candidato. Dados Exemplo: SÃO PAULO Elementos Fonte: Campo ESTADO da planilha 1s2011.xls Regras de Conversão de código para valor por extenso: Transformação: SP => SÃO PAULO Tabela: curso Fonte: Tabela stg_curso da área de estágio Relacionamentos: Relacionada com a tabela stg_candidato Regras de Processamento: Requisitos de Segurança: Intervalo de Carga: Número Inicial de linhas: Crescimento Anual: Campo: Existe um pré-processamento necessário apenas para isolar os campos necessários. - Semestral 7 registros em média 1 registros em média por ano. id_curso Tipo de Dado: unsigned int Tamanho: 0 a Tipo de Coluna: SK (Surrogate Key) Definição: Chave substituta para a dimensão curso. Dados Exemplo: 1 Elementos Fonte: Inserido automaticamente à cada carga. Regras de Transformação: Nenhuma. Campo: curso_nome Tipo de Dado: VARCHAR Tamanho: 100 Tipo de Coluna: Tipo 1 Definição: Nome do curso escolhido pelo candidato. Dados Exemplo: BANCO DE DADOS OU REDES DE COMPUTADORES

108 107 Elementos Fonte: Regras de Transformação: Campo: Campo CURSO1 da planilha 1s2011.xls Conversão de código para valor por extenso: SP => São Paulo curso_periodo Tipo de Dado: VARCHAR Tamanho: 10 Tipo de Coluna: Tipo 1 Definição: Período do curso escolhido pelo candidato. Dados Exemplo: NOITE Elementos Fonte: Campo CURSO1 da planilha 1s2011.xls Regras de Transformação: Pré-processamento em cima do nome do curso para extração do valor de período. Tabela: disciplina Fonte: Tabela stg_desempenho da área de estágio Relacionamentos: Relacionada com a tabela stg_candidato Regras de Processamento: Requisitos de Segurança: Intervalo de Carga: Número Inicial de linhas: Crescimento Anual: Campo: Existe um pré-processamento necessário para isolar seus campos. - Semestral 9 registros em média 1 registros em média por ano. id_disciplina Tipo de Dado: unsigned int Tamanho: 0 a Tipo de Coluna: SK (Surrogate Key) Definição: Chave substituta para a dimensão disciplina. Dados Exemplo: 1 Elementos Fonte: Inserido automaticamente à cada carga. Regras de Transformação: Nenhuma. Campo: disciplina_nome Tipo de Dado: VARCHAR Tamanho: 50 Tipo de Coluna: Tipo 1 Definição: Nome da disciplina da prova. Dados Exemplo: PORTUGUÊS Elementos Fonte: Cada campo com nome de disciplina na planilha 1s2011.xls

109 108 Regras de Transformação: Campo: Pré-processamento para extração do nome de cada disciplina. disciplina_grupo Tipo de Dado: VARCHAR Tamanho: 50 Tipo de Coluna: Tipo 1 Definição: Grupo que a disciplina pertence. Dados Exemplo: EXATAS Elementos Fonte: Criado dinamicamente no ETL. Regras de Transformação: Pré-processamento para ligar as disciplinas aos grupos. Tabela: enem Fonte: Tabela stg_enem da área de estágio Relacionamentos: Relacionada com a tabela stg_candidato Regras de Processamento: Requisitos de Segurança: Intervalo de Carga: Número Inicial de linhas: Crescimento Anual: Campo: Existe um pré-processamento necessário para isolar seus campos. - Semestral 1800 registros em média 4000 registros em média id_enem Tipo de Dado: unsigned int Tamanho: 0 a Tipo de Coluna: SK (Surrogate Key) Definição: Chave substituta para a dimensão enem. Dados Exemplo: 1 Elementos Fonte: Inserido automaticamente à cada carga. Regras de Transformação: Nenhuma. Campo: enem_codigo Tipo de Dado: VARCHAR Tamanho: 50 Tipo de Coluna: Tipo 1 Definição: Chave Natural do candidato no ENEM. Dados Exemplo: Elementos Fonte: Campo ENEM da planilha 1s2011.xls Regras de Nenhuma.

110 109 Transformação: Campo: enem_nota Tipo de Dado: DOUBLE Tamanho: 5,3 Tipo de Coluna: Tipo 1 Definição: Chave Natural do candidato no ENEM. Dados Exemplo: 55,15 Elementos Fonte: Campo NOTAENEM da planilha 1s2011.xls Regras de Transformação: Nenhuma. Tabela: faixa_etaria_ibge Fonte: Arquivo separado por vírgulas (csv) direto do IBGE. Relacionamentos: - Regras de Processamento: Requisitos de Segurança: Intervalo de Carga: Número Inicial de linhas: Crescimento Anual: Campo: Existe um pré-processamento necessário para isolar seus campos. - Semestral 10 registros em média 1 registros em média id_faixa_etaria Tipo de Dado: unsigned int Tamanho: 0 a Tipo de Coluna: SK (Surrogate Key) Definição: Chave substituta para a dimensão faixa_etaria_ibge. Dados Exemplo: 1 Elementos Fonte: Inserido automaticamente à cada carga. Regras de Transformação: Nenhuma. Campo: faxia_etaria Tipo de Dado: VARCHAR Tamanho: 45 Tipo de Coluna: Tipo 1 Definição: Intervalo de idade do IBGE. Dados Exemplo: Elementos Fonte: Direto de arquivo separado por vírgulas (csv) do IGBE Regras de Transformação: Nenhuma.

111 110 Tabela: necessidade_especial Fonte: Tabela stg_necessidade da área de estágio Relacionamentos: Relacionada com a tabela stg_candidato Regras de Processamento: Requisitos de Segurança: Intervalo de Carga: Número Inicial de linhas: Crescimento Anual: Campo: Existe um pré-processamento necessário para isolar seus campos. - Semestral 13 registros em média 1 registros em média id_necessidade Tipo de Dado: unsigned int Tamanho: 0 a Tipo de Coluna: SK (Surrogate Key) Definição: Chave substituta para a dimensão necessidade. Dados Exemplo: 1 Elementos Fonte: Inserido automaticamente à cada carga. Regras de Transformação: Nenhuma. Campo: necessidade_nome Tipo de Dado: VARCHAR Tamanho: 50 Tipo de Coluna: Tipo 1 Definição: Nome do tipo de deficiência do candidato. Dados Exemplo: Visual Elementos Fonte: Campo NECESSIDADE da planilha 1s2011.xls Regras de Transformação: Substituição do valor - que representa nulo por Não possui. Campo: necessidade_grau_deficiencia Tipo de Dado: VARCHAR Tamanho: 50 Tipo de Coluna: Tipo 1 Definição: Grau de deficiência do candidato. Dados Exemplo: Parcial Elementos Fonte: Campo NECESSIDADE_TIPO da planilha 1s2011.xls Regras de Transformação: Substituição do valor - que representa nulo por Não possui.

112 111 Campo: necessidade_tipo_prova Tipo de Dado: VARCHAR Tamanho: 50 Tipo de Coluna: Tipo 1 Definição: Tipo de prova especial necessária. Dados Exemplo: Prova ledor (fiscal para ler e transcrever a prova) Elementos Fonte: Campo NECESSIDADE_TIPO_PROVA da planilha 1s2011.xls Regras de Transformação: Substituição do valor - que representa nulo por Não possui. Tabela: prova Fonte: Dados contidos na planilha 1s2011.xls Relacionamentos: Relacionada com a tabela stg_candidato Regras de Processamento: Requisitos de Segurança: Intervalo de Carga: Número Inicial de linhas: Crescimento Anual: Campo: Existe um pré-processamento necessário para isolar seus campos. - Semestral 1 registros em média 2 registros em média id_prova Tipo de Dado: unsigned int Tamanho: 0 a Tipo de Coluna: SK (Surrogate Key) Definição: Chave substituta para a dimensão prova. Dados Exemplo: 1 Elementos Fonte: Inserido automaticamente à cada carga. Regras de Transformação: Nenhuma. Campo: Tipo de Dado: Int Tamanho: - Tipo de Coluna: Tipo 1 Definição: Número de questões da prova. Dados Exemplo: 54 Elementos Fonte: Regras de Transformação: prova_numero_questoes Retirado através do processo de ETL feito sobre o formulário de inscrição do processo seletivo Fatec. Pré-processamento para inserção no Modelo Dimensional.

113 112 Campo: prova_data Tipo de Dado: DATE Tamanho: - Tipo de Coluna: Tipo 1 Definição: Data da prova. Dados Exemplo: 05/12/2010 Elementos Fonte: Campo DTPROVA da planilha 1s2011.xls Regras de Transformação: Nenhuma. Campo: prova_hora Tipo de Dado: TIMESTAMP Tamanho: - Tipo de Coluna: Tipo 1 Definição: Hora da prova. Dados Exemplo: 05/12/2010 Elementos Fonte: Campo DTPROVA da planilha 1s2011.xls Regras de Transformação: Nenhuma. Campo: prova_envelope Tipo de Dado: VARCHAR Tamanho: 45 Tipo de Coluna: Tipo 1 Definição: Código do envelope que veio a prova. Dados Exemplo: 1137 Elementos Fonte: Campo ENVELOPE da planilha 1s2011.xls Regras de Transformação: Nenhuma. Campo: Tipo de Dado: VARCHAR Tamanho: 45 Tipo de Coluna: Tipo 1 Definição: Código da sala da prova. Dados Exemplo: 012 Elementos Fonte: Campo SALA da planilha 1s2011.xls Regras de Transformação: Nenhuma. Campo: prova_sala prova_codigo_local_exame Tipo de Dado: VARCHAR Tamanho: 45 Tipo de Coluna: Tipo 1 Definição: Código da local da prova. Chave Natural. Dados Exemplo: 28

114 113 Elementos Fonte: Regras de Transformação: Campo: Campo CODLOC da planilha 1s2011.xls Nenhuma. prova_local_exame Tipo de Dado: VARCHAR Tamanho: 45 Tipo de Coluna: Tipo 1 Definição: Nome do local da prova. Dados Exemplo: FATEC SÃO JOSÉ DOS CAMPOS - PROF. JESSEN VIDAL Elementos Fonte: Campo CODLOC da planilha 1s2011.xls Regras de Transformação: Nenhuma. Tabela: questao Fonte: Tabela stg_questao da área de estágio Relacionamentos: Relacionada com a tabela stg_questionario Regras de Processamento: Requisitos de Segurança: Intervalo de Carga: Número Inicial de linhas: Crescimento Anual: Campo: Existe um pré-processamento necessário para isolar seus campos. - Semestral 17 registros em média 1 registros em média id_questao Tipo de Dado: unsigned int Tamanho: 0 a Tipo de Coluna: SK (Surrogate Key) Definição: Chave substituta para a dimensão questao. Dados Exemplo: 1 Elementos Fonte: Inserido automaticamente à cada carga. Regras de Transformação: Nenhuma. Campo: questao Tipo de Dado: VARCHAR Tamanho: 250 Tipo de Coluna: Tipo 1 Definição: Enunciado da questão sócio econômica. Dados Exemplo: Como você ficou conhecendo a Fatec? Elementos Fonte: Retirado do formulário de inscrição do processo seletivo Fatec.

115 114 Regras de Transformação: Pré-processamento para inserção na Área de Estágio. Tabela: resposta Fonte: Tabela stg_resposta da área de estágio Relacionamentos: Relacionada com a tabela stg_questionario Regras de Processamento: Requisitos de Segurança: Intervalo de Carga: Número Inicial de linhas: Crescimento Anual: Campo: Existe um pré-processamento necessário para isolar seus campos. - Semestral 87 registros em média 5 registros em média id_resposta Tipo de Dado: unsigned int Tamanho: 0 a Tipo de Coluna: SK (Surrogate Key) Definição: Chave substituta para a dimensão resposta. Dados Exemplo: 1 Elementos Fonte: Inserido automaticamente à cada carga. Regras de Transformação: Nenhuma. Campo: resposta_item Tipo de Dado: VARCHAR Tamanho: 45 Tipo de Coluna: Tipo 1 Definição: Item correspondente à resposta da questão sócio econômica. Dados Exemplo: A Elementos Fonte: Retirado do formulário de inscrição do processo seletivo Fatec. Regras de Transformação: Pré-processamento para inserção na Área de Estágio. Campo: resposta Tipo de Dado: VARCHAR Tamanho: 250 Tipo de Coluna: Tipo 1 Definição: Resposta da questão sócio econômica. Dados Exemplo: Na empresa em que trabalho Elementos Fonte: Retirado do formulário de inscrição do processo seletivo Fatec. Regras de Pré-processamento para inserção na Área de Estágio.

116 115 Transformação: Tabela: semestre Fonte: Criado via ETL. Relacionamentos: - Regras de Processamento: Requisitos de Segurança: Intervalo de Carga: Número Inicial de linhas: Crescimento Anual: Campo: Existe um pré-processamento necessário para isolar seus campos. - Semestral 60 registros em média 2 registros em média id_semestre Tipo de Dado: unsigned int Tamanho: 0 a Tipo de Coluna: SK (Surrogate Key) Definição: Chave substituta para a dimensão semestre. Dados Exemplo: 1 Elementos Fonte: Inserido automaticamente à cada carga. Regras de Transformação: Nenhuma. Campo: Tipo de Dado: int Tamanho: - Tipo de Coluna: Tipo 1 Definição: Ano correspondente ao semestre. Dados Exemplo: 2011 Elementos Fonte: Criado via ETL. Regras de Transformação: Criado via ETL. Campo: Tipo de Dado: int Tamanho: - Tipo de Coluna: Tipo 1 Definição: Código do semestre. Dados Exemplo: 1 Elementos Fonte: Criado via ETL. Regras de Transformação: Criado via ETL. semestre_ano semestre_numero

117 116 Campo: Tipo de Dado: VARCHAR Tamanho: 45 Tipo de Coluna: Tipo 1 Definição: Semestre formatado. Dados Exemplo: 1º Semestre Elementos Fonte: Criado via ETL. Regras de Transformação: Criado via ETL. semestre_formatado C.2.2 Documentação Tabela de Fatos Tabela: fato_desempenho Fontes: Relacionamentos: Regras de Processamento: Requisitos de Segurança: Intervalo de Carga: Número de Linhas Iniciais: Crescimento Anual: Tabela stg_desempenho na Área de estágio Com todas as outras dimensões do modelo. Existem regras no ETL para o cálculo das notas de cada aluno Nenhuma já que os dados que identificam o aluno não serão visíveis a todos. Semestral 2000 em média em média. Coluna: numero_candidatos Tipo de Dado: int Tamanho: - Tipo de Coluna: Tipo 1 Definição: Quantidade de candidatos que se enquadram nas características procuradas Dados Exemplo: 1 Elementos Fonte: Criado via ETL. Regras de Transformação: Nenhuma. Coluna: Tipo de Dado: DOUBLE media_candidatos

118 117 Tamanho: 5,2 Tipo de Coluna: Tipo 1 Definição: Média dos candidatos Dados Exemplo: 8,52 Elementos Fonte: Obtido através de cálculos feitos na fase de ETL. Regras de Transformação: Regras utilizadas na fase de ETL para cálculo de nota. Coluna: id_candidato Tipo de Dado: unsigned int Tamanho: 0 a Tipo de Coluna: FK (Foreign Key) Definição: Chave Estrangeira para a dimensão candidato. Dados Exemplo: 1 Elementos Fonte: Inserido automaticamente à cada carga. Regras de Transformação: Nenhuma. Coluna: id_curso Tipo de Dado: unsigned int Tamanho: 0 a Tipo de Coluna: FK (Foreign Key) Definição: Chave Estrangeira para a dimensão curso. Dados Exemplo: 1 Elementos Fonte: Inserido automaticamente à cada carga. Regras de Transformação: Nenhuma. Coluna: id_disciplina Tipo de Dado: unsigned int Tamanho: 0 a Tipo de Coluna: FK (Foreign Key) Definição: Chave Estrangeira para a dimensão disciplina. Dados Exemplo: 1 Elementos Fonte: Inserido automaticamente à cada carga. Regras de Transformação: Nenhuma. Coluna: id_necessidade_especial Tipo de Dado: unsigned int Tamanho: 0 a Tipo de Coluna: FK (Foreign Key) Definição: Chave Estrangeira para a dimensão necessidade_especial. Dados Exemplo: 1 Elementos Fonte: Inserido automaticamente à cada carga. Regras de Transformação: Nenhuma. Coluna: Tipo de Dado: unsigned int Tamanho: 0 a Tipo de Coluna: FK (Foreign Key) id_faxia_etaria

119 118 Definição: Chave Estrangeira para a dimensão necessidade_especial. Dados Exemplo: 1 Elementos Fonte: Inserido automaticamente à cada carga. Regras de Transformação: Nenhuma. Coluna: id_questao_1 Tipo de Dado: unsigned int Tamanho: 0 a Tipo de Coluna: FK (Foreign Key) Definição: Chave Estrangeira para a dimensão questao. Dados Exemplo: 1 Elementos Fonte: Inserido automaticamente à cada carga. Regras de Transformação: Nenhuma. Coluna: id_resposta_1 Tipo de Dado: unsigned int Tamanho: 0 a Tipo de Coluna: FK (Foreign Key) Definição: Chave Estrangeira para a dimensão resposta. Dados Exemplo: 1 Elementos Fonte: Inserido automaticamente à cada carga. Regras de Transformação: Nenhuma. Coluna: id_questao_2 Tipo de Dado: unsigned int Tamanho: 0 a Tipo de Coluna: FK (Foreign Key) Definição: Chave Estrangeira para a dimensão questao. Dados Exemplo: 1 Elementos Fonte: Inserido automaticamente à cada carga. Regras de Transformação: Nenhuma. Coluna: id_resposta_2 Tipo de Dado: unsigned int Tamanho: 0 a Tipo de Coluna: FK (Foreign Key) Definição: Chave Estrangeira para a dimensão resposta. Dados Exemplo: 1 Elementos Fonte: Inserido automaticamente à cada carga. Regras de Transformação: Nenhuma. Coluna: id_questao_3 Tipo de Dado: unsigned int Tamanho: 0 a Tipo de Coluna: FK (Foreign Key) Definição: Chave Estrangeira para a dimensão questao. Dados Exemplo: 1

120 119 Elementos Fonte: Inserido automaticamente à cada carga. Regras de Transformação: Nenhuma. Coluna: id_resposta_3 Tipo de Dado: unsigned int Tamanho: 0 a Tipo de Coluna: FK (Foreign Key) Definição: Chave Estrangeira para a dimensão resposta. Dados Exemplo: 1 Elementos Fonte: Inserido automaticamente à cada carga. Regras de Transformação: Nenhuma. Coluna: id_questao_4 Tipo de Dado: unsigned int Tamanho: 0 a Tipo de Coluna: FK (Foreign Key) Definição: Chave Estrangeira para a dimensão questao. Dados Exemplo: 1 Elementos Fonte: Inserido automaticamente à cada carga. Regras de Transformação: Nenhuma. Coluna: id_resposta_4 Tipo de Dado: unsigned int Tamanho: 0 a Tipo de Coluna: FK (Foreign Key) Definição: Chave Estrangeira para a dimensão resposta. Dados Exemplo: 1 Elementos Fonte: Inserido automaticamente à cada carga. Regras de Transformação: Nenhuma. Coluna: id_questao_5 Tipo de Dado: unsigned int Tamanho: 0 a Tipo de Coluna: FK (Foreign Key) Definição: Chave Estrangeira para a dimensão questao. Dados Exemplo: 1 Elementos Fonte: Inserido automaticamente à cada carga. Regras de Transformação: Nenhuma. Coluna: id_resposta_5 Tipo de Dado: unsigned int Tamanho: 0 a Tipo de Coluna: FK (Foreign Key) Definição: Chave Estrangeira para a dimensão resposta. Dados Exemplo: 1 Elementos Fonte: Inserido automaticamente à cada carga. Regras de Transformação: Nenhuma.

121 120 Coluna: id_questao_6 Tipo de Dado: unsigned int Tamanho: 0 a Tipo de Coluna: FK (Foreign Key) Definição: Chave Estrangeira para a dimensão questao. Dados Exemplo: 1 Elementos Fonte: Inserido automaticamente à cada carga. Regras de Transformação: Nenhuma. Coluna: id_resposta_6 Tipo de Dado: unsigned int Tamanho: 0 a Tipo de Coluna: FK (Foreign Key) Definição: Chave Estrangeira para a dimensão resposta. Dados Exemplo: 1 Elementos Fonte: Inserido automaticamente à cada carga. Regras de Transformação: Nenhuma. Coluna: id_questao_7 Tipo de Dado: unsigned int Tamanho: 0 a Tipo de Coluna: FK (Foreign Key) Definição: Chave Estrangeira para a dimensão questao. Dados Exemplo: 1 Elementos Fonte: Inserido automaticamente à cada carga. Regras de Transformação: Nenhuma. Coluna: id_resposta_7 Tipo de Dado: unsigned int Tamanho: 0 a Tipo de Coluna: FK (Foreign Key) Definição: Chave Estrangeira para a dimensão resposta. Dados Exemplo: 1 Elementos Fonte: Inserido automaticamente à cada carga. Regras de Transformação: Nenhuma. Coluna: id_questao_8 Tipo de Dado: unsigned int Tamanho: 0 a Tipo de Coluna: FK (Foreign Key) Definição: Chave Estrangeira para a dimensão questao. Dados Exemplo: 1 Elementos Fonte: Inserido automaticamente à cada carga. Regras de Transformação: Nenhuma. Coluna: id_resposta_8

122 121 Tipo de Dado: unsigned int Tamanho: 0 a Tipo de Coluna: FK (Foreign Key) Definição: Chave Estrangeira para a dimensão resposta. Dados Exemplo: 1 Elementos Fonte: Inserido automaticamente à cada carga. Regras de Transformação: Nenhuma. Coluna: id_questao_9 Tipo de Dado: unsigned int Tamanho: 0 a Tipo de Coluna: FK (Foreign Key) Definição: Chave Estrangeira para a dimensão questao. Dados Exemplo: 1 Elementos Fonte: Inserido automaticamente à cada carga. Regras de Transformação: Nenhuma. Coluna: id_resposta_9 Tipo de Dado: unsigned int Tamanho: 0 a Tipo de Coluna: FK (Foreign Key) Definição: Chave Estrangeira para a dimensão resposta. Dados Exemplo: 1 Elementos Fonte: Inserido automaticamente à cada carga. Regras de Transformação: Nenhuma. Coluna: id_questao_10 Tipo de Dado: unsigned int Tamanho: 0 a Tipo de Coluna: FK (Foreign Key) Definição: Chave Estrangeira para a dimensão questao. Dados Exemplo: 1 Elementos Fonte: Inserido automaticamente à cada carga. Regras de Transformação: Nenhuma. Coluna: id_resposta_10 Tipo de Dado: unsigned int Tamanho: 0 a Tipo de Coluna: FK (Foreign Key) Definição: Chave Estrangeira para a dimensão resposta. Dados Exemplo: 1 Elementos Fonte: Inserido automaticamente à cada carga. Regras de Transformação: Nenhuma. Coluna: id_questao_11 Tipo de Dado: unsigned int Tamanho: 0 a

123 122 Tipo de Coluna: FK (Foreign Key) Definição: Chave Estrangeira para a dimensão questao. Dados Exemplo: 1 Elementos Fonte: Inserido automaticamente à cada carga. Regras de Transformação: Nenhuma. Coluna: id_resposta_11 Tipo de Dado: unsigned int Tamanho: 0 a Tipo de Coluna: FK (Foreign Key) Definição: Chave Estrangeira para a dimensão resposta. Dados Exemplo: 1 Elementos Fonte: Inserido automaticamente à cada carga. Regras de Transformação: Nenhuma. Coluna: id_questao_12 Tipo de Dado: unsigned int Tamanho: 0 a Tipo de Coluna: FK (Foreign Key) Definição: Chave Estrangeira para a dimensão questao. Dados Exemplo: 1 Elementos Fonte: Inserido automaticamente à cada carga. Regras de Transformação: Nenhuma. Coluna: id_resposta_12 Tipo de Dado: unsigned int Tamanho: 0 a Tipo de Coluna: FK (Foreign Key) Definição: Chave Estrangeira para a dimensão resposta. Dados Exemplo: 1 Elementos Fonte: Inserido automaticamente à cada carga. Regras de Transformação: Nenhuma. Coluna: id_questao_13 Tipo de Dado: unsigned int Tamanho: 0 a Tipo de Coluna: FK (Foreign Key) Definição: Chave Estrangeira para a dimensão questao. Dados Exemplo: 1 Elementos Fonte: Inserido automaticamente à cada carga. Regras de Transformação: Nenhuma. Coluna: id_resposta_13 Tipo de Dado: unsigned int Tamanho: 0 a Tipo de Coluna: FK (Foreign Key) Definição: Chave Estrangeira para a dimensão resposta.

124 123 Dados Exemplo: 1 Elementos Fonte: Inserido automaticamente à cada carga. Regras de Transformação: Nenhuma. Coluna: id_questao_14 Tipo de Dado: unsigned int Tamanho: 0 a Tipo de Coluna: FK (Foreign Key) Definição: Chave Estrangeira para a dimensão questao. Dados Exemplo: 1 Elementos Fonte: Inserido automaticamente à cada carga. Regras de Transformação: Nenhuma. Coluna: id_resposta_14 Tipo de Dado: unsigned int Tamanho: 0 a Tipo de Coluna: FK (Foreign Key) Definição: Chave Estrangeira para a dimensão resposta. Dados Exemplo: 1 Elementos Fonte: Inserido automaticamente à cada carga. Regras de Transformação: Nenhuma. Coluna: id_questao_15 Tipo de Dado: unsigned int Tamanho: 0 a Tipo de Coluna: FK (Foreign Key) Definição: Chave Estrangeira para a dimensão questao. Dados Exemplo: 1 Elementos Fonte: Inserido automaticamente à cada carga. Regras de Transformação: Nenhuma. Coluna: id_resposta_15 Tipo de Dado: unsigned int Tamanho: 0 a Tipo de Coluna: FK (Foreign Key) Definição: Chave Estrangeira para a dimensão resposta. Dados Exemplo: 1 Elementos Fonte: Inserido automaticamente à cada carga. Regras de Transformação: Nenhuma. Coluna: id_questao_16 Tipo de Dado: unsigned int Tamanho: 0 a Tipo de Coluna: FK (Foreign Key) Definição: Chave Estrangeira para a dimensão questao. Dados Exemplo: 1 Elementos Fonte: Inserido automaticamente à cada carga.

125 124 Regras de Transformação: Nenhuma. Coluna: id_resposta_16 Tipo de Dado: unsigned int Tamanho: 0 a Tipo de Coluna: FK (Foreign Key) Definição: Chave Estrangeira para a dimensão resposta. Dados Exemplo: 1 Elementos Fonte: Inserido automaticamente à cada carga. Regras de Transformação: Nenhuma. Coluna: id_questao_17 Tipo de Dado: unsigned int Tamanho: 0 a Tipo de Coluna: FK (Foreign Key) Definição: Chave Estrangeira para a dimensão questao. Dados Exemplo: 1 Elementos Fonte: Inserido automaticamente à cada carga. Regras de Transformação: Nenhuma. Coluna: id_resposta_17 Tipo de Dado: unsigned int Tamanho: 0 a Tipo de Coluna: FK (Foreign Key) Definição: Chave Estrangeira para a dimensão resposta. Dados Exemplo: 1 Elementos Fonte: Inserido automaticamente à cada carga. Regras de Transformação: Nenhuma.

126 125 ANEXO A: FICHA DE INSCRIÇÃO 2º SEMESTRE DE 2011 A.1 Captura de Tela: Formulário de Inscrição do Processo Seletivo FATEC 2º SEM/11 Figura A.1 INÍCIO DO PROCESSO: Documento de Identidade e Data de Nascimento Figura A.2 - PASSO 1: Dados Pessoais

127 126 Figura A.3 - PASSO 1: Dados Pessoais (Tipos de Documento de Identidade) Figura A.4 - PASSO 1: Dados Pessoais (Continuação)

Exibir mais