JORGE LUIZ WODZINSKY FILHO AVALIAÇÃO ESTRUTURAL E SEMÂNTICA DO DATA WAREHOUSE PARA AGRICULTURA DE PRECISÃO AGRODW JOINVILLE SC

Tamanho: px
Começar a partir da página:

Download "JORGE LUIZ WODZINSKY FILHO AVALIAÇÃO ESTRUTURAL E SEMÂNTICA DO DATA WAREHOUSE PARA AGRICULTURA DE PRECISÃO AGRODW JOINVILLE SC"

Transcrição

1 JORGE LUIZ WODZINSKY FILHO AVALIAÇÃO ESTRUTURAL E SEMÂNTICA DO DATA WAREHOUSE PARA AGRICULTURA DE PRECISÃO AGRODW JOINVILLE SC 2012

2 UNIVERSIDADE DO ESTADO DE SANTA CATARINA - UDESC CENTRO DE CIÊNCIAS TECNOLÓGICAS - CCT DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO - DCC JORGE LUIZ WODZINSKY FILHO AVALIAÇÃO ESTRUTURAL E SEMÂNTICA DO DATA WAREHOUSE PARA AGRICULTURA DE PRECISÃO AGRODW Trabalho de conclusão de curso submetido à Universidade do Estado de Santa Catarina como requisito para do título de Bacharel em Ciência da Computação. Orientador: Dr. Fabiano Baldo JOINVILLE SC 2012

3 JORGE LUIZ WODZINSKY FILHO AVALIAÇÃO ESTRUTURAL E SEMÂNTICA DO DATA WAREHOUSE PARA AGRICULTURA DE PRECISÃO AGRODW Este Trabalho de Conclusão de Curso foi julgado adequado para a obtenção do título de Bacharel em Ciência da Computação e aprovado em sua forma final pelo Curso de Ciência da Computação Integral do CCT/UDESC. Banca Examinadora: Orientador: Dr. Fabiano Baldo Membro: Dr. Marco Aurélio Wehrmeister Membro: Dr. Rui Jorge Tramontin Junior Joinville SC 2012

4 RESUMO Com o advento de novas tecnologias e com a crescente concorrência entre as diversas economias mundiais, o ramo da agricultura se viu obrigado a fazer uso de novas técnicas e tecnologias para que assim pudesse suprir as necessidades do mercado. A Agricultura de Precisão (AP) vem sendo usada para alcançar este objetivo. Porém, com o avanço da tecnologia, a AP se viu com um enorme desafio de como gerenciar tantos dados coletados através das diversas máquinas e dispositivos utilizados, para que os mesmos se tornem informações úteis e auxiliem nas tomadas de decisões. Este trabalho tem como proposta avaliar um armazém de dados já desenvolvido. Para isso, foi feita uma revisão bibliográfica e o levantamento de trabalhos relacionados que auxiliaram a escolha de um método de avaliação. Após o carregamento de dados no armazém de dados e a aplicação do método de avaliação, os resultados são classificados demonstrando o grau de qualidade do AgroDW. Palavras-chave: Agricultura de Precisão. Data Warehouse.

5 ABSTRACT With the advent of new technologies and the growing competition among various world economies, the agriculture industry was forced to make use of new techniques and technologies so that they could meet the market needs. Precision agriculture has been used to achieve this goal. However as technology advances, the PA found an enormous challenge of managing so much data collected through the various machines and devices, so that they become useful information to assist in decision making. This work evaluates a data warehouse already developed AgroDW. For this, we performed a literature review and survey of related work that will help the choice of an evaluation method. After loading data into the data warehouse and application of the evaluation method, the results will be classified demonstrating the quality degree of AgroDW. Keywords: Precision Agriculture. Data Warehouse.

6 LISTA DE FIGURAS Figura 1 Esquema Estrela. Adaptado de (GOUVEIA, 2008) Figura 2 Esquema Floco de Neve. Adaptado de (GOUVEIA, 2008) Figura 3 Esquema Constelação de Fatos. Adaptado de (GOUVEIA, 2008) Figura 4 Exemplo do nível de granularidade. Adaptado de (INMON, 2005) Figura 5 Processo de descoberta de conhecimento. Adaptado de (FAYYAD et al., 1996) Figura 6 Ilustração do processo de ETL. Fonte: Vassiliadis (2005 Apud Ferreira, 2010) Figura 7 Paradigma GQM. Adaptado de (BASILI et al., 1994)...27 Figura 8 Modelagem do Data Mart harvest. Adaptado de (ARAUJO, 2011) Figura 9 Modelagem do Data Mart plantation. Adaptado de (ARAUJO, 2011) Figura 10 Exemplos de dados fonte. A) Dados em Formato de Banco de Dados (.dbf); B) Dados em Formato Texto (.txt); C) Dados em formato de Planilha Eletrônica (.xls) Figura 11 Etapa de extração do processo ETL no expressor Studio Figura 12 Etapa de transformação do processo ETL no expressor Studio Figura 13 Etapa de carga do processo ETL no expressor Studio Figura 14 Etapa 1 - Preparação do ambiente Figura 15 Etapa 2 - Criação dos fluxos de dados Figura 16 Etapa 3 - Execução do processo de população do AgroDW....50

7 LISTA DE TABELAS Tabela 1 Data Warehouse VS. Data mart. Adaptado de (PONNIAH, 2001)...12 Tabela 2 Características das ferramentas ETL Tabela 3 Paradigma GQM aplicado ao AgroDW. Fonte: Amaral (2003) Tabela 4 Nível estatístico de qualidade 6-Sigma. Adaptado de (GIBBS; SETTY, 2006); (LINDERMAN et al, 2003) Tabela 5 Classificação dos DMs para a métrica pertinência as regras sintáticas Tabela 6 Classificação dos DMs para a métrica pertinência as regras de domínio Tabela 7 Requisitos por processo de negócio e suas respectivas regras Tabela 8 Resultados obtidos para a métrica pertinência as regras de negócio Tabela 9 Classificação dos DMs para a métrica pertinência as regras de negócio Tabela 10 Classificação dos DMs para a métrica pertinência a consistência do modelo Tabela 11 Resultados obtidos para a métrica completude do campo Tabela 12 Classificação dos DMs para a métrica completude do campo Tabela 13 Resultados obtidos para a métrica completude referencial Tabela 14 Classificação dos DMs para a métrica completude referencial Tabela 15 Resultados obtidos para a métrica completude da carga Tabela 16 Classificação dos DMs para a métrica completude da carga Tabela 17 Classificação dos data marts por dimensão de qualidade...69 Tabela 18 Classificação final do AgroDW por dimensão de qualidade....69

8 LISTA DE ABREVIATURAS AP - Agricultura de Precisão CRM - Customer Relationship Management (Gestão de Relacionamento com o Cliente) DIS - Data Integration System DM - Data Marts (Repositórios de Dados) DSA - Data Staging Area DW - Data Warehouse (Armazém de Dados) DWQ - Data Warehouse Quality ETL - Extraction, Transformation, Loading (Extração, Transformação, Carregamento) GPS - Global Positioning System (Sistema de Posicionamento Global) GQM - Goal-Question-Metric HTML - Hyper Text Markup Language (Linguagem de Marcação de Hipertexto) KDD - Knowledge Discovery in Databases OLAP - On-Line Analytical Processing OLTP - On-Line Transaction Processing SGBD - Sistema de Gerenciamento de Banco de Dados SIG - Sistemas de Informação Geográfica SQL - Structured Query Language (Linguagem de Consulta Estruturada) SSD - Sistema de Suporte à Decisão UML - Unified Modeling Language (Linguagem de Modelação Unificada) XML - extensible Markup Language (Linguagem de Marcação Extensiva)

9 SUMÁRIO 1 INTRODUÇÃO OBJETIVOS Objetivo geral Objetivos específicos JUSTIFICATIVA METODOLOGIA ESTRUTURA DO TRABALHO FUNDAMENTAÇÃO TEÓRICA CONCEITOS DE AGRICULTURA DE PRECISÃO DATA WAREHOUSE Características fundamentais Data mart Projeto Modelos multidimensionais de dados Granularidade PROCESSO DE DESCOBERTA DE CONHECIMENTO EM BANCO DE DADOS Processo de extração, transformação e carga QUALIDADE DE SOFTWARE Paradigma Goal-Question-Metric TRABALHOS RELACIONADOS A Framework for Quality Evaluation in Data Integration Systems Architecture and Quality in Data Warehouses: An Extended Repository Approach The Role of Process Metadata and Data Quality Perceptions in Decision Making Aquaware: Um Ambiente de Suporte à Qualidade de Dados em Data Warehouse CONSIDERAÇÕES FINAIS DO CAPÍTULO AVALIAÇÃO DO AGRODW PROJETO DO AGRODW REALIZAÇÃO DO PROCESSO ETL Dados fontes Ferramentas ETL...42

10 3.2.3 Definição do processo Algoritmos Considerações sobre o processo ETL CONCEPÇÃO DO MÉTODO DE AVALIAÇÃO OBTENÇÃO DAS MÉTRICAS CONSIDERAÇÕES SOBRE A AVALIAÇÃO DO AGRODW AVALIAÇÃO DOS RESULTADOS METODOLOGIA DE AVALIAÇÃO DOS RESULTADOS PARALELO ENTRE OS PARADIGMAS GQM E 6-SIGMA RESULTADOS OBTIDOS POR DIMENSÃO DE QUALIDADE Acurácia sintática Métrica Pertinência as regras sintáticas Métrica Pertinência as regras de domínio Acurácia semântica Métrica Pertinência as regras de negócio Métrica Pertinência a consistência do modelo Completude Métrica Completude do campo Métrica Completude referencial Métrica Completude da carga CLASSIFICAÇÃO DOS DATA MARTS E DO AGRODW CONSIDERAÇÕES FINAIS DO CAPÍTULO CONCLUSÃO REFERÊNCIAS BIBLIOGRÁFICAS ANEXO I ANEXO II... 83

11 1 1 INTRODUÇÃO A agricultura enquanto uma das mais antigas atividades humanas, assim como os demais setores econômicos, se viu obrigada a maximizar a produção física de suas culturas por causa da grande demanda exigida pelo aumento da população. Por outro lado, o surgimento de diversas tecnologias propiciou alternativas ao aperfeiçoamento de seus processos para que pudessem atender as novas exigências dos mercados internacionais e assim manter o ramo agrícola competitivo nesse novo cenário mundial. Entretanto, com toda a evolução do homem e suas invenções, os recursos naturais precisam ser cada vez mais preservados, devido à sua escassez. Desta forma, está se tornando cada vez mais relevante a aplicação de novas técnicas de exploração do solo, na distribuição de insumos como adubos, herbicidas, sementes, calcário e outros quesitos que refletem diretamente na produção agrícola. É nesse contexto que surge a Agricultura de Precisão (AP), auxiliando todo o ciclo de plantio. AP pode ser definida como o método de administração cautelosa e detalhada do solo e da cultura para a adequação de ambos às diferentes condições existentes em cada parte da lavoura (MOLIN, 2004). Já Campo (2000) Apud Tschiedel (2002), define AP como um conjunto de técnicas e procedimentos que permite conhecer, localizar geograficamente e demarcar áreas de diferente produtividade, através de software, sensores, controladores de máquinas e a tecnologia GPS (Global Positioning System). Através das definições, pode-se dizer que a AP tem por princípio básico o manejo do solo e culturas por zonas uniformes. Entretanto, a identificação de cada zona de manejo é realizada através da análise das características do solo, do histórico de cultivo, do clima e de outras variáveis do sistema de produção, em diferentes locais dentro do campo. Contudo, é o conhecimento e o entendimento da variabilidade espacial e temporal dos atributos do solo, de culturas e suas relações,

12 2 bem como a possibilidade de manejo dessa variabilidade, que viabilizam a aplicação dos conceitos da agricultura de precisão (COELHO, 2005). Segundo Coelho (2005), diferentes etapas compõem a AP: 1) Identificação da variabilidade; 2) Caracterização da variabilidade; 3) Identificação dos principais fatores limitantes; 4) Desenvolvimento do plano de ação; 5) Manejo da variabilidade; 6) Avaliação econômica e ambiental. Em cada uma das diferentes etapas do ciclo de vida da AP é gerado um conjunto de resultados em formato de dados operacionais, os quais auxiliam na manutenção adequada da propriedade agrícola. Tais dados são obtidos através de máquinas colheitadeiras, semeadores e outros dispositivos do setor agrícola, equipados com diversas tecnologias como sensores e GPS (BARBOSA et al., 2006). A quantidade de dados coletados na lavoura é muito grande. Portanto, a organização e o uso eficaz dos dados coletados é um dos desafios enfrentados na AP, assim como para a maioria das empresas. Com isso, a necessidade de estruturar a maneira como as informações são armazenadas, disponibilizadas e acessadas é cada vez maior. Murakami (2006) destaca a dificuldade relacionada à coleta, armazenamento, processamento e análise da grande quantidade de dados e variáveis envolvidas em todo o processo de utilização da AP. Com base nas necessidades apresentadas acima, Araujo (2011) modelou um Data Warehouse (DW), chamado AgroDW. Este DW é uma iniciativa de se desenvolver um ambiente para estruturar o conjunto histórico de dados utilizados no âmbito da AP (ARAUJO, 2011). Um data warehouse é o resultado do processo de organização de um conjunto de dados de permita análises complexas e a descoberta de conhecimento sobre eles. O DW provê um conjunto de dados orientado por assunto, integrado, não volátil, variante no tempo, o qual permite o apoio à tomada de decisões (ELMASRI; NAVATHE, 2005). O AgroDW foi idealizado em cima de uma gama de dados disponibilizados por uma fundação paranaense de amparo a produtores rurais da região centro-oeste do Paraná. Estes dados foram obtidos por intermédio da colaboração em um projeto MCT/FINEP/MAPA/CT-AGRO chamado Sistemas de Monitoramento, tomada de decisão, recomendação e intervenções para aplicação de fertilizantes em taxa variável e avaliação de indicadores, que envolveu uma cooperação interinstitucional entre UDESC, USP-Poli, e USP-ESALQ.

13 3 Este armazém de dados é composto por dois Data Marts (DM) que utilizam o esquema estrela para estruturar suas dimensões e fatos. Entretanto, o AgroDW passou apenas por testes pontuais para comprovar sua viabilidade para uso operacional, ou seja, ele ainda precisa passar por uma avaliação mais consistente e sistemática no intuito de dar maior suporte aos sistemas de apoio à tomada de decisão que poderão fazer uso desse armazém de dados. Tais testes realizados por Araujo (2011) se preocuparam em mostrar que os dados inseridos no DW refletiam os dados originais, ou seja, que o DW continha dados consistentes. Entretanto, o AgroDW ainda precisa de uma avaliação mais consistente e para isso deve conter uma massa de dados significativa. Por isso, antes mesmo de iniciar a avaliação, é necessário realizar um processo de ETL (do inglês Extract, Transform, Load) (Extração, Transformação, Carga) para popular o AgroDW com dados oriundos da fundação, pois o mesmo se encontra com poucos dados para que uma avaliação mais adequada seja realizada. Como pode ser observado no trabalho de Akoka et al. (2007), seção 2.5.1, uma avaliação consistente de um DW deve ser realizada ao nível de dados e ao nível do modelo conceitual de dados. Já o trabalho de Shankaranarayanan (2006) e Amaral (2003), descritos nas seções e 2.5.4, mostra que as várias características dos dados, como acurácia e completude, devem ser analisadas. Tais características devem ser analisadas, pois esses dados serão utilizados em tarefas de tomada de decisões e, por consequência, tem implicações importantes sobre o resultado dessas tarefas. Dada a situação apresentada acima, este trabalho tem como pergunta de pesquisa: Como avaliar o AgroDW de forma a assegurar sua adequação aos sistemas de apoio à tomada de decisão da agricultura de precisão?

14 4 1.1 OBJETIVOS Objetivo geral O presente trabalho visa avaliar sistematicamente a estrutura e a semântica do AgroDW, de modo a medir sua qualidade no suporte aos sistemas de apoio à tomada de decisão na AP Objetivos específicos Tomando como base o objetivo geral acima, são identificados os seguintes objetivos específicos: Analisar e selecionar um método que possa guiar a avaliação do AgroDW; Desenvolver/Utilizar uma aplicação para popular o AgroDW com dados reais fornecidos pela fundação; Fazer a aplicação do método de avaliação de qualidade para analisar estrutural e semanticamente o AgroDW, validando-o e/ou sugerindo correções. 1.2 JUSTIFICATIVA Um dos fatores de maior relevância que justifica o desenvolvimento do presente trabalho consiste na falta de uma avaliação mais consistente e sistemática do AgroDW. Uma avaliação que foque os requisitos de usuários no âmbito da AP para que o DW possa dar maior suporte aos sistemas de apoio à tomada de decisão no ramo agrícola. O AgroDW é um repositório histórico de dados agrícolas projetado para atender a AP. Nele, pode-se consultar fatos e acontecimentos históricos gerados no plantio e na colheita de uma determinada cultura. Entretanto, para que o AgroDW possa auxiliar os usuários e realmente ser útil nas tarefas de tomada a decisão, ele

15 5 precisa ter sua estrutura e semântica avaliadas através de algumas verificações amplas e sistemáticas. Segundo Akoka et al. (2007), assegurar a qualidade dos dados é um problema importante que condiciona o sucesso de sistemas de informação. Se ignorada, a qualidade dos dados pode ter um impacto negativo considerável. No caso de um DW, determinar a qualidade é um problema particularmente difícil devido à integração de dados provenientes de múltiplas fontes. Portanto, a atualidade, a não duplicidade e a consistência de um volume muito grande de dados para efeitos de integração e tomada de decisão são grandes desafios a serem superados. Shankaranarayanan (2006) completa dizendo que a qualidade dos dados está se tornando um problema crítico em sistemas de informação devido ao rápido crescimento dos volumes de dados e sua complexidade. Para Jarke et al. (1999), assim como para Akoka et al. (2007), o modelo de dados empregado no DW também deve ser avaliado com intuito de mensurar características relacionadas à qualidade, para que assim o modelo empregado ao DW possa abranger uma visão global do negócio sem abrir mão do conhecimento detalhado de visões mais específicas. Só esta combinação permite uma gestão de qualidade que possa dar uma maior garantia ao usuário que utilizará o sistema. 1.3 METODOLOGIA Com o intuito de se alcançar o objetivo do trabalho, é especificado um conjunto de passos logicamente estruturado a ser seguido. O primeiro passo é fazer uma revisão bibliográfica no contexto de AP e de técnicas e tecnologias para a avaliação de data warehouses. Em seguida são analisados os trabalhos relacionados para colaborar na escolha de uma técnica que possibilite uma avaliação mais consistente do AgroDW. Com a revisão bibliográfica concluída e a técnica de avaliação do DW escolhida, é feito o levantamento dos processos de negócio dos principais sistemas de apoio à decisão necessários à AP. Tomando como base esses processos, através do paradigma GQM (Goal-Question-Metric), são definidas as dimensões de

16 6 qualidade a serem avaliadas, as métricas de avaliação e os mecanismos para obtenção das métricas. Após a etapa de levantamento dos processos de negócio, uma análise de ferramentas ETL open source é necessária. Caso não haja uma ferramenta que atenda as necessidades relacionadas às atividades de extração, transformação e carga, será desenvolvida uma aplicação para popular o AgroDW devidamente, e assim concluir o processo de ETL. Assim que realizado o processo de ETL, a avaliação do AgroDW através da técnica de avaliação determinada pode ser aplicada. Esta técnica tem o intuito de analisar as características estruturais e semânticas do DW. Aplicada a técnica de avaliação, os resultados obtidos são analisados e apresentados. Além disso, com base na análise dos resultados, puderam ser sugeridas e/ou implementadas correções no AgroDW. 1.4 ESTRUTURA DO TRABALHO Este trabalho está organizado em cinco capítulos, da maneira que segue. O primeiro capítulo apresenta um panorama acerca da AP, bem como define o problema da falta de uma avaliação no AgroDW e sua justificativa, de modo a demonstrar a importância do trabalho. No Capítulo 2 é apresentada toda a revisão bibliográfica dos conceitos necessários para o entendimento do trabalho por completo, bem como alguns trabalhos relacionados. No Capítulo 3 é descrito o método de avaliação que foi utilizado durante o desenvolver do trabalho, enfatizando na forma com que este método será conduzido, quais técnicas utilizadas e sua relação com a AP. Neste capítulo também é apresentado o projeto do AgroDW, o detalhamento da realização do processo ETL, bem como a descrição da obtenção das métricas. No quarto é apresentada a metodologia de avaliação dos resultados, um paralelo entre o método que guiou a avaliação e o método que classificou os resultados, bem como os resultados obtidos na avaliação e a classificação final do AgroDW. Por fim, são apresentadas as considerações finais da avaliação dos resultados, a conclusão do trabalho e as referências bibliográficas.

17 7 2 FUNDAMENTAÇÃO TEÓRICA Este capítulo contém a fundamentação teórica que inicia com a apresentação dos conceitos de agricultura de precisão, pois o data warehouse AgroDW está inserido no contexto de AP e assim poderá ser obtido um melhor entendimento do trabalho. Na sequência são descritos os conceitos envolvendo DW como: características fundamentais, data mart, projeto, modelos multidimensionais de dados e granularidade, juntamente com os conceitos de processo de descoberta de conhecimento em banco de dados. Todos estes conceitos visam esclarecer tanto a forma de construção de um DW, como a sua utilização no apoio à tomada de decisão. Como mencionado na introdução deste trabalho, para alcançar o objetivo geral será necessária a realização do processo ETL e, por isto, a importância deste processo é descrita no decorrer deste capítulo. Ainda no capítulo de fundamentação teórica são expostos os conceitos de qualidade de software no intuito de auxiliar e enriquecer o método de avaliação que será empregado no AgroDW. Com este mesmo objetivo, de auxiliar na formação do método de avaliação, são apresentados trabalhos relacionados à avaliação da qualidade em projetos de DW. Por fim, são descritas as considerações finais do capítulo. 2.1 CONCEITOS DE AGRICULTURA DE PRECISÃO Agricultura de precisão é uma nova tecnologia com uma longa história. Agricultores têm procurado maximizar a produção física e econômica das culturas, variando a aplicação de insumos de acordo com os tipos de solos e de culturas. Os agricultores mais antigos já reconheciam os benefícios da aplicação diferenciada de esterco e material calcário de acordo com o tipo de solo. Entretanto, esse

18 8 gerenciamento da variabilidade era feito simplesmente observando as áreas, pois as áreas exploradas eram pequenas. Assim, com base nas diferenças observadas, o campo era manejado conforme havia necessidade (COELHO, 2005). Com o passar dos anos um grande número de termos tem sido usado para descrever o conceito da AP: i) Agricultura por metro quadrado (REICHENBERG, 1989 Apud COELHO, 2005); ii) Agricultura com base em tipos de solos (LARSON, 1991 Apud COELHO, 2005); iii) Variável espacial, precisão, ou manejo específico de culturas (SCHUELLER, 1991 Apud COELHO, 2005); iv) Aplicação de insumos a taxas variáveis (SAWYER, 1994 Apud COELHO, 2005); v) Manejo por zonas uniformes (PIERCE, 1997 Apud COELHO, 2005). Com isso, pode-se dizer que a AP engloba aspectos da variabilidade dos solos, clima, da diversidade de culturas, do desempenho de máquinas agrícolas e insumos naturais ou sintéticos, usados na produção das culturas. Portanto, a AP tem por princípio básico o manejo da variabilidade dos solos e culturas no espaço e no tempo. Sem essa variabilidade, o conceito de agricultura de precisão tem pouco significado e nunca teria evoluído com base nesses princípios. Pierce (1999) utiliza a seguinte definição que melhor caracteriza a AP nos dias atuais: Agricultura de Precisão é a aplicação de princípios e tecnologias para manejar a variabilidade espacial e temporal, associada com todos os aspectos da produção agrícola, com o objetivo de aumentar a produtividade na agricultura e a qualidade ambiental. De acordo com Coelho (2005), o papel da tecnologia da informação na redefinição das práticas agrícolas envolvendo a AP é fundamental. Nos dias de hoje as tecnologias da informação afetam diretamente o cenário agrícola. Embora o conceito de AP não seja novo, não há dúvidas de que importantes avanços nas tecnologias possibilitaram sua aplicação. A AP tem hoje à sua disposição várias tecnologias, tais como: Computadores, GPS Sistema de Posicionamento Global, SIG Sistemas de Informação Geográfica, Sensoriamento Remoto, Sensores, Controladores Eletrônicos. O uso de tecnologias como ferramentas de acompanhamento, controle e análise permitem determinar "qual, quando e onde" o insumo deve ser aplicado e "como" fazê-lo. Portanto, a quantificação da variabilidade espacial permite identificar áreas específicas com diferentes potenciais de produtividade. Também pode ajudar a determinar ou não investimentos em insumos ou na correção de fatores limitantes

19 9 à produção, visando à maximização da produtividade e minimização dos impactos ambientais. De acordo com Tschiedel (2002), a AP tende a se tornar cada vez mais comum nas propriedades rurais. As tecnologias hoje existentes já permitem que se tenha um grande conhecimento das variabilidades encontradas entre as diferentes áreas da propriedade, o que já proporciona a tomada de decisões com base em dados mais precisos. Ainda, segundo Tschiedel (2002), a introdução do conceito de AP em propriedades onde se têm como objetivo maximizar os lucros e minimizar os danos ambientais é imprescindível. Com o advento deste conceito, será possível obter um controle maior sobre as possíveis causas na redução da produtividade e/ou dano ambiental. Portanto, a proposta da AP é permitir que se faça em áreas extensas o que os pequenos agricultores sempre fizeram, que é o tratamento dos detalhes considerando as diferenças existentes em um talhão porção de terreno ou área de cultivo limitada sem desperdiçar o conhecimento acumulado pelas ciências agrárias até hoje (MOLIN, 2004). 2.2 DATA WAREHOUSE Bancos de dados transacionais são comumente utilizados por empresas para fins operacionais, porém este tipo de banco de dados não é apropriado para apoiar a tomada de decisão, principalmente pela falta de dados históricos (INMON, 2005). Por causa desta falta, surge a necessidade de desenvolvimento de uma tecnologia que tenha capacidade de gerenciar as informações históricas de forma integrada e que suporte a descoberta de conhecimento e, por consequência, a tomada de decisão. É neste contexto que os data warehouses se enquadram. Os DW são grandes bancos de dados que contêm dados extraídos de um determinado ambiente operacional ou arquivos externos, os quais foram selecionados, refinados e carregados para o processamento de consultas. Neste tipo de banco de dados é possível integrar e transformar dados corporativos em informações adequadas para a tomada de decisões estratégicas (PONNIAH, 2001). Inmon (2005), considerado o pai do Data Warehousing, fornece a seguinte definição: um DW é uma coleção de dados orientados por assunto, integrado,

20 10 variante no tempo e não volátil, o qual tem por objetivo dar suporte aos processos de tomada de decisão. Um DW se identifica como uma complexa base de dados capaz de integrar, de forma concisa e confiável, informações que se encontram difundidas pelos sistemas operacionais e em fontes externas, para uso nos sistemas de apoio à decisão (MACHADO, 2010). De acordo com Kimball (2002), um DW é um sistema onde os dados operacionais estão especificamente estruturados para aumentar o desempenho de consultas e facilitar a análise das informações de uma organização. Através dos conceitos apresentados pode-se dizer que o DW é um conjunto de técnicas de banco de dados integrados, que possibilita suporte à tomada decisão, onde cada unidade de dados está relacionada a um determinado assunto ou fato Características fundamentais Seguindo a definição dada por Inmon (2005), um ambiente de DW é composto pelas seguintes características fundamentais descritas abaixo: i. Orientados por assunto: refere-se ao fato do DW armazenar informações sobre assuntos específicos importantes para o negócio da empresa, ou seja, o DW armazena as informações importantes de forma agrupada por assuntos de interesses da organização. A implementação de um assunto pode corresponder a um conjunto de tabelas relacionadas (TAVARES, 2008); ii. iii. Integrado: é a vinculação dos dados de diferentes formatos. Estes dados precisam seguir um determinado padrão para que desta forma eles possam fornecer significados únicos, ou seja, todo dado trazido dos sistemas operacionais para o DW deve anteriormente ser consolidado de forma que passe a ter um único significado; Variável ao tempo: as estruturas de dados no DW contêm atributos de tempo, que a cada mudança ocorrida num dado, uma entrada é criada e não atualizada, como acontece nos sistemas operacionais. Os dados de um DW são ligeiramente precisos ao tempo, representam resultados operacionais em determinado momento de tempo. Os dados de um sistema refletem o valor corrente de alguma coisa, sua exatidão é válida para determinados instantes;

21 11 iv. Não volátil: o DW recebe somente transações de inclusão e consultas. Estes dados não podem ser atualizados ou excluídos, ou seja, os dados não sofrem modificações. Os dados são carregados uma única vez e, a partir desse momento, eles só podem ser consultados, ao contrário do que acontece nos sistemas operacionais onde há a existência de várias transações de atualizações ocorrendo a todo instante, como também algumas transações de exclusão; De acordo com as características apresentadas acima, um DW só pode realizar duas operações de processamento, inclusão de novos registros e consultas, ao contrário dos bancos de dados transacionais que suportam inclusão, exclusão, alteração e consulta Data mart Data mart (DM) é um subconjunto de dados de um DW. Geralmente, são dados referentes a um assunto em especial (exemplo: Vendas, Estoque, Controladoria) ou diferentes níveis de sumarização (exemplo: Venda Anual, Venda Mensal, Venda Semestral), que focalizam uma ou mais áreas específicas. Um DM extrai e ajusta porções de um DW aos requisitos específicos de grupos ou departamentos. Segundo Kimball (2002), Um data mart é um data warehouse de menor capacidade e complexidade usado para atender a uma necessidade particular de negócio. Portanto, são tipicamente mais fáceis de estabelecer e manter. Assim como o DW, o DM suporta a tomada de decisão, unificando um subconjunto de dados de uma determinada instituição com o objetivo de atender a suas necessidades específicas de gestão. Inmon (2005) define DM como uma coleção de assuntos organizados para suporte à tomada de decisão, os quais estão baseados nas necessidades de um determinado departamento. É considerado um subconjunto dos dados extraídos para um ambiente destacado. Um DM simula uma área específica a partir de um singular processo empresarial, sendo considerada a parte de um todo. Por causa disto, o DM é uma abordagem descentralizada do conceito de DW, sendo assim

22 12 uma unidade lógica do mesmo. De acordo com Inmon (2005), apesar de um DM ser considerado um DW de menor capacidade, ambos são fundamentalmente diferentes, ou seja, os dois não se misturam, eles são como óleo e água. Portanto, não se pode dizer que um DW é um conjunto de DMs. Seria o mesmo que dizer que o armazém geral de um supermercado, para aonde todos os itens vão antes de seguir para as lojas, é um agrupamento de supermercados. Em uma visão comparativa dos dados, onde se considera o escopo, a integração, a agregação, a análise e os dados voláteis como requisitos, pode-se perceber que a diferença está no escopo, pois enquanto um DW é feito para atender uma empresa como um todo, um DM é criado para atender um subconjunto da empresa. A Tabela 1 demonstra as principais diferenças entre um DW e um DM. DATA WAREHOUSE DATA MART Engloba toda a empresa Departamental Consultas como recurso de Um único processo de negócio apresentação Star-join (fatos e dimensões) Estrutura para a visão corporativa Tecnologia ideal para acesso e de dados análise de dados Organizada em modelos Estrutura para atender as visões multidimensionais departamentais de dados Tabela 1 Data Warehouse VS. Data mart. Adaptado de (PONNIAH, 2001). Inmon (2005) relata que há um segmento na comunidade de TI que diz que um DW é caro e incômodo para construir, mas que a construção de um DW absolutamente vale o esforço. O argumento para não construir um DW normalmente leva à construção de algo, geralmente um data mart. A premissa é que você pode obter um lote de um DM sem o alto custo de um DW. A partir de uma perspectiva de curto prazo, há algum mérito a este argumento. Mas a partir de uma perspectiva de longo prazo, uma DM nunca é um substituto para um DW.

23 Projeto Com o objetivo de atender às necessidades estratégicas da organização, o projeto do DW deve seguir claramente os requisitos dos usuários, que deverão ter suas necessidades - informações e formatos de consultas - plenamente atendidos. A equipe de sistemas, somente após conhecer claramente as necessidades dos usuários, deverá oferecer soluções técnicas que atendam estas necessidades. Se for usado o caminho inverso, dificilmente os usuários terão suas necessidades corretamente atendidas e o projeto cairá em descrédito. Segundo Raden (1998) Apud Ponniah (2001), mesmo sendo a área de suporte à tomada de decisão uma das áreas mais atuais da computação, o foco é sempre essencialmente técnico, sem muita atenção aos processos de negócios que devem ser melhorados. O mesmo autor afirma ainda que, o DW deve ser focado para responder questões e resolver problemas com os quais as pessoas têm que lidar dentro da organização. Segundo Taurion (1998) Apud Ponniah (2001), experiências mostram sempre que o sucesso de um DW está diretamente relacionado com o atendimento às necessidades do negócio e nunca por tecnicismo, e ainda, que os projetos tocados somente pela área técnica estão condenados ao fracasso. As abordagens para a concepção de um projeto de DW são usualmente classificadas em dois grupos, orientadas por dados e orientadas por requisitos (RIZZI, 2007). A primeira inicia com a análise detalhada das fontes de dados e, posteriormente, utiliza os requisitos de usuário na especificação dos sistemas de suporte à tomada de decisão. Já a segunda inicia pela definição dos requisitos de informação do usuário final, deixando a investigação das fontes de dados como um objetivo secundário. Para Kimball (2002) o projeto de um DW deve seguir quatro passos cruciais apresentados a seguir: i. Seleção dos processos de negócio: um processo é uma atividade de negócio natural realizada em uma organização que normalmente é suportado por uma fonte do sistema de coleta de dados. Ouvir os usuários é o meio mais eficiente para selecionar os processos de negócio de um DW. Processos de negócio são, por exemplo: incluir compra de matérias-primas, pedidos, embarques, faturamento e estoque.

24 14 ii. Definição da granularidade dos dados: declarar a granularidade significa especificar exatamente o que uma linha individual da tabela fato representa. A granularidade transmite o nível de detalhe associado às medidas da tabela fato. iii. Definição das tabelas dimensões: para definir as tabelas dimensões não se deve levar em consideração a questão de como é que os empresários descrevem os dados que resultam do processo de negócio. O objetivo é adornar as tabelas fato com um conjunto robusto de dimensões que representam todas as descrições possíveis que assumem valores únicos no contexto de cada medição. Se a definição da granularidade está clara, então as dimensões normalmente podem ser identificadas facilmente. Com a escolha de cada dimensão, listam-se todos os atributos que irão detalhar cada tabela de dimensão. Exemplos de dimensões comuns incluem data, produto, cliente, tipo de transação, e status. iv. Identificação das medições da tabela fato: as tabelas fato são determinadas respondendo a questão do que se está tentando medir. Os usuários corporativos estão muito interessados em analisar estas medidas de desempenho do processo de negócios. Todas as tabelas fato candidatas em um projeto devem se adequar aos níveis de granularidade definidos na etapa dois. Fatos que claramente pertencem a um nível de granularidade diferente devem ser projetados em tabelas de fato separadas. Entretanto, no que diz respeito à construção propriamente dita do DW, duas abordagens são utilizadas: top-down e bottom-up. A primeira, apoiada por Inmon (2005), tem como principio construir um DW a partir de uma visão ampla do negócio e na sequência criar fragmentos, detalhando essa visão inicial. Já a segunda abordagem, defendida por Kimball (2002), inicia a partir da definição de data marts, ou seja, uma visão mais fragmentada do negócio, para depois compor uma visão geral Modelos multidimensionais de dados De acordo com Ballard et al. (1998) a modelagem dimensional é uma técnica para a concepção e visualização de modelos de dados como um conjunto de medidas que são descritas por aspectos comuns do negócio. Segundo Gouveia

25 15 (2008) a modelagem dimensional é uma metodologia que possibilita que os dados sejam modelados tendo em vista aperfeiçoar o desempenho de consultas e proporcionar facilidades de utilização a partir de um grupo de eventos simples de medição. Ballard et al. (1998) e Machado (2010) destacam que há três conceitos importantes relacionados com a modelagem dimensional: i. Fatos: é uma coleção de itens de dados, agrupados em uma tabela, os quais compõem dados de medidas e de contexto (BALLARD et al., 1998). Kimball (2002) define que a tabela fato é a tabela principal em um modelo dimensional, onde as medições de desempenho numérico do negócio são armazenadas. Cada fato tem como objetivo representar um item, uma transação ou um evento que pode ser aproveitado na análise dos processos de negócios. Em um DW as tabelas fatos são implementadas nas tabelas do núcleo do esquema de modelagem em que todos os dados numéricos são armazenados. A tabela fato em si geralmente tem sua própria chave primária composta por um subconjunto de chaves estrangeiras. Esta chave é chamada de chave composta ou concatenada. Cada tabela fato em um modelo dimensional tem uma chave composta, e, inversamente, toda tabela que tem uma chave composta é uma tabela fato; ii. Dimensão: as tabelas de dimensão são partes integrantes de uma tabela fato. A tabela de dimensão contém os descritores textuais do negócio (KIMBALL, 2002). Segundo Ballard et al. (1998), as dimensões são elementos que participam de um fato ou assunto, ou seja, é uma coleção de itens do mesmo tipo que representa as visões do negócio. São formas de visualizar os dados. Cada tabela de dimensão tem uma chave primária que corresponde exatamente a um dos componentes da chave composta da tabela de fatos; iii. Métricas: é uma medida ou um atributo numérico de um fato que representa o desempenho ou comportamento do negócio em relação às dimensões. Os números reais são chamados como variáveis. Por exemplo, as medidas são as vendas em dinheiro, o volume de vendas, a quantidade fornecida, o custo de fornecimento, o valor da transação, e assim por diante. As medidas são

26 16 determinadas por combinações dos membros das dimensões e estão localizadas nas tabelas de fatos (BALLARD et al., 1998). De acordo com os autores citados nesta seção (BALLARD et al., 1998; GOUVEIA, 2008; KIMBALL, 2002; MACHADO, 2010), existem três esquemas de modelagem multidimensional de dados mais utilizados: Esquema Estrela, Esquema Floco de Neve e Esquema Constelação de Fatos. Esquema estrela (Star Schema): criado por Ralph Kimball, é a forma de apresentar as tabelas de um modelo relacional em um modelo dimensional, que podem ser implementadas tanto em bancos de dados relacionais, como em bancos de dados multidimensionais (KIMBALL, 2002). Sua estrutura consiste basicamente em uma entidade central chamada tabela fato (fact table) que se relaciona com um conjunto de entidades denominadas dimensões (dimension tables), alocadas em volta dessa entidade central, formando assim a figura de uma estrela. A Figura 1 demonstra este esquema. Figura 1 Esquema Estrela. Adaptado de (GOUVEIA, 2008). Como visto, o esquema estrela descreve uma estrutura com tabelas e relacionamentos entre elas bem definidos. A tabela central é denominada de tabela fato, a qual possui os dados principais que serão analisados. Ligadas a esta tabela central estão as tabelas de dimensões, as quais possuem descrições das características medidas e armazenadas na tabela de fatos (MACHADO, 2010).

27 17 Segundo Han et al. (2006), as tabelas dimensionais são desnormalizadas para aumentar o desempenho das consultas. Estas consultas ocorrem inicialmente nas tabelas de dimensão e posteriormente na tabela fato. Com isto se tem uma garantia de acesso mais eficiente e com melhor desempenho. Diferente das tabelas de dimensão, as tabelas fato armazenam grandes quantidades de dados históricos, a partir das interseções de todas as dimensões do esquema. O esquema estrela também armazena os indicadores de desempenho, ou seja, as métricas (medidas ou atributos) (GOUVEIA, 2008). Esquema floco de neve (Snowflake Schema): é o resultado da decomposição de uma ou mais dimensões que têm hierarquias entre seus membros, isto é, dimensões normalizadas. Estando normalizadas, as dimensões evitam a redundância de valores textuais em uma tabela (MACHADO, 2010). A Figura 2 ilustra o esquema, onde a tabela de dimensão 6 e 7 se situa hierarquicamente abaixo da dimensão 1, igualmente a 8 com a 2, caracterizando o esquema floco de neve. Figura 2 Esquema Floco de Neve. Adaptado de (GOUVEIA, 2008). No esquema floco de neve é encontrado um número maior de tabelas, com isto há um acréscimo no tempo de execução das consultas devido à necessidade de operações de junção (GOUVEIA, 2008). Esquema constelação de fatos (Facts Constellation Schema): é composto de múltiplas tabelas fato que compartilham a mesma dimensão, ou seja, esse esquema pode ser visto como vários esquemas estrelas interligados por uma ou mais dimensões (GOUVEIA, 2008). Este tipo de esquema pode modelar assuntos

28 18 múltiplos e inter-relacionados. A Figura 3 ilustra este tipo de esquema, onde a dimensão 3 e 5 são compartilhadas pelas tabelas de fatos 1 e 2. Figura 3 Esquema Constelação de Fatos. Adaptado de (GOUVEIA, 2008) Granularidade A granularidade se refere ao nível de detalhe dos dados ou de resumo das unidades de dados no DW (PONNIAH, 2001). Dependendo das exigências, vários níveis de granularidade podem estar presentes em um DW. Portanto, muitos DWs têm pelo menos dois níveis de granularidade. A granularidade é a questão mais importante do projeto de um DW. De acordo com Inmon (2005), a questão da granularidade permeia toda a arquitetura e estrutura que envolve o ambiente de DW. A granularidade é considerada o problema mais crítico no ambiente de DW porque afeta profundamente o volume de dados que residirá nele, como também afeta o tipo de consulta que poderá ser respondida (INMON, 2005). Quando se define um nível menor de granularidade, maior será o volume dos dados. Portanto, quanto maior o nível de granularidade, menor será o volume dos dados. Por consequência, quanto mais baixo o nível de granularidade, consultas mais versáteis poderão ser realizadas e quanto maior o nível de granularidade, menos versáteis as consultas poderão ser. Como se pode observar no exemplo da Figura 4, uma determinada questão tem mais chances de ser respondida em um baixo nível de granularidade (à esquerda da figura), mesmo sendo necessária uma varredura em um grande

29 19 número de registros. Porém, com um alto nível de granularidade (à direita da figura) é mais improvável responder a uma determinada consulta, por não possuir um número significativo de registros que dariam suporte à resposta. Figura 4 Exemplo do nível de granularidade. Adaptado de (INMON, 2005). 2.3 PROCESSO DE DESCOBERTA DE CONHECIMENTO EM BANCO DE DADOS A extração de conhecimento de bases de dados se tornou um diferencial competitivo que atinge os mais variados segmentos do mercado nacional e internacional. No ramo da agricultura não é diferente, pois cada vez mais a automação do processo de plantio e colheita se intensifica, o que traz uma abundante quantidade de dados coletados pelas máquinas agrícolas. Logo, para efetuar a verificação dessas informações de modo que gere conhecimento, a solução consiste em submeter tais dados a tratamentos científicos.

30 20 Nesse sentido, o setor de TI avançou ao longo dos anos, especificamente no que tange à coleta de dados e armazenamento destes. Isso permitiu que as empresas pudessem acumular um vasto registro de informações. Entretanto, segundo Fayyad (1996) o ser humano não possui o devido preparo para entender um enorme volume de dados. Portanto, diante dessa carência, o emprego de técnicas computacionais se tornou indispensável para o suporte à tomada de decisão de modo seguro, confiável e inteligente, com o intuito de amparar os gestores nas decisões. Com isso, o uso de técnicas e ferramentas se tornou alvo de estudos de uma área de pesquisa denominada Descoberta de Conhecimento em Banco de Dados ou Knowledge Discovery in Databases (KDD). O KDD consiste em descobrir conhecimentos novos, que sejam úteis e relevantes para o problema em questão, bem como estejam presentes numa base de dados, de modo que possam ser utilizados e compreendidos. Este processo vem se mostrando como um grande recurso tecnológico, uma vez que permitem descobrir novos padrões, sendo eles compreensíveis e que podem ser de suma importância nos mais variados ramos de negócio (PEDRYCZ, 2005). Fayyad (1996) afirma que o advento do KDD culminou da motivação em muitos ramos de pesquisa, como banco de dados, estatística, reconhecimento de padrões, inteligência artificial, entre outros. Em síntese, pode-se dizer que KDD se traduz em um processo constituído por determinadas etapas, caracterizado como não trivial, interativo e iterativo, que culmina na identificação de padrões compreensíveis, válidos, novos e que podem ser úteis partindo da abundante quantidade de dados existentes (PEDRYCZ, 2005). No tocante às etapas do processo de descoberta de conhecimento, elas constituem três grandes áreas: Pré-Processamento, Mineração de Dados e Pós- Processamento (Figura 5).

31 21 Figura 5 Processo de descoberta de conhecimento. Fonte: FAYYAD et al. (1996). É importante salientar que essas fases do KDD fazem parte de um processo interativo, isto é, pode ser necessário voltar e efetuar repetições de alguns passos, conforme a conveniência, para que se consiga atingir uma melhora dos resultados (FAYYAD, 1996). Fase de Pré-Processamento: é a primeira das fases, que por sua vez possui a maior duração no processo de KDD. Inicialmente, deve ser realizada a seleção de dados, onde se examina inteiramente o conjunto de dados disponível para extrair destes um subconjunto considerado relevante. Feito isso, os dados necessitam ser submetidos ao que é chamado de extração e limpeza de dados, pois muitas vezes não estão apropriados para serem utilizados nos próximos passos do processo de KDD. Posteriormente, tem-se o processo de codificação de dados, onde se busca definir os dados de forma padronizada para que seja viável a utilização deles como entrada pelos algoritmos específicos de mineração de dados (FAYYAD, 1996). Esta fase do KDD compreende o processo de ETL descrito na seção Fase de Mineração de Dados: consiste na fase principal no processo de extração de conhecimento. Ocorre que nesta fase são efetuadas consultas complexas, bem como o descobrimento de relacionamentos que estavam implícitos na base de dados, dando apoio para o analista confirmar hipóteses ou deduzir regras. Essa fase é o núcleo do processo de descoberta de conhecimento, onde são utilizados os

32 22 dados que foram convertidos de modo válido pela etapa anterior, para serem aplicados algoritmos específicos de mineração de dados (FAYYAD, 1996). Fase de Pós-Processamento: consiste na etapa final do processo de KDD, que busca formatar os dados obtidos na fase anterior a fim de submetê-los a uma análise, interpretação e visualização. Com isso, procura-se facilitar a interpretação e avaliação destes dados, para dar prioridade ao conhecimento descoberto, bem como salientar o que for mais relevante (FAYYAD, 1996) Processo de extração, transformação e carga O processo de ETL, que se encaixa na fase de pré-processamento do processo de KDD, é um processo crítico e demorado na construção de um DW, pois consiste na extração dos dados de bases e arquivos heterogêneos, na transformação e limpeza destes dados, e na carga dos dados na base do DW. Estudos relatam que o ETL consome um terço do orçamento num projeto de DW, podendo, no que diz respeito ao tempo de desenvolvimento, chegar a consumir 55% do tempo total de execução do projeto de DW (FERREIRA, 2010). Na realidade, o processo de ETL é um conjunto de processos pelos quais os dados de origem operacional são preparados para o DW. Eles são considerados os processos primários na área de preparação de dados, antes de qualquer apresentação ou consulta. Consistem em extrair os dados operacionais da sua origem, transformando-os, carregando-os e indexando-os no DW (KIMBALL, 2002). O processo de ETL se divide em três fases cruciais: i. Extração: a fase inicial do processo de ETL é a extração de dados dos sistemas de origem. A maioria dos projetos de DW consolida dados extraídos de diferentes sistemas de origem. Cada sistema pode também utilizar um formato ou organização de dados diferente. Para solucionar este entrave, a fase de extração converte todos os dados para um determinado formato para dar de entrada no processamento da transformação;

33 23 ii. Transformação: a fase de transformação aplica uma série de regras ou funções aos dados extraídos para derivar os dados a serem carregados. Algumas fontes de dados necessitam de pouca manipulação, já em outras podem ser necessárias uma ou mais regras ou funções; iii. Carga: esta fase carrega os dados no DW. Dependendo das necessidades da organização, este processo pode ser amplamente variado. Um DW pode substituir as informações existentes semanalmente, com dados cumulativos e atualizados, ao passo que outro DW pode adicionar dados a cada hora. A temporização e o alcance de reposição ou acréscimo constituem em estratégias de projeto que dependem do tempo disponível e das necessidades de negócios. Segundo Ferreira et al. (2010), a concepção de um processo de ETL advém sobre o mapeamento dos atributos dos dados de uma ou várias fontes para os atributos das tabelas do DW. A Figura 6 demonstra de uma forma geral e concisa o processo de ETL. A camada inferior representa o armazenamento dos dados que são utilizados em todo o processo. No lado esquerdo podem-se observar os dados originais oriundos, na maioria dos casos, de arquivos com formatos heterogêneos, como, por exemplo, arquivos de texto e planilhas. Os dados provenientes destes arquivos são submetidos ao processo de extração para que ele forneça informação igual ou modificada, preservando seu significado, à etapa de transformação. Com os dados na Data Staging Area (DSA), que é uma área de armazenamento intermediário entre as fontes de informação e o DW, eles são transformados e limpos antes de serem carregados para o DW. O carregamento dos dados no DW é realizado através das atividades de carga representadas na parte superior direita da figura 6.

34 24 Figura 6 Ilustração do processo de ETL. Fonte: Vassiliadis (2005 Apud Ferreira, 2010). Como dito inicialmente, o processo ETL é um processo crítico, podendo ser muito complexo e ocasionar problemas operacionais significativos. Alguns sistemas de ETL são escalados para processar terabytes de dados para atualizar data warehouses com dezenas de terabytes de dados, e assim garantir a continuidade da transformação e da atualização. Sendo que o tempo disponível para extrair dados dos sistemas de origem pode variar, o que pode significar que a mesma quantidade de dados pode ter que ser processada em menos tempo. Com inúmeros desafios, como a questão de dar continuidade na atualização dos dados, o processo de ETL se tornou foco de estudos e como resultado as ferramentas de ETL disponíveis se encontram bem preparadas para o processo de extração, transformação e carga. Esta visão é compartilhada por Eckerson (2003) que comenta que são observados inúmeros avanços nestas ferramentas desde 1990, estando elas atualmente mais amigáveis ao usuário. 2.4 QUALIDADE DE SOFTWARE Segundo Sommerville (2007), a qualidade de software tem evoluído significantemente nos últimos anos. Uma das principais razões para isso é o fato das empresas terem adotado novas técnicas e tecnologias para análise, projeto e desenvolvimento de software. Além disso, tem havido uma conscientização maior da importância do gerenciamento de qualidade de software e da adoção de técnicas de

35 25 gerenciamento de qualidade provenientes da manufatura de software (SOMMERVILLE, 2007). As novas atitudes demonstram que as empresas perceberam o retorno positivo que o gerenciamento da qualidade pode prover. Entretanto, qualidade de software é um conceito complexo que não é diretamente comparável com a qualidade na manufatura. Por isso, no contexto de software, algumas abordagens, como o paradigma GQM, surgiram para definir as etapas necessárias para se avaliar a qualidade de um produto de software (ISO 9126, 1991 Apud AMARAL, 2003). Numa definição de qualidade aplicada a software, Sommerville (2007) define qualidade de software como sendo um conjunto de propriedades a serem satisfeitas, em determinado grau, de modo que o software satisfaça às necessidades de seus usuários. A qualidade de software não é uma ideia tão simples. É mais fácil descrevê-la através de um conjunto de atributos ou fatores requeridos que variam de acordo com as diferentes aplicações e os clientes que as solicitam. Existem várias formas de se classificar os fatores de qualidade. Uma delas é classificá-los como fatores externos e fatores internos. Fatores externos são aqueles cuja presença ou falta num produto de software pode ser detectada pelos usuários do produto. Fatores internos são aqueles que são perceptíveis apenas por engenheiros de software. Apesar de apenas os fatores externos terem importância no final, a chave para assegurar que eles são satisfeitos são os fatores internos, ou seja, as técnicas internas são um meio para atingir qualidade de software externa. Medições e métricas de software vêm no intuito de auxiliar a classificar os fatores de qualidade. As revisões de software para a avaliação desses fatores são demoradas. Entretanto, existem ferramentas para processar o projeto ou programa de software que aceleram o processo de revisão fazendo algumas avaliações automatizadas da qualidade de software. Essas avaliações podem verificar que software atingiu o limiar de qualidade necessária e, quando isso não ocorrer, destacar essas áreas que a revisão deve enfocar (SOMMERVILLE, 2007). Em sua obra, Sommerville (2007) enfatiza que medição de software se dedica a derivar um valor numérico para algum atributo ou fator de um produto de software ou de um processo de software. Já métrica de software é qualquer tipo de medição que se refira a um sistema ou processo de software. Dentre as técnicas e ferramentas de medição e definição de métricas, destaca-se em especial o paradigma Goal Question Metric (BASILI et al., 1994), que

36 26 foi concebido inicialmente para avaliar falhas em projetos da NASA (National Aeronautics and Space Administration) e, desde então, tem sido utilizado com sucesso na avaliação da qualidade de software. Ele parte do princípio de que é necessário traçar objetivos no início do processo de avaliação, para que se possam realizar medições de forma significativa. Esta é uma abordagem do tipo top-down que provê diretrizes para a definição de métricas sem o conhecimento prévio de medidas específicas Paradigma Goal-Question-Metric Segundo o paradigma GQM (Goal-Question-Metric), os objetivos de uma avaliação de qualidade não devem ser avaliados diretamente, mas através de questionamentos que precisam ser respondidos durante esta avaliação. Esses questionamentos também não são respondidos diretamente, mas através de métricas aplicadas ao produto ou processo em questão. Assim, técnicas e algoritmos específicos são utilizados para derivar respostas aos questionamentos a partir de métricas (BASILI, 1994). O GQM está modelado em três níveis (Figura 7): Conceitual (Goal/Objetivos): define o que a organização está tentando obter; Operacional (Question/Questionamento): são refinamentos dos objetivos, em que áreas específicas de incertezas relacionadas aos objetivos são identificadas; e Quantitativo (Metric/Métrica): são as medições que necessitam ser coletadas para auxiliar a responder às questões e confirmar se os aprimoramentos de processos alcançaram o objetivo desejado.

37 27 Figura 7 Paradigma GQM. Adaptado de (BASILI et al., 1994). Um objetivo é definido para um objeto, com diversos propósitos, em relação a vários critérios de qualidade, sob diferentes perspectivas, todos relativos a um determinado ambiente. Objetos mensuráveis podem ser: Produtos (Ex: especificações, projetos, programas, dados); Processos (Ex: especificação, projeto, teste, entrevista); Recursos (Ex: pessoas, hardware, software). Além disso, objetivos pode ser refinados em subobjetivos. Um conjunto de questionamentos é utilizado para caracterizar a forma como será realizada a avaliação de um objetivo específico. Os questionamentos buscam caracterizar o objeto mensurável em relação a critérios de qualidade, previamente selecionados, para determinar seu grau de qualidade sob a perspectiva considerada. Métricas são conjuntos de dados associados a cada questionamento para que o mesmo possa ser respondido de forma quantitativa. A elaboração de métricas é um processo customizado, que varia conforme a situação e o contexto em questão (SOMMERVILLE, 2007). O processo do GQM é composto pelos seguintes passos: i. Identificação de um conjunto de objetivos de qualidade no nível da corporação, divisão ou projeto; ii. Derivação de questionamentos a partir dos objetivos; iii. Especificação das medidas que precisam ser obtidas para responder os questionamentos; e iv. Desenvolvimento de mecanismos para a obtenção das medidas.

38 28 A vantagem dessa abordagem aplicada ao aprimoramento de processos é que ela separa assuntos organizacionais (os objetivos) de processo específico (as questões). Enfoca a coleta de dados e sugere que os dados coletados devam ser analisados em diferentes maneiras, dependendo da questão que se deseja responder (SOMMERVILLE, 2007). 2.5 TRABALHOS RELACIONADOS Nesta seção são abordados trabalhos e pesquisas que tenham algum relacionamento com o trabalho proposto, com o intuito de verificar as técnicas e tecnologias utilizadas para avaliar um DW A Framework for Quality Evaluation in Data Integration Systems No trabalho de Akoka et al. (2007), foi idealizado um framework, chamado QUADRIS, que estuda as interdependências entre as várias dimensões de qualidade em cada nível do projeto de um DIS (Data Integration System). Este trabalho mostra que a melhoria da uma dimensão da qualidade (tal como a precisão dos dados ou expressividade do modelo) pode ter consequências positivas ou negativas para outras dimensões da qualidade (por exemplo, a atualidade ou integridade de dados). Eles afirmam que a qualidade dos dados em sistema de informação não pode ser restrita a uma única abordagem de avaliação. Ou seja, não se pode abordar separadamente a mais simples ou a mais abstrata perspectiva do problema quando os dados forem incompletos, imprecisos, inconsistentes, incertos ou duplicados. A qualidade em sistemas de informação é multidimensional. Portanto, deve ser abordada em três níveis distintos: qualidade do modelo conceitual de dados (QoM), qualidade dos dados armazenados (QoD) e qualidade dos processos sobre dados (QoP). A partir de um ponto de vista funcional, ou seja, levando em consideração o contexto organizacional em que o DIS esta inserido, é ilustrada uma arquitetura de um sistema de informação para uma aplicação CRM (do inglês, Customer

39 29 Relationship Management) (Gestão de Relacionamento com o Cliente), no qual são aplicados os estudos em duas vertentes: (i) Demonstrar o impacto de QoM em QoD; e (ii) Identificar as interdependências entre dimensões de QoD. Independente da vertente, os estudos demonstram que as dimensões de qualidade são multidimensionais e complexas e devem ser definidas orientadas ao objetivo do estudo. Para a QoM foram propostas quatro dimensões para estudo: (i) Completude; (ii) Compreensibilidade; (iii) Minimalidade; e (iv) Expressividade. Já para a QoD são propostas dimensões de qualidade como: (i) Completude; (ii) Unicidade; (iii) Consistência; (iv) Atualidade; e (v) Acurácia (tanto sintática quanto semântica); Dessa maneira, com as dimensões de qualidade definidas, o trabalho visa demonstrar que uma ação na dimensão QoM pode ter consequências positivas ou negativas sobre a dimensão QoD: por exemplo, o aumento da minimalidade do modelo conceitual de dados - um modelo é dito ser mínimo quando todos os aspectos dos requisitos aparecem apenas uma vez - pode diminuir a integridade dos dados; e aumentando a expressividade do modelo por adição de restrições de integridade, pode-se aumentar a singularidade, a precisão e a consistência dos dados. Assim, reforçando a ideia de que as dimensões de qualidade devem focar os objetivos definidos para a avaliação de um DIS. Portanto, o presente artigo descreve um projeto de investigação em curso, dedicado à avaliação e melhoria da qualidade dos dados e dos modelos de dados em sistema de informações. E, apesar do estudo não estar concluído, ele já oferece perspectivas interessantes para a concepção de sistemas de qualidade e de criação de estratégias para aprimorar a qualidade dos dados Architecture and Quality in Data Warehouses: An Extended Repository Approach Em seu trabalho, Jarke et al. (1999) comentam que a maioria dos pesquisadores de banco de dados tem estudado DW no seu papel de buffer de visualizações materializadas do negócio, mediando entre sistemas de atualizações intensivas (OLTP Online Transaction Processing) e sistemas de consultas intensivas de apoio à decisão. Porém, estudar um DW neste único papel negligencia

40 30 o papel organizacional de armazenagem de dados em um meio de controle de informações. Como consequência, um grande número de aspectos de qualidade relevantes para armazenamento de dados não podem ser expressos com modelos atuais de DW. Visando solucionar os problemas citados acima, este trabalho desenvolve a arquitetura DWQ (Data Warehouse Quality) e um framework de gestão da qualidade, descrevendo sua aplicação em um DW. Desse modo, o trabalho faz duas contribuições: a primeira tem como objetivo enriquecer os metadados de DW explicitando modelos empresariais e a segunda traz o desenvolvimento de diferentes técnicas matemáticas para medir ou aperfeiçoar determinados aspectos de qualidade de DW. Ambas as contribuições têm por objetivo permitir análises de qualidade computacionalmente tratáveis, bem como permitir um processo de projeto guiado por qualidade. Com isso, pode-se dizer que o principal objetivo do trabalho desenvolvido por Jarke et al. (1999) é enriquecer o gerenciamento de dados em DW de tal forma que ele possa servir como uma base significativa para a análise sistemática de qualidade e para projetos guiados por qualidade. Contudo, para alcançar este objetivo foi necessário superar duas limitações das atuais pesquisas sobre DW. Em primeiro lugar, a arquitetura básica de um DW é considerada fraca para permitir uma avaliação de qualidade significativa. Como a qualidade é geralmente detectada apenas pela sua ausência, a orientação à qualidade de gerenciamento de dados exige que se descreva a sequência completa dos passos, desde a captura da realidade da empresa em departamentos operacionais até a interpretação de informações do DW pelo analista cliente. O segundo grande problema é a enorme riqueza em fatores de qualidade, cada um associado à sua própria riqueza de medição e técnicas de projeto. Portanto, houve a necessidade de adaptar uma variante da chamada abordagem Goal-Question-Metric (GQM) utilizada na gestão de qualidade de software, a fim de vincular os objetivos conceituais da abordagem a técnicas específicas desenvolvidas no DW e para gerenciar o conflito de escolha entre objetivos heterogêneos de qualidade. Assim, o GQM foi utilizado para guiar a avaliação do DW, auxiliando na definição de dimensões de qualidade a serem analisadas e enfatizando que a avaliação deve ser feita sob a perspectiva do usuário final.

41 31 A abordagem de estudo deste trabalho foi totalmente colocada em prática e algumas validações ocorreram para afinar os objetivos. Em parte, estas validações foram feitas testando versões do modelo desenvolvido em projetos do mundo real. Entretanto, na opinião de Jarke et al. (1999), obviamente ainda há muito a ser feito, e uma direção de trabalho atual é continuar a validação do modelo desenvolvido em cima de casos de estudo graves, de forma a estabelecer prioridades entre os critérios de qualidade a serem explicados em métricas específicas e técnicas de análise The Role of Process Metadata and Data Quality Perceptions in Decision Making O estudo desenvolvido por Shankaranarayanan, Even e Watts (2006) afirma que a qualidade dos dados utilizados nas tarefas de tomada de decisões tem implicações importantes sobre o resultado dessas tarefas. Com isso, pesquisadores do ramo definiram várias dimensões para medir a qualidade dos dados, tais como acurácia, consistência e completude. Porém, essas medições são intrínsecas aos dados e não levam em conta fatores contextuais relacionados ao usuário ou à tarefa de tomada a decisão. No entanto, pesquisas recentes sugerem que a qualidade dos dados, quando avaliada pelos usuários que usam o sistema de tomada de decisão, não é necessariamente percebida como algo intrínseco, mas como subjetiva e dependente do contexto. Esta pesquisa também demonstra o fornecimento de metadados de processos - uma descrição abstrata de como os conjuntos de dados são adquiridos, processados, armazenados, e entregues - como um mecanismo que afeta a avaliação da qualidade dos dados pelo usuário final. Assim, pode-se dizer que este estudo foi realizado para investigar a avaliação da qualidade dos dados na tomada de decisões e o papel dos metadados de processos. Dados de entrada de qualidade são fundamentais para a tomada de decisão. Portanto, os usuários precisam ser capazes de avaliar a qualidade dos seus dados de entrada para cada contexto de decisão que eles enfrentam. Para esse fim, foi proposto um modelo de estudo que incorpora os dados da avaliação da qualidade e metadados dos processos.

42 32 Os resultados do estudo suportam a hipótese de uma associação positiva entre avaliação da qualidade dos dados e a utilidade dos metadados de processos. A explicação para essa associação positiva é que os metadados de processos fornecem informações adicionais que podem explicar os valores de qualidade dos dados avaliados, ajudando os tomadores de decisão a avaliarem melhor a qualidade dos dados que eles estão usando no contexto particular da tarefa de decisão. Assim, quando os usuários avaliam os dados como sendo de má qualidade, com base em indicadores intrínsecos, a adição de informação de suporte extrínseco é redundante. Por outro lado, quando os usuários avaliam a qualidade dos dados a ser ótima ou mesmo boa, metadados de processos podem ajudar a confirmar (ou não) este nível de qualidade, enriquecendo o contexto com metadados sobre o processo de produção dos dados. Com isso, pode-se proferir que o teste exploratório do modelo apresentado sugere que ambas as percepções de qualidade de dados e os metadados de processos associados tem efeitos benéficos sobre os resultados, quando mediados pela eficiência do processo de tomada de decisões. Apesar das limitações empíricas do estudo, seus resultados destacam o valor da incorporação de qualidade e da preparação dos metadados em ambientes de tomada de decisão apoiados por computador com intuito de facilitar a avaliação da qualidade dos dados. Além disso, o estudo tem implicações importantes para pesquisas futuras sobre gestão da qualidade dos dados e para a concepção de ambientes de suporte à decisão Aquaware: Um Ambiente de Suporte à Qualidade de Dados em Data Warehouse De acordo com Amaral (2003), a crescente utilização do DW em tomadas de decisão estratégicas, críticas para o negócio da empresa, aumenta a importância de apoiar-se em informações válidas, confiáveis e de qualidade. Da mesma forma que uma casa construída sobre alicerces fracos tende a desmoronar, conclusões baseadas em dados incorretos dificilmente irão produzir os resultados esperados. Dados de má qualidade podem ocasionar falhas nos processos de negócio e custos relacionados a pessoas, materiais, tempo, dinheiro e até mesmo a perda definitiva de clientes.

43 33 Com isso, pensando em expor indicativos da qualidade dos dados utilizados em um DW, Amaral (2003) idealizou um ambiente computacional que atua como infraestrutura para o fornecimento de informações de qualidade para ferramentas que atuem como clientes do DW, denominado Ambiente de Suporte à Qualidade de Dados em Data Warehouse (AQUAWARE). Como parte integrante da solução, foi definido um conjunto de indicadores para a avaliação da qualidade dos dados sob a perspectiva do usuário final. O ambiente proposto faz uso da abordagem de serviços Web para disponibilizar um serviço que provê informações de qualidade para ferramentas que atuem como clientes do DW (ferramentas de consultas analíticas, por exemplo). Para armazenar as informações sobre qualidade, são utilizados um Repositório de Metadados e um conjunto de Cubos de Qualidade. O paradigma Goal Question Metric (GQM) (BASILI et al. 1994) foi utilizado para modelar a qualidade no repositório, bem como para orientar a definição de um conjunto de objetivos, questionamentos e métricas, utilizados para instanciar o repositório. Porém, deve-se destacar que a solução apresentada no trabalho tem o propósito de atuar como infraestrutura para o fornecimento de informações de qualidade para ferramentas cliente, não contemplando a apresentação dessas informações para o usuário final, o que fica a cargo da ferramenta cliente que pode fazer de forma análoga aos dados das consultas analíticas. Para modelar um conceito de qualidade através do paradigma GQM, foram definidos indicadores sob a perspectiva do usuário final, considerando as particularidades do contexto interorganizacional. Inicialmente foram selecionados alguns critérios de qualidade que serviram como ponto de partida para a identificação dos indicadores. O paradigma GQM foi utilizado para orientar a definição desses indicadores, sendo que os objetos do DW a serem avaliados pelos indicadores são as tabelas de fato e as tabelas de dimensão. A principal contribuição desse trabalho foi o fornecimento de informações sobre a qualidade dos dados do DW para ferramentas de consultas analíticas, para que as mesmas possam formatá-las e apresentá-las para o usuário final. O fornecimento de informações sobre a qualidade de dados para os tomadores de decisão representa um avanço em relação às consultas analíticas convencionais, pois possibilita que eles avaliem até que ponto podem confiar nos dados apresentados. Isso confere mais confiabilidade ao processo de tomada de decisão.

44 CONSIDERAÇÕES FINAIS DO CAPÍTULO Como se pode perceber, os trabalhos relacionados apresentados compreendem, de forma geral, a avaliação dos dados fontes e dos dados carregados no DW, pois a qualidade dos dados utilizados nas tarefas de tomada de decisões tem implicações importantes sobre o resultado dessas tarefas. Porém, juntamente com a avaliação dos dados é levada em consideração a avaliação do modelo de dados empregado no DW. Portanto, apesar de que as técnicas e formas de avaliação de um DW diferem em algumas particularidades, os requisitos de dados e de usuários sempre devem ser considerados. Ou seja, para uma avaliação consistente do AgroDW, ela deve ser feita dentro do contexto em que o DW é utilizado, neste caso, dentro do contexto da AP. O estudo de Akoka et al. (2007) demonstra que a qualidade possui dimensões e deve ser analisada em três níveis de projeto. Porém, enfatiza sua análise em dois níveis que são a qualidade dos dados e a qualidade dos modelos conceituais de dados, reforçando o objetivo geral do presente trabalho. Além disso, eles afirmam que avaliar a qualidade, tanto dos dados como dos modelos conceituais, não pode ser restrita a uma única abordagem de avaliação. Ou seja, não se pode abordar separadamente a mais simples, como validar um atributo do dado fonte, ou a mais complexa perspectiva do problema, como validar as relações existentes nos modelos de dados. Desta maneira, demonstrando que para uma avaliação consistente do DW, devem ser considerados os problemas mais simples junto dos mais complexos. Jarke et al. (1999) explicam que a maioria dos pesquisadores de banco de dados tem estudado DW no seu papel de buffer de visualizações materializadas do negócio, mediando entre sistemas de atualizações intensivas e sistemas de consultas intensivas de apoio à decisão. Porém estudar um DW neste único papel negligencia o papel organizacional do DW e, como consequência, um número relevante de aspectos de qualidade deixa de ser levado em consideração. Com isso, sua principal contribuição enfatiza que a avaliação de um DW deve ser realizada considerando o contexto organizacional. Complementa sua contribuição ratificando

45 35 que os aspectos de qualidade a serem avaliados devem ser estabelecidos na perspectiva dos usuários, introduzindo a ideia de uma avaliação apoiada pelo paradigma GQM. Complementando os estudos anteriores, Amaral (2003) afirma que a crescente utilização do DW para apoiar processos de tomada de decisão tem provocado um aumento da preocupação em relação à qualidade dos mesmos e dos dados utilizados. Com isso, contribui explicitando um método de avaliação fortemente guiado pelo paradigma GQM e definindo um conjunto de dimensões de qualidade para a avaliação do DW sob a perspectiva do usuário final, pois a possibilidade de tirar vantagem dos recursos de informação só é possível se existe um conhecimento prévio do quão confiável eles são. Já o trabalho de Shankaranarayanan, Even e Watts (2006) afirma que a qualidade dos dados utilizados nas tarefas de tomada de decisões tem implicações importantes sobre o resultado dessas tarefas. Porém, medir apenas dimensões de qualidade de dados, tais como acurácia e completude, sem levar em conta fatores contextuais relacionados ao usuário ou a tarefa de tomada a decisão, não é suficiente. Por isso, o estudo contribui com a ideia de que além dos dados de avaliação de qualidade devem ser disponibilizados aos usuários metadados de processos, assim enriquecendo a avaliação para o usuário. Além disso, o estudo explana que os próprios processos de tomada de decisão devem ser analisados, pois eles são os mediadores entre os dados do DW e o resultado da tarefa de tomada de decisão. Entretanto, o estudo vai contra as ideias de Akoka et al. (2007) e Jarke et al. (1999) que frisam que a avaliação de qualidade dever ser feita dentro do contexto que o DW será empregado. Com isso, esta ideia foge dos objetivos do presente trabalho e não é empregada na avaliação. Como se pode observar nos trabalhos relacionados, há preocupação em avaliar um DW segundo o contexto em que ele está inserido. Então, neste trabalho foi desenvolvida a avaliação de um DW para AP, onde houve a preocupação com a contextualização dos dados e requisitos necessários para o suporte a tomada de decisão na AP. Assim, com base nos trabalhos relacionados, se definiu que o método de avaliação seguiria a ideia de avaliar o AgroDW através do paradigma GQM que, após a definição de quais dimensões de qualidade seriam avaliadas, auxiliou na definição de métricas para mensurar tais dimensões. Com isso, a

46 36 avaliação buscou demonstrar que o AgroDW contempla os requisitos de usuário para um DW no âmbito de AP. Além dos trabalhos relacionados, neste capitulo foram descritos alguns conceitos e técnicas mais utilizadas para o desenvolvimento de um DW, bem como conceitos de qualidade de software e uma breve explanação sobre os conceitos de agricultura de precisão. Os conceitos destas três áreas serviram como referências para o desenvolvimento deste trabalho.

47 37 3 AVALIAÇÃO DO AGRODW O presente capítulo tem por finalidade apresentar a aplicação do processo de avaliação do AgroDW. Entretanto, primeiramente é apresentado o projeto do AgroDW, mostrando o modelo multidimensional de dados definido por Araujo (2011), bem como são descritos detalhes da realização do processo ETL, incluindo a descrição dos dados fontes e da ferramenta de licença gratuita utilizada para auxiliar o processo. Na sequência, é apresentado e detalhado o método de avaliação empregado para a avaliação do AgroDW e as etapas necessárias para o desenvolvimento desta avaliação, discorrendo acerca dos processos de negócio relacionados ao suporte à decisão na AP. Por fim, são descritos os mecanismos desenvolvidos e aplicados para a obtenção das métricas. 3.1 PROJETO DO AGRODW Para o projeto do DW foi utilizada uma abordagem guiada por dados, pois havia uma considerável e consistente quantidade de dados disponíveis. As fontes continham dados de produtividade do solo, coletados através de máquinas agrícolas, e de características do solo, obtidos através de relatórios de análise de amostras das áreas de produção. Com o intuito de padronizar o vocabulário dos metadados e entender melhor os relacionamentos intrínsecos entre eles, foram utilizados modelos de dados, tais como, MOSAICo, AGROVOC e agroxml para modelar o AgroDW. A partir da padronização dos dados utilizando os modelos de agricultura, o DW para AP foi concebido como dois data marts distintos, harvest (colheita) e plantation (plantio). Essa decisão foi tomada porque havia a necessidade de separar

48 38 a colheita da plantação, como dois setores de uma empresa, pois um representa dados do plantio e o outro dados da colheita. De acordo com Araujo (2011), para o desenvolvimento do esquema multidimensional do DW para AP, o AgroDW, foi utilizada a metodologia proposta por Kimball (KIMBALL et al., 2002), a qual é composta por quatro passos: (i) seleção dos processos de negócios; (ii) definição da granularidade dos dados; (iii) escolha das dimensões e (iv) identificação da tabela fato. Então, com base nesta metodologia, definiu-se que os DMs seriam organizados segundo o esquema estrela. As Figuras 8 e 9 ilustram os esquemas estrela dos DMs Harvest e Plantation resultantes do projeto do DW para AP. Porém ambos os DMs apresentados foram adaptados de acordo com necessidades e dificuldades identificadas no decorrer do processo ETL realizado neste trabalho (ver seção 3.2). A adaptação número dois foi aplicada devido a erro de projeto e as demais foram aplicadas visando à evolução do projeto: 1. Adaptação de campos chaves: chaves estrangeiras e primárias que estão nas tabelas fato foram transformadas apenas em chaves estrangeiras. Da forma que foram estabelecidas, como chave primária e estrangeira, elas dificultavam o gerenciamento dos DMs, pois obrigavam que todo registro da tabela fato contivesse relação com as tabelas de dimensão; 2. Adaptação de campos: após uma análise nos arquivos fontes, campos do tipo Integers foram transformados em Float, pois tais campos variavam em até cinco casas decimais. A maioria dos campos transformados encontram-se nas tabelas fato Harvest e Plantation; 3. Realocação de campos: alguns campos foram realocados das tabelas dimensão para as tabelas fato, por exemplo, os campos productionkg e avgproduction movidos da tabela dimensão Crop para a tabela fato Harvest e os campos phvalue e carboncontent movidos da tabela dimensão Soil_Parameters para a tabela fato Plantation. Essa realocação foi realizada, pois são campos variáveis e, seguindo as ideias de Ballard et al. (1998) e Kimball (2002), campos variáveis devem estar contidos na tabela fato; 4. Fusão de tabelas: as tabelas Farm e Farmer foram unidas, pois representam uma pequena quantidade de dados, continham campos duplicados como o

49 39 campo farmername e a fusão facilita a consulta aos dados e diminui o tempo de processamento da mesma. Com as adaptações feitas, a modelagem referente ao DM harvest, ilustrada na Figura 8, ficou definida da seguinte maneira: dimensões Farm, Input, Date, Crop, FieldPosition, Machine e por fim a tabela central que corresponde à tabela fato Harvest. Figura 8 Modelagem do Data Mart harvest. Adaptado de (ARAUJO, 2011). Já a modelagem para o segundo DM, também organizada segundo o esquema estrela, demonstrada na Figura 9, foi definida pelas dimensões Farm, Input, Date, Crop, Soil_Parameters, FieldPosition e pela tabela fato Plantation.

50 40 Figura 9 Modelagem do Data Mart plantation. Adaptado de (ARAUJO, 2011). Os esquemas dos DMs foram implementados no sistema de gerenciamento de banco de dados (SGBD) PostgreSQL, através da ferramenta pgadmin III (PGADMIN, 2012). Tal SGBD foi escolhido, pois é open source, com suporte a consultas SQL (Structured Query Language) (PostgreSQL, 2010). Os dois DMs foram criados em um único database, pois compartilham tabelas de dimensão que possuem a mesma estrutura. 3.2 REALIZAÇÃO DO PROCESSO ETL Neste trabalho, todos os processos de extração, transformação e carga dos dados foram realizados com o auxilio da ferramenta expressor Studio, descrita na seção Esta ferramenta auxiliou todo o processo de ETL visando realizar a carga dos dados fontes no ambiente do AgroDW no final do processo, e, por

51 41 consequência, diminuindo um pouco o tempo necessário para que esta etapa do trabalho fosse concluída Dados fontes Como fonte para o processo de ETL foram utilizados os arquivos providos pela fundação paranaense, com o intuito de popular o AgroDW com uma massa significativa de dados. Esta fundação é uma instituição de caráter particular, sem fins lucrativos, mantida pela contribuição dos produtores e por parcerias em trabalhos de pesquisa com empresas privadas. Os dados obtidos consistem em dados de colheitas apanhados de máquinas agrícolas e dados obtidos de análises do solo. Estes dados não estão em um único formato, ao contrário, encontram-se em diversos tipos de arquivos com extensões variadas, tais como: dados em Formato de Banco de Dados (.dbf) (ilustrado na parte (A) da Figura 10), dados em Formato Texto (.txt) (ilustrado na parte (B) da Figura 10) e dados em Formato de Planilha Eletrônica (.xls) (ilustrado na parte (C) da Figura 10). Desta forma, estes dados apresentam um nível de granularidade baixo, ou seja, a granularidade destes dados refere-se ao nível de dispersão e quantidades destes elementos e detalhes disponíveis nos dados. Para a realização do processo ETL, foram selecionados dados de três fazendas, denominadas: (i) SC; (ii) SM; e (iii) SU. Para cada fazenda foram selecionados dois talhões: SC41 e SC45 para a fazenda SC; SM01 e SM05 para a fazenda SM; SU23 e SU27 para a fazenda SU, compreendendo três anos 2007/2008/2009 para o plantio, e 2008/2009/2010 para a colheita de todos os talhões. O nome real das fazendas é omitido por questões de privacidade de dados. Tomando como exemplo o talhão SM02, que abrange os dados de colheita em dois formatos de arquivo e um para plantio. As partes A e B da Figura 10 ilustram alguns dados importantes para AP, como por exemplo, a longitude, latitude, altitude e tipo de cultura. Já a parte C da figura apresenta a variedade do tipo de sementes e tipos de fertilizantes utilizados no plantio de uma determinada cultura.

52 42 Figura 10 Exemplos de dados fonte. A) Dados em Formato de Banco de Dados (.dbf); B) Dados em Formato Texto (.txt); C) Dados em formato de Planilha Eletrônica (.xls) Ferramentas ETL Para a realização do processo ETL foram postuladas duas alternativas. Uma proposta era desenvolver uma aplicação do zero, a outra, era utilizar uma ferramenta ETL disponível de licença gratuita. Com base nas necessidades do conjunto de dados em particular, percebeu-se que desenvolver o processo de ETL sem nenhum projeto base seria muito complexo e o tempo necessário excederia o tempo disponível para esta atividade. Visto este empecilho, decidiu-se que o ideal seria usar uma ferramenta ETL que provesse um bom suporte para todas as etapas do processo ETL. O objetivo era encontrar uma ferramenta de licença gratuita, porém eficiente e confiável para as necessidades de integração de dados. Visando os objetivos, foram encontradas as seguintes ferramentas ETL: Apatar, CloverETL, expressor Studio,

53 43 Pentaho, Scriptella e Talend. Com base nas informações encontradas nos próprios websites das ferramentas foi construída a Tabela 2, que demonstra de forma objetiva as características relevantes para a escolha da ferramenta para realização do processo ETL deste trabalho. Do conjunto de dados apresentados, a respeito das características 7 a 13, a única ferramenta que destoa das demais é a ferramenta Scriptella que não teve sua interface considerada amigável, pois consiste na aplicação de scripts e o objetivo era encontrar uma ferramenta com um bom suporte visual para as especificações das etapas do processo ETL por serem processadas de forma manual pelo desenvolvedor do trabalho. Ferramenta / Característica Apatar CloverETL Expressor Pentaho Scriptella Talend 1. Desenvolvedor Apatar Inc. Javlin Expressor Software Corporation The Pentaho BI Project The Scriptella Project Talend Java Java Java Java Java Java 2. Linguagem de Programação 3. Sistema Operacional Crossplatform Crossplatform Crossplatform Crossplatform Crossplatform Crossplatform 4. Licença Gratuita Gratuita Gratuita Gratuita Gratuita Gratuita 5. Open Source Sim Não Não Sim Sim Sim 6. Documentação Boa Ruim Muito Boa Boa Boa Muito Boa 7. Permite aplicar regras de extração 8. Permite aplicar regras de transformação 9. Permite aplicar regras de carga de dados 10. Migração/Integração de dados 11. Conectividade com arquivos 12. Conectividade com PostgreSQL 13. Interface amigável Tabela 2 Características das ferramentas ETL. Portanto, com base na Tabela 2, foram selecionadas as ferramentas expressor Studio e Talend Data Integration, pois as mesmas disponibilizam as funções necessárias, possuem uma documentação muito boa com tutoriais

54 44 demonstrando a execução do processo ETL e também contam com uma interface amigável. Em seguida, as ferramentas inicialmente selecionadas foram testadas para que fosse escolhida a ferramenta que mais se adequasse com o desenvolver do trabalho. As características das ferramentas demonstram que não há necessidade de desenvolvimento de uma aplicação especifica para esta atividade. Portanto, foi definida a seleção da ferramenta expressor Studio, pois além de apresentar as características descritas na Tabela 2, apresentou uma interface mais intuitiva sob a perspectiva do desenvolvedor do trabalho para o mapeamento dos dados, quando comparado com o Talend Data Integration Definição do processo Como descrito na seção anterior, foi selecionada uma ferramenta que proveria suporte a execução do processo ETL e, portanto, não foi necessário desenvolver uma ferramenta ETL especifica para este trabalho, pois a ferramenta selecionada atende as necessidades desta atividade. Desta forma, acredita-se que foi possível um melhor desenvolvimento do processo. Seguem abaixo detalhes sobre cada uma das três fases do processo de ETL realizado: Extração: A primeira etapa deste processo ETL é a extração dos dados dos arquivos fontes selecionados previamente. Foram extraídos dados de arquivos.txt,.dbf e.xls, apresentados na seção Identificou-se que para o DM harvest a maioria dos dados se encontravam nos arquivos.txt e.dbf. Já para o DM plantation os dados se encontram nos três formatos de arquivos citados anteriormente. O universo dos dados disponível é formado por cerca de 200 arquivos, representando 30 áreas de plantio em três anos diferentes de colheita (2008, 2009 e 2010), cada um com contendo em média 30 mil registros. Estes dados foram extraídos com o auxílio da ferramenta expressor Studio, que mapeia os dados contidos nos arquivos fonte (lado esquerdo da Figura 11) e proporciona a seleção de um conjunto específico de dados, utilizado de entrada para a etapa de transformação (lado direito da Figura 11).

55 45 Figura 11 Etapa de extração do processo ETL no expressor Studio. Transformação: É através desta etapa que os dados deixam de ser apenas dados, e passam a constituir informações relevantes para análise, pois são realizadas todas as transformações imprescindíveis para adequar os dados ao modelo do AgroDW. Portanto, é essencial que ela seja desenvolvida com o máximo de cuidado, respeitando todos os detalhes para a efetiva construção do AgroDW. O primeiro passo realizado desta etapa foi a exclusão de todos os dados que são desnecessários de acordo com o modelo do AgroDW. Em seguida, foi realizada a limpeza dos dados, pois, apesar da maioria dos dados extraído ter sido diretamente mapeada a uma tabela do AgroDW, alguns dados precisaram passar por limpeza e/ou transformação. A limpeza se trata do refinamento dos dados, como a retirada de espaços em branco, adequação de caracteres especiais, entre outros. Já a parte de transformação diz respeito à: Conversão de variáveis datas para atributos separados em dia, mês e ano; Transformação de dados strings em tipo numérico real; Tratamento de número decimal; Concatenação de variáveis strings; Separação de variáveis strings; e Sumarização dos dados contidos nas dimensões. Um exemplo das transformações e limpezas realizadas pode ser visualizado na Figura 12.

56 46 Figura 12 Etapa de transformação do processo ETL no expressor Studio. Carga: A carga de dados constitui a última etapa do processo ETL para a população do ambiente AgroDW. Esta etapa se destina a mapear os dados extraídos e transformados nos DMs do AgroDW de acordo com as designações feitas no expressor Studio (lado direito da Figura 13) para as tabelas do AgroDW (lado esquerdo da Figura 13), carregando os dados no DW. Inicialmente foram concebidas duas ideias de população do AgroDW: (i) Cíclica, ou seja, um registro seria extraído, transformado e carregado nas tabelas de dimensões e por fim na tabela fato; ou (ii) Dimensão a dimensão, ou seja, povoando todas as dimensões uma de cada vez e posteriormente a tabela fato. Por questão de tempo de desenvolvimento do processo ETL, foi utilizada a segunda forma de população do DW, pois além de ser menos complexa de ser desenvolvida, a versão gratuita da ferramenta expressor Studio não demonstrou possuir alguma funcionalidade que provesse suporte à forma de população cíclica. Figura 13 Etapa de carga do processo ETL no expressor Studio.

57 47 As definições das etapas de extração, transformação e carga foram realizadas por arquivo fonte. Somente para arquivos do mesmo formato e estrutura interna número de colunas foi possível realizar um agrupamento dos conteúdos e assim definir uma única definição de cada uma das três etapas para o determinado conjunto de arquivos fonte. Portanto, como o conjunto de arquivos fonte não contém uma padronização, na definição das etapas pouco se pode fazer o reuso de definições já utilizadas Algoritmos O processo ETL desenvolvido com o auxilio da ferramenta expressor Studio foi realizado em três etapas distintas: 1) Preparação do ambiente de trabalho dentro da ferramenta, ilustrada na Figura 14; 2) Criação de fluxos de dados para extração, transformação e carga, ilustrada na Figura 15; 3) Execução do processo de população do AgroDW, ilustrada na Figura 16. Etapa 1 - Preparação do ambiente 1. Para cada tabela dos DMs: 1.1. Selecionar os dados necessários do conjunto de arquivos disponível; A seleção compreende o processo de escolha dos dados, por parte do projetista do ETL, que serão carregados nos DMs Criar um esquema fonte que mapeia os dados do arquivo fonte para uma tabela virtual ; Um esquema fonte é uma representação intermediária da estrutura do arquivo de entrada em termos de colunas e tipos de dados Criar um esquema da tabela do DM que está sendo populado; Um esquema da tabela é uma representação intermediária da estrutura da tabela destino em termos de colunas e tipos de dados Montar um fluxo de dado para o tratamento dos dados; Um fluxo de dado é uma representação do fluxo de dados durante o processo ETL para cada tabela contida nos DMs.

58 48 Figura 14 Etapa 1 - Preparação do ambiente. Etapa 2 - Criação dos fluxos de dados 2. Para cada tabela dos DMs: 2.1. Explicitar o arquivo fonte; 2.2. Inserir funções desejadas: Se existir vários arquivos com mesmo esquema fonte então: a. Incluir função Afunilar que combina os dados de múltiplas entradas em uma única saída; Se for necessário capturar um valor único entre vários atributos então: b. Incluir função Unificar que seleciona os dados com base na presença ou ausência de chaves duplicadas; Se for necessário estabelecer ordem nos valores extraídos então: c. Incluir função Classificar que ordena os registros de acordo com campos chave especificados; 2.3. Definir as transformações necessárias: Enquanto houver dimensões ou fatos a serem tratados faça:

59 49 a. Se for tabela dimensão então: i. Especificar a sequência do atributo id (identificador) da tabela; As sequências de valores do atributo identificador de cada tabela seguem a ordem em que os registros são lidos dos arquivos fonte. b. Se for tabela fato então: i. Especificar a sequência do atributo id (identificador) da tabela; ii. Para cada novo registro da tabela fato que tenha relação com alguma tabela dimensão: 1. Relacionar um id da tabela dimensão e preencha o respectivo campo chave estrangeira da tabela fato; c. Para campos de ambos os tipos de tabelas (dimensão e fato): i. Resolver transformações em atributos do tipo string: 1. Tratamento de letras maiúsculas e minúsculas; 2. Divisões e/ou concatenações de string; 3. Mapeamento direto; ii. Resolver transformações em atributos do tipo inteiro: 1. Transformar dados string em inteiro; 2. Separar atributos data em atributos inteiros separados; 3. Mapeamento direto; iii. Resolver transformações em atributos do tipo decimal: 1. Tratamento de pontos e vírgulas; 2. Transformar dados string em decimal; 3. Mapeamento direto; 2.4. Mapear os dados transformados para uma tabela do AgroDW; Os atributos transformados são mapeados para campos das tabelas de dimensão ou fato do AgroDW. Figura 15 Etapa 2 - Criação dos fluxos de dados.

60 50 Etapa 3 - Execução do processo de população 3. Para cada fluxo de dados criado: 3.1. Ler arquivo fonte; 3.2. Executar limpezas e transformações; 3.3. Gravar dados na tabela do AgroDW designada; Figura 16 Etapa 3 - Execução do processo de população do AgroDW Considerações sobre o processo ETL Como visto no decorrer da seção, a sequência utilizada para a carga dos dados foi na forma dimensão a dimensão, onde todas as dimensões são populadas uma de cada vez, ou seja, são realizados os passos de extração, transformação e carga para cada tabela dimensão. Posteriormente, com todas as dimensões devidamente carregadas, é realizado o preenchimento das tabelas fato. Apesar da escolha criteriosa do método de população do AgroDW, algumas dificuldades foram encontradas. Em relação à etapa de extração, as principais dificuldades foram tratar os diversos formatos de arquivos e as diversas estruturas número de colunas para os arquivos de mesmo formato. Todavia, para tal dificuldade a única solução foi criar esquemas 1 para cada arquivo fonte com estrutura diferente. Já para as etapas de transformação e carga, a maior dificuldade foi o gerenciamento dos id (identificadores), tanto das tabelas de dimensão como das tabelas de fato. Nas tabelas de dimensão os identificadores foram definidos pela 1 Esquemas são representações que definem as estruturas de dados que são lidos ou escritos por entrada e saída de operadores nos fluxos de dados do processo ETL.

SUMÁRIO 1. INTRODUÇÃO... 2 2. O QUE É DATA WAREHOUSE?... 2 3. O QUE DATA WAREHOUSE NÃO É... 4 4. IMPORTANTE SABER SOBRE DATA WAREHOUSE... 5 4.

SUMÁRIO 1. INTRODUÇÃO... 2 2. O QUE É DATA WAREHOUSE?... 2 3. O QUE DATA WAREHOUSE NÃO É... 4 4. IMPORTANTE SABER SOBRE DATA WAREHOUSE... 5 4. SUMÁRIO 1. INTRODUÇÃO... 2 2. O QUE É DATA WAREHOUSE?... 2 3. O QUE DATA WAREHOUSE NÃO É... 4 4. IMPORTANTE SABER SOBRE DATA WAREHOUSE... 5 4.1 Armazenamento... 5 4.2 Modelagem... 6 4.3 Metadado... 6 4.4

Leia mais

Sistemas de Apoio à Decisão (SAD) - Senado

Sistemas de Apoio à Decisão (SAD) - Senado Sistemas de Apoio à Decisão (SAD) - Senado DW OLAP BI Ilka Kawashita Material preparado :Prof. Marcio Vitorino Sumário OLAP Data Warehouse (DW/ETL) Modelagem Multidimensional Data Mining BI - Business

Leia mais

Aplicação A. Aplicação B. Aplicação C. Aplicação D. Aplicação E. Aplicação F. Aplicação A REL 1 REL 2. Aplicação B REL 3.

Aplicação A. Aplicação B. Aplicação C. Aplicação D. Aplicação E. Aplicação F. Aplicação A REL 1 REL 2. Aplicação B REL 3. Sumário Data Warehouse Modelagem Multidimensional. Data Mining BI - Business Inteligence. 1 2 Introdução Aplicações do negócio: constituem as aplicações que dão suporte ao dia a dia do negócio da empresa,

Leia mais

Business Intelligence e ferramentas de suporte

Business Intelligence e ferramentas de suporte O modelo apresentado na figura procura enfatizar dois aspectos: o primeiro é sobre os aplicativos que cobrem os sistemas que são executados baseados no conhecimento do negócio; sendo assim, o SCM faz o

Leia mais

Data Warehouses Uma Introdução

Data Warehouses Uma Introdução Data Warehouses Uma Introdução Alex dos Santos Vieira, Renaldy Pereira Sousa, Ronaldo Ribeiro Goldschmidt 1. Motivação e Conceitos Básicos Com o advento da globalização, a competitividade entre as empresas

Leia mais

Planejamento Estratégico de TI. Prof.: Fernando Ascani

Planejamento Estratégico de TI. Prof.: Fernando Ascani Planejamento Estratégico de TI Prof.: Fernando Ascani Data Warehouse - Conceitos Hoje em dia uma organização precisa utilizar toda informação disponível para criar e manter vantagem competitiva. Sai na

Leia mais

Data Warehousing. Leonardo da Silva Leandro. CIn.ufpe.br

Data Warehousing. Leonardo da Silva Leandro. CIn.ufpe.br Data Warehousing Leonardo da Silva Leandro Agenda Conceito Elementos básicos de um DW Arquitetura do DW Top-Down Bottom-Up Distribuído Modelo de Dados Estrela Snowflake Aplicação Conceito Em português:

Leia mais

DATA WAREHOUSE. Introdução

DATA WAREHOUSE. Introdução DATA WAREHOUSE Introdução O grande crescimento do ambiente de negócios, médias e grandes empresas armazenam também um alto volume de informações, onde que juntamente com a tecnologia da informação, a correta

Leia mais

Resumo dos principais conceitos. Resumo dos principais conceitos. Business Intelligence. Business Intelligence

Resumo dos principais conceitos. Resumo dos principais conceitos. Business Intelligence. Business Intelligence É um conjunto de conceitos e metodologias que, fazem uso de acontecimentos e sistemas e apoiam a tomada de decisões. Utilização de várias fontes de informação para se definir estratégias de competividade

Leia mais

FUNDAMENTOS DE SISTEMAS DE INFORMAÇÃO

FUNDAMENTOS DE SISTEMAS DE INFORMAÇÃO @ribeirord FUNDAMENTOS DE SISTEMAS DE INFORMAÇÃO Rafael D. Ribeiro, M.Sc,PMP. rafaeldiasribeiro@gmail.com http://www.rafaeldiasribeiro.com.br Lembrando... Aula 4 1 Lembrando... Aula 4 Sistemas de apoio

Leia mais

5 Estudo de Caso. 5.1. Material selecionado para o estudo de caso

5 Estudo de Caso. 5.1. Material selecionado para o estudo de caso 5 Estudo de Caso De modo a ilustrar a estruturação e representação de conteúdos educacionais segundo a proposta apresentada nesta tese, neste capítulo apresentamos um estudo de caso que apresenta, para

Leia mais

CONSIDERAÇÕES SOBRE ATIVIDADES DE IDENTIFICAÇÃO, LOCALIZAÇÃO E TRATAMENTO DE DADOS NA CONSTRUÇÃO DE UM DATA WAREHOUSE

CONSIDERAÇÕES SOBRE ATIVIDADES DE IDENTIFICAÇÃO, LOCALIZAÇÃO E TRATAMENTO DE DADOS NA CONSTRUÇÃO DE UM DATA WAREHOUSE CONSIDERAÇÕES SOBRE ATIVIDADES DE IDENTIFICAÇÃO, LOCALIZAÇÃO E TRATAMENTO DE DADOS NA CONSTRUÇÃO DE UM DATA WAREHOUSE Fabio Favaretto Professor adjunto - Programa de Pós Graduação em Engenharia de Produção

Leia mais

Professor: Disciplina:

Professor: Disciplina: Professor: Curso: Esp. Marcos Morais de Sousa marcosmoraisdesousa@gmail.com Sistemas de informação Disciplina: Introdução a SI Noções de sistemas de informação Turma: 01º semestre Prof. Esp. Marcos Morais

Leia mais

Data Warehouses. Alunos: Diego Antônio Cotta Silveira Filipe Augusto Rodrigues Nepomuceno Marcos Bastos Silva Roger Rezende Ribeiro Santos

Data Warehouses. Alunos: Diego Antônio Cotta Silveira Filipe Augusto Rodrigues Nepomuceno Marcos Bastos Silva Roger Rezende Ribeiro Santos Data Warehouses Alunos: Diego Antônio Cotta Silveira Filipe Augusto Rodrigues Nepomuceno Marcos Bastos Silva Roger Rezende Ribeiro Santos Conceitos Básicos Data Warehouse(DW) Banco de Dados voltado para

Leia mais

Data Warehousing Visão Geral do Processo

Data Warehousing Visão Geral do Processo Data Warehousing Visão Geral do Processo Organizações continuamente coletam dados, informações e conhecimento em níveis cada vez maiores,, e os armazenam em sistemas informatizados O número de usuários

Leia mais

DATA WAREHOUSE. Rafael Ervin Hass Raphael Laércio Zago

DATA WAREHOUSE. Rafael Ervin Hass Raphael Laércio Zago DATA WAREHOUSE Rafael Ervin Hass Raphael Laércio Zago Roteiro Introdução Aplicações Arquitetura Características Desenvolvimento Estudo de Caso Conclusão Introdução O conceito de "data warehousing" data

Leia mais

SAD orientado a DADOS

SAD orientado a DADOS Universidade do Contestado Campus Concórdia Curso de Sistemas de Informação Prof.: Maico Petry SAD orientado a DADOS DISCIPLINA: Sistemas de Apoio a Decisão SAD orientado a dados Utilizam grandes repositórios

Leia mais

Complemento I - Noções Introdutórias em Data Warehouses

Complemento I - Noções Introdutórias em Data Warehouses Complemento I - Noções Introdutórias em Data Warehouses Esse documento é parte integrante do material fornecido pela WEB para a 2ª edição do livro Data Mining: Conceitos, técnicas, algoritmos, orientações

Leia mais

Data Warehouse Processos e Arquitetura

Data Warehouse Processos e Arquitetura Data Warehouse - definições: Coleção de dados orientada a assunto, integrada, não volátil e variável em relação ao tempo, que tem por objetivo dar apoio aos processos de tomada de decisão (Inmon, 1997)

Leia mais

DESENVOLVIMENTO DE PLUG-INS KETTLE PARA GERAÇÃO DE MONDRIAN SCHEMA A PARTIR DE BASES RELACIONAIS, UTILIZANDO A METODOLOGIA AGILE ROLAP.

DESENVOLVIMENTO DE PLUG-INS KETTLE PARA GERAÇÃO DE MONDRIAN SCHEMA A PARTIR DE BASES RELACIONAIS, UTILIZANDO A METODOLOGIA AGILE ROLAP. DESENVOLVIMENTO DE PLUG-INS KETTLE PARA GERAÇÃO DE MONDRIAN SCHEMA A PARTIR DE BASES RELACIONAIS, UTILIZANDO A METODOLOGIA AGILE ROLAP. Eduardo Cristovo de Freitas Aguiar (PIBIC/CNPq), André Luís Andrade

Leia mais

Modelo de dados do Data Warehouse

Modelo de dados do Data Warehouse Modelo de dados do Data Warehouse Ricardo Andreatto O modelo de dados tem um papel fundamental para o desenvolvimento interativo do data warehouse. Quando os esforços de desenvolvimentos são baseados em

Leia mais

TÉCNICAS DE INFORMÁTICA WILLIAN FERREIRA DOS SANTOS

TÉCNICAS DE INFORMÁTICA WILLIAN FERREIRA DOS SANTOS TÉCNICAS DE INFORMÁTICA WILLIAN FERREIRA DOS SANTOS Vimos em nossas aulas anteriores: COMPUTADOR Tipos de computadores Hardware Hardware Processadores (CPU) Memória e armazenamento Dispositivos de E/S

Leia mais

Módulo 2. Definindo Soluções OLAP

Módulo 2. Definindo Soluções OLAP Módulo 2. Definindo Soluções OLAP Objetivos Ao finalizar este módulo o participante: Recordará os conceitos básicos de um sistema OLTP com seus exemplos. Compreenderá as características de um Data Warehouse

Leia mais

18. Qualidade de Dados em Data Warehouse - Objetivos e Sucesso

18. Qualidade de Dados em Data Warehouse - Objetivos e Sucesso 18. Qualidade de Dados em Data Warehouse - Objetivos e Sucesso Uma das características das Ciências Exatas é a precisão das informações obtidas; a segurança dos dados extraídos nos processos usados. Cálculos

Leia mais

srbo@ufpa.br www.ufpa.br/srbo

srbo@ufpa.br www.ufpa.br/srbo CBSI Curso de Bacharelado em Sistemas de Informação BI Prof. Dr. Sandro Ronaldo Bezerra Oliveira srbo@ufpa.br www.ufpa.br/srbo Tópicos Especiais em Sistemas de Informação Faculdade de Computação Instituto

Leia mais

Sistemas de Informação James A. O Brien Editora Saraiva Capítulo 5

Sistemas de Informação James A. O Brien Editora Saraiva Capítulo 5 Para entender bancos de dados, é útil ter em mente que os elementos de dados que os compõem são divididos em níveis hierárquicos. Esses elementos de dados lógicos constituem os conceitos de dados básicos

Leia mais

Data Warehouse: uma classificação de seus Custos e Benefícios

Data Warehouse: uma classificação de seus Custos e Benefícios Data Warehouse: uma classificação de seus Custos e Benefícios Marcos Paulo Kohler Caldas (CEFET-ES/CEFET-PR) marcospaulo@cefetes.br Prof. Dr. Luciano Scandelari (CEFET-PR) luciano@cefetpr.br Prof. Dr.

Leia mais

UNIVERSIDADE FEDERAL DE MINAS GERAIS BACHARELADO EM SISTEMAS DE INFORMAÇÃO

UNIVERSIDADE FEDERAL DE MINAS GERAIS BACHARELADO EM SISTEMAS DE INFORMAÇÃO UNIVERSIDADE FEDERAL DE MINAS GERAIS BACHARELADO EM SISTEMAS DE INFORMAÇÃO Proposta de Formação Complementar: BUSINESS INTELLIGENCE E SUA APLICAÇÃO À GESTÃO Aluno: Yussif Tadeu de Barcelos Solange Teixeira

Leia mais

PLANO DE ENSINO PRÉ-REQUISITOS: ENS

PLANO DE ENSINO PRÉ-REQUISITOS: ENS UNIVERSIDADE DO ESTADO DE SANTA CATARINA UDESC CENTRO DE EDUCAÇÃO SUPERIOR DO ALTO VALE DO ITAJAÍ CEAVI PLANO DE ENSINO DEPARTAMENTO: DSI Departamento de Sistema de Informação DISCIPLINA: Data Warehouse

Leia mais

Data Warehouse. Djenane Cristina Silveira dos Santos¹, Felipe Gomes do Prado¹, José Justino Neto¹, Márcia Taliene Alves de Paiva¹

Data Warehouse. Djenane Cristina Silveira dos Santos¹, Felipe Gomes do Prado¹, José Justino Neto¹, Márcia Taliene Alves de Paiva¹ Data Warehouse. Djenane Cristina Silveira dos Santos¹, Felipe Gomes do Prado¹, José Justino Neto¹, Márcia Taliene Alves de Paiva¹ ¹Ciência da Computação Universidade Federal de Itajubá (UNIFEI) MG Brasil

Leia mais

Uma Ferramenta Web para BI focada no Gestor de Informação

Uma Ferramenta Web para BI focada no Gestor de Informação Uma Ferramenta Web para BI focada no Gestor de Informação Mikael de Souza Fernandes 1, Gustavo Zanini Kantorski 12 mikael@cpd.ufsm.br, gustavoz@cpd.ufsm.br 1 Curso de Sistemas de Informação, Universidade

Leia mais

TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE

TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE Engenharia de Computação Professor: Rosalvo Ferreira de Oliveira Neto OLPT x OLAP Roteiro OLTP Datawarehouse OLAP Operações OLAP Exemplo com Mondrian e Jpivot

Leia mais

Fundamentos da inteligência de negócios: gestão da informação e de bancos de dados

Fundamentos da inteligência de negócios: gestão da informação e de bancos de dados Fundamentos da inteligência de negócios: gestão da informação e de bancos de dados slide 1 1 Copyright 2011 Pearson Education, Inc. publishing as Prentice Hall Objetivos de estudo Como um banco de dados

Leia mais

BUSINESS INTELLIGENCE, O ELEMENTO CHAVE PARA O SUCESSO DAS ORGANIZAÇÕES.

BUSINESS INTELLIGENCE, O ELEMENTO CHAVE PARA O SUCESSO DAS ORGANIZAÇÕES. Encontro de Ensino, Pesquisa e Extensão, Presidente Prudente, 22 a 25 de outubro, 2012 88 BUSINESS INTELLIGENCE, O ELEMENTO CHAVE PARA O SUCESSO DAS ORGANIZAÇÕES. Andrios Robert Silva Pereira, Renato Zanutto

Leia mais

e-business A IBM definiu e-business como: GLOSSÁRIO

e-business A IBM definiu e-business como: GLOSSÁRIO Através do estudo dos sistemas do tipo ERP, foi possível verificar a natureza integradora, abrangente e operacional desta modalidade de sistema. Contudo, faz-se necessário compreender que estas soluções

Leia mais

Thiago Locatelli de OLIVEIRA, Thaynara de Assis Machado de JESUS; Fernando José BRAZ Bolsistas CNPq; Orientador IFC Campus Araquari

Thiago Locatelli de OLIVEIRA, Thaynara de Assis Machado de JESUS; Fernando José BRAZ Bolsistas CNPq; Orientador IFC Campus Araquari DESENVOLVIMENTO DE AMBIENTE PARA A GESTÃO DO CONHECIMENTO RELACIONADO AOS DADOS PRODUZIDOS PELO SISTEMA DE GERENCIAMENTO DE TRANSITO DA CIDADE DE JOINVILLE/SC PARTE I Thiago Locatelli de OLIVEIRA, Thaynara

Leia mais

Tópicos Avançados Business Intelligence. Banco de Dados Prof. Otacílio José Pereira. Unidade 10 Tópicos Avançados Business Inteligence.

Tópicos Avançados Business Intelligence. Banco de Dados Prof. Otacílio José Pereira. Unidade 10 Tópicos Avançados Business Inteligence. Tópicos Avançados Business Intelligence Banco de Dados Prof. Otacílio José Pereira Unidade 10 Tópicos Avançados Business Inteligence Roteiro Introdução Níveis organizacionais na empresa Visão Geral das

Leia mais

Uma Arquitetura de Gestão de Dados em Ambiente Data Warehouse

Uma Arquitetura de Gestão de Dados em Ambiente Data Warehouse Uma Arquitetura de Gestão de Dados em Ambiente Data Warehouse Alcione Benacchio (UFPR) E mail: alcione@inf.ufpr.br Maria Salete Marcon Gomes Vaz (UEPG, UFPR) E mail: salete@uepg.br Resumo: O ambiente de

Leia mais

Uma aplicação de Data Warehouse para análise do processo de coleta de sangue e de medula óssea

Uma aplicação de Data Warehouse para análise do processo de coleta de sangue e de medula óssea Uma aplicação de Data Warehouse para análise do processo de coleta de sangue e de medula óssea Rogério de Torres Pelito, Gleise Celeste Gonzaga Pereira, Diana Maria da Silva de Souza, André Luiz Alves

Leia mais

DESMISTIFICANDO O CONCEITO DE ETL

DESMISTIFICANDO O CONCEITO DE ETL DESMISTIFICANDO O CONCEITO DE ETL Fábio Silva Gomes da Gama e Abreu- FSMA Resumo Este artigo aborda os conceitos de ETL (Extract, Transform and Load ou Extração, Transformação e Carga) com o objetivo de

Leia mais

Data Warehouse. Debora Marrach Renata Miwa Tsuruda

Data Warehouse. Debora Marrach Renata Miwa Tsuruda Debora Marrach Renata Miwa Tsuruda Agenda Introdução Contexto corporativo Agenda Introdução Contexto corporativo Introdução O conceito de Data Warehouse surgiu da necessidade de integrar dados corporativos

Leia mais

Business Intelligence. Business Intelligence. Business Intelligence. Business Intelligence. Business Intelligence

Business Intelligence. Business Intelligence. Business Intelligence. Business Intelligence. Business Intelligence Juntamente com o desenvolvimento desses aplicativos surgiram os problemas: & Data Warehouse July Any Rizzo Oswaldo Filho Década de 70: alguns produtos de BI Intensa e exaustiva programação Informação em

Leia mais

Gestão do Conhecimento: Extração de Informações do Banco de Dados de um Supermercado

Gestão do Conhecimento: Extração de Informações do Banco de Dados de um Supermercado Gestão do Conhecimento: Extração de Informações do Banco de Dados de um Supermercado Alessandro Ferreira Brito 1, Rodrigo Augusto R. S. Baluz 1, Jean Carlo Galvão Mourão 1, Francisco das Chagas Rocha 2

Leia mais

IMPLANTAÇÃO DO DW NA ANVISA

IMPLANTAÇÃO DO DW NA ANVISA IMPLANTAÇÃO DO DW NA ANVISA Bruno Nascimento de Ávila 1 Rodrigo Vitorino Moravia 2 Maria Renata Furtado 3 Viviane Rodrigues Silva 4 RESUMO A tecnologia de Business Intelligenge (BI) ou Inteligência de

Leia mais

2 Descoberta de Conhecimento em Bases de Dados 2.1. Introdução

2 Descoberta de Conhecimento em Bases de Dados 2.1. Introdução 2 Descoberta de Conhecimento em Bases de Dados 2.1. Introdução De acordo com [FAYY96], o conceito de descoberta de conhecimento em bases de dados pode ser resumido como o processo não-trivial de identificar

Leia mais

Arquiteturas de DW e Abordagens de Implementação. Arquiteturas e Abordagens de Implementação

Arquiteturas de DW e Abordagens de Implementação. Arquiteturas e Abordagens de Implementação Curso de Dwing TecBD-DI PUC-Rio Prof. Rubens Melo Arquiteturas de DW e Abordagens de Implementação Arquiteturas e Abordagens de Implementação Arquitetura adequada é fundamental Infra-estrutura disponível

Leia mais

Uma aplicação de Data Warehouse para apoiar negócios

Uma aplicação de Data Warehouse para apoiar negócios Uma aplicação de Data Warehouse para apoiar negócios André Vinicius Gouvêa Monteiro Marcos Paulo Oliveira Pinto Rosa Maria E. Moreira da Costa Universidade do Estado do Rio de Janeiro - UERJ IME - Dept

Leia mais

Aline França a de Abreu, Ph.D

Aline França a de Abreu, Ph.D Aline França a de Abreu, Ph.D igti.eps.ufsc.br 07 / 10/ 04 Núcleo de estudos Criado em 1997 - UFSC/EPS Equipe multidisciplinar, com aproximadamente 20 integrantes OBJETIVO Gerar uma competência e uma base

Leia mais

PROJETO DE REDES www.projetoderedes.com.br

PROJETO DE REDES www.projetoderedes.com.br PROJETO DE REDES www.projetoderedes.com.br Centro Universitário de Volta Redonda - UniFOA Curso Tecnológico de Redes de Computadores 5º período Disciplina: Tecnologia WEB Professor: José Maurício S. Pinheiro

Leia mais

Kimball University: As 10 Regras Essenciais para a Modelagem de Dados Dimensional

Kimball University: As 10 Regras Essenciais para a Modelagem de Dados Dimensional Kimball University: As 10 Regras Essenciais para a Modelagem de Dados Dimensional Margy Ross Presidente Kimball Group Maio de 2009, Intelligent Enterprise.com Tradução livre para a língua portuguesa por

Leia mais

APLICAÇÃO DE MINERAÇÃO DE DADOS PARA O LEVANTAMENTO DE PERFIS: ESTUDO DE CASO EM UMA INSTITUIÇÃO DE ENSINO SUPERIOR PRIVADA

APLICAÇÃO DE MINERAÇÃO DE DADOS PARA O LEVANTAMENTO DE PERFIS: ESTUDO DE CASO EM UMA INSTITUIÇÃO DE ENSINO SUPERIOR PRIVADA APLICAÇÃO DE MINERAÇÃO DE DADOS PARA O LEVANTAMENTO DE PERFIS: ESTUDO DE CASO EM UMA INSTITUIÇÃO DE ENSINO SUPERIOR PRIVADA Lizianne Priscila Marques SOUTO 1 1 Faculdade de Ciências Sociais e Aplicadas

Leia mais

Aplicando Técnicas de Business Intelligence sobre dados de desempenho Acadêmico: Um estudo de caso

Aplicando Técnicas de Business Intelligence sobre dados de desempenho Acadêmico: Um estudo de caso Aplicando Técnicas de Business Intelligence sobre dados de desempenho Acadêmico: Um estudo de caso Ana Magela Rodriguez Almeida 1, Sandro da Silva Camargo 1 1 Curso Engenharia de Computação Universidade

Leia mais

Data Warehouse Mineração de Dados

Data Warehouse Mineração de Dados Data Warehouse Mineração de Dados Profa. Roberta Macêdo M. Gouveia robertammg@gmail.com 1 18/12/2014 Data Warehouse Data Mining Big Data A mina de ouro debaixo dos bits 2 Data Warehouse: A Memória da Empresa

Leia mais

BUSINESS INTELLIGENCE -Inteligência nos Negócios-

BUSINESS INTELLIGENCE -Inteligência nos Negócios- UNIVERSIDADE SÃO FRANCISCO CENTRO DE CIÊNCIAS JURÍDICAS, HUMANAS E SOCIAIS BUSINESS INTELLIGENCE -Inteligência nos Negócios- Curso: Administração Hab. Sistemas de Informações Disciplina: Gestão de Tecnologia

Leia mais

MODELAGEM GRÁFICA DE DATA WAREHOUSES E DATA MARTS USANDO UML

MODELAGEM GRÁFICA DE DATA WAREHOUSES E DATA MARTS USANDO UML 1 MODELAGEM GRÁFICA DE DATA WAREHOUSES E DATA MARTS USANDO UML JOANA SCHEEREN Porto Alegre 2009 2 JOANA SCHEEREN MODELAGEM GRÁFICA DE DATA WAREHOUSES E DATA MARTS USANDO UML Trabalho de Conclusão de Curso

Leia mais

2 Conceitos básicos. 2.1 Arquiteturas tradicionais para integração de dados. 2.1.1 Arquitetura de mediadores

2 Conceitos básicos. 2.1 Arquiteturas tradicionais para integração de dados. 2.1.1 Arquitetura de mediadores 17 2 Conceitos básicos 2.1 Arquiteturas tradicionais para integração de dados 2.1.1 Arquitetura de mediadores Um mediador é um componente de software que intermedia o acesso de clientes (usuários ou componentes

Leia mais

Data Warehouse. Diogo Matos da Silva 1. Universidade Federal de Ouro Preto, Ouro Preto, MG, Brasil. Banco de Dados II

Data Warehouse. Diogo Matos da Silva 1. Universidade Federal de Ouro Preto, Ouro Preto, MG, Brasil. Banco de Dados II Data Warehouse Diogo Matos da Silva 1 1 Departamento de Computação Universidade Federal de Ouro Preto, Ouro Preto, MG, Brasil Banco de Dados II Diogo Matos (DECOM - UFOP) Banco de Dados II Jun 2013 1 /

Leia mais

Chapter 3. Análise de Negócios e Visualização de Dados

Chapter 3. Análise de Negócios e Visualização de Dados Chapter 3 Análise de Negócios e Visualização de Dados Objetivos de Aprendizado Descrever a análise de negócios (BA) e sua importância par as organizações Listar e descrever brevemente os principais métodos

Leia mais

Banco de Dados - Senado

Banco de Dados - Senado Banco de Dados - Senado Exercícios OLAP - CESPE Material preparado: Prof. Marcio Vitorino OLAP Material preparado: Prof. Marcio Vitorino Soluções MOLAP promovem maior independência de fornecedores de SGBDs

Leia mais

COBIT (CONTROL OBJECTIVES FOR INFORMATION AND RELATED TECHNOLOGY)

COBIT (CONTROL OBJECTIVES FOR INFORMATION AND RELATED TECHNOLOGY) Universidade Federal de Santa Catarina Departamento de Informática e Estatística INE Curso: Sistemas de Informação Disciplina: Projetos I Professor: Renato Cislaghi Aluno: Fausto Vetter Orientadora: Maria

Leia mais

Palavras-chave: On-line Analytical Processing, Data Warehouse, Web mining.

Palavras-chave: On-line Analytical Processing, Data Warehouse, Web mining. BUSINESS INTELLIGENCE COM DADOS EXTRAÍDOS DO FACEBOOK UTILIZANDO A SUÍTE PENTAHO Francy H. Silva de Almeida 1 ; Maycon Henrique Trindade 2 ; Everton Castelão Tetila 3 UFGD/FACET Caixa Postal 364, 79.804-970

Leia mais

Bloco Administrativo

Bloco Administrativo Bloco Administrativo BI Business Intelligence Objetivo O objetivo deste artigo é dar uma visão geral sobre o Módulo Business Intelligence, que se encontra no Bloco Administrativo. Todas informações aqui

Leia mais

Sistemas de Informação Aplicados a AgroIndústria Utilizando DataWarehouse/DataWebhouse

Sistemas de Informação Aplicados a AgroIndústria Utilizando DataWarehouse/DataWebhouse Sistemas de Informação Aplicados a AgroIndústria Utilizando DataWarehouse/DataWebhouse Prof. Dr. Oscar Dalfovo Universidade Regional de Blumenau - FURB, Blumenau, Brasil dalfovo@furb.br Prof. Dr. Juarez

Leia mais

Padronização de Processos: BI e KDD

Padronização de Processos: BI e KDD 47 Padronização de Processos: BI e KDD Nara Martini Bigolin Departamento da Tecnologia da Informação -Universidade Federal de Santa Maria 98400-000 Frederico Westphalen RS Brazil nara.bigolin@ufsm.br Abstract:

Leia mais

LEVANTAMENTO DE REQUISITOS SEGUNDO O MÉTODO VOLERE

LEVANTAMENTO DE REQUISITOS SEGUNDO O MÉTODO VOLERE LEVANTAMENTO DE REQUISITOS SEGUNDO O MÉTODO VOLERE RESUMO Fazer um bom levantamento e especificação de requisitos é algo primordial para quem trabalha com desenvolvimento de sistemas. Esse levantamento

Leia mais

A evolução da tecnologia da informação nos últimos 45 anos

A evolução da tecnologia da informação nos últimos 45 anos A evolução da tecnologia da informação nos últimos 45 anos Denis Alcides Rezende Do processamento de dados a TI Na década de 1960, o tema tecnológico que rondava as organizações era o processamento de

Leia mais

ADMINISTRAÇÃO DOS RECURSOS DE DADOS

ADMINISTRAÇÃO DOS RECURSOS DE DADOS Capítulo 7 ADMINISTRAÇÃO DOS RECURSOS DE DADOS 7.1 2003 by Prentice Hall OBJETIVOS Por que as empresas sentem dificuldades para descobrir que tipo de informação precisam ter em seus sistemas de informação?

Leia mais

Administração de Banco de Dados

Administração de Banco de Dados Administração de Banco de Dados Professora conteudista: Cida Atum Sumário Administração de Banco de Dados Unidade I 1 INTRODUÇÃO A BANCO DE DADOS...1 1.1 Histórico...1 1.2 Definições...2 1.3 Importância

Leia mais

MANUAL BI- Business Intelligence

MANUAL BI- Business Intelligence 1. VISÃO GERAL 1.1 SISTEMA BI Business Intelligence: Segundo Gartner Group, a maior ameaça das empresas da atualidade é o desconhecimento... O Business Intelligence se empenha em eliminar as dúvidas e

Leia mais

Prof. Ronaldo R. Goldschmidt. ronaldo@de9.ime.eb.br rribeiro@univercidade.br geocities.yahoo.com.br/ronaldo_goldschmidt

Prof. Ronaldo R. Goldschmidt. ronaldo@de9.ime.eb.br rribeiro@univercidade.br geocities.yahoo.com.br/ronaldo_goldschmidt Prof. Ronaldo R. Goldschmidt ronaldo@de9.ime.eb.br rribeiro@univercidade.br geocities.yahoo.com.br/ronaldo_goldschmidt Prof. Ronaldo Ribeiro Goldschmidt REVISÃO DE BD RELACIONAIS E SQL! "" #!$ #%! $& #

Leia mais

Curso Data warehouse e Business Intelligence Fundamentos, Metodologia e Arquitetura

Curso Data warehouse e Business Intelligence Fundamentos, Metodologia e Arquitetura Curso Data warehouse e Business Intelligence Fundamentos, Metodologia e Arquitetura Apresentação Os projetos de Data Warehouse e Business Intelligence são dos mais interessantes e complexos de desenvolver

Leia mais

01/12/2009 BUSINESS INTELLIGENCE. Agenda. Conceito. Segurança da Informação. Histórico Conceito Diferencial Competitivo Investimento.

01/12/2009 BUSINESS INTELLIGENCE. Agenda. Conceito. Segurança da Informação. Histórico Conceito Diferencial Competitivo Investimento. BUSINESS INTELLIGENCE Agenda BI Histórico Conceito Diferencial Competitivo Investimento Segurança da Objetivo Áreas Conceito O conceito de Business Intelligencenão é recente: Fenícios, persas, egípcios

Leia mais

Alternativas de Integração de Dados Gerenciando Valor e Qualidade

Alternativas de Integração de Dados Gerenciando Valor e Qualidade Soluções para Possibilitar Relacionamentos Duradouros com Clientes Alternativas de Integração de Dados Gerenciando Valor e Qualidade Utilizando uma abordagem regulada para incorporar serviços de qualidade

Leia mais

Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse

Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse Definição escopo do projeto (departamental, empresarial) Grau de redundância dos dados(ods, data staging) Tipo de usuário alvo (executivos, unidades) Definição do ambiente (relatórios e consultas préestruturadas

Leia mais

Sistema. Atividades. Sistema de informações. Tipos de sistemas de informação. Everson Santos Araujo everson@everson.com.br

Sistema. Atividades. Sistema de informações. Tipos de sistemas de informação. Everson Santos Araujo everson@everson.com.br Sistema Tipos de sistemas de informação Everson Santos Araujo everson@everson.com.br Um sistema pode ser definido como um complexo de elementos em interação (Ludwig Von Bertalanffy) sistema é um conjunto

Leia mais

Gerenciamento de Dados e Gestão do Conhecimento

Gerenciamento de Dados e Gestão do Conhecimento ELC1075 Introdução a Sistemas de Informação Gerenciamento de Dados e Gestão do Conhecimento Raul Ceretta Nunes CSI/UFSM Introdução Gerenciando dados A abordagem de banco de dados Sistemas de gerenciamento

Leia mais

Sistema de Bancos de Dados. Conceitos Gerais Sistema Gerenciador de Bancos de Dados

Sistema de Bancos de Dados. Conceitos Gerais Sistema Gerenciador de Bancos de Dados Sistema de Bancos de Dados Conceitos Gerais Sistema Gerenciador de Bancos de Dados # Definições # Motivação # Arquitetura Típica # Vantagens # Desvantagens # Evolução # Classes de Usuários 1 Nível 1 Dados

Leia mais

CAPÍTULO 1 INTRODUÇÃO

CAPÍTULO 1 INTRODUÇÃO CAPÍTULO 1 INTRODUÇÃO A atuação do homem no meio ambiente, ao longo da história, fornece provas de suas ações em nome do progresso. Esta evolução tem seu lado positivo, pois abre novos horizontes, novas

Leia mais

Aula 03 CLASSIFICAÇÃO DOS SISTEMAS DE INFORMAÇÃO

Aula 03 CLASSIFICAÇÃO DOS SISTEMAS DE INFORMAÇÃO Aula 03 CLASSIFICAÇÃO DOS SISTEMAS DE INFORMAÇÃO Na prática, não existe uma classificação rígida, permitindo aos autores e principalmente as empresas classificar seus sistemas de diversas maneiras. A ênfase

Leia mais

Aplicação de Data Warehousing no Cadastro de Ficha Limpa do TSE

Aplicação de Data Warehousing no Cadastro de Ficha Limpa do TSE Aplicação de Data Warehousing no Cadastro de Ficha Limpa do TSE Mateus Ferreira Silva, Luís Gustavo Corrêa Lira, Marcelo Fernandes Antunes, Tatiana Escovedo, Rubens N. Melo mateusferreiras@gmail.com, gustavolira@ymail.com,

Leia mais

Trata-se de uma estratégia de negócio, em primeira linha, que posteriormente se consubstancia em soluções tecnológicas.

Trata-se de uma estratégia de negócio, em primeira linha, que posteriormente se consubstancia em soluções tecnológicas. CUSTOMER RELATIONSHIP MANAGEMENT Customer Relationship Management CRM ou Gestão de Relacionamento com o Cliente é uma abordagem que coloca o cliente no centro dos processos do negócio, sendo desenhado

Leia mais

- A crescente necessidade de sistemas inteligentes e de aquisição de conhecimento levaram à necessidade de implementação de Data Warehouses.

- A crescente necessidade de sistemas inteligentes e de aquisição de conhecimento levaram à necessidade de implementação de Data Warehouses. - A crescente necessidade de sistemas inteligentes e de aquisição de conhecimento levaram à necessidade de implementação de. - O que é uma Data Warehouse? - Colecção de bases de dados orientadas por assunto

Leia mais

Modelando um Data Warehouse GRIMALDO OLIVEIRA

Modelando um Data Warehouse GRIMALDO OLIVEIRA Modelando um Data Warehouse GRIMALDO OLIVEIRA Sobre Grimaldo Grimaldo Oliveira grimaldo_lopes@hotmail.com Formação Mestre em Tecnologias Aplicadas a Educação pela Universidade do Estado da Bahia. Especialização

Leia mais

Data Mining: Conceitos e Técnicas

Data Mining: Conceitos e Técnicas Data Mining: Conceitos e Técnicas DM, DW e OLAP Data Warehousing e OLAP para Data Mining O que é data warehouse? De data warehousing para data mining Data Warehousing e OLAP para Data Mining Data Warehouse:

Leia mais

Curso Superior de Tecnologia em Banco de Dados Disciplina: Projeto de Banco de Dados Relacional II Prof.: Fernando Hadad Zaidan

Curso Superior de Tecnologia em Banco de Dados Disciplina: Projeto de Banco de Dados Relacional II Prof.: Fernando Hadad Zaidan Faculdade INED Curso Superior de Tecnologia em Banco de Dados Disciplina: Projeto de Banco de Dados Relacional II Prof.: Fernando Hadad Zaidan 1 Unidade 4.2 2 1 BI BUSINESS INTELLIGENCE BI CARLOS BARBIERI

Leia mais

Implementação de um Data Warehouse para Analise Multidimensional de Informações da Secretária de Trânsito de Guaíba

Implementação de um Data Warehouse para Analise Multidimensional de Informações da Secretária de Trânsito de Guaíba Implementação de um Data Warehouse para Analise Multidimensional de Informações da Secretária de Trânsito de Guaíba Fernando Maganha 1, Daniel Murara Barcia 2 1 Acadêmico do Curso de Sistemas de Informação

Leia mais

Capítulo 2 Data Warehousing

Capítulo 2 Data Warehousing Capítulo 2 Data Warehousing Objetivos de Aprendizado Compreender as definições e os conceitos básicos dos data warehouses Compreender as arquiteturas de data warehousing Descrever os processos usados no

Leia mais

Empresa de Informática e Informação do Município de Belo Horizonte S/A PRODABEL

Empresa de Informática e Informação do Município de Belo Horizonte S/A PRODABEL Empresa de Informática e Informação do Município de Belo Horizonte S/A PRODABEL Diretoria de Sistema - DS Superintendência de Arquitetura de Sistemas - SAS Gerência de Arquitetura de Informação - GAAS

Leia mais

Programa do Curso de Pós-Graduação Lato Sensu MBA em Business Intelligence (BI)

Programa do Curso de Pós-Graduação Lato Sensu MBA em Business Intelligence (BI) Programa do Curso de Pós-Graduação Lato Sensu MBA em Business Intelligence (BI) Apresentação O programa de Pós-graduação Lato Sensu em Business Intelligence Inteligência Competitiva tem por fornecer conhecimento

Leia mais

HELENA CAROLINA COSTA E LIMA UTILIZAÇÃO DE DATA WAREHOUSE E DATA MINING NO ACOMPANHAMENTO DAS ATIVIDADES DE PESQUISA DO CEULP/ULBRA

HELENA CAROLINA COSTA E LIMA UTILIZAÇÃO DE DATA WAREHOUSE E DATA MINING NO ACOMPANHAMENTO DAS ATIVIDADES DE PESQUISA DO CEULP/ULBRA HELENA CAROLINA COSTA E LIMA UTILIZAÇÃO DE DATA WAREHOUSE E DATA MINING NO ACOMPANHAMENTO DAS ATIVIDADES DE PESQUISA DO CEULP/ULBRA Palmas - TO 2006 HELENA CAROLINA COSTA E LIMA UTILIZAÇÃO DE DATA WAREHOUSE

Leia mais

Adriano Maranhão BUSINESS INTELLIGENCE (BI),

Adriano Maranhão BUSINESS INTELLIGENCE (BI), Adriano Maranhão BUSINESS INTELLIGENCE (BI), BUSINESS INTELLIGENCE (BI) O termo Business Intelligence (BI), popularizado por Howard Dresner do Gartner Group, é utilizado para definir sistemas orientados

Leia mais

Módulo 4: Gerenciamento de Dados

Módulo 4: Gerenciamento de Dados Módulo 4: Gerenciamento de Dados 1 1. CONCEITOS Os dados são um recurso organizacional decisivo que precisa ser administrado como outros importantes ativos das empresas. A maioria das organizações não

Leia mais

Business Intelligence Um enfoque gerencial para a Inteligência do Negócio.Efrain Turban e outros.tradução. Bookman, 2009.

Business Intelligence Um enfoque gerencial para a Inteligência do Negócio.Efrain Turban e outros.tradução. Bookman, 2009. REFERÊNCIAS o o Business Intelligence Um enfoque gerencial para a Inteligência do Negócio.Efrain Turban e outros.tradução. Bookman, 2009. Competição Analítica - Vencendo Através da Nova Ciência Davenport,

Leia mais

DATA WAREHOUSING. Data Warehousing

DATA WAREHOUSING. Data Warehousing DATA WAREHOUSING Data Warehousing Sumário Conceitos / Autores chave... 3 1. Introdução... 3 2. Modelos de Data Warehouse... 4 3. Processo de Extração, Transformação e Carga de Dados... 6 4. Data Mart versus

Leia mais

DESCOBERTA DE CONHECIMENTO EM BASES DE DADOS

DESCOBERTA DE CONHECIMENTO EM BASES DE DADOS DESCOBERTA DE CONHECIMENTO EM BASES DE DADOS Claudio Napolis Costa 1, Jonatas Vieira Coutinho 2, Lúcia Helena de Magalhães 3, Márcio Aarestrup Arbex 4 RESUMO Vários métodos de aprendizado supervisionado

Leia mais

Conversão de Base de Dados Relacional para Dimensional para Business Intelligence Utilizando Banco de Dados Mysql

Conversão de Base de Dados Relacional para Dimensional para Business Intelligence Utilizando Banco de Dados Mysql Conversão de Base de Dados Relacional para Dimensional para Business Intelligence Utilizando Banco de Dados Mysql Carlos H. Cardoso 1, Roberto D Nebo 1, Luis A. da Silva 1 1 Curso de Tecnologia em Banco

Leia mais

Fundamentos da Análise Multidimensional

Fundamentos da Análise Multidimensional Universidade Técnica de Lisboa INSTITUTO SUPERIOR DE ECONOMIA E GESTÃO Informática e Sistemas de Informação Aplicados em Economia Fundamentos da Análise Multidimensional Fundamentos da Análise Multidimensional

Leia mais

Prova INSS RJ - 2007 cargo: Fiscal de Rendas

Prova INSS RJ - 2007 cargo: Fiscal de Rendas Prova INSS RJ - 2007 cargo: Fiscal de Rendas Material de Apoio de Informática - Prof(a) Ana Lucia 53. Uma rede de microcomputadores acessa os recursos da Internet e utiliza o endereço IP 138.159.0.0/16,

Leia mais

Técnicas de Business Intelligence na Análise de Dados de Produção. Rafael Deitos

Técnicas de Business Intelligence na Análise de Dados de Produção. Rafael Deitos Copyright 2014-15 OSIsoft, LLC. 1 Técnicas de Business Intelligence na Análise de Dados de Produção Presented by Felipe Trevisan Rafael Deitos Copyright 2014-15 OSIsoft, LLC. Sumário Contextualização Itaipu

Leia mais