JORGE LUIZ WODZINSKY FILHO AVALIAÇÃO ESTRUTURAL E SEMÂNTICA DO DATA WAREHOUSE PARA AGRICULTURA DE PRECISÃO AGRODW JOINVILLE SC

Tamanho: px
Começar a partir da página:

Download "JORGE LUIZ WODZINSKY FILHO AVALIAÇÃO ESTRUTURAL E SEMÂNTICA DO DATA WAREHOUSE PARA AGRICULTURA DE PRECISÃO AGRODW JOINVILLE SC"

Transcrição

1 JORGE LUIZ WODZINSKY FILHO AVALIAÇÃO ESTRUTURAL E SEMÂNTICA DO DATA WAREHOUSE PARA AGRICULTURA DE PRECISÃO AGRODW JOINVILLE SC 2012

2 UNIVERSIDADE DO ESTADO DE SANTA CATARINA - UDESC CENTRO DE CIÊNCIAS TECNOLÓGICAS - CCT DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO - DCC JORGE LUIZ WODZINSKY FILHO AVALIAÇÃO ESTRUTURAL E SEMÂNTICA DO DATA WAREHOUSE PARA AGRICULTURA DE PRECISÃO AGRODW Trabalho de conclusão de curso submetido à Universidade do Estado de Santa Catarina como requisito para do título de Bacharel em Ciência da Computação. Orientador: Dr. Fabiano Baldo JOINVILLE SC 2012

3 JORGE LUIZ WODZINSKY FILHO AVALIAÇÃO ESTRUTURAL E SEMÂNTICA DO DATA WAREHOUSE PARA AGRICULTURA DE PRECISÃO AGRODW Este Trabalho de Conclusão de Curso foi julgado adequado para a obtenção do título de Bacharel em Ciência da Computação e aprovado em sua forma final pelo Curso de Ciência da Computação Integral do CCT/UDESC. Banca Examinadora: Orientador: Dr. Fabiano Baldo Membro: Dr. Marco Aurélio Wehrmeister Membro: Dr. Rui Jorge Tramontin Junior Joinville SC 2012

4 RESUMO Com o advento de novas tecnologias e com a crescente concorrência entre as diversas economias mundiais, o ramo da agricultura se viu obrigado a fazer uso de novas técnicas e tecnologias para que assim pudesse suprir as necessidades do mercado. A Agricultura de Precisão (AP) vem sendo usada para alcançar este objetivo. Porém, com o avanço da tecnologia, a AP se viu com um enorme desafio de como gerenciar tantos dados coletados através das diversas máquinas e dispositivos utilizados, para que os mesmos se tornem informações úteis e auxiliem nas tomadas de decisões. Este trabalho tem como proposta avaliar um armazém de dados já desenvolvido. Para isso, foi feita uma revisão bibliográfica e o levantamento de trabalhos relacionados que auxiliaram a escolha de um método de avaliação. Após o carregamento de dados no armazém de dados e a aplicação do método de avaliação, os resultados são classificados demonstrando o grau de qualidade do AgroDW. Palavras-chave: Agricultura de Precisão. Data Warehouse.

5 ABSTRACT With the advent of new technologies and the growing competition among various world economies, the agriculture industry was forced to make use of new techniques and technologies so that they could meet the market needs. Precision agriculture has been used to achieve this goal. However as technology advances, the PA found an enormous challenge of managing so much data collected through the various machines and devices, so that they become useful information to assist in decision making. This work evaluates a data warehouse already developed AgroDW. For this, we performed a literature review and survey of related work that will help the choice of an evaluation method. After loading data into the data warehouse and application of the evaluation method, the results will be classified demonstrating the quality degree of AgroDW. Keywords: Precision Agriculture. Data Warehouse.

6 LISTA DE FIGURAS Figura 1 Esquema Estrela. Adaptado de (GOUVEIA, 2008) Figura 2 Esquema Floco de Neve. Adaptado de (GOUVEIA, 2008) Figura 3 Esquema Constelação de Fatos. Adaptado de (GOUVEIA, 2008) Figura 4 Exemplo do nível de granularidade. Adaptado de (INMON, 2005) Figura 5 Processo de descoberta de conhecimento. Adaptado de (FAYYAD et al., 1996) Figura 6 Ilustração do processo de ETL. Fonte: Vassiliadis (2005 Apud Ferreira, 2010) Figura 7 Paradigma GQM. Adaptado de (BASILI et al., 1994)...27 Figura 8 Modelagem do Data Mart harvest. Adaptado de (ARAUJO, 2011) Figura 9 Modelagem do Data Mart plantation. Adaptado de (ARAUJO, 2011) Figura 10 Exemplos de dados fonte. A) Dados em Formato de Banco de Dados (.dbf); B) Dados em Formato Texto (.txt); C) Dados em formato de Planilha Eletrônica (.xls) Figura 11 Etapa de extração do processo ETL no expressor Studio Figura 12 Etapa de transformação do processo ETL no expressor Studio Figura 13 Etapa de carga do processo ETL no expressor Studio Figura 14 Etapa 1 - Preparação do ambiente Figura 15 Etapa 2 - Criação dos fluxos de dados Figura 16 Etapa 3 - Execução do processo de população do AgroDW....50

7 LISTA DE TABELAS Tabela 1 Data Warehouse VS. Data mart. Adaptado de (PONNIAH, 2001)...12 Tabela 2 Características das ferramentas ETL Tabela 3 Paradigma GQM aplicado ao AgroDW. Fonte: Amaral (2003) Tabela 4 Nível estatístico de qualidade 6-Sigma. Adaptado de (GIBBS; SETTY, 2006); (LINDERMAN et al, 2003) Tabela 5 Classificação dos DMs para a métrica pertinência as regras sintáticas Tabela 6 Classificação dos DMs para a métrica pertinência as regras de domínio Tabela 7 Requisitos por processo de negócio e suas respectivas regras Tabela 8 Resultados obtidos para a métrica pertinência as regras de negócio Tabela 9 Classificação dos DMs para a métrica pertinência as regras de negócio Tabela 10 Classificação dos DMs para a métrica pertinência a consistência do modelo Tabela 11 Resultados obtidos para a métrica completude do campo Tabela 12 Classificação dos DMs para a métrica completude do campo Tabela 13 Resultados obtidos para a métrica completude referencial Tabela 14 Classificação dos DMs para a métrica completude referencial Tabela 15 Resultados obtidos para a métrica completude da carga Tabela 16 Classificação dos DMs para a métrica completude da carga Tabela 17 Classificação dos data marts por dimensão de qualidade...69 Tabela 18 Classificação final do AgroDW por dimensão de qualidade....69

8 LISTA DE ABREVIATURAS AP - Agricultura de Precisão CRM - Customer Relationship Management (Gestão de Relacionamento com o Cliente) DIS - Data Integration System DM - Data Marts (Repositórios de Dados) DSA - Data Staging Area DW - Data Warehouse (Armazém de Dados) DWQ - Data Warehouse Quality ETL - Extraction, Transformation, Loading (Extração, Transformação, Carregamento) GPS - Global Positioning System (Sistema de Posicionamento Global) GQM - Goal-Question-Metric HTML - Hyper Text Markup Language (Linguagem de Marcação de Hipertexto) KDD - Knowledge Discovery in Databases OLAP - On-Line Analytical Processing OLTP - On-Line Transaction Processing SGBD - Sistema de Gerenciamento de Banco de Dados SIG - Sistemas de Informação Geográfica SQL - Structured Query Language (Linguagem de Consulta Estruturada) SSD - Sistema de Suporte à Decisão UML - Unified Modeling Language (Linguagem de Modelação Unificada) XML - extensible Markup Language (Linguagem de Marcação Extensiva)

9 SUMÁRIO 1 INTRODUÇÃO OBJETIVOS Objetivo geral Objetivos específicos JUSTIFICATIVA METODOLOGIA ESTRUTURA DO TRABALHO FUNDAMENTAÇÃO TEÓRICA CONCEITOS DE AGRICULTURA DE PRECISÃO DATA WAREHOUSE Características fundamentais Data mart Projeto Modelos multidimensionais de dados Granularidade PROCESSO DE DESCOBERTA DE CONHECIMENTO EM BANCO DE DADOS Processo de extração, transformação e carga QUALIDADE DE SOFTWARE Paradigma Goal-Question-Metric TRABALHOS RELACIONADOS A Framework for Quality Evaluation in Data Integration Systems Architecture and Quality in Data Warehouses: An Extended Repository Approach The Role of Process Metadata and Data Quality Perceptions in Decision Making Aquaware: Um Ambiente de Suporte à Qualidade de Dados em Data Warehouse CONSIDERAÇÕES FINAIS DO CAPÍTULO AVALIAÇÃO DO AGRODW PROJETO DO AGRODW REALIZAÇÃO DO PROCESSO ETL Dados fontes Ferramentas ETL...42

10 3.2.3 Definição do processo Algoritmos Considerações sobre o processo ETL CONCEPÇÃO DO MÉTODO DE AVALIAÇÃO OBTENÇÃO DAS MÉTRICAS CONSIDERAÇÕES SOBRE A AVALIAÇÃO DO AGRODW AVALIAÇÃO DOS RESULTADOS METODOLOGIA DE AVALIAÇÃO DOS RESULTADOS PARALELO ENTRE OS PARADIGMAS GQM E 6-SIGMA RESULTADOS OBTIDOS POR DIMENSÃO DE QUALIDADE Acurácia sintática Métrica Pertinência as regras sintáticas Métrica Pertinência as regras de domínio Acurácia semântica Métrica Pertinência as regras de negócio Métrica Pertinência a consistência do modelo Completude Métrica Completude do campo Métrica Completude referencial Métrica Completude da carga CLASSIFICAÇÃO DOS DATA MARTS E DO AGRODW CONSIDERAÇÕES FINAIS DO CAPÍTULO CONCLUSÃO REFERÊNCIAS BIBLIOGRÁFICAS ANEXO I ANEXO II... 83

11 1 1 INTRODUÇÃO A agricultura enquanto uma das mais antigas atividades humanas, assim como os demais setores econômicos, se viu obrigada a maximizar a produção física de suas culturas por causa da grande demanda exigida pelo aumento da população. Por outro lado, o surgimento de diversas tecnologias propiciou alternativas ao aperfeiçoamento de seus processos para que pudessem atender as novas exigências dos mercados internacionais e assim manter o ramo agrícola competitivo nesse novo cenário mundial. Entretanto, com toda a evolução do homem e suas invenções, os recursos naturais precisam ser cada vez mais preservados, devido à sua escassez. Desta forma, está se tornando cada vez mais relevante a aplicação de novas técnicas de exploração do solo, na distribuição de insumos como adubos, herbicidas, sementes, calcário e outros quesitos que refletem diretamente na produção agrícola. É nesse contexto que surge a Agricultura de Precisão (AP), auxiliando todo o ciclo de plantio. AP pode ser definida como o método de administração cautelosa e detalhada do solo e da cultura para a adequação de ambos às diferentes condições existentes em cada parte da lavoura (MOLIN, 2004). Já Campo (2000) Apud Tschiedel (2002), define AP como um conjunto de técnicas e procedimentos que permite conhecer, localizar geograficamente e demarcar áreas de diferente produtividade, através de software, sensores, controladores de máquinas e a tecnologia GPS (Global Positioning System). Através das definições, pode-se dizer que a AP tem por princípio básico o manejo do solo e culturas por zonas uniformes. Entretanto, a identificação de cada zona de manejo é realizada através da análise das características do solo, do histórico de cultivo, do clima e de outras variáveis do sistema de produção, em diferentes locais dentro do campo. Contudo, é o conhecimento e o entendimento da variabilidade espacial e temporal dos atributos do solo, de culturas e suas relações,

12 2 bem como a possibilidade de manejo dessa variabilidade, que viabilizam a aplicação dos conceitos da agricultura de precisão (COELHO, 2005). Segundo Coelho (2005), diferentes etapas compõem a AP: 1) Identificação da variabilidade; 2) Caracterização da variabilidade; 3) Identificação dos principais fatores limitantes; 4) Desenvolvimento do plano de ação; 5) Manejo da variabilidade; 6) Avaliação econômica e ambiental. Em cada uma das diferentes etapas do ciclo de vida da AP é gerado um conjunto de resultados em formato de dados operacionais, os quais auxiliam na manutenção adequada da propriedade agrícola. Tais dados são obtidos através de máquinas colheitadeiras, semeadores e outros dispositivos do setor agrícola, equipados com diversas tecnologias como sensores e GPS (BARBOSA et al., 2006). A quantidade de dados coletados na lavoura é muito grande. Portanto, a organização e o uso eficaz dos dados coletados é um dos desafios enfrentados na AP, assim como para a maioria das empresas. Com isso, a necessidade de estruturar a maneira como as informações são armazenadas, disponibilizadas e acessadas é cada vez maior. Murakami (2006) destaca a dificuldade relacionada à coleta, armazenamento, processamento e análise da grande quantidade de dados e variáveis envolvidas em todo o processo de utilização da AP. Com base nas necessidades apresentadas acima, Araujo (2011) modelou um Data Warehouse (DW), chamado AgroDW. Este DW é uma iniciativa de se desenvolver um ambiente para estruturar o conjunto histórico de dados utilizados no âmbito da AP (ARAUJO, 2011). Um data warehouse é o resultado do processo de organização de um conjunto de dados de permita análises complexas e a descoberta de conhecimento sobre eles. O DW provê um conjunto de dados orientado por assunto, integrado, não volátil, variante no tempo, o qual permite o apoio à tomada de decisões (ELMASRI; NAVATHE, 2005). O AgroDW foi idealizado em cima de uma gama de dados disponibilizados por uma fundação paranaense de amparo a produtores rurais da região centro-oeste do Paraná. Estes dados foram obtidos por intermédio da colaboração em um projeto MCT/FINEP/MAPA/CT-AGRO chamado Sistemas de Monitoramento, tomada de decisão, recomendação e intervenções para aplicação de fertilizantes em taxa variável e avaliação de indicadores, que envolveu uma cooperação interinstitucional entre UDESC, USP-Poli, e USP-ESALQ.

13 3 Este armazém de dados é composto por dois Data Marts (DM) que utilizam o esquema estrela para estruturar suas dimensões e fatos. Entretanto, o AgroDW passou apenas por testes pontuais para comprovar sua viabilidade para uso operacional, ou seja, ele ainda precisa passar por uma avaliação mais consistente e sistemática no intuito de dar maior suporte aos sistemas de apoio à tomada de decisão que poderão fazer uso desse armazém de dados. Tais testes realizados por Araujo (2011) se preocuparam em mostrar que os dados inseridos no DW refletiam os dados originais, ou seja, que o DW continha dados consistentes. Entretanto, o AgroDW ainda precisa de uma avaliação mais consistente e para isso deve conter uma massa de dados significativa. Por isso, antes mesmo de iniciar a avaliação, é necessário realizar um processo de ETL (do inglês Extract, Transform, Load) (Extração, Transformação, Carga) para popular o AgroDW com dados oriundos da fundação, pois o mesmo se encontra com poucos dados para que uma avaliação mais adequada seja realizada. Como pode ser observado no trabalho de Akoka et al. (2007), seção 2.5.1, uma avaliação consistente de um DW deve ser realizada ao nível de dados e ao nível do modelo conceitual de dados. Já o trabalho de Shankaranarayanan (2006) e Amaral (2003), descritos nas seções e 2.5.4, mostra que as várias características dos dados, como acurácia e completude, devem ser analisadas. Tais características devem ser analisadas, pois esses dados serão utilizados em tarefas de tomada de decisões e, por consequência, tem implicações importantes sobre o resultado dessas tarefas. Dada a situação apresentada acima, este trabalho tem como pergunta de pesquisa: Como avaliar o AgroDW de forma a assegurar sua adequação aos sistemas de apoio à tomada de decisão da agricultura de precisão?

14 4 1.1 OBJETIVOS Objetivo geral O presente trabalho visa avaliar sistematicamente a estrutura e a semântica do AgroDW, de modo a medir sua qualidade no suporte aos sistemas de apoio à tomada de decisão na AP Objetivos específicos Tomando como base o objetivo geral acima, são identificados os seguintes objetivos específicos: Analisar e selecionar um método que possa guiar a avaliação do AgroDW; Desenvolver/Utilizar uma aplicação para popular o AgroDW com dados reais fornecidos pela fundação; Fazer a aplicação do método de avaliação de qualidade para analisar estrutural e semanticamente o AgroDW, validando-o e/ou sugerindo correções. 1.2 JUSTIFICATIVA Um dos fatores de maior relevância que justifica o desenvolvimento do presente trabalho consiste na falta de uma avaliação mais consistente e sistemática do AgroDW. Uma avaliação que foque os requisitos de usuários no âmbito da AP para que o DW possa dar maior suporte aos sistemas de apoio à tomada de decisão no ramo agrícola. O AgroDW é um repositório histórico de dados agrícolas projetado para atender a AP. Nele, pode-se consultar fatos e acontecimentos históricos gerados no plantio e na colheita de uma determinada cultura. Entretanto, para que o AgroDW possa auxiliar os usuários e realmente ser útil nas tarefas de tomada a decisão, ele

15 5 precisa ter sua estrutura e semântica avaliadas através de algumas verificações amplas e sistemáticas. Segundo Akoka et al. (2007), assegurar a qualidade dos dados é um problema importante que condiciona o sucesso de sistemas de informação. Se ignorada, a qualidade dos dados pode ter um impacto negativo considerável. No caso de um DW, determinar a qualidade é um problema particularmente difícil devido à integração de dados provenientes de múltiplas fontes. Portanto, a atualidade, a não duplicidade e a consistência de um volume muito grande de dados para efeitos de integração e tomada de decisão são grandes desafios a serem superados. Shankaranarayanan (2006) completa dizendo que a qualidade dos dados está se tornando um problema crítico em sistemas de informação devido ao rápido crescimento dos volumes de dados e sua complexidade. Para Jarke et al. (1999), assim como para Akoka et al. (2007), o modelo de dados empregado no DW também deve ser avaliado com intuito de mensurar características relacionadas à qualidade, para que assim o modelo empregado ao DW possa abranger uma visão global do negócio sem abrir mão do conhecimento detalhado de visões mais específicas. Só esta combinação permite uma gestão de qualidade que possa dar uma maior garantia ao usuário que utilizará o sistema. 1.3 METODOLOGIA Com o intuito de se alcançar o objetivo do trabalho, é especificado um conjunto de passos logicamente estruturado a ser seguido. O primeiro passo é fazer uma revisão bibliográfica no contexto de AP e de técnicas e tecnologias para a avaliação de data warehouses. Em seguida são analisados os trabalhos relacionados para colaborar na escolha de uma técnica que possibilite uma avaliação mais consistente do AgroDW. Com a revisão bibliográfica concluída e a técnica de avaliação do DW escolhida, é feito o levantamento dos processos de negócio dos principais sistemas de apoio à decisão necessários à AP. Tomando como base esses processos, através do paradigma GQM (Goal-Question-Metric), são definidas as dimensões de

16 6 qualidade a serem avaliadas, as métricas de avaliação e os mecanismos para obtenção das métricas. Após a etapa de levantamento dos processos de negócio, uma análise de ferramentas ETL open source é necessária. Caso não haja uma ferramenta que atenda as necessidades relacionadas às atividades de extração, transformação e carga, será desenvolvida uma aplicação para popular o AgroDW devidamente, e assim concluir o processo de ETL. Assim que realizado o processo de ETL, a avaliação do AgroDW através da técnica de avaliação determinada pode ser aplicada. Esta técnica tem o intuito de analisar as características estruturais e semânticas do DW. Aplicada a técnica de avaliação, os resultados obtidos são analisados e apresentados. Além disso, com base na análise dos resultados, puderam ser sugeridas e/ou implementadas correções no AgroDW. 1.4 ESTRUTURA DO TRABALHO Este trabalho está organizado em cinco capítulos, da maneira que segue. O primeiro capítulo apresenta um panorama acerca da AP, bem como define o problema da falta de uma avaliação no AgroDW e sua justificativa, de modo a demonstrar a importância do trabalho. No Capítulo 2 é apresentada toda a revisão bibliográfica dos conceitos necessários para o entendimento do trabalho por completo, bem como alguns trabalhos relacionados. No Capítulo 3 é descrito o método de avaliação que foi utilizado durante o desenvolver do trabalho, enfatizando na forma com que este método será conduzido, quais técnicas utilizadas e sua relação com a AP. Neste capítulo também é apresentado o projeto do AgroDW, o detalhamento da realização do processo ETL, bem como a descrição da obtenção das métricas. No quarto é apresentada a metodologia de avaliação dos resultados, um paralelo entre o método que guiou a avaliação e o método que classificou os resultados, bem como os resultados obtidos na avaliação e a classificação final do AgroDW. Por fim, são apresentadas as considerações finais da avaliação dos resultados, a conclusão do trabalho e as referências bibliográficas.

17 7 2 FUNDAMENTAÇÃO TEÓRICA Este capítulo contém a fundamentação teórica que inicia com a apresentação dos conceitos de agricultura de precisão, pois o data warehouse AgroDW está inserido no contexto de AP e assim poderá ser obtido um melhor entendimento do trabalho. Na sequência são descritos os conceitos envolvendo DW como: características fundamentais, data mart, projeto, modelos multidimensionais de dados e granularidade, juntamente com os conceitos de processo de descoberta de conhecimento em banco de dados. Todos estes conceitos visam esclarecer tanto a forma de construção de um DW, como a sua utilização no apoio à tomada de decisão. Como mencionado na introdução deste trabalho, para alcançar o objetivo geral será necessária a realização do processo ETL e, por isto, a importância deste processo é descrita no decorrer deste capítulo. Ainda no capítulo de fundamentação teórica são expostos os conceitos de qualidade de software no intuito de auxiliar e enriquecer o método de avaliação que será empregado no AgroDW. Com este mesmo objetivo, de auxiliar na formação do método de avaliação, são apresentados trabalhos relacionados à avaliação da qualidade em projetos de DW. Por fim, são descritas as considerações finais do capítulo. 2.1 CONCEITOS DE AGRICULTURA DE PRECISÃO Agricultura de precisão é uma nova tecnologia com uma longa história. Agricultores têm procurado maximizar a produção física e econômica das culturas, variando a aplicação de insumos de acordo com os tipos de solos e de culturas. Os agricultores mais antigos já reconheciam os benefícios da aplicação diferenciada de esterco e material calcário de acordo com o tipo de solo. Entretanto, esse

18 8 gerenciamento da variabilidade era feito simplesmente observando as áreas, pois as áreas exploradas eram pequenas. Assim, com base nas diferenças observadas, o campo era manejado conforme havia necessidade (COELHO, 2005). Com o passar dos anos um grande número de termos tem sido usado para descrever o conceito da AP: i) Agricultura por metro quadrado (REICHENBERG, 1989 Apud COELHO, 2005); ii) Agricultura com base em tipos de solos (LARSON, 1991 Apud COELHO, 2005); iii) Variável espacial, precisão, ou manejo específico de culturas (SCHUELLER, 1991 Apud COELHO, 2005); iv) Aplicação de insumos a taxas variáveis (SAWYER, 1994 Apud COELHO, 2005); v) Manejo por zonas uniformes (PIERCE, 1997 Apud COELHO, 2005). Com isso, pode-se dizer que a AP engloba aspectos da variabilidade dos solos, clima, da diversidade de culturas, do desempenho de máquinas agrícolas e insumos naturais ou sintéticos, usados na produção das culturas. Portanto, a AP tem por princípio básico o manejo da variabilidade dos solos e culturas no espaço e no tempo. Sem essa variabilidade, o conceito de agricultura de precisão tem pouco significado e nunca teria evoluído com base nesses princípios. Pierce (1999) utiliza a seguinte definição que melhor caracteriza a AP nos dias atuais: Agricultura de Precisão é a aplicação de princípios e tecnologias para manejar a variabilidade espacial e temporal, associada com todos os aspectos da produção agrícola, com o objetivo de aumentar a produtividade na agricultura e a qualidade ambiental. De acordo com Coelho (2005), o papel da tecnologia da informação na redefinição das práticas agrícolas envolvendo a AP é fundamental. Nos dias de hoje as tecnologias da informação afetam diretamente o cenário agrícola. Embora o conceito de AP não seja novo, não há dúvidas de que importantes avanços nas tecnologias possibilitaram sua aplicação. A AP tem hoje à sua disposição várias tecnologias, tais como: Computadores, GPS Sistema de Posicionamento Global, SIG Sistemas de Informação Geográfica, Sensoriamento Remoto, Sensores, Controladores Eletrônicos. O uso de tecnologias como ferramentas de acompanhamento, controle e análise permitem determinar "qual, quando e onde" o insumo deve ser aplicado e "como" fazê-lo. Portanto, a quantificação da variabilidade espacial permite identificar áreas específicas com diferentes potenciais de produtividade. Também pode ajudar a determinar ou não investimentos em insumos ou na correção de fatores limitantes

19 9 à produção, visando à maximização da produtividade e minimização dos impactos ambientais. De acordo com Tschiedel (2002), a AP tende a se tornar cada vez mais comum nas propriedades rurais. As tecnologias hoje existentes já permitem que se tenha um grande conhecimento das variabilidades encontradas entre as diferentes áreas da propriedade, o que já proporciona a tomada de decisões com base em dados mais precisos. Ainda, segundo Tschiedel (2002), a introdução do conceito de AP em propriedades onde se têm como objetivo maximizar os lucros e minimizar os danos ambientais é imprescindível. Com o advento deste conceito, será possível obter um controle maior sobre as possíveis causas na redução da produtividade e/ou dano ambiental. Portanto, a proposta da AP é permitir que se faça em áreas extensas o que os pequenos agricultores sempre fizeram, que é o tratamento dos detalhes considerando as diferenças existentes em um talhão porção de terreno ou área de cultivo limitada sem desperdiçar o conhecimento acumulado pelas ciências agrárias até hoje (MOLIN, 2004). 2.2 DATA WAREHOUSE Bancos de dados transacionais são comumente utilizados por empresas para fins operacionais, porém este tipo de banco de dados não é apropriado para apoiar a tomada de decisão, principalmente pela falta de dados históricos (INMON, 2005). Por causa desta falta, surge a necessidade de desenvolvimento de uma tecnologia que tenha capacidade de gerenciar as informações históricas de forma integrada e que suporte a descoberta de conhecimento e, por consequência, a tomada de decisão. É neste contexto que os data warehouses se enquadram. Os DW são grandes bancos de dados que contêm dados extraídos de um determinado ambiente operacional ou arquivos externos, os quais foram selecionados, refinados e carregados para o processamento de consultas. Neste tipo de banco de dados é possível integrar e transformar dados corporativos em informações adequadas para a tomada de decisões estratégicas (PONNIAH, 2001). Inmon (2005), considerado o pai do Data Warehousing, fornece a seguinte definição: um DW é uma coleção de dados orientados por assunto, integrado,

20 10 variante no tempo e não volátil, o qual tem por objetivo dar suporte aos processos de tomada de decisão. Um DW se identifica como uma complexa base de dados capaz de integrar, de forma concisa e confiável, informações que se encontram difundidas pelos sistemas operacionais e em fontes externas, para uso nos sistemas de apoio à decisão (MACHADO, 2010). De acordo com Kimball (2002), um DW é um sistema onde os dados operacionais estão especificamente estruturados para aumentar o desempenho de consultas e facilitar a análise das informações de uma organização. Através dos conceitos apresentados pode-se dizer que o DW é um conjunto de técnicas de banco de dados integrados, que possibilita suporte à tomada decisão, onde cada unidade de dados está relacionada a um determinado assunto ou fato Características fundamentais Seguindo a definição dada por Inmon (2005), um ambiente de DW é composto pelas seguintes características fundamentais descritas abaixo: i. Orientados por assunto: refere-se ao fato do DW armazenar informações sobre assuntos específicos importantes para o negócio da empresa, ou seja, o DW armazena as informações importantes de forma agrupada por assuntos de interesses da organização. A implementação de um assunto pode corresponder a um conjunto de tabelas relacionadas (TAVARES, 2008); ii. iii. Integrado: é a vinculação dos dados de diferentes formatos. Estes dados precisam seguir um determinado padrão para que desta forma eles possam fornecer significados únicos, ou seja, todo dado trazido dos sistemas operacionais para o DW deve anteriormente ser consolidado de forma que passe a ter um único significado; Variável ao tempo: as estruturas de dados no DW contêm atributos de tempo, que a cada mudança ocorrida num dado, uma entrada é criada e não atualizada, como acontece nos sistemas operacionais. Os dados de um DW são ligeiramente precisos ao tempo, representam resultados operacionais em determinado momento de tempo. Os dados de um sistema refletem o valor corrente de alguma coisa, sua exatidão é válida para determinados instantes;

21 11 iv. Não volátil: o DW recebe somente transações de inclusão e consultas. Estes dados não podem ser atualizados ou excluídos, ou seja, os dados não sofrem modificações. Os dados são carregados uma única vez e, a partir desse momento, eles só podem ser consultados, ao contrário do que acontece nos sistemas operacionais onde há a existência de várias transações de atualizações ocorrendo a todo instante, como também algumas transações de exclusão; De acordo com as características apresentadas acima, um DW só pode realizar duas operações de processamento, inclusão de novos registros e consultas, ao contrário dos bancos de dados transacionais que suportam inclusão, exclusão, alteração e consulta Data mart Data mart (DM) é um subconjunto de dados de um DW. Geralmente, são dados referentes a um assunto em especial (exemplo: Vendas, Estoque, Controladoria) ou diferentes níveis de sumarização (exemplo: Venda Anual, Venda Mensal, Venda Semestral), que focalizam uma ou mais áreas específicas. Um DM extrai e ajusta porções de um DW aos requisitos específicos de grupos ou departamentos. Segundo Kimball (2002), Um data mart é um data warehouse de menor capacidade e complexidade usado para atender a uma necessidade particular de negócio. Portanto, são tipicamente mais fáceis de estabelecer e manter. Assim como o DW, o DM suporta a tomada de decisão, unificando um subconjunto de dados de uma determinada instituição com o objetivo de atender a suas necessidades específicas de gestão. Inmon (2005) define DM como uma coleção de assuntos organizados para suporte à tomada de decisão, os quais estão baseados nas necessidades de um determinado departamento. É considerado um subconjunto dos dados extraídos para um ambiente destacado. Um DM simula uma área específica a partir de um singular processo empresarial, sendo considerada a parte de um todo. Por causa disto, o DM é uma abordagem descentralizada do conceito de DW, sendo assim

22 12 uma unidade lógica do mesmo. De acordo com Inmon (2005), apesar de um DM ser considerado um DW de menor capacidade, ambos são fundamentalmente diferentes, ou seja, os dois não se misturam, eles são como óleo e água. Portanto, não se pode dizer que um DW é um conjunto de DMs. Seria o mesmo que dizer que o armazém geral de um supermercado, para aonde todos os itens vão antes de seguir para as lojas, é um agrupamento de supermercados. Em uma visão comparativa dos dados, onde se considera o escopo, a integração, a agregação, a análise e os dados voláteis como requisitos, pode-se perceber que a diferença está no escopo, pois enquanto um DW é feito para atender uma empresa como um todo, um DM é criado para atender um subconjunto da empresa. A Tabela 1 demonstra as principais diferenças entre um DW e um DM. DATA WAREHOUSE DATA MART Engloba toda a empresa Departamental Consultas como recurso de Um único processo de negócio apresentação Star-join (fatos e dimensões) Estrutura para a visão corporativa Tecnologia ideal para acesso e de dados análise de dados Organizada em modelos Estrutura para atender as visões multidimensionais departamentais de dados Tabela 1 Data Warehouse VS. Data mart. Adaptado de (PONNIAH, 2001). Inmon (2005) relata que há um segmento na comunidade de TI que diz que um DW é caro e incômodo para construir, mas que a construção de um DW absolutamente vale o esforço. O argumento para não construir um DW normalmente leva à construção de algo, geralmente um data mart. A premissa é que você pode obter um lote de um DM sem o alto custo de um DW. A partir de uma perspectiva de curto prazo, há algum mérito a este argumento. Mas a partir de uma perspectiva de longo prazo, uma DM nunca é um substituto para um DW.

23 Projeto Com o objetivo de atender às necessidades estratégicas da organização, o projeto do DW deve seguir claramente os requisitos dos usuários, que deverão ter suas necessidades - informações e formatos de consultas - plenamente atendidos. A equipe de sistemas, somente após conhecer claramente as necessidades dos usuários, deverá oferecer soluções técnicas que atendam estas necessidades. Se for usado o caminho inverso, dificilmente os usuários terão suas necessidades corretamente atendidas e o projeto cairá em descrédito. Segundo Raden (1998) Apud Ponniah (2001), mesmo sendo a área de suporte à tomada de decisão uma das áreas mais atuais da computação, o foco é sempre essencialmente técnico, sem muita atenção aos processos de negócios que devem ser melhorados. O mesmo autor afirma ainda que, o DW deve ser focado para responder questões e resolver problemas com os quais as pessoas têm que lidar dentro da organização. Segundo Taurion (1998) Apud Ponniah (2001), experiências mostram sempre que o sucesso de um DW está diretamente relacionado com o atendimento às necessidades do negócio e nunca por tecnicismo, e ainda, que os projetos tocados somente pela área técnica estão condenados ao fracasso. As abordagens para a concepção de um projeto de DW são usualmente classificadas em dois grupos, orientadas por dados e orientadas por requisitos (RIZZI, 2007). A primeira inicia com a análise detalhada das fontes de dados e, posteriormente, utiliza os requisitos de usuário na especificação dos sistemas de suporte à tomada de decisão. Já a segunda inicia pela definição dos requisitos de informação do usuário final, deixando a investigação das fontes de dados como um objetivo secundário. Para Kimball (2002) o projeto de um DW deve seguir quatro passos cruciais apresentados a seguir: i. Seleção dos processos de negócio: um processo é uma atividade de negócio natural realizada em uma organização que normalmente é suportado por uma fonte do sistema de coleta de dados. Ouvir os usuários é o meio mais eficiente para selecionar os processos de negócio de um DW. Processos de negócio são, por exemplo: incluir compra de matérias-primas, pedidos, embarques, faturamento e estoque.

24 14 ii. Definição da granularidade dos dados: declarar a granularidade significa especificar exatamente o que uma linha individual da tabela fato representa. A granularidade transmite o nível de detalhe associado às medidas da tabela fato. iii. Definição das tabelas dimensões: para definir as tabelas dimensões não se deve levar em consideração a questão de como é que os empresários descrevem os dados que resultam do processo de negócio. O objetivo é adornar as tabelas fato com um conjunto robusto de dimensões que representam todas as descrições possíveis que assumem valores únicos no contexto de cada medição. Se a definição da granularidade está clara, então as dimensões normalmente podem ser identificadas facilmente. Com a escolha de cada dimensão, listam-se todos os atributos que irão detalhar cada tabela de dimensão. Exemplos de dimensões comuns incluem data, produto, cliente, tipo de transação, e status. iv. Identificação das medições da tabela fato: as tabelas fato são determinadas respondendo a questão do que se está tentando medir. Os usuários corporativos estão muito interessados em analisar estas medidas de desempenho do processo de negócios. Todas as tabelas fato candidatas em um projeto devem se adequar aos níveis de granularidade definidos na etapa dois. Fatos que claramente pertencem a um nível de granularidade diferente devem ser projetados em tabelas de fato separadas. Entretanto, no que diz respeito à construção propriamente dita do DW, duas abordagens são utilizadas: top-down e bottom-up. A primeira, apoiada por Inmon (2005), tem como principio construir um DW a partir de uma visão ampla do negócio e na sequência criar fragmentos, detalhando essa visão inicial. Já a segunda abordagem, defendida por Kimball (2002), inicia a partir da definição de data marts, ou seja, uma visão mais fragmentada do negócio, para depois compor uma visão geral Modelos multidimensionais de dados De acordo com Ballard et al. (1998) a modelagem dimensional é uma técnica para a concepção e visualização de modelos de dados como um conjunto de medidas que são descritas por aspectos comuns do negócio. Segundo Gouveia

25 15 (2008) a modelagem dimensional é uma metodologia que possibilita que os dados sejam modelados tendo em vista aperfeiçoar o desempenho de consultas e proporcionar facilidades de utilização a partir de um grupo de eventos simples de medição. Ballard et al. (1998) e Machado (2010) destacam que há três conceitos importantes relacionados com a modelagem dimensional: i. Fatos: é uma coleção de itens de dados, agrupados em uma tabela, os quais compõem dados de medidas e de contexto (BALLARD et al., 1998). Kimball (2002) define que a tabela fato é a tabela principal em um modelo dimensional, onde as medições de desempenho numérico do negócio são armazenadas. Cada fato tem como objetivo representar um item, uma transação ou um evento que pode ser aproveitado na análise dos processos de negócios. Em um DW as tabelas fatos são implementadas nas tabelas do núcleo do esquema de modelagem em que todos os dados numéricos são armazenados. A tabela fato em si geralmente tem sua própria chave primária composta por um subconjunto de chaves estrangeiras. Esta chave é chamada de chave composta ou concatenada. Cada tabela fato em um modelo dimensional tem uma chave composta, e, inversamente, toda tabela que tem uma chave composta é uma tabela fato; ii. Dimensão: as tabelas de dimensão são partes integrantes de uma tabela fato. A tabela de dimensão contém os descritores textuais do negócio (KIMBALL, 2002). Segundo Ballard et al. (1998), as dimensões são elementos que participam de um fato ou assunto, ou seja, é uma coleção de itens do mesmo tipo que representa as visões do negócio. São formas de visualizar os dados. Cada tabela de dimensão tem uma chave primária que corresponde exatamente a um dos componentes da chave composta da tabela de fatos; iii. Métricas: é uma medida ou um atributo numérico de um fato que representa o desempenho ou comportamento do negócio em relação às dimensões. Os números reais são chamados como variáveis. Por exemplo, as medidas são as vendas em dinheiro, o volume de vendas, a quantidade fornecida, o custo de fornecimento, o valor da transação, e assim por diante. As medidas são

26 16 determinadas por combinações dos membros das dimensões e estão localizadas nas tabelas de fatos (BALLARD et al., 1998). De acordo com os autores citados nesta seção (BALLARD et al., 1998; GOUVEIA, 2008; KIMBALL, 2002; MACHADO, 2010), existem três esquemas de modelagem multidimensional de dados mais utilizados: Esquema Estrela, Esquema Floco de Neve e Esquema Constelação de Fatos. Esquema estrela (Star Schema): criado por Ralph Kimball, é a forma de apresentar as tabelas de um modelo relacional em um modelo dimensional, que podem ser implementadas tanto em bancos de dados relacionais, como em bancos de dados multidimensionais (KIMBALL, 2002). Sua estrutura consiste basicamente em uma entidade central chamada tabela fato (fact table) que se relaciona com um conjunto de entidades denominadas dimensões (dimension tables), alocadas em volta dessa entidade central, formando assim a figura de uma estrela. A Figura 1 demonstra este esquema. Figura 1 Esquema Estrela. Adaptado de (GOUVEIA, 2008). Como visto, o esquema estrela descreve uma estrutura com tabelas e relacionamentos entre elas bem definidos. A tabela central é denominada de tabela fato, a qual possui os dados principais que serão analisados. Ligadas a esta tabela central estão as tabelas de dimensões, as quais possuem descrições das características medidas e armazenadas na tabela de fatos (MACHADO, 2010).

27 17 Segundo Han et al. (2006), as tabelas dimensionais são desnormalizadas para aumentar o desempenho das consultas. Estas consultas ocorrem inicialmente nas tabelas de dimensão e posteriormente na tabela fato. Com isto se tem uma garantia de acesso mais eficiente e com melhor desempenho. Diferente das tabelas de dimensão, as tabelas fato armazenam grandes quantidades de dados históricos, a partir das interseções de todas as dimensões do esquema. O esquema estrela também armazena os indicadores de desempenho, ou seja, as métricas (medidas ou atributos) (GOUVEIA, 2008). Esquema floco de neve (Snowflake Schema): é o resultado da decomposição de uma ou mais dimensões que têm hierarquias entre seus membros, isto é, dimensões normalizadas. Estando normalizadas, as dimensões evitam a redundância de valores textuais em uma tabela (MACHADO, 2010). A Figura 2 ilustra o esquema, onde a tabela de dimensão 6 e 7 se situa hierarquicamente abaixo da dimensão 1, igualmente a 8 com a 2, caracterizando o esquema floco de neve. Figura 2 Esquema Floco de Neve. Adaptado de (GOUVEIA, 2008). No esquema floco de neve é encontrado um número maior de tabelas, com isto há um acréscimo no tempo de execução das consultas devido à necessidade de operações de junção (GOUVEIA, 2008). Esquema constelação de fatos (Facts Constellation Schema): é composto de múltiplas tabelas fato que compartilham a mesma dimensão, ou seja, esse esquema pode ser visto como vários esquemas estrelas interligados por uma ou mais dimensões (GOUVEIA, 2008). Este tipo de esquema pode modelar assuntos

28 18 múltiplos e inter-relacionados. A Figura 3 ilustra este tipo de esquema, onde a dimensão 3 e 5 são compartilhadas pelas tabelas de fatos 1 e 2. Figura 3 Esquema Constelação de Fatos. Adaptado de (GOUVEIA, 2008) Granularidade A granularidade se refere ao nível de detalhe dos dados ou de resumo das unidades de dados no DW (PONNIAH, 2001). Dependendo das exigências, vários níveis de granularidade podem estar presentes em um DW. Portanto, muitos DWs têm pelo menos dois níveis de granularidade. A granularidade é a questão mais importante do projeto de um DW. De acordo com Inmon (2005), a questão da granularidade permeia toda a arquitetura e estrutura que envolve o ambiente de DW. A granularidade é considerada o problema mais crítico no ambiente de DW porque afeta profundamente o volume de dados que residirá nele, como também afeta o tipo de consulta que poderá ser respondida (INMON, 2005). Quando se define um nível menor de granularidade, maior será o volume dos dados. Portanto, quanto maior o nível de granularidade, menor será o volume dos dados. Por consequência, quanto mais baixo o nível de granularidade, consultas mais versáteis poderão ser realizadas e quanto maior o nível de granularidade, menos versáteis as consultas poderão ser. Como se pode observar no exemplo da Figura 4, uma determinada questão tem mais chances de ser respondida em um baixo nível de granularidade (à esquerda da figura), mesmo sendo necessária uma varredura em um grande

29 19 número de registros. Porém, com um alto nível de granularidade (à direita da figura) é mais improvável responder a uma determinada consulta, por não possuir um número significativo de registros que dariam suporte à resposta. Figura 4 Exemplo do nível de granularidade. Adaptado de (INMON, 2005). 2.3 PROCESSO DE DESCOBERTA DE CONHECIMENTO EM BANCO DE DADOS A extração de conhecimento de bases de dados se tornou um diferencial competitivo que atinge os mais variados segmentos do mercado nacional e internacional. No ramo da agricultura não é diferente, pois cada vez mais a automação do processo de plantio e colheita se intensifica, o que traz uma abundante quantidade de dados coletados pelas máquinas agrícolas. Logo, para efetuar a verificação dessas informações de modo que gere conhecimento, a solução consiste em submeter tais dados a tratamentos científicos.

30 20 Nesse sentido, o setor de TI avançou ao longo dos anos, especificamente no que tange à coleta de dados e armazenamento destes. Isso permitiu que as empresas pudessem acumular um vasto registro de informações. Entretanto, segundo Fayyad (1996) o ser humano não possui o devido preparo para entender um enorme volume de dados. Portanto, diante dessa carência, o emprego de técnicas computacionais se tornou indispensável para o suporte à tomada de decisão de modo seguro, confiável e inteligente, com o intuito de amparar os gestores nas decisões. Com isso, o uso de técnicas e ferramentas se tornou alvo de estudos de uma área de pesquisa denominada Descoberta de Conhecimento em Banco de Dados ou Knowledge Discovery in Databases (KDD). O KDD consiste em descobrir conhecimentos novos, que sejam úteis e relevantes para o problema em questão, bem como estejam presentes numa base de dados, de modo que possam ser utilizados e compreendidos. Este processo vem se mostrando como um grande recurso tecnológico, uma vez que permitem descobrir novos padrões, sendo eles compreensíveis e que podem ser de suma importância nos mais variados ramos de negócio (PEDRYCZ, 2005). Fayyad (1996) afirma que o advento do KDD culminou da motivação em muitos ramos de pesquisa, como banco de dados, estatística, reconhecimento de padrões, inteligência artificial, entre outros. Em síntese, pode-se dizer que KDD se traduz em um processo constituído por determinadas etapas, caracterizado como não trivial, interativo e iterativo, que culmina na identificação de padrões compreensíveis, válidos, novos e que podem ser úteis partindo da abundante quantidade de dados existentes (PEDRYCZ, 2005). No tocante às etapas do processo de descoberta de conhecimento, elas constituem três grandes áreas: Pré-Processamento, Mineração de Dados e Pós- Processamento (Figura 5).

31 21 Figura 5 Processo de descoberta de conhecimento. Fonte: FAYYAD et al. (1996). É importante salientar que essas fases do KDD fazem parte de um processo interativo, isto é, pode ser necessário voltar e efetuar repetições de alguns passos, conforme a conveniência, para que se consiga atingir uma melhora dos resultados (FAYYAD, 1996). Fase de Pré-Processamento: é a primeira das fases, que por sua vez possui a maior duração no processo de KDD. Inicialmente, deve ser realizada a seleção de dados, onde se examina inteiramente o conjunto de dados disponível para extrair destes um subconjunto considerado relevante. Feito isso, os dados necessitam ser submetidos ao que é chamado de extração e limpeza de dados, pois muitas vezes não estão apropriados para serem utilizados nos próximos passos do processo de KDD. Posteriormente, tem-se o processo de codificação de dados, onde se busca definir os dados de forma padronizada para que seja viável a utilização deles como entrada pelos algoritmos específicos de mineração de dados (FAYYAD, 1996). Esta fase do KDD compreende o processo de ETL descrito na seção Fase de Mineração de Dados: consiste na fase principal no processo de extração de conhecimento. Ocorre que nesta fase são efetuadas consultas complexas, bem como o descobrimento de relacionamentos que estavam implícitos na base de dados, dando apoio para o analista confirmar hipóteses ou deduzir regras. Essa fase é o núcleo do processo de descoberta de conhecimento, onde são utilizados os

32 22 dados que foram convertidos de modo válido pela etapa anterior, para serem aplicados algoritmos específicos de mineração de dados (FAYYAD, 1996). Fase de Pós-Processamento: consiste na etapa final do processo de KDD, que busca formatar os dados obtidos na fase anterior a fim de submetê-los a uma análise, interpretação e visualização. Com isso, procura-se facilitar a interpretação e avaliação destes dados, para dar prioridade ao conhecimento descoberto, bem como salientar o que for mais relevante (FAYYAD, 1996) Processo de extração, transformação e carga O processo de ETL, que se encaixa na fase de pré-processamento do processo de KDD, é um processo crítico e demorado na construção de um DW, pois consiste na extração dos dados de bases e arquivos heterogêneos, na transformação e limpeza destes dados, e na carga dos dados na base do DW. Estudos relatam que o ETL consome um terço do orçamento num projeto de DW, podendo, no que diz respeito ao tempo de desenvolvimento, chegar a consumir 55% do tempo total de execução do projeto de DW (FERREIRA, 2010). Na realidade, o processo de ETL é um conjunto de processos pelos quais os dados de origem operacional são preparados para o DW. Eles são considerados os processos primários na área de preparação de dados, antes de qualquer apresentação ou consulta. Consistem em extrair os dados operacionais da sua origem, transformando-os, carregando-os e indexando-os no DW (KIMBALL, 2002). O processo de ETL se divide em três fases cruciais: i. Extração: a fase inicial do processo de ETL é a extração de dados dos sistemas de origem. A maioria dos projetos de DW consolida dados extraídos de diferentes sistemas de origem. Cada sistema pode também utilizar um formato ou organização de dados diferente. Para solucionar este entrave, a fase de extração converte todos os dados para um determinado formato para dar de entrada no processamento da transformação;

33 23 ii. Transformação: a fase de transformação aplica uma série de regras ou funções aos dados extraídos para derivar os dados a serem carregados. Algumas fontes de dados necessitam de pouca manipulação, já em outras podem ser necessárias uma ou mais regras ou funções; iii. Carga: esta fase carrega os dados no DW. Dependendo das necessidades da organização, este processo pode ser amplamente variado. Um DW pode substituir as informações existentes semanalmente, com dados cumulativos e atualizados, ao passo que outro DW pode adicionar dados a cada hora. A temporização e o alcance de reposição ou acréscimo constituem em estratégias de projeto que dependem do tempo disponível e das necessidades de negócios. Segundo Ferreira et al. (2010), a concepção de um processo de ETL advém sobre o mapeamento dos atributos dos dados de uma ou várias fontes para os atributos das tabelas do DW. A Figura 6 demonstra de uma forma geral e concisa o processo de ETL. A camada inferior representa o armazenamento dos dados que são utilizados em todo o processo. No lado esquerdo podem-se observar os dados originais oriundos, na maioria dos casos, de arquivos com formatos heterogêneos, como, por exemplo, arquivos de texto e planilhas. Os dados provenientes destes arquivos são submetidos ao processo de extração para que ele forneça informação igual ou modificada, preservando seu significado, à etapa de transformação. Com os dados na Data Staging Area (DSA), que é uma área de armazenamento intermediário entre as fontes de informação e o DW, eles são transformados e limpos antes de serem carregados para o DW. O carregamento dos dados no DW é realizado através das atividades de carga representadas na parte superior direita da figura 6.

34 24 Figura 6 Ilustração do processo de ETL. Fonte: Vassiliadis (2005 Apud Ferreira, 2010). Como dito inicialmente, o processo ETL é um processo crítico, podendo ser muito complexo e ocasionar problemas operacionais significativos. Alguns sistemas de ETL são escalados para processar terabytes de dados para atualizar data warehouses com dezenas de terabytes de dados, e assim garantir a continuidade da transformação e da atualização. Sendo que o tempo disponível para extrair dados dos sistemas de origem pode variar, o que pode significar que a mesma quantidade de dados pode ter que ser processada em menos tempo. Com inúmeros desafios, como a questão de dar continuidade na atualização dos dados, o processo de ETL se tornou foco de estudos e como resultado as ferramentas de ETL disponíveis se encontram bem preparadas para o processo de extração, transformação e carga. Esta visão é compartilhada por Eckerson (2003) que comenta que são observados inúmeros avanços nestas ferramentas desde 1990, estando elas atualmente mais amigáveis ao usuário. 2.4 QUALIDADE DE SOFTWARE Segundo Sommerville (2007), a qualidade de software tem evoluído significantemente nos últimos anos. Uma das principais razões para isso é o fato das empresas terem adotado novas técnicas e tecnologias para análise, projeto e desenvolvimento de software. Além disso, tem havido uma conscientização maior da importância do gerenciamento de qualidade de software e da adoção de técnicas de

35 25 gerenciamento de qualidade provenientes da manufatura de software (SOMMERVILLE, 2007). As novas atitudes demonstram que as empresas perceberam o retorno positivo que o gerenciamento da qualidade pode prover. Entretanto, qualidade de software é um conceito complexo que não é diretamente comparável com a qualidade na manufatura. Por isso, no contexto de software, algumas abordagens, como o paradigma GQM, surgiram para definir as etapas necessárias para se avaliar a qualidade de um produto de software (ISO 9126, 1991 Apud AMARAL, 2003). Numa definição de qualidade aplicada a software, Sommerville (2007) define qualidade de software como sendo um conjunto de propriedades a serem satisfeitas, em determinado grau, de modo que o software satisfaça às necessidades de seus usuários. A qualidade de software não é uma ideia tão simples. É mais fácil descrevê-la através de um conjunto de atributos ou fatores requeridos que variam de acordo com as diferentes aplicações e os clientes que as solicitam. Existem várias formas de se classificar os fatores de qualidade. Uma delas é classificá-los como fatores externos e fatores internos. Fatores externos são aqueles cuja presença ou falta num produto de software pode ser detectada pelos usuários do produto. Fatores internos são aqueles que são perceptíveis apenas por engenheiros de software. Apesar de apenas os fatores externos terem importância no final, a chave para assegurar que eles são satisfeitos são os fatores internos, ou seja, as técnicas internas são um meio para atingir qualidade de software externa. Medições e métricas de software vêm no intuito de auxiliar a classificar os fatores de qualidade. As revisões de software para a avaliação desses fatores são demoradas. Entretanto, existem ferramentas para processar o projeto ou programa de software que aceleram o processo de revisão fazendo algumas avaliações automatizadas da qualidade de software. Essas avaliações podem verificar que software atingiu o limiar de qualidade necessária e, quando isso não ocorrer, destacar essas áreas que a revisão deve enfocar (SOMMERVILLE, 2007). Em sua obra, Sommerville (2007) enfatiza que medição de software se dedica a derivar um valor numérico para algum atributo ou fator de um produto de software ou de um processo de software. Já métrica de software é qualquer tipo de medição que se refira a um sistema ou processo de software. Dentre as técnicas e ferramentas de medição e definição de métricas, destaca-se em especial o paradigma Goal Question Metric (BASILI et al., 1994), que

36 26 foi concebido inicialmente para avaliar falhas em projetos da NASA (National Aeronautics and Space Administration) e, desde então, tem sido utilizado com sucesso na avaliação da qualidade de software. Ele parte do princípio de que é necessário traçar objetivos no início do processo de avaliação, para que se possam realizar medições de forma significativa. Esta é uma abordagem do tipo top-down que provê diretrizes para a definição de métricas sem o conhecimento prévio de medidas específicas Paradigma Goal-Question-Metric Segundo o paradigma GQM (Goal-Question-Metric), os objetivos de uma avaliação de qualidade não devem ser avaliados diretamente, mas através de questionamentos que precisam ser respondidos durante esta avaliação. Esses questionamentos também não são respondidos diretamente, mas através de métricas aplicadas ao produto ou processo em questão. Assim, técnicas e algoritmos específicos são utilizados para derivar respostas aos questionamentos a partir de métricas (BASILI, 1994). O GQM está modelado em três níveis (Figura 7): Conceitual (Goal/Objetivos): define o que a organização está tentando obter; Operacional (Question/Questionamento): são refinamentos dos objetivos, em que áreas específicas de incertezas relacionadas aos objetivos são identificadas; e Quantitativo (Metric/Métrica): são as medições que necessitam ser coletadas para auxiliar a responder às questões e confirmar se os aprimoramentos de processos alcançaram o objetivo desejado.

37 27 Figura 7 Paradigma GQM. Adaptado de (BASILI et al., 1994). Um objetivo é definido para um objeto, com diversos propósitos, em relação a vários critérios de qualidade, sob diferentes perspectivas, todos relativos a um determinado ambiente. Objetos mensuráveis podem ser: Produtos (Ex: especificações, projetos, programas, dados); Processos (Ex: especificação, projeto, teste, entrevista); Recursos (Ex: pessoas, hardware, software). Além disso, objetivos pode ser refinados em subobjetivos. Um conjunto de questionamentos é utilizado para caracterizar a forma como será realizada a avaliação de um objetivo específico. Os questionamentos buscam caracterizar o objeto mensurável em relação a critérios de qualidade, previamente selecionados, para determinar seu grau de qualidade sob a perspectiva considerada. Métricas são conjuntos de dados associados a cada questionamento para que o mesmo possa ser respondido de forma quantitativa. A elaboração de métricas é um processo customizado, que varia conforme a situação e o contexto em questão (SOMMERVILLE, 2007). O processo do GQM é composto pelos seguintes passos: i. Identificação de um conjunto de objetivos de qualidade no nível da corporação, divisão ou projeto; ii. Derivação de questionamentos a partir dos objetivos; iii. Especificação das medidas que precisam ser obtidas para responder os questionamentos; e iv. Desenvolvimento de mecanismos para a obtenção das medidas.

38 28 A vantagem dessa abordagem aplicada ao aprimoramento de processos é que ela separa assuntos organizacionais (os objetivos) de processo específico (as questões). Enfoca a coleta de dados e sugere que os dados coletados devam ser analisados em diferentes maneiras, dependendo da questão que se deseja responder (SOMMERVILLE, 2007). 2.5 TRABALHOS RELACIONADOS Nesta seção são abordados trabalhos e pesquisas que tenham algum relacionamento com o trabalho proposto, com o intuito de verificar as técnicas e tecnologias utilizadas para avaliar um DW A Framework for Quality Evaluation in Data Integration Systems No trabalho de Akoka et al. (2007), foi idealizado um framework, chamado QUADRIS, que estuda as interdependências entre as várias dimensões de qualidade em cada nível do projeto de um DIS (Data Integration System). Este trabalho mostra que a melhoria da uma dimensão da qualidade (tal como a precisão dos dados ou expressividade do modelo) pode ter consequências positivas ou negativas para outras dimensões da qualidade (por exemplo, a atualidade ou integridade de dados). Eles afirmam que a qualidade dos dados em sistema de informação não pode ser restrita a uma única abordagem de avaliação. Ou seja, não se pode abordar separadamente a mais simples ou a mais abstrata perspectiva do problema quando os dados forem incompletos, imprecisos, inconsistentes, incertos ou duplicados. A qualidade em sistemas de informação é multidimensional. Portanto, deve ser abordada em três níveis distintos: qualidade do modelo conceitual de dados (QoM), qualidade dos dados armazenados (QoD) e qualidade dos processos sobre dados (QoP). A partir de um ponto de vista funcional, ou seja, levando em consideração o contexto organizacional em que o DIS esta inserido, é ilustrada uma arquitetura de um sistema de informação para uma aplicação CRM (do inglês, Customer

39 29 Relationship Management) (Gestão de Relacionamento com o Cliente), no qual são aplicados os estudos em duas vertentes: (i) Demonstrar o impacto de QoM em QoD; e (ii) Identificar as interdependências entre dimensões de QoD. Independente da vertente, os estudos demonstram que as dimensões de qualidade são multidimensionais e complexas e devem ser definidas orientadas ao objetivo do estudo. Para a QoM foram propostas quatro dimensões para estudo: (i) Completude; (ii) Compreensibilidade; (iii) Minimalidade; e (iv) Expressividade. Já para a QoD são propostas dimensões de qualidade como: (i) Completude; (ii) Unicidade; (iii) Consistência; (iv) Atualidade; e (v) Acurácia (tanto sintática quanto semântica); Dessa maneira, com as dimensões de qualidade definidas, o trabalho visa demonstrar que uma ação na dimensão QoM pode ter consequências positivas ou negativas sobre a dimensão QoD: por exemplo, o aumento da minimalidade do modelo conceitual de dados - um modelo é dito ser mínimo quando todos os aspectos dos requisitos aparecem apenas uma vez - pode diminuir a integridade dos dados; e aumentando a expressividade do modelo por adição de restrições de integridade, pode-se aumentar a singularidade, a precisão e a consistência dos dados. Assim, reforçando a ideia de que as dimensões de qualidade devem focar os objetivos definidos para a avaliação de um DIS. Portanto, o presente artigo descreve um projeto de investigação em curso, dedicado à avaliação e melhoria da qualidade dos dados e dos modelos de dados em sistema de informações. E, apesar do estudo não estar concluído, ele já oferece perspectivas interessantes para a concepção de sistemas de qualidade e de criação de estratégias para aprimorar a qualidade dos dados Architecture and Quality in Data Warehouses: An Extended Repository Approach Em seu trabalho, Jarke et al. (1999) comentam que a maioria dos pesquisadores de banco de dados tem estudado DW no seu papel de buffer de visualizações materializadas do negócio, mediando entre sistemas de atualizações intensivas (OLTP Online Transaction Processing) e sistemas de consultas intensivas de apoio à decisão. Porém, estudar um DW neste único papel negligencia

40 30 o papel organizacional de armazenagem de dados em um meio de controle de informações. Como consequência, um grande número de aspectos de qualidade relevantes para armazenamento de dados não podem ser expressos com modelos atuais de DW. Visando solucionar os problemas citados acima, este trabalho desenvolve a arquitetura DWQ (Data Warehouse Quality) e um framework de gestão da qualidade, descrevendo sua aplicação em um DW. Desse modo, o trabalho faz duas contribuições: a primeira tem como objetivo enriquecer os metadados de DW explicitando modelos empresariais e a segunda traz o desenvolvimento de diferentes técnicas matemáticas para medir ou aperfeiçoar determinados aspectos de qualidade de DW. Ambas as contribuições têm por objetivo permitir análises de qualidade computacionalmente tratáveis, bem como permitir um processo de projeto guiado por qualidade. Com isso, pode-se dizer que o principal objetivo do trabalho desenvolvido por Jarke et al. (1999) é enriquecer o gerenciamento de dados em DW de tal forma que ele possa servir como uma base significativa para a análise sistemática de qualidade e para projetos guiados por qualidade. Contudo, para alcançar este objetivo foi necessário superar duas limitações das atuais pesquisas sobre DW. Em primeiro lugar, a arquitetura básica de um DW é considerada fraca para permitir uma avaliação de qualidade significativa. Como a qualidade é geralmente detectada apenas pela sua ausência, a orientação à qualidade de gerenciamento de dados exige que se descreva a sequência completa dos passos, desde a captura da realidade da empresa em departamentos operacionais até a interpretação de informações do DW pelo analista cliente. O segundo grande problema é a enorme riqueza em fatores de qualidade, cada um associado à sua própria riqueza de medição e técnicas de projeto. Portanto, houve a necessidade de adaptar uma variante da chamada abordagem Goal-Question-Metric (GQM) utilizada na gestão de qualidade de software, a fim de vincular os objetivos conceituais da abordagem a técnicas específicas desenvolvidas no DW e para gerenciar o conflito de escolha entre objetivos heterogêneos de qualidade. Assim, o GQM foi utilizado para guiar a avaliação do DW, auxiliando na definição de dimensões de qualidade a serem analisadas e enfatizando que a avaliação deve ser feita sob a perspectiva do usuário final.

41 31 A abordagem de estudo deste trabalho foi totalmente colocada em prática e algumas validações ocorreram para afinar os objetivos. Em parte, estas validações foram feitas testando versões do modelo desenvolvido em projetos do mundo real. Entretanto, na opinião de Jarke et al. (1999), obviamente ainda há muito a ser feito, e uma direção de trabalho atual é continuar a validação do modelo desenvolvido em cima de casos de estudo graves, de forma a estabelecer prioridades entre os critérios de qualidade a serem explicados em métricas específicas e técnicas de análise The Role of Process Metadata and Data Quality Perceptions in Decision Making O estudo desenvolvido por Shankaranarayanan, Even e Watts (2006) afirma que a qualidade dos dados utilizados nas tarefas de tomada de decisões tem implicações importantes sobre o resultado dessas tarefas. Com isso, pesquisadores do ramo definiram várias dimensões para medir a qualidade dos dados, tais como acurácia, consistência e completude. Porém, essas medições são intrínsecas aos dados e não levam em conta fatores contextuais relacionados ao usuário ou à tarefa de tomada a decisão. No entanto, pesquisas recentes sugerem que a qualidade dos dados, quando avaliada pelos usuários que usam o sistema de tomada de decisão, não é necessariamente percebida como algo intrínseco, mas como subjetiva e dependente do contexto. Esta pesquisa também demonstra o fornecimento de metadados de processos - uma descrição abstrata de como os conjuntos de dados são adquiridos, processados, armazenados, e entregues - como um mecanismo que afeta a avaliação da qualidade dos dados pelo usuário final. Assim, pode-se dizer que este estudo foi realizado para investigar a avaliação da qualidade dos dados na tomada de decisões e o papel dos metadados de processos. Dados de entrada de qualidade são fundamentais para a tomada de decisão. Portanto, os usuários precisam ser capazes de avaliar a qualidade dos seus dados de entrada para cada contexto de decisão que eles enfrentam. Para esse fim, foi proposto um modelo de estudo que incorpora os dados da avaliação da qualidade e metadados dos processos.

42 32 Os resultados do estudo suportam a hipótese de uma associação positiva entre avaliação da qualidade dos dados e a utilidade dos metadados de processos. A explicação para essa associação positiva é que os metadados de processos fornecem informações adicionais que podem explicar os valores de qualidade dos dados avaliados, ajudando os tomadores de decisão a avaliarem melhor a qualidade dos dados que eles estão usando no contexto particular da tarefa de decisão. Assim, quando os usuários avaliam os dados como sendo de má qualidade, com base em indicadores intrínsecos, a adição de informação de suporte extrínseco é redundante. Por outro lado, quando os usuários avaliam a qualidade dos dados a ser ótima ou mesmo boa, metadados de processos podem ajudar a confirmar (ou não) este nível de qualidade, enriquecendo o contexto com metadados sobre o processo de produção dos dados. Com isso, pode-se proferir que o teste exploratório do modelo apresentado sugere que ambas as percepções de qualidade de dados e os metadados de processos associados tem efeitos benéficos sobre os resultados, quando mediados pela eficiência do processo de tomada de decisões. Apesar das limitações empíricas do estudo, seus resultados destacam o valor da incorporação de qualidade e da preparação dos metadados em ambientes de tomada de decisão apoiados por computador com intuito de facilitar a avaliação da qualidade dos dados. Além disso, o estudo tem implicações importantes para pesquisas futuras sobre gestão da qualidade dos dados e para a concepção de ambientes de suporte à decisão Aquaware: Um Ambiente de Suporte à Qualidade de Dados em Data Warehouse De acordo com Amaral (2003), a crescente utilização do DW em tomadas de decisão estratégicas, críticas para o negócio da empresa, aumenta a importância de apoiar-se em informações válidas, confiáveis e de qualidade. Da mesma forma que uma casa construída sobre alicerces fracos tende a desmoronar, conclusões baseadas em dados incorretos dificilmente irão produzir os resultados esperados. Dados de má qualidade podem ocasionar falhas nos processos de negócio e custos relacionados a pessoas, materiais, tempo, dinheiro e até mesmo a perda definitiva de clientes.

43 33 Com isso, pensando em expor indicativos da qualidade dos dados utilizados em um DW, Amaral (2003) idealizou um ambiente computacional que atua como infraestrutura para o fornecimento de informações de qualidade para ferramentas que atuem como clientes do DW, denominado Ambiente de Suporte à Qualidade de Dados em Data Warehouse (AQUAWARE). Como parte integrante da solução, foi definido um conjunto de indicadores para a avaliação da qualidade dos dados sob a perspectiva do usuário final. O ambiente proposto faz uso da abordagem de serviços Web para disponibilizar um serviço que provê informações de qualidade para ferramentas que atuem como clientes do DW (ferramentas de consultas analíticas, por exemplo). Para armazenar as informações sobre qualidade, são utilizados um Repositório de Metadados e um conjunto de Cubos de Qualidade. O paradigma Goal Question Metric (GQM) (BASILI et al. 1994) foi utilizado para modelar a qualidade no repositório, bem como para orientar a definição de um conjunto de objetivos, questionamentos e métricas, utilizados para instanciar o repositório. Porém, deve-se destacar que a solução apresentada no trabalho tem o propósito de atuar como infraestrutura para o fornecimento de informações de qualidade para ferramentas cliente, não contemplando a apresentação dessas informações para o usuário final, o que fica a cargo da ferramenta cliente que pode fazer de forma análoga aos dados das consultas analíticas. Para modelar um conceito de qualidade através do paradigma GQM, foram definidos indicadores sob a perspectiva do usuário final, considerando as particularidades do contexto interorganizacional. Inicialmente foram selecionados alguns critérios de qualidade que serviram como ponto de partida para a identificação dos indicadores. O paradigma GQM foi utilizado para orientar a definição desses indicadores, sendo que os objetos do DW a serem avaliados pelos indicadores são as tabelas de fato e as tabelas de dimensão. A principal contribuição desse trabalho foi o fornecimento de informações sobre a qualidade dos dados do DW para ferramentas de consultas analíticas, para que as mesmas possam formatá-las e apresentá-las para o usuário final. O fornecimento de informações sobre a qualidade de dados para os tomadores de decisão representa um avanço em relação às consultas analíticas convencionais, pois possibilita que eles avaliem até que ponto podem confiar nos dados apresentados. Isso confere mais confiabilidade ao processo de tomada de decisão.

44 CONSIDERAÇÕES FINAIS DO CAPÍTULO Como se pode perceber, os trabalhos relacionados apresentados compreendem, de forma geral, a avaliação dos dados fontes e dos dados carregados no DW, pois a qualidade dos dados utilizados nas tarefas de tomada de decisões tem implicações importantes sobre o resultado dessas tarefas. Porém, juntamente com a avaliação dos dados é levada em consideração a avaliação do modelo de dados empregado no DW. Portanto, apesar de que as técnicas e formas de avaliação de um DW diferem em algumas particularidades, os requisitos de dados e de usuários sempre devem ser considerados. Ou seja, para uma avaliação consistente do AgroDW, ela deve ser feita dentro do contexto em que o DW é utilizado, neste caso, dentro do contexto da AP. O estudo de Akoka et al. (2007) demonstra que a qualidade possui dimensões e deve ser analisada em três níveis de projeto. Porém, enfatiza sua análise em dois níveis que são a qualidade dos dados e a qualidade dos modelos conceituais de dados, reforçando o objetivo geral do presente trabalho. Além disso, eles afirmam que avaliar a qualidade, tanto dos dados como dos modelos conceituais, não pode ser restrita a uma única abordagem de avaliação. Ou seja, não se pode abordar separadamente a mais simples, como validar um atributo do dado fonte, ou a mais complexa perspectiva do problema, como validar as relações existentes nos modelos de dados. Desta maneira, demonstrando que para uma avaliação consistente do DW, devem ser considerados os problemas mais simples junto dos mais complexos. Jarke et al. (1999) explicam que a maioria dos pesquisadores de banco de dados tem estudado DW no seu papel de buffer de visualizações materializadas do negócio, mediando entre sistemas de atualizações intensivas e sistemas de consultas intensivas de apoio à decisão. Porém estudar um DW neste único papel negligencia o papel organizacional do DW e, como consequência, um número relevante de aspectos de qualidade deixa de ser levado em consideração. Com isso, sua principal contribuição enfatiza que a avaliação de um DW deve ser realizada considerando o contexto organizacional. Complementa sua contribuição ratificando

45 35 que os aspectos de qualidade a serem avaliados devem ser estabelecidos na perspectiva dos usuários, introduzindo a ideia de uma avaliação apoiada pelo paradigma GQM. Complementando os estudos anteriores, Amaral (2003) afirma que a crescente utilização do DW para apoiar processos de tomada de decisão tem provocado um aumento da preocupação em relação à qualidade dos mesmos e dos dados utilizados. Com isso, contribui explicitando um método de avaliação fortemente guiado pelo paradigma GQM e definindo um conjunto de dimensões de qualidade para a avaliação do DW sob a perspectiva do usuário final, pois a possibilidade de tirar vantagem dos recursos de informação só é possível se existe um conhecimento prévio do quão confiável eles são. Já o trabalho de Shankaranarayanan, Even e Watts (2006) afirma que a qualidade dos dados utilizados nas tarefas de tomada de decisões tem implicações importantes sobre o resultado dessas tarefas. Porém, medir apenas dimensões de qualidade de dados, tais como acurácia e completude, sem levar em conta fatores contextuais relacionados ao usuário ou a tarefa de tomada a decisão, não é suficiente. Por isso, o estudo contribui com a ideia de que além dos dados de avaliação de qualidade devem ser disponibilizados aos usuários metadados de processos, assim enriquecendo a avaliação para o usuário. Além disso, o estudo explana que os próprios processos de tomada de decisão devem ser analisados, pois eles são os mediadores entre os dados do DW e o resultado da tarefa de tomada de decisão. Entretanto, o estudo vai contra as ideias de Akoka et al. (2007) e Jarke et al. (1999) que frisam que a avaliação de qualidade dever ser feita dentro do contexto que o DW será empregado. Com isso, esta ideia foge dos objetivos do presente trabalho e não é empregada na avaliação. Como se pode observar nos trabalhos relacionados, há preocupação em avaliar um DW segundo o contexto em que ele está inserido. Então, neste trabalho foi desenvolvida a avaliação de um DW para AP, onde houve a preocupação com a contextualização dos dados e requisitos necessários para o suporte a tomada de decisão na AP. Assim, com base nos trabalhos relacionados, se definiu que o método de avaliação seguiria a ideia de avaliar o AgroDW através do paradigma GQM que, após a definição de quais dimensões de qualidade seriam avaliadas, auxiliou na definição de métricas para mensurar tais dimensões. Com isso, a

46 36 avaliação buscou demonstrar que o AgroDW contempla os requisitos de usuário para um DW no âmbito de AP. Além dos trabalhos relacionados, neste capitulo foram descritos alguns conceitos e técnicas mais utilizadas para o desenvolvimento de um DW, bem como conceitos de qualidade de software e uma breve explanação sobre os conceitos de agricultura de precisão. Os conceitos destas três áreas serviram como referências para o desenvolvimento deste trabalho.

47 37 3 AVALIAÇÃO DO AGRODW O presente capítulo tem por finalidade apresentar a aplicação do processo de avaliação do AgroDW. Entretanto, primeiramente é apresentado o projeto do AgroDW, mostrando o modelo multidimensional de dados definido por Araujo (2011), bem como são descritos detalhes da realização do processo ETL, incluindo a descrição dos dados fontes e da ferramenta de licença gratuita utilizada para auxiliar o processo. Na sequência, é apresentado e detalhado o método de avaliação empregado para a avaliação do AgroDW e as etapas necessárias para o desenvolvimento desta avaliação, discorrendo acerca dos processos de negócio relacionados ao suporte à decisão na AP. Por fim, são descritos os mecanismos desenvolvidos e aplicados para a obtenção das métricas. 3.1 PROJETO DO AGRODW Para o projeto do DW foi utilizada uma abordagem guiada por dados, pois havia uma considerável e consistente quantidade de dados disponíveis. As fontes continham dados de produtividade do solo, coletados através de máquinas agrícolas, e de características do solo, obtidos através de relatórios de análise de amostras das áreas de produção. Com o intuito de padronizar o vocabulário dos metadados e entender melhor os relacionamentos intrínsecos entre eles, foram utilizados modelos de dados, tais como, MOSAICo, AGROVOC e agroxml para modelar o AgroDW. A partir da padronização dos dados utilizando os modelos de agricultura, o DW para AP foi concebido como dois data marts distintos, harvest (colheita) e plantation (plantio). Essa decisão foi tomada porque havia a necessidade de separar

48 38 a colheita da plantação, como dois setores de uma empresa, pois um representa dados do plantio e o outro dados da colheita. De acordo com Araujo (2011), para o desenvolvimento do esquema multidimensional do DW para AP, o AgroDW, foi utilizada a metodologia proposta por Kimball (KIMBALL et al., 2002), a qual é composta por quatro passos: (i) seleção dos processos de negócios; (ii) definição da granularidade dos dados; (iii) escolha das dimensões e (iv) identificação da tabela fato. Então, com base nesta metodologia, definiu-se que os DMs seriam organizados segundo o esquema estrela. As Figuras 8 e 9 ilustram os esquemas estrela dos DMs Harvest e Plantation resultantes do projeto do DW para AP. Porém ambos os DMs apresentados foram adaptados de acordo com necessidades e dificuldades identificadas no decorrer do processo ETL realizado neste trabalho (ver seção 3.2). A adaptação número dois foi aplicada devido a erro de projeto e as demais foram aplicadas visando à evolução do projeto: 1. Adaptação de campos chaves: chaves estrangeiras e primárias que estão nas tabelas fato foram transformadas apenas em chaves estrangeiras. Da forma que foram estabelecidas, como chave primária e estrangeira, elas dificultavam o gerenciamento dos DMs, pois obrigavam que todo registro da tabela fato contivesse relação com as tabelas de dimensão; 2. Adaptação de campos: após uma análise nos arquivos fontes, campos do tipo Integers foram transformados em Float, pois tais campos variavam em até cinco casas decimais. A maioria dos campos transformados encontram-se nas tabelas fato Harvest e Plantation; 3. Realocação de campos: alguns campos foram realocados das tabelas dimensão para as tabelas fato, por exemplo, os campos productionkg e avgproduction movidos da tabela dimensão Crop para a tabela fato Harvest e os campos phvalue e carboncontent movidos da tabela dimensão Soil_Parameters para a tabela fato Plantation. Essa realocação foi realizada, pois são campos variáveis e, seguindo as ideias de Ballard et al. (1998) e Kimball (2002), campos variáveis devem estar contidos na tabela fato; 4. Fusão de tabelas: as tabelas Farm e Farmer foram unidas, pois representam uma pequena quantidade de dados, continham campos duplicados como o

49 39 campo farmername e a fusão facilita a consulta aos dados e diminui o tempo de processamento da mesma. Com as adaptações feitas, a modelagem referente ao DM harvest, ilustrada na Figura 8, ficou definida da seguinte maneira: dimensões Farm, Input, Date, Crop, FieldPosition, Machine e por fim a tabela central que corresponde à tabela fato Harvest. Figura 8 Modelagem do Data Mart harvest. Adaptado de (ARAUJO, 2011). Já a modelagem para o segundo DM, também organizada segundo o esquema estrela, demonstrada na Figura 9, foi definida pelas dimensões Farm, Input, Date, Crop, Soil_Parameters, FieldPosition e pela tabela fato Plantation.

50 40 Figura 9 Modelagem do Data Mart plantation. Adaptado de (ARAUJO, 2011). Os esquemas dos DMs foram implementados no sistema de gerenciamento de banco de dados (SGBD) PostgreSQL, através da ferramenta pgadmin III (PGADMIN, 2012). Tal SGBD foi escolhido, pois é open source, com suporte a consultas SQL (Structured Query Language) (PostgreSQL, 2010). Os dois DMs foram criados em um único database, pois compartilham tabelas de dimensão que possuem a mesma estrutura. 3.2 REALIZAÇÃO DO PROCESSO ETL Neste trabalho, todos os processos de extração, transformação e carga dos dados foram realizados com o auxilio da ferramenta expressor Studio, descrita na seção Esta ferramenta auxiliou todo o processo de ETL visando realizar a carga dos dados fontes no ambiente do AgroDW no final do processo, e, por

51 41 consequência, diminuindo um pouco o tempo necessário para que esta etapa do trabalho fosse concluída Dados fontes Como fonte para o processo de ETL foram utilizados os arquivos providos pela fundação paranaense, com o intuito de popular o AgroDW com uma massa significativa de dados. Esta fundação é uma instituição de caráter particular, sem fins lucrativos, mantida pela contribuição dos produtores e por parcerias em trabalhos de pesquisa com empresas privadas. Os dados obtidos consistem em dados de colheitas apanhados de máquinas agrícolas e dados obtidos de análises do solo. Estes dados não estão em um único formato, ao contrário, encontram-se em diversos tipos de arquivos com extensões variadas, tais como: dados em Formato de Banco de Dados (.dbf) (ilustrado na parte (A) da Figura 10), dados em Formato Texto (.txt) (ilustrado na parte (B) da Figura 10) e dados em Formato de Planilha Eletrônica (.xls) (ilustrado na parte (C) da Figura 10). Desta forma, estes dados apresentam um nível de granularidade baixo, ou seja, a granularidade destes dados refere-se ao nível de dispersão e quantidades destes elementos e detalhes disponíveis nos dados. Para a realização do processo ETL, foram selecionados dados de três fazendas, denominadas: (i) SC; (ii) SM; e (iii) SU. Para cada fazenda foram selecionados dois talhões: SC41 e SC45 para a fazenda SC; SM01 e SM05 para a fazenda SM; SU23 e SU27 para a fazenda SU, compreendendo três anos 2007/2008/2009 para o plantio, e 2008/2009/2010 para a colheita de todos os talhões. O nome real das fazendas é omitido por questões de privacidade de dados. Tomando como exemplo o talhão SM02, que abrange os dados de colheita em dois formatos de arquivo e um para plantio. As partes A e B da Figura 10 ilustram alguns dados importantes para AP, como por exemplo, a longitude, latitude, altitude e tipo de cultura. Já a parte C da figura apresenta a variedade do tipo de sementes e tipos de fertilizantes utilizados no plantio de uma determinada cultura.

52 42 Figura 10 Exemplos de dados fonte. A) Dados em Formato de Banco de Dados (.dbf); B) Dados em Formato Texto (.txt); C) Dados em formato de Planilha Eletrônica (.xls) Ferramentas ETL Para a realização do processo ETL foram postuladas duas alternativas. Uma proposta era desenvolver uma aplicação do zero, a outra, era utilizar uma ferramenta ETL disponível de licença gratuita. Com base nas necessidades do conjunto de dados em particular, percebeu-se que desenvolver o processo de ETL sem nenhum projeto base seria muito complexo e o tempo necessário excederia o tempo disponível para esta atividade. Visto este empecilho, decidiu-se que o ideal seria usar uma ferramenta ETL que provesse um bom suporte para todas as etapas do processo ETL. O objetivo era encontrar uma ferramenta de licença gratuita, porém eficiente e confiável para as necessidades de integração de dados. Visando os objetivos, foram encontradas as seguintes ferramentas ETL: Apatar, CloverETL, expressor Studio,

53 43 Pentaho, Scriptella e Talend. Com base nas informações encontradas nos próprios websites das ferramentas foi construída a Tabela 2, que demonstra de forma objetiva as características relevantes para a escolha da ferramenta para realização do processo ETL deste trabalho. Do conjunto de dados apresentados, a respeito das características 7 a 13, a única ferramenta que destoa das demais é a ferramenta Scriptella que não teve sua interface considerada amigável, pois consiste na aplicação de scripts e o objetivo era encontrar uma ferramenta com um bom suporte visual para as especificações das etapas do processo ETL por serem processadas de forma manual pelo desenvolvedor do trabalho. Ferramenta / Característica Apatar CloverETL Expressor Pentaho Scriptella Talend 1. Desenvolvedor Apatar Inc. Javlin Expressor Software Corporation The Pentaho BI Project The Scriptella Project Talend Java Java Java Java Java Java 2. Linguagem de Programação 3. Sistema Operacional Crossplatform Crossplatform Crossplatform Crossplatform Crossplatform Crossplatform 4. Licença Gratuita Gratuita Gratuita Gratuita Gratuita Gratuita 5. Open Source Sim Não Não Sim Sim Sim 6. Documentação Boa Ruim Muito Boa Boa Boa Muito Boa 7. Permite aplicar regras de extração 8. Permite aplicar regras de transformação 9. Permite aplicar regras de carga de dados 10. Migração/Integração de dados 11. Conectividade com arquivos 12. Conectividade com PostgreSQL 13. Interface amigável Tabela 2 Características das ferramentas ETL. Portanto, com base na Tabela 2, foram selecionadas as ferramentas expressor Studio e Talend Data Integration, pois as mesmas disponibilizam as funções necessárias, possuem uma documentação muito boa com tutoriais

54 44 demonstrando a execução do processo ETL e também contam com uma interface amigável. Em seguida, as ferramentas inicialmente selecionadas foram testadas para que fosse escolhida a ferramenta que mais se adequasse com o desenvolver do trabalho. As características das ferramentas demonstram que não há necessidade de desenvolvimento de uma aplicação especifica para esta atividade. Portanto, foi definida a seleção da ferramenta expressor Studio, pois além de apresentar as características descritas na Tabela 2, apresentou uma interface mais intuitiva sob a perspectiva do desenvolvedor do trabalho para o mapeamento dos dados, quando comparado com o Talend Data Integration Definição do processo Como descrito na seção anterior, foi selecionada uma ferramenta que proveria suporte a execução do processo ETL e, portanto, não foi necessário desenvolver uma ferramenta ETL especifica para este trabalho, pois a ferramenta selecionada atende as necessidades desta atividade. Desta forma, acredita-se que foi possível um melhor desenvolvimento do processo. Seguem abaixo detalhes sobre cada uma das três fases do processo de ETL realizado: Extração: A primeira etapa deste processo ETL é a extração dos dados dos arquivos fontes selecionados previamente. Foram extraídos dados de arquivos.txt,.dbf e.xls, apresentados na seção Identificou-se que para o DM harvest a maioria dos dados se encontravam nos arquivos.txt e.dbf. Já para o DM plantation os dados se encontram nos três formatos de arquivos citados anteriormente. O universo dos dados disponível é formado por cerca de 200 arquivos, representando 30 áreas de plantio em três anos diferentes de colheita (2008, 2009 e 2010), cada um com contendo em média 30 mil registros. Estes dados foram extraídos com o auxílio da ferramenta expressor Studio, que mapeia os dados contidos nos arquivos fonte (lado esquerdo da Figura 11) e proporciona a seleção de um conjunto específico de dados, utilizado de entrada para a etapa de transformação (lado direito da Figura 11).

55 45 Figura 11 Etapa de extração do processo ETL no expressor Studio. Transformação: É através desta etapa que os dados deixam de ser apenas dados, e passam a constituir informações relevantes para análise, pois são realizadas todas as transformações imprescindíveis para adequar os dados ao modelo do AgroDW. Portanto, é essencial que ela seja desenvolvida com o máximo de cuidado, respeitando todos os detalhes para a efetiva construção do AgroDW. O primeiro passo realizado desta etapa foi a exclusão de todos os dados que são desnecessários de acordo com o modelo do AgroDW. Em seguida, foi realizada a limpeza dos dados, pois, apesar da maioria dos dados extraído ter sido diretamente mapeada a uma tabela do AgroDW, alguns dados precisaram passar por limpeza e/ou transformação. A limpeza se trata do refinamento dos dados, como a retirada de espaços em branco, adequação de caracteres especiais, entre outros. Já a parte de transformação diz respeito à: Conversão de variáveis datas para atributos separados em dia, mês e ano; Transformação de dados strings em tipo numérico real; Tratamento de número decimal; Concatenação de variáveis strings; Separação de variáveis strings; e Sumarização dos dados contidos nas dimensões. Um exemplo das transformações e limpezas realizadas pode ser visualizado na Figura 12.

56 46 Figura 12 Etapa de transformação do processo ETL no expressor Studio. Carga: A carga de dados constitui a última etapa do processo ETL para a população do ambiente AgroDW. Esta etapa se destina a mapear os dados extraídos e transformados nos DMs do AgroDW de acordo com as designações feitas no expressor Studio (lado direito da Figura 13) para as tabelas do AgroDW (lado esquerdo da Figura 13), carregando os dados no DW. Inicialmente foram concebidas duas ideias de população do AgroDW: (i) Cíclica, ou seja, um registro seria extraído, transformado e carregado nas tabelas de dimensões e por fim na tabela fato; ou (ii) Dimensão a dimensão, ou seja, povoando todas as dimensões uma de cada vez e posteriormente a tabela fato. Por questão de tempo de desenvolvimento do processo ETL, foi utilizada a segunda forma de população do DW, pois além de ser menos complexa de ser desenvolvida, a versão gratuita da ferramenta expressor Studio não demonstrou possuir alguma funcionalidade que provesse suporte à forma de população cíclica. Figura 13 Etapa de carga do processo ETL no expressor Studio.

57 47 As definições das etapas de extração, transformação e carga foram realizadas por arquivo fonte. Somente para arquivos do mesmo formato e estrutura interna número de colunas foi possível realizar um agrupamento dos conteúdos e assim definir uma única definição de cada uma das três etapas para o determinado conjunto de arquivos fonte. Portanto, como o conjunto de arquivos fonte não contém uma padronização, na definição das etapas pouco se pode fazer o reuso de definições já utilizadas Algoritmos O processo ETL desenvolvido com o auxilio da ferramenta expressor Studio foi realizado em três etapas distintas: 1) Preparação do ambiente de trabalho dentro da ferramenta, ilustrada na Figura 14; 2) Criação de fluxos de dados para extração, transformação e carga, ilustrada na Figura 15; 3) Execução do processo de população do AgroDW, ilustrada na Figura 16. Etapa 1 - Preparação do ambiente 1. Para cada tabela dos DMs: 1.1. Selecionar os dados necessários do conjunto de arquivos disponível; A seleção compreende o processo de escolha dos dados, por parte do projetista do ETL, que serão carregados nos DMs Criar um esquema fonte que mapeia os dados do arquivo fonte para uma tabela virtual ; Um esquema fonte é uma representação intermediária da estrutura do arquivo de entrada em termos de colunas e tipos de dados Criar um esquema da tabela do DM que está sendo populado; Um esquema da tabela é uma representação intermediária da estrutura da tabela destino em termos de colunas e tipos de dados Montar um fluxo de dado para o tratamento dos dados; Um fluxo de dado é uma representação do fluxo de dados durante o processo ETL para cada tabela contida nos DMs.

58 48 Figura 14 Etapa 1 - Preparação do ambiente. Etapa 2 - Criação dos fluxos de dados 2. Para cada tabela dos DMs: 2.1. Explicitar o arquivo fonte; 2.2. Inserir funções desejadas: Se existir vários arquivos com mesmo esquema fonte então: a. Incluir função Afunilar que combina os dados de múltiplas entradas em uma única saída; Se for necessário capturar um valor único entre vários atributos então: b. Incluir função Unificar que seleciona os dados com base na presença ou ausência de chaves duplicadas; Se for necessário estabelecer ordem nos valores extraídos então: c. Incluir função Classificar que ordena os registros de acordo com campos chave especificados; 2.3. Definir as transformações necessárias: Enquanto houver dimensões ou fatos a serem tratados faça:

59 49 a. Se for tabela dimensão então: i. Especificar a sequência do atributo id (identificador) da tabela; As sequências de valores do atributo identificador de cada tabela seguem a ordem em que os registros são lidos dos arquivos fonte. b. Se for tabela fato então: i. Especificar a sequência do atributo id (identificador) da tabela; ii. Para cada novo registro da tabela fato que tenha relação com alguma tabela dimensão: 1. Relacionar um id da tabela dimensão e preencha o respectivo campo chave estrangeira da tabela fato; c. Para campos de ambos os tipos de tabelas (dimensão e fato): i. Resolver transformações em atributos do tipo string: 1. Tratamento de letras maiúsculas e minúsculas; 2. Divisões e/ou concatenações de string; 3. Mapeamento direto; ii. Resolver transformações em atributos do tipo inteiro: 1. Transformar dados string em inteiro; 2. Separar atributos data em atributos inteiros separados; 3. Mapeamento direto; iii. Resolver transformações em atributos do tipo decimal: 1. Tratamento de pontos e vírgulas; 2. Transformar dados string em decimal; 3. Mapeamento direto; 2.4. Mapear os dados transformados para uma tabela do AgroDW; Os atributos transformados são mapeados para campos das tabelas de dimensão ou fato do AgroDW. Figura 15 Etapa 2 - Criação dos fluxos de dados.

60 50 Etapa 3 - Execução do processo de população 3. Para cada fluxo de dados criado: 3.1. Ler arquivo fonte; 3.2. Executar limpezas e transformações; 3.3. Gravar dados na tabela do AgroDW designada; Figura 16 Etapa 3 - Execução do processo de população do AgroDW Considerações sobre o processo ETL Como visto no decorrer da seção, a sequência utilizada para a carga dos dados foi na forma dimensão a dimensão, onde todas as dimensões são populadas uma de cada vez, ou seja, são realizados os passos de extração, transformação e carga para cada tabela dimensão. Posteriormente, com todas as dimensões devidamente carregadas, é realizado o preenchimento das tabelas fato. Apesar da escolha criteriosa do método de população do AgroDW, algumas dificuldades foram encontradas. Em relação à etapa de extração, as principais dificuldades foram tratar os diversos formatos de arquivos e as diversas estruturas número de colunas para os arquivos de mesmo formato. Todavia, para tal dificuldade a única solução foi criar esquemas 1 para cada arquivo fonte com estrutura diferente. Já para as etapas de transformação e carga, a maior dificuldade foi o gerenciamento dos id (identificadores), tanto das tabelas de dimensão como das tabelas de fato. Nas tabelas de dimensão os identificadores foram definidos pela 1 Esquemas são representações que definem as estruturas de dados que são lidos ou escritos por entrada e saída de operadores nos fluxos de dados do processo ETL.

DATA WAREHOUSE. Introdução

DATA WAREHOUSE. Introdução DATA WAREHOUSE Introdução O grande crescimento do ambiente de negócios, médias e grandes empresas armazenam também um alto volume de informações, onde que juntamente com a tecnologia da informação, a correta

Leia mais

Resumo dos principais conceitos. Resumo dos principais conceitos. Business Intelligence. Business Intelligence

Resumo dos principais conceitos. Resumo dos principais conceitos. Business Intelligence. Business Intelligence É um conjunto de conceitos e metodologias que, fazem uso de acontecimentos e sistemas e apoiam a tomada de decisões. Utilização de várias fontes de informação para se definir estratégias de competividade

Leia mais

DATA WAREHOUSE. Rafael Ervin Hass Raphael Laércio Zago

DATA WAREHOUSE. Rafael Ervin Hass Raphael Laércio Zago DATA WAREHOUSE Rafael Ervin Hass Raphael Laércio Zago Roteiro Introdução Aplicações Arquitetura Características Desenvolvimento Estudo de Caso Conclusão Introdução O conceito de "data warehousing" data

Leia mais

Complemento I - Noções Introdutórias em Data Warehouses

Complemento I - Noções Introdutórias em Data Warehouses Complemento I - Noções Introdutórias em Data Warehouses Esse documento é parte integrante do material fornecido pela WEB para a 2ª edição do livro Data Mining: Conceitos, técnicas, algoritmos, orientações

Leia mais

srbo@ufpa.br www.ufpa.br/srbo

srbo@ufpa.br www.ufpa.br/srbo CBSI Curso de Bacharelado em Sistemas de Informação BI Prof. Dr. Sandro Ronaldo Bezerra Oliveira srbo@ufpa.br www.ufpa.br/srbo Tópicos Especiais em Sistemas de Informação Faculdade de Computação Instituto

Leia mais

Data Warehouse. Debora Marrach Renata Miwa Tsuruda

Data Warehouse. Debora Marrach Renata Miwa Tsuruda Debora Marrach Renata Miwa Tsuruda Agenda Introdução Contexto corporativo Agenda Introdução Contexto corporativo Introdução O conceito de Data Warehouse surgiu da necessidade de integrar dados corporativos

Leia mais

GARANTIA DA QUALIDADE DE SOFTWARE

GARANTIA DA QUALIDADE DE SOFTWARE GARANTIA DA QUALIDADE DE SOFTWARE Fonte: http://www.testexpert.com.br/?q=node/669 1 GARANTIA DA QUALIDADE DE SOFTWARE Segundo a NBR ISO 9000:2005, qualidade é o grau no qual um conjunto de características

Leia mais

Planejamento Estratégico de TI. Prof.: Fernando Ascani

Planejamento Estratégico de TI. Prof.: Fernando Ascani Planejamento Estratégico de TI Prof.: Fernando Ascani Data Warehouse - Conceitos Hoje em dia uma organização precisa utilizar toda informação disponível para criar e manter vantagem competitiva. Sai na

Leia mais

Planejamento Estratégico de TI. Prof.: Fernando Ascani

Planejamento Estratégico de TI. Prof.: Fernando Ascani Planejamento Estratégico de TI Prof.: Fernando Ascani BI Business Intelligence A inteligência Empresarial, ou Business Intelligence, é um termo do Gartner Group. O conceito surgiu na década de 80 e descreve

Leia mais

Data Warehousing. Leonardo da Silva Leandro. CIn.ufpe.br

Data Warehousing. Leonardo da Silva Leandro. CIn.ufpe.br Data Warehousing Leonardo da Silva Leandro Agenda Conceito Elementos básicos de um DW Arquitetura do DW Top-Down Bottom-Up Distribuído Modelo de Dados Estrela Snowflake Aplicação Conceito Em português:

Leia mais

Sistemas de Informação I

Sistemas de Informação I + Sistemas de Informação I Dimensões de análise dos SI Ricardo de Sousa Britto rbritto@ufpi.edu.br + Introdução n Os sistemas de informação são combinações das formas de trabalho, informações, pessoas

Leia mais

FATEC Cruzeiro José da Silva. Ferramenta CRM como estratégia de negócios

FATEC Cruzeiro José da Silva. Ferramenta CRM como estratégia de negócios FATEC Cruzeiro José da Silva Ferramenta CRM como estratégia de negócios Cruzeiro SP 2008 FATEC Cruzeiro José da Silva Ferramenta CRM como estratégia de negócios Projeto de trabalho de formatura como requisito

Leia mais

DIMENSIONANDO PROJETOS DE WEB-ENABLING. Uma aplicação da Análise de Pontos de Função. Dimensionando projetos de Web- Enabling

DIMENSIONANDO PROJETOS DE WEB-ENABLING. Uma aplicação da Análise de Pontos de Função. Dimensionando projetos de Web- Enabling DIMENSIONANDO PROJETOS DE WEB-ENABLING Uma aplicação da Análise de Pontos de Função Dimensionando projetos de Web- Enabling Índice INTRODUÇÃO...3 FRONTEIRA DA APLICAÇÃO E TIPO DE CONTAGEM...3 ESCOPO DA

Leia mais

Conceitos de Banco de Dados

Conceitos de Banco de Dados Conceitos de Banco de Dados Autor: Luiz Antonio Junior 1 INTRODUÇÃO Objetivos Introduzir conceitos básicos de Modelo de dados Introduzir conceitos básicos de Banco de dados Capacitar o aluno a construir

Leia mais

ADMINISTRAÇÃO DOS RECURSOS DE DADOS

ADMINISTRAÇÃO DOS RECURSOS DE DADOS Capítulo 7 ADMINISTRAÇÃO DOS RECURSOS DE DADOS 7.1 2003 by Prentice Hall OBJETIVOS Por que as empresas sentem dificuldades para descobrir que tipo de informação precisam ter em seus sistemas de informação?

Leia mais

ROTEIRO PARA ELABORAÇÃO DE PROJETOS

ROTEIRO PARA ELABORAÇÃO DE PROJETOS APRESENTAÇÃO ROTEIRO PARA ELABORAÇÃO DE PROJETOS Breve histórico da instituição seguido de diagnóstico e indicadores sobre a temática abrangida pelo projeto, especialmente dados que permitam análise da

Leia mais

04/08/2012 MODELAGEM DE DADOS. PROF. RAFAEL DIAS RIBEIRO, M.Sc. @ribeirord MODELAGEM DE DADOS. Aula 2. Prof. Rafael Dias Ribeiro. M.Sc.

04/08/2012 MODELAGEM DE DADOS. PROF. RAFAEL DIAS RIBEIRO, M.Sc. @ribeirord MODELAGEM DE DADOS. Aula 2. Prof. Rafael Dias Ribeiro. M.Sc. MODELAGEM DE DADOS PROF. RAFAEL DIAS RIBEIRO, M.Sc. @ribeirord MODELAGEM DE DADOS Aula 2 Prof. Rafael Dias Ribeiro. M.Sc. @ribeirord 1 Objetivos: Revisão sobre Banco de Dados e SGBDs Aprender as principais

Leia mais

SAD orientado a DADOS

SAD orientado a DADOS Universidade do Contestado Campus Concórdia Curso de Sistemas de Informação Prof.: Maico Petry SAD orientado a DADOS DISCIPLINA: Sistemas de Apoio a Decisão SAD orientado a dados Utilizam grandes repositórios

Leia mais

PROCESSO DE DESENVOLVIMENTO DE SOFTWARE. Modelos de Processo de Desenvolvimento de Software

PROCESSO DE DESENVOLVIMENTO DE SOFTWARE. Modelos de Processo de Desenvolvimento de Software PROCESSO DE DESENVOLVIMENTO DE SOFTWARE Introdução Modelos de Processo de Desenvolvimento de Software Os modelos de processos de desenvolvimento de software surgiram pela necessidade de dar resposta às

Leia mais

04/08/2012 MODELAGEM DE DADOS. PROF. RAFAEL DIAS RIBEIRO, M.Sc. @ribeirord MODELAGEM DE DADOS. Aula 1. Prof. Rafael Dias Ribeiro. M.Sc.

04/08/2012 MODELAGEM DE DADOS. PROF. RAFAEL DIAS RIBEIRO, M.Sc. @ribeirord MODELAGEM DE DADOS. Aula 1. Prof. Rafael Dias Ribeiro. M.Sc. MODELAGEM DE DADOS PROF. RAFAEL DIAS RIBEIRO, M.Sc. @ribeirord MODELAGEM DE DADOS Aula 1 Prof. Rafael Dias Ribeiro. M.Sc. @ribeirord 1 Objetivos: Apresenta a diferença entre dado e informação e a importância

Leia mais

Banco de Dados - Senado

Banco de Dados - Senado Banco de Dados - Senado Exercícios OLAP - CESPE Material preparado: Prof. Marcio Vitorino OLAP Material preparado: Prof. Marcio Vitorino Soluções MOLAP promovem maior independência de fornecedores de SGBDs

Leia mais

ISO/IEC 12207: Gerência de Configuração

ISO/IEC 12207: Gerência de Configuração ISO/IEC 12207: Gerência de Configuração Durante o processo de desenvolvimento de um software, é produzida uma grande quantidade de itens de informação que podem ser alterados durante o processo Para que

Leia mais

Módulo 4: Gerenciamento de Dados

Módulo 4: Gerenciamento de Dados Módulo 4: Gerenciamento de Dados 1 1. CONCEITOS Os dados são um recurso organizacional decisivo que precisa ser administrado como outros importantes ativos das empresas. A maioria das organizações não

Leia mais

DATA WAREHOUSE NO APOIO À TOMADA DE DECISÕES

DATA WAREHOUSE NO APOIO À TOMADA DE DECISÕES DATA WAREHOUSE NO APOIO À TOMADA DE DECISÕES Janaína Schwarzrock jana_100ideia@hotmail.com Prof. Leonardo W. Sommariva RESUMO: Este artigo trata da importância da informação na hora da tomada de decisão,

Leia mais

INSTRUÇÃO DE TRABALHO PARA INFORMAÇÕES GERENCIAIS

INSTRUÇÃO DE TRABALHO PARA INFORMAÇÕES GERENCIAIS INSTRUÇÃO DE TRABALHO PARA INFORMAÇÕES GERENCIAIS Asia Shipping Transportes Internacionais Ltda. como cópia não controlada P á g i n a 1 7 ÍNDICE NR TÓPICO PÁG. 1 Introdução & Política 2 Objetivo 3 Responsabilidade

Leia mais

Professor: Disciplina:

Professor: Disciplina: Professor: Curso: Esp. Marcos Morais de Sousa marcosmoraisdesousa@gmail.com Sistemas de informação Disciplina: Introdução a SI Noções de sistemas de informação Turma: 01º semestre Prof. Esp. Marcos Morais

Leia mais

Seção 2/E Monitoramento, Avaliação e Aprendizagem

Seção 2/E Monitoramento, Avaliação e Aprendizagem Seção 2/E Monitoramento, Avaliação e Aprendizagem www.bettercotton.org Orientação Text to go here O documento Monitoramento, Avaliação e Aprendizagem da BCI proporciona uma estrutura para medir as mudanças

Leia mais

Gestão do Conhecimento A Chave para o Sucesso Empresarial. José Renato Sátiro Santiago Jr.

Gestão do Conhecimento A Chave para o Sucesso Empresarial. José Renato Sátiro Santiago Jr. A Chave para o Sucesso Empresarial José Renato Sátiro Santiago Jr. Capítulo 1 O Novo Cenário Corporativo O cenário organizacional, sem dúvida alguma, sofreu muitas alterações nos últimos anos. Estas mudanças

Leia mais

GUIA DE CURSO. Tecnologia em Sistemas de Informação. Tecnologia em Desenvolvimento Web. Tecnologia em Análise e Desenvolvimento de Sistemas

GUIA DE CURSO. Tecnologia em Sistemas de Informação. Tecnologia em Desenvolvimento Web. Tecnologia em Análise e Desenvolvimento de Sistemas PIM PROGRAMA DE INTEGRAÇÃO COM O MERCADO GUIA DE CURSO Tecnologia em Sistemas de Informação Tecnologia em Desenvolvimento Web Tecnologia em Análise e Desenvolvimento de Sistemas Tecnologia em Sistemas

Leia mais

ENGENHARIA DE SOFTWARE I

ENGENHARIA DE SOFTWARE I ENGENHARIA DE SOFTWARE I Prof. Cássio Huggentobler de Costa [cassio.costa@ulbra.br] Twitter: www.twitter.com/cassiocosta_ Agenda da Aula (002) Metodologias de Desenvolvimento de Softwares Métodos Ágeis

Leia mais

No mundo atual, globalizado e competitivo, as organizações têm buscado cada vez mais, meios de se destacar no mercado. Uma estratégia para o

No mundo atual, globalizado e competitivo, as organizações têm buscado cada vez mais, meios de se destacar no mercado. Uma estratégia para o DATABASE MARKETING No mundo atual, globalizado e competitivo, as organizações têm buscado cada vez mais, meios de se destacar no mercado. Uma estratégia para o empresário obter sucesso em seu negócio é

Leia mais

CHECK - LIST - ISO 9001:2000

CHECK - LIST - ISO 9001:2000 REQUISITOS ISO 9001: 2000 SIM NÃO 1.2 APLICAÇÃO A organização identificou as exclusões de itens da norma no seu manual da qualidade? As exclusões são relacionadas somente aos requisitos da sessão 7 da

Leia mais

Modelo de dados do Data Warehouse

Modelo de dados do Data Warehouse Modelo de dados do Data Warehouse Ricardo Andreatto O modelo de dados tem um papel fundamental para o desenvolvimento interativo do data warehouse. Quando os esforços de desenvolvimentos são baseados em

Leia mais

Módulo 4. Construindo uma solução OLAP

Módulo 4. Construindo uma solução OLAP Módulo 4. Construindo uma solução OLAP Objetivos Diferenciar as diversas formas de armazenamento Compreender o que é e como definir a porcentagem de agregação Conhecer a possibilidade da utilização de

Leia mais

MUDANÇAS NA ISO 9001: A VERSÃO 2015

MUDANÇAS NA ISO 9001: A VERSÃO 2015 MUDANÇAS NA ISO 9001: A VERSÃO 2015 Está em andamento o processo de revisão da Norma ISO 9001: 2015, que ao ser concluído resultará na mudança mais significativa já efetuada. A chamada família ISO 9000

Leia mais

Banco de Dados Aula 1 Introdução a Banco de Dados Introdução Sistema Gerenciador de Banco de Dados

Banco de Dados Aula 1 Introdução a Banco de Dados Introdução Sistema Gerenciador de Banco de Dados Banco de Dados Aula 1 Introdução a Banco de Dados Introdução Um Sistema Gerenciador de Banco de Dados (SGBD) é constituído por um conjunto de dados associados a um conjunto de programas para acesso a esses

Leia mais

A Importância do CRM nas Grandes Organizações Brasileiras

A Importância do CRM nas Grandes Organizações Brasileiras A Importância do CRM nas Grandes Organizações Brasileiras Por Marcelo Bandeira Leite Santos 13/07/2009 Resumo: Este artigo tem como tema o Customer Relationship Management (CRM) e sua importância como

Leia mais

UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS

UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS VINICIUS DA SILVEIRA SEGALIN FLORIANÓPOLIS OUTUBRO/2013 Sumário

Leia mais

GESTÃO DAS INFORMAÇÕES DAS ORGANIZAÇÕES MÓDULO 11

GESTÃO DAS INFORMAÇÕES DAS ORGANIZAÇÕES MÓDULO 11 GESTÃO DAS INFORMAÇÕES DAS ORGANIZAÇÕES MÓDULO 11 Índice 1. Importância do ERP para as organizações...3 2. ERP como fonte de vantagem competitiva...4 3. Desenvolvimento e implantação de sistema de informação...5

Leia mais

CAPÍTULO 1 - CONTABILIDADE E GESTÃO EMPRESARIAL A CONTROLADORIA

CAPÍTULO 1 - CONTABILIDADE E GESTÃO EMPRESARIAL A CONTROLADORIA CAPÍTULO 1 - CONTABILIDADE E GESTÃO EMPRESARIAL A CONTROLADORIA Constata-se que o novo arranjo da economia mundial provocado pelo processo de globalização tem afetado as empresas a fim de disponibilizar

Leia mais

Data Warehouse Processos e Arquitetura

Data Warehouse Processos e Arquitetura Data Warehouse - definições: Coleção de dados orientada a assunto, integrada, não volátil e variável em relação ao tempo, que tem por objetivo dar apoio aos processos de tomada de decisão (Inmon, 1997)

Leia mais

CRM. Customer Relationship Management

CRM. Customer Relationship Management CRM Customer Relationship Management CRM Uma estratégia de negócio para gerenciar e otimizar o relacionamento com o cliente a longo prazo Mercado CRM Uma ferramenta de CRM é um conjunto de processos e

Leia mais

Módulo 15 Resumo. Módulo I Cultura da Informação

Módulo 15 Resumo. Módulo I Cultura da Informação Módulo 15 Resumo Neste módulo vamos dar uma explanação geral sobre os pontos que foram trabalhados ao longo desta disciplina. Os pontos abordados nesta disciplina foram: Fundamentos teóricos de sistemas

Leia mais

Data Warehouse. Diogo Matos da Silva 1. Universidade Federal de Ouro Preto, Ouro Preto, MG, Brasil. Banco de Dados II

Data Warehouse. Diogo Matos da Silva 1. Universidade Federal de Ouro Preto, Ouro Preto, MG, Brasil. Banco de Dados II Data Warehouse Diogo Matos da Silva 1 1 Departamento de Computação Universidade Federal de Ouro Preto, Ouro Preto, MG, Brasil Banco de Dados II Diogo Matos (DECOM - UFOP) Banco de Dados II Jun 2013 1 /

Leia mais

Para construção dos modelos físicos, será estudado o modelo Relacional como originalmente proposto por Codd.

Para construção dos modelos físicos, será estudado o modelo Relacional como originalmente proposto por Codd. Apresentação Este curso tem como objetivo, oferecer uma noção geral sobre a construção de sistemas de banco de dados. Para isto, é necessário estudar modelos para a construção de projetos lógicos de bancos

Leia mais

Projeto de Sistemas I

Projeto de Sistemas I Instituto Federal de Educação, Ciência e Tecnologia de São Paulo Projeto de Sistemas I Professora: Kelly de Paula Cunha E-mail:kellypcsoares@ifsp.edu.br Requisitos: base para todo projeto, definindo o

Leia mais

5 Estudo de Caso. 5.1. Material selecionado para o estudo de caso

5 Estudo de Caso. 5.1. Material selecionado para o estudo de caso 5 Estudo de Caso De modo a ilustrar a estruturação e representação de conteúdos educacionais segundo a proposta apresentada nesta tese, neste capítulo apresentamos um estudo de caso que apresenta, para

Leia mais

Pós-Graduação em Gerenciamento de Projetos práticas do PMI

Pós-Graduação em Gerenciamento de Projetos práticas do PMI Pós-Graduação em Gerenciamento de Projetos práticas do PMI Planejamento do Gerenciamento das Comunicações (10) e das Partes Interessadas (13) PLANEJAMENTO 2 PLANEJAMENTO Sem 1 Sem 2 Sem 3 Sem 4 Sem 5 ABRIL

Leia mais

Tópicos Avançados Business Intelligence. Banco de Dados Prof. Otacílio José Pereira. Unidade 10 Tópicos Avançados Business Inteligence.

Tópicos Avançados Business Intelligence. Banco de Dados Prof. Otacílio José Pereira. Unidade 10 Tópicos Avançados Business Inteligence. Tópicos Avançados Business Intelligence Banco de Dados Prof. Otacílio José Pereira Unidade 10 Tópicos Avançados Business Inteligence Roteiro Introdução Níveis organizacionais na empresa Visão Geral das

Leia mais

FUNDAMENTOS DE SISTEMAS DE INFORMAÇÃO

FUNDAMENTOS DE SISTEMAS DE INFORMAÇÃO @ribeirord FUNDAMENTOS DE SISTEMAS DE INFORMAÇÃO Rafael D. Ribeiro, M.Sc,PMP. rafaeldiasribeiro@gmail.com http://www.rafaeldiasribeiro.com.br Lembrando... Aula 4 1 Lembrando... Aula 4 Sistemas de apoio

Leia mais

Universidade Paulista

Universidade Paulista Universidade Paulista Ciência da Computação Sistemas de Informação Gestão da Qualidade Principais pontos da NBR ISO/IEC 12207 - Tecnologia da Informação Processos de ciclo de vida de software Sergio Petersen

Leia mais

Banco de Dados. Introdução. João Eduardo Ferreira Osvaldo Kotaro Takai. jef@ime.usp.br DCC-IME-USP

Banco de Dados. Introdução. João Eduardo Ferreira Osvaldo Kotaro Takai. jef@ime.usp.br DCC-IME-USP Banco de Dados Introdução João Eduardo Ferreira Osvaldo Kotaro Takai jef@ime.usp.br DCC-IME-USP Importância dos Bancos de Dados A competitividade das empresas depende de dados precisos e atualizados. Conforme

Leia mais

Sistema. Atividades. Sistema de informações. Tipos de sistemas de informação. Everson Santos Araujo everson@everson.com.br

Sistema. Atividades. Sistema de informações. Tipos de sistemas de informação. Everson Santos Araujo everson@everson.com.br Sistema Tipos de sistemas de informação Everson Santos Araujo everson@everson.com.br Um sistema pode ser definido como um complexo de elementos em interação (Ludwig Von Bertalanffy) sistema é um conjunto

Leia mais

Interatividade aliada a Análise de Negócios

Interatividade aliada a Análise de Negócios Interatividade aliada a Análise de Negócios Na era digital, a quase totalidade das organizações necessita da análise de seus negócios de forma ágil e segura - relatórios interativos, análise de gráficos,

Leia mais

Uma análise de ferramentas de modelagem e gerência de metadados aplicadas ao projeto de BI/DW-UFBA

Uma análise de ferramentas de modelagem e gerência de metadados aplicadas ao projeto de BI/DW-UFBA Universidade Federal da Bahia Instituto de Matemática Departamento de Ciência da Computação MATA67 Projeto Final II Uma análise de ferramentas de modelagem e gerência de metadados aplicadas ao projeto

Leia mais

Feature-Driven Development

Feature-Driven Development FDD Feature-Driven Development Descrição dos Processos Requisitos Concepção e Planejamento Mais forma que conteúdo Desenvolver um Modelo Abrangente Construir a Lista de Features Planejar por

Leia mais

UNIVERSIDADE FEDERAL DO PARANÁ UFPR Bacharelado em Ciência da Computação

UNIVERSIDADE FEDERAL DO PARANÁ UFPR Bacharelado em Ciência da Computação SOFT DISCIPLINA: Engenharia de software AULA NÚMERO: 08 DATA: / / PROFESSOR: Andrey APRESENTAÇÃO O objetivo desta aula é apresentar e discutir conceitos relacionados a modelos e especificações. Nesta aula

Leia mais

Engenharia de Requisitos

Engenharia de Requisitos Engenharia de Requisitos Conteúdo Definição Questionamentos Típicos Visão Geral Ciclo de Vida dos Requisitos Síntese dos Objetivos Gerência de Mudança Identificação de Requisitos Classificação de Requisitos

Leia mais

CONCURSO PÚBLICO ANALISTA DE SISTEMA ÊNFASE GOVERNANÇA DE TI ANALISTA DE GESTÃO RESPOSTAS ESPERADAS PRELIMINARES

CONCURSO PÚBLICO ANALISTA DE SISTEMA ÊNFASE GOVERNANÇA DE TI ANALISTA DE GESTÃO RESPOSTAS ESPERADAS PRELIMINARES CELG DISTRIBUIÇÃO S.A EDITAL N. 1/2014 CONCURSO PÚBLICO ANALISTA DE GESTÃO ANALISTA DE SISTEMA ÊNFASE GOVERNANÇA DE TI RESPOSTAS ESPERADAS PRELIMINARES O Centro de Seleção da Universidade Federal de Goiás

Leia mais

Material de Apoio. Sistema de Informação Gerencial (SIG)

Material de Apoio. Sistema de Informação Gerencial (SIG) Sistema de Informação Gerencial (SIG) Material de Apoio Os Sistemas de Informação Gerencial (SIG) são sistemas ou processos que fornecem as informações necessárias para gerenciar com eficácia as organizações.

Leia mais

SUMÁRIO 1. INTRODUÇÃO... 2 2. O QUE É DATA WAREHOUSE?... 2 3. O QUE DATA WAREHOUSE NÃO É... 4 4. IMPORTANTE SABER SOBRE DATA WAREHOUSE... 5 4.

SUMÁRIO 1. INTRODUÇÃO... 2 2. O QUE É DATA WAREHOUSE?... 2 3. O QUE DATA WAREHOUSE NÃO É... 4 4. IMPORTANTE SABER SOBRE DATA WAREHOUSE... 5 4. SUMÁRIO 1. INTRODUÇÃO... 2 2. O QUE É DATA WAREHOUSE?... 2 3. O QUE DATA WAREHOUSE NÃO É... 4 4. IMPORTANTE SABER SOBRE DATA WAREHOUSE... 5 4.1 Armazenamento... 5 4.2 Modelagem... 6 4.3 Metadado... 6 4.4

Leia mais

Metodologias de Desenvolvimento de Sistemas. Analise de Sistemas I UNIPAC Rodrigo Videschi

Metodologias de Desenvolvimento de Sistemas. Analise de Sistemas I UNIPAC Rodrigo Videschi Metodologias de Desenvolvimento de Sistemas Analise de Sistemas I UNIPAC Rodrigo Videschi Histórico Uso de Metodologias Histórico Uso de Metodologias Era da Pré-Metodologia 1960-1970 Era da Metodologia

Leia mais

Tecnologia em Gestão Pública Desenvolvimento de Projetos - Aula 9 Prof. Rafael Roesler

Tecnologia em Gestão Pública Desenvolvimento de Projetos - Aula 9 Prof. Rafael Roesler Tecnologia em Gestão Pública Desenvolvimento de Projetos - Aula 9 Prof. Rafael Roesler Introdução Objetivos da Gestão dos Custos Processos da Gerência de Custos Planejamento dos recursos Estimativa dos

Leia mais

PLANO DE ENSINO PRÉ-REQUISITOS: ENS

PLANO DE ENSINO PRÉ-REQUISITOS: ENS UNIVERSIDADE DO ESTADO DE SANTA CATARINA UDESC CENTRO DE EDUCAÇÃO SUPERIOR DO ALTO VALE DO ITAJAÍ CEAVI PLANO DE ENSINO DEPARTAMENTO: DSI Departamento de Sistema de Informação DISCIPLINA: Data Warehouse

Leia mais

Existem três categorias básicas de processos empresariais:

Existem três categorias básicas de processos empresariais: PROCESSOS GERENCIAIS Conceito de Processos Todo trabalho importante realizado nas empresas faz parte de algum processo (Graham e LeBaron, 1994). Não existe um produto ou um serviço oferecido por uma empresa

Leia mais

Análise e Projeto de Sistemas. Engenharia de Software. Análise e Projeto de Sistemas. Contextualização. Perspectiva Histórica. A Evolução do Software

Análise e Projeto de Sistemas. Engenharia de Software. Análise e Projeto de Sistemas. Contextualização. Perspectiva Histórica. A Evolução do Software Análise e Projeto de Sistemas Análise e Projeto de Sistemas Contextualização ENGENHARIA DE SOFTWARE ANÁLISE E PROJETO DE SISTEMAS ENGENHARIA DA INFORMAÇÃO Perspectiva Histórica Engenharia de Software 1940:

Leia mais

Hoje é inegável que a sobrevivência das organizações depende de dados precisos e atualizados.

Hoje é inegável que a sobrevivência das organizações depende de dados precisos e atualizados. BANCO DE DADOS Universidade do Estado de Santa Catarina Centro de Ciências Tecnológicas Departamento de Ciência da Computação Prof. Alexandre Veloso de Matos alexandre.matos@udesc.br INTRODUÇÃO Hoje é

Leia mais

Glossário Apresenta a definição dos termos, siglas e abreviações utilizadas no contexto do projeto Citsmart.

Glossário Apresenta a definição dos termos, siglas e abreviações utilizadas no contexto do projeto Citsmart. Apresenta a definição dos termos, siglas e abreviações utilizadas no contexto do projeto Citsmart. Versão 1.6 15/08/2013 Visão Resumida Data Criação 15/08/2013 Versão Documento 1.6 Projeto Responsáveis

Leia mais

Adriano Maranhão BUSINESS INTELLIGENCE (BI),

Adriano Maranhão BUSINESS INTELLIGENCE (BI), Adriano Maranhão BUSINESS INTELLIGENCE (BI), BUSINESS INTELLIGENCE (BI) O termo Business Intelligence (BI), popularizado por Howard Dresner do Gartner Group, é utilizado para definir sistemas orientados

Leia mais

Gerenciamento de projetos. cynaracarvalho@yahoo.com.br

Gerenciamento de projetos. cynaracarvalho@yahoo.com.br Gerenciamento de projetos cynaracarvalho@yahoo.com.br Projeto 3URMHWR é um empreendimento não repetitivo, caracterizado por uma seqüência clara e lógica de eventos, com início, meio e fim, que se destina

Leia mais

MRP II. Planejamento e Controle da Produção 3 professor Muris Lage Junior

MRP II. Planejamento e Controle da Produção 3 professor Muris Lage Junior MRP II Introdução A lógica de cálculo das necessidades é conhecida há muito tempo Porém só pode ser utilizada na prática em situações mais complexas a partir dos anos 60 A partir de meados da década de

Leia mais

ATIVIDADES PRÁTICAS SUPERVISIONADAS

ATIVIDADES PRÁTICAS SUPERVISIONADAS ATIVIDADES PRÁTICAS SUPERVISIONADAS Tecnologia em Gestão da Tecnologia da Informação 4ª. Série Administração de Banco de Dados A atividade prática supervisionada (ATPS) é um método de ensinoaprendizagem

Leia mais

Processos Técnicos - Aulas 4 e 5

Processos Técnicos - Aulas 4 e 5 Processos Técnicos - Aulas 4 e 5 Trabalho / PEM Tema: Frameworks Públicos Grupo: equipe do TCC Entrega: versão digital, 1ª semana de Abril (de 31/03 a 04/04), no e-mail do professor (rodrigues.yuri@yahoo.com.br)

Leia mais

Requisitos de Software

Requisitos de Software Requisitos de Software Centro de Informática - Universidade Federal de Pernambuco Kiev Gama kiev@cin.ufpe.br Slides originais elaborados por Ian Sommerville e adaptado pelos professores Márcio Cornélio,

Leia mais

UNIVERSIDADE REGIONAL DE BLUMENAU CENTRO DE CIÊNCIAS EXATAS E NATURAIS CURSO DE CIÊNCIAS DA COMPUTAÇÃO (Bacharelado)

UNIVERSIDADE REGIONAL DE BLUMENAU CENTRO DE CIÊNCIAS EXATAS E NATURAIS CURSO DE CIÊNCIAS DA COMPUTAÇÃO (Bacharelado) UNIVERSIDADE REGIONAL DE BLUMENAU CENTRO DE CIÊNCIAS EXATAS E NATURAIS CURSO DE CIÊNCIAS DA COMPUTAÇÃO (Bacharelado) SISTEMA INTERNO INTEGRADO PARA CONTROLE DE TAREFAS INTERNAS DE UMA EMPRESA DE DESENVOLVIMENTO

Leia mais

ALESSANDRO RODRIGO FRANCO FERNANDO MARTINS RAFAEL ALMEIDA DE OLIVEIRA

ALESSANDRO RODRIGO FRANCO FERNANDO MARTINS RAFAEL ALMEIDA DE OLIVEIRA ALESSANDRO RODRIGO FRANCO FERNANDO MARTINS RAFAEL ALMEIDA DE OLIVEIRA INTRODUÇÃO O projeto de um banco de dados é realizado sob um processo sistemático denominado metodologia de projeto. O processo do

Leia mais

Manual SAGe Versão 1.2 (a partir da versão 12.08.01)

Manual SAGe Versão 1.2 (a partir da versão 12.08.01) Manual SAGe Versão 1.2 (a partir da versão 12.08.01) Submissão de Relatórios Científicos Sumário Introdução... 2 Elaboração do Relatório Científico... 3 Submissão do Relatório Científico... 14 Operação

Leia mais

A IMPORTÂNCIA DA GESTÃO DE CUSTOS NA ELABORAÇÃO DO PREÇO DE VENDA

A IMPORTÂNCIA DA GESTÃO DE CUSTOS NA ELABORAÇÃO DO PREÇO DE VENDA 553 A IMPORTÂNCIA DA GESTÃO DE CUSTOS NA ELABORAÇÃO DO PREÇO DE VENDA Irene Caires da Silva 1, Tamires Fernanda Costa de Jesus, Tiago Pinheiro 1 Docente da Universidade do Oeste Paulista UNOESTE. 2 Discente

Leia mais

ISO 9000:2000 Sistemas de Gestão da Qualidade Fundamentos e Vocabulário. As Normas da família ISO 9000. As Normas da família ISO 9000

ISO 9000:2000 Sistemas de Gestão da Qualidade Fundamentos e Vocabulário. As Normas da família ISO 9000. As Normas da família ISO 9000 ISO 9000:2000 Sistemas de Gestão da Qualidade Fundamentos e Vocabulário Gestão da Qualidade 2005 1 As Normas da família ISO 9000 ISO 9000 descreve os fundamentos de sistemas de gestão da qualidade e especifica

Leia mais

MINERAÇÃO DE DADOS EDUCACIONAIS: UM ESTUDO DE CASO APLICADO AO PROCESSO SELETIVO DO IFSULDEMINAS CÂMPUS MUZAMBINHO

MINERAÇÃO DE DADOS EDUCACIONAIS: UM ESTUDO DE CASO APLICADO AO PROCESSO SELETIVO DO IFSULDEMINAS CÂMPUS MUZAMBINHO MINERAÇÃO DE DADOS EDUCACIONAIS: UM ESTUDO DE CASO APLICADO AO PROCESSO SELETIVO DO IFSULDEMINAS CÂMPUS MUZAMBINHO Fernanda Delizete Madeira 1 ; Aracele Garcia de Oliveira Fassbinder 2 INTRODUÇÃO Data

Leia mais

Ajuda ao SciEn-Produção 1. 1. O Artigo Científico da Pesquisa Experimental

Ajuda ao SciEn-Produção 1. 1. O Artigo Científico da Pesquisa Experimental Ajuda ao SciEn-Produção 1 Este texto de ajuda contém três partes: a parte 1 indica em linhas gerais o que deve ser esclarecido em cada uma das seções da estrutura de um artigo cientifico relatando uma

Leia mais

ADM041 / EPR806 Sistemas de Informação

ADM041 / EPR806 Sistemas de Informação ADM041 / EPR806 Sistemas de Informação UNIFEI Universidade Federal de Itajubá Prof. Dr. Alexandre Ferreira de Pinho 1 Sistemas de Apoio à Decisão (SAD) Tipos de SAD Orientados por modelos: Criação de diferentes

Leia mais

Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse

Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse Definição escopo do projeto (departamental, empresarial) Grau de redundância dos dados(ods, data staging) Tipo de usuário alvo (executivos, unidades) Definição do ambiente (relatórios e consultas préestruturadas

Leia mais

Na medida em que se cria um produto, o sistema de software, que será usado e mantido, nos aproximamos da engenharia.

Na medida em que se cria um produto, o sistema de software, que será usado e mantido, nos aproximamos da engenharia. 1 Introdução aos Sistemas de Informação 2002 Aula 4 - Desenvolvimento de software e seus paradigmas Paradigmas de Desenvolvimento de Software Pode-se considerar 3 tipos de paradigmas que norteiam a atividade

Leia mais

PLANOS DE CONTINGÊNCIAS

PLANOS DE CONTINGÊNCIAS PLANOS DE CONTINGÊNCIAS ARAÚJO GOMES Capitão SC PMSC ARAÚJO GOMES defesacivilgomes@yahoo.com.br PLANO DE CONTINGÊNCIA O planejamento para emergências é complexo por suas características intrínsecas. Como

Leia mais

Universidade de Brasília Faculdade de Economia, Administração, Contabilidade e Ciência da Informação e Documentação Departamento de Ciência da

Universidade de Brasília Faculdade de Economia, Administração, Contabilidade e Ciência da Informação e Documentação Departamento de Ciência da Universidade de Brasília Faculdade de Economia, Administração, Contabilidade e Ciência da Informação e Documentação Departamento de Ciência da Informação e Documentação Disciplina: Planejamento e Gestão

Leia mais

Sistema de Controle de Solicitação de Desenvolvimento

Sistema de Controle de Solicitação de Desenvolvimento Sistema de Controle de Solicitação de Desenvolvimento Introdução O presente documento descreverá de forma objetiva as principais operações para abertura e consulta de uma solicitação ao Setor de Desenvolvimento

Leia mais

3. Fase de Planejamento dos Ciclos de Construção do Software

3. Fase de Planejamento dos Ciclos de Construção do Software 3. Fase de Planejamento dos Ciclos de Construção do Software A tarefa de planejar os ciclos de construção do software pode partir de diretrizes básicas. Estas diretrizes visam orientar que os ciclos de

Leia mais

AUTOR: DAVID DE MIRANDA RODRIGUES CONTATO: davidmr@ifce.edu.br CURSO FIC DE PROGRAMADOR WEB VERSÃO: 1.0

AUTOR: DAVID DE MIRANDA RODRIGUES CONTATO: davidmr@ifce.edu.br CURSO FIC DE PROGRAMADOR WEB VERSÃO: 1.0 AUTOR: DAVID DE MIRANDA RODRIGUES CONTATO: davidmr@ifce.edu.br CURSO FIC DE PROGRAMADOR WEB VERSÃO: 1.0 SUMÁRIO 1 Conceitos Básicos... 3 1.1 O que é Software?... 3 1.2 Situações Críticas no desenvolvimento

Leia mais

Guia de Especificação de Caso de Uso Metodologia CELEPAR

Guia de Especificação de Caso de Uso Metodologia CELEPAR Guia de Especificação de Caso de Uso Metodologia CELEPAR Agosto 2009 Sumário de Informações do Documento Documento: guiaespecificacaocasouso.odt Número de páginas: 10 Versão Data Mudanças Autor 1.0 09/10/2007

Leia mais

PLANEJAMENTO DA MANUFATURA

PLANEJAMENTO DA MANUFATURA 58 FUNDIÇÃO e SERVIÇOS NOV. 2012 PLANEJAMENTO DA MANUFATURA Otimizando o planejamento de fundidos em uma linha de montagem de motores (II) O texto dá continuidade à análise do uso da simulação na otimização

Leia mais

Engenharia de Requisitos Estudo de Caso

Engenharia de Requisitos Estudo de Caso Engenharia de Requisitos Estudo de Caso Auxiliadora Freire Fonte: Engenharia de Software 8º Edição / Ian Sommerville 2007 Slide 1 Engenharia de Requisitos Exemplo 1 Reserva de Hotel 1. INTRODUÇÃO Este

Leia mais

Gerenciamento de Projetos Modulo II Ciclo de Vida e Organização do Projeto

Gerenciamento de Projetos Modulo II Ciclo de Vida e Organização do Projeto Gerenciamento de Projetos Modulo II Ciclo de Vida e Organização do Projeto Prof. Walter Cunha falecomigo@waltercunha.com http://waltercunha.com PMBoK Organização do Projeto Os projetos e o gerenciamento

Leia mais

MASTER IN PROJECT MANAGEMENT

MASTER IN PROJECT MANAGEMENT MASTER IN PROJECT MANAGEMENT PROJETOS E COMUNICAÇÃO PROF. RICARDO SCHWACH MBA, PMP, COBIT, ITIL Atividade 1 Que modelos em gestão de projetos estão sendo adotados como referência nas organizações? Como

Leia mais

Sistemas de Gestão da Qualidade. Introdução. Engenharia de Produção Gestão Estratégica da Qualidade. Tema Sistemas de Gestão da Qualidade

Sistemas de Gestão da Qualidade. Introdução. Engenharia de Produção Gestão Estratégica da Qualidade. Tema Sistemas de Gestão da Qualidade Tema Sistemas de Gestão da Qualidade Projeto Curso Disciplina Tema Professor Pós-graduação Engenharia de Produção Gestão Estratégica da Qualidade Sistemas de Gestão da Qualidade Elton Ivan Schneider Introdução

Leia mais

Sistemas de Informação James A. O Brien Editora Saraiva Capítulo 5

Sistemas de Informação James A. O Brien Editora Saraiva Capítulo 5 Para entender bancos de dados, é útil ter em mente que os elementos de dados que os compõem são divididos em níveis hierárquicos. Esses elementos de dados lógicos constituem os conceitos de dados básicos

Leia mais

QUALIDADE DE SOFTWARE. Ian Sommerville 2006 Engenharia de Software, 8ª. edição. Capítulo 27 Slide 1

QUALIDADE DE SOFTWARE. Ian Sommerville 2006 Engenharia de Software, 8ª. edição. Capítulo 27 Slide 1 QUALIDADE DE SOFTWARE Ian Sommerville 2006 Engenharia de Software, 8ª. edição. Capítulo 27 Slide 1 Objetivos Apresentar o processo de gerenciamento de qualidade e as atividades centrais da garantia de

Leia mais

Universidade Federal de Goiás UFG Campus Catalão CAC Departamento de Engenharia de Produção. Sistemas ERP. PCP 3 - Professor Muris Lage Junior

Universidade Federal de Goiás UFG Campus Catalão CAC Departamento de Engenharia de Produção. Sistemas ERP. PCP 3 - Professor Muris Lage Junior Sistemas ERP Introdução Sucesso para algumas empresas: acessar informações de forma rápida e confiável responder eficientemente ao mercado consumidor Conseguir não é tarefa simples Isso se deve ao fato

Leia mais

Banco de Dados I. Apresentação (mini-currículo) Conceitos. Disciplina Banco de Dados. Cont... Cont... Edson Thizon (edson@esucri.com.

Banco de Dados I. Apresentação (mini-currículo) Conceitos. Disciplina Banco de Dados. Cont... Cont... Edson Thizon (edson@esucri.com. Sistemas da Informação Banco de Dados I Edson Thizon (edson@esucri.com.br) 2008 Apresentação (mini-currículo) Formação Acadêmica Mestrando em Ciência da Computação (UFSC/ ) Créditos Concluídos. Bacharel

Leia mais