FRAGMENTAÇÃO VERTICAL DE DADOS EM DATA WAREHOUSES NO SISTEMA WEBD 2 W

Tamanho: px
Começar a partir da página:

Download "FRAGMENTAÇÃO VERTICAL DE DADOS EM DATA WAREHOUSES NO SISTEMA WEBD 2 W"

Transcrição

1 DIOGO TULER FORLANI FRAGMENTAÇÃO VERTICAL DE DADOS EM DATA WAREHOUSES NO SISTEMA WEBD 2 W MARINGÁ 2006

2 DIOGO TULER FORLANI FRAGMENTAÇÃO VERTICAL DE DADOS EM DATA WAREHOUSES NO SISTEMA WEBD 2 W Dissertação apresentada ao Programa de Pós-Graduação em Ciência da Computação da Universidade Estadual de Maringá, como requisito parcial para obtenção do grau de Mestre em Ciência da Computação. Orientadora: Profª. Drª. Cristina Dutra de Aguiar Ciferri Co-orientadora: Profª. Drª. Elisa Hatsue Moriya Huzita MARINGÁ 2006

3 Dados Internacionais de Catalogação-na-Publicação (CIP) (Biblioteca Central UEM, Maringá PR., Brasil) F722f Forlani, Diogo Tuler Fragmentação vertical de dados em data warehouses no sistema WebD 2 W / Diogo Tuler Forlani. - Maringá : [s.n.], f. : il. color., figs., tabs. Orientadora : Prof. Dr. Cristina Dutra de Aguiar Ciferri. Co-orientadora : Prof. Dr. Elisa Hatsue Moriya Huzita Dissertação (mestrado) Universidade Estadual de Maringá. Programa de Pós-graduação em Ciência da Computação, Data warehouse. 2. Fragmentação vertical. 3. Diferentes níveis de agregação. I. Universidade Estadual de Maringá. Programa de Pós-graduação em Ciência da Computação. CDD 21.ed W

4 DIOGO TULER FORLANI FRAGMENTAÇÃO VERTICAL DE DADOS EM DATA WAREHOUSES NO SISTEMA WEBD 2 W Dissertação apresentada ao Programa de Pós-Graduação em Ciência da Computação da Universidade Estadual de Maringá, como requisito parcial para obtenção do grau de Mestre em Ciência da Computação. Aprovado em BANCA EXAMINADORA Profª. Drª. Cristina Dutra de Aguiar Ciferri Universidade de São Paulo USP Profª. Drª. Elisa Hatsue Moriya Huzita Universidade Estadual de Maringá UEM Profª. Drª. Itana Maria de Souza Gimenes Universidade Estadual de Maringá UEM Profª. Drª Carmem Satie Hara Universidade Federal do Paraná UFPR

5 DEDICATÓRIA Dedico este trabalho Aos meus pais, Neuza e José À minha noiva, Elisa

6 AGRADECIMENTOS À Prof. Dra. Cristina Dutra de Aguiar Ciferri, pela ótima orientação, sempre me ajudando quando necessário. Aos meus entes queridos, principalmente aos meus pais, por sempre estarem lá para me estender a mão nos momentos difíceis. À minha noiva Elisa, pelo seu amor e compreensão que foram fundamentais nestes dois anos de mestrado. teste. Ao Prof. Dr. Ricardo Rodrigues Ciferri, pela sua ajuda na elaboração do ambiente de A UEM, mais especificamente ao Departamento de Informática e seus professores, pelos anos de ensino. A USP São Carlos, por me permitir utilizar a sua infra-estrutura. Ao grupo GBDI, em especial ao Prof. Dr. Caetano Traina Junior por possibilitar a minha vinda pra São Carlos. À Maria Lúcia Forlani, à Alda Fukumoto Palangana, ao Enzo Seraphim e ao Humberto Luiz Razente. Aos amigos Edson, Heitor e Wesley da república de Maringá e aos amigos Carlos, Christiano, Diogo, Gustavo, Lucas, Rogério, Rafael, Sérgio e Vinícius da república de São Carlos. A todos os colegas e amigos que me acompanharam nessa caminhada até o mestrado. A CAPES pela concessão da bolsa de mestrado.

7 RESUMO Um ambiente de data warehousing oferece suporte aos processos de gerência e de tomada de decisão, provendo eficiência e flexibilidade na obtenção de informações estratégicas e mantendo os dados sobre o negócio com alta qualidade. Para tanto, consolida dados oriundos de provedores de informação autônomos, heterogêneos e distribuídos em uma única base de dados centralizada, o data warehouse. A carga de trabalho de ambientes de data warehousing é formada principalmente por consultas analíticas complexas que podem abranger grandes volumes de dados. Esta dissertação de mestrado propõe algoritmos voltados à fragmentação vertical dos dados em ambientes de data warehousing. Estes algoritmos consideram a organização dos dados do data warehouse em diferentes níveis de agregação e enfocam medidas numéricas, dimensões e suas respectivas hierarquias de atributos, além de serem projetados para melhorar o desempenho no processamento de consultas analíticas drill-down, roll-up e drill-across. Os algoritmos propostos podem ser aplicados a duas situações distintas: quando medidas numéricas de diversos data warehouses são frequentemente requisitadas conjuntamente e quando medidas numéricas de um único data warehouse são frequentemente requisitadas separadamente. Outra característica dos algoritmos propostos refere-se ao fato de serem direcionados ao sistema WebD 2 W, o qual consiste em um ambiente de data warehousing distribuído. Com o objetivo de mostrar a viabilidade dos algoritmos de fragmentação vertical propostos, foram realizados testes de desempenho sobre um data warehouse sintético gerado pelo benchmark TPC-H, levando-se em consideração as consultas analíticas também especificadas por este benchmark. Os testes mostraram que a fragmentação vertical melhorou significativamente o desempenho no processamento das consultas, reduzindo o tempo de resposta e o número de acessos a disco, com um aumento pequeno de espaço de armazenamento adicional. Palavras-chave: data warehouse, níveis de agregação, fragmentação vertical.

8 ABSTRACT A data warehousing environment supports the decision-making process, providing efficiency and flexibility in the acquisition of strategic information and maintaining business data with high quality. This environment consolidates data from autonomous, heterogeneous and distributed information sources into a database called a data warehouse. The workload of data warehousing environments consists of complex analytical queries that can access huge volumes of data. This dissertation proposes a set of algorithms for vertically fragmenting data in data warehousing environments. These algorithms consider the data warehouse organization in increasing levels of aggregation and focus on numeric measures, dimensions and their respective attribute hierarchies, besides being projected for improving the performance of drill-down, roll-up and drill-across analytical queries. The proposed algorithms can be applied to two different scenarios: when numeric measures of several data warehouses are usually required together and when numeric measures of a single data warehouse are frequently requested separately. Another characteristic of the proposed algorithms refers to the fact that they are addressed to the WebD 2 W distributed data warehousing system. The proposed algorithms were validated through performance tests carried out on a synthetic data warehouse generated by the TPC-H benchmark, also taking into account analytical queries specified by this benchmark. The performance tests showed that the vertical fragmentation provides a huge improvement on the query performance, with a reduction in response time and disk accesses and with a small increase of additional storage space. Keywords: data warehouse, aggregation levels, vertical fragmentation

9 LISTA DE ILUSTRAÇÕES Figura Arquitetura típica do ambiente de data warehousing (CIFERRI, 2002)...21 Figura Exemplo de esquema estrela...26 Figura Exemplos de grafos de derivação Figura Exemplo de relação...43 Figura Exemplo de fragmentação horizontal Figura Exemplo de fragmentação vertical Figura Exemplo de fragmentação mista...44 Figura Exemplo de dimensões e suas hierarquias de relacionamento de atributos...46 Figura Exemplo de matrizes de fragmentação...48 Figura Exemplo de representação do grafo de derivação adotada por Costa (2005)...49 Figura Exemplo de grafos fragmentados de acordo com Costa (2005) Figura Exemplo de utilização do algoritmo FVJM-D...58 Figura Exemplo de agregação de um vértice após a eliminação de uma dimensão...60 Figura Algoritmo FVJM-D Figura Algoritmo Processamentos_Iniciais_FVJM-D...61 Figura Algoritmo Busca_Geradores_FVJM-D Figura Algoritmo Instanciação_de_GS_FVJM-D Figura Algoritmo Cria_Grafo_de_Dimensões...64 Figura Exemplo de utilização do algoritmo FVJM-DHA...68 Figura Algoritmo FVJM-DHA...71 Figura Algoritmo Processamentos_Iniciais_FVJM-DHA...72 Figura Refinamento Cria as Funções de Mapeamento Adicionais Figura Algoritmo Busca_Geradores_FVJM-DHA...73 Figura Algoritmo Instanciação_de_GS_FVJM-DHA...74 Figura Algoritmo Cria_Grafo_de_Dimensões_e_Atributos Figura Exemplo de aplicação do algoritmo FVM-G...81 Figura Algoritmo FVM-G...82 Figura Algoritmo Fragmentação_Vertical_FVM-G...82 Figura Algoritmo Cria_Relações_de_Dependência_FVM-G...83 Figura Exemplo de aplicação do algoritmo FVMA-DHA...86 Figura Algoritmo FVMA-DHA....89

10 Figura Algoritmo Processamento_Iniciais_FVMA-DHA Figura Algoritmo Busca_Geradores_FVMA-DHA...91 Figura Algoritmo Instanciação_de_GS_FVMA-DHA Figura Algoritmo Cria_Relações_de_Dependência_FVMA-DHA Figura Exemplo de utilização do algoritmo EGFG-FV Figura Exemplo de vetor de ganho Figura Exemplo de vetor de ganho preenchido Figura Exemplo de recriação do vetor de ganho Figura Algoritmo EGFG-FV Figura Algoritmo Processamentos_Iniciais_EGFG-FV Figura Algoritmo Criação_de_VG_EGFG-FV Figura Algoritmo Preenchimento_de_VG_EGFG-FV Figura Algoritmo Escolha_dos_Grafos_EGFG-FV Figura Esquema do TPC-H Figura Esquema estrela adaptado do TPC-H Figura Grafos completos de LN e PS Figura Grafos incompletos de LN e PS Figura Exemplos de armazenamento Figura Consulta C Figura Grafo G CEG Figura Gráfico de colunas dos tempos de processamento das consultas em segundos..121 Figura Gráfico de linhas dos tempos de processamento das consultas em segundos Figura Gráfico de colunas do número de acessos a disco Figura Gráfico de linhas do número de acessos a disco Figura Gráfico de colunas do espaço de armazenamento requerido em MB Figura Consulta C Figura Consulta C Figura Grafos Fragmentados G 1, G 1 e G CEG 1 CEG 2 CEG 3 Figura Gráfico de colunas do tempo de processamento em segundos Figura Gráfico de linhas do tempo de processamento em segundos Figura Gráfico de colunas do número de acessos a disco Figura Gráfico de linhas do número de acessos a disco Figura Gráfico de colunas espaço de armazenamento requerido em MB Figura A.1 - Consulta 1 do TPC-H Figura A.2 - Consulta 3 do TPC-H...138

11 Figura A.3 - Consulta 9 do TPC-H...139

12 LISTA DE TABELAS Tabela Entradas requeridas pelos algoritmos de Ciferri (2002)...51 Tabela Tempos de processamento para consultas em segundos Tabela 7.2 Número de acessos a disco Tabela 7.3 Espaço de armazenamento requerido em cada configuração em MB Tabela Tempos de processamento em segundos Tabela 7.5 Número de acessos a disco Tabela 7.6 Espaço de armazenamento requirido em cada configuração em MB...130

13 LISTA DE SIGLAS aprox_tuplas CCT CEG CM CM_GF CMFV CR DAWAK DMDW DOLAP EGFG-FV Esp_Disp ETL f_ag f_arm f_map freq FVJM-D FVJM-DHA FVMA-DHA função de aproximação de tuplas Conjunto das consultas da Carga de Trabalho Conjunto de Esboços de Grafos Conjunto de Medidas numéricas Conjunto de Medidas numéricas a ser utilizado para a geração de um Grafo Fragmentado Conjunto de Medidas numéricas a ser utilizado como base para Fragmentar Verticalmente os vértices de um grafo Conjunto de Consultas Relacionadas International Conference on Data Warehousing and Knowledge Discovery International Conference on Design and Management of Data Warehouses International Conference on Design and Management of Data Warehouses Escolha de Grafos Fragmentados a Gerar com Fragmentação Vertical Espaço Disponível Extraction, Transformation and Loading função de agregação função de armazenamento função de mapeamento função de freqüência Fragmentação Vertical para a Junção de Medidas Numéricas sobre Grafos de Derivação que Representam apenas Dimensões Fragmentação Vertical para a Junção de Medidas Numéricas sobre Grafos de Derivação que Representam Dimensões e suas Respectivas Hierarquias de Atributos Fragmentação Vertical de Medidas Numéricas e Atributos sobre

14 FVM-G G_HA MOLAP OLAP PA PM PODS ROLAP SGBD SIGMOD SQL SSD tam TPC VG VLDB WebD 2 W XML Grafos de Derivação que Representam Dimensões e suas Respectivas Hierarquias de Atributos Fragmentação Vertical de Medidas Numéricas sobre Grafos de Derivação Grafo representando a Hierarquia de Atributos de uma dimensão OLAP multidimensional on-line analytical processing Projeções de atributos Projeções de medidas numéricas Symposium on Principles of Database Systems OLAP relacional Sistema Gerenciador de Banco de Dados Special Interest Group on Management of Data Structured Query Language Sistemas de Suporte a Decisão função de tamanho Transaction Processing Council Vetor de Ganho Very Large Data Bases Web Distributed Data Warehousing extensible Markup Language

15 SUMÁRIO RESUMO ABSTRACT 1 INTRODUÇÃO Contribuições Estrutura da Dissertação DATA WAREHOUSING Características dos Dados Componente de Integração e Manutenção Componente de Análise e Consulta Modelagem Multidimensional Visões Materializadas O Grafo de Derivação Data Marts Repositório de Metadados O Sistema WebD 2 W Estado da Arte Antigo Estado da Arte com Enfoque Acadêmico Representação Lógica do Modelo de Dados Multidimensional Modelagem Conceitual dos Dados Multidimensionais Visões Materializadas Estado da Arte com Enfoque Prático Estado da Arte Atual Considerações Finais TRABALHOS CORRELATOS VOLTADOS À FRAGMENTAÇÃO DOS DADOS DO DATA WAREHOUSE Fragmentação dos Dados em Bancos de Dados Relacionais Fragmentação Vertical dos Dados em Ambientes de Data Warehousing A Estratégia de Fragmentação Sever Fragmentação Vertical de Visões Materializadas Fragmentação Vertical em Grafos de Derivação...48

16 3.3 Fragmentação Horizontal dos Dados sobre Grafos de Derivação Considerações Finais ALGORITMOS VOLTADOS À FRAGMENTAÇÃO VERTICAL PARA A JUNÇÃO DE GRAFOS DE DERIVAÇÃO Fragmentação Vertical para a Junção de Medidas Numéricas sobre Grafos de Derivação que Representam apenas Dimensões (FVJM-D) Entradas para o Algoritmo FVJM-D O Algoritmo FVJM-D Pseudocódigo do Algoritmo FVJM-D Fragmentação Vertical para a Junção de Medidas Numéricas sobre Grafos de Derivação que Representam Dimensões e suas Respectivas Hierarquias de Atributos (FVJM-DHA) Entradas para o Algoritmo FVJM-DHA O Algoritmo FVJM-DHA Pseudocódigo do Algoritmo FVJM-DHA Considerações Finais ALGORITMOS VOLTADOS À FRAGMENTAÇÃO VERTICAL DOS DADOS DO DATA WAREHOUSE Fragmentação Vertical de Medidas Numéricas sobre Grafos de Derivação (FVM-G) Entradas para o Algoritmo FVM-G Detalhamento do Algoritmo FVM-G Pseudocódigo do Algoritmo FVM-G Fragmentação Vertical de Medidas Numéricas e Atributos sobre Grafos de Derivação que Representam Dimensões e suas Respectivas Hierarquias de Atributos (FVMA-DHA) Entradas para o Algoritmo FVMA-DHA O Algoritmo FVMA-DHA Pseudocódigo do Algoritmo FVMA-DHA Considerações Finais ALGORITMO DE ESCOLHA DE GRAFOS FRAGMENTADOS A GERAR COM FRAGMENTAÇÃO VERTICAL (EGFG-FV) Espaço de Armazenamento Entradas para o Algoritmo EGFG-FV Detalhamento do Algoritmo EGFG-FV Análise da Carga de Trabalho Ganho de Desempenho...103

17 6.3.3 Criação e Preenchimento do Vetor de Ganho VG Escolha do Grafo Fragmentado a Ser Gerado Pseudocódigo do Algoritmo EGFG-FV Considerações Finais TESTES DE DESEMPENHO O Benchmark TPC-H Ambiente de Teste Testes de Desempenho para o Algoritmo EGFG-FV Desempenho de Consultas Drill-Across Desempenho de Consultas Drill-Down e Roll-Up Considerações Finais CONCLUSÕES REFERÊNCIAS BIBLIOGRÁFICAS ANEXO A CONSULTAS UTILIZADAS DO TPC-H...138

18 17 1 Introdução Esta dissertação de mestrado enfoca a fragmentação vertical de dados de um data warehouse no sistema WebD 2 W. Em bancos de dados relacionais, fragmentar uma relação consiste em particionar a relação em relações menores, de forma que cada sub-relação (i.e., fragmento) agrupe os dados da relação original que são requisitados conjuntamente pelas consultas e transações mais freqüentes. Existem dois tipos principais de fragmentação: horizontal e vertical (ELMASRI & NAVATHE, 2003). Um fragmento horizontal de uma relação é um subconjunto das tuplas desta relação com todos os seus atributos, ao passo que um fragmento vertical possui todas as tuplas da relação original para um subconjunto de seus atributos. Segundo Özsu & Valduriez (1999), a técnica de fragmentação tem sido investigada no contexto de sistemas de banco de dados centralizados e distribuídos. Em sistemas de banco de dados centralizados, a fragmentação permite que consultas e transações dos usuários manipulem relações menores, ocasionando um menor número de acessos a disco. Já em sistemas de banco de dados distribuídos, os fragmentos podem ser alocados a diferentes sites, sendo armazenados mais próximos aos locais nos quais são mais freqüentemente utilizados. Em ambos os contextos, a fragmentação tem como principal objetivo melhorar o desempenho do processamento das consultas e das transações que compõem a carga de trabalho submetida ao sistema. Outro contexto refere-se à investigação de técnicas de fragmentação em ambientes de data warehousing. Um ambiente de data warehousing oferece suporte aos processos de gerência e de tomada de decisão, provendo eficiência e flexibilidade na obtenção de informações estratégicas e mantendo os dados sobre o negócio com alta qualidade. Para tanto, consolida dados oriundos de provedores de informação autônomos, heterogêneos e distribuídos em uma única base de dados centralizada, o data warehouse. Esta base de dados é altamente volumosa e é projetada de forma a refletir as requisições multidimensionais dos usuários de sistemas de suporte a decisão (SSD), sendo seus dados caracterizados por serem orientados a assunto, integrados, históricos e não voláteis, além de organizados em diferentes níveis de agregação (KIMBALL & ROSS, 2002; MOHANIA et al., 1999; SAMTANI et al., 1998; WU & BUCHMANN, 1997). Outra particularidade diz respeito ao fato de que a carga de trabalho de ambientes de data warehousing é direcionada à consulta intensiva, sendo formada principalmente por consultas analíticas complexas que podem pesquisar grandes

19 18 volumes de dados. A principal questão de desempenho desses ambientes é, portanto, a produtividade dessas consultas. O modelo de dados comumente utilizado para representar os dados armazenados no data warehouse é o modelo multidimensional. Os aspectos estáticos deste modelo incluem um conjunto de medidas numéricas, que são os objetos de análise relevantes ao negócio, e um conjunto de dimensões, que determinam o contexto para a medida. Em especial, atributos de dimensões podem se relacionar por meio de hierarquias de relacionamento de atributos, as quais representam níveis de agregação. Com relação aos aspectos dinâmicos do modelo multidimensional, consultas analíticas típicas incluem (CIFERRI & SOUZA, 2000): drilldown (analisa os dados em níveis de agregação progressivamente mais detalhados), roll-up (inverso de drill-down, ou seja, analisa os dados em níveis de agregação progressivamente menos detalhados), slice and dice (restringe os dados a um subconjunto destes dados), pivot (obtém diferentes perspectivas dos mesmos dados) e drill-across (compara medidas numéricas distintas que são relacionadas entre si por pelo menos uma dimensão em comum). Esta dissertação de mestrado tem como objetivo propor algoritmos voltados à fragmentação vertical dos dados em ambientes de data warehousing. Esta fragmentação introduz desafios adicionais à fragmentação realizada em bancos de dados relacionais, uma vez que deve ser baseada nas características intrínsecas do data warehouse, tais como a organização dos dados em diferentes níveis de agregação, a multidimensionalidade dos dados e as particularidades das consultas analíticas típicas comumente suportadas por esses ambientes (CIFERRI & SOUZA, 2000). A fragmentação vertical dos dados do data warehouse é indicada em situações nas quais subconjuntos das medidas numéricas são freqüentemente requisitados separadamente. Assim, consultas analíticas dos usuários de SSD podem acessar fragmentos verticais específicos, de acordo com as análises a serem realizadas. A fragmentação vertical também é indicada em situações nas quais existe a necessidade de se agrupar medidas numéricas que são requisitadas conjuntamente em consultas analíticas comumente submetidas ao ambiente de data warehousing (SASHA & BONNET, 2003). Os algoritmos de fragmentação vertical propostos nesta dissertação são projetados para estas duas situações. Estes algoritmos também consideram a organização dos dados do data warehouse em diferentes níveis de agregação. Ademais, os algoritmos propostos enfocam medidas numéricas, dimensões e suas respectivas hierarquias de atributos e são direcionados a consultas drill-down, roll-up e drill-across.

20 19 Outra característica dos algoritmos propostos refere-se ao fato de que são direcionados ao sistema WebD 2 W. O sistema WebD 2 W (Web Distributed Data Warehousing) consiste em um ambiente de data warehousing distribuído cliente-servidor que visa não somente a distribuição dos dados do data warehouse, mas também o acesso distribuído a esses dados usando a tecnologia Web como infra-estrutura (CIFERRI, 2002). Suas metas genéricas consistem em: (i) aumentar a disponibilidade dos dados do data warehouse; (ii) aumentar a disponibilidade de acesso a esses dados; (iii) manter a consistência dos dados distribuídos; (iv) proporcionar aumento de desempenho no processamento de consultas submetidas ao ambiente de data warehousing; (v) garantir as transparências de fragmentação, de replicação e de localização na manipulação dos dados; e (vi) oferecer suporte a um grande número de usuários. 1.1 Contribuições Esta dissertação apresenta as seguintes contribuições: a proposta dos algoritmos FVJM-D e FVJM-DHA, os quais são indicados para situações nas quais medidas numéricas de diversos data warehouses organizados em diferentes níveis de agregação são freqüentemente requisitadas conjuntamente; a proposta dos algoritmos FVM-G e FVMA-DHA, os quais são indicados para situações nas quais medidas numéricas de um único data warehouse organizado em diferentes níveis de agregação são freqüentemente requisitadas separadamente; a proposta do algoritmo EGFG-FV, o qual utiliza os algoritmos de fragmentação vertical propostos FVJM-DHA e FVMA-DHA com o objetivo de gerar a maior quantidade de fragmentos verticais possível levando em consideração a carga de trabalho e o espaço de armazenamento disponível; e a realização de testes de desempenho utilizando o benchmark TPC-H (TPC ), que mostram o ganho de desempenho obtido por consultas drilldown, roll-up e drill-across com a fragmentação vertical produzida pelos algoritmos FVJM-DHA e FVMA-DHA por meio do uso do algoritmo EGFG- FV.

21 20 Os algoritmos propostos contribuem com o sistema WebD 2 W com relação às metas (i), (iv) e (v) destacadas anteriormente. Em especial, os algoritmos propostos enfocam consultas drill-across, em adição às consultas drill-down e roll-up definidas como enfoque principal para o sistema WebD 2 W. Outra melhoria refere-se à incorporação de algoritmos de fragmentação vertical a este sistema, para o qual somente encontram-se propostos algoritmos de fragmentação horizontal. 1.2 Estrutura da Dissertação Além deste capítulo introdutório, esta dissertação é composta por mais sete capítulos. O capítulo 2 descreve conceitos básicos do tema data warehousing e investiga o estado da arte deste tema. São abordados neste capítulo as características dos dados do data warehouse, os componentes da arquitetura típica de um ambiente de data warehousing e os aspectos de modelagem multidimensional e de visões materializadas. Este capítulo também descreve as principais características do sistema WebD 2 W. No capítulo 3 são descritos e analisados trabalhos correlatos voltados à fragmentação vertical dos dados do data warehouse. Este capítulo também destaca conceitos básicos sobre fragmentação dos dados em bancos de dados relacionais e detalha as características dos algoritmos de fragmentação horizontal utilizados no sistema WebD 2 W. Os algoritmos de fragmentação vertical propostos nesta dissertação são apresentados nos capítulos 4, 5 e 6. O capítulo 4 detalha os algoritmos FVJM-D e FVJM-DHA, enquanto que o capítulo 5 propõe os algoritmos FVM-G e FVMA-DHA. Já o capítulo 6 apresenta o algoritmo EGFG-FV. Para cada algoritmo proposto, o capítulo correspondente descreve as suas entradas, detalha as suas características e sua forma de funcionamento e ilustra o seu pseudocódigo. Os testes de desempenho realizados utilizando-se o algoritmo EGFG-FV em combinação com o algoritmo FVJM-DHA e com o algoritmo FVMA-DHA sobre um data warehouse sintético gerado pelo benchmark TPC-H são detalhados no capítulo 7. Esta dissertação é finalizada no capítulo 8 com as conclusões.

22 21 2 Data Warehousing O ambiente de data warehousing é um ambiente voltado ao processamento analítico e à tomada de decisão estratégica, ou seja, é voltado aos usuários que tomam decisões em empresas ou órgãos públicos, como administradores e gerentes (CHAUDHURI & DAYAL, 1997; INMON, 1996). Para isto, o data warehousing utiliza ferramentas ETL (Extraction, Transformation and Loading, ou Extração, Transformação e Carregamento) para extrair, integrar, traduzir e filtrar dados de provedores de informação autônomos, heterogêneos e distribuídos, e armazená-los em uma base de dados chamada data warehouse (KIMBALL & ROSS, 2002; MOHANIA et al., 1999; SAMTANI et al., 1998; WU & BUCHMANN, 1997). A arquitetura típica de um ambiente de data warehousing é ilustrada na Figura 2.1. usuário usuário usuário componente de análise e consulta data warehouse data marts componente de integração e manutenção gerenciador bancos de dados operacionais sistemas de arquivos fontes externas repositório de metadados provedores de informação Figura Arquitetura típica do ambiente de data warehousing (CIFERRI, 2002). Este capítulo descreve conceitos básicos de ambientes de data warehousing e investiga o estado da arte deste tema. Em especial, estes conceitos básicos são discutidos em termos da arquitetura do ambiente. A seção 2.1 descreve as características dos dados de um data warehouse. Enquanto que os mecanismos necessários à manutenção dos dados de um data warehouse são descritos na seção 2.2, as formas de disponibilização desses dados são detalhados na seção 2.3. Aspectos da modelagem multidimensional são discutidos na seção

23 O conceito de visão materializada, importante para o entendimento dos trabalhos existentes voltados à fragmentação dos dados, é introduzido na seção 2.5. As seções 2.6 e 2.7 descrevem, respectivamente, o papel dos data marts e do repositório de metadados no data warehousing. Na seção 2.8 é apresentado o sistema WebD 2 W. Enquanto que o estado da arte antigo em ambientes de data warehousing é descrito na seção 2.9, o estado da arte atual é descrito na seção Este capítulo é finalizado na seção 2.11 com as considerações finais. 2.1 Características dos Dados De acordo com Kimball & Ross (2002), Mohania et al. (1999), Samtani et al. (1998) e Wu & Buchmann (1997), os dados armazenados no data warehouse são caracterizados por serem: orientados a assunto: armazena dados de maior interesse, e que possam ser de grande utilidade em análises dos usuários de SSD. Como por exemplo, dados sobre nascimentos, mortes e internações em um hospital; integrados: como os dados a serem armazenados no data warehouse são extraídos de provedores de informação autônomos, heterogêneos e distribuídos, estes dados devem ser integrados para que diferenças (sintáticas, semânticas, dentre outras) sejam eliminadas. Como exemplo, em um provedor de informação os dados sobre sexo feminino e masculino podem estar armazenados como F e M, respectivamente, enquanto que em outro, estes dados podem estar armazenadas com 0 e 1, respectivamente. Estas duas representações diferentes devem ser integradas em uma única forma; históricos: o data warehouse sempre possui uma característica histórica relacionada aos seus dados. Esta característica possibilita que análises de tendências sejam feitas; porém acarreta ao data warehouse o armazenamento de um grande volume de dados. Normalmente são utilizadas datas, indicações de trimestre e indicações de quadrimestre; e não-voláteis: por sua característica histórica e para permitir a análise de tendências, os dados do data warehouse permanecem armazenados por longos períodos de tempo e com nenhuma ou raras atualizações. O tempo de armazenamento dos dados no data warehouse varia em média de 5 a 10 anos.

24 23 Os dados do data warehouse também são caracterizados por estarem armazenados segundo diferentes níveis de agregação (detalhamento). Enquanto que nos níveis inferiores são armazenados dados altamente detalhados, oriundos diretamente dos provedores de informação e que podem ser utilizados para responder praticamente quaisquer consultas, nos níveis superiores são armazenados dados provenientes de agregações de dados de níveis mais inferiores e que podem ser utilizados para se obter visões gerais sobre o negócio (CIFERRI, 2002). 2.2 Componente de Integração e Manutenção O componente de integração e manutenção tem como objetivo oferecer os mecanismos necessários à manutenção do data warehouse, nos quais estão inseridos: (i) o carregamento dos dados no data warehouse; (ii) a atualização desta base em face às mudanças nos provedores de informação; e (iii) a expiração de seus dados. 2002): O carregamento dos dados no data warehouse engloba os processos de (CIFERRI, extração: que é caracterizado por obter os dados dos provedores de informação por meio de mecanismos de acesso, como interfaces de comandos padronizados, protocolos de conexão e conversores de comandos de manipulação e formatos de dados; tradução: que visa alterar o formato nativo dos dados dos provedores de informação para o formato de armazenamento do data warehouse. Por exemplo, os dados armazenados em sistema gerenciador de banco de dados (SGBD) orientado a objetos devem ser traduzidos para o formato relacional ao serem armazenados em um data warehouse relacional; limpeza: que tem como objetivo eliminar os dados duvidosos ou com erros oriundos dos provedores de informação para que os dados sejam altamente confiáveis; integração: que tem como objetivo integrar os dados oriundos de diferentes provedores de informação em um único formato; armazenamento: que engloba a criação de índices, geração de agregações, verificação de restrições de integridade, dentre outras, após os processamentos anteriores; e

25 24 recuperação de falhas: que deve estar presente em todos os processamentos anteriores e nos processos de atualização e expiração dos dados. A recuperação de falhas tem como objetivo identificar a ocorrência de falhas e evitar que processamentos e leituras já efetuados antes de sua ocorrência sejam refeitos. Para a atualização do data warehouse, em resposta às atualizações feitas nos provedores de informação, devem ser consideradas as necessidades dos usuários de SSD, como as de consistência e de periodicidade das atualizações. As principais técnicas de atualização podem ser englobadas em duas categorias principais: a recomputação e a atualização incremental. Na primeira categoria uma recomputação total dos dados dos provedores de informação é feita e armazenada no data warehouse. Já na atualização incremental apenas os dados atualizados nos provedores de informação são propagados, filtrados, integrados e armazenados no data warehouse. Já a expiração de dados do data warehouse ocorre quando eles são considerados inválidos ( velhos ), o que depende da aplicação, ou quando existe um volume grande de dados. Nesta segunda situação, a expiração visa reduzir o espaço de armazenamento. Dentre as políticas de expiração de dados é possível citar (WU & BUCHMANN, 1997): eliminação completa: na qual os dados expirados são completamente removidos de todos os níveis de agregação. Apenas os metadados permanecem armazenados, possibilitando o referenciamento de tais dados nos provedores de informação, caso necessário; eliminação seletiva: na qual os dados expirados são eliminados como uma função do espaço de armazenamento, freqüência de acesso e necessidades de desempenho. Por exemplo, pode permanecer armazenado apenas o nível mais inferior da hierarquia de agregação, possibilitando, desta forma, que todas as consultas feitas pelos usuários de SSD sejam respondidas. Entretanto, se os usuários de SSD efetuam apenas análises nos níveis mais altos de agregação, pode ser mais vantajoso armazenar os dados desses níveis, uma vez que eles ocupam menos espaço de armazenamento e respondem às consultas mais rapidamente. Nesta política é necessário um modelo matemático para avaliar a seleção; arquivamento: na qual os dados expirados são transferidos para outros mecanismos de armazenamento, como fitas ou outros discos, antes de serem

26 25 eliminados do ambiente. Basicamente, apenas os dados mais detalhados são transferidos, uma vez que todos os outros níveis podem ser obtidos a partir deles. Esta política é utilizada apenas quando os provedores de informação não oferecem dados históricos e os dados transferidos podem ser realmente necessários; e eliminação seletiva com arquivamento: na qual há uma combinação das políticas de eliminação seletiva e arquivamento. Esta política é utilizada quando os provedores de informação não oferecem dados históricos e a freqüência de acesso aos dados é relativamente alta. Os dados detalhados são armazenados em outros dispositivos antes de serem eliminados, sendo que são mantidos alguns dados agregados no data warehouse. 2.3 Componente de Análise e Consulta O componente de análise e consulta tem como finalidade disponibilizar as informações armazenadas no data warehouse aos usuários de SSD e aos programas aplicativos que participam do ambiente. Estas informações devem ser disponibilizadas de modo a facilitar a navegação e manipulação e são extraídas do data warehouse com o auxílio de ferramentas de consulta gerenciáveis e geradores de relatórios, ferramentas para sistemas de informações executivas e ferramentas OLAP (on-line analytical processing). As ferramentas de consulta gerenciáveis e os geradores de relatórios, apesar de não serem voltados especificamente a ambientes de data warehousing, também são utilizados no seu contexto. Ferramentas de consulta gerenciáveis permitem que sejam feitas visualizações em domínios específicos independentemente da estrutura/linguagem utilizada no ambiente. Já os geradores de relatórios têm como objetivo produzir relatórios periódicos. Ferramentas para sistemas de informações executivas permitem que as informações extraídas do data warehouse sejam disponibilizadas por gráficos, permitindo uma visualização de alto nível pelos usuários de SSD. Já as ferramentas OLAP possibilitam que usuários de SSD sofisticados utilizem visões multidimensionais complexas para analisar os dados e descobrir problemas importantes ao negócio, além de permitirem uma navegação facilitada nestas visões. As ferramentas de mineração de dados têm como funcionalidade extrair informações ocultas sobre relacionamentos desconhecidos entre os dados do data warehouse, as quais dificilmente seriam deduzidas pelos usuários de SSD (SAMTANI et al., 1998).

27 2.4 Modelagem Multidimensional O modelo de dados comumente utilizado para representar os dados armazenados no data warehouse é o modelo multidimensional. Este modelo se beneficia do fato das requisições em ambientes de data warehousing serem, de maneira geral, multidimensionais, ou seja, solicitarem a visualização dos dados segundo diferentes perspectivas (dimensões). Este tipo de modelo se assemelha à forma como os usuários de SSD pensam, o que facilita o entendimento do significado das tabelas e da maneira como estas tabelas devem ser manipuladas. O modelo multidimensional também oferece suporte às análises complexas em grandes quantidades de dados, que são características das análises em ambientes de data warehousing. Em implementações relacionais, o esquema estrela é comumente utilizado para modelar os aspectos estáticos do modelo multidimensional. Neste esquema são utilizados dois tipos de tabelas: tabela de fatos e tabela de dimensão. A tabela de fatos armazena os objetos de interesse na empresa, normalmente valores numéricos, como a quantidade de pacientes ou a quantidade de mortes, os quais são chamados de medidas numéricas. Uma tabela de fatos possui como chave primária a combinação das chaves primárias das tabelas de dimensão que contextualizam estas medidas. Já as tabelas de dimensão possuem atributos e uma chave primária. A Figura 2.2 ilustra o esquema estrela para a visão multidimensional quantidade de paciente e quantidade de mortes por data por hospital por doença. Nesta figura, as siglas PK e FK indicam, respectivamente, chave primária e chave estrangeira, ao passo que as reticências são usadas para demonstrar que dimensões possuem muitos atributos. 26 Dimensão Data (PK) chave data... Dimensão Doença (PK) chave doença... Tabela de Fatos Quantidade (FK) chave data (FK) chave hospital (FK) chave doença quantidade de pacientes quantidade de mortes Dimensão Hospital (PK) chave hospital hospital cidade estado... Figura Exemplo de esquema estrela. Atributos de dimensões podem se relacionar por meio de hierarquias de relacionamento de atributos, as quais representam níveis de agregação (i.e., detalhamento) (CHAUDHURI & DAYAL, 1997). Estes relacionamentos entre os atributos são indicados nesta dissertação por meio de setas que vão do menor nível de agregação (maior nível de

28 27 detalhe) para o maior nível de agregação (menor nível de detalhe). Um exemplo de hierarquia de relacionamento de atributos para a dimensão hospital é: hospital cidade estado Nesta hierarquia, o atributo hospital possui o menor nível de agregação, enquanto que o atributo estado possui o maior nível de agregação. É possível existir mais de uma hierarquia de atributos em apenas uma dimensão. Como por exemplo, para a dimensão data: dia mês trimestre semestre ano; e dia mês quadrimestre ano. Para a visualização dos dados (i.e., aspectos dinâmicos do modelo multidimensional) armazenados no data warehouse, o data warehousing utiliza ferramentas OLAP, as quais estão inseridas no contexto do componente de análise e consulta. As principais operações (i.e., tipos de consultas OLAP) são: drill-down, roll-up, drill-across, slice-and-dice e pivot. A operação drill-down permite que os dados sejam analisados em níveis de agregação progressivamente mais detalhados (de menor granularidade). Por exemplo, a análise pode começar com a quantidade de nascimentos por hospital por ano e passar para a quantidade de nascimentos por hospital por dia. Esta operação permite que os usuários de SSD iniciem suas análises em níveis de maior granularidade para obter uma visão geral do negócio e sigam refinando estas análises até obter uma visão mais específica do negócio. Já a operação roll-up é a operação inversa de drill-down, ou seja, permite que os dados sejam analisados em níveis de agregação progressivamente menos detalhados. Por exemplo, análises podem ser feitas sobre a quantidade de nascimentos por dia, a seguir sobre a quantidade de nascimentos por mês e, finalmente, sobre a quantidade de nascimentos por ano. Comparações entre medidas numéricas de diferentes visões multidimensionais com dimensões em comum podem ser feitas com a operação drill-across. Por exemplo, uma comparação pode ser feita entre a visão multidimensional quantidade de nascimentos por hospital por mês e a visão multidimensional quantidade de mortes por hospital utilizando-se a operação drill-across quantidade de nascimentos e quantidade de mortes por hospital. Mesmo que as dimensões em comum possuam diferentes níveis de agregação, a operação drill-across é possível se os atributos da dimensão com maior detalhamento forem agregados para a granularidade dos atributos com menor detalhamento.

29 28 A análise slice-and-dice restringe os dados sendo analisados a um subconjunto dos mesmos. Enquanto que o termo slice se refere à fixação de um valor para as dimensões, o termo dice se refere à seleção de algumas faixas de valores para as dimensões remanescentes. Desta forma, a partir da visão multidimensional quantidade de nascimentos por hospital por mês, os usuários de SSD podem aplicar a operação slice-and-dice para restringir os dados visualizados para a quantidade de nascimentos no hospital Maringá (slice) nos meses de abril e maio (dice). Por fim, a operação pivot reorienta a forma como as dimensões (e, consequentemente, os dados) estão sendo disponibilizadas para a visualização dos usuários de SSD. Assim, aplicando a operação pivot, um usuário pode reorientar a visualização dos dados da visão multidimensional quantidade de nascimentos por hospital por mês para quantidade de nascimentos por mês por hospital. 2.5 Visões Materializadas Uma maneira muito utilizada em ambientes de data warehousing para a obtenção de tempos de resposta mais satisfatórios às consultas dos usuários de SSD é a utilização de visões materializadas (CHAUDHURI & DAYAL, 1997). Uma visão materializada é uma relação derivada definida em termos de relações básicas armazenadas que também possui dados. Normalmente, são escolhidas para armazenamento as visões materializadas referentes às análises mais freqüentemente submetidas ao ambiente e as análises nas quais os tempos para calcular suas respostas cada vez que elas fossem solicitadas as tornassem impraticáveis. É responsabilidade do administrador do data warehousing, ou do próprio data warehousing (se assim ele for projetado), escolher, por meio de algoritmos especializados, quais visões multidimensionais devem ser materializadas. Os dados dos níveis de agregação do data warehouse também podem ser considerados como visões materializadas. Enquanto o nível mais inferior de agregação pode ser considerado uma visão materializada dos dados oriundos dos provedores de informação, os dados dos níveis superiores de agregação podem ser considerados visões materializadas de seus níveis de agregação imediatamente subjacentes (MOHANIA et al., 1999; SAMTANI et al., 1998; WU & BUCHMANN, 1997).

30 O Grafo de Derivação Uma forma de representar o relacionamento entre os diversos níveis de agregação das visões materializadas é a utilização de grafos de derivação. Formalmente, um grafo de derivação é um par (V,E) de conjuntos disjuntos de vértices V e arestas E. V(G) representa um conjunto de agregações (i.e., visões materializadas) ao passo que E(G) representa um conjunto de relações de dependência entre essas agregações. Cada vértice do grafo agrega medidas numéricas sobre as dimensões naquele vértice, e é nomeado de acordo com essas dimensões. Por exemplo, a Figura 2.3a ilustra um grafo de derivação apenas com as dimensões data (d), hospital (h) e doença (o). Já a Figura 2.3b mostra o grafo de derivação com as dimensões data (d), hospital (h) e doença (o) e as hierarquias de relacionamento de atributos hospital bairro (b) para a dimensão hospital e dia (i) mês (m) ano (a) para a dimensão data. Os diferentes níveis de agregação dos vértices de um grafo de derivação são definidos segundo as seguintes características de lattice de visões (Ciferri, 2002): as agregações no lattice de visões possuem uma ordenação parcial, a qual indica que uma agregação pode ser definida por meio dos dados contidos em outra agregação. Como por exemplo, para as agregações x e y, existe uma ordenação x y que indica que x pode ser obtida por meio dos dados contidos em y, ou seja, x depende de y e y é um possível vértice gerador de x. Como exemplo, alguns possíveis vértices geradores de {a,o} são {a,b,o} e {m,o}, ou seja {a,o} {a,b,o} e {a,o} {m,o}. Ademais, um vértice x também é considerado seu possível gerador; o lattice de visões deve possuir uma visão da qual todas as outras visões no lattice podem ser obtidas e que é chamada nesta dissertação de agregação derivante total; e o lattice de visões pode possuir uma visão completamente agregada, que pode ser calculada a partir de qualquer outra visão. Nesta dissertação esta visão é chamada de vazio.

31 30 dho níveis de agregação inferior iho do dh ho ibo ih mho d h o aho ib io mbo mh vazio abo ah i ho mb mo ab ao bo h m a b o superior vazio (a) (b) Figura Exemplos de grafos de derivação. Ademais, algumas propriedades podem ser definidas para cada vértice v pertencente ao grafo de derivação: ancestrais de v é o conjunto dos possíveis vértices geradores de v; ancestrais diretos de v é o conjunto dos possíveis vértices geradores de v que estão ligados diretamente a v por arestas no grafo de derivação; descendentes de v é o conjunto dos vértices que podem ser gerados a partir de v; e descendentes diretos de v é o conjunto dos vértices que podem ser gerados a partir de v e que estão diretamente ligados a v por arestas no grafo de derivação. Como por exemplo, para o vértice {i} do grafo da Figura 2.3b: ancestrais(i) = {{i,h,o}, {i,b,o}, {i,h}, {i,b}, {i,o}, {i}}; ancestrais_diretos(i) = {{i,b}, {i,o}}; descendentes(i) = {{i}, {m}, {a}, {vazio}}; e descendentes_diretos(i) = {{m}}.

32 2.6 Data Marts Os data marts armazenam réplicas dos dados do data warehouse, as quais podem ser destinadas a diferentes departamentos de uma organização. Estas réplicas oferecem aos usuários de SSD visões específicas sobre subconjuntos dos dados do data warehouse. Os dados armazenados nos data marts possuem as mesmas características dos dados do data warehouse, ou seja, são orientados a assunto, integrados, históricos e não-voláteis, além de serem organizados segundo diferentes níveis de agregação. Os data marts foram criados como uma forma de se obter melhores desempenhos para análises dos usuários, uma vez que essas análises podem ser redirecionadas da volumosa base de dados que é o data warehouse para os subconjuntos de dados que são os data marts. Grandes empresas também utilizam os data marts como o princípio da criação do data warehouse. Esses data marts são criados independentemente e, quando estão consolidados, são utilizados para a obtenção de um único data warehouse global (KIMBALL & ROSS, 2002; MOELLER, 2001). 2.7 Repositório de Metadados O repositório de metadados possui um papel muito importante em ambientes de data warehousing. Uma vez que os dados do data warehouse são integrados a partir de provedores de informação diferentes, é necessário que informações sobre o mapeamento esquemático entre os diferentes provedores e o mapeamento semântico entre os diferentes dados sejam armazenados. Ademais, pela característica histórica dos dados do data warehouse, é necessário que seja armazenado um controle de versões sobre as alterações estruturais do data warehouse ao longo do tempo. Os metadados podem ser classificados em três categorias: metadados administrativos: armazenam informações necessárias à administração do data warehousing, tais como informações sobre a construção, a utilização e os esquemas dos provedores de informação; metadados específicos da aplicação: armazenam informações específicas da aplicação, tais como terminologias e restrições; e metadados de auditoria: armazenam informações que possibilitam auditorias e estatísticas sobre a utilização do data warehousing, tais como freqüência de consultas e custos de processamento de consultas. 31

33 2.8 O Sistema WebD 2 W O sistema WebD 2 W é um ambiente de data warehousing distribuído do tipo clienteservidor que utiliza a tecnologia Web como infra-estrutura para possibilitar a distribuição dos dados de um data warehouse centralizado pré-existente em diversos sites (CIFERRI, 2002). O sistema WebD 2 W possui como objetivos: (i) aumentar a disponibilidade dos dados do data warehouse por meio da distribuição dos seus dados e da diminuição do seu tempo de indisponibilidade para manutenção; (ii) aumentar a disponibilidade de acesso aos dados do data warehouse; (iii) garantir a consistência dos dados distribuídos; (iv) garantir as transparências de fragmentação, de replicação e de localização na manipulação dos dados, permitindo que os dados sejam acessados como se estivessem centralizados; (v) prover aumento de desempenho no processamento da carga de trabalho submetida ao ambiente, visando principalmente consultas drill-down, roll-up e slice and dice; e (vi) oferecer suporte a um grande número de usuários. No sistema WebD 2 W o componente de distribuição é responsável pela fragmentação, replicação e distribuição dos dados do data warehouse centralizado pré-existente em diferentes sites. Além do componente de distribuição, o sistema WebD 2 W possui outros componentes principais, como o componente de manutenção do ambiente distribuído e o componente de consulta do ambiente distribuído. Estes componentes, entretanto, não são abordados mais profundamente, por estarem fora do escopo deste trabalho. O componente de distribuição do sistema WebD 2 W é composto por quatro módulos que contribuem para garantir os objetivos de aumento de disponibilidade, de aumento de desempenho no processamento da carga de trabalho e de suporte a um grande número de usuários. Cada um desses módulos visa o oferecimento das seguintes funcionalidades: módulo requisitos: responsável por analisar o data warehouse centralizado e identificar os critérios a serem utilizados pelo projetista do data warehouse distribuído como base para a criação das restrições a serem utilizadas na fragmentação, alocação e replicação dos dados do data warehouse centralizado; módulo fragmentação: responsável por desenvolver as metodologias e os algoritmos a serem utilizados no processo de fragmentação do data warehouse centralizado em unidade lógicas menores chamadas fragmentos, os quais possuem subconjuntos dos dados do data warehouse centralizado; 32

Arquitetura de um Ambiente de Data Warehousing

Arquitetura de um Ambiente de Data Warehousing Arquitetura de um Ambiente de Data Warehousing Processamento Analítico de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri Prof. Dr. Ricardo Rodrigues Ciferri Arquitetura Típica usuário usuário... usuário

Leia mais

Arquitetura de um Ambiente de Data Warehousing

Arquitetura de um Ambiente de Data Warehousing Arquitetura de um Ambiente de Data Warehousing Processamento Analítico de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri Prof. Dr. Ricardo Rodrigues Ciferri Arquitetura Típica usuário usuário... usuário

Leia mais

Data Warehousing: Conceitos Básicos e Arquitetura

Data Warehousing: Conceitos Básicos e Arquitetura Data Warehousing: Conceitos Básicos e Arquitetura Profa. Dra. Cristina Dutra de Aguiar Ciferri Prof. Dr. Ricardo Rodrigues Ciferri Visão do Mercado Crescimento explosivo do uso da tecnologia de data warehousing

Leia mais

Arquitetura de um Ambiente de Data Warehousing

Arquitetura de um Ambiente de Data Warehousing Arquitetura de um Ambiente de Data Warehousing Processamento Analítico de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri Prof. Dr. Ricardo Rodrigues Ciferri OLAP: Fonte: Arquitetura Vaisman, A., Zimányi,

Leia mais

Data Warehousing: Conceitos Básicos e Arquitetura

Data Warehousing: Conceitos Básicos e Arquitetura Data Warehousing: Conceitos Básicos e Arquitetura Profa. Dra. Cristina Dutra de Aguiar Ciferri Prof. Dr. Ricardo Rodrigues Ciferri Visão do Mercado Crescimento explosivo do uso da tecnologia de data warehousing

Leia mais

Conceitos Básicos. Processamento Analítico de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri Prof. Dr. Ricardo Rodrigues Ciferri

Conceitos Básicos. Processamento Analítico de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri Prof. Dr. Ricardo Rodrigues Ciferri Conceitos Básicos Processamento Analítico de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri Prof. Dr. Ricardo Rodrigues Ciferri Data Warehousing Engloba arquiteturas, algoritmos e ferramentas que possibilitam

Leia mais

Conceitos Básicos. Profa. Dra. Cristina Dutra de Aguiar Ciferri. Algoritmos e Estruturas de Dados II: Projeto

Conceitos Básicos. Profa. Dra. Cristina Dutra de Aguiar Ciferri. Algoritmos e Estruturas de Dados II: Projeto Conceitos Básicos Profa. Dra. Cristina Dutra de Aguiar Ciferri Data Warehousing Engloba arquiteturas, algoritmos e ferramentas que possibilitam que dados selecionados de provedores de informação autônomos,

Leia mais

Modelagem Multidimensional

Modelagem Multidimensional Profa. Dra. Cristina Dutra de Aguiar Ciferri Prof. Dr. Ricardo Rodrigues Ciferri Análises dos usuários de SSD representam requisições multidimensionais aos dados do DW permitem a identificação de problemas

Leia mais

Modelagem Multidimensional

Modelagem Multidimensional Modelagem Multidimensional Processamento Analítico de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri Prof. Dr. Ricardo Rodrigues Ciferri Modelagem Multidimensional Análises dos usuários de SSD representam

Leia mais

Motivação e Conceitos Básicos

Motivação e Conceitos Básicos Motivação e Conceitos Básicos Processamento Analítico de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri Prof. Dr. Ricardo Rodrigues Ciferri Data Warehousing Engloba arquiteturas, algoritmos e ferramentas

Leia mais

Aula 02. Evandro Deliberal

Aula 02. Evandro Deliberal Aula 02 Evandro Deliberal evandro@deljoe.com.br https://www.linkedin.com/in/evandrodeliberal Data Warehouse; Ambiente de Data Warehouse; Processos e ferramentas envolvidas; Arquiteturas de DW; Granularidade;

Leia mais

SQL. Processamento Analítico de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri Prof. Dr. Ricardo Rodrigues Ciferri

SQL. Processamento Analítico de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri Prof. Dr. Ricardo Rodrigues Ciferri SQL Processamento Analítico de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri Prof. Dr. Ricardo Rodrigues Ciferri Arquitetura de 3 Camadas esquema operações conceitual metáfora do cubo de dados Cube

Leia mais

Introdução. descrever os tipos de interfaces e linguagens oferecidas por um SGBD. mostrar o ambiente de programas dos SGBD s

Introdução. descrever os tipos de interfaces e linguagens oferecidas por um SGBD. mostrar o ambiente de programas dos SGBD s Introdução Contribuição do Capítulo 2: discutir modelos de dados definir conceitos de esquemas e instâncias descrever os tipos de interfaces e linguagens oferecidas por um SGBD mostrar o ambiente de programas

Leia mais

SQL. Processamento Analítico de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri Prof. Dr. Ricardo Rodrigues Ciferri

SQL. Processamento Analítico de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri Prof. Dr. Ricardo Rodrigues Ciferri SQL Processamento Analítico de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri Prof. Dr. Ricardo Rodrigues Ciferri Arquitetura de 3 Camadas esquema operações conceitual metáfora do cubo de dados Cube

Leia mais

Melhorando o Desempenho do Processamento de Consultas Drill-Across em Ambientes de Data Warehousing

Melhorando o Desempenho do Processamento de Consultas Drill-Across em Ambientes de Data Warehousing Melhorando o Desempenho do Processamento de Consultas Drill-Across em Ambientes de Data Warehousing Diogo Tuler Forlani 1, Cristina Dutra de Aguiar Ciferri 2, Ricardo Rodrigues Ciferri 3 1 Departamento

Leia mais

Conceitos Básicos. Fundação Centro de Análise, Pesquisa e Inovação Tecnológica Instituto de Ensino Superior - FUCAPI. Disciplina: Banco de Dados

Conceitos Básicos. Fundação Centro de Análise, Pesquisa e Inovação Tecnológica Instituto de Ensino Superior - FUCAPI. Disciplina: Banco de Dados Fundação Centro de Análise, Pesquisa e Inovação Tecnológica Instituto de Ensino Superior - FUCAPI Conceitos Básicos Disciplina: Banco de Dados Prof: Márcio Palheta, Esp Manaus - AM ROTEIRO Introdução Dados

Leia mais

Bancos de Dados IV. OLAP e Cubos de Dados. Rogério Costa

Bancos de Dados IV. OLAP e Cubos de Dados. Rogério Costa Bancos de Dados IV OLAP e Cubos de Dados Rogério Costa rogcosta@inf.puc-rio.br 1 OLAP Online Analytical Processing (OLAP) Análise interativa de dados, permitindo que dados sejam sumarizados e vistos de

Leia mais

Modelagem Multidimensional - Nível Físico -

Modelagem Multidimensional - Nível Físico - Modelagem Multidimensional - Nível Físico - Processamento Analítico de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri Arquitetura de 3 Camadas esquema operações conceitual metáfora do cubo de dados

Leia mais

SEFAZ INFORMÁTICA Olap Prof. Márcio Hunecke

SEFAZ INFORMÁTICA Olap Prof. Márcio Hunecke SEFAZ INFORMÁTICA Olap Prof. Márcio Hunecke www.acasadoconcurseiro.com.br Informática OLAP Partindo dos primórdios da informatização, quando um sistema que gerava relatórios era a principal fonte de dados

Leia mais

Roteiro da apresentação

Roteiro da apresentação Alexandre Schlöttgen Data Warehouse Curso de Pós Graduação em Ciência da Computação Tópicos Avançados em Modelos de Banco de Dados Profs: Clésio Santos e Nina Edelweiss Junho de 2003 Roteiro da apresentação

Leia mais

Arquiteturas para SGBD. Laboratório de Bases de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri

Arquiteturas para SGBD. Laboratório de Bases de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri Arquiteturas para SGBD Laboratório de Bases de Dados Arquitetura Centralizada Terminal responsável pela exibição dos resultados sem capacidade de processamento Computador central (mainframe) responsável

Leia mais

SISTEMAS DE APOIO À INTELIGÊNCIA DE NEGÓCIOS

SISTEMAS DE APOIO À INTELIGÊNCIA DE NEGÓCIOS SISTEMAS DE APOIO À INTELIGÊNCIA DE NEGÓCIOS http://www.uniriotec.br/~tanaka/sain tanaka@uniriotec.br Introdução a OLAP Material baseado em originais de Maria Luiza Campos NCE/UFRJ Atualizado com publicações

Leia mais

RESUMO UMA ARQUITETURA PARA DISTRIBUIÇÃO DE COMPONENTES ECNOLÓGICOS DE SISTEMAS DE INFORMAÇÕES BASEADOS EM DATA WAREHOUSE. Denilson Sell 2001

RESUMO UMA ARQUITETURA PARA DISTRIBUIÇÃO DE COMPONENTES ECNOLÓGICOS DE SISTEMAS DE INFORMAÇÕES BASEADOS EM DATA WAREHOUSE. Denilson Sell 2001 Universidade Federal de Santa Catarina Departamento de Informática e Estatística Sistemas de Informação RESUMO UMA ARQUITETURA PARA DISTRIBUIÇÃO DE COMPONENTES ECNOLÓGICOS DE SISTEMAS DE INFORMAÇÕES BASEADOS

Leia mais

ANALYTICINT FERRAMENTA WEB PARA AVALIAR O PERFIL ACADÊMICO DOS CURSOS TÉCNICOS INTEGRADO DO IFC-VIDEIRA

ANALYTICINT FERRAMENTA WEB PARA AVALIAR O PERFIL ACADÊMICO DOS CURSOS TÉCNICOS INTEGRADO DO IFC-VIDEIRA ANALYTICINT FERRAMENTA WEB PARA AVALIAR O PERFIL ACADÊMICO DOS CURSOS TÉCNICOS INTEGRADO DO IFC-VIDEIRA Autores : Autor 1, Autor 2, Autor 3, Autor 4 1 Autor 2 Autor 3 Autor 4 Autor Introdução Com o objetivo

Leia mais

Sistemas de Apoio à Decisão

Sistemas de Apoio à Decisão Sistemas de Informação e Bases de Dados 2012/2013 Sistemas de Apoio à Decisão Alberto Sardinha Sumário! Data Warehouse! OLAP! Exemplo de OLAP com SQL Server Business Intelligence Development Studio! 2012

Leia mais

Universidade Federal do Maranhão

Universidade Federal do Maranhão Universidade Federal do Maranhão Banco de Dados II Banco de Dados Distribuídos Carlos Eduardo Portela Serra de Castro * Sumário Introdução Vantagens Projeto de Bases de Dados Distribuídas Classificação

Leia mais

Trabalho Prático FUNDAMENTAÇÃO TEÓRICA - ORGANIZAÇÃO DE ARQUIVOS -

Trabalho Prático FUNDAMENTAÇÃO TEÓRICA - ORGANIZAÇÃO DE ARQUIVOS - Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação Departamento de Ciências de Computação Disciplina de Algoritmos e Estruturas de Dados II (SCC0603) Profa. Dra. Cristina Dutra

Leia mais

OLAP. Rodrigo Leite Durães.

OLAP. Rodrigo Leite Durães. OLAP Rodrigo Leite Durães. rodrigo_l_d@yahoo.com.br OLAP Definição OLAP (Online analytical processing) é uma categoria de tecnologia de software que possibilita a visualização dos dados armazenados, segundo

Leia mais

Modelagem Multidimensional - Nível Físico -

Modelagem Multidimensional - Nível Físico - Modelagem Multidimensional - Nível Físico - Processamento Analítico de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri Prof. Dr. Ricardo Rodrigues Ciferri Arquitetura de 3 Camadas esquema operações

Leia mais

Introdução. Conceitos Básicos. Conceitos Básicos. Conceitos Básicos

Introdução. Conceitos Básicos. Conceitos Básicos. Conceitos Básicos Introdução Laboratório de Computação para Ciências Módulo II Prof. Guilherme Tavares de Assis Universidade Federal de Ouro Preto UFOP Instituto de Ciências Exatas e Biológicas ICEB Mestrado Profissional

Leia mais

Introdução. Conceitos Básicos. Conceitos Básicos. Conceitos Básicos

Introdução. Conceitos Básicos. Conceitos Básicos. Conceitos Básicos Conceitos Básicos Introdução Tópicos Especiais Modelagem de Dados Prof. Guilherme Tavares de Assis Universidade Federal de Ouro Preto UFOP Instituto de Ciências Exatas e Biológicas ICEB Mestrado Profissional

Leia mais

Sistemas da Informação. Banco de Dados I. Edson Thizon

Sistemas da Informação. Banco de Dados I. Edson Thizon Sistemas da Informação Banco de Dados I Edson Thizon (edson@esucri.com.br) 2008 Apresentação (mini-currículo) Formação Acadêmica Mestrando em Ciência da Computação (UFSC/ ) Créditos Concluídos. Bacharel

Leia mais

Modelagem Multidimensional - Nível Físico -

Modelagem Multidimensional - Nível Físico - Modelagem Multidimensional - Nível Físico - Processamento Analítico de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri Prof. Dr. Ricardo Rodrigues Ciferri Arquitetura de 3 Camadas esquema operações

Leia mais

Sistemas de Banco de Dados

Sistemas de Banco de Dados Sistemas de Banco de Dados Fundamentos em Bancos de Dados Relacionais Wladmir Cardoso Brandão www.wladmirbrandao.com Departamento de Ciência da Computação (DCC) Instituto de Ciências Exatas e Informática

Leia mais

Modelagem Multidimensional - Nível Físico -

Modelagem Multidimensional - Nível Físico - Modelagem Multidimensional - Nível Físico - Processamento Analítico de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri Arquitetura de 3 Camadas esquema operações conceitual metáfora do cubo de dados

Leia mais

Ambiente de Data Warehouse Para Imagens Médicas Baseado Em Similaridade

Ambiente de Data Warehouse Para Imagens Médicas Baseado Em Similaridade Universidade de São Paulo - USP Instituto de Ciências Matemáticas e de Computação - ICMC Programa de Pós-Graduação em Ciências da Computação e Matemática Computacional Ambiente de Data Warehouse Para Imagens

Leia mais

Modelagem Multidimensional - Nível Lógico -

Modelagem Multidimensional - Nível Lógico - Modelagem Multidimensional - Nível Lógico - Processamento Analítico de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri Prof. Dr. Ricardo Rodrigues Ciferri Arquitetura de 3 Camadas esquema operações

Leia mais

Bancos de Dados IV. Data Warehouse Conceitos. Rogério Costa

Bancos de Dados IV. Data Warehouse Conceitos. Rogério Costa Bancos de Dados IV Data Warehouse Conceitos Rogério Costa rogcosta@inf.puc-rio.br 1 Data Warehouse - O que é? Conjunto de dados orientados por assunto, integrado, variável com o tempo e nãovolátil Orientado

Leia mais

PROJETO DE BANCO DE DADOS

PROJETO DE BANCO DE DADOS UNINGÁ UNIDADE DE ENSINO SUPERIOR INGÁ FACULDADE INGÁ CIÊNCIA DA COMPUTAÇÃO BANCO DE DADOS I PROJETO DE BANCO DE DADOS Profº Erinaldo Sanches Nascimento Objetivos Discutir o ciclo de vida do sistema de

Leia mais

Ferramenta para Geração de Modelo Dimensional para Data

Ferramenta para Geração de Modelo Dimensional para Data Ferramenta para Geração de Modelo Dimensional para Data Warehouses Evelin Giuliana Lima, Marina Teresa Pires Vieira Faculdade de Ciências Exatas e da Natureza Universidade Metodista de Piracicaba UNIMEP

Leia mais

Bruno Tomazela Orientadora: Profª Drª Cristina Dutra de Aguiar Ciferri. 04 de Abril de 2008

Bruno Tomazela Orientadora: Profª Drª Cristina Dutra de Aguiar Ciferri. 04 de Abril de 2008 Bruno Tomazela Orientadora: Profª Drª Cristina Dutra de Aguiar Ciferri 04 de Abril de 2008 Objetivo e Motivações Procedência dos Dados Trabalhos Correlatos Proposta Validação Cronograma 2 Desenvolver um

Leia mais

Tópicos Especiais em Informática Fatec Indaiatuba

Tópicos Especiais em Informática Fatec Indaiatuba Inteligência de Negócios Fatec Indaiatuba Prof. Piva Compreender as definições e conceitos básicos do Data Warehouse (DW) Entender as arquiteturas do DW Descrever os processos utilizados no desenvolvimento

Leia mais

Universidade Federal da Paraíba CCEN Departamento de Informática Disciplina: Banco de Dados. Aula 1 Introdução a Banco de Dados

Universidade Federal da Paraíba CCEN Departamento de Informática Disciplina: Banco de Dados. Aula 1 Introdução a Banco de Dados Universidade Federal da Paraíba CCEN Departamento de Informática Disciplina: Banco de Dados Aula 1 Introdução a Banco de Dados 1. Introdução Um Sistema Gerenciador de Banco de Dados (SGBD) é constituído

Leia mais

Ferramenta de Suporte a Decisão caracterizada por Consultas OLAP

Ferramenta de Suporte a Decisão caracterizada por Consultas OLAP Ferramenta de Suporte a Decisão caracterizada por Consultas OLAP Daniel Ricardo Batiston Orientador: Evaristo Baptista Seqüência da apresentação Introdução Objetivos Fundamentação Teórica Sistema atual

Leia mais

Sistemas de Suporte à Decisão. Suporte à Decisão X Operacional. Banco de Dados Avançado. Data Warehouse. Data Warehouse & Data Mart

Sistemas de Suporte à Decisão. Suporte à Decisão X Operacional. Banco de Dados Avançado. Data Warehouse. Data Warehouse & Data Mart Sistemas de Suporte à Decisão Sistemas de Suporte a Decisão (SSD) Permitem armazenar e analisar grandes volumes de dados para extrair informações que auxiliam a compreensão do comportamento dos dados Armazenar

Leia mais

Banco de Dados. SGBD - Sistema de Gerenciamento de Banco de Dados Parte 2. Prof. Leonardo Vasconcelos

Banco de Dados. SGBD - Sistema de Gerenciamento de Banco de Dados Parte 2. Prof. Leonardo Vasconcelos Banco de Dados Parte 2 Prof. Leonardo Vasconcelos - Conceitos e Arquiteturas de SBD Modelos de dados: conjunto de conceitos que podem ser usados para descrever a estrutura de um banco de dados. Permitem

Leia mais

Procedência de Dados. Disciplina de Procedência de Dados e Data Warehousing. Profa. Dra. Cristina Dutra de Aguiar Ciferri

Procedência de Dados. Disciplina de Procedência de Dados e Data Warehousing. Profa. Dra. Cristina Dutra de Aguiar Ciferri Disciplina de e Data Warehousing Profa. Dra. Cristina Dutra de Aguiar Ciferri cdac@icmc.usp.br Tópicos n Definição n Desafios de um modelo de procedência q quais dados armazenar q como coletar os dados

Leia mais

UNIVERSIDADE FEDERAL DE GOIÁS INSTITUTO DE INFORMÁTICA. Sistemas Distribuídos

UNIVERSIDADE FEDERAL DE GOIÁS INSTITUTO DE INFORMÁTICA. Sistemas Distribuídos UNIVERSIDADE FEDERAL DE GOIÁS INSTITUTO DE INFORMÁTICA Sistemas Distribuídos Mestrado em Ciência da Computação 1o. Semestre / 2006 Prof. Fábio M. Costa fmc@inf.ufg.br www.inf.ufg.br/~fmc/ds-msc2006 Aula

Leia mais

5 Conclusão e trabalhos futuros

5 Conclusão e trabalhos futuros 5 Conclusão e trabalhos futuros Neste capítulo fazemos uma retrospectiva do trabalho realizado, uma avaliação da proposta de solução de integração de dados ou conhecimentos mostrada na dissertação e também

Leia mais

Informática. Business Intelligence (BI), Data Warehouse, OLAP e Data Mining. Prof. Márcio Hunecke

Informática. Business Intelligence (BI), Data Warehouse, OLAP e Data Mining. Prof. Márcio Hunecke Informática Business Intelligence (BI), Data Warehouse, OLAP e Data Mining Prof. Márcio Hunecke Conceitos de BI Conjunto de ferramentas e técnicas que objetivam dar suporte à tomada de decisão Refere-se

Leia mais

Data Warehouse ETL. Rodrigo Leite Durães.

Data Warehouse ETL. Rodrigo Leite Durães. Data Warehouse ETL Rodrigo Leite Durães rodrigo_l_d@yahoo.com.br Introdução Um dos desafios da implantação de um DW é a integração dos dados de fontes heterogêneas e complexas, padronizando informações,

Leia mais

Motivação. Análise de Dados. BD x DW OLTP. Data Warehouse. Revisão Quais as diferenças entre as tecnologias de BD e DW? OLAP Modelos Multidimensionais

Motivação. Análise de Dados. BD x DW OLTP. Data Warehouse. Revisão Quais as diferenças entre as tecnologias de BD e DW? OLAP Modelos Multidimensionais Data Warehouse Análise de Dados Motivação Revisão Quais as diferenças entre as tecnologias de BD e? Modelos Multidimensionais BD x OLTP dados volume dados granularidade dados atualização dados uso Característica

Leia mais

Metamodelos para Banco de Dados. Carlos Julian Menezes Araújo Prof. Dr. Robson do Nascimento Fidalgo

Metamodelos para Banco de Dados. Carlos Julian Menezes Araújo Prof. Dr. Robson do Nascimento Fidalgo Metamodelos para Banco de Dados Carlos Julian Menezes Araújo cjma@cin.ufpe.br Prof. Dr. Robson do Nascimento Fidalgo 1 Agenda Metadados MDA MOF Metamodelos CWM Pacote Relacional Referências 2 Metadados

Leia mais

Introdução. Conceitos Básicos. Conceitos Básicos. Conceitos Básicos

Introdução. Conceitos Básicos. Conceitos Básicos. Conceitos Básicos Conceitos Básicos Introdução Banco de Dados I Prof. Guilherme Tavares de Assis Universidade Federal de Ouro Preto UFOP Instituto de Ciências Exatas e Biológicas ICEB Departamento de Computação DECOM Dados

Leia mais

SBC - Sistemas Baseados em Conhecimento

SBC - Sistemas Baseados em Conhecimento Siglas, Símbolos, Abreviaturas DW - Data Warehouse KDD Knowledge Discovery in Database MD Mineração de Dados OLAP - On-line analytical processing SBC - Sistemas Baseados em Conhecimento 1. INTRODUÇÃO O

Leia mais

Revisando Banco de Dados. Modelo Relacional

Revisando Banco de Dados. Modelo Relacional : Revisando Banco de Dados Banco de Dados (BD) é o arquivo físico, em dispositivos periféricos, onde estão armazenados os dados de diversos sistemas, para consulta e atualização pelo usuário. Sistema Gerenciador

Leia mais

LINGUAGEM, TIPOS DE USUÁRIOS DE SGBD E MODELOS DE DADOS

LINGUAGEM, TIPOS DE USUÁRIOS DE SGBD E MODELOS DE DADOS Fundação Centro de Análise, Pesquisa e Inovação Tecnológica Instituto de Ensino Superior - FUCAPI LINGUAGEM, TIPOS DE USUÁRIOS DE SGBD E MODELOS DE DADOS Disciplina: Banco de Dados Prof: Márcio Palheta,

Leia mais

Inteligência nos Negócios (Business Inteligente)

Inteligência nos Negócios (Business Inteligente) Inteligência nos Negócios (Business Inteligente) Sistemas de Informação Sistemas de Apoio a Decisão Aran Bey Tcholakian Morales, Dr. Eng. (Apostila 4: OLAP) Fundamentação da disciplina Analise de dados

Leia mais

TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE

TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE Engenharia de Computação Professor: Rosalvo Ferreira de Oliveira Neto O processo de descoberta do conhecimento - KDD Roteiro Introdução Definição Etapas Desafios

Leia mais

GESTÃO DE DADOS NAS ORGANIZAÇÕES. Prof. Robson Almeida

GESTÃO DE DADOS NAS ORGANIZAÇÕES. Prof. Robson Almeida GESTÃO DE DADOS NAS ORGANIZAÇÕES Prof. Robson Almeida INFRA-ESTRUTURA DE SISTEMAS DE INFORMAÇÃO 3 CONCEITOS Bit: Menor unidade de dados; dígito binário (0,1) Byte: Grupo de bits que representa um único

Leia mais

MODELO DE BANCO DE DADOS RELACIONAL

MODELO DE BANCO DE DADOS RELACIONAL UNINGÁ UNIDADE DE ENSINO SUPERIOR INGÁ FACULDADE INGÁ CIÊNCIA DA COMPUTAÇÃO BANCO DE DADOS I MODELO DE BANCO DE DADOS RELACIONAL Profº Erinaldo Sanches Nascimento Objetivos Descrever os princípios básicos

Leia mais

Bancos de Dados Distribuídos

Bancos de Dados Distribuídos Bancos de Dados Distribuídos O que é Sistema Gerenciador de Banco de Dados? Um sistema gerenciador de banco de dados (SGBD) é usado como sendo um sistema que permite o gerenciamento dos sistemas de bancos

Leia mais

Mapa Mental de Data Warehouse Definições e Características

Mapa Mental de Data Warehouse Definições e Características Mapa Mental de Data Warehouse Definições e Características Um data warehouse (ou armazém de dados, ou depósito de dados no Brasil) é um sistema de computação utilizado para armazenar informações relativas

Leia mais

Matéria Introdutória. Banco de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri

Matéria Introdutória. Banco de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri Matéria Introdutória Banco de Dados Motivação Necessidade de armazenar grandes quantidades de dados Necessidade de acessar as informações de maneira eficiente e segura Evolução histórica: desenvolvimento

Leia mais

Laboratório de Banco de Dados. Prof. Luiz Vivacqua.

Laboratório de Banco de Dados. Prof. Luiz Vivacqua. (la.vivacqua@gmail.com) Ementa Conceitos básicos Sistemas de banco de dados Relacional Visão Geral do PostGreSQL Álgebra Relacional Operadores básicos Operadores adicionais A Linguagem de Consulta Estruturada

Leia mais

Introdução a B anco de Dados. INE5206 Introdução à Informática INE/CTC/UFSC Prof. Roberto Willrich

Introdução a B anco de Dados. INE5206 Introdução à Informática INE/CTC/UFSC Prof. Roberto Willrich Introdução a B anco de Dados INE5206 Introdução à Informática INE/CTC/UFSC Prof. Roberto Willrich 1 Introdução Sistema de banco de dados Projetados para gerenciar grandes quantidades de informação Proporcionar

Leia mais

Banco de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri. Banco de Dados Processamento e Otimização de Consultas

Banco de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri. Banco de Dados Processamento e Otimização de Consultas Processamento e Otimização de Consultas Banco de Dados Motivação Consulta pode ter sua resposta computada por uma variedade de métodos (geralmente) Usuário (programador) sugere uma estratégia para achar

Leia mais

P R O J E T O: C A R N A V A L. 2. Informações Básicas sobre o Sistema a ser Desenvolvido

P R O J E T O: C A R N A V A L. 2. Informações Básicas sobre o Sistema a ser Desenvolvido Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação Departamento de Ciências de Computação Disciplina de Banco de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri P R O J E T

Leia mais

Metodologia de Desenvolvimento de Sistemas Informação

Metodologia de Desenvolvimento de Sistemas Informação Instituto Superior Politécnico de Ciências e Tecnologia Metodologia de Desenvolvimento de Sistemas Informação Prof Pedro Vunge http://pedrovunge.com I Semestre de 2019 SUMÁRIO : 1. TECNOLOGIAS PARA DATA

Leia mais

GERENCIAMENTO DE DADOS Exercícios

GERENCIAMENTO DE DADOS Exercícios GERENCIAMENTO DE DADOS Exercícios EXERCÍCIO 1 Marque a opção correta: 1. O conceito de administração de recursos de dados envolve o gerenciamento dos: a. Recursos de dados de uma organização e do seu pessoal.

Leia mais

PROJETO: CONFERÊNCIA ACADÊMICA. 2. Informações Básicas sobre o Sistema a ser Desenvolvido

PROJETO: CONFERÊNCIA ACADÊMICA. 2. Informações Básicas sobre o Sistema a ser Desenvolvido Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação Departamento de Ciências de Computação Disciplina de Bases de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri PROJETO: CONFERÊNCIA

Leia mais

Técnico em Informática. Banco de Dados. Profª Ana Paula Mandelli

Técnico em Informática. Banco de Dados. Profª Ana Paula Mandelli Técnico em Informática Banco de Dados Profª Ana Paula Mandelli Banco de Dados (BD) Existem vários tipos de banco de dados e eles estão presentes na nossa vida há muito tempo. Lista Telefônica Cadastro

Leia mais

Banco de Dados. Introdução. Profa. Flávia Cristina Bernardini

Banco de Dados. Introdução. Profa. Flávia Cristina Bernardini Banco de Dados Introdução Profa. Flávia Cristina Bernardini * Slides Baseados no material elaborado pelos professores Eduardo R. Hruschka, Cristina D. A. Ciferri e Elaine Parros Machado Motivação Operações

Leia mais

Bancos de Dados Notas de Aula Introdução Prof. Dr. Daniel A. Furtado

Bancos de Dados Notas de Aula Introdução Prof. Dr. Daniel A. Furtado Bancos de Dados Notas de Aula Introdução Prof. Dr. Daniel A. Furtado Definição de Banco de Dados De uma forma genérica, um banco de dados é definido como uma coleção de dados relacionados. Os dados são

Leia mais

Banco de Dados. Perspectiva Histórica dos Bancos de Dados. Prof. Walteno Martins Parreira Jr

Banco de Dados. Perspectiva Histórica dos Bancos de Dados. Prof. Walteno Martins Parreira Jr Banco de Dados Perspectiva Histórica dos Bancos de Dados Prof. Walteno Martins Parreira Jr www.waltenomartins.com.br waltenomartins@yahoo.com 2015 Histórico Antes dos computadores, as informações eram

Leia mais

Conceitos e arquitetura do banco de dados. Andre Noel

Conceitos e arquitetura do banco de dados. Andre Noel Conceitos e arquitetura do banco de dados Andre Noel SGBD SGBD cliente/servidor SGBD SGBD cliente/servidor Módulo cliente SGBD SGBD cliente/servidor Módulo cliente Módulo servidor Abstração de dados Quais

Leia mais

Bancos de Dados IV. Arquiteturas. Rogério Costa

Bancos de Dados IV. Arquiteturas. Rogério Costa Bancos de Dados IV Arquiteturas Rogério Costa rogcosta@inf.puc-rio.br 1 Arquiteturas para DW DW Virtuais Fortemente Acoplada (Empresa Inteira) Fracamente Acoplada Arquiteturas para DW DW Virtuais São visões

Leia mais

Introdução. Motivação. Sistema Gerenciador de Banco de Dados (SGBD) Banco de Dados (BD) Sistema de Banco de Dados (SBD)

Introdução. Motivação. Sistema Gerenciador de Banco de Dados (SGBD) Banco de Dados (BD) Sistema de Banco de Dados (SBD) Ciência da Computação GBC043 Sistemas de Banco de Dados Introdução Profa. Maria Camila Nardini Barioni camila.barioni@ufu.br Bloco B - sala 1B137 1 semestre de 2019 Motivação Necessidade de armazenar grandes

Leia mais

Distribuição dos Dados em Ambientes de Data Warehousing: O Sistema WebD 2 W e Algoritmos Voltados à Fragmentação Horizontal dos Dados

Distribuição dos Dados em Ambientes de Data Warehousing: O Sistema WebD 2 W e Algoritmos Voltados à Fragmentação Horizontal dos Dados Pós-Graduação em Ciência da Computação Distribuição dos Dados em Ambientes de Data Warehousing: O Sistema WebD 2 W e Algoritmos Voltados à Fragmentação Horizontal dos Dados Por Cristina Dutra de Aguiar

Leia mais

3 Arquitetura para a Coordenação e a Composição de Artefatos de Software

3 Arquitetura para a Coordenação e a Composição de Artefatos de Software Uma Arquitetura para a Coordenação e a de Artefatos de 23 3 Arquitetura para a Coordenação e a de Artefatos de Resumo Este capítulo apresenta a arquitetura ACCA, que é a parte central deste trabalho. A

Leia mais

Livro texto: Capítulo 1

Livro texto: Capítulo 1 Livro texto: Capítulo 1 Bancos de dados (BD) No decorrer do dia, a maioria de nós se depara com atividades que envolvem alguma interação com os BD s banco reservas em um hotel compra de passagens aéreas

Leia mais

3 Arquitetura do Sistema

3 Arquitetura do Sistema Arquitetura do Sistema 22 3 Arquitetura do Sistema 3.1. Visão geral O sistema desenvolvido permite a criação de aplicações que possibilitam efetuar consultas em um banco de dados relacional utilizando

Leia mais

Banco de dados. Objetivo: Reter os dados de forma que possam ser utilizados em outros momentos

Banco de dados. Objetivo: Reter os dados de forma que possam ser utilizados em outros momentos Banco de dados BD Dados x Informações Banco de dados Objetivo: Armazenar dados Consultar dados (dentro de um determinado contexto) gerando informações úteis Reter os dados de forma que possam ser utilizados

Leia mais

Banco de dados. Objetivo: Reter os dados de forma que possam ser utilizados em outros momentos

Banco de dados. Objetivo: Reter os dados de forma que possam ser utilizados em outros momentos Banco de dados BD Banco de dados Objetivo: Armazenar dados Consultar dados (dentro de um determinado contexto) gerando informações úteis Reter os dados de forma que possam ser utilizados em outros momentos

Leia mais

Informática. Data Warehouse. Professor Julio Alves.

Informática. Data Warehouse. Professor Julio Alves. Informática Data Warehouse Professor Julio Alves www.acasadoconcurseiro.com.br Informática 1. DATA WAREHOUSE Executivos tomadores de decisão (diretores, gerentes, analistas, etc) necessitam de ferramentas

Leia mais

Fundamentos de sistemas de informação

Fundamentos de sistemas de informação Fundamentos de sistemas de informação Unidade 2 - Conceitos básicos de aplicações nas empresas (cont.) Unidade 3 - Tipos de Sistemas de apoio às decisões 1 Ética e TI Fraudes; Crimes eletrônicos; Ameaças

Leia mais

Conceitos relativos a Banco de Dados & Modelos de Informação de Banco de Dados. Introdução

Conceitos relativos a Banco de Dados & Modelos de Informação de Banco de Dados. Introdução Conceitos relativos a Banco de Dados & Modelos de Informação de Banco de Dados Prof. Anderson Henriques Introdução A quantidade de informação relevante para a tomada de decisões nas organizações é muito

Leia mais

Bancos de Dados Distribuídos. Bancos de Dados Distribuídos. Conteúdo. Motivação. Motivação. Introdução aos BDs Distribuídos.

Bancos de Dados Distribuídos. Bancos de Dados Distribuídos. Conteúdo. Motivação. Motivação. Introdução aos BDs Distribuídos. Bancos de Dados Distribuídos Prof. Frank Siqueira Departamento de Informática e Estatística Universidade Federal de Santa Catarina Conteúdo Introdução aos BDs Distribuídos Processamento de Consultas Distribuídas

Leia mais

1. Conceitos de Bancos de Dados

1. Conceitos de Bancos de Dados Bancos de Dados 1. Conceitos de Bancos de Dados 1 Bancos de Dados na Vida Cotidiana BD e sistemas de informação baseados em BD são cada vez mais essenciais para a vida moderna Quase todas as nossas atividades

Leia mais

Projeto de Banco de Dados. Componentes de um Sistema de Informação. Arquitetura de SI. Sistema de Informação (SI) SI nas Organizações

Projeto de Banco de Dados. Componentes de um Sistema de Informação. Arquitetura de SI. Sistema de Informação (SI) SI nas Organizações Sistema (SI) Coleção de atividades de Banco de Dados que regulam o compartilhamento, SI nas Organizações a distribuição de informações Fernando Fonseca e o armazenamento de dados relevantes ao gerenciamento

Leia mais

Uso de Índices na Otimização e Processamento de Consultas. Otimização e Processamento de Consultas. Otimização e Processamento de Consultas

Uso de Índices na Otimização e Processamento de Consultas. Otimização e Processamento de Consultas. Otimização e Processamento de Consultas usuário processador de E/S gerador de respostas Uso de Índices na Otimização e Processamento de Consultas Profa. Dra. Cristina Dutra de Aguiar Ciferri analisador controle de autorização verificador de

Leia mais

PROTÓTIPO DE UM SISTEMA DE INFORMAÇÃO EXECUTIVA APLICADO A PREFEITURA MUNICIPAL DE JARAGUÁ DO SUL UTILIZANDO DATA WAREHOUSE

PROTÓTIPO DE UM SISTEMA DE INFORMAÇÃO EXECUTIVA APLICADO A PREFEITURA MUNICIPAL DE JARAGUÁ DO SUL UTILIZANDO DATA WAREHOUSE CENTRO DE CIÊNCIAS EXATAS E NATURAIS DEPARTAMENTO DE SISTEMAS E COMPUTAÇÃO CURSO DE CIÊNCIAS DA COMPUTAÇÃO PROTÓTIPO DE UM SISTEMA DE INFORMAÇÃO EXECUTIVA APLICADO A PREFEITURA MUNICIPAL DE JARAGUÁ DO

Leia mais

Banco de Dados. Introdução e Definições

Banco de Dados. Introdução e Definições Banco de Dados Introdução e Definições Conceitos Diferença entre Informação e Dado Informação: é qualquer fato ou conhecimento do mundo real e que pode ou não ser registrado /armazenado Dado: é a representação

Leia mais

Joana Simon Orientador: Prof. Oscar Dalfovo, Doutor

Joana Simon Orientador: Prof. Oscar Dalfovo, Doutor Joana Simon Orientador: Prof. Oscar Dalfovo, Doutor Introdução Objetivos Fundamentação teórica Especificações da ferramenta Desenvolvimento da ferramenta Operacionalidade da ferramenta Resultados e discussões

Leia mais

Sistema de Banco de Dados. UNIDADE 1 Introdução aos Sistemas de Bancos de Dados Professor: Armando Hage

Sistema de Banco de Dados. UNIDADE 1 Introdução aos Sistemas de Bancos de Dados Professor: Armando Hage Sistema de Banco de Dados UNIDADE 1 Introdução aos Sistemas de Bancos de Dados Professor: Armando Hage Resumo da Unidade Banco de dados BD SGBD Objetivo Visão Geral Abstração Modelo de Dados Entidade Relaciomento(ER)

Leia mais

Introdução. Introdução. Álgebra Relacional. Linguagens formais de Consulta Modelo Relacional. O que foi visto até agora...

Introdução. Introdução. Álgebra Relacional. Linguagens formais de Consulta Modelo Relacional. O que foi visto até agora... Ciência da Computação GBC043 Sistemas de Banco de Dados Linguagens formais de Consulta Modelo Relacional Profa. Maria Camila Nardini Barioni camila.barioni@ufu.br Bloco B - sala 1B137 1 semestre de 2019

Leia mais

Sumário. 1 Introdução 2 BD Orientado a Objetos 3 BD Objeto-Relacional 4 Noções Básicas de Data Warehouse 5 XML e BD XML. Motivação

Sumário. 1 Introdução 2 BD Orientado a Objetos 3 BD Objeto-Relacional 4 Noções Básicas de Data Warehouse 5 XML e BD XML. Motivação Sumário 1 Introdução 2 BD Orientado a Objetos 3 BD Objeto-Relacional Noções Básicas de Data Warehouse 5 XML e BD XML Motivação Sistemas de Apoio à Decisão Objetivo análise de dados históricos da organização

Leia mais

O Modelo e a Álgebra Relacional

O Modelo e a Álgebra Relacional O Modelo e a Álgebra Relacional O Modelo Relacional Modelo de dados, que se baseia no princípio em que todos os dados estão guardados em tabelas Baseado em lógica de predicados e na teoria de conjuntos.

Leia mais