Data Warehouse - definições: Coleção de dados orientada a assunto, integrada, não volátil e variável em relação ao tempo, que tem por objetivo dar apoio aos processos de tomada de decisão (Inmon, 1997) Uma base de dados analítica que dá apoio a processos decisórios provida de recursos de acesso intuitivos (Poe et al, 1998) Um processo para a montagem e administração de dados provenientes de várias fontes com o propósito de obter uma visão simples e detalhada de todo o negócio (Gardner, 1998) Um armazém de dados históricos, cuja finalidade é apresentar informações que permitam identificar indicadores, evolução de valores ao longo de uma grande janela de tempo (Machado, 2007) Proibida a reprodução 1
Data Warehouse frases importantes: é uma arquitetura, não um produto ele é construído, não se compra é um processo complexo, não um simples projeto Arquitetura Metodologia Ferramentas Proibida a reprodução 2
Data Mart: Representa um subconjunto de dados do DW Direcionado a uma área específica ou processo de negócio Normalmente modelado em um esquema estrela Produção Vendas Marketing E Commerce Projeto Data Warehouse Proibida a reprodução 3
Características do Data Mart: Projeto piloto Atender necessidades imediatas Restrições (custo, tempo, conhecimento tecnológico) Desempenho Aprendizagem, aceitação. Proibida a reprodução 4
Cubo de dados: Permitem armazenar, em caráter temporário, apenas dados de interesse momentâneo Reduz o escopo da informação e acelera seu processamento Um subconjunto do Data Mart Proibida a reprodução 5
Processo de construção do DW: Consiste na extração, organização e integração de dados operacionais da empresa de forma consistente. Deve ser realizado com o objetivo de garantir a consistência e integridade das informações de forma a retratar a realidade dos negócios da empresa. Para isso são usadas ferramentas de software. As ferramentas devem permitir acesso intuitivo aos dados para dar mais flexibilidade e permitir rápidas análises dos dados. Proibida a reprodução 6
Processo de construção do DW: O DW deve ser construído de forma interativa Não é possível definir antecipadamente todos os requisitos necessários à sua construção até que ele esteja parcialmente povoado Necessária a definição de alguns requisitos iniciais Não pode ser plenamente baseado em requisitos Abordagem Evolucionária e incremental Inicia-se por áreas específicas e carentes de informação. Proibida a reprodução 7
Processo de construção do DW: Um dos itens mais importantes é o repositório dos metadados, responsável pela documentação de cada registro realizado na base de dados, pois são eles que vão proporcionar a segurança sobre a qualidade das informações obtidas. Proibida a reprodução 8
Tipos de ferramentas em Data Warehouse: Ferramentas para pesquisa e relatório (exemplo Crystal Reports). Ferramentas OLAP (On-Line Analytical Processing): permite analisar o porquê dos resultados obtidos. Sistemas de informações executivas: apresentam uma visualização mais simplificada dos dados (forma consolidada), sem requer do usuário a análise dos dados. Data Mining: categoria de ferramentas denominada open-end. Permite avaliar tendências e padrões não conhecidos entre os dados. Proibida a reprodução 9
Processo de construção do DW - grandezas: Escopo: todo o conjunto de informação da empresa informações de um único usuário da empresa Abordagem de implementação: a) Virtual b) Central c) Distribuída Proibida a reprodução 10
Staging Area ou Operational Data Store (ODS): Representa um armazenamento intermediário dos dados, facilitando a integração do ambiente operacional antes de sua atualização no DW. Extrair os dados no momento adequado, possivelmente em processos batch em horários fora do pico de operações podem estar disponíveis somente entre às 3:00h e 4:00h Proibida a reprodução 11
Staging Area ou Operational Data Store (ODS): Pode ser usada para filtrar dados do processo de extração. Não é um componente obrigatório Permite análise e apoio a tomada de decisão em tempo real Paulo Id = 0001 Cliente Paulo + Conta + Poupança + Investimentos Paulo ID = 2342 Paulo ID = 5463 Servidor ETL (arq. seqüenciais - mainframe) Proibida a reprodução 12
Fluxo do Data Warehouse: www.deakin.edu.au/ddw/images/dw-schematic.gif Proibida a reprodução 13
Arquitetura - Definição: Uma arquitetura de Data Warehouse pode ser definida como a forma de representar toda a estrutura do ambiente de dados, comunicação, processamento e apresentação disponível para o usuário na empresa (SINGH, 2001). SINGH, H. S. Data Warehouse. Conceitos, Tecnologias, Implementação e Gerenciamento. São Paulo: Makron Books, 2001. Proibida a reprodução 14
Arquitetura multicamadas Application Message Diretório de (Metadados) Operac. Data Staging Data Warehouse informação Gerenciamento do Processo Proibida a reprodução 15
Arquitetura multicamadas Application Message Diretório de (Metadados) Operac. Data Staging Data Warehouse informação Operacionais: Correspondem as dados internos da empresa juntamente com dados provenientes de outras fontes externas que irão compor o Data Warehouse. Proibida a reprodução 16
Arquitetura multicamadas Application Message Diretório de (Metadados) Operac. Data Staging Data Warehouse informação : Realiza a conexão entre várias outras camadas Uso extensivo da linguagem SQL Pode ser composta por diversos SGBDs, sistemas operacionais, protocolos, de maneira a fornecer acesso transparente, não importando a plataforma em uso. Proibida a reprodução 17
Arquitetura multicamadas Application Message Diretório de (Metadados) Operac. Data Staging Data Warehouse informação Data Staging: Inclui os processos de ETL, trata-se de uma camada que mantém os dados limpos e padronizados antes do processo de carga no Data Warehouse. Proibida a reprodução 18
Arquitetura multicamadas Application Message Diretório de (Metadados) Operac. Data Staging Data Warehouse informação Data Warehouse: Corresponde aos dados informacionais, uma cópia dos dados em formato apropriado para acesso rápido Proibida a reprodução 19
Arquitetura multicamadas Application Message Diretório de (Metadados) Operac. Data Staging Data Warehouse informação Informação: Camada que os usuários finais interagem Hardware e Software utilizados para geração de gráficos, relatórios, planilhas Data Mining e análises dimensionais Proibida a reprodução 20
Arquitetura multicamadas Application Message Diretório de (Metadados) Operac. Diretório de : Fornecem Acesso informações a Data sobre certos Data dados do ambiente, tais como fontes de dados, transformações Staging Warehouse dos dados, visões do usuário, Autorização do acesso, estrutura dos dados etc. informação Proibida a reprodução 21
Arquitetura multicamadas Application Message Gerenciamento do Processo: Organiza os diversos processos do DW a fim de mantê-lo atualizado. Envolve as tarefas necessárias à construção e manutenção do DW de maneira a manter sua consistência Gerenciamento do Processo Proibida a reprodução 22
Arquitetura multicamadas Application Message Application Messaging: Conhecida como camada de Middleware ou transporte Fornece suporte a troca de mensagens entre aplicações Através dela o DW troca dados pela rede Proibida a reprodução 23
Arquiteturas de Implementação: 1. Global (escopo de acesso) Os dados estão disponíveis em toda a empresa Pode ser fisicamente centralizada ou fisicamente distribuída (filiais) Filial 1 2. Independente (stand alone) Focalizado em uma área específica, sem foco corporativo Data Marts sem conectividade 3. Integrada Apesar de implementados separadamente, os DM estão interconectados Cada departamento é proprietário de seus dados Operacionais e externos Operacionais e externos Filial 1 Filial 2 Filial 3 Filial 2 Filial 3 Proibida a reprodução 24
Arquitetura de Implementação - Topologia DW DW Centralizada DM DM DM DM Dependente Independente
Abordagem de Implementação: A abordagem de implementação se refere basicamente ao caminho trilhado na construção do Data Warehouse, isto é, por onde deve-se começar o processo de elaboração do DW. Três tipos de abrodagem: Top Down Bottom up Combinado Proibida a reprodução 26
Tipos de Implementação: 1. Top Down Inicialmente o processo de ETL transfere os dados para o ODS Operacionais e externos ETL Definição de padrões e estruturas de dados ODS Seqüência de desenvolvimento DW Data Marts 2. Bottom Up Inicialmente o processo de ETL transfere os dados para Data Marts independentes Dificuldade na padronização Operacionais e externos ETL Data Marts Seqüência de desenvolvimento DW Proibida a reprodução 27
Top Down: vantagens e desvantagens Vantagens Herança da arquitetura: todos os DMs seguem o DW Visão do empreendimento: como abrange todos os departamentos ajuda a compreender os processo de negócio como um todo Repositório central de metadados Desvantagens Implementação muito longa e demorada (planejamento) Alta taxa de risco: não existe muita garantia de que haverá retorno do investimento Gera muita ansiedade e expectativa por parte dos usuários do sistema Controle e Centralização de regras para extração, limpeza e integração. Proibida a reprodução 28
Bottom Up: vantagens e desvantagens Vantagens Implementação rápida Rápido retorno do investimento (faster pay back) Herança incremental, facilita o crescimento e o aprendizado da equipe Desvantagens Possibilita a criação de Data Marts independentes, dificultando ou inviabilizando futuras integrações Desafio em manter a visão do empreendimento como um todo no caso de DMs sendo desenvolvidos em paralelo Administrar e coordenar múltiplas equipes de desenvolvimento Egoísmo dos usuários Proibida a reprodução 29
Implementação Combinada: Planejamento Top Down Desenvolvimento Bottom Up Cada DM torna-se um processo evolutivo do DW Gestão dos Metadados e coerência entre os DMs Operacionais e externos ETL Seqüência de desenvolvimento Proibida a reprodução 30