Tec BD PUC-Rio Data Warehousing Prof. Rubens Melo rubens@inf.puc-rio.br DW - Página 1 Data Warehousing Pecados Fatais em DWing DW - Página 2 1
Pecados Fatais O que deve ser evitado em um projeto de DWing? O que pode levar um DWing ao insucesso? DW - Página 3 Resumo DWing não é apenas desenvolver um super BD disponibilizado para Análise de Negócios. É uma estratégia que inclue uma arquitetura, uma metodologia de desenvolvimento, um conjunto de ferramentas, um modelo de dados, um BD, um padrinho de negócios e um ciclo de vida. DW - Página 4 2
7 Pecados fatais 1) Falta de planejamento 2) Descaso com a Arquitetura 3) Pouca importância à documentação 4) Descaso com metodologia e ferramentas 5) Desrespeito ao ciclo de vida do DW 6) Descaso com a resolução de conflitos 7) Falta de aprendizado com erros passados DW - Página 5 Nº 1: Falta de planejamento Este pecado lida com a crença cega, pensar que todo mundo usará o DW simplesmente porque ele está ali. É uma falha não reconhecer a importância de ter um conjunto de objetivos objetivos de negócio e um padrinho ou campeão/escolhido/ padrinho patrocinador para o DW. Deve haver missão, estratégia e planejamento no projeto de DW. DW - Página 6 3
Os 7 Pecados 1) Falta de planejamento 2) Descaso com a Arquitetura 3) Pouca importância à documentação 4) Descaso com metodologia e ferramentas 5) Desrespeito ao ciclo de vida do DW 6) Descaso com a resolução de conflitos 7) Falta de aprendizado com erros passados DW - Página 7 Nº 2: Descaso com a Arquitetura Este pecado é a não preocupação com a arquitetura de DW. Seja qual arquitetura seja escolhida, ela será sempre usada durante a vida do projeto porque direcionará os componentes básicos do projeto e uso do DW. Da arquitetura, pode ser determinado como o dado será carregado, acessado e disponibilizado. DW - Página 8 4
Decidindo qual arquitetura adotar Deve-se considerar: o número de usuários finais e área funcionais; a diversidade e o volume de dados; o ciclo de atualização; as complexidades de acesso e armazenamento etc. DW - Página 9 Arquitetura de DW Camada de Aquisição de Informação Reunir Refinar Agregar Armazenar DW Camada de Armazenamento de Informação Montagem DM DM Camada de Entrega de Informação Ger. de Crédito Rel. c/ Cliente LAN Cont. Financeiro Ger. de Produto DW - Página 10 5
Aquisição de Informação Esta camada é responsável por reunir, refinar, limpar e agregar o dado dos sistemas de produção. O dado deve estar correto e prover um único significado, uma vez que será utilizado em vários locais, para facilitar a tomada de decisão. A padronização é importante porque provê flexibilidade na implementação de necessidades futuras e integração de fontes adicionais de dados no DW. DW - Página 11 Armazenamento da Informação Esta camada provê o armazém da informação que contém o dado temporal. Este dado normalmente conterá o maior nível de granularidade, e a desnormalização do projeto físico manterá o mínimo. Tenta-se manter o projeto físico tão próximo ao modelo de dado quanto possível. É importante prover o máximo de flexibilidade para satisfazer as necessidades de projeto. DW - Página 12 6
Disponibilização da Informação O DW armazena dados diretos e sumarizados, ( e as regras de agregação nos metadados) Esta camada é parte da arquitetura que suportará um conjunto de ferramentas de apresentação e análise. Isto proverá uma visão e sentimento comuns do negócio através de relatórios e consultas. Provê a visão informacional do negócio Esta é a parte do DWing com que o usuário final terá contato. DW - Página 13 Disponibilização da Informação DWing deve ser focado nos usuários Êles são a razão do que se faz A Métrica é a Satisfação do Cliente Cuide das Mudanças Cuide da Qualidade DW - Página 14 7
Resumindo sobre Arquitetura A arquitetura de DW deve consistir de todas as três camadas (Arquitetura Híbrida). O dado deve ser adquirido ou reunido, carregado no DW para armazenamento, e finalmente, ser disponibilizado para os negócios. Se qualquer uma destas funções estiver faltando, então o DWing não terá completado as funções a serem executadas. DW - Página 15 Os 7 Pecados 1) Falta de planejamento 2) Descaso com a Arquitetura 3) Pouca importância à documentação 4) Descaso com metodologia e ferramentas 5) Desrespeito ao ciclo de vida do DW 6) Descaso com a resolução de conflitos 7) Falta de aprendizado com erros passados DW - Página 16 8
Nº 3: Documentar suposições e conflitos Em todo projeto de desenvolvimento de DW, é importante que todas as suposições, conflitos, e questões estejam claramente identificadas e documentadas. É fatal subestimar a importância da documentação das suposições e conflitos desde o início. É durante a fase de especificação de requisitos que as questões são identificadas e documentadas. DW - Página 17 3 Questões p/ o início do projeto de DW 1) Quanto dado deve ser carregado inicialmente no DW? O que for necessário para suportar as necessidades preliminares e funcionalidade dos negócios. Depende das fases do projeto e número de usuários que acessarão os dados. DW - Página 18 9
3 Questões p/ o início do projeto de DW 2) Qual o nível de granularidade do dado? Cont. Identifica se o dado será armazenado no nível detalhado, resumido, ou ambos. Será documentado nos projetos de arquitetura e direcionará várias outras questões. Tem um impacto no DW, pois deve-se considerar se o dado derivado é calculado toda vez que for consultado, ou está armazenado. DW - Página 19 3 Questões p/ o início do projeto de DW 3) Quão freqüente o dado deve ser renovado? Cont. O dado pode ser renovado diariamente, semanalmente, mensalmente etc., ou uma combinação delas dependendo do tipo de dado em questão. O planejamento da renovação, também depende das agendas de atualização dos sistemas de produção. DW - Página 20 10
Mais uma questão Em qual plataforma o DW deve ser desenvolvido e implementado? A resposta depende do ciclo de recarga, o volume de dados, a complexidade dos processos de aquisição de informação, as necessidades de acesso e as ferramentas disponíveis. DW - Página 21 Os 7 Pecados 1) Falta de planejamento 2) Descaso com a Arquitetura 3) Pouca importância à documentação 4) Descaso com metodologia e ferramentas 5) Desrespeito ao ciclo de vida do DW 6) Descaso com a resolução de conflitos 7) Falta de aprendizado com erros passados DW - Página 22 11
Nº 4: Metodologia e ferramentas O 4º pecado é o descaso com a metodologia e ferramentas. Construir um DW requer diferente metodologia e conjunto de ferramentas. DW - Página 23 Metodologia Algumas metodologias estão contidas dentro da cultura da empresa. As opções disponíveis podem ser influenciadas pelo enfoque de aquisição ou extração utilizado. Algumas opções disponíveis podem ser Engenharia de Informação (formal) Uso de técnicas estruturadas (modelagem de processos e modelagem de dados). ER => Modelo Multidimensional Independente de qual metodologia é escolhida, a técnica de modelagem de dado é ponto chave (para que o DW refleta os requisitos do negócio). DW - Página 24 12
Ferramentas de DW O tipo e número de ferramentas contidas no kit de ferramentas dependerá do ambiente técnico, cultura corporativa, e metodologia escolhida. As ferramentas de DW podem ser caracterizadas em 4 grupos: de análise, de desenvolvimento, de implementação, e de disponibilização. DW - Página 25 Ferramentas de Análise (Operacional) Estas ferramentas são utilizadas durante a fase de análise, quando o ambiente operacional corrente está sendo estudado. Elas ajudam na identificação dos requisitos dos dados e das fontes primárias para a camada de aquisição da informação, e na construção do modelo de dados. DW - Página 26 13
Ex. de ferramentas de análise Ferramentas CASE: Computer-aided software engineering - são utilizadas para modelagem de dados/processos. Scanners: Buscam código da linguagem para definições do BD ou arquivos, ou códigos de procedimentos para identificar o uso do dado. Repositórios de Dados: Armazenam todos os metadados carregados durante as fases de análise e projeto. DW - Página 27 Ferramentas de Desenvolvimento Assistem ao desenvolvedor durante a geração de código para aquisição, limpeza, integração e carga dos dados (ETL). Por ex: Geradores de Código: São usados com as ferramentas CASE para gerar código da aplicação desenvolvida dos modelos de processos. Repositórios de Dados: Armazenamento p/ todo metadado carregado durante a fase de desenvolvimento. DW - Página 28 14
Ferramentas de Implementação Assistem na própria limpeza, consolidação e carga do DW. Podem ser : ferramentas (e metodologia) de vendedores, ferramentas desenvolvidas na própria empresa Ferramentas de Aquisição de Dados: Usadas para o processo de união, limpeza, replicação e consolidação dos dados. Ferramentas de Armazenamento da Informação: Usadas para carregar o dado no DW. DW - Página 29 Ferramentas de Disponibilização Assistem na conversão, derivação, carga dos dados e criação/apresentação de relatórios. Ex: Carregador de Dados: Converte o dado do DW e o carrega na plataforma front-end p/ relatórios e consultas. Dicionário de Dados: Provê ao usuário final, a habilidade de identificar qual dado está no DW, na terminologia dos negócios. Consultas e Relatórios: Provêem funções de relatórios on-line e em batch, pré-programadas ou ad hoc. DW - Página 30 15
Os 7 Pecados 1) Falta de planejamento 2) Descaso com a Arquitetura 3) Pouca importância à documentação 4) Descaso com metodologia e ferramentas 5) Desrespeito ao ciclo de vida do DW 6) Descaso com a resolução de conflitos 7) Falta de aprendizado com erros passados DW - Página 31 Ciclo de Vida do DW 8. Administração do Dado 7. Implementação 1. Investigação 2. Análise do Ambiente Corrente Ciclo de Vida do DW 3. Identificação dos Requisitos 6. Desenvolvimento 5. Projeto de DW 4. Identificação da Arquitetura DW - Página 32 16
Ciclo de Vida do DW O 5º pecado é a violação do ciclo de vida do DW. 1. Investigação Ciclo de Vida do DW DW - Página 33 Fase de Investigação A investigação preliminar é conduzida pelo time para identificar a necessidade ou justificativa para o DW. Também é durante esta fase que um padrinho é selecionado e a missão é estabelecida para que o DW seja desenvolvido. A primeira entrega é um relatório de investigação, que contém uma declaração das oportunidades assumidas, a missão, o nome do padrinho, as áreas de negócio a serem inicialmente suportadas, e uma recomendação para prosseguir. DW - Página 34 17
Ciclo de Vida do DW 1. Investigação 2. Análise do Ambiente Corrente Ciclo de Vida do DW DW - Página 35 Fase de Análise do Ambiente Corrente O dado legado dos sistemas de produção é analisado e documentado. Uma lista dos arquivos mestres é obtida para revisão e análise. Dentro de cada arquivo mestre, todo campo de dado é revisto e catalogado. Tenta-se adquirir uma definição dos dados e documentar o tamanho e tipo de dado. Identifica-se as chaves primárias de cada arquivo mestre ou registro de BD. Procura-se sinônimos dos campos de dados. DW - Página 36 18
Ciclo de Vida do DW 1. Investigação 2. Análise do Ambiente Corrente Ciclo de Vida do DW 3. Identificação dos Requisitos DW - Página 37 Fase de Identificação de Requisitos Há um esforço para identificar os requisitos de negócios associados ao uso do DW. Estes requisitos devem suportar apenas o uso das áreas de negócio iniciais. A primeira fase deve ser entregue à área de negócios dentro do tempo e do orçamento. Deve ser entregue a documentação das necessidades. DW - Página 38 19
Ciclo de Vida do DW 1. Investigação 2. Análise do Ambiente Corrente Ciclo de Vida do DW 3. Identificação dos Requisitos 4. Identificação da Arquitetura DW - Página 39 Fase de Identificação da Arquitetura Durante esta fase, a arquitetura do DW é projetada, e decide-se qual metodologia e kit de ferramentas utilizar. Deve-se documentar a metodologia, ferramentas, e a arquitetura do DW. Identificar a plataforma do DW e como o dado será carregado e acessado. Ex.: dado no DW deve ser mantido no nível mais granular; nunca deve ser limpado ou corrigido on-line no DW, mas através de funções de atualização em batch. DW - Página 40 20
Ciclo de Vida do DW 1. Investigação 2. Análise do Ambiente Corrente Ciclo de Vida do DW 3. Identificação dos Requisitos 5. Projeto de DW 4. Identificação da Arquitetura DW - Página 41 Fase de Projeto de DW O projeto do DW em si é produzido. Os projetos (lógico e físico) são completados. Por ex.: Entrega-se o modelo de dados, o projeto físico de BD, e um documento de mapeamento de lógico para físico que identifica os mapeamentos completos de Entidades, Dimensões, etc no modelo de dados ao nome de tabelas, atributos etc correspondentes no DW. DW - Página 42 21
Ciclo de Vida do DW 1. Investigação 2. Análise do Ambiente Corrente Ciclo de Vida do DW 3. Identificação dos Requisitos 6. Desenvolvimento 5. Projeto de DW 4. Identificação da Arquitetura DW - Página 43 Fase de Desenvolvimento O DW é definido pelo administrador de BD. Se apropriado, definem-se os processos das camadas de aquisição, armazenamento e disponibilização da informação. Programas de limpeza, integração e carga de dados devem ser desenvolvidos e testados. Resulta nas definições do DW, o código dos programas, dados de testes, planos para assegurar a qualidade e plano de aceitação do usuário. DW - Página 44 22
Ciclo de Vida do DW 7. Implementação 1. Investigação 2. Análise do Ambiente Corrente Ciclo de Vida do DW 3. Identificação dos Requisitos 6. Desenvolvimento 5. Projeto de DW 4. Identificação da Arquitetura DW - Página 45 Fase de Implementação Durante esta fase, o DW é realmente implementado pelo time de projetos. Resulta no DW, com sua primeira carga de dados, procedimentos de backup e recuperação para o BD, procedimentos dos usuários, manuais de treinamento etc. DW - Página 46 23
Ciclo de Vida do DW 8. Administração do Dado 7. Implementação 1. Investigação 2. Análise do Ambiente Corrente Ciclo de Vida do DW 3. Identificação dos Requisitos 6. Desenvolvimento 5. Projeto de DW 4. Identificação da Arquitetura DW - Página 47 Administrador de Dados Tem como função principal o monitoramento das mudanças nos sistemas fonte. É responsável pela administração do metadado que está associado ao DW. O grupo de administradores de dados geralmente é responsável por monitorar todas as mudanças e, se apropriado, assegurar que os impactos sejam integrados no DW. Resulta em inventários de dados, memorandos de mudanças, e vários relatórios de análise de impactos produzidos através de dicionário ou repositório de (meta)dados. DW - Página 48 24
Os 7 Pecados 1) Falta de planejamento 2) Descaso com a Arquitetura 3) Pouca importância à documentação 4) Descaso com metodologia e ferramentas 5) Desrespeito ao ciclo de vida do DW 6) Descaso com a resolução de conflitos 7) Falta de aprendizado com erros passados DW - Página 49 Nº 6: Análise de Dados e Res. de Conflitos O 6º pecado é subestimar a importância da resolução de conflitos. Dado inconsistente pode ter um impacto (negativo) nas decisões tomadas. Essas inconsistências ocorrem por causa da qualidade dos dados em legacy systems. Ex: Nomes de elementos de dados são mal definidos, ou falta documentação das regras de transformação. DW - Página 50 25
Análise de Dados e Res. de Conflitos Conflitos de dados devem ser identificados e resolvidos. Ex de tarefas associadas a esta fase do projeto: 1) Identificar os arquivos e sistemas chaves. 2) Catalogar cada campo com definições em um repositório ou dicionário de dados. 3) Construir um modelo de dados. 4) Identificar sinônimos referentes a campos de dados. 5) Mapear todos campos de entrada de dados a nomes de negócios no modelo de dados (conceitual). 6) Atualizar e normalizar o modelo de dados conforme sua necessidade para o DW. Cont. DW - Página 51 Os 7 Pecados 1) Falta de planejamento 2) Descaso com a Arquitetura 3) Pouca importância à documentação 4) Descaso com metodologia e ferramentas 5) Desrespeito ao ciclo de vida do DW 6) Descaso com a resolução de conflitos 7) Falta de aprendizado com erros passados DW - Página 52 26
Nº 7: Aprender com os Erros O pecado nº 7 é desperdiçar o conhecimento aprendido com os erros durante o projeto de DW. Assegurar a qualidade é um fator chave de sucesso quando trata-se do desenvolvimento de um DW. Uma vez que o dado é carregado no DW, assume-se que ele está correto. Quando um projeto tem muitas fases, deve-se documentar os erros para que não se repitam nas próximas fases. DW - Página 53 Concluindo DWing não é apenas desenvolver um super BD disponibilizado para Análise de Negócios. É uma estratégia que inclue uma arquitetura, uma metodologia de desenvolvimento, um conjunto de ferramentas, um modelo de dados, um BD, um padrinho de negócios e um ciclo de vida. DW - Página 54 27
Referências Data Warehouse: Practical Advice from the Experts Joyce Bischoff & Ted Alexander Building the Data Warehouse Bill Inmon DW - Página 55 28