Aula 02 Evandro Deliberal evandro@deljoe.com.br https://www.linkedin.com/in/evandrodeliberal
Data Warehouse; Ambiente de Data Warehouse; Processos e ferramentas envolvidas; Arquiteturas de DW; Granularidade; Apresentação dos conceitos de modelagem dimensional: fatos, dimensões, medidas; Modelo Estrela e Modelo Floco de Neve. Conteúdo Data Mining; As fases do datamining na empresa; A metodologia do datamining; As técnicas do datamining Algoritmos para extração de dados. CRM Analítico; Estratégias, Arquiteturas; Implantação.
Definição O DW possui algumas arquiteturas e camadas: A camada de aquisição de informação é responsável por reunir, refinar, limpar e agregar os dados dos sistemas de produção. O dado deve estar correto e prover um único significado para a tomada de decisão camada de armazenamento da informação provê o armazém da informação enquanto camada de disponibilização da informação suporta o conjunto de ferramentas de apresentação e analise Divido em três áreas: Dados Acesso Funcional
Arquitetura resumida de DW Arquitetura
Arquitetura
Arquitetura Arquitetura de Dados Uma camada (one tier) Dados armazenados uma única vez Duas camadas (two tier) Dados operacionais e analíticos separados em camadas distintas Três camadas (three tier) Transformação de dados não é executada em um único passo
Arquitetura de Dados Uma camada Duas camadas Três camadas
Arquitetura Arquitetura de Acesso aos Dados Duas camadas Acesso direto ao DW e Metadados Três camadas (ROLAP Relational On Line Analytical Processing) Servidor de aplicações Três camadas + (MOLAP Multidimensional On Line Analytical Processing) Servidor de aplicações + Cubo OLAP Online Analytical Processing
Duas camadas Arquitetura de Acesso Três camadas
Três camadas + Arquitetura de Acesso
Arquitetura Funcional Plano geral do que se deseja do Data Warehouse Descreve o fluxo de dados em todas as etapas Especifica técnicas e ferramentas necessárias Componentes da Área Interna Sistemas Fontes Sistemas operacionais internos + fontes externas Área de Organização de Dados Lugar onde os valores a serem adicionados são tratados (Motor do DW) Servidor de Apresentação Compartilhado entre as Áreas Componentes Data Marts com dados agregados Data Marts com dados atômicos Data Warehouse Bus Catálogo de Metadados Arquitetura Funcional
Arquitetura Funcional
Serviços da Área Interna Extração Carga incremental Baseado em transações Carga completa Transformação de dados Integração Limpeza Conversão de tipos Combinação Agregação etc. Arquitetura Funcional
Arquitetura Funcional Serviços da Área Interna (cont) Carga de Dados Suporte para múltiplos destinos Otimização do processo de carga Controle de Dados organizados Definição e Agendamento de trabalhos Monitoramento Arquivo de log Manipulação de exceções Manipulação de erros Notificação
Arquitetura Funcional Gerenciamento de recursos da Área Interna Backup e Recovery Archive e Retrieval Metadados da Área Interna Dos sistemas fonte Das especificações da fonte Das informações descritivas da fonte Dos processos de informação Da área de organização de dados Das informações de aquisição de dados Do gerenciamento das tabelas dimensão Das transformações e agregações De auditorias, logs de trabalho e documentação Do banco de dados
Arquitetura Funcional Componentes da Área Externa Servidor de apresentação Dados disponibilizados para usuário final Ferramenta de acesso aos dados Consultas ad hoc (utilização de cache) Drill down, Drill up ou roll up, Slice e Dice Ferramenta geradora de relatórios Relatórios padronizados (utilização de cache) Modelos de aplicações Data Mining Sistemas após o DW Sistemas de geração de relatórios orientados a transações (ex.: Sistema de previsão de demanda)
Serviços da Área Externa Warehouse browsing Ligados ao cadastro de metadados Serviços de acesso e segurança Autenticação e autorização Serviços de monitoramento de atividades Centrados sobre: Desempenho, suporte ao usuário, marketing e planejamento Serviços da Área Externa (cont) Serviços de gerenciamento de consultas Simplificação do conteúdo Reformulação da consulta Redirecionamento de consulta Consciência de agregados Serviços de padronização de relatórios Permitir criação de relatórios em formatos pré-definidos Arquitetura Funcional
Metadados da Área Externa Descrição das colunas, tabelas e agrupamentos Consultas pré-formuladas Perfis de privilégio de usuários Mapas de acessos à tabelas, visões, relatórios e dados Documentação para Usuário Final Tendências Futuras Área Interna Sistema de participação de fonte ativa Envio de dados Sistemas orientados a objetos Área Externa Autenticação e autorização Centralização dos serviços de acesso Acesso a clientes baseados na Web Arquitetura Funcional
DBMINER Ferramentas Procura integrar tecnologias de DW e Data Mining Banco de dados analítico MOLAP Importa um conjunto de tabelas provenientes de BDRs como MS SQL Server, MS Acess, Oracle ou Text Files Possui wizard para montar Data Mart
Arquitetura Funcional MS SQL Server Conjunto de Aplicativos da Microsoft Banco de dados relacional, ferramentas OLAP e MS English Query Torna possível implementação de sistemas de suporte à decisão ROLAP, MOLAP, OLAP Serviços de importação, extração, transformação, validação e limpeza de dados heterogêneos Serviços de gerenciamento e ferramentas voltadas para o usuário final
Granularidade É o nível de detalhes dentro do banco de dados do DW Quanto menor a granularidade, maior o nível de detalhes e, conseqüentemente, maior o volume de dados armazenado Exemplo, Registro de Vendas de uma rede de supermercados: diária: sumarização de vendas e carga diária no Banco de Dados mensal: sumarização de dados e carga a cada 30 dias no Banco de Dados
Granularidade
Granularidade Pontos importantes que possuem relacionamento: Modelagem do banco Níveis de integração Objetivo das informações Mercado atuante
Agregação São registros sumarizados logicamente redundantes com os dados básicos do DW Finalidades: melhorar o tempo de reposta as consultas reduzir o tempo de processamento reduzir espaço de armazenamento
Aula 02 Conceitos de modelagem dimensional: fatos, dimensões, medidas; Evandro Deliberal evandro@deljoe.com.br https://www.linkedin.com/in/evandrodeliberal
Modelagem dimensional Hipercubo, onde cada célula contém um valor a partir dos lados desse cubo que definem as dimensões valor
Modelagem dimensional Representação voltada para processamento analítico. Intuitividade para o decisor Suporte de tecnologias MOLAP, ROLAP ou HOLAP Dois tipos principais de estruturas ou esquemas: estrela (star schema) ou floco de neve (snowflake schema)
Tabelas fatos Modelagem dimensional Contêm as medições numéricas do negócio Exemplo: unidades_vendidas, custo_dolar Grande quantidade de dados Chave primária composta por FKs Atributos numéricos e valorados
Modelagem dimensional Tabelas dimensão Contém dados descritivos do negócio Chave primária simples Pequena quantidade de informações se comparadas com as tabelas fato Modelos reais contêm entre 4 e 15 dimensões Modelos com mais de 20 dimensões devem ser melhor estudados
Modelagem dimensional Medidas (variáveis): são os atributos numéricos que representam um fato, ou seja, representam o desempenho de um indicador de negócios relativo às dimensões que participam desse fato. Uma medida é determinada pela combinação das dimensões que participam de um fato e estão localizados como atributos de um fato. Por exemplo, o valor em reais das vendas, o número vendido de unidades de produtos e a quantidade em estoque.
Integração Data Marts e DW Possível através do conceito de Data Warehouse bus Esquema geral e padronizado de tabelas dimensão e fato Permite desenvolvimento evolucionário
Centralizada Único Banco de Dados Físico Topologias usados onde existe uma necessidade comum de informações. Data Warehouse e Data Marts ligação de vários DM a um DW Usuário pode pode acessar os DM (gerente de departamento) ou acessar o DW para obter informações globais da organização
Distribuída Topologias Vários DW interligados através de uma rede com forte suporte a processamento distribuído Usuário pode conectar-se a qualquer DW Apresenta problemas de desempenho Será muito utilizada para dar suporte às aplicações para Web.
Modelagem Dimensional Conceitos Esquema estrela: Tabela de factos no centro ligada a um conjunto de tabelas dimensão Esquema floco de neve: Um refinamento do esquema estrela onde parte da hierarquia dimensional é normalizada num conjunto de tabelas dimensão mais pequenas, numa forma similar a um floco de neve. Constelações de factos: Tabelas de factos múltiplas partilham tabelas dimensão, formando um grupo de estrelas, logo chamado constelação de factos.
Modelo estrela Este esquema é chamado de estrela, por apresentar a tabela de fatos "dominante" no centro do esquema e as tabelas de dimensões nas extremidades.
Modelo estrela Permite projetar o BD da forma como o usuário pensa em usá-lo analiticamente Limitações: Tabela dimensional possui uma quantidade muito grande de atributos Soluções: Múltiplas tabelas de fatos Tabelas associativas Tabelas externas
Múltiplas tabelas de fato Modelo estrela
Tabelas associativas Modelo estrela
Tabelas externas Modelo estrela
Modelo Floco de Neve Extensão esquema estrela onde cada uma das "pontas" da estrela passa a ser o centro de outras estrelas
Duvidas? Evandro Deliberal evandro@deljoe.com.br
Obrigado Evandro Deliberal evandro@deljoe.com.br