Ana Carolina Salgado Fernando Fonseca Fábio Ávila PROJETO DE DATA WAREHOUSE
Local Atlanta Denver Uvas Produto Detroit Cerejas Melões Vendas Sales Maçãs Peras Pêras T1 T2 T3 Tempo T4 2
Local Membro Atlanta Denver Uvas Produto Detroit Cerejas Dimensão Melões Célula Maçãs Pêras Dia 1 Dia 2... Jan. Fev..... 1998 1999... Níveis T1 T2 T3 Tempo T4 Tempo Início Fim Trimestre 1 1 dejulho 30 de Setembro Trimestre 2 1 de Outubro 31 de Dezembro Propriedades Trimestre 3 1 de Janeiro 31 de Março Trimestre 4 1 de Abril 30 de Junho 3
Componentes de Modelagem do DW Tabelas de Dimensão Geográfica Produto Dimensão Tabela-Fato Medidas Geográfica Produto Tempo Und. $ Fatos Tempo 4
Dimensões comuns Tempo Útil quebrar em data e hora separadamente Ano calendário vs. Ano fiscal Propriedades mais específicas Existe apenas no DW Região (Bairro, Município, Estado, Cidade, País) Produto Classificação Cliente Contas / Centros de Custo 5
Esquema Estrela (Star) Dim_Funcionario Chave_Funcionario Codigo_Funcionario.. Dimension Table Dim_Tempo Chave_Tempo Data. Dim_Entregador Chave_Entreegador Codigo_Entregador.. Tabela Fato Fato_Vendas Chave_Tempo Chave_Funcionario Chave_Produto Chave_Cliente Chave_Entregador Qtd-Prod Valor-Total.. Dim_Cliente Chave_Cliente Codigo_Cliente.. Dim_Produto Chave_Produto Codigo_Produto. 6
Esquema Floco de Neve (Snowflake) Fato_Vendas Chave_Tempo Chave_Funcionario Chave_Produto Chave_Cliente Chave_Entregador RequiredDate. Tabela-Dimensão Principal Dim_Produto Chave_Produto Nome Tamanho CodigoMarca MarcaProduto CodigoMarca CodigoCategoria Tabelas-Dimensão Secundárias Categoria CodigoCategoria Nome 7
Hierarquias de Dimensão Hierarquia Consolidada Local da Loja Continente País Região Cidade Loja Local da Loja Continente Hierarquia em Separado Continente País País Região Região Cidade Cidade Loja Loja 01 8
Exemplo de um DW em Esquema Estrela com Dados 9
Dimensões Compartilhadas Na mesma tabela-fato: Role-Playing Dimension Dimensão 1 Dimensão 3 Dimensão 5 Fatos Fatos Dimensão 2 Dimensão 4 Dimensão 6 10
Minidimensões Caso de conformed dimension Agrupamento de atributos de dimensões Necessário produzir chave na tabela-fato Exemplos comuns Atributos de clientes Faixas de valores Dados demográficos 11
Visão Geral de Ciclos de Carga de DW Processo ETL extrai dados novos e modificados Processo ETL insere ou modifica dados no DW baseado em modificações Staging Database Data Warehouse Extrai mudanças das fontes de dados Atualiza o DW baseado nas modificações Usuários modificam dados em aplicações
Tipos de ETL Full Apaga todos os registros e carrega novamente. Incremental Partição Log: usa o log do DBMS ou um log construído por triggers ou pela aplicação. Sequential stamping: um carimbo numérico e incremental no registro marca os que forem sendo inseridos ou atualizados. Não resolve deletes, que precisariam ser tratados por outra estratégia. Snapshot: uma foto dos dois lados é tirada e comparada para gerar as operações de inserção, exclusão e atualização. Misto entre full e/ou incremental, com filtros verticais que definem partições. 13
Slowly Changing Dimensions Tipo 0: dimensão estática Tipo 1 Tipo 2 Carga efetuada uma única vez Dimensão atualizada ou recarregada. Atributos são sobrescritos. Gerenciamento através de tuplas com período de validade ou registro de versão. Permite mudanças ilimitadas 14
Slowly Changing Dimensions Tipo 3 Gerenciamento através de novos campos. O número de mudanças fica limitado. Tipo 4 Gerenciamento através de uma tabela auxiliar 15
Slowly Changing Dimensions Tipo 6 (1 + 2 + 3) Implementação Surrogate key (ao invés da Natural Key) é colocada na tabelafato. 16
Degenerate Dimensions Formadas a partir de um atributo da tabela-fato Dimensão modo de expedição (ship mode dimension) modo expedição (ship mode) origem da perna (leg origin) Dimensão expedidor (shipper dimension) Dimensão data (date dimension) Dimensão container (container dimension) destino da perna (leg destination) origem da viagem (trip origin) destino da viagem (trip destination) expedidor (shipper) remetente (consignor) data da viagem (voyage date) data da perna (leg date) item (item) contêiner (container) BOL # (degen) taxa (fee) tarifa (tariff) peso (weight) volume (cubes) Dimensão porto (port dimension) Dimensão remetente (consignor dimension) Dimensão item (item dimension) Bill of Landing Number. Documento emitido pela empresa de transporte ao transportador que funciona como um recibo do que está sendo transportado e como definição de contrato de transporte (citando os portos envolvidos). 17
Dados de Vendas Nota Fiscal Produto Subcategoria Categoria Cor Tamanho Data de venda Estado Cidade Valor Unitário Quantidade 5001 61863 Calça Vestiário Preto 40 03/07/2014 PE Recife 212 1 5002 26045 Boina Acessório Verde 03/07/2014 SP São Paulo 32 4 5003 42272 Social Calçados Azul 23 21/12/2014 PE Recife 115 2 5004 50090 Calça Vestiário Preto 42 12/01/2015 PE Caruaru 70 1 5005 20683 Social Calçados Branco 38 12/01/2015 SP Campinas 43 1 5006 41372 Camisa Vestiário Azul G 23/04/2015 RJ Rio de Janeiro 21 1 5007 14030 Casual Calçados Preto 41 23/04/2015 AM Manaus 84 1 5008 41219 Corrida Calçados Amarelo 38 01/05/2015 RN Natal 62 1 5009 31359 Boné Acessório Azul 01/05/2015 PE Recife 18 3 5010 57201 Corrida Calçados Amarelo 35 27/06/2015 RN Natal 359 1 5011 70500 Vestido Vestiário Vermelho P 12/09/2015 PB João Pessoa 298 1 18
Considerando os dados da tabela: Qual o esquema mais adequado de implementação: estrela ou floco de neve? Quais dimensões e medidas podem ser criadas? Quais devem ser as datas contidas na dimensão Data? Quais hierarquias podem ser criadas nas dimensões definidas anteriormente? Quais dimensões podem ser consideradas como Degenerate Dimension? Quais colunas podem ser consideradas como propriedades de dimensão ao invés de níveis? Qual o melhor estratégia de ETL, considerando que os dados de origem são mantidos apenas por 3 meses? 19
XML/A: XML for Analysis Padrão de indústria para soluções OLAP Proposta inicial: Microsoft, Hyperion e SAS Mais de 25 entidades aderiram posteriormente Versão 1.0 publicada em 2001 Baseado em outros padrões: XML, SOAP, HTTP. Encapsula outras linguagens: MDX, DMX e SQL. Especifica cubos, dimensões, tarefas administrativas, etc. Demo no SSDT (SQL Server Data Tools) 20
Cenários de Business Intelligence Relatórios Data Analysis Colaboração
Tendências em Business Intelligence Self-service e Analytics Adoção crescente por um grande número de organizações Soluções verticais
Papéis num Projeto de BI Analista de Negócio Gerente de Projeto Arquiteto de BI Desenvolvedor de BI Criador de Relatórios Information worker Testador Administrador de BI
Modelos de Dados Modelos Semânticos Apresenta dados para usuários como informação útil Agrega contexto e estrutura aos dados Modelagem de Dados Requer conhecimento do negócio e aspectos técnicos da solução É um processo iterativo Ajuda a garantir que a solução continua a suprir os requisitos
Business Intelligence Data Warehousing Tecnologias de BI da Microsoft Microsoft SQL Azure and the Windows Azure Marketplace Microsoft SQL Server Integration Services 1011000110 SQL Server Master Data Services SQL Server Data Quality Services SQL Server Database Engine SQL Server Analysis Services SQL Server Reporting Services Microsoft PowerPivot Technologies Microsoft Excel Data Mining Add-In PowerPivot Add-In MDS Add-In Reports, KPIs, and Dashboards Power View Microsoft SharePoint Server
Modelos Semânticos de BI no SSAS Power View Excel PowerPivot Third-Party Applications SharePoint Insights BI SEMANTIC MODEL Data Model Multidimensional Tabular Business Logic and Queries MDX DAX Data Access ROLAP MOLAP VertiPaq Direct Query
O que será usado no Projeto Hardware e SO Notebook com no mínimo 4GB de memória Windows 7 ou 8 SQL Server 2014 Download da versão de avaliação Enterprise de 180 dias Adicione seu usuário como administrador do SQL Server e do SSAS durante a instalação. Instale Analysis Services e Integration Services Power BI Desktop Ou Excel: 1 mês gratuito de avaliação + Power Query 27