Documentos relacionados
Data Warehousing e Tecnologia OLAP para Data Mining

Fundamentos da Análise Multidimensional

Modelagem Multidimensional: Esquema Estrela

Data Warehousing e Tecnologia OLAP para Data Mining

Banco de Dados - Senado

TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE

Módulo 4. Construindo uma solução OLAP

Introdução à Modelagem Dimensional para Datawarehouses

Data Warehousing. Leonardo da Silva Leandro. CIn.ufpe.br

Data Warehouses. Alunos: Diego Antônio Cotta Silveira Filipe Augusto Rodrigues Nepomuceno Marcos Bastos Silva Roger Rezende Ribeiro Santos

Processo Decisório, OLAP e Relatórios Corporativos OLAP E RELATÓRIOS CORPORATIVOS

Decisão Suporte: Warehousing, OLAP e Data Mining

Decisão Suporte: Warehousing, OLAP e Data Mining

Tópicos Avançados Business Intelligence. Banco de Dados Prof. Otacílio José Pereira. Unidade 10 Tópicos Avançados Business Inteligence.

Sistemas de Apoio à Decisão (SAD) - Senado

DATA WAREHOUSE. Rafael Ervin Hass Raphael Laércio Zago

Profº Aldo Rocha. Banco de Dados

Data Warehouse. Debora Marrach Renata Miwa Tsuruda

Interatividade aliada a Análise de Negócios

Arquiteturas de DW e Abordagens de Implementação. Arquiteturas e Abordagens de Implementação

Dado: Fatos conhecidos que podem ser registrados e têm um significado implícito. Banco de Dados:

Complemento I - Noções Introdutórias em Data Warehouses

Chapter 3. Análise de Negócios e Visualização de Dados

- A crescente necessidade de sistemas inteligentes e de aquisição de conhecimento levaram à necessidade de implementação de Data Warehouses.

Curso de Engenharia de Sistemas e Informática - 5º Ano. Ficha T. Prática n.º 1

Data Warehouse. Diogo Matos da Silva 1. Universidade Federal de Ouro Preto, Ouro Preto, MG, Brasil. Banco de Dados II

Banco de Dados Aula 1 Introdução a Banco de Dados Introdução Sistema Gerenciador de Banco de Dados

Aplicação A. Aplicação B. Aplicação C. Aplicação D. Aplicação E. Aplicação F. Aplicação A REL 1 REL 2. Aplicação B REL 3.

OLAP. Introdução. Cristina C. Vieira Departamento de Engenharia Eletrónica e Informática

BANCO DE DADOS DISTRIBUÍDOS e DATAWAREHOUSING

SAD orientado a DADOS

ADMINISTRAÇÃO DOS RECURSOS DE DADOS

Data Warehouses Uma Introdução

UNIVERSIDADE REGIONAL DE BLUMENAU CENTRO DE CIÊNCIAS EXATAS E NATURAIS CURSO DE CIÊNCIAS DA COMPUTAÇÃO (Bacharelado)

Adriano Maranhão BUSINESS INTELLIGENCE (BI),

DATA WAREHOUSE. Introdução

Programação com acesso a BD. Prof.: Clayton Maciel Costa clayton.maciel@ifrn.edu.br

Curso Superior de Tecnologia em Banco de Dados Disciplina: Projeto de Banco de Dados Relacional II Prof.: Fernando Hadad Zaidan

Resumo dos principais conceitos. Resumo dos principais conceitos. Business Intelligence. Business Intelligence

Banco de Dados. Uma coleção de dados relacionados [ELMASRI/NAVATHE]

Gerenciamento de Dados e Gestão do Conhecimento

Data Warehouse. Djenane Cristina Silveira dos Santos¹, Felipe Gomes do Prado¹, José Justino Neto¹, Márcia Taliene Alves de Paiva¹

Para construção dos modelos físicos, será estudado o modelo Relacional como originalmente proposto por Codd.

Banco de Dados. Aula 1 - Prof. Bruno Moreno 16/08/2011

Prof. Marcelo Machado Cunha

Introdução à Banco de Dados. Definição

Business Intelligence. BI CEOsoftware Partner YellowFin

ADMINISTRAÇÃO DOS RECURSOS DE DADOS

Data Warehouse Granularidade. rogerioaraujo.wordpress.com - rgildoaraujo@gmail.com 1

Modelo de dados do Data Warehouse

Banco de Dados Capítulo 1: Introdução. Especialização em Informática DEINF/UFMA Cláudio Baptista

Identificar as mudanças que acontecem na forma e no uso de apoio à decisão em empreendimentos de e-business. Identificar o papel e alternativas de

Planejamento e Orçamento

Uma aplicação de Data Warehouse para apoiar negócios

BANCO DE DADOS DISTRIBUÍDOS e DATAWAREHOUSING

Business Intelligence e ferramentas de suporte

Analysis Services. Manual Básico

SQL Comandos para Relatórios e Formulários. Laboratório de Bases de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri

05/06/2012. Banco de Dados. Gerenciamento de Arquivos. Gerenciamento de Arquivos Sistema Gerenciador de Banco de Dados Modelos de Dados

Planejamento Estratégico de TI. Prof.: Fernando Ascani

5 Estudo de Caso Material selecionado para o estudo de caso

Data Warehousing e OLAP

SISTEMA GERENCIADOR DE BANCO DE DADOS

Arquitetura física de um Data Warehouse

KDD E MINERAÇÃO DE DADOS:

Uma Ferramenta WEB para apoio à Decisão em Ambiente Hospitalar

Sistemas de Informação James A. O Brien Editora Saraiva Capítulo 5

GBC043 Sistemas de Banco de Dados. Introdução. Ilmério Reis da Silva UFU/FACOM

Universidade Federal de Santa Maria Curso de Arquivologia. Disciplina de Banco de Dados Aplicados à Arquivística. Versao 1.

Prof. Antonio Almeida de Barros Jr. Prof. Antonio Almeida de Barros Junior

Banco de Dados I Introdução

Sistema de Informação Gerencial baseado em Data Warehouse aplicado a uma software house

Tópicos Avançados de Banco de Dados (Business Intelligence)

Laudon & Laudon Essentials of MIS, 5th Edition. Pg. 1.1

Prof. Ronaldo R. Goldschmidt.

Business Intelligence. Business Intelligence. Business Intelligence. Business Intelligence. Business Intelligence

Bancos de Dados. Conceitos F undamentais em S is temas de B ancos de Dados e s uas Aplicações

INTRODUÇÃO. Diferente de Bando de Dados

Gerência de Redes: Consulta e Análise de Registros de Alarme Usando OLAP

ACOMPANHAMENTO TESTE 6. Fonte: Carlos Barbieri. Fonte: Carlos Barbieri

FUNDAMENTOS DE SISTEMAS DE INFORMAÇÃO

e-business A IBM definiu e-business como: GLOSSÁRIO

Faculdade Pitágoras PROJETO DE DW FASES FCS-EM PROJETOS DE DW 08/02/2012. Unidade 2.1. Curso Superior de Tecnologia: Banco de Dados

1- Identifique para cada questão abaixo, se o enunciado se refere a View, Stored Procedures, Trigger ou Function. Apenas um por questão.

Módulo 5. Implementando Cubos OLAP

Disciplina de Banco de Dados Introdução

Prova INSS RJ cargo: Fiscal de Rendas

Projeto de Data Warehousing sobre Informações em Saúde para dar Suporte a Análise de Faturamento Hospitalar

Capítulo 1 - A revolução dos dados, da informação e do conhecimento 1 B12 4

A MODELAGEM DE DADOS NO AMBIENTE DATA WAREHOUSE

Banco de Dados, Integração e Qualidade de Dados. Ceça Moraes cecafac@gmail.com

Sistemas de Banco de Dados

Sistemas Gerenciadores de Bancos de Dados

Sistemas Gerenciadores de Bancos de Dados

PROJETO DE BANCO DE DADOS -INTRODUÇÃO. Prof. Angelo Augusto Frozza, M.Sc.

IMPLANTAÇÃO DO DW NA ANVISA

Hoje é inegável que a sobrevivência das organizações depende de dados precisos e atualizados.

Transcrição:

OLAP (On-Line Analytical Processing) e Banco de Dados Multidimensionais

O que é OLAP? Processamento de dados Dedicado ao suporte a decisão Visualização de dados agregrados ao longo de várias dimensões analíticas (tempo, espaço, categoria de produto, quantidade vendida, preço...) Hierarquizadas em várias granularidades Armazenados em BD especializadas Modelo lógico de dados multidimensional Data Warehouse, Data Mart ou BD multidimensionais

Exemplos de consultas OLAP Quais foram os produtos mais vendidos no mês passado? A média salarial dos funcionários de informática com menos de 5 anos de experiência é maior do que a mesma para funcionários de telecomunicação? Qual foi o total de vendas o mês passado por região de vinhos tintos importados da Europa? Por quais semanas, quais produtos e quais cidades, a variação de venda de produtos em promoção em comparação da semana anterior sem promoção foi 15%?

Banco de dado operacional x data warehouse x data mart BD operacional: armazena valores correntes e atômicas resultantes diretas das últimas transações fins operacionais predefinidas ex, gerenciamento do estoque Data Mart: armazena réplicas históricas, não voláteis, agregadas ao longo de várias dimensões analíticas as vezes limpas, completadas e normalizadas em termos de escala e distribuição de dados de um único banco operacional fins analíticas abertas de escopo departamental Data Warehouse: integra e padroniza dados de vários: data marts BD operacionais BD de legado empacotados BD semi-estruturados extraídos de páginas web em um único repositório coerente e limpo de dados fins analíticas abertas de escopo organizacional

OLTP x OLAP Função Automatizar operações diárias Auxiliar tomada de decisão Usuário humano Cliente, Atendente, DBA Executivo, Analista, Eng. de Conhecimento Software cliente Aplicativos de inventário, Aplicativos de mineração de contabilidade,... dados, análise matemática,... Modelo lógico Relacional, Multidimensional, orientado por aplicações orientado por assuntos Granularidade Única e atômica Múltipla e agregada Temporalidade Apenas valor corrente Histórico dos valores, dos dados atualizada continuamente completado periodicamente Consultas Simples e predefinidas Complexas e ad-hoc Direção Tanto ler quanto escrever Essencialmente ler Envolve Acessos via índice e hash Junções, varreduras Registros 10 10 6 Usuários 10 3 [0-10] Bytes MB-GB GB-TB Prioridade Disponibilidade, eficiência Flexibilidade, interatividade Métrica Numero de transações Número e tempo de cada consulta

Modelo de dados multidimensional Cuboide: Espaço de dimensão N para análise de dado Dimensão analítica: Atributo geralmente categórico Escolhido como eixo no espaço analítico N-dimensional Campo de uma tabela do BD relacional fonte ex, tempo, local, produto, fornecedor Medida: Atributo geralmente numérico Escolhido como ponto no espaço analítico N-dimensional Agregação de valores de um campo de uma tabela do BD relacional fonte, calculada por group-by de outros campos da relação ex, valor total das vendas, valor média das vendas, quantidade vendidas,

Cuboide de dados: exemplo 4D Membros Células Dimensões Location Chicago New York Toronto Item HE Comp Tel Secu HE Comp Tel Secu HE Comp Tel Secu Time Q1 Supplier Sup1 Sup2 Q2 Sup1 Sup2 Q3 Sup1 Sup2 Q3 Sup1 Sup2 Q4 Sup1 Sup2

Cuboide de dados: exemplo 4D

Reticulado de Cuboides all 0-D (apex) cuboid time item location supplier 1-D cuboids time, item time, supplier item, supplier time, location item, location 2-D cuboids location, supplier time, item, location time, location, supplier time, item, supplier item, location, supplier 3-D cuboids time, item, location, supplier 4-D (base) cuboid

Tipologia e cálculo das medidas Medida distributiva: agregada por operação distributiva sobre dados atômicos ou medidas distributivas count, sum, max, min Medida algébrica: agregada por operações algébricas sobre dados atômicos ou medidas distributivas ou algébricas avg, standev Medida holística: agregada por operações sem limite constante sobre o espaço necessário para armazenar os sub-agregados median, mode, rank em grandes data warehouses, cálculo apenas aproximativo

Hierarquias conceituais: da multidimensionalidade a multigranularidade Hierarquia esquemática: implícita no esquema relacional do BD operacional fonte Hierarquia de agrupamento: Inexistente no esquema fonte, gerada para reduzir numerosidade Hierarquia: de ordem total ou parcial simples ou múltipla Construção de hierarquias: Manual via GUI Automática via clustering country province_or_state city street quarter month year day week (a) (b)

Exemplo de hierarquia conceitual esquemática location all all country Canada USA province_or_state British Columbia Ontario New York Illinois city Vancouver Victoria Toronto Ottawa New York Buffalo Chicago

Exemplo de hierarquia conceitual de agrupamento ($0 $1000] ($0 $200] ($200 $400] ($400 $600] ($600 $800] ($800 $1000] ($0 $100] ($200 $300] ($400 $500] ($600 $700] ($800 $900] ($100 $200] ($300 $400] ($500 $600] ($700 $800] ($900 $1000]

Operadores OLAP: navegação no espaço analítico multidimensional e multigranular Operadores de navegação ao longo das hierarquias conceituais: Roll-up, abstrai detalhes, aplicando ao cuboide corrente um operador de agregação dado ao longo de uma dimensão dada ex: região pais Drill-down, detalha o cuboide corrente desagregando ao longo de uma dimensão dada ex: região estado Drill-through, detalha os valores, ao longo de uma dimensão dada, além do nível mais baixo do cuboide, por consultas SQL diretamente na fonte relacional Drill-across, detalha vários cuboides com dimensões compartilhas, por desagregação ao longo de

Operadores OLAP: navegação no espaço analítico multidimensional e multigranular Operadores de navegação ao longo do reticulado de cuboides: Slice, extrair sub-cuboide das células verificando um restrições de valor ao longo de uma dimensão (ex, time = Q1) Dice, extrair sub-cuboide das células verificando um restrições de valor ao longo de várias dimensões (ex, time = Q1 e item = HE) Operadores de visualização dos resultados: Pivot, mudar os eixos da visualização (cross-tab ou 3D grahics) do resultado de uma consultas (ex, time na vertical no lugar da horizontal) Rank, ordena os membros de uma dimensão de acordo com a ordem da medida corrente (ex, time retrospectivo, começando pelo mais recentes primeiro); serve também para filtragem

Tor ont o 395 Vancouver t i me (quart ers) l ocat i on ( ci t i es) l ocat i on (ci t i es) i t em(t ypes) Chi cago New Yor k Tor ont o Q1 Q2 605 comput er home ent er t ai nment i t em ( t y pes) Vancouver 605 825 14 440 home phone ent er t ai nment home ent er t ai nment comput er phone secur i t y comput er i t em ( t ypes) pi vot di ce f or ( l ocat i on = ÒTor ont oó or ÒVancouver Ó) and ( t i me = ÒQ1Ó or ÒQ2Ó) and ( i t em = Òhome ent er t ai nment Ó or Òcomput er Ó) secur i t y Chi cago440 New Yor k Tor ont o 395 1560 Vancouver t i me (quart ers) l ocat i on ( ci t i es) Q1 Q2 Q3 Q4 605 825 14 400 sl i ce comput er secur i t y f or t i me = ÒQ1Ó home phone ent er t ai nment 605 825 14 400 New Yor kvancouver Chi cago Tor ont o l ocat i on ( ci t i es) i t em ( t y pes) t i me (mont hs) USA 2000 Canada t i me (quart ers) Q1 1000 l ocat i on ( count r i es) Q2 Q3 Q4 Chi c ago New Yor k Tor ont o Vancouver Januar y l ocat i on ( ci t i es) Febr uar y Mar ch Apr i l r ol l - up on l ocat i on ( f r om ci t i es t o count r i es) May June Jul y August Sept ember Oct ober November December comput er home phone ent er t ai nment dr i l l - down on t i me ( f r om quar t er s t o mont hs) secur i t y i t em ( t y pes) 150 100 150 comput er secur i t y home phone ent er t ai nment i t em ( t ypes)

Operadores OLAP: Roll-up e dice

Modelos físicos de dados para OLAP ROLAP (OLAP Relacional): Armazena dados em tabelas relacionais Reaproveita da tecnologia relacional, inclusive SQL Apenas apresenta dados de maneira multidimensional Permite acoplamento mais estreito com fontes OLTP (geralmente relacionais) Porém, necessita remodelagem prévio de dados em esquema especializados (estrela, floco de neve) MOLAP (OLAP Multidimensional): Armazena dados em arrays de dimensões N Necessita desenvolvimento de novas técnicas de otimização Sem acesso a granularidade mínima (i.e., única transações) HOLAP (OLAP Híbrido): Duplica dados Tabelas para dados atómicos Arrays para agregrados Flexível e rápido de execução Custoso em memória e desenvolvimento

Modelos de dados ROLAP: Estrela Uma tabela de fato com: uma coluna por medida agregada uma columa por chave de dimensão analítica N tabelas de dimensões, uma por dimensão analítica uma coluna por para cada atributo descrevendo a dimensão geralmente um atributo por nível na hierarquia conceitual Não normalizada: alguma redundância alguns níveis e membros aparecem em vários registros

Modelo estrela: exemplo time dimension table time_ key day day_of_the_week month quarter year sales fact table time_key item_key branch_key location_key dollars_sold units_sold item dimension table item_key item_name brand type supplier_type branch dimension table branch_key branch_name branch_type location dimension table location_key street city province_or_state country

Modelos de dados ROLAP: Floco de Neve Igual ao modelo estrela exceto pela normalização das tabelas de dimensões Vantagens Facilita evolução das dimensões Reduz espaço ocupado por elas Desvantagens: Aumenta tempo de resposta pela necessidade de junções Balanço: Espaço ganhado negligível já que espaço total do data mart é principalmente ocupado pela tabela de fato Modelo estrela mais popular

Modelo floco de neve: exemplo time dimension table time_key day day_of_week month quarter year sales fact table time_key item_key branch_key location_key dollars_sold units_sold item dimension table item_key item_name brand type supplier_key supplier dimension table supplier_key supplier_type branch dimension table branch_key branch_name branch_type location dimension table location_key street city_key city dimension table city_key city province_or_state country

Modelos de dados ROLAP: Constelação Várias tabelas de fato: um por assunto analítico Uma tabela dimensão por dimensão analítica de algum assunto As dimensões compartilhadas por vários assuntos não são duplicadas, mas apontadas por várias tabelas de fato Em geral: data mart modelado em estrela data warehouse modelado em constelação data mart integrado em um data warehouse por: uniformização das tabelas de dimensões dos vários data marts ligações entre elas e as tabelas de fato

Modelo constelação nstelação: exemplo time dim ension table time_key day day_of_week month quarter year sales fact table time_key item_key branch_key location_key dollars_sold units_sold item dim ension table item_key item_name brand type supplier_type shipping fact table item_key time_key shipper_key from_location to_location dollars_cost units_shipped shipper dim ension table shipper_key shipper_name location_key shipper_type branch dim ension table location dim ension table branch_key branch_name branc h_type location_key street city province_or_state country

Elementos de um modelo de dados lógico multidimensional BDMD: coleção de cuboides D-dimensionais Cuboides: D dimensões (ex, tempo, produto, espaço) C celulas de dados quantitativos atómicos = valores das medidas Dimensão: H hierarquias de N níveis de granularidade (ex, ano/mês/dias, ano/semestre/semana) Nível: E membros (ex, {Jan,..., Dez}, {1,..., 31}) Cellset: subcubo resultado de uma consulta OLAP selecionando: um cubo A do DBMD d dimensões de A como analíticas m dimensões de A como medidas para cada d: uma hierarquia h d um nivel n d com m d membros para cada m, uma função de agregação (sum, max, avg, var) Π m d celulas, cada uma contendo m dados agregados