Tecnologias Oracle para DW Visões Materializadas no Oracle

Documentos relacionados
Tecnologias Oracle para DW Visões Materializadas no Oracle

Tecnologias Oracle para DW Índice Bitmap no Oracle 11g EE. Cristiane Yaguinuma Débora Marrach Luana Annibal Vinícius Ferraz

Anderson Chaves Carniel Profa. Dra. Cristina Dutra de Aguiar Ciferri

Conceitos Básicos. Profa. Dra. Cristina Dutra de Aguiar Ciferri. Algoritmos e Estruturas de Dados II: Projeto

7 Resultados Experimentais

Modelagem Multidimensional

Modelagem Multidimensional - Nível Lógico -

SB-index: Um Índice Espacial baseado em Bitmap para Data Warehouse Geográfico

Gerenciamento de pedidos Teoria e Prática

Conceitos Básicos. Processamento Analítico de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri Prof. Dr. Ricardo Rodrigues Ciferri

Modelagem Multidimensional

Melhorando o Desempenho do Processamento de Consultas Drill-Across em Ambientes de Data Warehousing

Algoritmos de Junção Estrela em MapReduce

Modelagem Multidimensional - Nível Físico -

Ferramenta para Geração de Modelo Dimensional para Data

Processo de Criação de um Esquema Estrela

Data Warehouse. Debora Marrach Renata Miwa Tsuruda

Administração e Optimização de BDs

Modelagem Multidimensional - Nível Físico -

Bancos de Dados IV. Arquiteturas. Rogério Costa

SQL. Processamento Analítico de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri Prof. Dr. Ricardo Rodrigues Ciferri

Índice Bitmap e Indexação de Ambientes de Data Warehousing

SQL. Processamento Analítico de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri Prof. Dr. Ricardo Rodrigues Ciferri

Modelagem Multidimensional - Nível Físico -

Motivação e Conceitos Básicos

FastBit e Índice Bitmap de Junção. Anderson Chaves Carniel Prof. Thiago Luís Lopes Siqueira

Modelagem Multidimensional - Nível Físico -

SQL CREATE MATERIALIZED VIEW. Processamento Analítico de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri. OLAP: Modelagem Multidimensional

Bancos de Dados NoSQL

6º Congresso de Pós-Graduação AUTOMATIZAÇÃO DO PROCESSO DE CRIAÇÃO DE VISÕES PARA MODELAGEM DE DW

Arquitetura de um Ambiente de Data Warehousing

COMPUTAÇÃO EM NUVEM E PROCESSAMENTO MASSIVO DE DADOS Conceitos, tecnologias e aplicações

Trabalho Prático FUNDAMENTAÇÃO TEÓRICA - ORGANIZAÇÃO DE ARQUIVOS -

Avaliação do Star Schema Benchmark aplicado a bancos de dados NoSQL distribuídos e orientados a colunas. Lucas de Carvalho Scabora

Estrutura das Bases de Dados Relacionais Redução a tabelas de um Esquema ER Álgebra Relacional Operações Estendidas da Álgebra Relacional Modificação

Álgebra Relacional e SQL operações de interesse

Pontifícia Universidade Católica do Rio de Janeiro Laboratório de Tecnologia em Banco de Dados. Dwing Modelagem Multidensional

Conceitos Básicos de Banco de Dados

Data Warehousing: Conceitos Básicos e Arquitetura

Integração de Dados. Processamento Analítico de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri Prof. Dr. Ricardo Rodrigues Ciferri

Data Warehousing. João Gama

Arquitetura de um Ambiente de Data Warehousing

ANÁLISE E PROJETO DE BANCO DE DADOS

Procedência de Dados. Disciplina de Procedência de Dados e Data Warehousing. Profa. Dra. Cristina Dutra de Aguiar Ciferri

Arquitetura de um Ambiente de Data Warehousing

Álgebra Relacional e SQL

Paralelismo em Banco de Dados

Sistemas de Apoio à Decisão

Ordenação de tuplos order by

ABORDAGENS NÃO-INTRUSIVAS PARA SINTONIA DE

Aula 02. Evandro Deliberal

- SQL Linguagem de Manipulação de Dados

Management of Authorization Rules Using Conceptual Model

Oracle Comandos para Processamento de Transações

Rápida revisão do Modelo Relacional

A U L A 8 C O N S U L T A S U N I N D O D U A S O U M A I S T A B E L A S P A R T E 2

Ambiente de Data Warehouse Para Imagens Médicas Baseado Em Similaridade

As Instruções DML. As Instruções de manipulação de dados(dml) em SQL são representados por: Modificam o estado do banco de dados:

Samara Martins do Nascimento

Proposta de um Cubo de Dados para Imagens Médicas Baseado em Similaridade

Práticas de Contagem. - Data Warehouse. - Workflow. - Mudança de tipo. - Drop-down. - Mudança de tamanho de campo. - Mudança de domínio

Data Warehouse Toolkit: Telecomunicações e Utilitários (Cap. 10)

I-DWE: Uma Estrutura de Indexação para Data Warehouse Espacial

Data Warehousing: Conceitos Básicos e Arquitetura

Data Warehousing e Tecnologia OLAP para Data Mining

Modelação Dimensional 2

DATA WAREHOUSE. Prof. Fulvio Cristofoli. Armazenagem De Dados.

saída durante o runtime Usando Functions de uma Única Linha para Personalizar Relatórios Mostrar as diferenças entre as functions SQL de uma única

Uma abordagem lógica para base de dados multidimensionais

ORACLE 11 G INTRODUÇÃO AO ORACLE, SQL,PL/SQL

Prof. Fabiano Taguchi

Número: Nome:

Sistemas de Suporte à Decisão. Suporte à Decisão X Operacional. Banco de Dados Avançado. Data Warehouse. Data Warehouse & Data Mart

Otimização do Mapeamento de Consultas SPARQL para SQL

SB-index: Um Índice Espacial baseado em Bitmap para Data Warehouse Geográfico

Introdução ao Banco de Dados. Banco de Dados

INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DO RIO GRANDE DO NORTE INTRODUÇÃO A SQL

FRAGMENTAÇÃO VERTICAL DE DADOS EM DATA WAREHOUSES NO SISTEMA WEBD 2 W

Mapeamento: Modelo Entidade Relacionamento para o Modelo Relacional

Sistemas de Apoio à Decisão

Asterio K. Tanaka. Programa de Pós-Graduação em Informática. Interesses de Pesquisa

Introdução ao Data Mining. Sumário

A cláusula order by permite ordenar tuplos exemplo: listar por ordem alfabética os nomes dos clientes com empréstimo na agência de Perryridge

Introdução à Modelagem Dimensional para Datawarehouses

Designing Data Intensive Applications

Dwing. DW demanda SGBDs diferentes!

ACH2025. Aula 11. Visões. Professora: Fátima L. S. Nunes SISTEMAS DE INFORMAÇÃO

Tecnologias e Linguagens para Banco de Dados II. Funções de Agregação. Usando funções de agregação Funções de agregação com valores NULL

Inteligência nos Negócios (Business Inteligente)

Revisão / Exercícios. Prof. Márcio Bueno. {bd2tarde,bd2noited}@marciobueno.com

ACH2025. Laboratório de Bases de Dados Aula 15. Processamento de Consultas Parte 2 Otimização. Professora: Fátima L. S. Nunes SISTEMAS DE INFORMAÇÃO

Bancos (Bases) de Dados

Bruno Tomazela Orientadora: Profª Drª Cristina Dutra de Aguiar Ciferri. 04 de Abril de 2008

SEFAZ INFORMÁTICA Olap Prof. Márcio Hunecke

Sistemas de Informação e Bases de Dados 2012/2013. Linguagem SQL

Evaluating the Impact of Data Modeling on OLAP Applications using Relacional and Columnar DBMS

Transcrição:

Tecnologias Oracle para DW Visões Materializadas no Oracle Processamento Analítico de Dados Prof. Dra. Cristina Dutra de Aguiar Ciferri Prof. Dr. Ricardo Rodrigues Ciferri Bruno Tomazela Renata Miwa Tsuruda

Obje%vo Criar e u%lizar visões materializadas no Oracle Comparar o desempenho de consultas nas seguintes condições: DW Desnormalizado x DW Normalizado Tabela de Fatos x Visões Materializadas 2

Base de Dados Data Warehouses construídos com base no Star Schema Benchmark (SSB) [O NEIL, 2009] Geração de tabelas de dimensão e de fatos Fator de escala = 1 (aproximadamente 6 milhões de tuplas na tabela de fatos) 3

Data Warehouse Desnormalizado Redundância de dados (esquema estrela) Espera- se um bom desempenho na execução de consultas 4

Data Warehouse Desnormalizado Customer 30.000 linhas CustKey (PK) Name Address City Nation Region Phone MKT Segment Supplier 2.000 linhas SuppKey (PK) Name Address City Nation Region Phone Part LineOrder 200.000 linhas 6.001.171 linhas PartKey (PK) OrderKey (PK) LineNumber (PK) CustKey (FK) PartKey (FK) SuppKey (FK) OrderDate (FK) OrdPriority ShipPriority Quantity ExtendedPrice OrdTotalPrice Discount Revenue SupplyCost Tax CommitDate ShipMode Date 2.556 linhas DateKey (PK) Date DayOfWeek Month Year YearMonthNum YearMonth DayNumWeek DayNumInMonth Name MFGR Category Brand1 Color Type Size Container DayNumInYear MonthNumInYear WeekNumInYear SellingSeason LastDayInMonthFL DayNumInYear HollidayFL WeekDayFL 5

Data Warehouse Desnormalizado Hierarquias existentes: Dimensões Customer e Supplier Address < City < Na4on < Region Customer 30.000 linhas CustKey (PK) Name Address City Nation Region Phone Supplier 2.000 linhas SuppKey (PK) Name Address City Nation Region Phone MKT Segment 6

Data Warehouse Normalizado Minimização do espaço de armazenamento Espera- se que consultas levem mais tempo para serem executadas Operação de junção entre as tabelas Criação das tabelas City, Na4on e Region 7

Data Warehouse Normalizado City 250 linhas CityKey (PK) City NationKey (FK) Nation 25 linhas NationKey (PK) Nation RegKey (FK) Region 5 linhas RegKey (PK) Region Customer 30.000 linhas CustKey (PK) Name Address CityKey (FK) Phone MKT Segment Supplier 2.000 linhas SuppKey (PK) Name Address CityKey (FK) Phone Part LineOrder 200.000 linhas 6.001.171 linhas PartKey (PK) OrderKey (PK) LineNumber (PK) CustKey (FK) PartKey (FK) SuppKey (FK) OrderDate (FK) OrdPriority ShipPriority Quantity ExtendedPrice OrdTotalPrice Discount Revenue SupplyCost Tax CommitDate ShipMode Date 2.556 linhas DateKey (PK) Date DayOfWeek Month Year YearMonthNum YearMonth DayNumWeek DayNumInMonth Name MFGR Category Brand1 Color Type Size Container DayNumInYear MonthNumInYear WeekNumInYear SellingSeason LastDayInMonthFL DayNumInYear HollidayFL WeekDayFL 8

Visões Materializadas Consultas pré- computadas e armazenadas no banco de dados Aumento no desempenho do processamento de consultas Espaço de armazenamento adicional Custo para manter a consistência das visões Visões materializadas em DW Agregação das medidas da tabela de fatos GROUP BY nas dimensões 9

Visões Materializadas DW baseado no SSB (normalizado ou não) GROUP BY nas dimensões: Customer, Supplier, Date e Part Agregação das medidas SUM (Quan4ty) SUM (ExtendedPrice) SUM (Revenue) SUM (SupplyCost) Profit = SUM (Revenue SupplyCost) LineOrder OrderKey (PK) LineNumber (PK) CustKey (FK) PartKey (FK) SuppKey (FK) OrderDate (FK) OrdPriority ShipPriority Quantity ExtendedPrice OrdTotalPrice Discount Revenue SupplyCost Tax CommitDate ShipMode 10

Grafo de Derivação CSPD CSP CPD CSD SPD CS CP SP CD PD SD C S P D vazio Dimensões Customer (C) Supplier (S) Part (P) Date (D) 11

Grafo de Derivação CSPD LineOrder 6.001.171 linhas CSP CPD CSD SPD 6.001.169 6.001.121 5.994.978 6.001.149 CS CP SP CD PD SD 5.524.778 5.996.007 5.963.480 1.474.765 5.963.898 3.427.250 C S P D 20.000 2.000 200.000 2.406 vazio 12

Visões Materializadas - Exercício Criar uma visão materializada agrupando as medidas abaixo por Customer Quan4ty ExtendedPrice Revenue SupplyCost Profit = Revenue SupplyCost 13

Visões Materializadas - Exercício Criar uma visão materializada agrupando as medidas abaixo por Customer e Supplier Quan4ty ExtendedPrice Revenue SupplyCost Profit = Revenue SupplyCost 14

Visões Materializadas - Exercício Criar uma visão materializada agrupando as medidas abaixo por Customer, Supplier e Part Quan4ty ExtendedPrice Revenue SupplyCost Profit = Revenue SupplyCost 15

Consulta 1 Obje%vo: Comparar o desempenho de consultas no DW normalizado, DW não normalizado e suas visões materializadas Estratégia: Explorar a complexidade de consultas em bases normalizadas 16

Consulta 1 Retornar Nação de Customer Nação de Supplier Revenue Filtro: região de Customer = região de Supplier Agrupar por nação de Customer e nação de Supplier Ordenar por Nação de Customer (ascendente) Revenue (descendente) 17

Consulta 1 Filtro aplicado Região de Customer = Região de Supplier Tabela de Fatos U-lizada Não Normalizado Normalizado Customer_Supplier_V 6,39 s 7,74 s Lineorder 18,58 s 18,99 s 18

Consulta 2 Obje%vo: Comparar o desempenho de consultas no DW normalizado, DW não normalizado e suas visões materializadas Estratégia: Explorar a complexidade de consultas em bases normalizadas e a agregação existente nas tabelas 19

Consulta 2 Retornar Região de Customer Região de Supplier Brand1 de Part Revenue Profit = Revenue SupplyCost Filtro: sem filtro Agrupar por região de Customer, região de Supplier e brand1 de Part Ordenar por Brand1 (asc), Revenue (desc) e Profit (desc) 20

Consulta 2 Filtro aplicado Sem filtro Tabela de Fato Utilizada Não Normalizado Normalizado Customer_Supplier_Part_V 19,15 s 25,04 s Lineorder 25,37 s 35,40 s 21

Consulta 3 Obje%vo: Comparar o desempenho no DW não normalizado com uma visão materializada Estratégia: Explorar o baixo volume de dados da visão em relação à tabela de fatos 22

Consulta 3 Retornar a chave de Customer e as medidas Quan%ty ExtendedPrice Revenue SupplyCost Profit = Revenue SupplyCost Filtro: região de Customer = AMERICA Agrupar por chave de Customer Ordenar por chave de Customer 23

Consulta 3 Filtro u%lizado Região de Customer = AMERICA Tabela de Fato U-lizada Tempo Customer_V Customer_Supplier_V Customer_Supplier_Part_V Lineorder 0,32 s 7,49 s 7,81 s 14,87 s 24

Testes realizados 25

Testes realizados 26

Conclusão A normalização deteriora o desempenho de consultas, o que pode ser compensado por meio da u%lização de Visões Materializadas A u%lização de Visões Materializadas, quando escolhidas corretamente, aumenta o desempenho de consultas 27

Referências [HARINARAYAN, 1997] HARINARAYAN, V.; RAJARAMAN, A.; ULLMAN, J. D. Implemen%ng Data Cubes Efficiently. ACM SIGMOD Record, v. 25, n. 2, p. 205-216, 1996. [O'NEIL, 2009] O'NEIL, P.; O'NEIL, E.; CHEN, X. The Star Schema Benchmark. Preprint, Revision 3, 2009. Disponível em <hwp://www.cs.umb.edu/~poneil/starschemab.pdf>. Acesso em: 13 set. 2010. 28