Data Warehousing e Tecnologia OLAP para Data Mining



Documentos relacionados
Data Warehousing e Tecnologia OLAP para Data Mining


TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE

Fundamentos da Análise Multidimensional

DATA WAREHOUSE. Rafael Ervin Hass Raphael Laércio Zago

Decisão Suporte: Warehousing, OLAP e Data Mining

Decisão Suporte: Warehousing, OLAP e Data Mining

Data Warehousing. Leonardo da Silva Leandro. CIn.ufpe.br

Data Warehousing e OLAP

Modelagem Multidimensional: Esquema Estrela

Resumo dos principais conceitos. Resumo dos principais conceitos. Business Intelligence. Business Intelligence

Chapter 3. Análise de Negócios e Visualização de Dados

Data Warehouses. Alunos: Diego Antônio Cotta Silveira Filipe Augusto Rodrigues Nepomuceno Marcos Bastos Silva Roger Rezende Ribeiro Santos

Gerenciamento de Dados e Gestão do Conhecimento

Sistemas de Apoio à Decisão (SAD) - Senado

Curso de Engenharia de Sistemas e Informática - 5º Ano. Ficha T. Prática n.º 1

Banco de Dados - Senado

- A crescente necessidade de sistemas inteligentes e de aquisição de conhecimento levaram à necessidade de implementação de Data Warehouses.

BANCO DE DADOS DISTRIBUÍDOS e DATAWAREHOUSING

Arquiteturas de DW e Abordagens de Implementação. Arquiteturas e Abordagens de Implementação

Introdução à Modelagem Dimensional para Datawarehouses

Data Mining: Conceitos e Técnicas

OLAP em âmbito hospitalar: Transformação de dados de enfermagem para análise multidimensional

Aplicação A. Aplicação B. Aplicação C. Aplicação D. Aplicação E. Aplicação F. Aplicação A REL 1 REL 2. Aplicação B REL 3.

Tópicos Avançados Business Intelligence. Banco de Dados Prof. Otacílio José Pereira. Unidade 10 Tópicos Avançados Business Inteligence.

TECNOLOGIAS DA INFORMAÇÃO E COMUNICAÇÃO. SISTEMAS DE GESTÃO DE BASE DE DADOS Microsoft Access TECNOLOGIAS DA INFORMAÇÃO E COMUNICAÇÃO

Data Warehouse. Debora Marrach Renata Miwa Tsuruda

Data Warehouse Processos e Arquitetura

DATA WAREHOUSE. Introdução

Modelo de dados do Data Warehouse

Curso Superior de Tecnologia em Banco de Dados Disciplina: Projeto de Banco de Dados Relacional II Prof.: Fernando Hadad Zaidan

Data Warehouse. Diogo Matos da Silva 1. Universidade Federal de Ouro Preto, Ouro Preto, MG, Brasil. Banco de Dados II

Complemento I - Noções Introdutórias em Data Warehouses

O Que é Data Warehouse

Processo Decisório, OLAP e Relatórios Corporativos OLAP E RELATÓRIOS CORPORATIVOS

FUNDAMENTOS DE SISTEMAS DE INFORMAÇÃO

TECNOLOGIAS DE INFORMAÇÃO E COMUNICAÇÃO

SAD orientado a DADOS

Business Intelligence. Business Intelligence. Business Intelligence. Business Intelligence. Business Intelligence

OLAP. Introdução. Cristina C. Vieira Departamento de Engenharia Eletrónica e Informática

Conceitos básicos. Aplicações de banco de dados. Conceitos básicos (cont.) Dado: Um fato, alguma coisa sobre a qual uma inferência é baseada.

Uma peça estratégica para o seu negócio

Módulo 4. Construindo uma solução OLAP

Construir um modelo de dados é: - Identificar, Analisar e Registar a política da organização acerca dos dados

Faculdade Pitágoras PROJETO DE DW FASES FCS-EM PROJETOS DE DW 08/02/2012. Unidade 2.1. Curso Superior de Tecnologia: Banco de Dados

Universidade Federal de Santa Maria Curso de Arquivologia. Disciplina de Banco de Dados Aplicados à Arquivística. Versao 1.

Sistemas de Bases de Dados

Projecto Final de Licenciatura Engenharia Informática - Computadores e Sistemas. elaborado por: Filipe Manuel Marques Pinto Pinheiro

ADMINISTRAÇÃO DOS RECURSOS DE DADOS

Data Warehouse. Djenane Cristina Silveira dos Santos¹, Felipe Gomes do Prado¹, José Justino Neto¹, Márcia Taliene Alves de Paiva¹

Gestão da Informação

Planejamento Estratégico de TI. Prof.: Fernando Ascani

Profº Aldo Rocha. Banco de Dados

Função dos Sistemas de Bases de Dados Visão dos dados Modelos de dados Linguagem de Definição de Dados Linguagem de Manipulação de Dados Gestão de

Banco de Dados Aula 1 Introdução a Banco de Dados Introdução Sistema Gerenciador de Banco de Dados

Prof. Ronaldo R. Goldschmidt. geocities.yahoo.com.br/ronaldo_goldschmidt

Data Warehousing. Engª Informática e Computação FEUP. 27 de Maio de 2002 DW/ACC/FEUP

Módulo 4: Gerenciamento de Dados

Data Warehouse Granularidade. rogerioaraujo.wordpress.com - rgildoaraujo@gmail.com 1

Adriano Maranhão BUSINESS INTELLIGENCE (BI),

Globalização => as empresas se concentraram mais nos seus modelos de negócio e deixaram um pouco de

SUMÁRIO 1. INTRODUÇÃO O QUE É DATA WAREHOUSE? O QUE DATA WAREHOUSE NÃO É IMPORTANTE SABER SOBRE DATA WAREHOUSE

Criação e uso da Inteligência e Governança do BI

OLAP: Características, Arquitetura e Ferramentas

Desenvolvimento Cliente-Servidor 1

ISEP. Instituto Superior de Engenharia do Porto. Análise de Sistemas Informáticos

Banco de Dados I. Apresentação (mini-currículo) Conceitos. Disciplina Banco de Dados. Cont... Cont... Edson Thizon

Prof. Marcelo Machado Cunha

Banco de Dados. Aula 1 - Prof. Bruno Moreno 16/08/2011

Banco de Dados, Integração e Qualidade de Dados. Ceça Moraes cecafac@gmail.com

Professor: Disciplina:

05/06/2012. Banco de Dados. Gerenciamento de Arquivos. Gerenciamento de Arquivos Sistema Gerenciador de Banco de Dados Modelos de Dados

Data Warehouses Uma Introdução

Sistemas de Gestão de Bases de Dados

sistemas de informação nas organizações

Uma Base de Dados é uma colecção de dados partilhados, interrelacionados e usados para múltiplos objectivos.

Conceitos de Banco de Dados

GESTÃO. Gestão dos Processos e Operações Gestão de Sistemas e Tecnologias de Informação (dentro do capítulo 6) CLF

5 Estudo de Caso Material selecionado para o estudo de caso

ESCOLA SUPERIOR ABERTA DO BRASIL ESAB CURSO DE ENGENHARIA DE SISTEMAS RACHEL TEREZA MENEGAZZO

Dado: Fatos conhecidos que podem ser registrados e têm um significado implícito. Banco de Dados:

Prof.: Clayton Maciel Costa

Planejamento e Orçamento

Capítulo Laudon, Cap. 5

Banco de Dados I. Introdução. Fabricio Breve

PLANO DE ENSINO PRÉ-REQUISITOS: ENS

Sistemas de Informação James A. O Brien Editora Saraiva Capítulo 5

Arquitetura física de um Data Warehouse

CONSIDERAÇÕES SOBRE ATIVIDADES DE IDENTIFICAÇÃO, LOCALIZAÇÃO E TRATAMENTO DE DADOS NA CONSTRUÇÃO DE UM DATA WAREHOUSE

Roteiro. Conceitos e Arquitetura de Sistemas de Banco de Dados. Conceitos e Arquiteturas de Sistemas de Banco de Dados. BCC321 - Banco de Dados I

Analysis Services. Manual Básico

Uma análise de ferramentas de modelagem e gerência de metadados aplicadas ao projeto de BI/DW-UFBA

Prova INSS RJ cargo: Fiscal de Rendas

Administração de Sistemas de Informação I

Transcrição:

Data Warehousing e Tecnologia OLAP para Data Mining O que é um data warehouse? O modelo de dados multi-dimensional Arquitectura de data warehouses Implementação de data warehouses Mais aspectos da tecnologia multi-dimensional De data warehousing a data mining Base de Dados II 1 O que é um Data Warehouse? Definido de várias maneiras diferentes, mas não de uma forma rigorosa. Uma base dados de suporte a decisão que é mantida separadamente da base operacional da organização. Suporta processamento de informação fornecendo uma plataforma sólida para análise de dados históricos, consolidados. A data warehouse is a subject-oriented, integrated, time-variant, and nonvolatile collection of data in support of management s decision-making process. W. H. Inmon Data warehousing: O processo de construir e usar data warehouses Base de Dados II 2 1

Data Warehouse-Orientado por Tema Organizado em torno de temas importantes, tais como cliente, produto, vendas. Focado na modelação e análise de dados para quem toma decisões, em vez de operações diárias e processamento de transacções. Fornece uma visão simples e concisa sobre questões de um tema particular através da exclusão de dados que não são importantes no suporte ao processo de decisão. Base de Dados II 3 Data Warehouse Integrado Construído por integração de múltiplas e heterogéneas fontes de dados Bases de dados relacionais, ficheiros simples, registos de transacções on-line São aplicadas técnicas de limpeza de dados e integração de dados. É assegurada a consistência na convenção de nomes, codificação de estruturas, atributos de medidas, etc. entre diferentes fontes de dados E.g., Hotel price: currency, tax, breakfast covered, etc. Quando a informação é movida para o warehouse, é feita a conversão. Base de Dados II 4 2

Data Warehouse Variável Tempo O horizonte de tempo para um data warehouse é significativamente maior do que o de sistemas operacionais. Base de dados operacional: informação actual. Dados no data warehouse: fornece informação numa perspectiva histórica (e.g., últimos 5-10 anos) Cada estrutura chave no data warehouse Contém um elemento de tempo, explicita ou implicitamente Mas a chave de dados operacionais pode ou não conter um elemento de tempo. Base de Dados II 5 Data Warehouse Não-volátil Um repositório fisicamente separado de dados transformados do ambiente operacional. não ocorre actualização de dados operacional sobre a informação no data warehouse. não requer mecanismos de processamento de transacções, recuperação e controlo de concorrência Requer apenas duas operações de acesso a dados: Carregamento inicial de dados e acesso a dados. Base de Dados II 6 3

Data Warehouse vs. SGBD Heterogéneos Integração tradicional de BD heterogéneas: Construir conversores/mediadores sobre BD heterogéneas Abordagem orientada-a-consulta Quando uma consulta é feita a uma determinada BD, usa-se um meta-dicionário para traduzir a consulta em consultas apropriadas para outras BD s envolvidas, e os resultados são integrados num conjunto resposta global Filtragem de informação complexa, competição por recursos Data warehouse: orientada-por-actualizaçao, alta performance A informação de fontes heterogéneas é previamente integrada e guardada em warehouses para consulta e análise directa Base de Dados II 7 Data Warehouse vs. SGBD Operacionais OLTP (on-line transaction processing) Tarefa principal dos SGBD relacionais tradicionais Operaçoes diárias: vendas, inventário, saldos, produçao, salários, registo, contabilidade, etc. OLAP (on-line analytical processing) Tarefa principal de sistemas de data warehouse Análise de dados e tomada de decisões Características distintas (OLTP vs. OLAP): Orientaçao do sistema e utilizador: cliente vs. mercado Conteúdo dos dados: actuais, detalhados vs. históricos, consolidados Desenho da BD: ER + aplicaçao vs. estrela + tema Visao: actual, local vs. evolucionária, integrada Padroes de acesso: actualização vs. consultas read-only, complexas Base de Dados II 8 4

OLTP vs. OLAP utilizadores OLTP OLAP Escriturário, profissional IT Analista de mercado funçao Operaçoes diárias Suporte a decisoes desenho de BD Orientado-por-aplicaçao Orientado-por-tema dados correntes, actualizados detalhados, relacional simples isolado uso repetitivo ad-hoc históricos, sumarizados, multidimencionais integrados, consolidados acesso read/write Leitura exaustiva index/hash na chave prim. unid. de trabalho Transacçao simples e curta Consulta complexa # registos acedidos dezenas Milhoes #utilizadores milhares Centenas tamanho da BD 100MB-GB 100GB-TB métrica Transacçoes por minuto Consultas por minuto, resposta Base de Dados II 9 Porquê Separar um Data Warehouse? Alta performance para ambos os sistemas SGBD optimizados para OLTP: métodos de acesso, indexação, controlo de concorrência, recuperação Warehouse optimizado para OLAP: consultas OLAP complexas, visoes multi-dimensionais, consolidação. Funções diferentes e dados diferentes: Falta de dados: suporte à decisão requer dados históricos que BD s operacionais tipicamente não mantém Consolidaçao de dados: SD requer consolidação (agregação, sumarizaçao) de dados de fontes heterogéneas Qualidade de dados: Fontes diferentes usam tipicamente representações inconsistentes de dados, códigos e formatos que têm de ser reconciliados Base de Dados II 10 5

Data Warehousing e Tecnologia OLAP para Data Mining O que é um data warehouse? O modelo de dados multi-dimensional Arquitectura de data warehouses Implementação de data warehouses Mais aspectos da tecnologia multi-dimensional De data warehousing a data mining Base de Dados II 11 De Tabelas e Folhas de Cálculo para Cubos de Dados Um data warehouse é baseado num modelo de dados multidimensional que vê os dados na forma de um cubo de dados Um cubo de dados, tal como sales, permite que a informação seja modelada e vista em múltiplas dimensões Tabelas de dimensão, tais como item (item_name, brand, type), ou time(day, week, month, quarter, year) Tabelas de factos contém medidas (tais como dollars_sold) e chaves externas para cada tabela de dimensão relacionada Na literatura de data warehousing, um cubo n-d é chamado cubóide. O cubóide 0-D de topo, que contém o nível mais alto de sumariazação, é chamado cubóide apex. O reticulado de cubóides forma o cubo de dados. Base de Dados II 12 6

Cubo: Reticulado de cubóides Todos 0-D(apex) cubóide time item location supplier 1-D cubóides time,item time,location item,location location,supplier 2-D cubóides time,supplier item,supplier time,item,location time,location,supplier 3-D cubóides time,item,supplier item,location,supplier 4-D(base) cubóide time, item, location, supplier Base de Dados II 13 Modelação Conceptual de Data Warehouses Modelar data warehouses: dimensões & medidas Esquema estrela: Tabela de factos no centro ligada a um conjunto de tabelas dimensão Esquema floco de neve: Um refinamento do esquema estrela onde parte da hierarquia dimensional é normalizada num conjunto de tabelas dimensão mais pequenas, numa forma similar a um floco de neve. Constelações de factos: Tabelas de factos múltiplas partilham tabelas dimensão, formando um grupo de estrelas, logo chamado constelação de factos. Base de Dados II 14 7

Exemplo de Esquema Estrela time time_key day day_of_the_week month quarter year branch branch_key branch_name branch_type Medidas Tabela de Factos Sales time_key item_key branch_key location_key units_sold dollars_sold avg_sales item item_key item_name brand type supplier_type location location_key street city province_or_street country Base de Dados II 15 Exemplo de Esquema Floco de Neve time time_key day day_of_the_week month quarter year Tabela de Factos Sales time_key item_key item item_key item_name brand type supplier_key supplier supplier_key supplier_type branch branch_key branch_name branch_type Medidas branch_key location_key units_sold dollars_sold avg_sales location location_key street city_key city city_key city province_or_street country Base de Dados II 16 8

Exemplo de Constelação de Factos time time_key day day_of_the_week month quarter year branch branch_key branch_name branch_type Medidas Tabela de FactosSales time_key item_key branch_key location_key units_sold dollars_sold avg_sales item item_key item_name brand type supplier_type location location_key street city province_or_street country Tabela FactosShipping time_key item_key shipper_key from_location to_location dollars_cost units_shipped shipper shipper_key shipper_name location_key Base de Dados II shipper_type 17 Data Mining Query Language, DMQL: Primitivas da Linguagem Definição de Cubo (Tabela de Factos) define cube <cube_name> [<dimension_list>]: <measure_list> Definição de Dimensão ( Tabela de Dimensao ) define dimension <dimension_name> as (<attribute_or_subdimension_list>) Caso Especial (Tabelas de dimensão partilhadas) Primeira vez como definição de cubo define dimension <dimension_name> as <dimension_name_first_time> in cube <cube_name_first_time> Base de Dados II 18 9

Definição de Esquema Estrela em DMQL define cube sales_star [time, item, branch, location]: dollars_sold = sum(sales_in_dollars), avg_sales = avg(sales_in_dollars), units_sold = count(*) define dimension time as (time_key, day, day_of_week, month, quarter, year) define dimension item as (item_key, item_name, brand, type, supplier_type) define dimension branch as (branch_key, branch_name, branch_type) define dimension location as (location_key, street, city, province_or_state, country) Base de Dados II 19 Definição de esquema Floco de Neve em DMQL define cube sales_snowflake [time, item, branch, location]: dollars_sold = sum(sales_in_dollars), avg_sales = avg(sales_in_dollars), units_sold = count(*) define dimension time as (time_key, day, day_of_week, month, quarter, year) define dimension item as (item_key, item_name, brand, type, supplier(supplier_key, supplier_type)) define dimension branch as (branch_key, branch_name, branch_type) define dimension location as (location_key, street, city(city_key, province_or_state, country)) Base de Dados II 20 10

Definição de constelação de factos em DMQL define cube sales [time, item, branch, location]: dollars_sold = sum(sales_in_dollars), avg_sales = avg(sales_in_dollars), units_sold = count(*) define dimension time as (time_key, day, day_of_week, month, quarter, year) define dimension item as (item_key, item_name, brand, type, supplier_type) define dimension branch as (branch_key, branch_name, branch_type) define dimension location as (location_key, street, city, province_or_state, country) define cube shipping [time, item, shipper, from_location, to_location]: dollar_cost = sum(cost_in_dollars), unit_shipped = count(*) define dimension time as time in cube sales define dimension item as item in cube sales define dimension shipper as (shipper_key, shipper_name, location as location in cube sales, shipper_type) define dimension from_location as location in cube sales define dimension to_location as location in cube sales Base de Dados II 21 Hierarquias conceptuais: Dimensão (localização) Todos todos região Europe... North_America país Germany... Spain Canada... Mexico cidade Frankfurt... Vancouver... Toronto escritório L. Chan... M. Wind Base de Dados II 22 11

Dados Multi-dimensionais Volume de vendas como função de produto, mês, região Região Dimensões: Produto, Localização, Tempo Caminhos de sumarização hierárquicos Indústria Região Ano Produto Categoria País Trimestre Produto Cidade Mes Semana Escritório Dia Mês Base de Dados II 23 Exemplo de Cubo de Dados TV PC VCR sum Produto Data 1Qtr 2Qtr 3Qtr 4Qtr sum Total de vendas anual de TV nos U.S.A. U.S.A Canada Mexico País sum Base de Dados II 24 12

Cubóides correspondentes ao Cubo todos produto data país produto, data produto, país data, país 0-D(apex) cubóide 1-D cubóides 2-D cubóides produto, data, país 3-D(base) cubóide Base de Dados II 25 Pesquisa num Cubo de Dados Visualização Capacidades OLAP Manipulação interactiva Base de Dados II 26 13

Operações OLAP típicas Roll up (drill-up): sumarizar dados por subida na hierarquia ou por redução de uma dimensão Drill down (roll down): inverso de roll-up de sumários de nível mais alto para sumários de nível mais baixo ou mais detalhados, ou pela introdução de dimensões Slice and dice: project e select Pivot (rotate): reorientar o cubo, visualização, de 3D para séries de planos 2D Outras operações drill across: envolvem mais do que uma tabela de factos drill through: do nível mais baixo do cubo para as tabelas relacionais de back-end (usando SQL) Base de Dados II 27 Data Warehousing e Tecnologia OLAP para Data Mining O que é um data warehouse? O modelo de dados multi-dimensional Arquitectura de data warehouses Implementação de data warehouses Mais aspectos da tecnologia multi-dimensional De data warehousing a data mining Base de Dados II 28 14

Desenho de Data Warehouses Quatro perspectivas de desenho de um data warehouse Perspectiva Top-down Permite a selecção da informação relevante necessária para o data warehouse Perspectiva de Origem de Dados Mostra a informação a ser adquirida, guardada e gerida por sistema operacionais Perspectiva Data warehouse consiste em tabelas de factos e tabelas dimensão Perspectiva de Consulta de Análise vê a perspectiva dos dados no warehouse do ponto de vista do utilizador final Base de Dados II 29 Processo de desenho de Data Warehouses Abordagens Top-down, bottom-up ou uma combinaçao de ambos Top-down: Começa com o desenho e planeamento geral Bottom-up: Começa com experencias e prototipos Do ponto de vista da engenharia de software Cascata: Análise estruturada e sistematica em cada passo antes de prosseguir para o proximo Espiral: Geraçao rapida e incremental de funcionalidades do sistema Processo de desenho típico de data warehouse Escolher um processo de negócio a modelar, e.g., encomendas, facturas, etc. Escolher o grao (nível de dados atómico) do processo de negócio Escolher as dimensoes que estao associadas a cada tabela de factos Escolher as medidas presentes em cada registo da tabela de factos Base de Dados II 30 15

Modelação de um Data Warehouse Suponha que uma empresa concessionária de auto-estradas pretende construir uma BD para suportar o registo das viagem efectuadas. Crie um Modelo relacional para uma BD operacional Crie um Modelo estrela para um DW Base de Dados II 31 Arquitectura Multi-Camada other sources Operational DBs Metadata Extract Transform Load Refresh Monitor & Integrator Data Warehouse OLAP Server Serve Analysis Query Reports Data mining Data Marts Data Sources Data Storage OLAP Engine Front-End Tools Base de Dados II 32 16

Arquitecturas OLAP Relational OLAP (ROLAP) Usar SGBD relationais ou relacionais extendidos para guardar e gerir os dados do data warehouse e aplicaçoes OLAP para suportar análise complexa de dados. Incluem optimizaçao dos SGBD de backend, implementaçao de navegaçao baseada em agregaçao, assim como mais ferramentas e serviços. Maior escalabilidade Multidimensional OLAP (MOLAP) Baseado em matrizes de armazenamento multidimensionais (sparse matrix techniques) Indexaçao rápida sobre dados sumarizados pre-cálculados Hybrid OLAP (HOLAP) Baixo nível: relacional, alto-nível: matriz Base de Dados II 33 Esquema Estrela para Vendas de Veículos Location LocID Continent Country Product ProductId Vehicle kind Vehicle size Sales_facts LocationId TimeId ProductId Vehicles Sold Time TimeId Year Half year Base de Dados II 34 17

Representação relacional do cubo Base de Dados II 35 Representação relacional do cubo Base de Dados II 36 18

O cubo OLAP Base de Dados II 37 Expressões SQL para as operações OLAP Base de Dados II 38 19

Expressões SQL para as operações OLAP Base de Dados II 39 Representação matricial do cubo Base de Dados II 40 20

Operador Cube Definiçao do cubo e cálculo em DMQL define cube sales[item, city, year]: sum(sales_in_dollars) compute cube sales Transformar numa linguagem tipo SQL- (com um novo operador cube by, introduzidopor Gray et al. 96) () SELECT item, city, year, SUM (amount) FROM SALES CUBE BY item, city, year (city) (item) (year) E necessario calcular os seguintesgroup-bys (date, product, customer), (city, item) (city, year) (item, year) (date,product),(date, customer), (product, customer), (date), (product), (customer) () (city, item, year) Base de Dados II 41 21