Decisão Suporte: Warehousing, OLAP e Data Mining



Documentos relacionados
Decisão Suporte: Warehousing, OLAP e Data Mining

OLAP. Introdução. Cristina C. Vieira Departamento de Engenharia Eletrónica e Informática

Data Mining: Conceitos e Técnicas

Fundamentos da Análise Multidimensional

Banco de Dados - Senado

Chapter 3. Análise de Negócios e Visualização de Dados

TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE

DATA WAREHOUSE. Rafael Ervin Hass Raphael Laércio Zago

Bases de Dados 2013/2014. Sistemas de Apoio à Decisão: Armazéns de Dados e Prospecção de Dados. Helena Galhardas. Sumário

Adriano Maranhão BUSINESS INTELLIGENCE (BI),

Data Warehouses. Alunos: Diego Antônio Cotta Silveira Filipe Augusto Rodrigues Nepomuceno Marcos Bastos Silva Roger Rezende Ribeiro Santos

Tópicos Avançados Business Intelligence. Banco de Dados Prof. Otacílio José Pereira. Unidade 10 Tópicos Avançados Business Inteligence.

Data Warehousing. Leonardo da Silva Leandro. CIn.ufpe.br

Resumo dos principais conceitos. Resumo dos principais conceitos. Business Intelligence. Business Intelligence

Data Warehouse. Debora Marrach Renata Miwa Tsuruda

Sistemas de Apoio à Decisão (SAD) - Senado

Planejamento Estratégico de TI. Prof.: Fernando Ascani

Professor: Disciplina:

Aplicação A. Aplicação B. Aplicação C. Aplicação D. Aplicação E. Aplicação F. Aplicação A REL 1 REL 2. Aplicação B REL 3.

Módulo 4. Construindo uma solução OLAP

Criação e uso da Inteligência e Governança do BI

SQL Comandos para Relatórios e Formulários. Laboratório de Bases de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri

Modelo de dados do Data Warehouse

Prova INSS RJ cargo: Fiscal de Rendas

LISTA DE EXERCÍCIOS. 1. Binário: Bit: Menor unidade de dados; dígito binário (0,1) Byte: Grupo de bits que representa um único caractere

Data Warehouses Uma Introdução

Aprendizagem Simbólica MIACC 02

Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse

Ferramentas Livres de Armazenamento e Mineração de Dados

Curso de Engenharia de Sistemas e Informática - 5º Ano. Ficha T. Prática n.º 1

BANCO DE DADOS DISTRIBUÍDOS e DATAWAREHOUSING

FUNDAMENTOS DE SISTEMAS DE INFORMAÇÃO

SUMÁRIO 1. INTRODUÇÃO O QUE É DATA WAREHOUSE? O QUE DATA WAREHOUSE NÃO É IMPORTANTE SABER SOBRE DATA WAREHOUSE

DATA WAREHOUSE. Introdução

Prof. Júlio Cesar Nievola Data Mining PPGIa PUCPR

Gerenciamento de Dados e Gestão do Conhecimento

Como melhorar a tomada de decisão. slide 1

Interatividade aliada a Análise de Negócios

Identificar as mudanças que acontecem na forma e no uso de apoio à decisão em empreendimentos de e-business. Identificar o papel e alternativas de

Data Mining. Origem do Data Mining 24/05/2012. Data Mining. Prof Luiz Antonio do Nascimento

Sistemas de Informação James A. O Brien Editora Saraiva Capítulo 5

SAD orientado a DADOS

Data Warehousing e OLAP

Data Warehouse. Diogo Matos da Silva 1. Universidade Federal de Ouro Preto, Ouro Preto, MG, Brasil. Banco de Dados II

Complemento I - Noções Introdutórias em Data Warehouses

ADMINISTRAÇÃO DOS RECURSOS DE DADOS

Analysis Services. Manual Básico

Aula 02 Modelagem de Dados. Banco de Dados. Aula 02 Modelagem de Dados. Superior /2011 Redes Computadores - Disciplina: Banco de Dados -

Uma peça estratégica para o seu negócio

5 Estudo de Caso Material selecionado para o estudo de caso

Processo Decisório, OLAP e Relatórios Corporativos OLAP E RELATÓRIOS CORPORATIVOS

Projeto de Data Warehousing sobre Informações em Saúde para dar Suporte a Análise de Faturamento Hospitalar

Arquitetura física de um Data Warehouse

Arquiteturas de DW e Abordagens de Implementação. Arquiteturas e Abordagens de Implementação

Respostas da Lista de Exercícios do Módulo 1: Fundamentos dos SI. Resposta do Exercício 1

05/06/2012. Banco de Dados. Gerenciamento de Arquivos. Gerenciamento de Arquivos Sistema Gerenciador de Banco de Dados Modelos de Dados

Banco de Dados Aula 1 Introdução a Banco de Dados Introdução Sistema Gerenciador de Banco de Dados

PLANO DE ENSINO PRÉ-REQUISITOS: ENS

Prof. Ronaldo R. Goldschmidt. geocities.yahoo.com.br/ronaldo_goldschmidt

Sistemas Operacionais

OLAP em âmbito hospitalar: Transformação de dados de enfermagem para análise multidimensional

UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS

Diferenças da versão 6.3 para a 6.4

Data Warehousing e Tecnologia OLAP para Data Mining

Sistemas de Apoio à Decisão

Modelagem Multidimensional: Esquema Estrela

Banco de Dados, Integração e Qualidade de Dados. Ceça Moraes cecafac@gmail.com

Data Warehouse. Djenane Cristina Silveira dos Santos¹, Felipe Gomes do Prado¹, José Justino Neto¹, Márcia Taliene Alves de Paiva¹

Gerenciamento de Dados e Informação Fernando Castor

Sistema de Informação Gerencial baseado em Data Warehouse aplicado a uma software house

Introdução ao Data Mining. Sumário

ADM041 / EPR806 Sistemas de Informação

Sistemas de Banco de Dados Aspectos Gerais de Banco de Dados

Álgebra Relacional. Conjunto de operações que usa uma ou duas relações como entrada e gera uma relação de saída. Operações básicas:

Para construção dos modelos físicos, será estudado o modelo Relacional como originalmente proposto por Codd.

Sistema. Atividades. Sistema de informações. Tipos de sistemas de informação. Everson Santos Araujo

ADMINISTRAÇÃO DOS RECURSOS DE DADOS

Version Notes (Notas da versão) Versão

Gerência de Redes: Consulta e Análise de Registros de Alarme Usando OLAP

KDD E MINERAÇÃO DE DADOS:

Business Intelligence. Business Intelligence. Business Intelligence. Business Intelligence. Business Intelligence

INTELIGÊNCIA COMPUTACIONAL

Banco de Dados. Um momento crucial na organização dos dados é a forma com que cadastramos estes dados, a estrutura de armazenamento que criamos.

Prof. Ronaldo R. Goldschmidt.

Sistemas de Informação CEA460 - Gestão da Informação

Palavras-chave: On-line Analytical Processing, Data Warehouse, Web mining.

Banco de Dados. Aula 1 - Prof. Bruno Moreno 16/08/2011

Introdução à Banco de Dados. Definição

- A crescente necessidade de sistemas inteligentes e de aquisição de conhecimento levaram à necessidade de implementação de Data Warehouses.

Modelos de Sistema by Pearson Education. Ian Sommerville 2006 Engenharia de Software, 8ª. edição. Capítulo 8 Slide 1.

Banco de Dados. Uma coleção de dados relacionados [ELMASRI/NAVATHE]

Business Intelligence Um enfoque gerencial para a Inteligência do Negócio.Efrain Turban e outros.tradução. Bookman, 2009.

Inteligência de Negócio. Brian Cowhig

Curso Superior de Tecnologia em Banco de Dados Disciplina: Projeto de Banco de Dados Relacional II Prof.: Fernando Hadad Zaidan

Sistemas de Banco de Dados

Microsoft Analysis Service

Programação com acesso a BD. Prof.: Clayton Maciel Costa clayton.maciel@ifrn.edu.br

Fernando Albuquerque - fernando@cic.unb.br. Bancos de Dados. Fernando Albuquerque fernando@cic.unb.br

Business Intelligence e ferramentas de suporte

Transcrição:

Decisão Suporte: Warehousing, OLAP e Data Mining 7-1 Introdução Cada vez mais, organizações estão analizando dados correntes e históricos para identificar padrões úteis e suporte a estratégias de negócios. Ênfase na análise exploratória complexa, interativa, de enormes conjuntos de dados criados pela integração de dados através de todas as partes de uma empresa ; dados são razoavel/e estáticos. Contraste tal On-Line Analytic Processing (OLAP) com tradicional On-line Transaction Processing (OLTP): maioria das consultas longas, ao invés de uma transações curtas de atualização. 7-2 1

Tres Tendências Complementares Data Warehousing: Dados consolidados de muitas pesquisas em uma grande repositório. Sincronização períodicas de réplicas. Integração semântica. OLAPs: Consulta SQL complexas, consultas de negócio, baseadas em operações estilo planilha eletrônica e visão multidimensional de dados. Data Mining: Análise exploratória; essencialmente busca por tendências e anomalias interessantes. 7-3 Data Warehousing EXTERNAL DATA SOURCES Dados dados integrados em longo périodo de tempo frequentemente enriquecida com informações resumidas. Vários gigabytes a terabytes são comuns. Curto tempo de resposta esperado para consultas complexas; atualização adhoc incomum. Metadata Repository EXTRACT TRANSFORM LOAD REFRESH SUPPORTS DATA WAREHOUSE DATA MINING OLAP 7-4 2

Pontos em Warehousing Integração Semântica: Quando obtendo dados de multiplas fontes, deve eliminar impedâncias, e.g., moedas diferentes, esquemas. Fontes Heterogêneas: Deve acessar dados de um variado formato de fontes e repositórios. Carregar, Renovar, Eliminar: Deve carregar dados, periodicamente renová-los, e eliminar dados muito velhos. Gerenciamento das Metas de Dados: Deve manter fontes, tempo de carga e outras informações para todos dados no warehouse. 7-5 Modelo de Dados Multidimensional Coleção de medidas númericas que dependem de um conjunto de dimensões. E.g., medida Sales, dimensões Product (key: pid), Location (locid), and Time (timeid). Slice locid=1 is shown: pid 11 12 13 8 10 10 30 20 50 25 8 15 1 2 3 timeid locid pid timeid locid sales 11 1 1 25 11 2 1 8 11 3 1 15 12 1 1 30 12 2 1 20 12 3 1 50 13 1 1 8 13 2 1 10 13 3 1 10 11 1 2 35 7-6 3

MOLAP vs ROLAP Dados multidimensionais podem ser armazenados fisicamente em um array (em disco, persistente); chamado sistema MOLAP. Alternativamente, pode ser armazenado como uma relação; chamado sistema ROLAP. A relação principal, que relata dimensões para uma medida, é chamado tabela de fato. Cada dimensão pode ter atributos adicionais e uma tabela de dimensão associada. E.g.,Products(pid, pname, category, price) Tabelas de fatos são muito maiores do que tabelas de dimensões. 7-7 Hierarquias de Dimensões Para cada dimensão, o conjunto de valores pode ser organizado em uma hierarquia: PRODUCT TIME LOCATION year quarter country category week month state pname date city 7-8 4

Consultas OLAP Influenciada por SQL e por planilhas. Uma operação comum é agregar uma medida sobre uma ou mais dimensões. Achar total de vendas. Achar total de vendas para cada cidade ou cada estado. Achar os cinco produtos mais vendidos pelo total de vendas. Roll-up: Agregando em diferentes níveis de uma hierarquia de dimensão. E.g., Obtendo total de vendas por cidade, podemos rollup para obter vendas por estado. 7-9 Consultas OLAP Drill-down: O inverso de roll-up. E.g., Obtendo total de vendas por estado, pode drilldown para obter total de vendas por cidade. E.g., Pode também drill-down em diferente dimensão para obter total de vendas por produto para cada estado. Pivoting: Agregações em dimensões selecionadas. E.g., Pivoting em Location and Time WI CA resulta no seguinte (cross-tabulation): 63 81 144 Slicing and Dicing: Igualdades e seleções limitadas em uma ou mais dimensões. 1995 1996 1997 Total Total 38 107 145 75 35 110 176 223 339 7-10 5

Comparação Com Consultas SQL A cross-tabulation obtida por pivoting pode também ser computada usando consultas SQL: SELECT SUM(S.sales) FROM Sales S, Times T, Locations L WHERE S.timeid=T.timeid AND S.timeid=L.timeid GROUP BY T.year, L.state SELECT SUM(S.sales) FROM Sales S, Times T WHERE S.timeid=T.timeid GROUP BY T.year SELECT SUM(S.sales) FROM Sales S, Location L WHERE S.timeid=L.timeid GROUP BY L.state 7-11 O Operador CUBE Generalizando o exemplos anteriore, se há dimensões K, temos possíveis 2^k SQL GROUP BY consultas que podem ser geradas através de pivoting em um subconjunto de dimensões. CUBE pid, locid, timeid BY SUM Sales Equivalente a rolling up Sales em todos oitos subconjuntos do conjunto {pid, locid, timeid}; cada rollup corresponde á uma consulta SQL da forma: Muitos trabalhos recentes na optimização do operador CUBE! SELECT SUM(S.sales) FROM Sales S GROUP BY grouping-list 7-12 6

Projeto e Implementação Tabelas tipicamente em BCNF; tabela de dimensão não são normalizada. (Intuição?) Novas técnicas de indexação:índices Bit Map, índices Join, compressão, precomputação de agregações, etc. E.g., Índice Bit Map : Bit-vector: 1 bit para cada valor possível. Muitas consultas podem ser respondidas usando oper. bit-vector! sex custid name sex rating rating 112 Joe M 3 115 Ram M 5 10 10 01 10 119 Sue F 5 112 Woo M 4 00100 00001 00001 00010 7-13 Data Mining Este é um amplo termo aplicado para diferentes tipos de análises exploratórias. E.g., Regras de associação, modelos sequenciais, classificação, agrupamento, redes Bayesian networks para inferir casualidade, similaridade de sequencias, visualização. Relatado para trabalhar em Aprendizado de Máquinas, Programação Matemática e Estatística. Novas ênfases: conjuntos enormes de dados. 7-14 7

Regras de Associação Obtendo uma coleção de compras de clientes (ou transações ) com formato: transid custid date item price qty Queremos identificar regras da forma : {pen} => {ink} Uma transação na qual uma caneta foi comprada é provável ter envolvido também a compra de tinta. 7-15 Regras de Associação LHS => RHS Suporte: % de transações contendo todos os itens em LHS e RHS da regra. Confiança: Considera transações contendo todos itens LHS. Confidência é a % destas transações que também contêm todos itens RHS. Deve ser usado para predição com grande cautela; regras não refletem causalidade. Se usuários compram lápis mesmo quando compram canetas, temos a regra {pencil} => {ink}, Mas não há causalidade; oferecendo uma promoção em lápis no sentido de estimular vendas em tinta será um fracasso! 7-16 8

Computação Eficiente de Regras de Associação Objetivo: Achar eficientemente todas regras que satisfazem um dado suporte e nível de confiança. Idéia: Contar com a propriedade a priori que se um conjunto de itens tem suporte mínimo (I.e., é um conjunto de itens frequente) então todo subconjunto deste conjunto de itens também tem suporte mínimo. Iterativamente : Ache todos conjunto de itens frequente c/ 1 item ; depois todos conjuntos de itens frequentes c/ 2 itens, etc. em cada iteração k, somente considere conjunto de itens que contem algum k-1 conjunto de items frequente. Obtendo todos conjuntos de itens frequentes, achar as regras é fácil. 7-17 Resumo Suporte a decisão é uma sub-área de banco de dados emergindo e crescendo rapidamente. Envolve a criação de grande e consolidados repositórios de dados chamados data warehouses Warehouses são exploradas usando técnicas de análises sofisticadas: Consultas de SQL complexas, consultas multidimensionais OLAP (influenciada por ambos SQL e spreadsheets), e análises exploratórias (data mining). 7-18 9