Complemento I - Noções Introdutórias em Data Warehouses



Documentos relacionados
Data Warehouses Uma Introdução

Data Warehousing. Leonardo da Silva Leandro. CIn.ufpe.br

KDD E MINERAÇÃO DE DADOS:

DATA WAREHOUSE. Introdução

05/06/2012. Banco de Dados. Gerenciamento de Arquivos. Gerenciamento de Arquivos Sistema Gerenciador de Banco de Dados Modelos de Dados

DATA WAREHOUSE. Rafael Ervin Hass Raphael Laércio Zago

Banco de Dados - Senado

Prof. Ronaldo R. Goldschmidt.

Banco de Dados. Um momento crucial na organização dos dados é a forma com que cadastramos estes dados, a estrutura de armazenamento que criamos.

Resumo dos principais conceitos. Resumo dos principais conceitos. Business Intelligence. Business Intelligence

Manual do Usuário - ProJuris Web - Biblioteca Jurídica Página 1 de 20

Manual Configuração Contábil

Planejamento Estratégico de TI. Prof.: Fernando Ascani

Metadados. 1. Introdução. 2. O que são Metadados? 3. O Valor dos Metadados

SISTEMAS DE INFORMAÇÃO GERENCIAIS

perspectivas e abordagens típicas de campos de investigação (Senra & Camargo, 2010).

Resolução da lista de exercícios de casos de uso

Soluções de Inteligência de Negócio e Mercado

Plano de Negócios. Por que escrever um Plano de Negócios?

INSTITUTO TECNOLÓGICO DE AERONÁUTICA DIVISÃO DE ENGENHARIA ELETRÔNICA LABORATÓRIO DE GUERRA ELETRÔNICA

e-business A IBM definiu e-business como: GLOSSÁRIO

MANUAL DO GERENCIAMENTO DE RISCO OPERACIONAL

TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE

PASSO 8 IMPLANTANDO OS CONTROLES

Prof. Ronaldo R. Goldschmidt. geocities.yahoo.com.br/ronaldo_goldschmidt

SAD. Paulo Silva, Rodolfo Ribeiro, Vinicius Tavares

Simulado Banco de Dados I Bimestre 1 Capítulo 1 Projeto Lógico de Banco de Dados

agility made possible

MER Modelo de entidade e Relacionamento. Prof. Me. Hélio Esperidião

Data Warehouse Granularidade. rogerioaraujo.wordpress.com - rgildoaraujo@gmail.com 1

MANUAL SICCL SQL SRTVS 701 Bloco O Ed. MultiEmpresarial Sala 804 Brasília/DF CEP Fone/Fax: (061) implanta@conselhos.com.

3. Fase de Planejamento dos Ciclos de Construção do Software

SISTEMA BRENA DE AUTOMAÇÃO COMERCIAL

Núcleo de Pós Graduação Pitágoras

Data Warehouse. Diogo Matos da Silva 1. Universidade Federal de Ouro Preto, Ouro Preto, MG, Brasil. Banco de Dados II

Astra LX Registro de Pacientes e Médicos Guia para o acesso aos registros de Pacientes e Médicos e eliminação de dados duplicados no AstraLX

PROCEDIMENTOS DE AUDITORIA INTERNA

Data Warehouse. Debora Marrach Renata Miwa Tsuruda

MANUAL DE UTILIZAÇÃO. Produtos: Saúde Pró Faturamento Saúde Pró Upload. Versão:

SUMÁRIO 1. INTRODUÇÃO O QUE É DATA WAREHOUSE? O QUE DATA WAREHOUSE NÃO É IMPORTANTE SABER SOBRE DATA WAREHOUSE

Prof. Antonio Almeida de Barros Jr. Prof. Antonio Almeida de Barros Junior

Banco de Dados. MER Estendido. Profa. Flávia Cristina Bernardini

III. Projeto Conceitual de Banco de Dados. Pg. 1 Parte III (Projeto Conceitual de Banco de Dados)

Tópicos Avançados Business Intelligence. Banco de Dados Prof. Otacílio José Pereira. Unidade 10 Tópicos Avançados Business Inteligence.

Palavras-chave: On-line Analytical Processing, Data Warehouse, Web mining.

MODELO PARA ENVIO DE CONTRIBUIÇÕES REFERENTE À AUDIÊNCIA PÚBLICA Nº /200X. NOME DA INSTITUIÇÃO: Ernst & Young Terco (BRADLEI RICARDO MORETTI)

5 Estudo de Caso Material selecionado para o estudo de caso

Interatividade aliada a Análise de Negócios

MANUAL DATAPRONERA INSTRUÇÕES DE USO

5o ENCONTRO DE USUÁRIOS DE BI

Perfis. de Investimento

Adriano Maranhão BUSINESS INTELLIGENCE (BI),

Renda Fixa Debêntures. Renda Fixa. Debênture

ESCO COMO INSTRUMENTO DE FOMENTO A EFICIÊNCIA ENERGÉTICA

PROJETO DE COOPERAÇÃO TÉCNICA INTERNACIONAL. Projeto 914 BRA PRODOC-MTC/UNESCO DOCUMENTO TÉCNICO Nº 03

Administração e Finanças

4- PROJETO DE BANCO DE DADOS

COTAÇÃO DE COMPRAS COM COTAÇÃO WEB

DISCIPLINAS DO CURSO INFORMÁTICA ÊNFASE GESTÃO DE NEGÓCIOS. PROFESSOR: DOUGLAS DUARTE DISCIPLINA: BDA1-3º SEMESTRE. Modelagem de Dados

I Requisitos de um modelo conceitual: - clareza (facilidade de compreensão) - exatidão (formal)

Modelo de dados do Data Warehouse

CURSO: Orientações. MÓDULOS: Orientações/Calendário/Links. Curso 3/ Contato com o suporte: Nome.: Empresa.: Data.: / / .

Extração de Conhecimento & Mineração de Dados

DESENVOLVIMENTO DE UM REPOSITÓRIO DE DADOS DO FUTEBOL BRASILEIRO

O modelo Entidade-Relacionamento. Agenda: -Modelagem de dados utilizando O Modelo Entidade-Relacionamento

SISTEMA DE SERVIÇOS DE INFRA-ESTRUTURA DA UFRGS

Aula II Introdução ao Modelo de Entidade-Relacionamento

A SEGUIR ALGUMAS DICAS PARA O DESENVOLVIMENTO DE UM PROJETO CIENTÍFICO

Todos nossos cursos são preparados por mestres e profissionais reconhecidos no mercado, com larga e comprovada experiência em suas áreas de atuação.

FAQ: Parametrização para Contabilização

SEI Superintendência de Estudos Econômicos e Sociais da Bahia Av Luiz Viana Filho, 435-4ª avenida, 2º andar CAB CEP Salvador - Bahia Tel.

SIE - SISTEMA DE INFORMAÇÕES PARA O ENSINO CADASTRO DE FUNCIONÁRIOS

paradigma WBC Public - compra direta Guia do Fornecedor paradigma WBC Public v6.0 g1.0

Donare Sistema de Gerenciamento de Ações Humanitárias

Módulo 9 A Avaliação de Desempenho faz parte do subsistema de aplicação de recursos humanos.

(Capitais e Interior) (Demais Localidades) (Capitais e Interior) Golden Fone (SAC)

TRABALHO DE BANCO DE DADOS POSTGRES MINI-MUNDO: BD PARA GERENCIAMENTO DE UNIDADES DE CONSERVAÇÃO

Unidade: Decisão de Investimento de Longo Prazo. Unidade I:

AULA 5 O E-BUSINESS E OS SISTEMAS DE APOIO ÀS DECISÕES E DE INFORMAÇÃO EXECUTIVA

COMECE A TRABALHAR COM A INTERNET

Há 17 anos no mercado, a PREMIUN Tecnologia desenvolve soluções para o gerenciamento e controle de gastos em telefonia.

O Uso da Inteligência Competitiva e Seus Sete Subprocessos nas Empresas Familiares

Sobre o que falaremos nesta aula?

Sistemas de Informação

Data Mining: Conceitos e Técnicas

O Sistema foi inteiramente desenvolvido em PHP+Javascript com banco de dados em MySQL.

TOTVS BA Guia de Customização Linha Logix

Inventário WMS. SCM Concept (47)

ESTENDENDO A UML PARA REPRESENTAR RESTRIÇÕES DE INTEGRIDADE

Módulo 4. Construindo uma solução OLAP

Prof. Fernando Lopes. Unidade II. Administração de Cargos e

REGISTRO DE PROJETOS

UML & Padrões Aula 3. UML e Padrões - Profª Kelly Christine C. Silva

1. REGISTRO DE PROJETOS

Roteiro para apresentação do Plano de Negócio. Preparamos este roteiro para ajudá-lo(a) a preparar seu Plano de Negócio.

Transcrição:

Complemento I - Noções Introdutórias em Data Warehouses Esse documento é parte integrante do material fornecido pela WEB para a 2ª edição do livro Data Mining: Conceitos, técnicas, algoritmos, orientações e aplicações.

Motivação e Conceitos Básicos Com o advento da globalização, a competitividade entre as empresas no mundo dos negócios vem aumentando intensamente nos últimos anos. As empresas contemporâneas, cientes da necessidade de adaptação a este cenário, têm investido na captação, armazenamento, tratamento e aplicação da informação como diferencial estratégico e competitivo na condução dos negócios. Recursos da área da Tecnologia da Informação têm sido fundamentais neste processo. Em particular, muitos sistemas de informação vêm sendo desenvolvidos e utilizados em diversas aplicações. A maioria dos sistemas de informação opera sobre bancos de dados chamados transacionais. Estes bancos de dados contêm informações detalhadas que permitem às empresas acompanhar e controlar processos operacionais. Por outro lado, existe uma demanda cada vez maior por sistemas de informação que auxiliem no processo de tomada de decisão. Gerentes e executivos necessitam de recursos computacionais que forneçam subsídios para apoio ao processo decisório, sobretudo nos níveis tático e estratégico das empresas. Conceitualmente, um Data Warehouse é um conjunto de dados baseado em assuntos, integrado, não-volátil, variável em relação ao tempo, e destinado a auxiliar em decisões de negócios. A orientação a assunto, aliada ao aspecto de integração, permite reunir dados corporativos em um mesmo ambiente de forma a consolidar e apresentar informações sobre um determinado tema. Os dados são não voláteis, pois uma vez carregados no datawarehouse, estes não podem mais sofrer alterações. Cada conjunto de dados, ao ser carregado em um datawarehouse fica vinculado a um rótulo temporal que o identifica dentre os demais. Cada rótulo temporal fica associado, portanto, a uma visão instantânea e sumarizada dos dados operacionais que corresponde ao momento de carga do data warehouse. Desta forma, na medida em que o data warehouse vai sendo carregado com tais visões, pode-se realizar análises de tendências a partir dos dados. Convém reforçar as diferenças entre data warehouses e bases de dados operacionais. Uma base de dados operacional é um banco de dados clássico que contém informações detalhadas a respeito do negócio em nível transacional. Nas bases de dados tradicionais, normalmente, os dados encontram-se voltados para a representação de detalhes operacionais corporativos. Em data warehouses, os dados

encontram-se consolidados de forma a prestar informações para os níveis gerencial e estratégico das empresas. Em geral, os data warehouses devem disponibilizar dados sobre a história da empresa de forma a viabilizar consultas, descoberta de tendências e análises estratégicas a partir dos dados. O exemplo abaixo procura ilustrar, de forma simples, o exposto acima. Considere uma base de dados transacional relacional contendo os detalhes de cada venda realizada por seus vendedores durante um mês. A cardinalidade desta relação representa o número de vendas realizadas durante o mês. Imagine, a título de exemplo, que tenham ocorrido 1000 vendas durante o mês. Venda(Seqüencial, Data, Hora, Vendedor, Valor) Um data warehouse sobre Venda, gerado a partir do exemplo acima poderia conter um resumo sobre as vendas realizadas: Venda_Mensal(Mês, Ano, Vendedor, Total) Convém perceber que nesta estrutura existiria apenas uma tupla referente a cada vendedor no mês, indicando o total vendido. O nível de consolidação de informação varia em função da necessidade de cada aplicação e deve ser definido durante o processo de modelagem e construção do data warehouse. A granularidade de uma informação corresponde ao grau de consolidação de informação envolvido. Por exemplo, a relação Venda acima apresenta uma maior granularidade do que a relação Venda_Mensal. O detalhamento dos dados na primeira relação é maior do que na segunda. Sistemas de Informação que utilizam bases de dados transacionais são muitas vezes denominados de aplicações OLTP (On-Line Transactional Processing). Por outro lado, Sistemas de Informação que acessam datawarehouses são usualmente chamados de aplicações OLAP (On-Line Analytical Processing). Em geral, estes últimos permitem visualização e navegação pelos dados sob diversas perspectivas e níveis de detalhe. A seguir estão relacionados alguns exemplos de aplicações em datawarehouses: Pesquisa de fraudes;

Análise de crédito; Análise de sazonalidade da produção; Análise de risco; Integração de Informações de Clientes; Rentabilidade de Clientes e Produtos; Análises de Resultados de Vendas; Análises de Ações de Marketing.

Nível Interm. Data Warehou se Em geral, a passagem de dados de um ambiente operacional legado para um data warehouse não é tão simples quanto uma mera extração e carga de dados. Muitas vezes há a necessidade de transformação e consolidação dos dados. Existem ferramentas que permitem o chamado processo de ETC (Extração, Transformação e Carga) dos dados, muito úteis para auxiliar no processo de criação de data warehouses.o processo de extração dos dados oriundos de diversas fontes de dados operacionais, transformação e carga em datawarehouses normalmente prevê um estágio intermediário de preparação dos dados, sincronização e integração dos dados. Durante este estágio, os dados permanecem em uma área de armazenamento intermediária entre as bases de dados operacionais e o datawarehouse. Ações de limpeza e integração dos dados são realizadas neste momento, conforme ilustra a figura abaixo. Em bases de dados operacionais, em contra-partida aos datawarehouses, são permitidas atualizações constantes sobre os dados. O conteúdo de um datawarehouse somente sofre alterações no momento de carga de novo conjunto de dados, associado a um novo rótulo temporal.

Como a construção e a manutenção de data warehouses envolvem um contínuo préprocessamento dos dados (limpeza, transformações, integração, dentre outras ações), estes repositórios são fontes potenciais de informação para serem submetidas ao processo de descoberta de conhecimento em bases de dados. Operacional Data Warehouse Carregar Acessar Excluir Incluir Alterar Acessar Limpar Um dos maiores desafios na construção e na manutenção de data warehouses reside na busca pela qualidade dos dados. Diversos são os tipos de problemas existentes nas bases de dados operacionais e que devem ser tratados no projeto de data warehouses. Alguns deles estão citados a seguir: Ausência de informação Valores inválidos Ausência de integridade referencial Violações de regras de negócios Cálculos inválidos Formatos não padronizados Duplicação de informação e inconsistência Falhas na modelagem das bases de dados operacionais Um Data Mart é uma porção física ou lógica de um Data Warehouse para atender a uma área específica da empresa. Trata-se de um subconjunto do data warehouse. Muitas vezes

Mercado EUA ASIA EUR. Produto Prod 1 Prod 2 $ 120 $ 115 $ 123 $ 60 $ 75 $ 73 Prod 3 $ 92 $ 87 $ 106 Sem1 Sem2 Sem3 Tempo data marts são criados de forma a oferecer simplicidade, menor custo e agilidade ao processo de construção e manutenção de data warehouses.uma estratégia comum na construção de data warehouses envolve a construção paulatina destes por meio de data marts.o cubo de dados (ou hipercubo de dados) é um recurso que permite o cruzamento e a visualização dos dados em aplicações OLAP. A figura abaixo contém um exemplo de cubo de dados com 3 dimensões (local, produto e período), onde cada célula mostra o total vendido de um determinado produto em uma determinada semana em um determinado local. Os metadados assumem um papel de grande relevância na manutenção e na expansão de data warehouses. Devem conter informações sobre diversos aspectos, dentre os quais, podem ser destacados: A fonte original dos dados e como ter acesso Os responsáveis pela informação original Como são criados os relatórios e para que servem As consultas disponíveis para acesso a determinadas informações Como as definições de negócio e terminologia mudaram ao longo dos anos Quais premissas de negócio foram assumidas na modelagem do data warehouse

Modelagem Multidimensional A modelagem multidimensional é uma forma de Modelagem de Dados voltada para concepção e visualização de conjuntos de medidas que descrevem aspectos comuns de um determinado assunto. É utilizada especialmente para sumarizar e reestruturar dados, apresentando-os em visões que suportem a análise dos valores envolvidos. Enquanto a modelagem de dados tradicional assegura o cumprimento de restrições e evita redundância de informação, a modelagem multidimensional facilita a realização de consultas por usuários não técnicos, acelerando o desempenho destas consultas e admitindo redundância de informação. O exemplo abaixo ilustra uma modelagem multidimensional onde, a partir das informações de ação, bolsa e mês, expressa-se a lucratividade da ação: Ação Bolsa Mês Lucratividade Tel PN Rio de Janeiro Janeiro +5% Tel PN Rio de Janeiro Fevereiro -2% Tel PN Rio de Janeiro Março +7% Tel PN São Paulo Janeiro +4% Tel PN São Paulo Fevereiro -1% Tel PN São Paulo Março +4% Pet PN São Paulo Janeiro +2,5% BB PN Rio de Janeiro Janeiro -1% O cubo de dados possui recursos adequados para visualização das informações modeladas em um formato multidimensional. Um modelo multidimensional possui três componentes básicos: 1. Fatos - Um fato é uma coleção de itens de dados, composta de dados de medida e de contexto. Representa um item, ou uma transação ou um evento associado ao tema da modelagem. Exemplo: uma tupla da relação acima.

2. Dimensões Uma dimensão é um tipo de informação que participa da definição de um fato. No exemplo: ação, local, mês. As dimensões determinam o contexto do assunto. Normalmente são descritivas ou classificatórias. Em geral, as perguntas O que? Quem? Onde? Quando? ajudam a identificar as dimensões de um assunto. 3. Medidas Uma medida é um atributo ou variável numérica que representa um fato. Exemplos: valor da ação, número de evasões escolares, quantidade de produtos vendidos, valor total de venda, etc. A figura abaixo apresenta o cubo de dados (com apenas 3 dimensões) do exemplo mencionado: Existem diversos operadores OLAP que permitem acessar os dados em modelos multidimensionais. A seguir encontram-se indicados alguns deles: Drill up/down Utilizado para aumentar ou reduzir o nível de detalhe da informação acessada. Exemplo: Vendas por país Vendas por UF. Slicing Utilizado para selecionar as dimensões a serem consideradas na consulta. Exemplo: Visualizar as vendas, separadas por país e por mês. Dicing Utilizado para limitar o conjunto de valores a ser mostrado, fixando-se algumas dimensões. Exemplo: Vendas no estado de Minas, de um determinado produto em um determinado ano. Pivoting Utilizado para inverter as dimensões entre linhas e colunas. Exemplo: Ao visualizar vendas por produto e por estado, aplicar o operador para visualizar as vendas por estado e por produto.

Data Surfing Executar uma mesma análise em outro conjunto de dados. Exemplo: Ao visualizar as vendas no Brasil, aplicar o operador para realizar a mesma consulta na Inglaterra. Existem diversas formas de modelagem física de um data warehouse. Uma das mais populares é a esquema estrela. Neste esquema, uma relação central de fatos é cercada por relações que correspondem às dimensões do problema. As dimensões no esquema estrela são usualmente denominadas pontos cardeais, conforme mostra a figura abaixo: OND E? FATOS QUAN DO? QUE M? O QUE?

Abaixo encontra-se um exemplo de data warehouse modelado segundo o esquema estrela: Dimensão Cliente Fato Vendas Dimensão Vendedor Código Cliente Nome Cliente Atividade Cidade Estado País Segmento Data Código Vendedor Código Produto Código Cliente Valor da Venda Quantidade Margem Margem % Código Vendedor Nome Vendedor Código Região Nome Região Dimensão Produto Código Produto Nome Produto Código Grupo Nome Grupo Os fatos estão na tabela Vendas. As dimensões estão representadas pelas tabelas Produto, Cliente e Vendedor. As medidas neste exemplo são: valor da venda, quantidade, margem e margem%. O esquema estrela pode ser estendido de forma a compor o esquema Flocos de Neve (SnowFlake). Neste esquema, as dimensões podem ser associadas a novas dimensões, conforme ilustra a figura abaixo.

DIM N + 1 DIM 1 DIM N DIM N + 2 FATOS... DIM N + M DIM 2 DIM 3 Para Saber Mais Para maiores detalhes sobre data warehouses, sugerimos as referências a seguir. Machado, Felipe. Tecnologia e Projeto de Data Warehouse, 6ª ed, Rio de Janeiro: Érica, 2013. Inmon William H.; Strauss, Derek; Neushloss, Genia. DW 2.0: The Architecture for the Next Generation of Data Warehousing: The Architecture for the Next Generation of Data Warehousing, Morgan Kaufmann, 2010.