The Data Warehouse Toolkit

Documentos relacionados
Data Warehouse. Compras. Caroline B. Perlin

Data Warehouse Toolkit Guia completo para modelagem dimensional Capítulo 7 - Contabilidade

Clique para editar o título mestre Gerenciamento de recursos humanos Capitulo 8 The Data Warehouse Toolkit

Data Warehouse. Debora Marrach Renata Miwa Tsuruda

Sérgio Luisir Díscola Junior

Aula 02. Evandro Deliberal

Sistemas de Informações Gerenciais Prof. Esp. André Luís Belini Bacharel em Sistemas de Informações MBA em Gestão Estratégica de Negócios

Processo de Criação de um Esquema Estrela

Banco de dados. Objetivo: Reter os dados de forma que possam ser utilizados em outros momentos

Banco de dados. Objetivo: Reter os dados de forma que possam ser utilizados em outros momentos

UTFPR - Universidade Tecnológica Federal do Paraná. Processamento e otimização de consultas

Data Warehouse Toolkit: Telecomunicações e Utilitários (Cap. 10)

Use Cases e Fluxo de Eventos. Use Case e Ator. Objetivos. Algumas Definições. Algumas Definições

Versão do documento agosto Usando recursos avançados de geração de relatórios Soluções Ariba On-Demand

Bancos de Dados IV. Arquiteturas. Rogério Costa

Informática II Cap. 5-1 Modelo Relacional, Normalização e Diagramas E-R

Motivação. Análise de Dados. BD x DW OLTP. Data Warehouse. Revisão Quais as diferenças entre as tecnologias de BD e DW? OLAP Modelos Multidimensionais

Atividade 04. Modelando um Sistema de Lista de Compras

Transporte. Capítulo 11. Renata Miwa Tsuruda

Conceitos Básicos. Processamento Analítico de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri Prof. Dr. Ricardo Rodrigues Ciferri

Introdução. Qual é a importância dos bancos de dados no nosso dia a dia? Imaginem como seria as grandes empresas sem os bancos de dados?

O Modelo e a Álgebra Relacional

ORGANIZANDO DADOS E INFORMAÇÕES: Bancos de Dados

Banco de Dados. Banco de Dados

Campus Capivari Análise e Desenvolvimento de Sistemas (ADS) Prof. André Luís Belini /

Arquitetura de um Ambiente de Data Warehousing

A INDÚSTRIA DOS CARTÕES DE PAGAMENTO

Bancos de Dados IV. OLAP e Cubos de Dados. Rogério Costa

Modelação Dimensional 2

Arquitetura de um Ambiente de Data Warehousing

Modelagem Conceitual e o Modelo Entidade-Relacionamento

1) Defina os principais conceitos de orientação a objetos. 4) Porque é desejável programar com foco em interfaces?

Laboratório de Banco de Dados. Prof. Luiz Vivacqua.

AQUI VEREMOS COMO PODEMOS CONSULTAR OU IMPRIMIR RELATÓRIOS PARA CADA OPERAÇÃO EFETUADA NO CONTAS À RECEBER E À PAGAR.

Banco de Dados Data Mining Data Warehouse Big Data

Aula 3 - Modelo Entidade-Relacionamento

Administração Financeira

Universidade Federal da Paraíba CCEN Departamento de Informática Disciplina: Banco de Dados. Aula 1 Introdução a Banco de Dados

MODELO DE BANCO DE DADOS RELACIONAL

Curso: Banco de Dados I. Conceitos Iniciais

Oracle Database 10g: Fundamentos de SQL e PL/SQL

Ciclo de Desenvolvimento de BD

Introdução à teoria de Data Warehouse. Prof. Rodrigo Leite Durães

Administração Financeira. Diretora Senior Ingrid Rocha

TERMO DE OPÇÃO À CESTA DE SERVIÇOS CESTA NEXT LIGHT. Incluído CARTÕES. Incluído CHEQUES. Não incluído TRANSFERÊNCIA POR MEIO DE DOC/TED.

Cielo Day 2011 RÔMULO DE MELLO DIAS CEO

VALORES Site Pronto 700,00 Site Semipersonalizado 1.600,00. FORMA DE PAGAMENTO À vista com 10% 03 x cartão ou boleto site pronto somente á vista

Bancos de Dados Notas de Aula Introdução Prof. Dr. Daniel A. Furtado

GESTÃO DE DADOS NAS ORGANIZAÇÕES. Prof. Robson Almeida

Aula 4 SBD Modelo Entidade Relacionamento Parte 2. Profa. Elaine Faria UFU

AULA 2: INTRODUÇÃO A PYTHON. Luís Feliphe Silva Costa

Fundamentos de Gestão de TI

Tabelas. Banco de Dados I MySQL

FAVENI Matemática Financeira com HP 12C

Vida Financeira saudável. Manuela Carneiro Diretora Executiva de Vendas Independente Mary kay

PROF. KLÉBER DE OLIVEIRA ANDRADE 1

VIDA FINANCEIRA SAUDÁVEL E FELIZ

UNIVERSIDADE FEDERAL DA GRANDE DOURADOS PRÓ-REITORIA DE GRADUAÇÃO PROGRAD FACULDADE DE CIÊNCIAS EXATAS E TECNOLOGIA CURSO DE SISTEMAS DE INFORMAÇÃO

Sumário. 1 Introdução 2 BD Orientado a Objetos 3 BD Objeto-Relacional 4 Noções Básicas de Data Warehouse 5 XML e BD XML. Motivação

Modelo Lógico de Dados. Modelo Relacional

PLANEJAMENTO PARA COMPRA DA CASA PRÓPRIA

Detalhamento de um Framework Vertical para Sistemas Contábeis

Sistemas de Suporte à Decisão. Suporte à Decisão X Operacional. Banco de Dados Avançado. Data Warehouse. Data Warehouse & Data Mart

Introdução a UML. Aula 04 Analise de Sistemas Profª Rita de Cassia Gaieski

Introdução. descrever os tipos de interfaces e linguagens oferecidas por um SGBD. mostrar o ambiente de programas dos SGBD s

8ª Semana. 12 semana para o topo

Entidade Associativa

Pesquisas em Tabelas

Projeto Integrador II. Princípios de Análise e Projeto de Sistemas com UML (livro de Eduardo Bezerra)

Conceitos Básicos. Fundação Centro de Análise, Pesquisa e Inovação Tecnológica Instituto de Ensino Superior - FUCAPI. Disciplina: Banco de Dados

CPC 03 - DEMONSTRAÇÃO DOS FLUXOS DE CAIXA. Prof. Ms. Mauricio F. Pocopetz

CESTAS DE SERVIÇOS VALOR: R$ 9,95 CESTA NEXT CADASTRO CONFECÇÃO DE CADASTRO PARA INÍCIO DE RELACIONAMENTO

TECNOLOGIAS DA INFORMAÇÃO E COMUNICAÇÃO SISTEMAS DE GESTÃO DE BASE DE DADOS O MODELO RELACIONAL

Análise de Ponto de Função APF. Aula 03

Nota de Aula 2: Moeda. HICKS, J. A Theory of Economic History, Oxford University Press, 1969, caps.5 e 6

Banco de Dados Modelagem e Normalização

OLAP. Rodrigo Leite Durães.

Gerenciamento das Partes Interessadas (PMBoK 5ª ed.)

Desenvolvimento de Aplicações Desktop

Inteligência de Negócios Profa.Denise

Capítulo 2 Modelo Entidade- Relacionamento. Prof. Mario Dantas

Informática. Business Intelligence (BI), Data Warehouse, OLAP e Data Mining. Prof. Márcio Hunecke

Listas. CIC/UFRGS INF Fundamentos de Algoritmos 2006/1

Unidade 2 Modelo Conceitual

Modelagem Multidimensional

Modelagem semântica permite aproximar o modelo obtido do mundo real Exemplo de modelos:

Bem-vindo ao curso delta Efetuar picking e embalar para o SAP Business One, versão 9.1. Você deve ter bons conhecimentos do processo de picking e

Bem-vindo ao tópico sobre o processo de suprimento.

Banco de Dados. SGBDs. Professor: Charles Leite

Advertcoin é uma cripto moeda multifuncional, próxima geração desenvolvido sobre o código da Litecoin e usando o algorítimo SCRYPT, usamos tecnologia

Introdução ao Modelo Relacional

Modelagem de Casos de Uso (Parte 1)

Gerenciamento de Dados

LINGUAGEM, TIPOS DE USUÁRIOS DE SGBD E MODELOS DE DADOS

O conceito de casos de uso foi criado em 1986 por Ivar Jacobson, metodologista e um dos pais do Processo Unificado.

BEM VINDAS NOVAS CONSULTORAS DE BELEZA. Obrigada por estarem aqui!

Introdução. Conceitos Básicos. Conceitos Básicos. Conceitos Básicos

Informática II Cap. 5-2 Bases de Dados - MsAccess

AULA 3 Classificação dos Sistemas de Informação

Transcrição:

The Data Warehouse Toolkit Cap. 9 Serviços Financeiros Vinícius Pereira

CONTEÚDO Estudo de caso Triagem de dimensões Dimensão Unidade Domiciliar Dimensão Multivalor Minidimensões Revisitadas Associação de fatos com valores arbitrários Saldo Atual Esquemas de produtos heterogêneos

Estudo de caso bancário

Estudo de caso Meta inicial do banco: criar a capacidade de melhor analisar suas contas Usuários desejam poder separar e combinar (slice and dice) contas individuais, assim como os agrupamentos domiciliares residenciais a que pertencem Um dos principais objetivos do banco: negociar com mais eficácia, oferecendo produtos adicionais para unidades domiciliares

Estudo de caso Conjunto de requisitos: 1. Os usuários desejam analisar 5 anos de dados de instantâneos mensais históricos em cada conta 2. Toda conta possui um saldo primário. A empresa deseja agrupar diferentes tipos de contas na mesma análise e comparar tais saldos 3. Todo tipo de conta (conhecido como produtos dentro do banco) possui um conjunto de atributos de dimensão personalizados e de fatos numéricos que tendem a ser muito diferentes entre os produtos

Estudo de caso 4. Toda conta pertence, teoricamente, a uma unidade domiciliar. Há uma quantidade surpreendente de transitoriedade em relacionamentos de conta/unidade domiciliar em virtude das alterações no status marital e de outros fatores de etapas da vida 5. Os usuários estão interessados em informações demográficas no que diz respeito a pertencerem a clientes individuais e unidades domiciliares. Além disso, o banco captura e armazena escores de comportamento relacionados à atividades ou às características de cada conta e unidade domiciliar.

Triagem de dimensões

Triagem de dimensões Iniciamos com uma tabela de fatos básica que registra os saldos primários de cada conta ao final de cada mês O grão é uma linha para cada conta ao final de cada mês Com base nisso, imaginamos, inicialmente, um projeto com duas dimensões: mês e conta

Triagem de dimensões Porém, tal esquema não reflete adequadamente as dimensões de negócios naturais No lugar de uma enorme dimensão Conta, dimensões analíticas adicionais (como Produto e Agência), espelham melhor como os usuários do banco pensam em seus negócios Assim, elas lidam com os objetivos de desempenho e uso de um modelo dimensional Por fim, uma dimensão Conta em um banco de grande porte pode abranger milhões de linhas. Pode gerar SCD tipo 2 (dimensão que muda lentamente)

Triagem de dimensões Com base nos requisitos do banco, por fim escolhemos as dimensões a seguir para o nosso esquema:

Triagem de dimensões Conforme visto na figura, na interseção das 6 dimensões, existe um instantâneo mensal e o registro do saldo primário de outras métricas que fazem sentido no contexto (juros pagos, juros cobrados, por exemplo) Os saldos não são aditivos em nenhuma medida de tempo. (Pensar em saldos de conta como saldos de estoque) Dimensão Produto hierarquia de produtos simples que descreve os produtos do banco Nome do produto, tipo e categoria A necessidade dessa categorização é a mesma que a de mercadorias genéricas em um supermercado

Triagem de dimensões Diferença: o banco desenvolve um número grande de atributos de produtos personalizados para cada tipo de produto (veremos mais a frente) Dimensão Agência: semelhante as dimensões Loja ou Local vistas em outros capítulos (loja de varejo ou armazém central de distribuição) Dimensão Status da Conta: útil para registar a condição da conta ao final de cada mês (ativa, inativa, alterações durante o mês, como uma nova abertura de conta) De certa forma, a dimensão Status é um outro exemplo de minidimensão

Dimensão Unidade Domiciliar

Dimensão Unidade Domiciliar Os usuários querem poder analisar o relacionamento do banco com uma unidade econômica inteira (entender o perfil e vender produtos adicionais) Capturar atributos demográficos: Receita da unidade A casa é própria ou não Se há crianças Atributos mudam com o passar do tempo Se for comercial ao invés de clientes, teríamos uma Unidade Corporativa (atributos semelhantes)

Dimensão Unidade Domiciliar Pode ser composta por várias contas e correntistas individuais. Ex: John e Mary Smith formam uma unidade John tem conta corrente e Mary poupança Possuem conta-conjunta, cartão de crédito e hipoteca Esses 5 tipos de conta são consideradas como parte da Unidade Domiciliar Smith Como visto no Cap 6, há produtos e serviços especializados para fazerem a correspondência necessária e determinarem atribuições de unidade domiciliar A decisão de tratar contas e unidades domiciliares separamente é uma simples questão de projeto Apesar de serem correlacionadas, estão separadas no esquema devido ao tamanho da dimensão Conta e das mudanças que uma Unidade sofre (evitar SCD tipo 2 na dimensão Conta)

Dimensões Multivalor

Dimensões Multivalor Como acabamos de ver, uma conta pode ter um ou mais correntistas (clientes associados a conta) Não podemos incluir o cliente como atributo de conta viola a granularidade da dimensão (N indivíduos podem ser associados a uma conta) Não podemos incluir o cliente como uma dimensão na tabela de fatos viola a granularidade dessa tabela (uma linha por conta por mês, pelo mesmo motivo acima) Esse caso é um exemplo clássico de dimensão multivalor (detalhes no Cap 13)

Dimensões Multivalor Por ora, basta dizer que é preciso usar uma tabela de ponte de conta para cliente, dessa forma vinculando uma dimensão Cliente individual a uma tabela de fatos de granularidade de conta

Dimensões Multivalor DICA: um atributo multivalor ilimitado pode ser associado a uma linha de dimensão usando-se uma tabela de ponte para associar os atributos multivalor com a dimensão Em algumas empresas, o cliente individual é identificado e associado a cada transação Cartão de crédito com números exclusivos por cliente Não há necessidade de ponte entre conta e cliente porque os fatos da transação atômica estão no grão do cliente Conta e Cliente seriam chaves externas nessa tabela de fatos

Minidimensões revisitadas

Minidimensões revisitadas Como visto no Cap 6, há na dimensão Cliente uma ampla variedade de atributos para descrever as contas, cliente e unidades domiciliares Atributos relativos a crédito mensal Dados demográficos externos Escores calculados para identificar características de comportamento, lucratividade, entre outras coisas Interesse em compreender as alterações nesses atributos e responder a elas com o passador do tempo Evitar SCD tipo 2 para controlar essas alterações na dimensão Conta

Minidimensões revisitadas Separar os atributos navegáveis e alteráveis em múltiplas minidimensões, como áreas de crédito e minidimensões demográficas (chaves incluídas na tabela de fatos) Exemplo da recomendação, figura 6.4

Minidimensões revisitadas As minidimensões nos permitem separar e combinar os dados com base em uma extensa lista de atributos, enquanto controlam as alterações de atributo com o passar do tempo Apesar de serem extremamente eficiente, evitar o uso em demasia Como visto no Cap 6, as minidimensões geralmente usam faixas de valores ao invés de valores distintos US$31.257,98 estaria em uma faixa como US$30.000-US$34.999 Existe duas situações em que essa idéia pode ser inadequada: A análise de exploração de dados muitas vezes requer valores distintos em vez de associações fixas para serem mais eficazes Necessidade de analisar os valores distintos para determinar se as associações selecionadas são apropriadas Nesses casos, mantemos as associações nas minidimensões, mas também armazenamos os lavores distintos como fatos na tabela de fatos

Associação de fatos com valores arbitrários

Associação de fatos com valores arbitrários Vamos supor a necessidade de gerar relatórios com associação de valores em um fato numérico padrão, como saldo em conta, mas sem lidar com associações predefinidas Um relatório, baseado no instantâneo do saldo em conta, parecido com este: Usando a figura como base, é difícil criar esse relatório diretamente da tabela de fatos

Associação de fatos com valores arbitrários A SQL não tem generalização da cláusula GROUP BY que separa valores aditivos em faixas Complicação: as faixas não são de tamanho igual e tem nomes textuais como 10,001 and up Os usuários precisam de flexibilidade para redefinir as associações no momento da consulta com diferentes limites e níveis de precisão O esquema a seguir nos permite criar relatórios fléxiveis com associação de valores O problema, atualmente, é melhor tratado com o comando CASE da SQL

Associação de fatos com valores arbitrários A Tabela de Definição da Associação (direita) pode conter quantos conjuntos de associações de relatório forem necessários Essa tabela é associada à de fatos de saldo usando-se um par de junções menor que e maior que

Associação de fatos com valores arbitrários O relatório utiliza o nome da faixa com associações como o cabeçalho da linha e classifica o relatório pela coluna de classificação com associações Controlar o desempenho dessa consulta pode ser um desafio No exemplo são mais de 90.000 contas Tudo que essa junção faz é agrupar os 90.000 saldos Necessidade de colocar um índice diretamente no fato saldo Se o SGBD puder classificar e comprimir o fato individual de modo eficiente, o desempenho será melhorado consideravelmente Considerando o quão barato está o Gb atualmente, será que isso é um problema? E se for, de tão grande porte assim?

Saldo Atual

Saldo Atual Até agora analisamos instantâneos de saldo de final de mês Se necessário, podemos suplementar a tabela de fatos com uma segunda tabela de fatos que forneça o instantâneo mais atual (atualização noturna) Ou uma tabela de fatos que forneça instantâneos de saldo diário na última semana ou mês No entanto, o que ocorrerá se tivermos a necessidade de relatar o saldo de uma conta em qualquer ponto histórico selecionado arbitrariamente? Criar instantâneos diários 10 milhões de contas = 3,65 bilhões de linhas de fatos por ano Para simplificar, reduziremos a tabela de fatos de transações de conta a um projeto extremamente simples, como mostrar a imagem a seguir

Saldo Atual A chave de tipo de transação se junta a uma pequena tabela de dimensão de tipos de transação permitidos. O número da sequência de transações aumentará continuamente enquanto a conta existir O sinalizador final indicará se é a última transação de uma conta em um dado dia Total de transações é autoexplicativo O saldo é o saldo final na conta após o evento de transação Adicionamos um linha à tabela de fatos na figura anterior somente quando ocorre uma transação

Esquemas de produtos heterogêneos

Esquemas de produtos heterogêneos Como mencionado anteriormente, um banco de varejo oferece uma variedade de produtos, desde conta correntes a hipotecas, aos mesmos clientes Toda conta tem um saldo primário e um total de juros associado a ela, mas cada tipo de produto possui diversos atributos especiais e fatos medidos que não são compartilhados Ex: conta corrente tem saldo mínimo, limite de saque e encargos sobre serviços Depósitos a prazo tem alguns atributos de conta corrente, além de datas de vencimento, frequências compostas e taxa de juros annual

Esquemas de produtos heterogêneos Duas perspectivas normalmente exigidas pelos usuários: Visão global, incluindo a capacidade de separar e combinar todas as contas de forma simultânea, independente de seu tipo Necessário para planejar as estratégias de venda cruzada e gerenciamento apropriado de relacionamento com o cliente Precisamos da tabela de fatos básica única cruzando todas as linhas de negócio para dar uma idéia do portfólio de contas completo

Esquemas de produtos heterogêneos A segunda perspectiva é o modo de visão de linha de negócio específico, que se concentra nos detalhes profundos de um negócio (como as contas correntes) Longa lista de fatos e atributos especiais Não podem ser incluídos na tabela de fatos básica. Caso contrário, acabaríamos com uma centena de fatos especiais, a maioria dos quais com valores nulos em uma linha específica O mesmo ocorreria na dimensão Produto, se incluíssemos atributos de linha de negócio específicos Qualquer das duas opções resultaria em um queijo suiço A solução é criar um esquema personalizado para a linha de contas correntes do negócio, como mostra a figura a seguir

Esquemas de produtos heterogêneos Tabela de fatos de contas correntes personalizada e a dimensão Produto da conta corrente correspondente são ampliadas descrevem os fatos e atributos específicos que só fazem sentido para produtos de conta corrente Contém, também, os fatos e atributos principais, o que evita juntar tabelas dos esquemas básicos e personalizado para obter o conjunto completo de fatos e atributos

Esquemas de produtos heterogêneos Da mesma forma, criaríamos tabelas de fatos e de produtos personalizadas para as outras linhas de negócio Apesar de parecer complexo, apenas o DBA vê todas as tabelas de uma vez As chaves das dimensões Produto personalizadas são as mesmas usadas na dimensão Produto básica Cada dimensão Produto personalizada é um subconjunto de linhas da tabela de dimensão Produto básica Cada dimensão Produto personalizada contém atributos específicos a um tipo de produto

Esquemas de produtos heterogêneos Podemos considerar os atributos específicos como um outrigger dependente do contexto para a dimensão Produto Isolamos os atributos básicos na tabela dimensão Produto base e podemos incluir uma chave de snowflake e, cada registro base que aponte para seu outrigger de produto estendido apropriado

Esquemas de produtos heterogêneos Se as linhas de negócio em nosso banco são separadas fisicamente (cada uma com seu data mart) as tabelas de fatos e de dimensão personalizadas provavelmente não residem no mesmo espaço das tabelas de fatos e dimensões básicas Os dados na tabela de fatos básica seriam duplicados uma única vez para implementar todas as tabelas personalizadas Se as linhas de negócio compartilharem o mesmo espaço na tabela física, poderemos evitar tal duplicação Isso é feito atribuindo uma chave de junção especial a cada linha da tabela de fatos básica que identifique uma única conta em um único mês Usando essa chave de junção, vinculamos fisicamente os fatos personalizados estendidos à tabela de fatos básica Exemplo na próxima imagem

Esquemas de produtos heterogêneos