Motivação. Pouco conhecimento. Muitos dados e informações. Problemas para tomada de decisão

Documentos relacionados
Jarley Nóbrega

Inteligência nos Negócios (Business Inteligente)

OLAP. Rodrigo Leite Durães.

PÓS-GRADUAÇÃO LATO SENSU. Curso: Banco de Dados. Disciplina: Laboratório de Data Warehouse e Business Intelligence Professor: Fernando Zaidan

Material Complementar - BI. Grinaldo Lopes de Oliveira Curso Superior de Tecnologia em Análise e Desenvolvimento de Sistemas

SISTEMAS DE APOIO À INTELIGÊNCIA DE NEGÓCIOS

Conceitos Básicos. Processamento Analítico de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri Prof. Dr. Ricardo Rodrigues Ciferri

Modelagem Multidimensional - Nível Lógico -

Modelagem Multidimensional

Motivação. Análise de Dados. BD x DW OLTP. Data Warehouse. Revisão Quais as diferenças entre as tecnologias de BD e DW? OLAP Modelos Multidimensionais

Integração de Dados e ETL

Business Intelligence :

Apresentação. Rodrigo Leite Durães

Práticas de Contagem. - Data Warehouse. - Workflow. - Mudança de tipo. - Drop-down. - Mudança de tamanho de campo. - Mudança de domínio

Introdução à teoria de Data Warehouse. Prof. Rodrigo Leite Durães

Data Warehousing. Leonardo da Silva Leandro. CIn.ufpe.br

TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE

Banco de Dados - Senado

Data Warehouse Processos e Arquitetura

Projeto de Data Warehousing sobre Informações em Saúde para dar Suporte a Análise de Faturamento Hospitalar

Curso Superior de Tecnologia em Banco de Dados Disciplina: Projeto de Banco de Dados Relacional II Prof.: Fernando Hadad Zaidan

Diagrama Funcional das Informações

Business Intelligence. Business Intelligence. Business Intelligence. Business Intelligence. Business Intelligence

Plataforma Pentaho. Fagner Fernandes

Data Warehouse. Djenane Cristina Silveira dos Santos¹, Felipe Gomes do Prado¹, José Justino Neto¹, Márcia Taliene Alves de Paiva¹

O que não pode faltar em seus projetos de BI. Neimar Chagas

PENTAHO. História e Apresentação

UNIVERSIDADE DE CAXIAS DO SUL Centro de Computação e Tecnologia da Informação Curso de Bacharelado em Sistemas de Informação

Solisc 2010 Uma Introdução ao Pentaho BI Open Source

Ferramentas de Tomada de Decisão

dimensionais fundamentos de DW

DESENVOLVIMENTO DE PLUG-INS KETTLE PARA GERAÇÃO DE MONDRIAN SCHEMA A PARTIR DE BASES RELACIONAIS, UTILIZANDO A METODOLOGIA AGILE ROLAP.

ANALYTICINT FERRAMENTA WEB PARA AVALIAR O PERFIL ACADÊMICO DOS CURSOS TÉCNICOS INTEGRADO DO IFC-VIDEIRA

Pipelines ETL. Aplicação de conceitos de DW para a construção de pipelines de extração, transformação e carregamento de dados.

Informática. Data Warehouse. Professor Julio Alves.

SISTEMA DE INFORMAÇÃO EXECUTIVA PARA A ÁREA DE VENDAS APLICADO À INDÚSTRIA METALÚRGICA

OpenConsulting. Especializada em Pentaho Open Source Business Intelligence treinamento, consultoria e suporte

GENERATING MANAGEMENT PANELS FROM DATA MARTS: AN EXPERIENCE REPORT

Data Warehouse. Debora Marrach Renata Miwa Tsuruda

Bancos de Dados IV. Data Warehouse Conceitos. Rogério Costa

Capítulo 2 Data Warehousing

Modelagem Multidimensional: Conceitos Avançados

Rodada #1 Análise de Informações

FERRAMENTAS OLAP: UM ESTUDO BASEADO NO SISTEMA PENTAHO

05/06/2012. Banco de Dados. Gerenciamento de Arquivos. Gerenciamento de Arquivos Sistema Gerenciador de Banco de Dados Modelos de Dados

Sistemas de Apoio à Decisão (SAD) - Senado

30/10/2012. Prof. Luiz A. Nascimento

Data Warehouses. Alunos: Diego Antônio Cotta Silveira Filipe Augusto Rodrigues Nepomuceno Marcos Bastos Silva Roger Rezende Ribeiro Santos

Introdução. descrever os tipos de interfaces e linguagens oferecidas por um SGBD. mostrar o ambiente de programas dos SGBD s

Dados confiáveis para empresas em crescimento

Palavras-chave: On-line Analytical Processing, Data Warehouse, Web mining.

Pentaho: Inteligência de Negócios utilizando Software Livre

Data Warehouse ETL. Rodrigo Leite Durães.

BANCO DE DADOS DISTRIBUÍDOS e DATAWAREHOUSING

Campus Capivari Análise e Desenvolvimento de Sistemas (ADS) Prof. André Luís Belini /

Enterprise Application Integration (EAI)

PROPOSTA DE UMA ARQUITETURA PARA CONSTRUÇÃO DE UM DATA WAREHOUSE PARA GESTÃO DA SAÚDE PÚBLICA DE UM MUNICÍPIO DO VALE DO ITAJAÍ

EAD-0750 INTELIGÊNCIA DE NEGÓCIOS. Prof. Sérgio Luiz de Oliveira Assis

PLANO DE ENSINO PRÉ-REQUISITOS: ENS

Visualizando Falhas reportadas nos SIGs/UFRN utilizando o iproject e o Suite Pentaho

COMPARANDO "BW-IP" "BPC CLÁSSICO" "BPC EMBEDDED"

3 Sistemática Proposta

Roger Pereira dos Santos DATA WAREHOUSE COM INTEGRAÇÃO DE BUSINESS INTELLIGENCE

Arquiteturas de DW e Abordagens de Implementação. Arquiteturas e Abordagens de Implementação

IMPLANTAÇÃO DE FERRAMENTAS DE BUSINESS INTELLIGENCE EM UMA CONCESSIONÁRIA DE VEÍCULOS

Faculdade Pitágoras PROJETO DE DW FASES FCS-EM PROJETOS DE DW 08/02/2012. Unidade 2.1. Curso Superior de Tecnologia: Banco de Dados

RELATÓRIO FINAL DE ESTÁGIO SUPERVISIONADO

ADMINISTRAÇÃO DE SISTEMAS DE INFORMAÇÃO. Lista de Exercícios 05. Luiz Leão

Aplicando Técnicas de Business Intelligence sobre dados de desempenho Acadêmico: Um estudo de caso

Uma Ferramenta WEB para apoio à Decisão em Ambiente Hospitalar

UTILIZANDO DATA MART PARA O DESENVOLVIMENTO DE BUSINESS INTELLIGENCE APLICADA A CARTEIRA DE PEDIDOS DE UMA EMPRESA DO SETOR TÊXTIL

UNIVERSIDADE DO SUL DE SANTA CATARINA MICHEL ANGELO DA SILVA DARABAS

Sistemas de Informações Gerenciais Prof. Esp. André Luís Belini Bacharel em Sistemas de Informações MBA em Gestão Estratégica de Negócios

Introdução. O que é um Banco de Dados (BD)?

Núcleo de Pós Graduação Pitágoras

Pentaho: Ferramenta de melhoria na qualidade das informações em um hospital universitário

Data Warehousing Visão Geral do Processo

Sérgio Luisir Díscola Junior

Processo de Criação de um Esquema Estrela

Qualificando decisões de negócio. Entendendo Business Intelligence

SBC - Sistemas Baseados em Conhecimento

Data Warehouse Toolkit Guia completo para modelagem dimensional Capítulo 7 - Contabilidade

Generated by Foxit PDF Creator Foxit Software For evaluation only. EDSON VIEIRA TECNOLOGIA OLAP

Thiago Locatelli de OLIVEIRA, Thaynara de Assis Machado de JESUS; Fernando José BRAZ Bolsistas CNPq; Orientador IFC Campus Araquari

Data Mart para Análise Comparativa de Dados do IDEB em Municípios da Microrregião do Pajeú em Pernambuco

Tópicos Avançados Business Intelligence. Banco de Dados Prof. Otacílio José Pereira. Unidade 10 Tópicos Avançados Business Inteligence.

Banco de Dados Gerenciais

CEP São Vicente do Sul RS Brasil. {maicon.amarante,

Business Intelligence Conceitos, Metodologia de Desenvolvimento e Exemplos de BI

UNIVERSIDADE DO ESTADO DE MINAS GERAIS FUNDAÇÃO DE ENSINO SUPERIOR DE PASSOS FACULDADE DE INFORMÁTICA DE PASSOS PAULO HENRIQUE PASSOS MOREIRA

Processo Decisório, OLAP e Relatórios Corporativos OLAP E RELATÓRIOS CORPORATIVOS

5 Estudo de Caso Material selecionado para o estudo de caso

Curso: Banco de Dados I. Conceitos Iniciais

Capítulo 9: Sistemas de banco de dados

Sistema de Banco de Dados. UNIDADE 1 Introdução aos Sistemas de Bancos de Dados Professor: Armando Hage

CURSOS DE CAPACITAÇÃO

Complemento I - Noções Introdutórias em Data Warehouses

SUMÁRIO 1. INTRODUÇÃO O QUE É DATA WAREHOUSE? O QUE DATA WAREHOUSE NÃO É IMPORTANTE SABER SOBRE DATA WAREHOUSE

Transcrição:

Motivação Problemas para tomada de decisão Muitos dados e informações Pouco conhecimento

Motivação Uso amigável Sistemas computacionais que integram dados oriundos de diversas fontes Grande poder analítico Sistemas de suporte à decisão

Motivação Algumas possíveis aplicações: Determinar o mercado-alvo de um produto Definir o preço de um produto, criar promoções e condições especiais de compra Verificar a eficácia de campanhas de marketing Otimizar a quantidade de produtos no estoque Responder rapidamente a mudanças no mercado e determinar novas tendências

Motivação Arquitetura de Sistemas de Suporte à Decisão Operacional (normalmente já existe) Estratégico/Tático (Data warehouse)

Data Warehouse O que é um DW? Sistema que armazena dados históricos usados no processo de tomada de decisão Integra os dados corporativos de uma empresa em um único repositório

Data Warehouse - Conceito Definição Clássica (William H. Inmon) Um DW é um conjunto de dados orientado por assuntos, não volátil, variável com o tempo e integrado, criados para dar suporte à decisão

Data Warehouse - Características Orientado por assunto Produtos Clientes Estoque Fornecedor DW Vendas Dados organizados por Aplicações de Venda Dados organizados pelo assunto Vendas Adaptado de [Fidalgo, 2009]

Data Warehouse - Características Não volátil (não sofrem alterações) Produtos Clientes Estoque Fornecedor DW Vendas Adaptado de [Fidalgo, 2009]

Data Warehouse - Características Variável com o tempo (mantém dados históricos) Produtos Clientes Estoque Fornecedor DW Vendas Produto Preço Caneta Azul 0,50 Lápis Preto 0,30...... Produto Jan/03 Fev/03 Mar/03 Caneta Azul 0,40 0,45 0,50 Lápis Preto 0,25 0,28 0,30............ Adaptado de [Fidalgo, 2009]

Data Warehouse - Características Integrado (homogeneidade de dados) Brasil Estados Unidos Peso (lb) Produtos Peso (kg) Produtos Peso (oz) Produtos Inglaterra I N T E G R A Ç Ã O Peso (gr) DW Vendas Adaptado de [Fidalgo, 2009]

Data Warehouse - Características Data Mart (DM) É um DW departamental (específico a um assunto/negócio) Subconjunto do DW que satisfaz os requisitos de uma atividade de negócio Todos os DM s devem ser construídos usando dimensões e fatos (modelo dimensional) IN1177 - Banco de Dados para Suporte à Decisão

Data Warehouse Inmon X Kimball Inmon Implementação iterativa do DW O sistema começa pequeno e evolui progressivamente em espaços curtos de tempo Os DM s derivam do DW O DW/DM podem ser normalizados Kimball O DW é a união de todos os seus DM s Implementar um DM de cada vez Não recomenda normalizar o DW/DM

Data Warehouse - Componentes Baseado em [KIMBALL, 2002] R. KIMBALL et. al. The Data Warehouse Toolkit: The complete guide to dimensional modeling. 2. ed. USA: Wiley,2002.

Data Warehouse - Componentes Área de Data Staging Fonte: [Kimball, 2002] Uma área de armazenamento e/ou conjunto de processos ETL(Extract- Transform-Load Não necessariamente utiliza modelos relacionais (pode ser flat file é mais rápido) É a cozinha do restaurante

Processo de ETL Extração Processo de ETL Transformação Carregamento

Processo de ETL Extração de dados de diferentes fontes e formatos Validação e descarte de dados de acordo com regras e padrões Transformação dos dados de acordo com requisitos técnicos e de negócio Conversão dos tipos de dados, filtragem de dados, sumarização Carregamento dos dados transformados em uma base de dados Reescrita dos dados e adição de novas informações

Data Warehouse - Características Operational Data Store (ODS) BD Integrado e transacional entre as fontes de dados e o DW Otimizado para decisões em tempo real

Data Warehouse - Arquitetura Adaptado de [Fidalgo, 2009]

Modelagem Dimensional Fonte: [Fidalgo, 2009]

Modelagem Dimensional As tabelas de dimensões Seus atributos armazenam as descrições do negócio e normalmente são usados nas cláusulas de groupby/having Ex: Categoria (Bebida), Tipo (Diet), Marca (Coca-cola) O menor nível hierárquico define o grão do DW Têm PK simples (em geral, artificiais: surrogate keys ) Desnormalizada (1FN)

Modelagem Dimensional Exemplo - Dimensão Data Janeiro de 2010

Modelagem Dimensional A tabela de fatos Tabela central, normalizada (3a FN), com poucos campos e com grande volume de Sua PK é a composição das PKs das dimensões Cada fato é a interseção entre as dimensões relacionadas Medidas são usualmente numéricas Ex.: Vendas (R$), Vl_unitário (R$), Despesas (R$), QtdVendida Varia continuamente a cada amostragem

O Esquema Estrela Fonte: [Fidalgo, 2009]

O Esquema Estrela 5W e 3H Fonte: [Fidalgo, 2009]

O Esquema Snowflake (normalizado) Fonte: [Fidalgo, 2009]

Dimensões freqüentes Fonte: [Fidalgo, 2009]

Slowly Changing Dimensions (SCD) Tipo 1: Atualizar por cima do valor antigo Atualização das tabelas de dimensões Tipo 2: Adicionar uma nova linha com o novo valor Tipo 3: Adicionar uma nova coluna, preservando o valor anterior

Data Warehouse - Componentes Área de Data Presentation Área onde os dados estão armazenados e disponíveis para Consultas Geração de relatórios Aplicações analíticas

Projeto Dimensional do DW Quatro passos básicos Selecionar o processo de negócio a modelar Declarar o grão do processo de negócio Escolher as dimensões que se aplicam a cada linha da tabela de fatos Identificar os fatos que irão popular cada linha da tabela de fatos

Data Warehouse - Componentes Área de Data Access Tools Ferramentas de consulta/análise do DW

Abstração do DW Cubo multidimensional É uma abordagem multidimensional para visualização e organização dos dados Várias dimensões podem ser usadas simultaneamente Fonte: [Fidalgo, 2009]

Abstração do DW Exemplo de consulta Total de vendas do produto AAAA Fonte: [Fidalgo, 2009]

Abstração do DW Exemplo de consulta Total de vendas da Loja F03 Fonte: [Fidalgo, 2009]

Abstração do DW Exemplo de consulta Total de vendas de 1999 Fonte: [Fidalgo, 2009]

Abstração do DW Exemplo de consulta Total do produto BBBB, em 1999 e na loja F02 Fonte: [Fidalgo, 2009]

OLAP O que é OLAP (OnLine Analytical Processing)? Tecnologias projetadas para analisar dados que estão no DW Lida com dados históricos (dimensão temporal) Oferece visões multidimensionais (perspectivas) Analisa dados em diferentes níveis hierárquicos

OLAP Exemplos de consultas OLAP Quais os produtos mais bem vendidos no mês passado? Quais os 10 piores vendedores dos departamentos da filial X? Qual a média salarial dos funcionários de informática na região sul nos últimos 5 anos?

Arquiteturas OLAP OLAP Relacional (ROLAP) Utiliza BD relacional para fazer análise dos fatos Mais flexível e mais geral OLAP Multidimensional (MOLAP) Utiliza MDDB proprietários para manipular fatos agregados Para soluções específicas ou departamentais OLAP Híbrido (HOLAP) Mistura de MOLAP com ROLAP Tendência?

Principais operações OLAP Drill Down e Roll Up Fonte: [Fidalgo, 2009]

Principais operações OLAP Rotação (diferentes visões dos dados) Fonte: [Fidalgo, 2009]

Principais operações OLAP Slice and Dice ( fatia o cubo, sem inversão dos eixos) Fonte: [Fidalgo, 2009]

Pentaho BI Suite Coleção de Aplicações de Software Criação e deployment de soluções para tomada de decisão Open source Enterprise /Community Editions http://www.pentaho.com

Pentaho BI Suite Análise multidimensional Integração de dados Reporting Funcionalidades Dashboards Mineração de dados

Pentaho BI Suite

Arquitetura do Pentaho BI Camadas da arquitetura do Pentaho BI Suite (Bouman and Dongen, 2009)

Pentaho BI Suite Pentaho BI Platform demo Instalação pré-configurada da plataforma Pentaho Demonstração do uso de relatórios, cubos e dashboards Base de dados Steel Wheels Download http://sourceforge.net/projects/pentaho/files/ Pasta Business Intelligence Server: arquivo biserver-ce-4.8.0.stable.zip (~170MB)

Pentaho Data Integration Uma das ferramentas de BI da plataforma Pentaho Projeto open source encampado pelo Pentaho em 2006 Desenvolvido por Matt Casters Anteriormente conhecido como Kettle KDE Extraction, Transportation, Transformation and Loading Environment

Pentaho Data Integration Timeline do PDI

Pentaho Data Integration Principais funcionalidades do PDI Integração de Dados Processo de ETL

Pentaho Data Integration Carregando dados em um DW ou datamart Extração Processo de ETL Transformação Carregamento

Pentaho Data Integration Extração de dados de diferentes fontes e formatos Validação e descarte de dados de acordo com regras e padrões Transformação dos dados de acordo com requisitos técnicos e de negócio Conversão dos tipos de dados, filtragem de dados, sumarização Carregamento dos dados transformados em uma base de dados Reescrita dos dados e adição de novas informações

Pentaho Data Integration Carregamento Extração Transformação

Pentaho Data Integration Atividades de Extração Captura dos dados Leitura a partir de diversas fontes Identificação de mudanças desde a última extração. Staging Armazenamento temporário dos dados.

Pentaho Data Integration Fontes de entrada de dados Sistemas de gerenciamento de banco de dados

Pentaho Data Integration Fontes de entrada de dados Planilhas

Pentaho Data Integration Fontes de entrada de dados Arquivos texto ou XML

Pentaho Data Integration Atividades de Transformação Validação dos dados Verificação se os dados estão corretos e precisos. Filtragem de dados inválidos. Limpeza dos dados Correção de dados inválidos. Decodificação Conversão de atributos (numéricos, categóricos) para adequação a um padrão ou regra. Agregação Geração e gerenciamento de chaves Dimensões identificadas por chaves substitutas ( surrogates ).

Pentaho Data Integration Atividades de Carregamento Carregamento das tabelas de fatos Adição de linhas à tabela de fatos. Atualização de atributos de status. Carregamento e manutenção das tabelas de dimensões Adição e atualização de linhas das tabelas de dimensões.

Instalando o PDI Pré-requisito JRE (ou JDK) 5.x ou superior. Download http://sourceforge.net/projects/pentaho/files/ Pasta Data Integration Obter a última versão estável 4.4.0 420 MB 3.2.0 77.2 MB

Principais Componentes do PDI O PDI trabalha com dois tipos básicos de componentes: Transformações Jobs Características de transformações e jobs Definem o fluxo do processo de ETL Contém os metadados do processo de ETL Descrição dos dados; Fontes de entrada e saída; Scheduling; Scripting.

Principais Componentes do PDI Como as transformações e jobs são executados? Uma transformação ou job consiste de uma coleção de itens interconectados

Principais Componentes do PDI Conexões entre os itens das transformações e jobs Hop s Pipeline do fluxo de registros

Principais Componentes do PDI Steps, hops e o fluxo de registros (Bouman and Dongen, 2009)

Principais Componetes do PDI Transformações Consiste de uma coleção de steps de transformação Cada step denota uma operação do processo de ETL A saída de um step produz um conjunto de registros Fluxo dos steps da transformação ocorre de forma simultânea e assíncrona Arquivo.ktr Jobs Consiste de uma coleção de transformações ou de steps de jobs Cada entrada do job denota uma tarefa do processo de ETL A saída de cada entrada do job produz um status de execução Fluxo dos steps do job ocorre de forma sequencial Arquivo.kjb

Principais Componentes do PDI Outros componentes do PDI: Repositórios Os metadados das transformações e jobs podem ser persistidos em um banco de dados (repositório) Ferramentas: Spoon: IDE para desenvolvimento visual. Pan: execução de transformações em linha de comando. Kitchen: execução de jobs em linha de comando. Carte: servidor de para execução remota de transformações e jobs.

Arquitetura do PDI (Bouman and Dongen, 2009)

PDI na prática Execução de uma transformação simples

Bibliografia Site do PDI: http://kettle.pentaho.com/