INTEGRAÇÃO E PROCESSAMENTO ANALÍTICO DE INFORMAÇÃO Introdução ao Data Warehousing e Business Intelligence António Manuel Silva Ferreira UNIVERSIDADE DE LISBOA FACULDADE DE CIÊNCIAS DEPARTAMENTO DE INFORMÁTICA asfe@di.fc.ul.pt
Sumário Sistemas de apoio à decisão Contraste entre sistemas operacionais e de apoio à decisão História dos sistemas de apoio à decisão Data warehouses Visão geral e objepvos AlternaPva: bases de dados federadas Modelos de dados mulpdimensionais Cubos de dados e esquemas em estrela Operações sobre cubos de dados Projeto de construção de um data warehouse 2
Sistemas Operacionais e de Apoio à Decisão Sistemas operacionais OnLine Transac4on Processing (OLTP) Fazem os dados entrar na organização Garantem o funcionamento da organização Processos curtos, repeppvos, e bem conhecidos Sistemas de apoio à decisão OnLine Analy4cal Processing (OLAP) Reúnem dados proveniente de várias fontes Facilitam a navegação e análise dos dados Permitem a validação de assunções Processos longos e exploratórios 3
Dados Operacionais e de Apoio à Decisão Dados Operacionais Orientados a transações Processamento repeppvo Detalhados Acessos a poucos dados Válidos no momento Fontes de dados internas Atualizados em con]nuo Estrutura estápca Relatórios pré- definidos Alta disponibilidade Não redundantes Dados de Apoio à Decisão Orientados a análises Processamento exploratório Agregados Acessos a conjuntos de dados Abrangem intervalos de tempo Fontes de dados internas e externas Atualizações planeadas Estrutura dinâmica Relatórios personalizados Disponibilidade relaxada Redundantes 4
Mais sobre Sistemas OLTP e OLAP 1 Operações OLTP Transferências bancárias Inscrições em unidades curriculares Colocação de itens em carrinhos de compras Reservas de viagens Pagamento automápco de portagens ou estacionamentos Operações OLAP Total de vendas de cada departamento por mês IdenPficar quais os itens mais vendidos Quais as turmas com menos de 10 alunos? Existe relação entre assiduidade às aulas e aproveitamento? Navegar nos dados para procurar explicações 5
Mais sobre Sistemas OLTP e OLAP 2 Processamento de transações com OLTP Tempo reduzido de resposta Mínimo de recursos envolvidos Dados atuais e coerentes Análise de dados com OLAP Consume muitos recursos (processador, memória, e largura de banda) Operações Ppicamente sobre imagem estápca dos dados Dados históricos permitem idenfficação de padrões Pedidos OLAP podem atrasar operações OLTP Ex. pedido de soma das vendas pode reservar a tabela de vendas Novas transações podem ficar bloqueadas 6
Mais sobre Sistemas OLTP e OLAP 3 OLTP com modelos complexos e normalizados Muitas tabelas pequenas, para evitar anomalias nos dados Poucos processos de negócio envolvidos Número limitado de interrogações habituais Interrogações analípcas DiNceis de formular pelos decisores Muitas junções de tabelas aumentam tempo de resposta OLAP com modelos simples e não normalizados Poucas tabelas grandes, reunindo dados de múlpplas fontes Vários processos de negócio representados Interrogações analípcas ao alcance dos decisores Menos junções de tabelas reduzem tempo de resposta 7
História dos Sistemas de Apoio à Decisão 1 Anos 60 Management Informa4on Systems (MIS) Geradores periódicos de relatórios pré- definidos Anos 70 Decision Support Systems (DSS) Análise de tarefas específicas de decisão Usados por gestores, mas não por execupvos ExecuPvos descontentes Pouca flexibilidade dos relatórios Pouca relevância dos dados fornecidos pelos sistemas de informação Aparecimento de Execu4ve Informa4on Systems (EIS) Empresas pioneiras: Lockheed- Georgia e Northwest Industries 8
História dos Sistemas de Apoio à Decisão 2 Anos 80 Execu4ve Informa4on Systems (EIS) ExecuFvos a usar computadores para a tomada de decisões Principais caracteríspcas técnicas Anos 90 Desenho flexível de ecrãs (dashboards) Importação de dados empresariais e públicos Agregação e atualização automá`ca de dados Alargamento da plataforma de uplizadores dos EIS Determinante para a sobrevivência dos EIS (massa crí`ca) Popularidade das folhas de cálculo Ferramentas genéricas de desenvolvimento Ex. Visual Basic, Power Builder, Lotus Notes 9
História dos Sistemas de Apoio à Decisão 3 Passado recente Bases de dados mulfdimensionais Maior gama de interrogações sobre os dados Suporte melhorado para decisões colaborapvas Web como plataforma de acesso à informação EIS são agora designados por Business Intelligence (BI) Crescimento expectável de 7% até 2009 Mercado em consolidação 5 maiores vendedores valem 95% do mercado Tendências: BI nos disposi`vos móveis BI in- memory: respostas a interrogações sem recurso a disco rígido BI `rando par`do do paralelismo oferecido pelas GPUs 10
Sistemas de Apoio à Decisão e Data Warehouses Data warehouse consolida dados de múltiplas fontes num só repositório Extração, transformação, e carregamento de dados Sincronização periódica de réplicas Integração semânpca através de meta- dados Dados referentes a longos períodos de tempo Repositório Ppicamente com gigabytes ou terabytes Data warehouse facilita a aplicação e validação de modelos analípcos de tomada de decisão Permite vistas mulpdimensionais sobre os dados Ex. dimensões tempo, região, produto, departamento, Possibilita análises exploratórias automápcas ou interapvas Ex. tendências interessantes, situações excecionais, 11
Vista Geral de um Data Warehouse Consolidação de dados de várias fontes num só repositório Resposta rápida a análises exploratórias 12
ObjeFvos dos Data Warehouses Deve simplificar o acesso aos dados Uso de termos conhecidos pelos decisores PermiPr combinações variadas de operações sobre os dados Deve guardar dados coerentes Requer tratamento de dados duplicados, com erros, desatualizados, Desafio importante dadas as múlpplas fontes de dados Deve adaptar- se às mudanças Manutenção de histórico é um desafio Alterações graduais para evitar invalidar dados existentes Deve servir para melhorar os processos de decisão Deve guardar os dados certos para a tomada de decisão 13
Bases de Dados Federadas 1 AlternaPva aos data warehouses Data warehouse Cria uma cópia de todos os dados Interrogações são feitas sobre a cópia Base de dados federadas Dados reprados dos sistemas operacionais à medida que são necessários para responder às interrogações ETL Pergunta Resposta Base de dados federada Sistemas OLTP Data warehouse Mediador Sistemas OLTP 14
Bases de Dados Federadas 2 Vantagens Não há cópias redundantes de dados Interrogações são feitas sobre dados em tempo real Desvantagens Interrogações analípcas colocam problemas aos sistemas operacionais Ditcil fazer opmização de interrogações Pode ser divcil obter informação histórica Mediação é complexa Data warehouses são muito mais comuns Melhor desempenho Menor complexidade Ligeira desatualização dos dados é aceitável 15
Dados MulFdimensionais 1 Cubo de dados com várias dimensões Produto (pid) Localização (locid) Tempo (Pmeid) 16
Dados MulFdimensionais 2 Dados mulpdimensionais podem ser guardados de várias formas MOLAP, cubo persistente em disco Reduzido tempo de resposta a interrogações Sincronização lenta com fontes de dados ROLAP, esquemas relacionais Sincronização mais rápida com fontes de dados (também relacionais) Maior tempo de resposta a interrogações HOLAP, sistemas híbridos Em sistemas ROLAP Existe uma relação principal, designada por tabela de factos (fact table) Relaciona cada medida de negócio com as dimensões Dimensões em tabelas próprias, designadas dimension tables 17
Dados MulFdimensionais 3 Exemplo de tabela de factos VendasRetalho(prodid, Pmeid, locid, vendas- euros) Exemplo de tabela de dimensão Produto(prodid, nome- produto, categoria- produto, preço- produto) Atributos com nomes inteligíveis Esquema em estrela Dim. Dim. Factos Dim. Dimensão Dim. 18
Operações sobre Cubos de Dados Pivot Escolha da vista com dimensões perpnentes Ex. total de vendas por cidade nas colunas e ano nas linhas Roll- up Aumentar nível de agregação dos resultados Ex. passar de total de vendas por cidade, para vendas por região Drill- down (inversa de roll- up) Muito usada para procurar explicações mais detalhadas Ex. passar de vendas por região, para total de vendas por cidade Slicing and dicing Restrições por igualdade ou intervalo em uma ou mais dimensões Ex. passar de total de vendas por país, para vendas só em Portugal 19
Projeto de Construção de um Data Warehouse 1 Tecnologias Desenho da arquitetura Escolha e instalação do produto Crescimento Dados Planeamento do projeto Definição de requisitos de negócio Modelação dimensional Desenho tsico Desenho e desenvolvimento do sistema ETL Implantação e exploração Aplicações Desenho de aplicações de BI Desenvolvimento de aplicações de BI Manutenção Gestão do projeto 20
Projeto de Construção de um Data Warehouse 2 Planeamento do projeto IdenPficação e encadeamento das principais tarefas Afetação de recursos humanos e materiais às tarefas EsPmação de tempos e custos Gestão do projeto APvidade em con]nuo ao longo do projeto Monitorização do andamento das tarefas Assegurar boa comunicação entre decisores e técnicos Definição de requisitos de negócio Compreensão do negócio e dos decisores IdenPficação de fatores crípcos de sucesso Base de trabalho para todas as etapas subsequentes 21
Projeto de Construção de um Data Warehouse 3 Vertente de tecnologias Desenho da arquitetura Baseado na infraestrutura existente e em apostas estratégicas em tecnologia Escolha e instalação do produto Avaliação compara`va de produtos no mercado Vertente de dados Modelação dimensional Processos prioritários, factos, medidas de negócio, dimensões, relatórios, Desenho tsico Discos, índices, compressão de dados, vistas materializadas, par`ções, Desenvolvimento do sistema ETL Extração, transformação, e carregamento de dados para o data warehouse 22
Projeto de Construção de um Data Warehouse 4 Vertente de aplicações Desenho de aplicações de BI Estudo prá`co de soluções para necessidades dos decisores Dashboards com vistas sobre o negócio, relatórios dinâmicos, Desenvolvimento de aplicações de BI Tendo em conta o produto de mercado escolhido Implantação e exploração Integração na infraestrutura, documentação, e educação dos decisores Manutenção Monitorização e afinação de desempenho, cópias de segurança, Crescimento Inclusão de mais dados e fontes, adaptação a novas necessidades, 23
Aspetos da Implementação de um Projeto 1 Recrutamento de sponsors no negócio Trabalhar de perto com os responsáveis pela tomada de decisão Sponsors (ou champions) são visionários, razoáveis, e facilitadores Um bom sponsor é o fator mais determinante do sucesso do projeto Definição dos requisitos ao nível da empresa Bus matrix do data warehouse COMMON DIMENSIONS Cruza dimensões dos dados com processos de negócio Permite que responsáveis pelos processos se conheçam BUSINESS PROCESSES Retail Sales Retail Inventory Retail Deliveries Warehouse Inventory Warehouse Deliveries Purchase Orders Date Product Store Promotion Warehouse Vendor Contract Shipper 24
Aspetos da Implementação de um Projeto 2 Reunir de requisitos do projeto Recolher informação relevante para cada entrada da bus matrix Detalhe suficiente para modelos de dados reais, prápcos, e flexíveis Definição de prioridades High Matriz de exequibilidade/valor Possibilidade de acesso às fontes de dados Importância económica do processo de negócio Prioridade para processos no topo superior direito da matriz Business Impact Low Business Process B Business Process D Business Process C Business Process A Low Feasibility High Componentes analípca e técnica são fundamentais 25
Bibliografia Ralph Kimball e Margy Ross, The Data Warehouse Toolkit: The Complete Guide to Dimensional Modeling, Wiley, 2002 Capítulo 1 William H. Inmon, Building the Data Warehouse, Wiley, 2005 Capítulos 1 e 2 Hugh Watson, George Houdeshel, e Rex Rainer, Building Execu4ve Informa4on Systems and Other Decision Support Applica4ons, Wiley, 1997 Capítulo 1 26