Informática Business Intelligence (BI), Data Warehouse, OLAP e Data Mining Prof. Márcio Hunecke
Conceitos de BI Conjunto de ferramentas e técnicas que objetivam dar suporte à tomada de decisão Refere-se ao processo de coleta, organização, análise, compartilhamento e monitoramento de informações que oferecem suporte a gestão de negócios Envolve desde a etapa de coleta até a demonstração dos resultados Trabalha com dados estruturados (tabelas) enquanto que Big Data trabalha com dados estruturados e principalmente não estruturados.
BI
Data Warehouse Conjuntos dados integrado (banco de dados grande) Orientados por assunto (Data Mart) Variável com o tempo (armazena histórico) Não volátil (não alterado) Banco de dados utilizado para consulta e análises Multidimensional (Cubos) Objetivo é auxiliar a tomada de decisão (DSS) Integra dados dos sistemas OLTP (sistemas transacionais)
Propósitos de um Data Warehouse Para entender o propósito do DW, analisaremos as seguintes questões: Nós possuímos montanhas de dados, no entanto, não conseguimos acessá-los. É necessário facilitar o acesso às informações para os usuários de negócio. Apenas mostre-me o que é importante. Nós precisamos que as pessoas usem a informação para suportar uma tomada de decisão baseada em fatos. Uma das missões do data Warehouse é justamente consolidar os dados que são importantes para a tomada de decisão. Evitar o Achômetro.
ETL (Extract, Transform and Load) Etapas do ETL Extract Transform - Clean, Conform Load Deliver Componentes do ETL ETL Management Services ETL Data Stores ETL Metadata
OLAP OLAP (On-Line Analitical Processing) Software utilizado para gerar as informações vindas do DW (Data Warehouse) Análise Dinâmica e Multidimensional Atividades tanto analíticas quanto navegacionais Os cubos são massas de dados que retornam das consultas feitas ao banco de dados e podem ser manipulados e visualizados.
Operações de análise OLAP Drill Down ou Roll Down à Mais detalhes e menos granularidade Drill Up ou Roll Up à Menos detalhes e mais granularidade Slice à Selecionar dados de uma única dimensão (fatiar) Dice à Selecionar dados de duas ou mais dimensões Pivot à Operação de rotação, nova perspectiva
Modelagem multidimensional Tabela Fato (atributos numéricos) e Tabelas Dimensões Modelo Estrela (Star) Fato com 1 dimensão não normalizada Modelo Floco de Neve (Snowflake) Fato com mais dimensões e todas normalizadas na 2FN
Data Mining Mineração de Dados Processo de extrair informação válida, previamente desconhecida e de máxima abrangência a partir de grandes bases de dados, usandoas para apoiar nas tomadas de decisões. Descobrir relacionamentos escondidos no banco de ados. Três métodos para identificar padrões em dados: Modelos simples (consultas baseadas em SQL, raciocínio humano) Modelos intermediários (regressão, árvores de decisão, agrupamento) Modelos complexos (redes neurais, outra indução de regras)
Etapas do processo de Data Mining Análise do problema - O processo de análise inicia a partir de um objetivo de busca, seguindo um determinado conhecimento; o principal objetivo é a possibilidade de selecionar os dados e definir as técnicas utilizadas na análise. De acordo com o CRISP-DM essa fase pode ser dividida em Entendimento do Negócio e Entendimento dos Dados. Preparação dos Dados - A preparação consiste em fases internas de coletânea de dados, avaliação, consolidação e limpeza, seleção dos dados e transformação. Modelagem - Definição de tarefas e técnicas utilizadas sobre a ação de cada algoritmo, etapa que gera um modelo a ser analisado posteriormente. Análise e validação de resultados - Considerando que um modelo válido nem sempre é um modelo correto, visa detectar o que há de implícito num modelo, e o que nele é mais peculiar na precisão de uma informação.