Data Mining: Conceitos e Técnicas



Documentos relacionados
FUNDAMENTOS DE SISTEMAS DE INFORMAÇÃO

Ferramentas Livres de Armazenamento e Mineração de Dados

Planejamento Estratégico de TI. Prof.: Fernando Ascani

DATA WAREHOUSE. Rafael Ervin Hass Raphael Laércio Zago

Gerenciamento de Dados e Gestão do Conhecimento

Sistemas de Apoio à Decisão (SAD) - Senado

Decisão Suporte: Warehousing, OLAP e Data Mining

Decisão Suporte: Warehousing, OLAP e Data Mining

Aplicação A. Aplicação B. Aplicação C. Aplicação D. Aplicação E. Aplicação F. Aplicação A REL 1 REL 2. Aplicação B REL 3.

Data Warehousing. Leonardo da Silva Leandro. CIn.ufpe.br

Data Warehouses. Alunos: Diego Antônio Cotta Silveira Filipe Augusto Rodrigues Nepomuceno Marcos Bastos Silva Roger Rezende Ribeiro Santos

A Preparação dos Dados

05/06/2012. Banco de Dados. Gerenciamento de Arquivos. Gerenciamento de Arquivos Sistema Gerenciador de Banco de Dados Modelos de Dados

Chapter 3. Análise de Negócios e Visualização de Dados

SAD orientado a DADOS

- A crescente necessidade de sistemas inteligentes e de aquisição de conhecimento levaram à necessidade de implementação de Data Warehouses.

Complemento I - Noções Introdutórias em Data Warehouses

Prof. Ronaldo R. Goldschmidt. geocities.yahoo.com.br/ronaldo_goldschmidt

Identificar as mudanças que acontecem na forma e no uso de apoio à decisão em empreendimentos de e-business. Identificar o papel e alternativas de

Percio Alexandre de Oliveira Prof. Maurício Capobianco Lopes - Orientador

Sistema. Atividades. Sistema de informações. Tipos de sistemas de informação. Everson Santos Araujo

Data Warehouse. Debora Marrach Renata Miwa Tsuruda

Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse

TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE

Resumo dos principais conceitos. Resumo dos principais conceitos. Business Intelligence. Business Intelligence

Módulo 4: Gerenciamento de Dados

PLANO DE ENSINO PRÉ-REQUISITOS: ENS

Banco de Dados - Senado

Projeto de Data Warehousing sobre Informações em Saúde para dar Suporte a Análise de Faturamento Hospitalar

DATA WAREHOUSE. Introdução

Introdução à Descoberta de. Dados. Professor Celso A A Kaestner, Dr. Eng.

Palavras-chave: On-line Analytical Processing, Data Warehouse, Web mining.

Extração de Conhecimento & Mineração de Dados


XIII Encontro de Iniciação Científica IX Mostra de Pós-graduação 06 a 11 de outubro de 2008 BIODIVERSIDADE TECNOLOGIA DESENVOLVIMENTO

Professor: Disciplina:

O Que é Data Warehouse

Prof. Msc. Paulo Muniz de Ávila

4. Que tipos de padrões podem ser minerados. 5. Critérios de classificação de sistemas de Data Mining. 6. Tópicos importantes de estudo em Data Mining

Algoritmos Genéticos em Mineração de Dados. Descoberta de Conhecimento. Descoberta do Conhecimento em Bancos de Dados

Aula 02: Conceitos Fundamentais

Qualidade de Dados em Data Warehouse

Criação e uso da Inteligência e Governança do BI

Interatividade aliada a Análise de Negócios

Planejamento Estratégico de TI. Prof.: Fernando Ascani

Prof. Júlio Cesar Nievola Data Mining PPGIa PUCPR

Roteiro. Conceitos e Arquitetura de Sistemas de Banco de Dados. Conceitos e Arquiteturas de Sistemas de Banco de Dados. BCC321 - Banco de Dados I

Adriano Maranhão BUSINESS INTELLIGENCE (BI),

O Processo de KDD. Data Mining SUMÁRIO - AULA1. O processo de KDD. Interpretação e Avaliação. Seleção e Pré-processamento. Consolidação de dados

Informática e Sistemas de Informação Aplicados em Economia

1- Identifique para cada questão abaixo, se o enunciado se refere a View, Stored Procedures, Trigger ou Function. Apenas um por questão.

Laudon & Laudon Essentials of MIS, 5th Edition. Pg. 1.1

Data Mining Software Weka. Software Weka. Software Weka 30/10/2012


Definition of a Measurement Guide for Data Warehouse Projects

2 Descoberta de Conhecimento em Bases de Dados 2.1. Introdução

Fundamentos da inteligência de negócios: gestão da informação e de bancos de dados

Tópicos Avançados Business Intelligence. Banco de Dados Prof. Otacílio José Pereira. Unidade 10 Tópicos Avançados Business Inteligence.

Tecnologias da Informação, Comunicação e Sistemas de Inteligência

Checklist de Projeto de Data Warehouse

Hoje é inegável que a sobrevivência das organizações depende de dados precisos e atualizados.

Capítulo Laudon, Cap. 5

Eficiência na manutenção de dados mestres referentes a clientes, fornecedores, materiais e preços

Dado: Fatos conhecidos que podem ser registrados e têm um significado implícito. Banco de Dados:

Modelo de dados do Data Warehouse

A Nova Interface do Data Discovery no MicroStrategy 10. Anderson Santos, Sales Engineer Brazil 11/08/2015

Sistema de Informação Gerencial baseado em Data Warehouse aplicado a uma software house

Engenharia de Requisitos

Persistência e Banco de Dados em Jogos Digitais

Banco de Dados. Uma coleção de dados relacionados [ELMASRI/NAVATHE]

Data Warehouses Uma Introdução

gerenciamento de portais e websites corporativos interface simples e amigável, ágil e funcional não dependendo mais de um profissional especializado

SISTEMA GERENCIADOR DE BANCO DE DADOS

SUMÁRIO 1. INTRODUÇÃO O QUE É DATA WAREHOUSE? O QUE DATA WAREHOUSE NÃO É IMPORTANTE SABER SOBRE DATA WAREHOUSE

Arquitetura de Disseminação de Informações baseada em Datawarehouse 05/04/2006

5 Estudo de Caso Material selecionado para o estudo de caso

Banco de Dados Aula 1 Introdução a Banco de Dados Introdução Sistema Gerenciador de Banco de Dados

UNIVERSIDADE REGIONAL DE BLUMENAU CENTRO DE CIÊNCIAS EXATAS E NATURAIS CURSO DE CIÊNCIAS DA COMPUTAÇÃO (Bacharelado)

Capítulo 2 Data Warehousing

Sistemas de Informação

ADMINISTRAÇÃO DOS RECURSOS DE DADOS

Programa do Curso de Pós-Graduação Lato Sensu MBA em Business Intelligence (BI)

UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS

Business Intelligence para Computação TítuloForense. Tiago Schettini Batista

Questionário. A ferramenta auxilia na alocação de Não (0) x x x. Satisfatório (5) complexidade de um caso de uso? de uso (72) Sim (10)

Aplicação de Data Warehousing no Cadastro de Ficha Limpa do TSE

Projeto 6.12 Aplicação de Data Mining a Dados de Avaliação da Qualidade de Produtos de Software

MINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas

Business Intelligence e ferramentas de suporte

ADMINISTRAÇÃO DOS RECURSOS DE DADOS

Implantando Data Discovery para equipes centralizadas e descentralizadas

Business Intelligence Um enfoque gerencial para a Inteligência do Negócio.Efrain Turban e outros.tradução. Bookman, 2009.

Data Warehouse Mineração de Dados

PLANO DE ENSINO DO 2º SEMESTRE LETIVO DE 2012

Semântica para Sharepoint. Busca semântica utilizando ontologias

Banco de Dados. Aula 1 - Prof. Bruno Moreno 16/08/2011

Requisitos. Sistemas de Informações

CONSIDERAÇÕES SOBRE ATIVIDADES DE IDENTIFICAÇÃO, LOCALIZAÇÃO E TRATAMENTO DE DADOS NA CONSTRUÇÃO DE UM DATA WAREHOUSE

Transcrição:

Data Mining: Conceitos e Técnicas

DM, DW e OLAP

Data Warehousing e OLAP para Data Mining O que é data warehouse? De data warehousing para data mining

Data Warehousing e OLAP para Data Mining Data Warehouse: A Memória da Empresa Data Mining: A Inteligência da Empresa

O que é Data Warehouse? Definido de diversas formas, mas não rigorosamente: É uma base de dados de suporte que é mantida separadamente da base de dados operacional da organização; Suporta o processamento de informações provendo uma sólida plataforma de dados históricos e consolidados para análise;

O que é Data Warehouse? Um data warehouse é uma coleção de dados: 1. orientada a assunto (subject-oriented); 2. integrada; 3. variante no tempo, e 4. não-volátil para suporte a decisões de gerenciamento. W. H. Inmon Data warehousing: o processo de construção e uso de data warehouses.

Usos do data warehouse Processamento de Informações: Suporta consultas, análise estatística básica e relatórios usando tabelas, gráficos, etc. Processamento analítico: Análise multi-dimensional doas dados contidos no data warehouse; Suporta operações OLAP básicas (slice-dice, drilling, pivoting);

Usos do data warehouse Data mining: Descoberta de conhecimento em padrões; Suporta associações, construção de modelos analíticos, executa classificação e predição, e apresenta os resultados usando ferramentas de visualização.

De OLAP para OLAM Por que OLAM? Alta qualidade dos dados nos data warehouses; DW contem dados integrados, consistentes e limpos. Estrutura para o tratamento de informação disponível no ambiente de DW: ODBC, OLEDB, acesso à Web, facilidades de serviço, relatórios e ferramentas OLAP; Análise de dados exploratória baseada em OLAP; Mineração com drilling, dicing, pivoting, etc. Seleção on-line das funções de data mining: Integração e intercâmbio de múltiplas funções de mineração, algoritmos e tarefas.

Mining query Uma arquitetura OLAM Mining result Layer4 User Interface User GUI API OLAM Engine OLAP Engine Layer3 OLAP/OLAM Data Cube API MDDB Meta Data Layer2 MDDB Filtering&Integration Database API Filtering Layer1 Databases Data cleaning Data integration Data Warehouse Data Repository

Pré-processamento de dados

Por que pré-processar os dados? Dados reais são sujos : Incompletos: falta de valores de atributos, falta de atributos de interesse ou existência de atributos agregados; Ruidosos: contem erros e desvios; Inconsistentes: contem discrepâncias em nomes e na codificação. Sem dados de qualidade, sem resultados de qualidade em DM: Decisões de qualidade devem estar baseadas em dados de qualidade; DW necessita da integração consistente de dados de qualidade.

Medida multidimensional da qualidade dos dados Uma visão multidimensional bem aceita: Correção; Completude; Consistência; Atualidade (timeliness); Credibilidade; Valor adicionado; Interpretabilidade; Acessibilidade. Categorias abrangentes: Intrínseca, contextual, representacional e acessibilidade.

Principais tarefas no préprocessamento dos dados Limpeza dos dados: Preenchimento de valores inexistentes, atenuação de dados ruidosos, identificação e remoção de desvios, resolução de inconsistências; Integração de dados: Integração de múltiplos DB, data cubos, e arquivos; Transformações nos dados: normalização e agregação; Redução de dados: Obtenção de uma representação reduzida em volume mas que produz resultados de análise idênticos ou similares.

Principais tarefas no préprocessamento dos dados Limpeza dos dados: Valores faltantes 1. Ignorar a tupla; 2. Preencher o valor manualmente; 3. Usar uma constante global; 4. Usar o valor médio do atributo na base; 5. Usar o valor médio do atributo na classe; 6. Usar o valor mais provável.

Principais tarefas no préprocessamento dos dados Limpeza dos dados: Atenuação de dados ruidosos 1. Discretização; 2. Agrupamento; 3. Interação humana; 4. Regressão.

Principais tarefas no préprocessamento dos dados Limpeza dos dados: Inconsistências 1. Eliminar dados; 2. Corrigir manualmente; 3. Ignorar.

Principais tarefas no préprocessamento dos dados Integração de dados: Integração de esquemas de BD: problema da identificação de entidades; Redundâncias; Detecção e resolução de valores conflitantes nos dados.

Principais tarefas no préprocessamento dos dados Transformações nos dados: Suavização (smooting); Agregação; Generalização; Normalização (entre 0 e 1); Construção de atributos.

Principais tarefas no préprocessamento dos dados Redução de dados: Agregação de data cubes; Redução de dimensionalidade; Compressão de dados; Redução de instâncias; Geração de hierarquias de conceitos.

Formas de pré-processamento de dados

Sumário A preparação do dados é um ponto crucial tanto para data warehousing quanto para data mining; A preparação de dados inclui: Limpeza e Integração de dados; Redução de dados e seleção de características; Discretização: intervalos iguais, freqüências iguais, agrupamento. Vários métodos têm sido desenvolvidos, mas ainda é área ativa de pesquisa.