Mineração de Dados. Prof. Júlio Cesar Nievola Especialização em Inteligência Computacional PPGIA - PUCPR

Documentos relacionados

Knowledge Discovery and Data Mining Extensão-UFMS-DCT

MINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas

Aula 02: Conceitos Fundamentais

Aprendizagem de Máquina

Gerenciamento de Dados e Gestão do Conhecimento

Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse

Prof. Msc. Paulo Muniz de Ávila

Mineração de Dados: Introdução e Aplicações

Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka

Microsoft Innovation Center

Sistema de mineração de dados para descobertas de regras e padrões em dados médicos

DATA WAREHOUSE. Introdução

Data Mining. Origem do Data Mining 24/05/2012. Data Mining. Prof Luiz Antonio do Nascimento

Data Mining: Conceitos e Técnicas

Planejamento Estratégico de TI. Prof.: Fernando Ascani

ADM041 / EPR806 Sistemas de Informação

Extração de Conhecimento & Mineração de Dados

Exemplo de Aplicação do DataMinig

XIII Encontro de Iniciação Científica IX Mostra de Pós-graduação 06 a 11 de outubro de 2008 BIODIVERSIDADE TECNOLOGIA DESENVOLVIMENTO

Data, Text and Web Mining

Resumo dos principais conceitos. Resumo dos principais conceitos. Business Intelligence. Business Intelligence

DWARF DATAMINER: UMA FERRAMENTA GENÉRICA PARA MINERAÇÃO DE DADOS

Laudon & Laudon Essentials of MIS, 5th Edition. Pg. 1.1

Curso Superior de Tecnologia em Banco de Dados Disciplina: Projeto de Banco de Dados Relacional II Prof.: Fernando Hadad Zaidan

Dado: Fatos conhecidos que podem ser registrados e têm um significado implícito. Banco de Dados:

FUNDAMENTOS DE SISTEMAS DE INFORMAÇÃO

TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE

17/10/2012. dados? Processo. Doutorado em Engenharia de Produção Michel J. Anzanello. Doutorado EP - 2. Doutorado EP - 3.

Tarefas e Técnicas de Mineração de Dados TAREFAS E TÉCNICAS DE MINERAÇÃO DE DADOS

Web Data mining com R: aprendizagem de máquina

No mundo atual, globalizado e competitivo, as organizações têm buscado cada vez mais, meios de se destacar no mercado. Uma estratégia para o

Prof. Júlio Cesar Nievola Data Mining PPGIa PUCPR

Data Mining Software Weka. Software Weka. Software Weka 30/10/2012

UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS

Pós-Graduação "Lato Sensu" Especialização em Análise de Dados e Data Mining

Chapter 3. Análise de Negócios e Visualização de Dados

DATA WAREHOUSE. Rafael Ervin Hass Raphael Laércio Zago

Interatividade aliada a Análise de Negócios

Motivação: inundação de informação. Data warehouse. Inteligência computacional aplicada em finanças, comércio e indústria

INF 1771 Inteligência Artificial

Banco de Dados. Introdução. João Eduardo Ferreira Osvaldo Kotaro Takai. DCC-IME-USP

O que é a ciência de dados (data science). Discussão do conceito. Luís Borges Gouveia Universidade Fernando Pessoa Versão 1.

Universidade de Brasília Departamento de Ciência da Informação e Documentação Programa de Pós Graduação em Ciência da Informação Prof a.

Universidade Tecnológica Federal do Paraná UTFPR Programa de Pós-Graduação em Computação Aplicada Disciplina de Mineração de Dados

SISTEMAS DE APRENDIZADO PARA A IDENTIFICAÇÃO DO NÚMERO DE CAROÇOS DO FRUTO PEQUI LEARNING SYSTEMS FOR IDENTIFICATION OF PEQUI FRUIT SEEDS NUMBER

Banco de Dados - Senado

UNIVERSIDADE REGIONAL DE BLUMENAU CENTRO DE CIÊNCIAS EXATAS E NATURAIS CURSO DE CIÊNCIAS DA COMPUTAÇÃO (Bacharelado)

MINERAÇÃO DE DADOS EDUCACIONAIS: UM ESTUDO DE CASO APLICADO AO PROCESSO SELETIVO DO IFSULDEMINAS CÂMPUS MUZAMBINHO

4. Que tipos de padrões podem ser minerados. 5. Critérios de classificação de sistemas de Data Mining. 6. Tópicos importantes de estudo em Data Mining

Aplicação A. Aplicação B. Aplicação C. Aplicação D. Aplicação E. Aplicação F. Aplicação A REL 1 REL 2. Aplicação B REL 3.

Administração de dados - Conceitos, técnicas, ferramentas e aplicações de Data Mining para gerar conhecimento a partir de bases de dados

Aprendizagem de Máquina. Ivan Medeiros Monteiro

Web Data Mining com R

Identificar as mudanças que acontecem na forma e no uso de apoio à decisão em empreendimentos de e-business. Identificar o papel e alternativas de

INSTITUTO TECNOLÓGICO DE AERONÁUTICA DIVISÃO DE ENGENHARIA ELETRÔNICA LABORATÓRIO DE GUERRA ELETRÔNICA

Hierarquia de modelos e Aprendizagem de Máquina

MATERIAL DIDÁTICO: APLICAÇÕES EMPRESARIAIS SISTEMA DE APOIO À DECISÃO (SAD)

Laboratório de Mídias Sociais

Concepção e Elaboração

KDD UMA VISAL GERAL DO PROCESSO

Professor: Disciplina:

Sistemas de Apoio à Decisão (SAD) - Senado

Organizaçãoe Recuperação de Informação GSI521. Prof. Rodrigo Sanches Miani FACOM/UFU

Extração de Requisitos

UTILIZANDO O SOFTWARE WEKA

TI em Números Como identificar e mostrar o real valor da TI

Business Intelligence para Computação TítuloForense. Tiago Schettini Batista

Planejamento Estratégico de TI. Prof.: Fernando Ascani

Módulo 4: Gerenciamento de Dados

FUNDAÇÃO DE APOIO AO ENSINO TÉCNICO DO ESTADO DO RIO DE JANEIRO FAETERJ Petrópolis Área de Extensão PLANO DE CURSO

05/06/2012. Banco de Dados. Gerenciamento de Arquivos. Gerenciamento de Arquivos Sistema Gerenciador de Banco de Dados Modelos de Dados

FACULDADE DE CIÊNCIAS SOCIAIS E TECNOLÓGICAS FACITEC CURSO:

Avaliando o que foi Aprendido

Universidade de Brasília. Faculdade de Ciência da Informação. Prof a Lillian Alvares

Prof. Júlio Cesar Nievola Data Mining PPGIa - PUCPR

Introdução. Capítulo 1

Programa do Curso de Pós-Graduação Lato Sensu MBA em Business Intelligence (BI)

O Processo de KDD. Data Mining SUMÁRIO - AULA1. O processo de KDD. Interpretação e Avaliação. Seleção e Pré-processamento. Consolidação de dados

Ferramentas Livres de Armazenamento e Mineração de Dados

Uma estrutura (framework) para o Business Intelligence (BI)

COLETA DE INFORMAÇÕES E PREVISÃO DE DEMANDA

Gestão da Informação. Gestão da Informação. AULA 3 Data Mining

Complemento II Noções Introdutória em Redes Neurais

Padronização de Processos: BI e KDD

EMENTAS DAS DISCIPLINAS

COMPARAÇÃO DOS MÉTODOS DE SEGMENTAÇÃO DE IMAGENS OTSU, KMEANS E CRESCIMENTO DE REGIÕES NA SEGMENTAÇÃO DE PLACAS AUTOMOTIVAS

Uma análise de ferramentas de modelagem e gerência de metadados aplicadas ao projeto de BI/DW-UFBA

Definition of a Measurement Guide for Data Warehouse Projects

PLANO DE ENSINO PRÉ-REQUISITOS: ENS

Como melhorar a tomada de decisão. slide 1

INTELIGÊNCIA COMPUTACIONAL

Data Warehouse. Debora Marrach Renata Miwa Tsuruda

Faculdade de Ciência da Informação Profa. Lillian Alvares

Estudo e Análise da Base de Dados do Portal Corporativo da Sexta Região da Polícia Militar com vista à aplicação de Técnicas de Mineração de Dados1

Data Warehouse. Diogo Matos da Silva 1. Universidade Federal de Ouro Preto, Ouro Preto, MG, Brasil. Banco de Dados II

Tencologia em Análise e Desenvolvimento de Sistemas Disciplina: Análise de Sistemas I Conteúdo: Conceitos de Análise de Sistemas Aula 01

Image Enable: conceito

Transcrição:

Mineração de Dados PPGIA - PUCPR

Agenda 1. Histórico 2. Definições e Características 3. Processo e Tarefas de DM 4. Pré-Processamento 5. Representação do Conhecimento 6. Principais Tarefas 7. Procedimentos Experimentais 8. Seleção, Extração e Construção de Atributos 9. Temas de Pesquisa

Histórico Década de 60: Coleções de dados, criação de BD Década de 70: Modelos de dados relacionais, implementação de DBMS relacionais Década de 80: RDBMS, modelos avançados de dados (relacional estendido, OO, dedutivo etc.) e DBMS orientados à aplicação (espaciais, científicos, de engenharia etc.). Década de 90: Data mining e data warehousing, bases de dados multimídia, e tecnologia Web

Aprendizagem de Máquina Aprendizagem de Máquina Melhoria no desempenho de alguma tarefa através da experiência Data Mining Parte de um processo maior (KDD) interessado em: Melhoria no desempenho Representação inteligível Conhecimento obtido interessante, inovador We are drowning in information, but starving for knowledge! (John Naisbett)

Motivações para DM Abundância de dados industriais e comerciais Foco competitivo Gerenciamento do conhecimento Computadores poderosos e baratos Fundamentos avançados em Aprendizagem de máquina & lógica Estatística Sistemas de gerenciamento de BD

Cadeia de Valores! " #$ "% &! ' ( % & ) *+ "

KDD x DM KDD é a seleção e o processamento de dados para: Identificar conhecimento novo, preciso e útil, & Modelar fenômenos do mundo real Data Mining é o principal componente do processo KDD descoberta de conhecimento em BD

O Processo de KDD Consolidação de dados Seleção e Pré-processamento Warehouse Dados Consolidados Data Mining Dados Preparados Interpretação e Avaliação p(x)=0.02 Padrões e Modelos Conhecimento Dados Originais

Passos em DM Seleção e Pré-Processamento Limpeza dos dados: (pode exigir 60% do tempo total) Redução de dados: Encontrar características úteis, redução de dimensionalidade e ou de variáveis Determinar a tarefa de DM Sumarização, classificação, regressão, associação, agrupamento Escolha do algoritmo Data mining: busca pelos padrões interessantes Interpretação e avaliação: análise dos resultados Visualização, transformação, remoção de padrões redundantes Uso do conhecimento descoberto

Potencial crescente de suporte à tomada de decisão Data mining no processo decisório Tomada de decisão Usuário Final Apresentação dos dados Técnicas de Visualização Data Mining Descoberta de Informações Exploração dos dados Análise estatística, Querying e relatórios Analista comercial Analista de dados Data Warehouses / Data Marts OLAP, MDA Dados originais Papéis, arquivos, fornecedores de informação, Sistemas de BD, OLTP Analista de BD

O Processo de DM Consolidação de dados Seleção e Pré-processamento Warehouse Dados Consolidados Data Mining Dados Preparados Interpretação e Avaliação p(x)=0.02 Padrões e Modelos Conhecimento Dados Originais

Consolidação de Dados Garbage in Garbage out A qualidade dos resultados está diretamente relacionada com a qualidade dos dados 50%-70% do esforço no processo de DM é gasto com a consolidação e preparação dos dados Os dados não foram armazenados para DM Esta é a maior justificativa para a criação de uma Data Warehouse corporativa

Consolidação de Dados Determinar lista preliminar de atributos Consolidar dados em uma base de trabalho Fontes de dados internas e externas Eliminar ou estimar valores faltantes Remover outliers (exceções óbvias) Determinar probabilidades a priori de categorias e analisar influência do volume

O Processo de DM Consolidação de dados Seleção e Pré-processamento Warehouse Dados Consolidados Data Mining Dados Preparados Interpretação e Avaliação p(x)=0.02 Padrões e Modelos Conhecimento Dados Originais

Pré-processamento Gerar um conjunto de exemplos através de um método de amostragem adequada Reduzir dimensionalidade dos atributos Remover atributos redundantes e/ou correlacionados Combinar atributos (soma, multiplicação, diferença) Reduzir faixa dos valores dos atributos Agrupar valores simbólicos discretos Quantizar valores numéricos contínuos

O Processo de KDD Consolidação de dados Seleção e Pré-processamento Warehouse Dados Consolidados Data Mining Dados Preparados Interpretação e Avaliação p(x)=0.02 Padrões e Modelos Conhecimento Dados Originais

Tarefas e Métodos em DM Exploração/Descoberta Automática e.g.. descoberta de novos segmentos de mercado Análise de agrupamento Previsão/Classificação e.g.. previsão de vendas brutas a partir de fatores atuais Regressão, redes neurais, algoritmos genéticos, árvores de decisão Explanação/Descrição e.g.. Caracterização de clientes pela demografia e histórico de compra Árvores de decisão, regras de associação x2 f(x),-. / 01-.2! ''' x1 x

Exploração e descoberta Agrupamento: particionar um conjunto de dados em um conjunto de classes, chamadas grupos, cujos membros possuam algumas propriedades interessantes em comum Agrupamento numérico baseado em distância Métricas de agrupamento de exemplos (k-nn) Técnicas de visualização podem ser usadas Agrupamento Bayesiano automáticas Busca o número de classes que resulta em um melhor ajuste de uma distribuição de probabilidades aos dados, sendo o AutoClass (NASA) um dos melhores exemplos

Previsão e classificação Aprender um modelo preditivo Usar um modelo obtido para prever o valor de algum atributo desconhecido ou faltante baseado em outra informação Classificação de um novo caso Classificar dados baseados em valores de um atributo meta, e.g., classificar cidades baseado no clima, ou classificar carros baseado no consumo Vários métodos: Redes neurais artificiais, árvores de decisão indutivas e sistemas baseados em regras, algoritmos genéticos, algoritmos de agrupamento do vizinho mais próximo, métodos estatísticos (paramétricos, não-paramétricos)

Explanação e descrição Aprender uma hipótese generalizada (modelo) a partir de dados selecionados Descrição/Interpretação de modelos fornece novos conhecimentos Métodos: Árvore de decisão indutiva e sistemas baseados em regras Regras de associação

O Processo de KDD Consolidação de dados Seleção e Pré-processamento Warehouse Dados Consolidados Data Mining Dados Preparados Interpretação e Avaliação p(x)=0.02 Padrões e Modelos Conhecimento Dados Originais

Os padrões descobertos são Um sistema de DM pode gerar muitos padrões Medidas de interesse: Facilmente compreensível por humanos Válidos em novos dados com algum grau de certeza Potencialmente útil Inovador, ou valida alguma hipótese que alguém quer confirmar Medidas Objetivas vs. subjetivas Objetivas: baseadas em estatística e estruturas de padrões Subjetiva: baseada na crença do usuário sobre os dados, e.g., surpresa, inovação, etc. interessantes?

Completeza vs.. otimização Completeza: encontrar todos os padrões interessantes Um sistema de DM pode encontrar todos os padrões interessantes? Otimização: busca somente de padrões interessantes Um sistema de DM pode encontrar somente os padrões interessantes? Abordagens Gerar primeiro todos os padrões e então filtrar deixando somente aqueles interessantes Gerar somente os padrões interessantes

Interpretação e Avaliação Avaliação Validação estatística e testes de significância Análise qualitativa por especialistas da área Testes-piloto para avaliar precisão do modelo Interpretação Árvore de indução e modelos de regras podem ser lidos diretamente Resultados de agrupamentos podem ser apresentados em gráficos ou tabelados Código pode ser automaticamente gerado por alguns sistemas (modelos de regressão)

Principais Tarefas Classificação: aprendizagem supervisionada Usa exemplos de treinamento com classes conhecidas para classificar novos dados Agrupamento: aprendizagem não supervisionada Exemplos de treinamento não possuem informação de classe Atribui classes ou grupos aos dados

Tarefa de Classificação Entrada: um conjunto de registros para treinamento, rotulados com uma classe cada Saída: um modelo (classificador) que assinala uma classe a cada caso baseado nos outros atributos Aplicações típicas Aprovação de crédito Diagnóstico médico Análise de efetividade de tratamento

Treinamento e Teste Os registros (observações, amostras) são particionados em conjunto de treinamento e conjunto de testes A classificação acontece em duas etapas 1. Treinamento: construção do modelo a partir do conjunto de treinamento 2. Teste: verificação da precisão do modelo obtido usando o conjunto de testes 3. Teste (alternativo): em função da quantidade de dados usa-se o método da correlação cruzada

Treinamento e Teste Tipos de Modelos Regras SE-ENTÃO Árvores de decisão Precisão dos modelos Compara-se a classe prevista pelo modelo gerado em casos de teste Taxa de precisão = % do conjunto das amostras do conjunto de testes corretamente classificado pelo modelo gerado

Comparação de classificadores Precisão Velocidade Robustez em relação a ruídos e valores faltantes Escalabilidade: eficiência em grandes bases de dados Interpretabilidade do modelo obtido Simplicidade Tamanho da árvore de decisão Tamanho e número de regras Indicadores de qualidade dependentes do domínio

Market Basket Analysis 3 4 *5 *5 6 7 :44* 4! :44 4! ; 4* "8 "9 "-

MBA - Tarefa Dado: uma BD de transações de clientes, onde cada transação é um conjunto de itens Encontrar grupos de itens que são freqüentemente comprados juntos

MBA - Objetivo Extrair informação sobre comportamento de compra Informação obtida pode sugerir Novos leiautes de lojas Novo conjunto de produtos Quais produtos colocar em promoção MBA é aplicável onde um cliente compra vários itens em proximidade Cartões de crédito Serviços de companhias de telecomunicações Serviços bancários Tratamentos médicos

Regras de Associação Expressa como produtos e serviços se relacionam uns com os outros e tende a agrupá-los em conjuntos se um conjunto compra fraldas na sexta-feira, então ele também compra cerveja Fácil de entender Ação possível: colocar cerveja próxima de fraldas quando o fim de semana se aproxima

Agrupamento Dado: BD grande de dados de clientes, contendo suas propriedades e seu histórico de compras Objetivo: Encontrar grupos de clientes com comportamento similar Encontrar clientes com comportamento não usual

Agrupamento Dado: Um conjunto de dados com N dados d-dimensionais Encontrar: Uma partição natural do conjunto de dados em um número de grupos (k) e ruído Os grupos devem ser tais que Itens em um mesmo grupo são similares, ou seja, similaridade intra-grupos é maximizada & Itens de grupos diferentes são diferentes, ou seja, similaridade inter-grupos é minimizada

Uso do agrupamento Sem classes pré-definidas Usado como técnica individual para determinar distribuição de dados ou como etapa de préprocessamento para outros algoritmos Auxilia a compreender como objetos pertencentes a um conjunto de dados tendem a se agrupar naturalmente

Estudos de agrupamentos Inicialmente Agrupamento é um problema conhecido em estatística Pesquisa mais recente em Aprendizagem de máquina BD Visualização Trabalhos atuais Algoritmos de agrupamento efetivos e eficientes para conjuntos de dados de muito alta dimensionalidade com alto ruído Necessária escalabilidade com relação a Número de pontos de dados (N) Número de dimensões (d) Nível de ruído

Métodos Básicos Métodos de particionamento k-means, k-medoids Métodos hierárquicos Aglomerativos/divisivos, BIRCH, CURE Métodos baseados em ligação Métodos baseados em densidade DBSCAN, DENCLUE Métodos estatísticos COBWEB

DM - Pesquisas 1. Integração com data warehouse e BD relationais 2. Mineração de dados escalável, paralela/distribuída e incremental 3. Otimização de linguagens para query em Data mining 4. Métodos de DM múltiplos e integrados 5. Ambientes de DM Interativos e exploratórios 6. Mineração de outras formas de dados BD espaço-temporais Textos Multimídia Web

Web Mining Por quê? Web sem padrões, grande quantidade de informação não estruturada e heterogênea Muito dinâmica Um novo servidor WWW a cada 2 horas 5 milhões de documentos em 1995 320 milhões de documentos em 1998 Índices se tornam obsoletos muito rapidamente

Web content mining Web Mining Minerar o que os mecanismos de Web search encontram Classificação de documentos da Web (Chakrabarti et al 99) warehousing a Meta-Web (Zaïane and Han 98) intelligent query answering em Web search Web usage mining Mineração de Web logs: encontrar padrões de acesso e tendências (Zaiane et al 98) < Rastreamento de características de usuários e sites adaptativos (Perkowitz et al 97) Web structure mining < Descobrir páginas confiáveis: uma página é importante se páginas importantes apontam para ela (Chakrabarti et al 99, Kleinberg 98)

Bibliografia Básica Mitchel, T.M. Machine Learning, McGraw- Hill, 1997. Dhar, V. & Stein, R. Seven Methods for Transforming Corporate Data into Business Intelligence, Prentice-Hall, 1997. Witten, I.H. & Frank, E. Data Mining: Practical Machine Learning Tools and Techniques with Java Implementatins, Morgan Kaufmann Publishers, 1999.

Endereços Eletrônicos About SIGKDD Explorations Business Intelligence and Data Warehousing - TDWI Computing Research Repository (CoRR) Data Mining Server Data Storage & Mining Research Center - Index - Data Storage and Mining Research Center - CIO Data Warehousing at Stanford Publications DBMS - August 1996 - Defining Data Mining DELVE - Data for Evaluating Learning in Valid Experiments DWQ KDnuggets Data Mining, Web Mining, and Knowledge Discovery Guide Knowledge Discovery in Databases and Data Mining MLnet OiS - Find information and resources on Machine Learning, Knowledge Discovery, Data Mining, Case-based Reasoning, and Kno PCAI Artificial Intelligence - Free emagazine, White Papers, Demos, Products, Glossary, Links Sistemas Baseados em Casos The CBR Homepage The Data Warehousing Information Center TWiki. Main. WebHome Welcome to AI Topics