Mineração de Dados PPGIA - PUCPR
Agenda 1. Histórico 2. Definições e Características 3. Processo e Tarefas de DM 4. Pré-Processamento 5. Representação do Conhecimento 6. Principais Tarefas 7. Procedimentos Experimentais 8. Seleção, Extração e Construção de Atributos 9. Temas de Pesquisa
Histórico Década de 60: Coleções de dados, criação de BD Década de 70: Modelos de dados relacionais, implementação de DBMS relacionais Década de 80: RDBMS, modelos avançados de dados (relacional estendido, OO, dedutivo etc.) e DBMS orientados à aplicação (espaciais, científicos, de engenharia etc.). Década de 90: Data mining e data warehousing, bases de dados multimídia, e tecnologia Web
Aprendizagem de Máquina Aprendizagem de Máquina Melhoria no desempenho de alguma tarefa através da experiência Data Mining Parte de um processo maior (KDD) interessado em: Melhoria no desempenho Representação inteligível Conhecimento obtido interessante, inovador We are drowning in information, but starving for knowledge! (John Naisbett)
Motivações para DM Abundância de dados industriais e comerciais Foco competitivo Gerenciamento do conhecimento Computadores poderosos e baratos Fundamentos avançados em Aprendizagem de máquina & lógica Estatística Sistemas de gerenciamento de BD
Cadeia de Valores! " #$ "% &! ' ( % & ) *+ "
KDD x DM KDD é a seleção e o processamento de dados para: Identificar conhecimento novo, preciso e útil, & Modelar fenômenos do mundo real Data Mining é o principal componente do processo KDD descoberta de conhecimento em BD
O Processo de KDD Consolidação de dados Seleção e Pré-processamento Warehouse Dados Consolidados Data Mining Dados Preparados Interpretação e Avaliação p(x)=0.02 Padrões e Modelos Conhecimento Dados Originais
Passos em DM Seleção e Pré-Processamento Limpeza dos dados: (pode exigir 60% do tempo total) Redução de dados: Encontrar características úteis, redução de dimensionalidade e ou de variáveis Determinar a tarefa de DM Sumarização, classificação, regressão, associação, agrupamento Escolha do algoritmo Data mining: busca pelos padrões interessantes Interpretação e avaliação: análise dos resultados Visualização, transformação, remoção de padrões redundantes Uso do conhecimento descoberto
Potencial crescente de suporte à tomada de decisão Data mining no processo decisório Tomada de decisão Usuário Final Apresentação dos dados Técnicas de Visualização Data Mining Descoberta de Informações Exploração dos dados Análise estatística, Querying e relatórios Analista comercial Analista de dados Data Warehouses / Data Marts OLAP, MDA Dados originais Papéis, arquivos, fornecedores de informação, Sistemas de BD, OLTP Analista de BD
O Processo de DM Consolidação de dados Seleção e Pré-processamento Warehouse Dados Consolidados Data Mining Dados Preparados Interpretação e Avaliação p(x)=0.02 Padrões e Modelos Conhecimento Dados Originais
Consolidação de Dados Garbage in Garbage out A qualidade dos resultados está diretamente relacionada com a qualidade dos dados 50%-70% do esforço no processo de DM é gasto com a consolidação e preparação dos dados Os dados não foram armazenados para DM Esta é a maior justificativa para a criação de uma Data Warehouse corporativa
Consolidação de Dados Determinar lista preliminar de atributos Consolidar dados em uma base de trabalho Fontes de dados internas e externas Eliminar ou estimar valores faltantes Remover outliers (exceções óbvias) Determinar probabilidades a priori de categorias e analisar influência do volume
O Processo de DM Consolidação de dados Seleção e Pré-processamento Warehouse Dados Consolidados Data Mining Dados Preparados Interpretação e Avaliação p(x)=0.02 Padrões e Modelos Conhecimento Dados Originais
Pré-processamento Gerar um conjunto de exemplos através de um método de amostragem adequada Reduzir dimensionalidade dos atributos Remover atributos redundantes e/ou correlacionados Combinar atributos (soma, multiplicação, diferença) Reduzir faixa dos valores dos atributos Agrupar valores simbólicos discretos Quantizar valores numéricos contínuos
O Processo de KDD Consolidação de dados Seleção e Pré-processamento Warehouse Dados Consolidados Data Mining Dados Preparados Interpretação e Avaliação p(x)=0.02 Padrões e Modelos Conhecimento Dados Originais
Tarefas e Métodos em DM Exploração/Descoberta Automática e.g.. descoberta de novos segmentos de mercado Análise de agrupamento Previsão/Classificação e.g.. previsão de vendas brutas a partir de fatores atuais Regressão, redes neurais, algoritmos genéticos, árvores de decisão Explanação/Descrição e.g.. Caracterização de clientes pela demografia e histórico de compra Árvores de decisão, regras de associação x2 f(x),-. / 01-.2! ''' x1 x
Exploração e descoberta Agrupamento: particionar um conjunto de dados em um conjunto de classes, chamadas grupos, cujos membros possuam algumas propriedades interessantes em comum Agrupamento numérico baseado em distância Métricas de agrupamento de exemplos (k-nn) Técnicas de visualização podem ser usadas Agrupamento Bayesiano automáticas Busca o número de classes que resulta em um melhor ajuste de uma distribuição de probabilidades aos dados, sendo o AutoClass (NASA) um dos melhores exemplos
Previsão e classificação Aprender um modelo preditivo Usar um modelo obtido para prever o valor de algum atributo desconhecido ou faltante baseado em outra informação Classificação de um novo caso Classificar dados baseados em valores de um atributo meta, e.g., classificar cidades baseado no clima, ou classificar carros baseado no consumo Vários métodos: Redes neurais artificiais, árvores de decisão indutivas e sistemas baseados em regras, algoritmos genéticos, algoritmos de agrupamento do vizinho mais próximo, métodos estatísticos (paramétricos, não-paramétricos)
Explanação e descrição Aprender uma hipótese generalizada (modelo) a partir de dados selecionados Descrição/Interpretação de modelos fornece novos conhecimentos Métodos: Árvore de decisão indutiva e sistemas baseados em regras Regras de associação
O Processo de KDD Consolidação de dados Seleção e Pré-processamento Warehouse Dados Consolidados Data Mining Dados Preparados Interpretação e Avaliação p(x)=0.02 Padrões e Modelos Conhecimento Dados Originais
Os padrões descobertos são Um sistema de DM pode gerar muitos padrões Medidas de interesse: Facilmente compreensível por humanos Válidos em novos dados com algum grau de certeza Potencialmente útil Inovador, ou valida alguma hipótese que alguém quer confirmar Medidas Objetivas vs. subjetivas Objetivas: baseadas em estatística e estruturas de padrões Subjetiva: baseada na crença do usuário sobre os dados, e.g., surpresa, inovação, etc. interessantes?
Completeza vs.. otimização Completeza: encontrar todos os padrões interessantes Um sistema de DM pode encontrar todos os padrões interessantes? Otimização: busca somente de padrões interessantes Um sistema de DM pode encontrar somente os padrões interessantes? Abordagens Gerar primeiro todos os padrões e então filtrar deixando somente aqueles interessantes Gerar somente os padrões interessantes
Interpretação e Avaliação Avaliação Validação estatística e testes de significância Análise qualitativa por especialistas da área Testes-piloto para avaliar precisão do modelo Interpretação Árvore de indução e modelos de regras podem ser lidos diretamente Resultados de agrupamentos podem ser apresentados em gráficos ou tabelados Código pode ser automaticamente gerado por alguns sistemas (modelos de regressão)
Principais Tarefas Classificação: aprendizagem supervisionada Usa exemplos de treinamento com classes conhecidas para classificar novos dados Agrupamento: aprendizagem não supervisionada Exemplos de treinamento não possuem informação de classe Atribui classes ou grupos aos dados
Tarefa de Classificação Entrada: um conjunto de registros para treinamento, rotulados com uma classe cada Saída: um modelo (classificador) que assinala uma classe a cada caso baseado nos outros atributos Aplicações típicas Aprovação de crédito Diagnóstico médico Análise de efetividade de tratamento
Treinamento e Teste Os registros (observações, amostras) são particionados em conjunto de treinamento e conjunto de testes A classificação acontece em duas etapas 1. Treinamento: construção do modelo a partir do conjunto de treinamento 2. Teste: verificação da precisão do modelo obtido usando o conjunto de testes 3. Teste (alternativo): em função da quantidade de dados usa-se o método da correlação cruzada
Treinamento e Teste Tipos de Modelos Regras SE-ENTÃO Árvores de decisão Precisão dos modelos Compara-se a classe prevista pelo modelo gerado em casos de teste Taxa de precisão = % do conjunto das amostras do conjunto de testes corretamente classificado pelo modelo gerado
Comparação de classificadores Precisão Velocidade Robustez em relação a ruídos e valores faltantes Escalabilidade: eficiência em grandes bases de dados Interpretabilidade do modelo obtido Simplicidade Tamanho da árvore de decisão Tamanho e número de regras Indicadores de qualidade dependentes do domínio
Market Basket Analysis 3 4 *5 *5 6 7 :44* 4! :44 4! ; 4* "8 "9 "-
MBA - Tarefa Dado: uma BD de transações de clientes, onde cada transação é um conjunto de itens Encontrar grupos de itens que são freqüentemente comprados juntos
MBA - Objetivo Extrair informação sobre comportamento de compra Informação obtida pode sugerir Novos leiautes de lojas Novo conjunto de produtos Quais produtos colocar em promoção MBA é aplicável onde um cliente compra vários itens em proximidade Cartões de crédito Serviços de companhias de telecomunicações Serviços bancários Tratamentos médicos
Regras de Associação Expressa como produtos e serviços se relacionam uns com os outros e tende a agrupá-los em conjuntos se um conjunto compra fraldas na sexta-feira, então ele também compra cerveja Fácil de entender Ação possível: colocar cerveja próxima de fraldas quando o fim de semana se aproxima
Agrupamento Dado: BD grande de dados de clientes, contendo suas propriedades e seu histórico de compras Objetivo: Encontrar grupos de clientes com comportamento similar Encontrar clientes com comportamento não usual
Agrupamento Dado: Um conjunto de dados com N dados d-dimensionais Encontrar: Uma partição natural do conjunto de dados em um número de grupos (k) e ruído Os grupos devem ser tais que Itens em um mesmo grupo são similares, ou seja, similaridade intra-grupos é maximizada & Itens de grupos diferentes são diferentes, ou seja, similaridade inter-grupos é minimizada
Uso do agrupamento Sem classes pré-definidas Usado como técnica individual para determinar distribuição de dados ou como etapa de préprocessamento para outros algoritmos Auxilia a compreender como objetos pertencentes a um conjunto de dados tendem a se agrupar naturalmente
Estudos de agrupamentos Inicialmente Agrupamento é um problema conhecido em estatística Pesquisa mais recente em Aprendizagem de máquina BD Visualização Trabalhos atuais Algoritmos de agrupamento efetivos e eficientes para conjuntos de dados de muito alta dimensionalidade com alto ruído Necessária escalabilidade com relação a Número de pontos de dados (N) Número de dimensões (d) Nível de ruído
Métodos Básicos Métodos de particionamento k-means, k-medoids Métodos hierárquicos Aglomerativos/divisivos, BIRCH, CURE Métodos baseados em ligação Métodos baseados em densidade DBSCAN, DENCLUE Métodos estatísticos COBWEB
DM - Pesquisas 1. Integração com data warehouse e BD relationais 2. Mineração de dados escalável, paralela/distribuída e incremental 3. Otimização de linguagens para query em Data mining 4. Métodos de DM múltiplos e integrados 5. Ambientes de DM Interativos e exploratórios 6. Mineração de outras formas de dados BD espaço-temporais Textos Multimídia Web
Web Mining Por quê? Web sem padrões, grande quantidade de informação não estruturada e heterogênea Muito dinâmica Um novo servidor WWW a cada 2 horas 5 milhões de documentos em 1995 320 milhões de documentos em 1998 Índices se tornam obsoletos muito rapidamente
Web content mining Web Mining Minerar o que os mecanismos de Web search encontram Classificação de documentos da Web (Chakrabarti et al 99) warehousing a Meta-Web (Zaïane and Han 98) intelligent query answering em Web search Web usage mining Mineração de Web logs: encontrar padrões de acesso e tendências (Zaiane et al 98) < Rastreamento de características de usuários e sites adaptativos (Perkowitz et al 97) Web structure mining < Descobrir páginas confiáveis: uma página é importante se páginas importantes apontam para ela (Chakrabarti et al 99, Kleinberg 98)
Bibliografia Básica Mitchel, T.M. Machine Learning, McGraw- Hill, 1997. Dhar, V. & Stein, R. Seven Methods for Transforming Corporate Data into Business Intelligence, Prentice-Hall, 1997. Witten, I.H. & Frank, E. Data Mining: Practical Machine Learning Tools and Techniques with Java Implementatins, Morgan Kaufmann Publishers, 1999.
Endereços Eletrônicos About SIGKDD Explorations Business Intelligence and Data Warehousing - TDWI Computing Research Repository (CoRR) Data Mining Server Data Storage & Mining Research Center - Index - Data Storage and Mining Research Center - CIO Data Warehousing at Stanford Publications DBMS - August 1996 - Defining Data Mining DELVE - Data for Evaluating Learning in Valid Experiments DWQ KDnuggets Data Mining, Web Mining, and Knowledge Discovery Guide Knowledge Discovery in Databases and Data Mining MLnet OiS - Find information and resources on Machine Learning, Knowledge Discovery, Data Mining, Case-based Reasoning, and Kno PCAI Artificial Intelligence - Free emagazine, White Papers, Demos, Products, Glossary, Links Sistemas Baseados em Casos The CBR Homepage The Data Warehousing Information Center TWiki. Main. WebHome Welcome to AI Topics