Introdução ao Data Mining 1

Transcrição

1 INTEGRAÇÃO E PROCESSAMENTO ANALÍTICO DE INFORMAÇÃO Introdução ao Data Mining 1 António Manuel Silva Ferreira UNIVERSIDADE DE LISBOA FACULDADE DE CIÊNCIAS DEPARTAMENTO DE INFORMÁTICA asfe@di.fc.ul.pt

2 Sumário Data mining Propósito Tarefas Wpicas Aplicações právcas Ciclo virtuoso Dificuldades de uso Métodos Supervisionados e não supervisionados Agrupamento Hierárquico aglomeravvo IteraVvo k- means Classificação Árvores de decisão 2

3 Data Mining Prospeção de Informação Tem como propósito descobrir informação escondida nos dados Descoberta de padrões úteis em grandes quan9dades de dados Reúne conhecimento de várias áreas Análise estawsvca: descrição de dados e inferência Inteligência arvficial: geração automávca de modelos Sistemas de informação: modelação e disponibilidade dos dados No contexto do data warehousing Extrair (Fontes Operacionais) Transformar (Data Staging) Carregar (Data Warehouse) Mudança no negócio Decidir Analisar e Modelar 3

4 Infra- Estrutura para o Data Mining Sistemas operacionais: olhos e ouvidos Permitem a entrada de dados na organização Focados no funcionamento dos processos de negócio Pouco vocacionados para a prospeção de dados Data warehouse: memória Guarda dados coerentes, de várias fontes, e com histórico Permite a recuperação de factos relevantes dispersos no tempo Fonte de dados mais importante para a prospeção de dados Sistemas de data mining: inteligência Exploram dados históricos para gerar informação ú9l no futuro Detetam padrões nos dados e sugerem novas regras de negócio Permitem tomar decisões informadas e traçar planos de ação 4

5 Data Mining ao Longo do Tempo Anos 20 a finais de 70 Métodos estawsvcos descrivvos e inferenciais Visualização de dados, seleção de atributos, deteção de outliers Data mining = análise estawsvca Anos 80 e 90 Vulgarização dos computadores e aprendizagem arvficial Geração automá9ca de modelos de dados Data mining = machine learning Tempos mais recentes Proliferação de data warehouses e explosão de dados Interligação de sistemas de informação e cruzamento de dados Data mining = tarefa integrada no processo de tomada de decisão 5

6 Tarefas Típicas de Data Mining Interpretação Explorar visual e interavvamente os dados Matrizes de gráficos, linhas de tendência, gráficos tridimensionais Agrupamento Agrupar dados com caraterís9cas idên9cas desconhecidas à par9da Métodos hierárquico aglomeravvo e iteravvo k- means Classificação Gerar modelos que organizam dados em classes pré- determinadas Métodos com árvores de decisão e redes neuronais Associação Descobrir grupos frequentes: que coisas costumam ir juntas Método com regras de associação 6

7 Aplicações Prá9cas de Data Mining Deteção de situações suspeitas Transferências bancárias internacionais para paraísos fiscais UVlização pouco comum do cartão de crédito Fidelização de clientes Promoções personalizadas com base no histórico de compras Sugestões de produtos relacionados comprados por outros clientes Indexação automávca Atribuição de palavras- chave e relevância a conteúdos na Internet Seleção de publicidade a acompanhar resultados de pesquisa Previsão de eventos Chuva para amanhã com base no histórico de condições atmosféricas Manutenção preventiva de máquinas industriais pela forma das vibrações 7

8 Ferramentas de Data Mining Dedicadas So<ware estawsvco de referência Maior controlo e confiança nos resultados Acesso menos eficiente aos dados do data warehouse Ex. R, S, SPSS, SAS Integradas em sistemas SQL Server Módulos que executam métodos mais habituais Regras de associação, árvores de decisão, redes neuronais, agrupamento Tem linguagem própria: DMX (data mining expressions) Outros sistemas Oracle Data Mining, IBM DB2 Intelligent Miner 8

9 Ciclo Virtuoso do Data Mining 1 1. IdenVficar um problema de negócio Com base na análise dos dados no data warehouse 2. Aplicar métodos de data mining Para transformar dados em informação Envolve construção de modelos dos dados 3. Agir sobre a informação obvda Decisão afeta o funcionamento do negócio 4. Medir resultados da decisão Avaliar se problema de negócio foi resolvido Voltar ao ponto 1 Analisar Modelar Decidir Avaliar 9

10 Ciclo Virtuoso do Data Mining Avaliar resultados 1. Traduzir problema de negócio em problema de data mining 2. Selecionar fontes de dados 9. Implantar modelos no negócio Ciclo do data mining pode ser não linear 3. Conhecer as fontes de dados 8. Avaliar modelos 4. Criar conjuntos de dados 7. Gerar modelos dos dados 6. Preparar dados para uso em métodos 5. Corrigir problemas nos dados 10

11 Conjuntos de Dados Dados de treino Usados para criar o modelo inicial Deve ter quanvdade considerável de dados (ex. dois terços ou 70%) Dados de validação Usados para o9mizar o modelo inicial MiVgar overfiang devido a idiossincrasias nos dados de treino Tipicamente uma pequena porção dos dados Dados de teste (ou avaliação) Usados para calcular taxa de erro do modelo Permite esvmar taxa de erro com os dados ainda não analisados Cerca de um terço dos dados Três conjuntos devem ter dados diferentes e representa9vos 11

12 Dificuldades no Uso de Data Mining 1 Problemas nos dados Outliers causados por ruído ou más medições Dados biased, irrelevantes, incompletos, em atualização, Dados não estruturados (mulvmédia, texto, ) Problemas nos modelos Sobre- ajustamento (overfiang) Modelo bem adaptado aos dados de treino mas não é generalizável Possível corrigir com conjunto de validação Modelos alternavvos podem ser comparados e escolhido o melhor Tendo o cuidado de usar os mesmos dados de treino Visualizações não apropriadas Gráficos incompletos ou desapropriados Problemas de nível de detalhe e escala 12

13 Dificuldades no Uso de Data Mining 2 Interpretações abusivas dos resultados Correlação não implica causalidade! No oeste selvagem americano havia uma correlação quase perfeita entre o consumo de whisky e o número de missas celebradas Ambos quadruplicaram em 25 anos Aumento de whisky levou as pessoas a arrependerem- se mais? Claro que não! O que aconteceu foi a população ter quadruplicado Desempenho Alguns métodos não escalam bem Bons e rápidos com poucos dados Demasiado lentos com muitos dados Paralelização é um desafio Ferramentas populares de data mining não Vram parvdo de CPUs mulecore Execution Time (seconds) K = 4 K = 16 K = 64 Paralelização do método k- means na PlaystaVon 3 0 PPE PPE+SIMD SPE 1 SPE 2 SPE 4 SPE 6 SPE 8 13

14 Métodos e Supervisão Métodos não supervisionados Sem obje9vo inicial ExpetaVva de resultados interessantes e inesperados Processo Wpico 1. Selecionar fontes de dados 2. Preparar dados para análise 3. Gerar modelo dos dados 4. Avaliar modelo 5. Aplicar modelo a novos dados 6. IdenVficar possíveis objevvos específicos Métodos supervisionados Com obje9vo específico Exemplo: esvmar atributo com base noutros atributos Processo Wpico 1. Selecionar fontes de dados pré- classificados 2. Preparar dados para análise 3. Gerar modelo dos dados 4. Avaliar modelo comparando com dados pré- classificados 5. Aplicar modelo a novos dados 14

15 Agrupamento (Clustering) Agrupar dados com caraterísticas idênticas desconhecidas à partida Ex. agrupar clientes com base nas preferências de consumo Métodos não supervisionados Desnecessário conhecer agrupamentos (clusters) prévios dos dados O que significa ter bons clusters? Quando cada cluster tem vários elementos Quando os clusters são distantes entre si Duas abordagens principais Hierárquica: clusters vão sendo formados a parvr de sub- clusters Método de agrupamento hierárquico aglomeravvo Itera9va: inclusão sucessiva de elementos em clusters fixos à parvda Método k- means 15

16 Agrupamento Hierárquico Aglomera9vo Clusters compostos por sub- clusters Algoritmo bogom- up Construção dos sub- clusters para os clusters 1. Considerar tantos clusters quantos os dados disponíveis 2. Procurar par com os clusters mais próximos entre si De acordo com critério de distância (cada dado representa um ponto) 3. Juntar dois clusters mais próximos entre si num só 4. RepeVr passo 2, exceto se: a) Número de clusters for suficiente, ou b) Distância entre clusters for muito grande Condições de paragem do algoritmo 16

17 Critérios de Distância para Juntar Clusters Single linkage Clusters juntam- se escolhendo pontos mais próximos de cada cluster Clusters com formas alongadas Sensível a outliers Average linkage Clusters juntam- se escolhendo pontos médios de cada cluster Clusters com formas intermédias Mais resistente a outliers Complete linkage Clusters juntam- se escolhendo pontos que têm menor distância maior entre clusters Clusters com formas compactas Sensível a outliers 17

18 Dendrogramas 1 Representação dos clusters em forma de árvore Grandes clusters no topo Pontos individuais na base Dendrograma Dados 18

19 Dendrogramas 2 Distância guia a análise dos clusters de dados interessantes Grande distância significa maior disvnção entre clusters Single Linkage Average Linkage Complete Linkage Zona de corte com boa disvnção entre os dois clusters principais Grande distância entre os dois clusters principais Clusters muito próximos entre si (dados muito semelhantes) hcs <- hclust(dist(dados), "single"); plot(hcs, labels = FALSE); hca <- hclust(dist(dados), "average"); plot(hca, labels = FALSE); hcc <- hclust(dist(dados), "complete"); plot(hcc, labels = FALSE); 19

20 Exemplo de Agrupamento 50 animais selvagens Dados sobre cada animal Número de patas De 0 a 6 No intervalo [0, 1] 15 atributos lógicos Tem penas? É venenoso? Verdadeiro = 1 Falso = 0 Alguns clusters Javali, chita, leopardo, leão, lince, e mangusto AnWlope, búfalo, veado, elefante, e girafa aardvark bear boar cheetah leopard lion lynx mongoose mink antelope buffalo deer elephant giraffe calf goat human gorilla cavy hamster fruitbat hare mole bass catfish chub herring dogfish carp haddock dolphin chicken dove lark duck flamingo crow hawk gull kiwi clam crab crayfish lobster frog flea gnat housefly ladybird honeybee 20

21 Agrupamento Itera9vo K- Means Método mais rápido que agrupamento hierárquico aglomeravvo Também constrói clusters a parvr de sub- clusters Número inicial de clusters (k) é inferior ao total de pontos Centro dos k clusters iniciais escolhido aleatoriamente Resultados podem ser diferentes em cada execução Apesar de tudo, resultados tendem a ser coerentes Algoritmo bogom- up 1. Escolher k pontos aleatórios para centros de clusters 2. Associar cada ponto de dados ao cluster mais próximo 3. Para cada cluster calcular o seu novo centro 4. RepeVr passo 2, exceto se não houver troca de pontos entre clusters 21

22 Exemplos de K- Means 22 d1 <- matrix(rnorm(n = 100, mean = 0.5, sd = 0.1), ncol = 2); d2 <- matrix(rnorm(n = 100, mean = 1.5, sd = 0.1), ncol = 2); d0 <- rbind(d1, d2); plot(d0, xlim = c(0, 2), ylim = c(0, 2)); Dados iniciais k2 <- kmeans(d0, centers = 2); plot(d0, col = k2$cluster, xlim = c(0, 2), ylim = c(0, 2), cex = 1.5); points(k2$centers, col = 8, pch = 3, cex = 15); k5 <- kmeans(d0, centers = 5); plot(d0, col = k5$cluster, xlim = c(0, 2), ylim = c(0, 2), cex = 1.5); points(k5$centers, col = 8, pch = 3, cex = 15); Cenário ó9mo Dados em torno de 2 clusters iniciais Mau agrupamento Dados em torno de 5 clusters iniciais

23 Árvores de Decisão 1 Método supervisionado de classificação Modelo afinado com base em dados pré- classificados Exemplo: aprovação de crédito num banco Empregado do Banco? Não Sim Rendimento Alto Baixo Aprovar Rejeitar Conceitos Nós da árvore representam atributos Arestas são valores de atributos Folhas são classes (decisões) possíveis, pré- determinadas Processo de classificação faz- se descendo na árvore Aprovar 23

24 Árvores de Decisão 2 Regras de classificação são fáceis de entender Se é empregado do banco, tem crédito aprovado Se não é empregado do banco Se tem rendimento elevado, tem crédito aprovado Se tem rendimento reduzido, o crédito é rejeitado Interessa obter árvores pequenas e simples Para salientar quais os atributos mais importantes para classificar Árvores complexas sujeitas a mais erros e a overfiang A explicação mais simples é geralmente a mais verdadeira Construção da árvore guiada por heurísvcas Ex. corte de ramos da árvore que diferenciam pouco os dados 24

25 Construção de Árvores de Decisão 1 Situação ideal (mas infrequente) Um atributo determinar imediatamente classes (decisões) Ex. se empregado do banco tem sempre aprovação do crédito Situação mais comum Escolher atributos pela ordem que melhor diferencia os dados Esta árvore é preferível à anterior? Sim Aprovar Rendimento Alto Baixo Empregado do Banco? Empregado do Banco? Não Sim Aprovar Aprovar Não Rejeitar 25

26 Construção de Árvores de Decisão 2 Considerando D = dados pré- classificados e D o número de elementos em D C = classes possíveis dos dados, c 1, c 2,, c n A = um atributo dos dados, com valores possíveis a 1, a 2,, a n D a = subconjunto de D onde o atributo A tem o valor a Algoritmo simplificado 1. Calcular ganho de informação para cada atributo A!"#$%!&"'# = (#)*%+,"!&#! " # ) "=" $ & & "(#)*%+,"!& # ( " ( ' 2. Colocar atributo com maior ganho na árvore 3. RepeVr sucessivamente desde o topo até à base da árvore SubsVtuindo D por D a, consoante o ramo da árvore percorrido # % % $ & " 26

27 Construção de Árvores de Decisão 3 Entropia mede a desordem nos dados Para um conjunto de dados D, com classes possíveis c 1, c 2,, c n!"#$%&'(!)" =!& * "#$% &!& * " p c = proporção da classe c no universo das classes possíveis em D Exemplo c 1 = aprovado p c1 = 4/5 c 2 = rejeitado p c2 = 1/5 * " # *=* ' ( ) Dsim Dnão Empregado do Banco? Rendimento Crédito Sim Alto Aprovado Sim Baixo Aprovado Sim Baixo Aprovado Não Alto Aprovado Não Baixo Rejeitado )!"#$%&'(!)" =! # $ "%&' # # &, + % (. ( * + $ $ '-. + )!) $ "%&' #) % &, + ( * + $ $ ' (. -. = *+,( 27

28 Construção de Árvores de Decisão 4 Entropia ÓVma para detetar atributos que melhor diferenciam os dados Pois tem valor reduzido nas seguintes situações Quase todos os dados pertencem a uma classe c i Quase nenhum dos dados pertence a uma classe c j Ganho de informação para um atributo A Indica qual a redução esperada da entropia dos dados decorrente da navegação na árvore através do atributo A Ex. A = empregado do banco? navegação pelo valores sim e não Ex. A = rendimento navegação pelos valores alto e baixo Quanto maior a redução da entropia Menor o número de classes possíveis do respevvo subconjunto dos dados Mais próxima está a decisão final 28

29 Construção de Árvores de Decisão 5 Qual o atributo com maior ganho de informação? Isto é, qual o atributo que melhor diferencia os dados? Empregado do banco? ou rendimento? #!"#$%!&"'()*+,"-%# = '#.*%)/"!&#! & 0/( & "'#.*%)/"!& #+ & & % #1% 0/( & "'#.*%)/"!& # ( % #1% ( $ ' # = $"%&! % ' ( "$+ & $ ( ") & ( = $"%&!$"* = $"'& ' #!"#$%!&"'(#)*+(#,%# = -#,.%/*"!&#! & "0,% & "-#,.%/*"!& #+ & & % 1"*2% "0,% & "-#,.%/*"!& # ( % 1"*2% ( $ ' # = $"%&! % & ' "$+ ( $ ' "$")& & ( = $"%&!$"'' = $"*% ' Resultados Empregado do banco? deve constar no topo da árvore Rendimento deve estar no ramo não empregado do banco 29

30 Bibliografia Jiawei Han, Micheline Kamber, e Jian Pei, Data Mining: Concepts and Techniques, Morgan Kaufmann, 2ª edição, 2005 Michael Berry e Gordon Linoff, Data Mining Techniques for MarkeEng, Sales, and Customer Support, Wiley, 2ª edição, 2011 Tipos de tarefas Cap. 1 Ciclo virtuoso Caps. 2 e 3 Árvores de decisão Cap. 6 Agrupamento Cap. 11 Trevor HasVe, Robert Tibshirani, e Jerome Friedman, The Elements of StaEsEcal Learning: Data Mining Inference and PredicEon, Springer, 2ª edição,