Clustering - agrupamento Baseado no capítulo 8 de Introduction to Data Mining de Tan, Steinbach, Kumar Clustering - agrupamento 1
O que é Clustering? Encontar grupos de objectos tal que os objectos dentro de um grupo são similares entre si, enquanto objetos de grupos diferentes são dissimilares. Distância Intra-cluster é mínima Distância Inter-cluster é máxima Clustering - agrupamento 2
Aplicações de Clustering Compreensão Grupos de documentos relacionados entre si, grupos de genes similares, ou grupos de ações com comportamentos similares 1 2 3 4 Discovered Clusters Applied-Matl-DOWN,Bay-Network-Down,3-COM-DOWN, Cabletron-Sys-DOWN,CISCO-DOWN,HP-DOWN, DSC-Comm-DOWN,INTEL-DOWN,LSI-Logic-DOWN, Micron-Tech-DOWN,Texas-Inst-Down,Tellabs-Inc-Down, Natl-Semiconduct-DOWN,Oracl-DOWN,SGI-DOWN, Sun-DOWN Apple-Comp-DOWN,Autodesk-DOWN,DEC-DOWN, ADV-Micro-Device-DOWN,Andrew-Corp-DOWN, Computer-Assoc-DOWN,Circuit-City-DOWN, Compaq-DOWN, EMC-Corp-DOWN, Gen-Inst-DOWN, Motorola-DOWN,Microsoft-DOWN,Scientific -Atl-DOWN Fannie-Mae-DOWN,Fed-Home-Loan-DOWN, MBNA-Corp-DOWN,Morgan-Stanley-DOWN Baker-Hughes-UP,Dresser-Inds-UP,Halliburton -HLD-UP, Louisiana-Land-UP,Phillips-Petro-UP,Unocal-UP, Schlumberger-UP Industry Group Technology1-DOWN Technology2-DOWN Financial-DOWN Oil-UP Sumário/síntese Reduzir a dimensão de conjuntos de dados de gandes dimensões Chuva na Australia Clustering - agrupamento 3
O que não é clustering? Classificação supervisionada Existe uma classe Simples segmentação Dividir alunos por ordem alfabética do nome, ou por ordem de notas, ou por idade Resultados de uma query Resultado de uma especificação (ou conjunto de especificações previamente definidas) Clustering - agrupamento 4
Definição de Cluster/grupo pode ser ambígua Quantos clusters? Seis Clusters Dois Clusters Quatro Clusters Clustering - agrupamento 5
Tipos de Clustering O clustering é o conjunto de grupos(clusters) Clustering de partição Divisão de objetos em conjuntos não sobrepostos Clustering hierárquico e Conjunto de grupos organizado segundo uma árvore hierárquica Clustering - agrupamento 6
Clustering de partição Pontos originais clustering de partição Clustering - agrupamento 7
Clustering hierárquico p1 p3 p4 p2 p1 p2 p3 p4 Clustering hierárquico Traditional Dendrogram p1 p3 p4 p2 p1 p2 p3 p4 Non-traditional Hierarchical Clustering Non-traditional Dendrogram Clustering - agrupamento 8
Tipos de clusters Exclusivos versus não-exclusivos Em clusters não exclusivos alguns pontos podem pertencer a múltiplos clusters Fuzzy versus não-fuzzy No clustering fuzzy, um ponto pertence a todos os clusters com um certo grau (entre 0 e 1) Parcial versus completo Clustering de parte dos dados Heterogénio versus homogénio Heterogénio - Clustering com dimensões formas e/ou densidades diversas Clustering - agrupamento 9
Tipos de Clusters Clusters bem separados clusters Clusters basedos em centros Clusters Contíguos Clusters baseados em densidade Clustering - agrupamento 10
Tipos de Clusters: Bem separados Cada elemento está mais perto dos pontos do seu cluster do que de qualquer outros pontos 3 clusters bem separados Clustering - agrupamento 11
Tipos de Clusters: Baseados em centros Cada elemento está mais perto do centro do cluster do que de qualquer outro centro 4 clusters baseado em centros Clustering - agrupamento 12
Tipos de Clusters: Contíguos Zonas contínuas ou próximas de zonas contínuas 8 clusters contíguos Clustering - agrupamento 13
Tipos de Clusters: conceito/propriedade Mesma forma.... 2 Círculos Clustering - agrupamento 14
K-means K-means é um algoritmo que gera clusters: - Dijuntos, determinísticos, planos. Algoritmo: 1. Escolher o número de clusters K 2. Escolher o centro dos clusters (início pode ser aleatório) 3. Atribuir as instâncias aos clusters baseado nas distâncias aos centros dos clusters 4. calcular os centroides (média) dos clusters 5. voltar para passo 2 até o centroide convergir 15
K-means Distância entre as instâncias e os centroides - erro quadrático ou distência euclideana centros Pode ficar preso em mínimos locais iniciais dos clusters instâncias Mínimos globais podem ser atingidos usando outros centros iniciais instâncias centros com distância mínima Diversas variantes (hierárquico/recursivo) 16
K-means Exemplos de mínimos locais. Sensibilidade à transformação de coordenadas centros iniciais dos clusters centros com distância mínima instâncias instâncias 17
K-means Transformação linear de coordenadas 18
Centroides iniciais e evolução 3 Iteration 1 3 Iteration 2 3 Iteration 3 2.5 2.5 2.5 2 2 2 1.5 1.5 1.5 y y y 1 1 1 0.5 0.5 0.5 0 0 0-2 -1.5-1 -0.5 0 0.5 1 1.5 2 x -2-1.5-1 -0.5 0 0.5 1 1.5 2 x -2-1.5-1 -0.5 0 0.5 1 1.5 2 x 3 Iteration 4 3 Iteration 5 3 Iteration 6 2.5 2.5 2.5 2 2 2 1.5 1.5 1.5 y y y 1 1 1 0.5 0.5 0.5 0 0 0-2 -1.5-1 -0.5 0 0.5 1 1.5 2 x -2-1.5-1 -0.5 0 0.5 1 1.5 2 x -2-1.5-1 -0.5 0 0.5 1 1.5 2 x Clustering - agrupamento 19