Encontrar grupos de objetos tal que objetos em um grupo são similares (ou relacionados) uns aos outros e diferentes de (ou não relacionados) a objetos em outros grupos
Compreensão Agrupa documentos relacionados para pesquisa, agrupa genes e proteínas que tenham funcionalidade similar, ou agrupa estoques com flutuações de preço similar 2 3 4 Grupos Descobertos Applied-Matl-DOWN,Bay-Network-Down,3-COM-DOWN, Cabletron-Sys-DOWN,CISCO-DOWN,HP-DOWN, DSC-Comm-DOWN,INTEL-DOWN,LSI-Logic-DOWN, Micron-Tech-DOWN,Texas-Inst-Down,Tellabs-Inc-Down, Natl-Semiconduct-DOWN,Oracl-DOWN,SGI-DOWN, Sun-DOWN Apple-Comp-DOWN,Autodesk-DOWN,DEC-DOWN, ADV-Micro-Device-DOWN,Andrew-Corp-DOWN, Computer-Assoc-DOWN,Circuit-City-DOWN, Compaq-DOWN, EMC-Corp-DOWN, Gen-Inst-DOWN, Motorola-DOWN,Microsoft-DOWN,Scientific-Atl-DOWN Fannie-Mae-DOWN,Fed-Home-Loan-DOWN, MBNA-Corp-DOWN,Morgan-Stanley-DOWN Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP, Louisiana-Land-UP,Phillips-Petro-UP,Unocal-UP, Schlumberger-UP Grupo Industrial Technology-DOWN Technology2-DOWN Financial-DOWN Oil-UP Sumarização Reduz o tamanho de grandes bases de dados Agrupando precipitação na Austrália
Classificação Supervisionada Tem informação de rótulo da classe Segmentação simples Dividir estudantes em diferentes grupos de registro alfabeticamente, pelo último nome Resultado de uma query Grupos são resultado de uma especificação externa Particionamento de Grafo Alguma relevância e sinergia mútua, mas áreas não são idênticas
Quantos grupos? Seis Grupos Dois Grupos Quatro Grupos
Um agrupamento é um conjunto de grupos Distinção importante entre conjuntos de grupos hierárquicos e particionais Agrupamento Particional Divide objetos de dados em subconjuntos sem sobreposição (grupos) tal que cada objeto de dados está em exatamente um subconjunto Agrupamento Hierárquico Um conjunto de grupos aninhados organizado como uma árvore hierárquica
Pontos Originais Um Agrupamento Particional
p p3 p4 p2 p p2 p3 p4 Agrupamento Hierárquico Tradicional Dendrograma Tradicional p p3 p4 p2 p p2 p3 p4 Agrupamento Hierárquico não Tradicional Dendrograma não Tradicional
!"# Exclusivo versus não exclusivo Em agrupamentos não exclusivos, pontos podem pertencer a vários grupos. Podem representar várias classes ou pontos de fronteira Fuzzy versus não fuzzy Em agrupamento fuzzy, um ponto pertence a todo grupo com algum peso entre 0 e Soma dos pesos deve ser Agrupamento probabilístico tem características semelhantes Parcial versus completo Em alguns casos, deseja-se agrupar somente alguns dados Heterogêneo versus homogêneo Grupos de tamanho, formato e densidade completamente diferentes
Grupos bem separados Grupos baseados em centro Grupos contíguos Grupos baseados em densidade Propriedade ou Conceitual Descrito por uma Função Objetivo
$%& Grupos bem separados: Um grupo é um conjunto de pontos tal que qualquer ponto em um grupo está mais próximo (ou é mais similar) de todo ponto no grupo do que de qualquer ponto que não está no grupo. 3 grupos bem separados
$% " Baseado em Centro Um grupo é um conjunto de objetos tal que um objeto em um grupo está mais próximo (mais similar) ao centro de um grupo, que ao centro de qualquer outro grupo O centro de um grupo é freqüentemente um centróide, a média de todos os pontos no grupo, ou um medóide, o ponto mais representativo de um grupo 4 grupos baseados em centro
$% "' Grupos Contíguos (Vizinho mais Próximo ou Transitivo) Um grupo é um conjunto de pontos tal que um ponto em um grupo está mais próximo (ou é mais similar) a um ou mais pontos no grupo do que a qualquer ponto que não está no grupo. 8 grupos contíguos
$%! Baseado em Densidade Um grupo é uma região densa de pontos, que é separada por regiões de baixa densidade, de outras regiões de alta densidade. Usado quando os grupos são irregulares ou entrelaçados, e quando ruído ou outliers estão presentes. 6 grupos baseados em densidade
$" Propriedade compartilhada ou Grupos Conceituais Encontrar grupos que partilham alguma propriedade em comum ou representam um conceito em particular. 2 Círculos Sobrepostos
$(#) Grupos Definidos por uma Função Objetivo Achar grupos que minimizam ou maximizam função objetivo Enumerar todas formas possíveis de dividir os pontos em grupos e avaliar quão bom cada potencial conjunto de grupos é usando a função objetivo dada. (NP Hard) Pode-se ter objetivos globais ou locais. Algoritmos de agrupamento hierárquico tem em geral objetivos locais Algoritmos particionais em geral tem objetivos globais Uma variação da abordagem por função objetivo global consiste no ajuste dos dados a um modelo parametrizado. Parâmetros para o modelo são determinados a partir dos dados. Modelos de mistura assumem que os dados são uma mistura de um certo número de distribuições estatísticas.
$(#)* Mapear o problema de agrupamento em um domínio diferente e resolver um problema relacionado naquele domínio Matriz de Proximidade define um grafo ponderado, em que os nós são os pontos sendo agrupados, e o peso das arestas representa a proximidade entre pontos Agrupamento é equivalente a quebrar o grafo em componentes conectados, um para cada grupo. Busca-se minimizar o peso das arestas entre grupos e maximizar o peso das arestas dentro dos grupos
+, "! - Tipo de proximidade ou medida de densidade É uma medida derivada, mas central ao agrupamento Esparsidade Dita o tipo de similaridade Melhora a eficiência Tipo de atributo Dita o tipo de similaridade Tipo de dado Dita o tipo de similaridade Outras características, e.g., auto-correlação Dimensionalidade Ruído e Outliers Tipo de Distribuição
K-médio e suas variações Agrupamento Hierárquico Agrupamento baseado em Densidade
./ Abordagem de agrupamento particional Cada grupo é associado com um centróide (ponto central) Cada ponto é assinalado ao grupo com o centróide mais próximo Número de grupos, K, deve ser especificado O algoritmo básico é muito simples
./ 0! Centróides iniciais em geral são escolhidos aleatoriamente Grupos produzidos variam de execução para outra O centróide é (tipicamente) a média dos pontos do grupo Proximidade é medida pela distância Euclidiana, similaridade dos cossenos, correlação, etc. K-médio converge para as medidas de similaridade já indicadas Maioria da convergência acontece nas primeiras iterações Freqüentemente a condição de parada é mudada para Até que relativamente poucos pontos mudam de grupo Complexidade é O( n * K * I * d ) n = número de pontos, K = número de grupos, I = número de iterações, d = número de atributos
!!23/ 3 2.5 2.5 Pontos originais y 0.5 0-2 -.5 - -0.5 0 0.5.5 2 x 3 3 2.5 2.5 2 2.5.5 y y 0.5 0.5 0 0-2 -.5 - -0.5 0 0.5.5 2 x Agrupamento ótimo -2 -.5 - -0.5 0 0.5.5 2 x Agrupamento Sub-ótimo
+, - "4 + 3 Iteration 2 34 56 2.5 2.5 y 0.5 0-2 -.5 - -0.5 0 0.5.5 2 x
+, - "4 + 3 Iteração 3 Iteração 2 3 Iteração 3 2.5 2.5 2.5 2 2 2.5.5.5 y y y 0.5 0.5 0.5 0 0 0-2 -.5 - -0.5 0 0.5.5 2 x -2 -.5 - -0.5 0 0.5.5 2 x -2 -.5 - -0.5 0 0.5.5 2 x 3 Iteração 4 3 Iteração 5 3 Iteração 6 2.5 2.5 2.5 2 2 2.5.5.5 y y y 0.5 0.5 0.5 0 0 0-2 -.5 - -0.5 0 0.5.5 2 x -2 -.5 - -0.5 0 0.5.5 2 x -2 -.5 - -0.5 0 0.5.5 2 x
) 3/ Medida mais comum é Sum of Squared Error (SSE) Para cada ponto, o erro é a distância ao grupo mais próximo Para obter SSE, os erros são elevados ao quadrados e somados SSE = K i= x C i dist ( m, x) x é um ponto de dado no grupo C i e m i é o ponto representativo para o grupo C i pode mostrar que m i corresponde ao centro (média) do grupo Dados dois grupos, pode-se escolher aquele com o menor erro Uma forma fácil de reduzir SSE é aumentar k, o número de grupos 2 Um bom agrupamento com k menor pode ter um SSE inferior que um agrupamento pobre com k maior i
+, - "4 +* 3 Iteration 2 34 5 2.5 2.5 y 0.5 0-2 -.5 - -0.5 0 0.5.5 2 x
+, - "4 +* 3 Iteração 3 Iteração 2 2.5 2.5 2 2.5.5 y y 0.5 0.5 0 0-2 -.5 - -0.5 0 0.5.5 2 x -2 -.5 - -0.5 0 0.5.5 2 x 3 Iteração 3 3 Iteração 4 3 Iteração 5 2.5 2.5 2.5 2 2 2.5.5.5 y y y 0.5 0.5 0.5 0 0 0-2 -.5 - -0.5 0 0.5.5 2 x -2 -.5 - -0.5 0 0.5.5 2 x -2 -.5 - -0.5 0 0.5.5 2 x
& + Se há k grupos reais então a chance de selecionar um centróide de cada grupo é pequena. Chance é relativamente pequena quando k é grande Se grupos são de mesmo tamanho, n, então Por exemplo, se k = 0, então probabilidade = 0!/0 0 = 0.00036 As vezes os centróides iniciais se reajustam de forma correta, e as vezes não Considere um exemplo de cinco pares de grupos
-5 67 8 Iteration 2 34 6 4 2 y 0-2 -4-6 0 5 0 5 20 x Começando com dois centróides iniciais em um grupo de cada par de grupos
-5 67 8 Iteration 8 Iteration 2 6 6 4 4 2 2 y 0 y 0-2 -4-2 -4-6 -6 8 0 5 0 5 20 x Iteration 3 8 0 5 0 5 20 x Iteration 4 6 6 4 2 4 2 y 0 y 0-2 -4-2 -4-6 -6 0 5 0 5 20 x 0 5 0 5 20 Começando com dois centróides iniciais em um grupo de cada par de grupos x
-5 67 8 Iteration 2 34 6 4 2 y 0-2 -4-6 0 5 0 5 20 Começando com um par de grupos tendo três centróides iniciais, enquanto outro tem somente um x
-5 67 8 Iteration 8 Iteration 2 6 6 4 4 2 2 y 0 y 0-2 -4-2 -4-6 -6 8 0 5 0 5 20 Iteration x 3 8 0 5 0 5 20 Iteration x 4 6 6 4 2 4 2 y 0 y 0-2 -4-2 -4-6 -6 0 5 0 5 20 x 0 5 0 5 20 x Começando com um par de grupos tendo três centróides iniciais, enquanto outro tem somente um
& "4 + Múltiplas execuções Ajuda, mas a probabilidade não está a favor Amostrar e usar agrupamento hierárquico para determinar centróides iniciais Selecionar mais que k centróides iniciais e então selecionar entre estes centróides iniciais Selecionar os mais largamente separados Pós-processamento K-médio Bi-seccional Não é tão suscetível a problemas de inicialização
8 9: Algoritmo básico do k-médio pode levar a grupos vazios Várias estratégias Escolher o ponto que mais contribui para o SSE Escolher um ponto do grupo com o maior SSE Se há vários grupos vazios, o procedimento acima pode ser repetido várias vezes
: " (+ No algoritmo K-médio básico, centróides são atualizados após todos os pontos terem sido assinalados a um centróide Uma alternativa é atualizar os centróides após cada assinalamento (abordagem incremental) Cada assinalamento atualiza zero ou dois centróides Mais caro Introduz uma ordem de dependência Nunca chega a um grupo vazio Pode usar pesos para alterar impacto
/ 4/ Pré-processamento Normalizar dos dados Eliminar outliers Pós-processamento Eliminar pequenos grupos que podem representar outliers Dividir grupos frouxos, i.e., grupos com SSE relativamente alto Unir grupos que estão próximos e que tenham SSE relativamente baixo Pode usar estes passos durante o processo de agrupamento ISODATA
./ %/ Algoritmo K-médio bi-seccional Variante do K-médio que pode produzir um agrupamento particional ou hierárquico
-50./ %/
;./ K-médio tem problemas quando os grupos são de diferentes Tamanhos Densidades Formatos não globulares K-médio tem problemas quando os dados contém outliers
;./ $!2 Pontos Originais K-médio (3 Grupos)
;./ $!2! Pontos Originais K-médio (3 Grupos)
;./ $( Pontos Originais K-médio (2 Grupos)
& ;./ Pontos Originais Grupos K-médio Uma solução é usar muitos grupos. Encontra partes de grupos, mas precisam ser colocados juntos.
& ;./ Pontos Originais Grupos K-médio
& ;./ Pontos Originais Grupos K-médio
Produz um conjunto de grupos aninhados organizado como uma árvore hierárquica Pode ser visualizado como um dendograma Um diagrama tipo árvore que registra a seqüência de uniões ou divisões 6 5 0.2 0.5 0. 4 3 4 2 5 2 0.05 3 0 3 2 5 4 6
Não precisa assumir qualquer número particular de grupos Qualquer número desejado de grupos pode ser obtido cortando o dendograma no nível apropriado Podem corresponder a taxonomias com significado Exemplo em ciências biológicas (e.g., reino animal, reconstrução filogenética, )
Dois tipos principais de agrupamento hierárquico Aglomerativo: Inicia com os pontos sendo grupos individuais A cada passo une os pares de grupos mais próximos até que somente um grupo exista (ou k grupos) Divisivo: Inicia com um grupo que inclui todos os pontos A cada passo divide um grupo até que cada grupo contenha um ponto (ou hajam k grupos) Algoritmos hierárquicos tradicionais usam uma matriz de similaridade ou de distância Unem ou dividem um grupo por vez
) Técnica de agrupamento hierárquica mais popular Algoritmo básico é eficiente. Calcular a matriz de proximidade 2. Fazer cada ponto de dados ser um grupo 3. Repetir 4. Unir os dois grupos mais próximos 5. Atualizar a matriz de proximidade 6. Até que exista somente um único grupo Operação-chave é o cálculo da proximidade de dois grupos Diferentes abordagens para definir a distância entre grupos distinguem os diferentes algoritmos
&+ Iniciar com grupos de pontos individuais e uma matriz de proximidade p p2 p3 p4 p5.. p p2 p3 p4 p5.... Matriz de Proximidade
&+ Após alguns passos de união, têm-se alguns grupos C C2 C3 C4 C5 C3 C4 C C2 C3 C4 C5 C Matriz de Proximidade C2 C5
&+ Deseja-se unir os dois grupos mais próximos (C2 e C5) e atualizar a matriz de proximidade C C2 C C2 C3 C4 C5 C C3 C4 C3 C4 C5 Matriz de Proximidade C2 C5
4< A questão é Como se atualiza a matriz de proximidade? C C2 U C5 C3 C4 C? C3 C4 C2 U C5 C3 C4?????? C Matriz de Proximidade C2 U C5
"!2& - p p2 p3 p4 p5... Similaridade? p p2 MIN MAX Média do Grupo Distância entre Centróides Outros métodos definidos por uma função objetivo Método de Ward usa erro quadrático p3 p4 p5... Matriz de Proximidade
"!2& - p p2 p3 p4 p5... p p2 p3 p4 MIN MAX Média do Grupo Distância entre Centróides Outros métodos definidos por uma função objetivo Método de Ward usa erro quadrático p5... Matriz de Proximidade
"!2& - p p2 p3 p4 p5... p p2 p3 p4 MIN MAX Média do Grupo Distância entre Centróides Outros métodos definidos por uma função objetivo Método de Ward usa erro quadrático p5... Matriz de Proximidade
"!2& - p p2 p3 p4 p5... p p2 p3 p4 MIN MAX Média do Grupo Distância entre Centróides Outros métodos definidos por uma função objetivo Método de Ward usa erro quadrático p5... Matriz de Proximidade
"!2& - p p p2 p3 p4 p5... p2 p3 p4 MIN MAX Média do Grupo Distância entre Centróides Outros métodos definidos por uma função objetivo Método de Ward usa erro quadrático p5... Matriz de Proximidade
& $8+&;3 Similaridade de dois grupos é baseada nos dois pontos mais similares (próximos) nos diferentes grupos Determinado por um par de pontos, i.e., por uma ligação no grafo de proximidade I I2 I3 I4 I5 I.00 0.90 0.0 0.65 0.20 I2 0.90.00 0.70 0.60 0.50 I3 0.0 0.70.00 0.40 0.30 I4 0.65 0.60 0.40.00 0.80 I5 0.20 0.50 0.30 0.80.00 2 3 4 5
$8+ 3 5 5 2 2 3 6 0.2 0.5 0. 4 4 0.05 0 3 6 2 5 4 Grupos Aninhados Dendograma
8+ Pontos Originais Dois Grupos Pode manipular formatos não elípticos
; 8+ Pontos Originais Dois Grupos Sensível a ruídos e outliers
& $8=";3 Similaridade de dois grupos é baseada nos dois pontos menos similares (mais distantes) nos diferentes grupos Determinado por todos os pares de pontos nos dois grupos I I2 I3 I4 I5 I.00 0.90 0.0 0.65 0.20 I2 0.90.00 0.70 0.60 0.50 I3 0.0 0.70.00 0.40 0.30 I4 0.65 0.60 0.40.00 0.80 I5 0.20 0.50 0.30 0.80.00 2 3 4 5
$8= 5 4 2 5 2 3 6 3 4 0.4 0.35 0.3 0.25 0.2 0.5 0. 0.05 0 3 6 4 2 5 Grupos Aninhados Dendograma
8= Pontos Originais Dois Grupos Menos suscetível a ruído e outliers
; 8= Pontos Originais Dois Grupos Tende a quebrar grandes grupos Tendencioso para grupos globulares
& $8 Proximidade de dois grupos é a média da proximidade par-apar entre pontos dos dois grupos 5 A @ 5 A >> > Precisa usar conectividade média para escalabilidade já que proximidade total favorece grandes grupos #? = I I2 I3 I4 I5 I.00 0.90 0.0 0.65 0.20 I2 0.90.00 0.70 0.60 0.50 I3 0.0 0.70.00 0.40 0.30 I4 0.65 0.60 0.40.00 0.80 I5 0.20 0.50 0.30 0.80.00 2 3 4 5 # # @ # > #?
& $8 5 4 5 2 2 4 3 3 6 0.25 0.2 0.5 0. 0.05 0 3 6 4 2 5 Grupos Aninhados Dendograma
& $8 Compromisso entre Single e Complete Link Poder Menos suscetível a ruído e outliers Limitações Tendência para grupos globulares
& $8 B Similaridade de dois grupos é baseada no aumento do erro quadrático quando dois grupos são unidos Similar à media do grupo se distância entre pontos é distância quadrática Menos suscetível a ruído e outliers Tendência para grupos globulares Análogo hierárquico do K-médio Pode ser usado para inicializar o K-médio
$" Média do Grupo Método de Ward 2 3 4 5 6 2 5 3 4 MIN MAX 2 3 4 5 6 2 5 3 4 2 3 4 5 6 2 5 3 4 2 3 4 5 6 2 3 4 5
$C - O(N 2 ) em espaço já que usa a matriz de proximidade. N é o número de pontos O(N 3 ) em tempo em muitos casos Há N passos e a cada passo a matriz de proximidade de tamanho N 2 deve ser atualizada e pesquisada Complexidade pode ser reduzida para O(N 2 log(n)) em tempo para algumas abordagens
$; Uma vez que uma decisão tenha sido tomada de combinar dois grupos, ela não pode ser desfeita Nenhuma função objetivo é minimizada diretamente Diferentes esquemas tem problemas com um ou mais dos seguintes pontos: Sensibilidade a ruído e outliers Dificuldade de manipular grupos de tamanhos diferentes e formatos convexos Quebrar grandes grupos
8&$!)) Construir MST (Minimum Spanning Tree) Iniciar com uma árvore que consiste de qualquer ponto Em passos sucessivos buscar o par de pontos mais próximos (p, q) tal que um ponto (p) está na árvore atual e o outro (q) não Adicionar q à árvore e colocar uma aresta entre p e q
8&$!)) Usar MST para construir uma hierarquia de grupos
!%&" DBSCAN é um algoritmo baseado em densidade Densidade = número de pontos dentro de um raio específico (Eps) Um ponto é um ponto núcleo se ele tem mais que um número especificado de pontos (MinPts) dentro de Eps Estes são os pontos que estão no interior de um grupo Um ponto de fronteira tem menos que MinPts dentro de Eps mas está na vizinhança de um ponto núcleo Um ponto de ruído é um ponto que não é nem um ponto núcleo nem um ponto de fronteira
!%&"$ D@(C
!%&" Eliminar pontos de ruído Fazer agrupamento sobre os pontos restantes
!%&"$ D@(C Pontos Originais Tipos de pontos: núcleo, fronteira e ruído Eps = 0, MinPts = 4
E!%&"(% Pontos Originais Grupos Resistente a ruído Pode manipular grupos de diferentes formas e tamanhos
E!%&"F(% Pontos Originais (MinPts=4, Eps=9.75). Densidades variáveis Dados de alta dimensionalidade (MinPts=4, Eps=9.92)
!%&"$! -&8 Idéia é que para pontos em um grupo, seus k-ésimos vizinhos estão aproximadamente à mesma distância Pontos de ruído tem o k-ésimo vizinho a uma distância maior Desta forma, o gráfico da distância ordenada de todo ponto até seu k-ésimo vizinho mais próximo
9 Para classificação supervisionada tem-se uma variedade de medidas para avaliar quão bom o modelo é Exatidão, precisão, recuperação( recall ) Para análise de agrupamentos a questão análoga é como avaliar o quão bom são os grupos resultantes Mas grupos estão nos olhos de quem os vê! Então por quê deseja-se avaliá-los? Para evitar encontrar padrões nos ruídos Para comparar algoritmos de agrupamento Para comparar dois conjuntos de grupos Para comparar dois grupos
! 4 0.9 0.9 0.8 0.8 Pontos Aleatórios y 0.7 0.6 0.5 y 0.7 0.6 0.5 DBSCAN 0.4 0.4 0.3 0.3 0.2 0.2 0. 0. 0 0 0.2 0.4 0.6 0.8 x 0 0 0.2 0.4 0.6 0.8 x 0.9 0.9 K-médio 0.8 0.7 0.6 0.8 0.7 0.6 Complete Link y 0.5 y 0.5 0.4 0.4 0.3 0.3 0.2 0.2 0. 0. 0 0 0.2 0.4 0.6 0.8 x 0 0 0.2 0.4 0.6 0.8 x
!2 9. Determinar a tendência de agrupamento de um conjunto de dados, i.e., distinguir se uma estrutura não aleatória realmente existe nos dados. 2. Comparar os resultados de uma análise de grupos com resultados externamente conhecidos, e.g., a rótulos de classes externamente fornecidos. 3. Avaliar quão bem os resultados de uma análise de grupos se ajustam aos dados sem referência a informação externa. - Usar somente os dados 4. Comparar os resultados de dois diferentes conjuntos de análise de grupos para determinar qual deles é melhor. 5. Determinar o número correto de grupos. Para 2, 3, e 4 pode-se ainda distinguir se é desejada uma avaliação do agrupamento inteiro ou apenas de grupos individuais.
8 ) Medidas numéricas que são aplicadas para julgar vários aspectos de avaliação de grupos são classificados em três tipos. Índice Externo: Usado para medir até que ponto rótulos de grupos correspondem a rótulos de classes externamente fornecidos. Entropia Índice Interno: Usado para medir quão boa é a estrutura de agrupamento sem relação com informação externa. Soma dos Erros Quadráticos (SSE) Índice Relativo: Usado para comparar dois grupos ou agrupamentos diferentes. Freqüentemente um índice externo ou interno é usado para esta função, e.g., SSE ou entropia As vezes eles são chamados de critérios em vez de índices Entretanto, as vezes critério é a estratégia geral e índice é a medida numérica que implementa o critério.
8 ) 9" Duas matrizes Matriz de Proximidade Matriz de Incidência Uma linha e uma coluna para cada ponto de dados Uma célula é se o par de pontos associado pertence ao mesmo grupo Uma célula é 0 se o par de pontos associado pertence a diferentes grupos Calcular a correlação entre as duas matrizes Como as matrizes são simétricas, somente a correlação entre n(n-)/2 entradas precisa ser calculada Alta correlação indica que pontos que pertencem ao mesmo grupo estão próximos entre si Não é uma boa medida para alguns grupos baseados em densidade ou contigüidade
8 ) 9" Correlação das matrizes de incidência e proximidade para os agrupamentos K-médio dos seguintes conjuntos de dados y 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0. 0 0 0.2 0.4 0.6 0.8 x y 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0. 0 0 0.2 0.4 0.6 0.8 x Correlação = -0.9235 Correlação = -0.580
< 8: & ) Ordenar a matriz de similaridade com relação aos rótulos dos grupos e inspecionar visualmente. y 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0. 0 0 0.2 0.4 0.6 0.8 x Points 0 20 30 40 50 60 70 80 90 00 20 40 60 80 00Similarity 0 Points 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.
< 8: & ) Grupos em dados aleatórios não são tão definidos 0 20 30 0.9 0.8 0.7 0.9 0.8 0.7 Points 40 50 60 0.6 0.5 0.4 y 0.6 0.5 0.4 70 80 90 00 20 40 60 80 00Similarity 0 Points 0.3 0.2 0. 0.3 0.2 0. 0 0 0.2 0.4 0.6 0.8 x DBSCAN
< 8: & ) Grupos em dados aleatórios não são tão definidos 0 20 30 0.9 0.8 0.7 0.9 0.8 0.7 Points 40 50 60 0.6 0.5 0.4 y 0.6 0.5 0.4 70 80 90 00 20 40 60 80 00Similarity 0 Points 0.3 0.2 0. 0.3 0.2 0. 0 0 0.2 0.4 0.6 0.8 x K-médio
< 8: & ) Grupos em dados aleatórios não são tão definidos Points 0 20 30 40 50 60 70 80 90 00 20 40 60 80 00Similarity 0 Points 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0. y 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0. 0 0 0.2 0.4 0.6 0.8 x Complete Link
< 8: & ) 0.9 2 6 4 3 500 000 500 0.8 0.7 0.6 0.5 0.4 2000 0.3 5 2500 0.2 7 3000 500 000 500 2000 2500 3000 0. 0 DBSCAN
8 +$&&- Grupos em figuras mais complicadas não são bem separados Índice Interno: Usado para medir quão boa é a estrutura de agrupamento sem relação a alguma informação externa SSE é bom para comparar dois agrupamentos ou dois grupos (SSE média) Também pode ser usado para estimar número de grupos 0 6 4 2 0-2 SSE 9 8 7 6 5 4 3-4 2-6 0 2 5 0 5 5 0 5 K 20 25 30
8 +$&&- Curva do SSE para conjunto de dados mais complicado 2 6 4 3 5 7 SSE de grupos encontrados usando K-médio
-) Precisa-se de estrutura para interpretar qualquer medida Por exemplo, se a medida de avaliação tem valor 0, a qualidade é boa, mediana ou pobre? Estatística fornece estrutura para avaliar grupos Quanto mais atípico o resultado de um agrupamento for, tanto mais provavelmente ele representa uma estrutura válida nos dados Pode comparar os valores de um índice que resulta de dados aleatórios ou agrupamentos com os resultados de agrupamento. Se o valor de um índice é improvável, então os resultados dos grupos são válidos Estas abordagens são mais complicadas e difíceis de compreender Para comparar os resultados de dois diferentes conjuntos de análises de agrupamento, uma estrutura não é tão necessária. Entretanto, há a questão sobre se a diferença entre os valores dos dois índices é significante
--&&- Exemplo Comparar SSE de 0.005 com três grupos em dados aleatórios Histograma mostra SSE de três grupos em conjuntos de pontos de dados aleatórios de tamanho 00 distribuído na faixa 0.2 0.8 para valores de x e y y 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0. 0 0 0.2 0.4 0.6 0.8 x Count 50 45 40 35 30 25 20 5 0 5 0 0.06 0.08 0.02 0.022 0.024 0.026 0.028 0.03 0.032 0.034 SSE
--" Correlação das matrizes de incidência e proximidade para os agrupamentos de K-médio dos dois seguintes conjuntos de dados y 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0. 0 0 0.2 0.4 0.6 0.8 x y 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0. 0 0 0.2 0.4 0.6 0.8 x Correlação = -0.9235 Correlação = -0.580
"() The validation of clustering structures is the most difficult and frustrating part of cluster analysis. Without a strong effort in this direction, cluster analysis will remain a black art accessible only to those true believers who have experience and great courage. Algorithms for Clustering Data, Jain and Dubes