Análise de Agrupamento (Cluster analysis) Anderson Rodrigo da Silva 1
Exemplos de aplicações de análise de agrupamento Pesquisas de mercado Agrupamento de cidades-teste Bancos de germoplasma Caracterização Estudos de divergência ou diversidade genética Biologia Agrupamento de espécies ou unidades de conservação Educação Agrupamento de escolas, professores, alunos...
Exemplo 1: cães pré-históricos da Tailândia Escavações na Tailândia produziram ossos caninos cobrindo um período em torno de 00 a.c. até o presente. Entretanto, a origem desses cães é incerta. Para tentar esclarecer, medidas de espécimes disponíveis foram tomadas: Grupo LM AMAPM CPM LPM CPTM CPQM cão moderno 9.7 1 19. 7.7 6. chacal dourado 8.1 16.7 18. 7 0..9 lobo chinês 1. 7. 6.8 10.6 1.9 8.1 lobo indiano 11... 9. 0.6 cuon 10.7. 1. 8. 8.8 7.6 dingo 9.6.6 1.1 8...1 cao pre-historico 10..1 19.1 8.1. LM: largura da mandíbula, AMAPM: Altura da mandíbula abaixo do primeiro molar, CPM: comprimento do primeiro molar, LMP: largura do primeiro molar, CPTM: comprimento do primeiro ao terceiro molar, CPQM: comprimento do primeiro ao quarto molar 0:10 Cluster analysis
Medidas de distâncias multivariadas Tipos de dados: valores de p variáveis tomados em n objetos ( matriz X ). As medidas devem ser escolhidas de acordo com os tipos de variáveis. Quantitativas: euclidiana, euclidiana média, Mahalanobis, Manhattan, etc. Padrão binário: coeficiente de Jaccard, coeficiente de Roger, etc. Padrão multicategórico: coeficiente de coincidência simples, dissimilaridade de Cole-Rodgers Para os tipos, simultaneamente: coeficiente de Gower (1971) É recomendável que se faça uma padronização das variáveis de modo que estas sejam igualmente importantes na determinação das distâncias.
Exemplo 1: cães pré-históricos da Tailândia Matriz de distâncias euclidianas (1) c_md () chc_ () lb_c () lb_n () uon (6) ing (7) c_p (1) c_md 0 () chc_ 6 0 () lb_c 19 0 () lb_n 1 19 6 0 () Uon 9 18 1 0 (6) Ing 7 1 1 7 8 0 (7) c_p 7 19 1 9 0 0:0 Cluster analysis
Tipos de métodos de agrupamento Hierárquicos aglomerativos Vizinho mais próximo (ligação simples) Vizinho mais distante (ligação completa) UPGMA (ligação média) Não hierárquicos Algoritmo K-médias Tocher, Tocher modificado 6
Resumo dos passos: Métodos hierárquicos 1) Cada indivíduo constitui um cluster de tamanho 1 n clusters. ) Em cada estágio do algoritmo pares de entidades são combinados e constituem um novo conglomerado. ) Propriedade de hierarquia: cada novo conglomerado é um agrupamento de conglomerados antes formados. ) Construção do dendrograma ou árvore da história do agrupamento. 7
X Método do vizinho mais próximo 1 X1 8
X Método do vizinho mais distante 1 X1 9
X Método da ligação média (UPGMA) 1 X1 10
Exemplo (p.11, Manly 00) Tabela 9.1 - Matriz de distâncias entre cinco objetos. Objeto Objeto 1 1 0 (Sim.) 0 6 0 10 9 0 9 8 0 Fonte: Manly, 008 11
Método Vizinho mais próximo Vizinho mais distante Ligação média d d d ij,k ij,k ij,k Função objetivo mín(d máx(d ik média(d ik ik,d,d,d jk jk jk ) ) ) 1
1 1 1 Distância Distância Distância Dendrogramas Vizinho mais próximo Vizinho mais distante Ligação média 10 8 1 8 6 6 0 0 0 Di hclust (*, "single") Di hclust (*, "complete") Di hclust (*, "average") 1
Critérios para encontrar o número de grupos 1) Comportamento dos níveis de fusão ) Nível de similaridade ) Alguns critérios objetivos: R², Pseudo F, Pseudo T², Mojena (1977), etc. 1
1 Distância Correlação cofenética Distâncias originais 1 6 10 9 9 8 Distâncias cofenéticas 1 Cor = 0.8 1 0 Vizinho mais próximo Di hclust (*, "single") 1
Exercícios 1) Construa um dendrograma pelo método do vizinho mais distante a partir da matriz de distancias euclideanas dos dados de medidas das mandíbulas de cães; Determine grupos de cães; Avalie a qualidade do agrupamento ) No R, construa a matriz de distancias multivariadas dos dados proteinas.txt (do site, http://arsilva.weebly.com/uploads//1/0/0/100886/proteinas.txt). Encontre grupos de países semelhantes em relação a fonte proteica base da alimentação. 1:9 Cluster analysis 16
Exemplo ACP vs AG Matriz de dados (simulados) padronizados de 10 objetos e variáveis. x1 x x x [1,] -0.1 0.17-0. 1.8 [,] -0.0-0.0 0.9 0.16 [,] 1.01 1.88 0.7-0.8 [,] -0.16 0. 0.6 0.79 [,] -.16 0.70 0.19-0. [6,] 0.0-0.0 0. 1.9 [7,] -0.76-0.1 0.9-0.9 [8,] 0.78 0..00 0.1 [9,] 0.7 0.1-1.8 0.00 [10,] -1.10-0.9-0.86-0.7 17
Exemplo ACP vs AG Matriz de distâncias euclidianas entre 10 objetos. 1 6 7 8 9 1.6.01.6 1.1 0.7.9.8.7..0 6 0.96 1..6 0.96.19 7. 1.01.69 1.7 1.71.9 8.99 1.9.07 1.9.9.1. 9.9.8.1.60.60.1.9.8 10.6 1.88.6.7.0.9 1.8.6. 18
1 6 7 8 10 Distância 9 Comp. (1%) Exemplo ACP vs AG Vizinho mais distante. 1. 9.0. 1.0 0. 1 6.0 1. 1.0 0.0-0. -1.0 10 7 8 0. 0.0-1. matd hclust (*, "complete") - -1 0 1 Comp.1 (%) 19
Algoritmo k-médias Não hierárquico Processo iterativo Resumo dos passos: 1) Escolhe-se partição. k centróides para iniciar o processo de ) Cada um dos n objetos é comparado com cada centróide, em geral usando a distância euclidiana. O elemento é alocado ao grupo cuja distância é a menor. ) Recalcula-se os valores dos centróides para os novos grupos e repete-se o passo. ) Os passos e são repetidos até que nenhuma realocação seja necessária. 0
Para análises no R Pacote: stats Funções: hclust, cophenetic Argumentos hclust(d, method = single",...) cophenetic(x) 1