Análise de Agrupamento (Cluster analysis)

Documentos relacionados
Análise de Agrupamento. Cluster Analysis

Les-0773: ESTATÍSTICA APLICADA III ANÁLISE DE AGRUPAMENTO. Junho de 2017

Trilha Learning Machine Cluster Analysis em 4 passos Marco Siqueira Campos

Análise Multivariada Aplicada à Contabilidade

SENSOMETRIA. Adilson dos Anjos. Curitiba, PR 21 de maio de Departamento de Estatística Universidade Federal do Paraná

ANÁLISE DE AGRUPAMENTO UTILIZANDO VARIÁVEIS QUANTITATIVAS E QUALITATIVAS PARA O ESTUDO DA DIVERSIDADE GENÉTICA EM GENÓTIPOS DE MANDIOCA SILVESTRE

MANUAL DE REFERÊNCIA DE ANÁLISE DE CONGLOMERADOS

SEL-0339 Introdução à Visão Computacional. Aula 7 Reconhecimento de Objetos

Descoberta de Conhecimento em Bases de Dados. Pesquisa de Clusters

Análise de agrupamentos por métodos hierárquicos aglomerativos

ANÁLISE DE AGRUPAMENTO APLICADA AO CRESCIMENTO POPULACIONAL DE ALGUNS PAÍSES EUROPEUS

Descrição do Método de Análise de Clusters

Sensometria, Segmentação. Adilson dos Anjos

Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação

PRÁTICA 8. A Distância Euclidiana entre dois vetores n-dimensionais x e y é definida como o escalar: d = norm(x y)

A análise de aglomerados

Agrupamento de Dados. (Clustering)

UNIVERSIDADE ESTADUAL PAULISTA "JÚLIO DE MESQUITA FILHO" FACULDADE DE CIÊNCIAS AGRONÔMICAS CÂMPUS DE BOTUCATU

Mineração de Dados em Biologia Molecular

Aprendizado de Máquina

CARACTERÍSTICAS MORFOLÓGICAS DE Psidium guajava L. POR DESCRITORES FOLIARES

ANDERSON RODRIGO DA SILVA MÉTODOS DE AGRUPAMENTO: AVALIAÇÃO E APLICAÇÃO AO ESTUDO DE DIVERGÊNCIA GENÉTICA EM ACESSOS DE ALHO

Análise de dados: clustering e redução de dimensionalidade

ANÁLISE DE AGRUPAMENTOS

SELEÇÃO E IDENTIFICAÇÃO DE GENÓTIPOS DE EUCALIPTO CITRIODORA (Corymbia citriodora) QUANTO À PRODUÇÃO DE ÓLEO ESSENCIAL NA REGIÃO SUL DO TOCANTINS

APLICAÇÃO DE ANÁLISE DE CLUSTER EM VALORES NUTRICIONAIS REFERENTES Á TIPOS DE CARNES

Análise Multivariada. Introdução. Análise Multivariada Roteiro. Análise Multivariada

COMPARAÇÃO DE COEFICIENTES DE SIMILARIDADE USADOS EM ANÁLISES DE AGRUPAMENTO COM DADOS DE MARCADORES MOLECULARES DOMINANTES

Clustering: k-means e Agglomerative

Comparação dos métodos de agrupamento de Tocher e UPGMA no estudo de divergência genética em acessos de alho

2 Processo de Agrupamentos

MELHORIA DA CORRELAÇÃO COFENÉTICA PELA EXCLUSÃO DE UNIDADES EXPERIMENTAIS NA CONSTRUÇÃO DE DENDROGRAMAS

Lista de exercícios 2 Recuperação de Informação Textual

GENÉTICA GEOGRÁFICA:

SCC0173 Mineração de Dados Biológicos

Redes Neurais (Inteligência Artificial)

Análise de agrupamento dos dados sedimentológicos da plataforma e talude continentais da Bahia

APLICAÇÃO DE MARCADORES MOLECULARES NA HIBRIDAÇÃO DE EUCALIPTO

A Figura 28 mostra a representação gráfica dos dados presentes na base de dados fcmdata do Matlab de dimensão 140x2 dividida em 2 grupos.

Agrupamento Espectral e Hierárquico

Escalonamento Multidimensional

Clustering: K-means and Aglomerative

Aula 7 Medidas de Distância. Profa. Elaine Faria UFU

INTELIGÊNCIA ARTIFICIAL Data Mining (DM): um pouco de prática. (1) Data Mining Conceitos apresentados por

DIVERSIDADE GENÉTICA ENTRE TOUROS JOVENS DA RAÇA SIMENTAL POR MÉTODOS ANALISE MULTIVARIADA

Transcrição:

Análise de Agrupamento (Cluster analysis) Anderson Rodrigo da Silva 1

Exemplos de aplicações de análise de agrupamento Pesquisas de mercado Agrupamento de cidades-teste Bancos de germoplasma Caracterização Estudos de divergência ou diversidade genética Biologia Agrupamento de espécies ou unidades de conservação Educação Agrupamento de escolas, professores, alunos...

Exemplo 1: cães pré-históricos da Tailândia Escavações na Tailândia produziram ossos caninos cobrindo um período em torno de 00 a.c. até o presente. Entretanto, a origem desses cães é incerta. Para tentar esclarecer, medidas de espécimes disponíveis foram tomadas: Grupo LM AMAPM CPM LPM CPTM CPQM cão moderno 9.7 1 19. 7.7 6. chacal dourado 8.1 16.7 18. 7 0..9 lobo chinês 1. 7. 6.8 10.6 1.9 8.1 lobo indiano 11... 9. 0.6 cuon 10.7. 1. 8. 8.8 7.6 dingo 9.6.6 1.1 8...1 cao pre-historico 10..1 19.1 8.1. LM: largura da mandíbula, AMAPM: Altura da mandíbula abaixo do primeiro molar, CPM: comprimento do primeiro molar, LMP: largura do primeiro molar, CPTM: comprimento do primeiro ao terceiro molar, CPQM: comprimento do primeiro ao quarto molar 0:10 Cluster analysis

Medidas de distâncias multivariadas Tipos de dados: valores de p variáveis tomados em n objetos ( matriz X ). As medidas devem ser escolhidas de acordo com os tipos de variáveis. Quantitativas: euclidiana, euclidiana média, Mahalanobis, Manhattan, etc. Padrão binário: coeficiente de Jaccard, coeficiente de Roger, etc. Padrão multicategórico: coeficiente de coincidência simples, dissimilaridade de Cole-Rodgers Para os tipos, simultaneamente: coeficiente de Gower (1971) É recomendável que se faça uma padronização das variáveis de modo que estas sejam igualmente importantes na determinação das distâncias.

Exemplo 1: cães pré-históricos da Tailândia Matriz de distâncias euclidianas (1) c_md () chc_ () lb_c () lb_n () uon (6) ing (7) c_p (1) c_md 0 () chc_ 6 0 () lb_c 19 0 () lb_n 1 19 6 0 () Uon 9 18 1 0 (6) Ing 7 1 1 7 8 0 (7) c_p 7 19 1 9 0 0:0 Cluster analysis

Tipos de métodos de agrupamento Hierárquicos aglomerativos Vizinho mais próximo (ligação simples) Vizinho mais distante (ligação completa) UPGMA (ligação média) Não hierárquicos Algoritmo K-médias Tocher, Tocher modificado 6

Resumo dos passos: Métodos hierárquicos 1) Cada indivíduo constitui um cluster de tamanho 1 n clusters. ) Em cada estágio do algoritmo pares de entidades são combinados e constituem um novo conglomerado. ) Propriedade de hierarquia: cada novo conglomerado é um agrupamento de conglomerados antes formados. ) Construção do dendrograma ou árvore da história do agrupamento. 7

X Método do vizinho mais próximo 1 X1 8

X Método do vizinho mais distante 1 X1 9

X Método da ligação média (UPGMA) 1 X1 10

Exemplo (p.11, Manly 00) Tabela 9.1 - Matriz de distâncias entre cinco objetos. Objeto Objeto 1 1 0 (Sim.) 0 6 0 10 9 0 9 8 0 Fonte: Manly, 008 11

Método Vizinho mais próximo Vizinho mais distante Ligação média d d d ij,k ij,k ij,k Função objetivo mín(d máx(d ik média(d ik ik,d,d,d jk jk jk ) ) ) 1

1 1 1 Distância Distância Distância Dendrogramas Vizinho mais próximo Vizinho mais distante Ligação média 10 8 1 8 6 6 0 0 0 Di hclust (*, "single") Di hclust (*, "complete") Di hclust (*, "average") 1

Critérios para encontrar o número de grupos 1) Comportamento dos níveis de fusão ) Nível de similaridade ) Alguns critérios objetivos: R², Pseudo F, Pseudo T², Mojena (1977), etc. 1

1 Distância Correlação cofenética Distâncias originais 1 6 10 9 9 8 Distâncias cofenéticas 1 Cor = 0.8 1 0 Vizinho mais próximo Di hclust (*, "single") 1

Exercícios 1) Construa um dendrograma pelo método do vizinho mais distante a partir da matriz de distancias euclideanas dos dados de medidas das mandíbulas de cães; Determine grupos de cães; Avalie a qualidade do agrupamento ) No R, construa a matriz de distancias multivariadas dos dados proteinas.txt (do site, http://arsilva.weebly.com/uploads//1/0/0/100886/proteinas.txt). Encontre grupos de países semelhantes em relação a fonte proteica base da alimentação. 1:9 Cluster analysis 16

Exemplo ACP vs AG Matriz de dados (simulados) padronizados de 10 objetos e variáveis. x1 x x x [1,] -0.1 0.17-0. 1.8 [,] -0.0-0.0 0.9 0.16 [,] 1.01 1.88 0.7-0.8 [,] -0.16 0. 0.6 0.79 [,] -.16 0.70 0.19-0. [6,] 0.0-0.0 0. 1.9 [7,] -0.76-0.1 0.9-0.9 [8,] 0.78 0..00 0.1 [9,] 0.7 0.1-1.8 0.00 [10,] -1.10-0.9-0.86-0.7 17

Exemplo ACP vs AG Matriz de distâncias euclidianas entre 10 objetos. 1 6 7 8 9 1.6.01.6 1.1 0.7.9.8.7..0 6 0.96 1..6 0.96.19 7. 1.01.69 1.7 1.71.9 8.99 1.9.07 1.9.9.1. 9.9.8.1.60.60.1.9.8 10.6 1.88.6.7.0.9 1.8.6. 18

1 6 7 8 10 Distância 9 Comp. (1%) Exemplo ACP vs AG Vizinho mais distante. 1. 9.0. 1.0 0. 1 6.0 1. 1.0 0.0-0. -1.0 10 7 8 0. 0.0-1. matd hclust (*, "complete") - -1 0 1 Comp.1 (%) 19

Algoritmo k-médias Não hierárquico Processo iterativo Resumo dos passos: 1) Escolhe-se partição. k centróides para iniciar o processo de ) Cada um dos n objetos é comparado com cada centróide, em geral usando a distância euclidiana. O elemento é alocado ao grupo cuja distância é a menor. ) Recalcula-se os valores dos centróides para os novos grupos e repete-se o passo. ) Os passos e são repetidos até que nenhuma realocação seja necessária. 0

Para análises no R Pacote: stats Funções: hclust, cophenetic Argumentos hclust(d, method = single",...) cophenetic(x) 1