Análise de Agrupamento (Cluster analysis)
|
|
|
- Carmem Vieira Mangueira
- 8 Há anos
- Visualizações:
Transcrição
1 Análise de Agrupamento (Cluster analysis) Anderson Rodrigo da Silva 1
2 Exemplos de aplicações de análise de agrupamento Pesquisas de mercado Agrupamento de cidades-teste Bancos de germoplasma Caracterização Estudos de divergência ou diversidade genética Biologia Agrupamento de espécies ou unidades de conservação Educação Agrupamento de escolas, professores, alunos...
3 Exemplo 1: cães pré-históricos da Tailândia Escavações na Tailândia produziram ossos caninos cobrindo um período em torno de 00 a.c. até o presente. Entretanto, a origem desses cães é incerta. Para tentar esclarecer, medidas de espécimes disponíveis foram tomadas: Grupo LM AMAPM CPM LPM CPTM CPQM cão moderno chacal dourado lobo chinês lobo indiano cuon dingo cao pre-historico LM: largura da mandíbula, AMAPM: Altura da mandíbula abaixo do primeiro molar, CPM: comprimento do primeiro molar, LMP: largura do primeiro molar, CPTM: comprimento do primeiro ao terceiro molar, CPQM: comprimento do primeiro ao quarto molar 0:10 Cluster analysis
4 Medidas de distâncias multivariadas Tipos de dados: valores de p variáveis tomados em n objetos ( matriz X ). As medidas devem ser escolhidas de acordo com os tipos de variáveis. Quantitativas: euclidiana, euclidiana média, Mahalanobis, Manhattan, etc. Padrão binário: coeficiente de Jaccard, coeficiente de Roger, etc. Padrão multicategórico: coeficiente de coincidência simples, dissimilaridade de Cole-Rodgers Para os tipos, simultaneamente: coeficiente de Gower (1971) É recomendável que se faça uma padronização das variáveis de modo que estas sejam igualmente importantes na determinação das distâncias.
5 Exemplo 1: cães pré-históricos da Tailândia Matriz de distâncias euclidianas (1) c_md () chc_ () lb_c () lb_n () uon (6) ing (7) c_p (1) c_md 0 () chc_ 6 0 () lb_c 19 0 () lb_n () Uon (6) Ing (7) c_p :0 Cluster analysis
6 Tipos de métodos de agrupamento Hierárquicos aglomerativos Vizinho mais próximo (ligação simples) Vizinho mais distante (ligação completa) UPGMA (ligação média) Não hierárquicos Algoritmo K-médias Tocher, Tocher modificado 6
7 Resumo dos passos: Métodos hierárquicos 1) Cada indivíduo constitui um cluster de tamanho 1 n clusters. ) Em cada estágio do algoritmo pares de entidades são combinados e constituem um novo conglomerado. ) Propriedade de hierarquia: cada novo conglomerado é um agrupamento de conglomerados antes formados. ) Construção do dendrograma ou árvore da história do agrupamento. 7
8 X Método do vizinho mais próximo 1 X1 8
9 X Método do vizinho mais distante 1 X1 9
10 X Método da ligação média (UPGMA) 1 X1 10
11 Exemplo (p.11, Manly 00) Tabela Matriz de distâncias entre cinco objetos. Objeto Objeto (Sim.) Fonte: Manly,
12 Método Vizinho mais próximo Vizinho mais distante Ligação média d d d ij,k ij,k ij,k Função objetivo mín(d máx(d ik média(d ik ik,d,d,d jk jk jk ) ) ) 1
13 1 1 1 Distância Distância Distância Dendrogramas Vizinho mais próximo Vizinho mais distante Ligação média Di hclust (*, "single") Di hclust (*, "complete") Di hclust (*, "average") 1
14 Critérios para encontrar o número de grupos 1) Comportamento dos níveis de fusão ) Nível de similaridade ) Alguns critérios objetivos: R², Pseudo F, Pseudo T², Mojena (1977), etc. 1
15 1 Distância Correlação cofenética Distâncias originais Distâncias cofenéticas 1 Cor = Vizinho mais próximo Di hclust (*, "single") 1
16 Exercícios 1) Construa um dendrograma pelo método do vizinho mais distante a partir da matriz de distancias euclideanas dos dados de medidas das mandíbulas de cães; Determine grupos de cães; Avalie a qualidade do agrupamento ) No R, construa a matriz de distancias multivariadas dos dados proteinas.txt (do site, Encontre grupos de países semelhantes em relação a fonte proteica base da alimentação. 1:9 Cluster analysis 16
17 Exemplo ACP vs AG Matriz de dados (simulados) padronizados de 10 objetos e variáveis. x1 x x x [1,] [,] [,] [,] [,] [6,] [7,] [8,] [9,] [10,]
18 Exemplo ACP vs AG Matriz de distâncias euclidianas entre 10 objetos
19 Distância 9 Comp. (1%) Exemplo ACP vs AG Vizinho mais distante matd hclust (*, "complete") Comp.1 (%) 19
20 Algoritmo k-médias Não hierárquico Processo iterativo Resumo dos passos: 1) Escolhe-se partição. k centróides para iniciar o processo de ) Cada um dos n objetos é comparado com cada centróide, em geral usando a distância euclidiana. O elemento é alocado ao grupo cuja distância é a menor. ) Recalcula-se os valores dos centróides para os novos grupos e repete-se o passo. ) Os passos e são repetidos até que nenhuma realocação seja necessária. 0
21 Para análises no R Pacote: stats Funções: hclust, cophenetic Argumentos hclust(d, method = single",...) cophenetic(x) 1
Análise de Agrupamento. Cluster Analysis
Análise de Agrupamento Cluster Analysis Objetivo Classificar objetos, itens ou indivíduos de acordo com as suas semelhanças. Os objetos semelhantes são alocados em um mesmo grupo e, portanto, aqueles que
Les-0773: ESTATÍSTICA APLICADA III ANÁLISE DE AGRUPAMENTO. Junho de 2017
Les-0773: ESTATÍSTICA APLICADA III ANÁLISE DE AGRUPAMENTO AULA 4 02/06/17 Prof a Lilian M. Lima Cunha Junho de 2017 DEFINIÇÃO Análise de conglomerados (Cluster Analysis) é uma das técnicas de análise multivariada
Trilha Learning Machine Cluster Analysis em 4 passos Marco Siqueira Campos
Trilha Learning Machine Cluster Analysis em 4 passos Marco Siqueira Campos Marco Siqueira Campos Sócio fundador Siqueira Campos Associados e sos-stat Estatístico UFRGS Certificado Data Science Specialization
Análise Multivariada Aplicada à Contabilidade
Mestrado e Doutorado em Controladoria e Contabilidade Análise Multivariada Aplicada à Contabilidade Prof. Dr. Marcelo Botelho da Costa Moraes www.marcelobotelho.com [email protected] Turma: 2º / 2016 1 Agenda
SENSOMETRIA. Adilson dos Anjos. Curitiba, PR 21 de maio de Departamento de Estatística Universidade Federal do Paraná
SENSOMETRIA Adilson dos Anjos Departamento de Estatística Universidade Federal do Paraná [email protected] Curitiba, PR 21 de maio de 2015 1 / 7 SENSOMETRIA SEGMENTAÇÃO 2 / 7 Introdução Análise de agrupamentos->
ANÁLISE DE AGRUPAMENTO UTILIZANDO VARIÁVEIS QUANTITATIVAS E QUALITATIVAS PARA O ESTUDO DA DIVERSIDADE GENÉTICA EM GENÓTIPOS DE MANDIOCA SILVESTRE
ANÁLISE DE AGRUPAMENTO UTILIZANDO VARIÁVEIS QUANTITATIVAS E QUALITATIVAS PARA O ESTUDO DA DIVERSIDADE GENÉTICA EM GENÓTIPOS DE MANDIOCA SILVESTRE Carlos Alberto da Silva LEDO 1, Leônidas Francisco de Queiroz
MANUAL DE REFERÊNCIA DE ANÁLISE DE CONGLOMERADOS
MANUAL DE REFERÊNCIA DE ANÁLISE DE CONGLOMERADOS INTRODUÇÃO... 2 MEDIDAS DE SIMILARIDADE [2,3]... 3 2. MEDIDAS DE CORRELAÇÃO... 4 2.2 MEDIDAS DE DISTÂNCIA... 6 2.2. TIPOS DE MEDIDAS DE DISTÂNCIA... 7 2.3
SEL-0339 Introdução à Visão Computacional. Aula 7 Reconhecimento de Objetos
Departamento de Engenharia Elétrica - EESC-USP SEL-0339 Introdução à Visão Computacional Aula 7 Reconhecimento de Objetos Prof. Dr. Marcelo Andrade da Costa Vieira Prof. Dr. Adilson Gonzaga [email protected]
Descoberta de Conhecimento em Bases de Dados. Pesquisa de Clusters
Universidade Técnica de Lisboa INSTITUTO SUPERIOR DE ECONOMIA E GESTÃO Informática e Sistemas de Informação Aplicados em Economia Descoberta de Conhecimento em Bases de Dados. Pesquisa de Clusters Descoberta
Análise de agrupamentos por métodos hierárquicos aglomerativos
Análise de agrupamentos por métodos hierárquicos aglomerativos ## Exemplo 1 (p = 2) dados
ANÁLISE DE AGRUPAMENTO APLICADA AO CRESCIMENTO POPULACIONAL DE ALGUNS PAÍSES EUROPEUS
ANÁLISE DE AGRUPAMENTO APLICADA AO CRESCIMENTO POPULACIONAL DE ALGUNS PAÍSES EUROPEUS Edwirde Luiz SILVA 1, Dalila Camêlo AGUIAR 2 1 Departamento de Estatística, Universidade Estadual da Paraíba - UEPB,
Descrição do Método de Análise de Clusters
ANÁLISE DE CLUSTERS A análise de Clusters designa uma série de procedimentos estatísticos sofisticados que podem ser usados para classificar objectos e pessoas por observação das semelhanças e dissemelhanças
Sensometria, Segmentação. Adilson dos Anjos
Segmentação Adilson dos Anjos Segmentação Objetivo O objetivo dessa aula é apresentar alguns métodos de Segmentação. As análises serão realizadas com uso do R; Pacotes utilizados nessa aula FactoMineR
Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação
Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação Francisco A. Rodrigues Departamento de Matemática Aplicada e Estatística - SME Conceitos básicos Classificação não-supervisionada:
PRÁTICA 8. A Distância Euclidiana entre dois vetores n-dimensionais x e y é definida como o escalar: d = norm(x y)
PRÁTICA 8 1) Medidas de Distância. A Distância Euclidiana entre dois vetores n-dimensionais e y é definida como o escalar: d 1 2 2 [( y ) + + ( y ) ] 2 e (, y) = y = y = 1 1 L n n esta epressão é a Norma
A análise de aglomerados
Mais importante do que saber fazer é saber o por quê (Norbert Wiener (1894 1964). Prof. Lorí Viali, Dr. [email protected]; [email protected]; http://www.pucrs.br/famat/viali; http://www.mat.ufrgs.br/~viali/
Agrupamento de Dados. (Clustering)
Agrupamento de Dados (Clustering) Organização 1. Introdução 2. Medidas de (Dis)similaridade 3. Métodos de Agrupamento (métodos hierárquicos, de partição) 4. Critérios numéricos para definir o número de
UNIVERSIDADE ESTADUAL PAULISTA "JÚLIO DE MESQUITA FILHO" FACULDADE DE CIÊNCIAS AGRONÔMICAS CÂMPUS DE BOTUCATU
UNIVERSIDADE ESTADUAL PAULISTA "JÚLIO DE MESQUITA FILHO" FACULDADE DE CIÊNCIAS AGRONÔMICAS CÂMPUS DE BOTUCATU UTILIZAÇÃO DE TÉCNICAS MULTIVARIADAS NA AVALIAÇÃO DA DIVERGÊNCIA GENÉTICA DE POPULAÇÕES DE
Mineração de Dados em Biologia Molecular
Mineração de Dados em Biologia Molecular André C. P. L. F. de Carvalho Monitor: Valéria Carvalho Agrupamento de Dados Tópicos Agrupamento de dados Análise de cluster Dificuldades em agrupamento Algoritmos
Aprendizado de Máquina
Aprendizado de Máquina André C. P. L. F. de Carvalho Posdoutorando: Isvani Frias-Blanco ICMC-USP Agrupamento de dados Tópicos Agrupamento de dados Dificuldades em agrupamento Algoritmos de agrupamento
CARACTERÍSTICAS MORFOLÓGICAS DE Psidium guajava L. POR DESCRITORES FOLIARES
CARACTERÍSTICAS MORFOLÓGICAS DE Psidium guajava L. POR DESCRITORES FOLIARES WAGNER BASTOS DOS SANTOS OLIVEIRA 1, JOSÉ HENRIQUE SOLER GUILHEN 1, TIAGO DE SOUZA MARÇAL 1, MARCIA FLORES FERREIRA 1, ADESIO
ANDERSON RODRIGO DA SILVA MÉTODOS DE AGRUPAMENTO: AVALIAÇÃO E APLICAÇÃO AO ESTUDO DE DIVERGÊNCIA GENÉTICA EM ACESSOS DE ALHO
ANDERSON RODRIGO DA SILVA MÉTODOS DE AGRUPAMENTO: AVALIAÇÃO E APLICAÇÃO AO ESTUDO DE DIVERGÊNCIA GENÉTICA EM ACESSOS DE ALHO Dissertação apresentada à Universidade Federal de Viçosa, como parte das exigências
Análise de dados: clustering e redução de dimensionalidade
Análise de dados: clustering e redução de dimensionalidade Métodos e sua implementação em R Clustering - definições Objectivo genérico: agrupar objetos / entidades / exemplos (linhas da tabela) com base
ANÁLISE DE AGRUPAMENTOS
ANÁLISE DE AGRUPAMENTOS Análise de Agrupamentos 2 Definição Consistem em encontrar grupos de objetos entre os objetos Categorizá-los ou agrupá-los Tipo de aprendizado não supervisionado Encontrar grupos
SELEÇÃO E IDENTIFICAÇÃO DE GENÓTIPOS DE EUCALIPTO CITRIODORA (Corymbia citriodora) QUANTO À PRODUÇÃO DE ÓLEO ESSENCIAL NA REGIÃO SUL DO TOCANTINS
SELEÇÃO E IDENTIFICAÇÃO DE GENÓTIPOS DE EUCALIPTO CITRIODORA (Corymbia citriodora) QUANTO À PRODUÇÃO DE ÓLEO ESSENCIAL NA REGIÃO SUL DO TOCANTINS Ana Beatriz Marques Honório 1 ; Tarcísio Alves Castro Barros
APLICAÇÃO DE ANÁLISE DE CLUSTER EM VALORES NUTRICIONAIS REFERENTES Á TIPOS DE CARNES
APLICAÇÃO DE ANÁLISE DE CLUSTER EM VALORES NUTRICIONAIS REFERENTES Á TIPOS DE CARNES Samara Rilda de S.BEZERRA 1, Edwirde Luiz SILVA 1,Aldreany P.Araújo SILVA 1 1 Departamento de Estatística, Universidade
Análise Multivariada. Introdução. Análise Multivariada Roteiro. Análise Multivariada
Roteiro Análise Multivariada Lupércio França Bessegato Dep. Estatística/UFJF 1. Introdução 2. Representação de Dados Multivariados 3. Análise de Componentes Principais 4. Distribuições de Probabilidade
COMPARAÇÃO DE COEFICIENTES DE SIMILARIDADE USADOS EM ANÁLISES DE AGRUPAMENTO COM DADOS DE MARCADORES MOLECULARES DOMINANTES
COMPARAÇÃO DE COEFICIENTES DE SIMILARIDADE USADOS EM ANÁLISES DE AGRUPAMENTO COM DADOS DE MARCADORES MOLECULARES DOMINANTES ANDRÉIA DA SILVA MEYER Dissertação apresentada à Escola Superior de Agricultura
Clustering: k-means e Agglomerative
Tópicos Avançados em Avaliação de Desempenho de Sistemas Jackson Nunes Marco Eugênio Araújo Outubro de 2014 1 Sumário Contextualização Classificação Agrupamento (Clustering) Cenários de Aplicação Clustering
Comparação dos métodos de agrupamento de Tocher e UPGMA no estudo de divergência genética em acessos de alho
Comparação dos métodos de agrupamento de Tocher e UPGMA no estudo de divergência genética em acessos de alho Guilherme Alves Puiatti 1 Paulo Roberto Cecon 1 Moysés Nascimento 1 Ana Carolina Campana Nascimento
2 Processo de Agrupamentos
20 2 Processo de Agrupamentos A análise de agrupamentos pode ser definida como o processo de determinação de k grupos em um conjunto de dados. Para entender o que isso significa, observe-se a Figura. Y
MELHORIA DA CORRELAÇÃO COFENÉTICA PELA EXCLUSÃO DE UNIDADES EXPERIMENTAIS NA CONSTRUÇÃO DE DENDROGRAMAS
MELHORIA DA CORRELAÇÃO COFENÉTICA PELA EXCLUSÃO DE UNIDADES EXPERIMENTAIS NA CONSTRUÇÃO DE DENDROGRAMAS IMPROVEMENT OF COPHENETIC CORRELATION FOR THE EXPERIMENTAL UNITS EXCLUSION IN THE DENDROGRAMS CONSTRUCTION
Lista de exercícios 2 Recuperação de Informação Textual
Lista de exercícios 2 Recuperação de Informação Textual 2 de dezembro de 2015 0.1 O que é o modelo bag-of-words? Porque ele é uma simplificação? Dê um exemplo em que ele estaria incorreto. 0.2 O que é
GENÉTICA GEOGRÁFICA:
GENÉTICA GEOGRÁFICA: Estatistica Espacial em Genética de Populações e da Paisagem JOSÉ ALEXANDRE FELIZOLA DINIZ FILHO LABORATORIO DE ECOLOGIA TEÓRICA & SÍNTESE Departamento de Ecologia, ICB, Universidade
SCC0173 Mineração de Dados Biológicos
SCC0173 Mineração de Dados Biológicos Preparação de Dados: Parte B Prof. Ricardo J. G. B. Campello SCC / ICMC / USP 1 Créditos O material a seguir consiste de adaptações e extensões: dos originais gentilmente
Redes Neurais (Inteligência Artificial)
Redes Neurais (Inteligência Artificial) Aula 16 Aprendizado Não-Supervisionado Edirlei Soares de Lima Formas de Aprendizado Aprendizado Supervisionado Árvores de Decisão. K-Nearest
Análise de agrupamento dos dados sedimentológicos da plataforma e talude continentais da Bahia
Análise de agrupamento dos dados sedimentológicos da plataforma e talude continentais da Bahia ÂNGELA CRISTINA DA FONSECA MIRANTE 1 2 4 JOÃO DOMINGOS SCALON 2 4 TÂNIA MARIA FONSECA ARAÚJO 3 TÂNIA JUSSARA
APLICAÇÃO DE MARCADORES MOLECULARES NA HIBRIDAÇÃO DE EUCALIPTO
IV WORKSHOP EM MELHORAMENTO FLORESTAL APLICAÇÃO DE MARCADORES MOLECULARES NA HIBRIDAÇÃO DE EUCALIPTO ANTONIO MARCOS ROSADO Eng. Florestal CENIBRA RAFAEL SIMÕES TOMAZ Doutorando em Genética e Melhoramento
A Figura 28 mostra a representação gráfica dos dados presentes na base de dados fcmdata do Matlab de dimensão 140x2 dividida em 2 grupos.
84 5 Estudos de Caso A seguir serão apresentados três estudos de caso. Os dois primeiros estudos de caso têm por objetivo demonstrar a facilidade de uso do aplicativo, e o último estudo de caso é focado
Agrupamento Espectral e Hierárquico
Agrupamento Espectral e Hierárquico Fabrício Olivetti de França Universidade Federal do ABC Tópicos 1. Agrupamento Espectral 2. Agrupamento Hierárquico 1 Agrupamento Espectral Agrupamento Espectral Nem
Escalonamento Multidimensional
Programa de Pós-Graduação em Administração de Organizações (PPGAO) Análise de dados multivariados I Escalonamento Multidimensional Escalonamento Multidimensional (EMD) CAPÍTULO 9 Escalonamento Multidimensional
Clustering: K-means and Aglomerative
Universidade Federal de Pernambuco UFPE Centro de Informática Cin Pós-graduação em Ciência da Computação U F P E Clustering: K-means and Aglomerative Equipe: Hugo, Jeandro, Rhudney e Tiago Professores:
Aula 7 Medidas de Distância. Profa. Elaine Faria UFU
Aula 7 Medidas de Distância Profa. Elaine Faria UFU - 2017 Agradecimentos Este material é baseado No livro Tan et al, 2006 Nos slides do prof Andre C. P. L. F. Carvalho Agradecimentos Ao professor André
INTELIGÊNCIA ARTIFICIAL Data Mining (DM): um pouco de prática. (1) Data Mining Conceitos apresentados por
INTELIGÊNCIA ARTIFICIAL Data Mining (DM): um pouco de prática (1) Data Mining Conceitos apresentados por 1 2 (2) ANÁLISE DE AGRUPAMENTOS Conceitos apresentados por. 3 LEMBRE-SE que PROBLEMA em IA Uma busca
DIVERSIDADE GENÉTICA ENTRE TOUROS JOVENS DA RAÇA SIMENTAL POR MÉTODOS ANALISE MULTIVARIADA
DIVERSIDADE GENÉTICA ENTRE TOUROS JOVENS DA RAÇA SIMENTAL POR MÉTODOS ANALISE MULTIVARIADA GENETIC DIVERSITY BETWEEN SIMENTAL YOUNG BULLS BY MULTIVARIATE ANALYSIS TECHINIC Edilson da Silva de Souza (1)
