A análise de aglomerados

Documentos relacionados
Análise Multivariada Aplicada à Contabilidade

Análise de Agrupamento. Cluster Analysis

Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação

MÉTODOS MULTIVARIADOS. Rodrigo A. Scarpel

Clustering: k-means e Agglomerative

Redes Neurais (Inteligência Artificial)

SENSOMETRIA. Adilson dos Anjos. Curitiba, PR 21 de maio de Departamento de Estatística Universidade Federal do Paraná

Mineração de Dados em Biologia Molecular

Trilha Learning Machine Cluster Analysis em 4 passos Marco Siqueira Campos

MANUAL DE REFERÊNCIA DE ANÁLISE DE CONGLOMERADOS

Les-0773: ESTATÍSTICA APLICADA III ANÁLISE DE AGRUPAMENTO. Junho de 2017

Aprendizado de Máquina

Organização. 1. Introdução 2. Medidas de Similaridade. hierárquicos, de partição) 4. Critérios numéricos para definir o número de clusters

INF 1771 Inteligência Artificial

Aprendizagem de Máquina

Análise de dados multivariados I

Aprendizado de Máquinas. Introdução à Aprendizado Não- Supervisionado

Níveis descritivos de testes estatísticos de variabilidade como medidas de similaridade entre objetos em análises de agrupamento

Universidade Federal do Paraná Departamento de Informática. Reconhecimento de Padrões. Tipos de Aprendizagem. Luiz Eduardo S. Oliveira, Ph.D.

ANÁLISE DE AGRUPAMENTOS

ANÁLISE DE AGRUPAMENTOS (Cluster Analysis) Flávia F. Feitosa

PRÁTICA 8. A Distância Euclidiana entre dois vetores n-dimensionais x e y é definida como o escalar: d = norm(x y)

PÓS-GRADUAÇÃO ANÁLISE DE DATA MINING

Descoberta de Conhecimento em Bases de Dados. Pesquisa de Clusters

ANÁLISE DE BIG DATA E INTELIGÊNCIA ARTIFICIAL PARA A ÁREA MÉDICA

MELHORIA DA CORRELAÇÃO COFENÉTICA PELA EXCLUSÃO DE UNIDADES EXPERIMENTAIS NA CONSTRUÇÃO DE DENDROGRAMAS

Comparação entre o método Ward e o método K-médias no agrupamento de produtores de leite

Sensometria, Segmentação. Adilson dos Anjos

Análise de Agrupamento (Cluster analysis)

Descrição do Método de Análise de Clusters

Profissinais que desejam adquirir ou aprimorar seus conhecimentos em modelagem de dados, analytics e estatística aplicada

Análise de agrupamento dos dados sedimentológicos da plataforma e talude continentais da Bahia

Inteligência nos Negócios (Business Inteligente)

Redimensionamento de variáveis utilizadas para avaliar a qualidade em serviços por meio da Análise Hierárquica

Clustering (k-means, SOM e hierárquicos)

2 Processo de Agrupamentos

APLICAÇÃO DE ANÁLISE DE CLUSTER EM VALORES NUTRICIONAIS REFERENTES Á TIPOS DE CARNES

Consistência do padrão de agrupamento de cultivares de milho

MEDIDAS DE SIMILARIDADE UTILIZANDO CARACTERÍSTICAS DA ÁGUA DO MUNICÍPIO DE BOTUCATU

3 Técnicas de agrupamento

2COP229 Inteligência Computacional. Aula 3. Clusterização.

Inteligência nos Negócios (Business Inteligente)

ANÁLISE DE AGRUPAMENTO UTILIZANDO VARIÁVEIS QUANTITATIVAS E QUALITATIVAS PARA O ESTUDO DA DIVERSIDADE GENÉTICA EM GENÓTIPOS DE MANDIOCA SILVESTRE

Uma nova abordagem para a análise de agrupamento com uma aplicação em agronomia

Aula 8 - Reconhecimento e Interpretação. Prof. Adilson Gonzaga

VARIEDADES DE SOBREMESAS DO MCDONALDS SEGUNDO SUAS CARACTERÍSTICAS NUTRICIONAIS: UMA APLICAÇÃO DE ANÁLISE DE AGRUPAMENTO

SCC5895 Análise de Agrupamento de Dados

Classificação quimiométrica de vinagres usando espectros UV-Vis

Inteligência Artificial Agrupamento de Dados. prof. Dr. Rogério R. de Vargas. Universidade Estadual de Santa Cruz - UESC. Ilhéus-Ba, Outubro de 2013

ANÁLISE DE AGRUPAMENTO APLICADA AO CRESCIMENTO POPULACIONAL DE ALGUNS PAÍSES EUROPEUS

Estatística: Aplicação ao Sensoriamento Remoto SER ANO Análise de Agrupamento

Cluster. Larissa Sayuri Futino Castro dos Santos

Universidade de Aveiro

3 Método Pesquisa de Orçamentos Familiares (POF)

Seminário de Análise Multivariada

EXECUTIVE MASTER EM APPLIED BUSINESS ANALYTICS

SEL-0339 Introdução à Visão Computacional. Aula 7 Reconhecimento de Objetos

Tópicos Avançados em IA. Prof. Eduardo R. Hruschka

Consultas por Similaridade em Domínios de Dados Complexos

Introdução às Redes Neurais Artificiais

A Figura 28 mostra a representação gráfica dos dados presentes na base de dados fcmdata do Matlab de dimensão 140x2 dividida em 2 grupos.

Análise de Conglomerados Espaciais Via Árvore Geradora Mínim

UNIVERSIDADE FEDERAL DE UBERLÂNDIA FACULDADE DE MATEMÁTICA CURSO DE ESTATÍSTICA BRUNA QUEIROZ DE MELO PRADO

Algoritmo Genético Híbrido aplicado ao problema de agrupamento de dados

REVISITANDO CONJUNTOS E DISTÂNCIAS PARA ENCONTRAR PONTOS VIZINHOS

Medidas de Semelhança

Mineração em Data Streams - Clustering. Profa. Elaine Faria UFU

Consistência de agrupamentos de acessos de alho via análise discriminante

Métodos de Agrupamento (Clustering) Aula 18

Bernardo Pereira Nunes. Classificação automática de dados semi-estruturados. Dissertação de Mestrado

Agrupamento. Algoritmos e aplicações

CONHECIMENTOS ESPECÍFICOS

SCC5895 Análise de Agrupamento de Dados

Análise de Clusters. Aplicações da formação de Grupos (Clustering)

CARMEM TEREZINHA BECKER CrLIA CAMPOS BRAGA- JUAN CARLOS CEBALLOS--

Gilberto Müller Beuren

4 Agrupamento de documentos

Técnicas de Classificação para Caracterização da Curva de Carga de Empresas de Distribuição de Energia - Um Estudo Comparativo

UNIVERSIDADE FEDERAL DE UBERLÂNDIA FACULDADE DE MATEMÁTICA

Análise de dados: clustering e redução de dimensionalidade

Clusterização. Grupo: Eduardo Gade Gusmão (egg) Felipe Kuhner dos Santos (fkcs) Nelson Gutemberg Rocha (ngrs) Paulo Ricardo da Silva Soares (prss)

Foram avaliadas as produções quinzenais de leite nas primeiras e segundas lactações de vacas da raça Holandesa, entre 5 a 305 dias de lactação,

Créditos. SCC5895 Análise de Agrupamento de Dados. Relembrando... Aula de Hoje. Algoritmos Hierárquicos: Parte I. [ x ] T. Algoritmos Hierárquicos

Prof. Lorí Viali, Dr.

Segmentação local. geralmente baseados em análise de descontinuidade ou similaridade de valores digitais.

Integração de Mineração de Dados com SGBD Detecção de Agrupamentos

Análise do Desempenho do Algoritmo de Agrupamento Baseado em Colônia de Formigas Modificado

Aprendizagem de Máquina

Clustering - c-means e Self Organizing Maps

ANÁLISE DE CLUSTER APLICADA À LOGÍSTICA: DEFINIÇÃO DE ZONAS DE TRANSPORTE PARA UMA EMPRESA DO SETOR SIDERÚRGICO

Aprendizagem de Dados Simbólicos e/ou Numéricos

Análise Discriminante

Mineração de Dados em Biologia Molecular

Universidade Federal do Paraná Departamento de Informática. Reconhecimento de Padrões. Segmentação. Luiz Eduardo S. Oliveira, Ph.D.

SME0822 Análise Multivariada 2 o semestre de 2014

Estudo e Análise das Diversas Representações e Estruturas de Dados Utilizadas nos Algoritmos de Clustering Hierárquico. N o 269

5 Definição da Árvore de Cenários

Agrupamento Espectral e Hierárquico

SME0822 Análise Multivariada 2 o semestre de 2014

Análise de Clusters na Montagem de Modelos para Avaliação de Imóveis. Prof. Dr. Norberto Hochheim Universidade Federal de Santa Catarina - UFSC

Transcrição:

Mais importante do que saber fazer é saber o por quê (Norbert Wiener (1894 1964). Prof. Lorí Viali, Dr. viali@pucrs.br; viali@mat.ufrgs.br; http://www.pucrs.br/famat/viali; http://www.mat.ufrgs.br/~viali/ Matemático americano que ficou conhecido como o fundador da cibernética. A análise de aglomerados O termo Análise de Aglomerados (Cluster analysis) foi utilizado pela primeira vez por Tryon em 1939 e a técnica é de fato um conjunto de técnicas (algoritmos) de classificação. Uma questão básica que muitos pesquisadores de várias áreas enfrentam é como organizar dados observados em estruturas que agrupem subconjuntos semelhantes, isto é, como criar ou desenvolver taxionomias. O que é Análise de Conglomerados? É uma técnica multivariada que tem como objetivo agrupar dados de acordo com as similaridades entre eles. É uma ferramenta estatística com a qual é possível formar grupos com homogeneidade dentro do agrupamento e heterogeneidade entre eles. 1

Como são determinados os grupos? Existem diferentes métodos para isto, que deverão ser selecionados em função da quantidade de dados disponíveis e do número de agrupamentos a serem formados. As Hipóteses A amostra deve ser representativa da população; A colinearidade múltipla entre as variáveis deve ser mínima; A amostra deve estar livre de outliers e a razão n/k deve ser razoável. Outras nomenclaturas Técnicas similares tem sido independentemente desenvolvidas em vários campos, dando origem a nomes diferentes para esta técnica estatística (p. e. Biologia, Arqueologia, etc.). Análise de Conglomerados Taxionomia Numérica Análise Q Análise de Tipologia Análise de Classificação Variações Existem várias técnicas diferentes de aglomeração dependendo do: Procedimento utilizado para medir a similaridade ou distância entre os objetos e do algoritmo de agrupamento empregado. Metodologia No estágio inicial, quando cada item representa seu próprio grupo, as distâncias entre os itens são definidas pela distância escolhida. No entanto, uma vez que vários itens tenham sido agrupados, como determinar a distância entre os grupos formados? Em outras palavras, é necessário uma regra de agrupamento para determinar quando dois grupos são semelhantes o suficiente para serem transformados em um novo grupo. 2

Existem várias possibilidades. Por exemplo, se poderia juntar dois grupos quando dois itens quaisquer nos dois grupos estão mais próximos do que a distância de agrupamento. Colocando de outra forma: será utilizado o vizinho mais próximo (nearest neighbors) entre grupos para determinar as distâncias entre os aglomerados. Este método é denominado de encadeamento simples (single linkage). Esta regra produz grupos ligados por itens que estão próximos por acaso. De forma alternativa pode-se utilizar vizinhos que estão o mais distante possível um do outro dando origem ao método de encadeamento completo (complete linkage). Existem muitos métodos de encadeamento semelhantes aos dois propostos. Matriz de dissimilaridades Passo 1 - A análise inicia com o estabelecimento de uma base de dados nxk; Passo 2 - Utilizando um dos vários métodos, uma matriz nxn é criada para indicar as similaridades (ou dissimilaridades) de cada objeto para os demais basedo nas k variáveis. Objetos 1 2 3 n 1 0,87 1,54 32,23 2 0,87 23,77 13,45 3 1,54 23,77 7,39 n 32,23 13,45 7,39 Medidas de similaridades ou diferenças Passo 3 - Utilizando um dos vários algoritmos, os objetos são colocados nos diferentes grupos, onde: os objetos dentro dos grupos são os mais homogêneos possíveis e os grupos são os mais diferentes possíveis entre si. A análise de aglomerados inicia criando uma matriz que indica a similaridade (ou distância) entre cada par de objetos relativos às k variáveis contidas na base de dados. Existem várias formas de se fazer isto. 3

Técnica Distância Euclidiana ao quadrado (*) Distância Euclidiana (*) Distância de Chebychev (*) Distância Manhattan (*) Métrica do Poder Absoluto Cosseno do vetor de variáveis (*) Técnica Coeficiente de Correlação de Pearson (*) D 2 de Mahalanobis (*) Métrica de Minkowski (*) Coeficiente de Jaccard Coeficiente de Gower Coef. Simples de Concordância Um exemplo de Distância Euclidiana ao Quadrado Objetos Variáveis Objeto 1 Objeto 2 (S 1 -S 2 ) (S 1 -S 2 ) 2 X 1 10 13-3 9 X 2 12 11 1 1 X 3 15 16-1 1 X 4 13 15-2 4 X 5 16 13 3 9 Total --- --- --- 24 Tipos de Algoritmos Os algoritmos de agrupamento são geralmente classificados em dois grandes grupos: Métodos hierárquicos e Métodos não-hierárquicos (a) Agrupamento hierárquico O agrupamento hierárquico avança sucessivamente tanto juntando pequenos grupos em maiores quanto dividindo grandes grupos em menores. O método de agrupamento difere na regra pela qual dois pequenos grupos são unidos ou na forma como um grande é dividido. O resultado do algoritmo é uma árvore de grupos denominada de dendograma, que mostra como os grupos estão relacionados. Pelo corte do dendograma a um nível desejado pode-se obter um aglomerado de itens de dados classificados em grupos disjuntos. Métodos Hierárquicos Métodos Aglomerativos Métodos Divisivos Encadeamento Simples (Vizinho mais Próximo) (*) Método da fragmentação média Encadeamento Médio (*) Métodos de Traço Encadeamento Completo Método de Detecção de (Vizinho mais Distante) (*) Interação Automática Método de Ward (*) Aglomeração por k médias (*) Agrupamento pela Mediana 4

Encadeamento simples (vizinho mais próximo) Este método utiliza a distância entre os dois itens mais próximos (vizinhos) como a distância entre dois grupos. Esta regra aglomera itens para formar grupos e os aglomerados resultantes tendem a representar longas cadeias. Encadeamento completo (vizinho distante) Neste procedimento a distância entre dois grupos é determinada pela maior distância entre dois itens em grupos diferentes. Este método nem sempre funciona bem em todas as situações, principalmente quando os grupos tendem a ser alongados. Médias não ponderadas de grupos pareados (Unweighted pair-group average) Neste método a distância entre dois grupos é calculada pela pela média entre todos os pares de itens pertencentes aos grupos. Este método é mais eficiente quando os objetos formam aglomerados naturais distintos. Sneath and Sokal (1973) introduziram a abreviação UPGMA (Unweighted Pair-Group Method using Arithmetic averages). Médias ponderadas de grupos pareados (Weighted pair-group average). Este método é idêntico ao anterior exceto que a média agora é ponderada pelos tamanhos dos grupos. Assim, este método, deve preferido quando os tamanhos dos grupos forem bastante diferentes. Sneath and Sokal (1973) introduziram a abreviação WPGMA (weighted pair-group method using arithmetic averages). Centróide não ponderada do par de grupos (Unweighted pair-group centroid) A centróide de um grupo (cluster) é o ponto médio no espaço definido pelas dimensões. Em um certo sentido, ela é o centro de gravidade do grupo. Neste método a distância entre dois grupos é determinada pela diferença entre as respectivas centróides. Sneath and Sokal (1973) utilizam a abreviação UPGMC (unweighted pair-group method using the centroid average). Centróide ponderada do par de grupos (Weighted pair-group centroid - median) Este método é idêntico ao anterior, exceto que é ponderado pelo tamanho dos grupos. Sneath and Sokal (1973) utilizam a abreviação WPGMC (weighted pair-group method using the centroid average) para designar este método. 5

Método de Ward. Utiliza uma abordagem diferente dos demais, a análise de variância para avaliar as distâncias entre os grupos (clusters). O método tenta minimizar a soma dos quadrados (SQ) de dois hipotéticos grupos que podem ser formados a cada passo. O método é eficiente mas tende a criar grupos de tamanhos pequenos. (b) Agrupamento particional O agrupamento partitional tenta decompor os dados em um conjunto de grupos disjuntos. A função critério que o algoritmo de agrupamento tenta minimizar pode enfatizar a estruturar local dos dados pela atribuição de grupos aos picos da função densidade de probabilidade ou ou então pela estrutura global. Métodos Não Hierárquicos Tipicamente o critério global envolve minimizar de alguma medida de não similaridade nas amostras dentro de cada cluster enquanto maximiza a não similaridade (dissimilarity) dos diferentes grupos. A método comum de agrupamento particional é o denominado agrupamento por k-médias (k-means). Métodos Interativos Limiar Seqüencial Limiar Paralelo Método de Otimização Outros Análise de Fatores Q Métodos de Clump Métodos de Densidade NOMIX NORMAX Observações: A análise de aglomerados pode ser caracterizada como uma análise descritiva, não teórica e não inferencial. É utilizada principalmente com uma técnica exploratória. De fato, a análise de aglomerados não é uma técnica estatística típica, mas uma coleção de algoritmos que agrupa objetos ou casos. Diferente de outros procedimentos estatísticos esta técnica é utilizada principalmente quando não se tem uma hipótese a priori e ainda se está na fase inicial de uma pesquisa ou levantamento de dados. Sendo assim é necessário fazer uma avaliação do impacto de cada decisão tomada na performance da análise de conglomerado. 6

Problemas Um dos problemas da técnica é que a interpretação dos grupos pode ser difícil. Muitos algoritmos de agrupamento preferem determinadas formas de grupos e os algoritmos sempre irão colocar dados em grupos daquele formato mesmo se não existirem grupos nos dados. Desta forma se o objetivo não for apenas comprimir os dados mas também fazer inferências sobre a estrutura dos grupos é essencial examinar se o conjunto de dados apresenta, de fato, subgrupos. O resultado da análise de agrupamento precisa, também, ser validado. Outro problema potencial é a escolha do número de grupos. Diferentes números de grupos podem surgir quando o valor de k é alterado. Uma boa inicialização das centróides dos grupos é também importante, alguns grupos podem mesmo ficar vazios se a sua centróide ficar distante da massa dos dados. As soluções não são únicas, como os integrantes de cada grupo são dependentes de todo o conjunto, muitas soluções diferentes podem ser obtidas variando um ou mais elementos. Áreas de Aplicação A técnica de agrupamento tem sido aplicada a uma grande variedade de problemas de pesquisa. Hartigan (1975) fornece um sumário de muitos estudos que utilizaram esta técnica. Por exemplo na medicina o agrupamento de doenças, tratamentos ou sintomas podem resultar em classificações bastante úteis. Na psiquiatria o diagnóstico correto de grupos de sintomas tais como paranóia, esquizofrenia, etc. é essencial para uma terapia bem sucedida. Na arqueologia os pesquisadores tem tentado estabelecer taxionomias de ferramentas de pedra, objetos fúnebres, etc. através da análise de agrupamentos. 7

Referências: DURAN, B. S. ODELL, P. L. Cluster Analysis. New York: Springer-Verlag, 1974. EVERITT, B. S. Cluster Analysis. London: Heineman Educational Books, 1980. HARTIGAN, J. A. Clustering Algorithms, New York: John Wiley & Sons, 1975. LORR, M. Cluster Analysis for Social Scientists. San Francisco: Jossey-Bass, 1983. MASSART, D. L. KAUFMAN, L. The Interpretation of Analytical Chemical Data by the Use of Cluster Analysis. New York: John Wiley & Sons, 1983. McQUITTY, L. L. Pattern Analytic Clustering Lanham: University Press of America, 1987. SOKAL, R. R., SNEATH, P. H. A. Principles of numerical taxonomy. San Francisco: W. H. Freeman. 1963. SPATH, H. Cluster Dissection and Analysis. Chichester (England): Ellis Horwood, 1985. TRYON, R. C. Cluster analysis. Ann Arbor: Edwards Brothers, 1939. TRYON, R. C., BAYLEY, D. E. Cluster Analysis. New York: McGraw-Hill, 1973. TUKEY, J. W. Exploratory Data Analysis. Addison- Reading (MA): Wesley, 1977. FISHER, R. A. The Use of Multiple Measurements in Taxonomic Problems. Annals of Eugenics. n. 7, p. 179 188, 1936. HARTIGAN, J. A. Statistical Theory in Clustering. Journal of Classification. n. 2, p. 63 76, 1985. JAIN, A. K., MURTY, M. N., FLIN. P. J. Data Clustering: a review. ACM Computing survey. v. 31, n. 3, sept 1999. SNEATH, P. H. A. Thirty years of numerical taxonomy. Syst Biol. n. 44, p. 281-298. 1995. WARD, J. H. Hierarchical Grouping to Optimize an Objective Function. Journal of the American Statistical Association. n. 58, p. 236 244, 1963. http://www.statsoftinc.com/textbook/stcluan.html 8