A análise de aglomerados

Mais importante do que saber fazer é saber o por quê (Norbert Wiener (1894 1964). Prof. Lorí Viali, Dr. viali@pucrs.br; viali@mat.ufrgs.br; http://www.pucrs.br/famat/viali; http://www.mat.ufrgs.br/~viali/ Matemático americano que ficou conhecido como o fundador da cibernética. A análise de aglomerados O termo Análise de Aglomerados (Cluster analysis) foi utilizado pela primeira vez por Tryon em 1939 e a técnica é de fato um conjunto de técnicas (algoritmos) de classificação. Uma questão básica que muitos pesquisadores de várias áreas enfrentam é como organizar dados observados em estruturas que agrupem subconjuntos semelhantes, isto é, como criar ou desenvolver taxionomias. O que é Análise de Conglomerados? É uma técnica multivariada que tem como objetivo agrupar dados de acordo com as similaridades entre eles. É uma ferramenta estatística com a qual é possível formar grupos com homogeneidade dentro do agrupamento e heterogeneidade entre eles. 1

Como são determinados os grupos? Existem diferentes métodos para isto, que deverão ser selecionados em função da quantidade de dados disponíveis e do número de agrupamentos a serem formados. As Hipóteses A amostra deve ser representativa da população; A colinearidade múltipla entre as variáveis deve ser mínima; A amostra deve estar livre de outliers e a razão n/k deve ser razoável. Outras nomenclaturas Técnicas similares tem sido independentemente desenvolvidas em vários campos, dando origem a nomes diferentes para esta técnica estatística (p. e. Biologia, Arqueologia, etc.). Análise de Conglomerados Taxionomia Numérica Análise Q Análise de Tipologia Análise de Classificação Variações Existem várias técnicas diferentes de aglomeração dependendo do: Procedimento utilizado para medir a similaridade ou distância entre os objetos e do algoritmo de agrupamento empregado. Metodologia No estágio inicial, quando cada item representa seu próprio grupo, as distâncias entre os itens são definidas pela distância escolhida. No entanto, uma vez que vários itens tenham sido agrupados, como determinar a distância entre os grupos formados? Em outras palavras, é necessário uma regra de agrupamento para determinar quando dois grupos são semelhantes o suficiente para serem transformados em um novo grupo. 2

Existem várias possibilidades. Por exemplo, se poderia juntar dois grupos quando dois itens quaisquer nos dois grupos estão mais próximos do que a distância de agrupamento. Colocando de outra forma: será utilizado o vizinho mais próximo (nearest neighbors) entre grupos para determinar as distâncias entre os aglomerados. Este método é denominado de encadeamento simples (single linkage). Esta regra produz grupos ligados por itens que estão próximos por acaso. De forma alternativa pode-se utilizar vizinhos que estão o mais distante possível um do outro dando origem ao método de encadeamento completo (complete linkage). Existem muitos métodos de encadeamento semelhantes aos dois propostos. Matriz de dissimilaridades Passo 1 - A análise inicia com o estabelecimento de uma base de dados nxk; Passo 2 - Utilizando um dos vários métodos, uma matriz nxn é criada para indicar as similaridades (ou dissimilaridades) de cada objeto para os demais basedo nas k variáveis. Objetos 1 2 3 n 1 0,87 1,54 32,23 2 0,87 23,77 13,45 3 1,54 23,77 7,39 n 32,23 13,45 7,39 Medidas de similaridades ou diferenças Passo 3 - Utilizando um dos vários algoritmos, os objetos são colocados nos diferentes grupos, onde: os objetos dentro dos grupos são os mais homogêneos possíveis e os grupos são os mais diferentes possíveis entre si. A análise de aglomerados inicia criando uma matriz que indica a similaridade (ou distância) entre cada par de objetos relativos às k variáveis contidas na base de dados. Existem várias formas de se fazer isto. 3

Técnica Distância Euclidiana ao quadrado (*) Distância Euclidiana (*) Distância de Chebychev (*) Distância Manhattan (*) Métrica do Poder Absoluto Cosseno do vetor de variáveis (*) Técnica Coeficiente de Correlação de Pearson (*) D 2 de Mahalanobis (*) Métrica de Minkowski (*) Coeficiente de Jaccard Coeficiente de Gower Coef. Simples de Concordância Um exemplo de Distância Euclidiana ao Quadrado Objetos Variáveis Objeto 1 Objeto 2 (S 1 -S 2 ) (S 1 -S 2 ) 2 X 1 10 13-3 9 X 2 12 11 1 1 X 3 15 16-1 1 X 4 13 15-2 4 X 5 16 13 3 9 Total --- --- --- 24 Tipos de Algoritmos Os algoritmos de agrupamento são geralmente classificados em dois grandes grupos: Métodos hierárquicos e Métodos não-hierárquicos (a) Agrupamento hierárquico O agrupamento hierárquico avança sucessivamente tanto juntando pequenos grupos em maiores quanto dividindo grandes grupos em menores. O método de agrupamento difere na regra pela qual dois pequenos grupos são unidos ou na forma como um grande é dividido. O resultado do algoritmo é uma árvore de grupos denominada de dendograma, que mostra como os grupos estão relacionados. Pelo corte do dendograma a um nível desejado pode-se obter um aglomerado de itens de dados classificados em grupos disjuntos. Métodos Hierárquicos Métodos Aglomerativos Métodos Divisivos Encadeamento Simples (Vizinho mais Próximo) (*) Método da fragmentação média Encadeamento Médio (*) Métodos de Traço Encadeamento Completo Método de Detecção de (Vizinho mais Distante) (*) Interação Automática Método de Ward (*) Aglomeração por k médias (*) Agrupamento pela Mediana 4

Encadeamento simples (vizinho mais próximo) Este método utiliza a distância entre os dois itens mais próximos (vizinhos) como a distância entre dois grupos. Esta regra aglomera itens para formar grupos e os aglomerados resultantes tendem a representar longas cadeias. Encadeamento completo (vizinho distante) Neste procedimento a distância entre dois grupos é determinada pela maior distância entre dois itens em grupos diferentes. Este método nem sempre funciona bem em todas as situações, principalmente quando os grupos tendem a ser alongados. Médias não ponderadas de grupos pareados (Unweighted pair-group average) Neste método a distância entre dois grupos é calculada pela pela média entre todos os pares de itens pertencentes aos grupos. Este método é mais eficiente quando os objetos formam aglomerados naturais distintos. Sneath and Sokal (1973) introduziram a abreviação UPGMA (Unweighted Pair-Group Method using Arithmetic averages). Médias ponderadas de grupos pareados (Weighted pair-group average). Este método é idêntico ao anterior exceto que a média agora é ponderada pelos tamanhos dos grupos. Assim, este método, deve preferido quando os tamanhos dos grupos forem bastante diferentes. Sneath and Sokal (1973) introduziram a abreviação WPGMA (weighted pair-group method using arithmetic averages). Centróide não ponderada do par de grupos (Unweighted pair-group centroid) A centróide de um grupo (cluster) é o ponto médio no espaço definido pelas dimensões. Em um certo sentido, ela é o centro de gravidade do grupo. Neste método a distância entre dois grupos é determinada pela diferença entre as respectivas centróides. Sneath and Sokal (1973) utilizam a abreviação UPGMC (unweighted pair-group method using the centroid average). Centróide ponderada do par de grupos (Weighted pair-group centroid - median) Este método é idêntico ao anterior, exceto que é ponderado pelo tamanho dos grupos. Sneath and Sokal (1973) utilizam a abreviação WPGMC (weighted pair-group method using the centroid average) para designar este método. 5

Método de Ward. Utiliza uma abordagem diferente dos demais, a análise de variância para avaliar as distâncias entre os grupos (clusters). O método tenta minimizar a soma dos quadrados (SQ) de dois hipotéticos grupos que podem ser formados a cada passo. O método é eficiente mas tende a criar grupos de tamanhos pequenos. (b) Agrupamento particional O agrupamento partitional tenta decompor os dados em um conjunto de grupos disjuntos. A função critério que o algoritmo de agrupamento tenta minimizar pode enfatizar a estruturar local dos dados pela atribuição de grupos aos picos da função densidade de probabilidade ou ou então pela estrutura global. Métodos Não Hierárquicos Tipicamente o critério global envolve minimizar de alguma medida de não similaridade nas amostras dentro de cada cluster enquanto maximiza a não similaridade (dissimilarity) dos diferentes grupos. A método comum de agrupamento particional é o denominado agrupamento por k-médias (k-means). Métodos Interativos Limiar Seqüencial Limiar Paralelo Método de Otimização Outros Análise de Fatores Q Métodos de Clump Métodos de Densidade NOMIX NORMAX Observações: A análise de aglomerados pode ser caracterizada como uma análise descritiva, não teórica e não inferencial. É utilizada principalmente com uma técnica exploratória. De fato, a análise de aglomerados não é uma técnica estatística típica, mas uma coleção de algoritmos que agrupa objetos ou casos. Diferente de outros procedimentos estatísticos esta técnica é utilizada principalmente quando não se tem uma hipótese a priori e ainda se está na fase inicial de uma pesquisa ou levantamento de dados. Sendo assim é necessário fazer uma avaliação do impacto de cada decisão tomada na performance da análise de conglomerado. 6

Problemas Um dos problemas da técnica é que a interpretação dos grupos pode ser difícil. Muitos algoritmos de agrupamento preferem determinadas formas de grupos e os algoritmos sempre irão colocar dados em grupos daquele formato mesmo se não existirem grupos nos dados. Desta forma se o objetivo não for apenas comprimir os dados mas também fazer inferências sobre a estrutura dos grupos é essencial examinar se o conjunto de dados apresenta, de fato, subgrupos. O resultado da análise de agrupamento precisa, também, ser validado. Outro problema potencial é a escolha do número de grupos. Diferentes números de grupos podem surgir quando o valor de k é alterado. Uma boa inicialização das centróides dos grupos é também importante, alguns grupos podem mesmo ficar vazios se a sua centróide ficar distante da massa dos dados. As soluções não são únicas, como os integrantes de cada grupo são dependentes de todo o conjunto, muitas soluções diferentes podem ser obtidas variando um ou mais elementos. Áreas de Aplicação A técnica de agrupamento tem sido aplicada a uma grande variedade de problemas de pesquisa. Hartigan (1975) fornece um sumário de muitos estudos que utilizaram esta técnica. Por exemplo na medicina o agrupamento de doenças, tratamentos ou sintomas podem resultar em classificações bastante úteis. Na psiquiatria o diagnóstico correto de grupos de sintomas tais como paranóia, esquizofrenia, etc. é essencial para uma terapia bem sucedida. Na arqueologia os pesquisadores tem tentado estabelecer taxionomias de ferramentas de pedra, objetos fúnebres, etc. através da análise de agrupamentos. 7

Referências: DURAN, B. S. ODELL, P. L. Cluster Analysis. New York: Springer-Verlag, 1974. EVERITT, B. S. Cluster Analysis. London: Heineman Educational Books, 1980. HARTIGAN, J. A. Clustering Algorithms, New York: John Wiley & Sons, 1975. LORR, M. Cluster Analysis for Social Scientists. San Francisco: Jossey-Bass, 1983. MASSART, D. L. KAUFMAN, L. The Interpretation of Analytical Chemical Data by the Use of Cluster Analysis. New York: John Wiley & Sons, 1983. McQUITTY, L. L. Pattern Analytic Clustering Lanham: University Press of America, 1987. SOKAL, R. R., SNEATH, P. H. A. Principles of numerical taxonomy. San Francisco: W. H. Freeman. 1963. SPATH, H. Cluster Dissection and Analysis. Chichester (England): Ellis Horwood, 1985. TRYON, R. C. Cluster analysis. Ann Arbor: Edwards Brothers, 1939. TRYON, R. C., BAYLEY, D. E. Cluster Analysis. New York: McGraw-Hill, 1973. TUKEY, J. W. Exploratory Data Analysis. Addison- Reading (MA): Wesley, 1977. FISHER, R. A. The Use of Multiple Measurements in Taxonomic Problems. Annals of Eugenics. n. 7, p. 179 188, 1936. HARTIGAN, J. A. Statistical Theory in Clustering. Journal of Classification. n. 2, p. 63 76, 1985. JAIN, A. K., MURTY, M. N., FLIN. P. J. Data Clustering: a review. ACM Computing survey. v. 31, n. 3, sept 1999. SNEATH, P. H. A. Thirty years of numerical taxonomy. Syst Biol. n. 44, p. 281-298. 1995. WARD, J. H. Hierarchical Grouping to Optimize an Objective Function. Journal of the American Statistical Association. n. 58, p. 236 244, 1963. http://www.statsoftinc.com/textbook/stcluan.html 8