Métodos Quantitativos Aplicados Aula 9 http://www.iseg.utl.pt/~vescaria/mqa/ Tópicos apresentação Análise clusters: técnica de agrupamento de observações/ variáveis com base na similaridade das suas característicassters 1
Análise de clusters Métodos hierárquicos/ métodos não hierárquicos Métodos de aglomeração / métodos de partição aplica-se as variáveis quantitativas, frequências ou dados binários variante para variáveis qualitativas problemas com as escalas de medição das variáveis influência no cálculo das distâncias/proximidades estandardização pode ser solução mas depende problema Análise clusters: conceito distância Agrupamento de observações/variáveis baseada da similaridade das suas características a matriz de similaridade ou de distâncias entre os diferentes indivíduos - cada linha explicita a hierarquia de proximidade de cada observação em relação às restantes - para cada observação, a proximidade com as outras será tanto maior, quanto maior for a similaridade que lhes corresponde. 2
: métodos Métodos hierárquicos/ métodos não hierárquicos métodos hierárquicos originam sucessões de clusters em classes progressivamente mais abrangentes (métodos aglomerativos) ou menos abrangentes (métodos partição) - clusters formados em etapas sucessivas métodos não hierárquicos produzem uma partição num número fixo de classes há que escolher o número de clusters à partida Construção clusters Métodos de aglomeração / métodos de partição métodos de aglomeração parte-se de uma situação em que o número de clusters é idêntico ao número de observações e, através da aglomeração das observações mais semelhantes, vai-se progressivamente diminuindo o número de clusters métodos de partição partem de uma situação em que todas observações estão agrupadas num cluster procedendo a uma situação partição em subgrupos, com base nas maiores distâncias entre observações até que se formem tantos clusters quantas as observações espaços elementares inicialmente consideradas. 3
O algoritmo dos métodos de aglomeração hierárquica - processam-se através uma sucessão de aglomeração de observações 1. Determinação de uma matriz de distâncias 2. Pesquisa da menor distância 3. Agregação dos clusters mais semelhantes 4. Actualização da matriz de distâncias 5. Repetição dos passos 2 e 3 R-1 vezes Análise clusters: cálculo distância A determinação da distância entre dois clusters que não são compostos por uma única observação Vizinho mais próximo (nearest neighbour) ou single linkage - a distância entre dois clusters corresponde à menor das distâncias entre duas observações elementares pertencentes a clusters diferentes vizinho mais afastado (furthest neighbour) ou complete linkage - a distância entre dois clusters corresponde à maior das distâncias entre duas observações elementares pertencentes a clusters diferentes; average linkage between groups - média entre todos os pares de observações elementares possíveis de serem formados, com cada uma das observações pertencentes a agrupamentos diferentes. Diferentes métodos = diferentes resultados testar alternativas e ver robustez resultados 4
O dendograma representação gráfica do processo de constituição dos clusters permite identificar os clusters agrupados ao longo de todo o processo (tracejado vertical) e observar o incremento nos valores da distância entre os clusters (tracejado horizontal). Análise clusters O dendograma 5
Notas A análise de clusters de casos vs variáveis As medidas de distância Análise clusters Bibliografia Maroco, Cap 11 Pestana e Gageiro, Cap. 9 6