ANÁLISE DE AGRUPAMENTOS (Cluster Analysis) Flávia F. Feitosa BH1350 Métodos e Técnicas de Análise da Informação para o Planejamento Julho de 2015
ANÁLISE DE AGRUPAMENTOS É uma técnica analítica pra identificar subgrupos significativos de entidades homogêneas (pessoas/ objetos/lugares). O objetivo é classificar uma amostra de entidades em um número menor de grupos mutuamente excludentes, com base nas similaridades entre as entidades. Busca por uma estrutura natural entre as observações com base em um perfil multivariado. HAIR; BLACK; BABIN; ANDERSON; TATHAM. Análise Multivariada de Dados. 6ª ed., 2009.
ANÁLISE DE AGRUPAMENTOS Os agrupamentos resultantes de entidades devem exibir elevada homogeneidade interna (dentro dos agrupamentos) e elevada heterogeneidade externa (entre agrupamentos). Idealmente, os objetos dentro de um agrupamento estarão próximos quando representados graficamente, e diferentes agrupamentos estarão distantes.
Exemplos inspirados nos trabalhos propostos pelos alunos 1. Classificar os setores censitários de acordo com as diferentes dimensões de justiça/injustiça ambiental. 2. Classificar os municípios de SP em função das diferentes dimensões de violência contra a mulher 3. Classificar os bairros do ABC de acordo com a quantidade/ perfil dos lançamentos residenciais 4. Classificar os distritos de SP de acordo com as variáveis de 5. infraestrutura e entorno dos domicílios
Variável EstaFsGca de Agrupamento Conjunto de variáveis que representam as características usadas para comparar objetos da análise de agrupamentos. Deve ser especificado pelo analista. Exemplos considerando as propostas de trabalho apresentadas???
CaracterísGcas da Análise de Agrupamentos 1. É descritiva, não- teórica e não- inferencial 2. Sempre criará agrupamentos, independente da existência real de alguma estrutura dos dados 3. Variedade de vias e critérios para a definição dos grupos, o que possibilita a obtenção de soluções diferentes 4. Não é generalizável, pois é totalmente dependente das variáveis usadas como base para a medida de similaridade
QUESTÕES- CHAVE 1. Como medir similaridade? 2. Como formar os agrupamentos? 3. Quantos grupos formar?
1. Medição de Similaridade Agrupamentos são grupos de objetos semelhantes. Precisamos, portanto, definir uma medida do grau de similaridade/dissimilaridade entre os objetos. É possível medir similaridade, por exemplo, de acordo com a distância euclidiana entre cada par de observações.
2. Formação de Agrupamentos Definida a medida de similaridade a ser adotada, precisamos formar agrupamentos com base na similaridade de cada par de observações. Esse procedimento deve determinar a pertinência a grupo de cada observação para cada conjunto de agrupamentos formados
3. Número de Agrupamentos DILEMA Menor nr. de agrupamentos & Menor homogeneidade interna nos grupos VS. Maior nr. de agrupamentos & Maior homogeneidade interna nos grupos
Métodos de Agrupamento 1. Agrupamento em árvore (tree clustering): método aglomerativo hierárquico 2. K- médias (k- means): método não hierárquico por repartição
Agrupamento em Árvore Considere as seguintes observações: Variável de Agrupamento Observação A B C D E F G Variável 1 (V1) 3 4 4 2 6 7 6 Variável 2 (V2) 2 5 7 7 6 7 4
Agrupamento em Árvore 8 6 D C E F V2 4 B G 2 A 0 0 2 4 6 8 V1
Agrupamento em Árvore 8 6 D C E F V2 4 B G 2 A Como medimos similaridade? Neste exemplo, utilizaremos a distância euclidiana (linha reta) entre cada par de observações 0 0 2 4 6 8 V1
Matriz de Proximidade de Distâncias Euclidianas entre Observações Observação A B C D E F G A - B 3,162 - C 5,099 2,000 - D 5,099 2,828 2,000 - E 5,000 2,236 2,236 4,123 - F 6,403 3,606 3,000 5,000 1,414 - G 3,606 2,236 3,606 5,000 2,000 3,162 -
Matriz de Proximidade de Distâncias Euclidianas entre Observações Observação A B C D E F G A - B 3,162 - C 5,099 2,000 - D 5,099 2,828 2,000 - Menor Distância, Maior Similaridade E 5,000 2,236 2,236 4,123 - F 6,403 3,606 3,000 5,000 1,414 - G 3,606 2,236 3,606 5,000 2,000 3,162 -
Agrupamento em Árvore (1) Identificar as observações mais próximas (E e F) e combiná- las em um agrupamento
Agrupamento em Árvore (2) Encontrar próximos pares de observações mais semelhantes.
Dendograma
Dendograma 7 grupos 6 grupos 2 grupos
Métodos de Agrupamento 1. Agrupamento em árvore (tree clustering): método aglomerativo hierárquico 2. K- médias (k- means): método não hierárquico por repartição
K- MÉDIAS Gera k diferentes grupos com a maior distinção possível entre eles. Parte de k- conjuntos aleatórios e move os objetos entre estes conjuntos com o objetivo de: (1) Minimizar a variabilidade dentro dos conjuntos (2) Maximizar a variabilidade entre conjuntos
K- MÉDIAS MAXIMIZAR VARIÂNCIAS INTER- GRUPOS MINIMIZAR VARIÂNCIAS INTRA- GRUPOS
Dados devem estar normalizados (por exemplo, entre 0 e 1) ou padronizados (z- escore).
PráGca no SPSS Dados Origem e Destino 2007 Município de São Paulo Estabelecer grupos de zonas semelhantes quanto à proporção de viagens do tipo: V1: transporte coletivo V2: transporte individual V3: transporte não motorizado Arquivo: OD2007_TipoViagem_SP.sav Disponível em https://flaviafeitosa.wordpress.com/teaching/bpt- mti/
Normalização Variáveis Objetivo: Minimizar problemas oriundos do uso de unidades e dispersões distintas entre as variáveis. Valor normalizado = (v.real - MinA)/(MaxA MinA)
K- MÉDIAS Analyse > Classify > k- means cluster
K- MÉDIAS
Como podemos caracterizar cada um destes grupos?
Grupos 2, 4 e 5 : outliers Grupo 6: Predominância transporte coletivo. Grupo 8: Predominância transporte coletivo e não motorizado Grupo 1: Predominância do transporte não motorizado, seguido do coletivo Grupo 3: Equivalência entre transporte coletivo e individual (motorizado), pouco não motorizado. Em relação aos demais, destaque para o individual Grupo 7: equivalência entre os 3 modos, com ligeiro predomínio do coletivo e não- motorizado
K- MÉDIAS Podemos exportar, no formato.csv, os resultados salvos na tabela. Em seguida, podemos juntar esta tabela ao shapefile (join) e visualizar os grupos espacialmente
K- MÉDIAS Grupos 2, 4 e 5 : outliers Grupo 3: Equivalência entre transporte coletivo e individual (motorizado), pouco não motorizado. Em relação aos demais, destaque para o individual Grupo 6: Predominância transporte coletivo. Grupo 8: Predominância transporte coletivo e não motorizado Grupo 7: equivalência entre os 3 modos, com ligeiro predomínio do coletivo e não- motorizado Grupo 1: Predominância do transporte não motorizado, seguido do coletivo
K- MÉDIAS Repetição do experimento, incluindo como variáveis as coordenadas X e Y normalizadas
K- MÉDIAS
AGRUPAMENTO EM ÁRVORE Analyse > Classify > Hierarchical Cluster
AGRUPAMENTO EM ÁRVORE ANÁLISE DESCRITIVA DAS VARIÁVEIS SALVAS Analyse > Descriptive Statistics > Explore
AGvidade 7 Análise de agrupamentos 04/08 - Terça à Último dia para entrega das atividades (incluindo as atrasadas)