ANÁLISE DE AGRUPAMENTOS (Cluster Analysis) Flávia F. Feitosa

Documentos relacionados
PESQUISA OPERACIONAL -PROGRAMAÇÃO LINEAR. Prof. Angelo Augusto Frozza, M.Sc.

Prof. Daniela Barreiro Claro

Análise Qualitativa no Gerenciamento de Riscos de Projetos

GIL, Antonio Carlos. Como elaborar projetos de pesquisa. São Paulo, Editora Atlas,

Métodos Quantitativos Aplicados

Métodos Estatísticos Avançados em Epidemiologia

MODELAGENS. Modelagem Estratégica

Gerência de Monitoramento da Qualidade do Ar e Emissões. Fundação Estadual do Meio Ambiente. Março/2016

Inteligência Artificial

AULA 07 Distribuições Discretas de Probabilidade

ESTATÍSTICA DESCRITIVA:

Pós-Graduação em Computação Distribuída e Ubíqua

Sérgio Luisir Díscola Junior

CASOS DE TESTE PALESTRANTE: MARCIA SILVA

UTILIZAÇÃO DE SENSORES CAPACITIVOS PARA MEDIR UMIDADE DO SOLO.

LOCALIZAÇÃO DE EMPRESAS Aspectos qualitativos. Profª MSc. Patrícia Tavares

Gerenciamento do Escopo do Projeto (PMBoK 5ª ed.)

MOQ-14 Projeto e Análise de Experimentos

3 Metodologia de pesquisa

Classificação de alimentos em relação à suas informações nutricionais por meio da Análise Multivariada

5838 Maquinação Introdução ao CNC

Critérios de avaliação das rotas cicláveis Fonte: I-CE & GTZ (2009); MINISTÉRIO DAS CIDADES, (2007a).

Curso de Engenharia de Produção. Organização do Trabalho na Produção

MBA em Gerenciamento de Projetos. Teoria Geral do Planejamento. Professora: Maria Erileuza do Nascimento de Paula

Engenharia de Software II

2 Segmentação de imagens e Componentes conexas

ESTRUTURA DO CURSO 08:00-10:00 RTQ-R

POLÍTICAS DE RECURSOS HUMANOS UNIDADE RECURSOS HUMANOS E PROCESSOS GERÊNCIA DE GESTÃO DE PROCESSOS

DISCIPLINA DE ESTATÍSTICA

Instituições de Ensino Superior Docentes Pertencentes a Unidades FCT. Indicadores Bibliométricos Física e Astronomia

PLANEJAMENTO ESTRATÉGICO

Prof. José Maurício S. Pinheiro - UGB

AULA 19 Análise de Variância

Manutenção volante. A DDS SERVIÇOS possui muita experiência com este modelo de manutenção com resultados altamente satisfatórios.

R o s a l d o J. E. N o c ê r a

Contrata Consultor na modalidade Produto

Análise espacial do prêmio médio do seguro de automóvel em Minas Gerais

Ferramenta 5W2H. ferramentas apresentadas. Definir: 10/03/2011

Gestão do clima organizacional - Prof. Ms. Marco A. Arbex

Métricas de Software Importância e Aplicação

ISS Eletrônico. Formato de Arquivos para Transmissão de Documentos Declarados através do aplicativo OFFLINE. Extensão do Arquivo JUNHO2006.

ANEXO 2 - TERMO DE REFERÊNCIA PLANO DE CONTROLE AMBIENTAL SIMPLIFICADO PCAS I. CONTEÚDO MÍNIMO DO PLANO DE CONTROLE AMBIENTAL SIMPLIFICADO PCAS

Modelo Comportamental

REVISÃO DATA DISCRIMINAÇÃO

MONITORAMENTO E AVALIAÇÃO APSUS

Desenvolvimento de Software

UNESP - Faculdade de Engenharia de Guaratinguetá 1

P R O G R A M A TERCEIRA FASE. DISCIPLINA: Estatística Aplicada à Pesquisa Educacional Código: 3EAPE Carga Horária: 54h/a (crédito 03)

QUESTÕES PARA A 3ª SÉRIE ENSINO MÉDIO MATEMÁTICA 2º BIMESTE SUGESTÕES DE RESOLUÇÕES

ENG1000 Introdução à Engenharia

Testes de Hipóteses Estatísticas

TERMO DE REFERÊNCIA. Fonte de Informação Experiências Exitosas de Gestão Estratégica e Participativa nas instâncias do SUS

Evolução do Orçamento Público

POLÍTICA ENGAJAMENTO DE STAKEHOLDERS ÍNDICE. 1. Objetivo Abrangência Definições Diretrizes Materialidade...

RELATÓRIO SOBRE A GESTÃO DE RISCOS BANCO ABN AMRO S.A. Setembro de 2013

Fundamentos de Teste de Software

Gestão da Qualidade. Aula 13. Prof. Pablo

Utilizando as soluções de controle e automação apresentadas pela National Instruments, como o LabView e a interface USB 6009, foi possível tornar

SUPERVISÃO Supervisão Comportamental

CARTOGRAFIA. Sistemas de Coordenadas. Prof. Luiz Rotta

Política de Responsabilidade Socioambiental (PRSA)

ADMINISTRAÇÃO DE BANCOS DE DADOS MÓDULO 8

DISTRIBUIÇÕES ESPECIAIS DE PROBABILIDADE DISCRETAS


PLANOS DE ASSISTÊNCIA SOCIAL - PAS

Hóspedes, dormidas e proveitos mantêm crescimento significativo

ORÇAMENTO POR RESULTADOS

AULA 4 DELINEAMENTO EM QUADRADO LATINO (DQL)

Conteúdo programático por disciplina Matemática 6 o ano

GRADUAÇÃO TECNOLÓGICA EM GESTÃO DA PRODUÇÃO INDUSTRIAL GERENCIAMENTO ESTATÍSTICO DOS PROCESSOS PRODUTIVOS (tópicos da aula 3)

ANÁLISE ESTATÍSTICA com o SPSS Statistics

ORDEM DE SERVIÇO Nº 02, DE 14 DE MARÇO DE

Processo de Gerenciamento do Catálogo de Serviços de TIC

A CONTAGEM DE ESTRELAS COMO TEMA TRANSVERSAL EM ASTRONOMIA

PRIMEIROS RESULTADOS DA ANÁLISE DA LINHA DE BASE DA PESQUISA DE AVALIAÇÃO DE IMPACTO DO PROGRAMA BOLSA FAMÍLIA

Adotada Total / Parcial. Fundamento da não adoção. Recomendação. Não adotada. 1. Princípios Gerais

O que esta acontecendo com a Região Metropolitana de São Paulo Análise Socioeconômica Carlos Paiva*

SUPERVISÃO Supervisão Comportamental

Estudo sobre a dependência espacial da dengue em Salvador no ano de 2002: Uma aplicação do Índice de Moran

Modelos de Regressão Linear Simples - Erro Puro e Falta de Ajuste

DIRETORIA DE PESQUISA - DPE COORDENAÇÃO DE CONTAS NACIONAIS CONAC. Sistema de Contas Nacionais - Brasil Referência 2000

UNIVERSIDADE FEDERAL DA BAHIA ESCOLA POLITÉCNICA DEPARTAMENTO DE ENGENHARIA QUÍMICA ENG 008 Fenômenos de Transporte I A Profª Fátima Lopes

Álgebra Linear Aplicada à Compressão de Imagens. Universidade de Lisboa Instituto Superior Técnico. Mestrado em Engenharia Aeroespacial

Principais medidas decorrentes do Decreto-Lei 197/2012, de 24 de Agosto:

Fundamentos de Bancos de Dados 3 a Prova Caderno de Questões

Função. Adição e subtração de arcos Duplicação de arcos

GEOMETRIA. sólidos geométricos, regiões planas e contornos PRISMAS SÓLIDOS GEOMÉTRICOS REGIÕES PLANAS CONTORNOS

Pressuposições à ANOVA

1º período. Conhecer os algarismos que compõem o SND (0, 1, 2, 3, 4, 5, 6, 7, 8, 9). Diferenciar algarismos e números. e vice-versa.

Cursos em Avaliação e Monitoramento de Políticas Públicas e Projetos Sociais

Física Experimental III

Solicitação de Cadastramento de Instituição de Pesquisa ou Empresa (a partir da versão

Conceitos de Gestão de Estoques. Prof. Ruy Alexandre Generoso

ESTUDO DE VIABILIDADE TÉCNICA, ECONÔMICA E AMBIENTAL DE PROJETOS DE TRANSPORTE URBANO COLETIVO

AULA 6 Marketing de Serviços

REITORA Ulrika Arns. VICE-REITOR Almir Barros da Silva Santos Neto. DIRETOR DO NTIC Leonardo Bidese de Pinho

A dissertação é dividida em 6 capítulos, incluindo este capítulo 1 introdutório.

A Implantação do Sistema do Sistema da Qualidade e os requisitos da Norma ISO NBR 9001:2000

Transcrição:

ANÁLISE DE AGRUPAMENTOS (Cluster Analysis) Flávia F. Feitosa BH1350 Métodos e Técnicas de Análise da Informação para o Planejamento Julho de 2015

ANÁLISE DE AGRUPAMENTOS É uma técnica analítica pra identificar subgrupos significativos de entidades homogêneas (pessoas/ objetos/lugares). O objetivo é classificar uma amostra de entidades em um número menor de grupos mutuamente excludentes, com base nas similaridades entre as entidades. Busca por uma estrutura natural entre as observações com base em um perfil multivariado. HAIR; BLACK; BABIN; ANDERSON; TATHAM. Análise Multivariada de Dados. 6ª ed., 2009.

ANÁLISE DE AGRUPAMENTOS Os agrupamentos resultantes de entidades devem exibir elevada homogeneidade interna (dentro dos agrupamentos) e elevada heterogeneidade externa (entre agrupamentos). Idealmente, os objetos dentro de um agrupamento estarão próximos quando representados graficamente, e diferentes agrupamentos estarão distantes.

Exemplos inspirados nos trabalhos propostos pelos alunos 1. Classificar os setores censitários de acordo com as diferentes dimensões de justiça/injustiça ambiental. 2. Classificar os municípios de SP em função das diferentes dimensões de violência contra a mulher 3. Classificar os bairros do ABC de acordo com a quantidade/ perfil dos lançamentos residenciais 4. Classificar os distritos de SP de acordo com as variáveis de 5. infraestrutura e entorno dos domicílios

Variável EstaFsGca de Agrupamento Conjunto de variáveis que representam as características usadas para comparar objetos da análise de agrupamentos. Deve ser especificado pelo analista. Exemplos considerando as propostas de trabalho apresentadas???

CaracterísGcas da Análise de Agrupamentos 1. É descritiva, não- teórica e não- inferencial 2. Sempre criará agrupamentos, independente da existência real de alguma estrutura dos dados 3. Variedade de vias e critérios para a definição dos grupos, o que possibilita a obtenção de soluções diferentes 4. Não é generalizável, pois é totalmente dependente das variáveis usadas como base para a medida de similaridade

QUESTÕES- CHAVE 1. Como medir similaridade? 2. Como formar os agrupamentos? 3. Quantos grupos formar?

1. Medição de Similaridade Agrupamentos são grupos de objetos semelhantes. Precisamos, portanto, definir uma medida do grau de similaridade/dissimilaridade entre os objetos. É possível medir similaridade, por exemplo, de acordo com a distância euclidiana entre cada par de observações.

2. Formação de Agrupamentos Definida a medida de similaridade a ser adotada, precisamos formar agrupamentos com base na similaridade de cada par de observações. Esse procedimento deve determinar a pertinência a grupo de cada observação para cada conjunto de agrupamentos formados

3. Número de Agrupamentos DILEMA Menor nr. de agrupamentos & Menor homogeneidade interna nos grupos VS. Maior nr. de agrupamentos & Maior homogeneidade interna nos grupos

Métodos de Agrupamento 1. Agrupamento em árvore (tree clustering): método aglomerativo hierárquico 2. K- médias (k- means): método não hierárquico por repartição

Agrupamento em Árvore Considere as seguintes observações: Variável de Agrupamento Observação A B C D E F G Variável 1 (V1) 3 4 4 2 6 7 6 Variável 2 (V2) 2 5 7 7 6 7 4

Agrupamento em Árvore 8 6 D C E F V2 4 B G 2 A 0 0 2 4 6 8 V1

Agrupamento em Árvore 8 6 D C E F V2 4 B G 2 A Como medimos similaridade? Neste exemplo, utilizaremos a distância euclidiana (linha reta) entre cada par de observações 0 0 2 4 6 8 V1

Matriz de Proximidade de Distâncias Euclidianas entre Observações Observação A B C D E F G A - B 3,162 - C 5,099 2,000 - D 5,099 2,828 2,000 - E 5,000 2,236 2,236 4,123 - F 6,403 3,606 3,000 5,000 1,414 - G 3,606 2,236 3,606 5,000 2,000 3,162 -

Matriz de Proximidade de Distâncias Euclidianas entre Observações Observação A B C D E F G A - B 3,162 - C 5,099 2,000 - D 5,099 2,828 2,000 - Menor Distância, Maior Similaridade E 5,000 2,236 2,236 4,123 - F 6,403 3,606 3,000 5,000 1,414 - G 3,606 2,236 3,606 5,000 2,000 3,162 -

Agrupamento em Árvore (1) Identificar as observações mais próximas (E e F) e combiná- las em um agrupamento

Agrupamento em Árvore (2) Encontrar próximos pares de observações mais semelhantes.

Dendograma

Dendograma 7 grupos 6 grupos 2 grupos

Métodos de Agrupamento 1. Agrupamento em árvore (tree clustering): método aglomerativo hierárquico 2. K- médias (k- means): método não hierárquico por repartição

K- MÉDIAS Gera k diferentes grupos com a maior distinção possível entre eles. Parte de k- conjuntos aleatórios e move os objetos entre estes conjuntos com o objetivo de: (1) Minimizar a variabilidade dentro dos conjuntos (2) Maximizar a variabilidade entre conjuntos

K- MÉDIAS MAXIMIZAR VARIÂNCIAS INTER- GRUPOS MINIMIZAR VARIÂNCIAS INTRA- GRUPOS

Dados devem estar normalizados (por exemplo, entre 0 e 1) ou padronizados (z- escore).

PráGca no SPSS Dados Origem e Destino 2007 Município de São Paulo Estabelecer grupos de zonas semelhantes quanto à proporção de viagens do tipo: V1: transporte coletivo V2: transporte individual V3: transporte não motorizado Arquivo: OD2007_TipoViagem_SP.sav Disponível em https://flaviafeitosa.wordpress.com/teaching/bpt- mti/

Normalização Variáveis Objetivo: Minimizar problemas oriundos do uso de unidades e dispersões distintas entre as variáveis. Valor normalizado = (v.real - MinA)/(MaxA MinA)

K- MÉDIAS Analyse > Classify > k- means cluster

K- MÉDIAS

Como podemos caracterizar cada um destes grupos?

Grupos 2, 4 e 5 : outliers Grupo 6: Predominância transporte coletivo. Grupo 8: Predominância transporte coletivo e não motorizado Grupo 1: Predominância do transporte não motorizado, seguido do coletivo Grupo 3: Equivalência entre transporte coletivo e individual (motorizado), pouco não motorizado. Em relação aos demais, destaque para o individual Grupo 7: equivalência entre os 3 modos, com ligeiro predomínio do coletivo e não- motorizado

K- MÉDIAS Podemos exportar, no formato.csv, os resultados salvos na tabela. Em seguida, podemos juntar esta tabela ao shapefile (join) e visualizar os grupos espacialmente

K- MÉDIAS Grupos 2, 4 e 5 : outliers Grupo 3: Equivalência entre transporte coletivo e individual (motorizado), pouco não motorizado. Em relação aos demais, destaque para o individual Grupo 6: Predominância transporte coletivo. Grupo 8: Predominância transporte coletivo e não motorizado Grupo 7: equivalência entre os 3 modos, com ligeiro predomínio do coletivo e não- motorizado Grupo 1: Predominância do transporte não motorizado, seguido do coletivo

K- MÉDIAS Repetição do experimento, incluindo como variáveis as coordenadas X e Y normalizadas

K- MÉDIAS

AGRUPAMENTO EM ÁRVORE Analyse > Classify > Hierarchical Cluster

AGRUPAMENTO EM ÁRVORE ANÁLISE DESCRITIVA DAS VARIÁVEIS SALVAS Analyse > Descriptive Statistics > Explore

AGvidade 7 Análise de agrupamentos 04/08 - Terça à Último dia para entrega das atividades (incluindo as atrasadas)