Análise Multivariada Aplicada à Contabilidade

Documentos relacionados
Descoberta de Conhecimento em Bases de Dados. Pesquisa de Clusters

2 Processo de Agrupamentos

Aprendizado de Máquina

SME0822 Análise Multivariada 2 o semestre de Prof. Cibele Russo. Sala 3-113

A análise de aglomerados

Professora: Cira Souza Pitombo. Disciplina: Aplicações de técnicas de análise de dados

Comparação entre o método Ward e o método K-médias no agrupamento de produtores de leite

UNIVERSIDADE FEDERAL FLUMINENSE. Programa de Mestrado e Doutorado em Engenharia de Produção. Disciplina: Estatística Multivariada

Análise de agrupamento dos dados sedimentológicos da plataforma e talude continentais da Bahia

Análise Multivariada Aplicada à Contabilidade

Instituto Nacional de Pesquisas Espaciais - INPE. Divisão de Processamento de Imagens - DPI

ANÁLISE DE AGRUPAMENTO APLICADA AO CRESCIMENTO POPULACIONAL DE ALGUNS PAÍSES EUROPEUS

Medidas de Dispersão. Introdução Amplitude Variância Desvio Padrão Coeficiente de Variação

Escalonamento Multidimensional

APLICAÇÃO DE ANÁLISE DE CLUSTER EM VALORES NUTRICIONAIS REFERENTES Á TIPOS DE CARNES

ANÁLISE DE AGRUPAMENTOS

Análise Discriminante

Análise Multivariada Aplicada à Contabilidade

1 Introdução aos Métodos Estatísticos para Geografia 1

Níveis descritivos de testes estatísticos de variabilidade como medidas de similaridade entre objetos em análises de agrupamento

PRÁTICA 8. A Distância Euclidiana entre dois vetores n-dimensionais x e y é definida como o escalar: d = norm(x y)

Análise de Correspondência (ANACOR)

UNIVERSIDADE FEDERAL FLUMINENSE. Programa de Mestrado e Doutorado em Engenharia de Produção. Disciplina: Estatística Multivariada

CONHECIMENTOS ESPECÍFICOS

AULA 07 Inferência a Partir de Duas Amostras

PÓS-GRADUAÇÃO ANÁLISE DE BIG DATA

Redes Neurais não Supervisionadas: SOM

Probabilidade e Estatística (Aula Prática - 23/05/16 e 24/05/16)

Mais Informações sobre Itens do Relatório

Modelos de Regressão Linear Simples - Análise de Resíduos

Capítulo 1 Conceitos de Marketing e Marketing Research

PERFIL DOS AUTORES... XVII PREFÁCIO... XIX INTRODUÇÃO... XXI

5 Definição da Árvore de Cenários

Gilberto Müller Beuren

Estatística Descritiva

AMOSTRAGEM. É a parte da Teoria Estatística que define os procedimentos para os planejamentos amostrais e as técnicas de estimação utilizadas.

Conceito de Estatística

RAD5017 Estatística II Aula 2 Análise Fatorial (Conceitos Teóricos) 1. Validade (definição do conceito) x Confiabilidade (consistência da medida)

Classificação: Árvores de Decisão e k-nn. Eduardo Raul Hruschka

Análise de dados, tipos de amostras e análise multivariada

Medidas Estatísticas NILO FERNANDES VARELA

Elementos de Estatística

Aula 7 Medidas de Distância. Profa. Elaine Faria UFU

ANÁLISE DE CLUSTER APLICADA À LOGÍSTICA: DEFINIÇÃO DE ZONAS DE TRANSPORTE PARA UMA EMPRESA DO SETOR SIDERÚRGICO

Métodos Quantitativos Aplicados

4 ANÁLISE DE DADOS. Erro do balanço iônico (%) = Σ cátions - Σ ânions x 100 Σ (cátions + ânions) (1)

3 Técnicas de agrupamento

Técnicas Multivariadas em Saúde

Análise da Regressão. Prof. Dr. Alberto Franke (48)

Aula 25: Análise Fatorial. Prof. Eduardo A. Haddad

CONHECIMENTOS ESPECÍFICOS

AULA 09 Regressão. Ernesto F. L. Amaral. 17 de setembro de 2012

Contabilometria. Aula 9 Regressão Linear Inferências e Grau de Ajustamento

Prova de Estatística

AUTOCORRELAÇÃO ESPACIAL. Flávia F. Feitosa

Disciplina de Modelos Lineares

PROJETO E ANÁLISES DE EXPERIMENTOS (PAE) EXPERIMENTOS COM DOIS FATORES E O PLANEJAMENTO FATORIAL

ESTATÍSTICA Medidas de Síntese

DELINEAMENTO FATORIAL. Profª. Sheila Regina Oro

CAPÍTULO 3 POPULAÇÃO E AMOSTRA

Nessa situação, a média dessa distribuição Normal (X ) é igual à média populacional, ou seja:

Sumário. CAPÍTULO 1 Conceitos preliminares 1. CAPÍTULO 2 Descrição de dados: análise monovariada 47

Estatística Multivariada

Técnicas Multivariadas em Saúde

SUMÁRIO. Prefácio, Espaço amostrai, Definição de probabilidade, Probabilidades finitas dos espaços amostrais fin itos, 20

Prof. Adriano Mendonça Souza, Dr. Departamento de Estatística PPGEMQ / PPGEP - UFSM

9 Correlação e Regressão. 9-1 Aspectos Gerais 9-2 Correlação 9-3 Regressão 9-4 Intervalos de Variação e Predição 9-5 Regressão Múltipla

Renda x Vulnerabilidade Ambiental

Análise Fatorial e Componentes Principais Aplicadas na Engenharia de Avaliações

A Importância do Desenho Amostral. Donald Pianto Departamento de Estatística UnB

Modificação do teste de Tukey para uso sob heterocedasticidade e desbalanceamento

Profa. Lidia Rodella UFPE-CAA

Les Estatística Aplicada II AMOSTRA E POPULAÇÃO

Coeficiente de Assimetria

25/08/2016. Estatística. Estatística. Medidas Estatísticas Medidas de Posição. Mariele Bernardes. Mariele Bernardes

Transcrição:

Mestrado e Doutorado em Controladoria e Contabilidade Análise Multivariada Aplicada à Contabilidade Prof. Dr. Marcelo Botelho da Costa Moraes www.marcelobotelho.com mbotelho@usp.br Turma: 2º / 2016 1

Agenda Aula 12/15 Análise de Conglomerados Uso Medidas de similaridade ou distância utilizadas Procedimentos hierárquico e não hierárquico Interpretação dos resultados Número de agrupamentos Identificação dos elementos que formam cada conglomerado 2

Análise de Conglomerados 3

Análise de Conglomerados Análise de conglomerados, análise de agrupamentos ou cluster analysis, são técnicas de interdependência que permite agrupar casos ou variáveis em um grupo homogêneo, em função de sua similaridade Cada objeto é semelhante aos demais do grupo, maximizando a homogeneidade dentro do grupo e maximizando a heterogeneidade entre grupos 4

Análise de Conglomerados É uma técnica exploratória, permite estudar a estrutura de grupos, dimensionalidade dos dados, identificar outlier e levantar hipóteses sobre as associações dos objetos Semelhante a análise fatorial, porém, menos robusta Técnica sem base teórica e não-inferencial, não possibilitando inferências sobre a população com base na amostra 5

Análise de Conglomerados Etapas Análise das variáveis e dos objetivos a serem agrupados (seleção de variáveis, identificação de outliers e padronização) Seleção da medida de distância ou semelhança entre cada par de objetos Seleção do algoritmo de agrupamento: método hierárquico e método não hierárquico Escolha da quantidade de agrupamentos formados Interpretação e validação dos agrupamentos 6

Análise das Variáveis e dos Objetivos a Serem Agrupados Identificação de Outliers e Seleção de Variáveis Os grupos refletem as variáveis selecionadas A técnica não distingue a relevância das variáveis A questão da multicolinearidade interfere na ponderação das medidas de similaridade Uma forma de reduzir isso é com o uso da distância de Mahalanobis (D 2 ), que padroniza os dados, estabelece uma escala em termos de desvio padrão e soma a variância-covariância acumulada dentro dos grupos, semelhante ao R 2 da regressão 7

Análise das Variáveis e dos Objetivos a Serem Agrupados Identificação de Outliers e Seleção de Variáveis A técnica é muito sensível à outliers Cabe analisar se devem ou não ser retirados É comum que os outliers formem grupos isolados 8

Análise das Variáveis e dos Objetivos a Serem Agrupados Padronização de Variáveis Utilização de escalas de medida em grandezas diferentes pode distorcer a análise A forma mais utilizada é a padronização (Z score), com média zero de desvio padrão 1 x média Z = desvio padrão A padronização deve ser utilizada com cuidado, pois se existir alguma relação natural refletida nas escalas das variáveis, a padronização pode não ser adequada 9

Análise das Variáveis e dos Objetivos a Serem Agrupados Padronização de Variáveis São utilizadas também Método Range -1 a 1 x amplitude Método Range 0 a 1 x mínimo amplitude Método de máxima amplitude x máximo 10

Análise das Variáveis e dos Objetivos a Serem Agrupados Padronização de Variáveis São utilizadas também Método de média 1 média Método de desvio padrão 1 x x desvio padrão 11

Medidas de Similaridade ou Distância (Dissimilaridade) Modelos geométricos Empresas Vendas (US$ milhões) Número empregados Ferramentas Gerais 327,5 2.150 Fiori 312,2 661 Bretas Supermercados 652,6 7.200 Renner 929 7.764 Lojas Americanas 1.613,5 10.281 Ponto Frio 1.971 8.672 12

Medidas de Similaridade ou Distância (Dissimilaridade) Modelos geométricos 12.000 10.000 Lojas Americanas 8.000 Bretas Renner Ponto Frio 6.000 4.000 2.000 Ferramentas Gerais 0 Fiori 0 500 1000 1500 2000 13 2500

Medidas de Similaridade ou Distância (Dissimilaridade) Padronização dos Dados Empresas Vendas (US$ milhões) Número empregados Ferramentas Gerais -0,931-1,038 Fiori -0,953-1,427 Bretas Supermercados -0,458 0,282 Renner -0,056 0,429 Lojas Americanas 0,939 1,087 Ponto Frio 1,459 0,666 14

Medidas de Similaridade ou Distância (Dissimilaridade) 3 Tipos Medidas de Distância Medidas Correlacionadas Medidas de Associação 15

Medidas de Similaridade ou Distância (Dissimilaridade) Medidas de Distância Distância Euclidiana: a distância entre duas observações (i e j) correspondente à raiz quadrada da soma dos quadrados das diferenças entre os pares de observações (i e j) para todas as p variáveis d ij = p k=1 (x ik x jk ) 2 d ij = (x i1 x j1 ) 2 +(x i2 x j2 ) 2 + + (x ip x jp ) 2 Em que x ik é o valor da variável k referente à observação i e x jk representa a variável k para a observação j Quanto menor a distância, mais similares são as observações 16

Medidas de Similaridade ou Distância (Dissimilaridade) Medidas de Distância Distância Quadrática Euclidiana: a distância entre duas observações (i e j) correspondente à soma dos quadrados das diferenças entre os pares de observações (i e j) para todas as p variáveis d ij 2 = p k=1 (x ik x jk ) 2 Mais comum Quanto menor a distância, mais similares são as observações 17

Medidas de Similaridade ou Distância (Dissimilaridade) Medidas de Distância Distância de Minkowski: a distância euclidiana é um caso particular de uma distância mais geral, chamada de Minkowski d ij = p k=1 ( x ik x jk ) n 1/n Se aplicarmos n = 2, chegamos a distância euclidiana Para n = 1 temos a Distância City-Block, ou Manhattan Distance 18

Medidas de Similaridade ou Distância (Dissimilaridade) Medidas de Distância Distância Absoluta, Bloco, City-Block ou Manhattan: representa a soma das diferenças absolutas entre os valores das p variáveis para os dois casos d ij = p k=1 x ik x jk 19

Medidas de Similaridade ou Distância (Dissimilaridade) Medidas de Distância Mahalanobis: é a distância estatística entre dois indivíduos i e j, considerando a matriz de covariância para o cálculo das distâncias d ij = (x i x j ) S 1 (x i x j ) Em que S é a estimativa amostral da matriz de variância-covariância Σ dentro dos agrupamentos 20

Medidas de Similaridade ou Distância (Dissimilaridade) Medidas de Distância Chebychev: diferença absoluta máxima entre todas as p variáveis entre duas observações d ij = max x ik x jk Em que S é a estimativa amostral da matriz de variância-covariância Σ dentro dos agrupamentos 21

Medidas de Similaridade ou Distância (Dissimilaridade) Medidas Correlacionadas Representam similaridade pela correspondência de padrões ao longo das características (X variáveis) Correlação de Pearson é a mais utilizada p k=1(x 1k x i )(x 1j x j ) r ij = p k=1(x 1k x i ) 2 p k=1 (x 1j x j ) 2 22

Medidas de Similaridade ou Distância (Dissimilaridade) Medidas de Associação Utilização de variáveis binárias Tabela de Contingência Indivíduo j 1 0 Total Indivíduo i 1 a b a+b 0 c d c+d Total a+c b+d p = a+b+c+d 23

Medidas de Similaridade ou Distância (Dissimilaridade) Medidas de Associação Coeficientes de Emparelhamento Simples: Medida de Semelhança (S ij ) a + d S ij = a + b + c + d Medida de Distância (d ij ) b + c d ij = a + b + c + d 24

Medidas de Similaridade ou Distância (Dissimilaridade) Medidas de Associação Coeficientes de Jaccard Medida de Semelhança (S ij ) a S ij = a + b + c Medida de Distância (d ij ) b + c d ij = a + b + c Existem outros métodos não apresentados em aula, disponíveis no livro referência 25

Determinação e Avaliação dos Grupos Envolve: a escolha do algoritmo de agrupamento e a decisão quanto ao número de grupos Algoritmo de agrupamento: qual o procedimento deve ser usado para colocar objetos similares dentro de grupos? Temos os hierárquicos e os nãohierárquicos Todo algoritmo visa maximizar as diferenças entre os grupos em confronto com a variação dentro dos mesmos (between-cluster x within-cluster). 26

Métodos de Agrupamento em Análise de Conglomerados Conglomerados Hierárquicos Conglomerados Não-Hierárquicos 27

Tipos de Cluster Procedimentos hierárquicos de agrupamento: envolvem a construção de uma hierarquia semelhante a uma árvore. São de dois tipos: aglomerativos e divisivos. Algoritmos mais populares: (1) single linkage; (2) complete linkage; (3) avarage linkage; (4) Ward s method; e (5) centroid method. 28

Tipos de Cluster 1) Single linkage: baseado na distância mínima entre dois objetos. É também chamado de nearest neighbor 2) Complete linkage: é baseado na distância máxima, razão pela qual é conhecido como a abordagem do vizinho mais longe (furthest neighbor) 29

Tipos de Cluster 3) Avarage linkage: ou ligação média, onde o critério é a distância de todos os indivíduos de um grupo em relação a todos de outro (no SPSS, as opções between-groups e within-groups linkage). Tende a produzir grupos com aproximadamente a mesma variância 4) Ward s method: minimiza a soma dos quadrados entre dois grupos em relação a todas as variáveis. Tende a produzir grupos com mesmo número de observações 30

Tipos de Cluster 5) Centroid method: a distância entre os grupos é a distância entre seus centróides, que são os valores médios das observações em relação às variáveis. Cada vez que indivíduos são agrupados, um novo centróide é calculado. Tanto este método quanto o de Ward exigem a distância euclidiana. 31

Tipos de Cluster Métodos não-hierárquicos de agrupamento: ou métodos de partição, atribuem objetos a um grupo uma vez que o número de grupos a ser formado esteja especificado. São referidos como K-means clustering Seleciona um grupo semente (seed) como grupo inicial, e todos os objetos próximos são incluídos nesse grupo. Um novo grupo semente é escolhido, e o processo continua até todas as observações serem distribuídas 32

Tipos de Cluster O métodos não-hierárquicos são os seguintes: Sequential threshold: ou princípio sequencial, seleciona um grupo semente e inclui todos os objetos dentro de uma distância preestabelecida. Após, um novo grupo semente é selecionado, e o processo continua. Quando um objeto é destinado a um grupo semente, ele não é mais considerado nos subsequentes. 33

Tipos de Cluster Parallel threshold: ou princípio paralelo, seleciona vários grupos semente e inclui todos os objetos dentro daquele mais próximo. À medida que o processo evolui, as distâncias podem ser ajustadas para incluir menos ou mais objetos (disponível no SPSS). Optimization: similar aos anteriores, exceto que ele permite a realocação de objetos em função da maior proximidade com outro grupo (disponível no SPSS). 34

Tipos de Cluster Seleção dos grupos sementes: pode ser aleatório ou escolhidos pelo pesquisador. Um dos problemas no primeiro caso é que o resultado final depende da ordem dos dados. Vantagens e desvantagens dos métodos hierárquicos: (v) são rápidos e exigem menos tempo de processamento; (d) não realocam combinações anteriores; (d) é sensivelmente impactado por outliers; (d) não são apropriados para amostras muito grandes. 35

Tipos de Cluster Vantagens e desvantagens dos métodos nãohierárquicos: (v) podem realocar combinações anteriores; (v) são menos sensíveis a outliers, à medida de distância e a variáveis inapropriadas (quando os grupos sementes são escolhidos pelo pesquisador); (d) os resultados dependem do processo de escolha dos pontos semente. Segundo Hair, o processo aleatório é inferior às técnicas hierárquicas; (d) Johnson e Wichern criticam prefixação do número de grupos. 36

Tipos de Cluster Uma combinação de ambos os métodos: primeiro, uma técnica hierárquica estabelece o número de grupos, traça o perfil dos núcleos centrais e identifica outliers; Depois de eliminar eventuais outliers, aplica-se um método não-hierárquico, tendo como grupos sementes os núcleos centrais definidos através do método hierárquico. 37

Análise de Cluster Quantos grupos devem ser formados? Não existe um critério categórico Uma regra de parada (stopping rule) simples é examinar a distância entre os grupos a cada passo sucessivo; Outra regra seria adaptar um teste estatístico de significância; Além disso, o pesquisador deve confrontar com o referencial teórico, que pode sugerir um número natural de grupos; Deve-se, ao final, buscar a melhor solução dentre as possíveis. 38

Análise de Cluster A análise cluster deve ser estruturada novamente? Analisar se existe um disparate acentuado entre o tamanho dos grupos, ou se existem grupos com uma ou duas observações (possíveis outliers); Comparar a solução final com as expectativas do pesquisador; Bussab refere uma técnica quantitativa para avaliação dos agrupamentos, o Coeficiente de Correlação Cofenética, que relaciona a matriz de distâncias originais com a oriunda da classificação (matriz cofenética); algo em torno de 0,8 já seria bom. 39

Análise de Cluster Envolve o exame de cada grupo, tendo em vista o conjunto de variáveis, para denominar ou atribuir uma identificação que descreva adequadamente a natureza dos mesmos. Para esse processo, podem ser utilizados escores, de modo a identificar alguma hierarquia dentre os mesmos. Nessa fase, o pesquisador deve comparar os resultados com aqueles propostos anteriormente pela teoria ou pela experiência prática. 40

Validação e Perfil dos Grupos Alguns procedimentos de validação da solução: 1) dividir a amostra em dois grupos; 2) usar outras variáveis conhecidas por discriminar entre os grupos, ou refazer a análise excluindo algumas variáveis; 3) refazer a análise utilizando outros métodos de agrupamento e outras medidas de similaridade. 41

Validação e Perfil dos Grupos Definindo o perfil da solução: consiste na descrição das características de cada grupo para explicar como elas podem diferir em dimensões relevantes. Utilizam-se dados não previamente incluídos no procedimento de agrupamento (demográficos, psicográficos etc.). O enfoque é na descrição, não do que determinou diretamente os grupos, mas das características dos grupos depois de que eles foram identificados. Pode-se utilizar a análise discriminante: a variável dependente categórica são os grupos. 42

Obrigado pela Atenção!!! Até a próxima aula mbotelho@usp.br www.marcelobotelho.com 43