Análise de correspondência

Documentos relacionados
Exemplo (tabela um) distribuições marginais enquanto que. Distribuição Conjunta

Anexo 1 Análise de correspondências simples

Prof. Lorí Viali, Dr.

Função prcomp. 1. Introdução

Análise de Correspondência em acessos de pimenta

AULA 8 Experimentos multinomiais e tabelas de contingência

Função prcomp em R. 1. Introdução

Análise de Correspondência (ANACOR)

Teste Qui-quadrado. Dr. Stenio Fernando Pimentel Duarte

Cruzamento de Dados. Lorí Viali, Dr. DESTAT/FAMAT/PUCRS

ANÁLISE DE CORRESPONDÊNCIAS (ASSOCIAÇÕES)

Medidas de associação para variáveis categóricas em tabelas de dupla entrada

Introdução à análise estatística com SPSS. Guião nº6: Medidas de associação

Análise de Correspondência: introdução

Capítulo 6 Estatística não-paramétrica

Capítulo 6 Estatística não-paramétrica

Métodos Empíricos de Pesquisa I. } Análise Bidimensional

Estruturas Homogêneas II (Matrizes)

CE001 - BIOESTATÍSTICA TESTE DO QUI-QUADRADO

Teste Chi-Quadrado de Independência. Prof. David Prata Novembro de 2016

9. Medidas de associação entre variáveis categóricas em tabelas de dupla entrada

Cap. 6 Medidas descritivas

Distribuição Normal. Prof a Dr a Alcione Miranda dos Santos. Abril, 2011

SS714 - Bioestatística

6. Medidas de associação entre variáveis categóricas em tabelas de dupla entrada

Súmario APRESENTAÇÃO DA COLEÇÃO...13

2. Testes de Independência

Estatística Aplicada I. } Análise Bidimensional

Estatística Descritiva (III) Associação entre Variáveis

Testes de Aderência, Homogeneidade e Independência

Introdução à Bioestatística Turma Nutrição Aula 3 Análise Descritiva: Medidas de Tendência Central Medidas de Variabilidade

Programação científica C++

Variáveis bidimensionais

Testes de Aderência, Homogeneidade e Independência. Prof. Marcos Vinicius Pó Métodos Quantitativos para Ciências Sociais

SÉRIE: Estatística Básica Texto: ANÁLISE BIDIMENSIONAL SUMÁRIO 3. EXERCÍCIOS APÊNDICE REFERÊNCIAS...21

INTRODUÇÃO À CIÊNCIA DA COMPUTAÇÃO. Lista de Exercícios de Linguagem C

ESTATÍSTICA. Ana Paula Fernandes - FAMAT/UFU

HEP0138 BIOESTATÍSTICA

Stela Adami Vayego Estatística II CE003/DEST/UFPR

CIÊNCIA DA COMPUTAÇÃO I Excel. Núm1; núm2;... são de 1 a 255 argumentos numéricos cuja média você deseja obter.

1. Faça uma função que recebe por parâmetro o raio de uma esfera e calcula o seu volume.

Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência

DE ESPECIALIZAÇÃO EM ESTATÍSTICA APLICADA)

Notas para o Curso de Algebra Linear Il Dayse Haime Pastore 20 de fevereiro de 2009

Vamos conversar sobre BRUNI

b) Variáveis Aleatórias Contínuas

MÓDULO V: Análise Bidimensional: Correlação, Regressão e Teste Qui-quadrado de Independência

Testes de Aderência, Homogeneidade e Independência

AULA 02 Distribuição de Probabilidade Normal

CENTRO UNIVERSITÁRIO LEONARDO DA VINCI CURSO: ENGENHARIAS DISCIPLINA: ESTATÍSTICA E PROBABILIDADE PROFESSORAS: GRAZIELLE JENSKE e CRISTIANE BONATTI

8 JÚLIO CESAR R. PEREIRA

Métodos Quantitativos Aplicados

Capítulo 12. Ângulo entre duas retas no espaço. Definição 1. O ângulo (r1, r2 ) entre duas retas r1 e r2 é assim definido:

Intervalos de Confiança

Associação entre Variáveis Qualitativas. Análises de Correlação e Regressão

AGRUPAMENTO DE ESCOLAS DR. VIEIRA DE CARVALHO

Teste Qui-Quadrado para Independência Texto criado na data. 7 de novembro de 2018

4 ANÁLISE DE DADOS. Erro do balanço iônico (%) = Σ cátions - Σ ânions x 100 Σ (cátions + ânions) (1)

Testes de Aderência, Homogeneidade e Independência

Módulo VII: Estatística elementar

AGRUPAMENTO DE ESCOLAS DR. VIEIRA DE CARVALHO

Avaliação Diagnóstica Matemática (Saída)

MATRIZES E DETERMINANTES

Aula 2: Tipos de variáveis

Estatística Descritiva (III) Associação entre Variáveis

Módulo III Medidas de Tendência Central ESTATÍSTICA

Método de eliminação de Gauss

Matrizes. Lino Marcos da Silva

- Testes Qui-quadrado - Aderência e Independência

TESTE DO QUI-QUADRADO DE INDEPENDÊNCIA

aula DISTRIBUIÇÃO NORMAL - PARTE I META OBJETIVOS PRÉ-REQUISITOS Apresentar o conteúdo de distribuição normal

Apostila de Matemática 10 Matriz

Aula 12. Ângulo entre duas retas no espaço. Definição 1. O ângulo (r1, r2 ) entre duas retas r1 e r2 se define da seguinte maneira:

A primeira coisa a fazer é saber quais são as equações das curvas quando elas já se encontram na melhor

Para analisar os dados, pode-se tabular o número de vezes que cada quantidade de palavras ocorreu, que é a freqüência de cada quantidade:

Elementos de Estatística. Michel H. Montoril Departamento de Estatística - UFJF

Autovalores e Autovetores

1 Introdução aos Métodos Estatísticos para Geografia 1

Transcrição:

Análise de correspondência rm(list=ls(all=true)) #M <- matrix(c(15,25,8,27,37,13,50,12,9,43,8,10),nrow=3) #dimnames(m)[[1]] <- c("-2000","2000 a 5000","+5000") #dimnames(m)[[2]] <- c("nfilh=0","nfilh=1","nfilh=2","nfilh>2") M <-matrix(c(30, 53,73, 20, 46, 45, 16, 10, 4, 1, 6, 36, 6, 28, 10, 16, 41, 1, 37, 59, 169, 39, 2, 1, 4, 13, 10, 5), nrow=7) dimnames(m)[[1]] <- c("p0","p1","p2","p3","p4","p5","p6") dimnames(m)[[2]] <- c("a","b","c","d") N <- sum(m) MP <- M/N vr <- rep(na,nrow(m)) vc <- rep(na,ncol(m)) k <- min(nrow(m)-1,ncol(m)-1) for(i in 1:nrow(M)){vr[i] <- sum(mp[i,])} for(i in 1:ncol(M)){vc[i] <- sum(mp[,i])} Esp <- vr%*%t(vc) Dr <- diag(vr) Dc <- diag(vc) Ptil <- solve(sqrt(dr))%*%(mp-esp)%*%solve(sqrt(dc)) U <- svd(ptil)$u[,1:k] V <- svd(ptil)$v[,1:k] Lamb <- diag(svd(ptil)$d[1:k]) A <- sqrt(dr)%*%u B <- sqrt(dc)%*%v Ycoord <- solve(dr)%*%a%*%lamb Zcoord <- solve(dc)%*%b%*%lamb Inercia <- sum(diag(lamb)^2) Quiquadrado <- Inercia*N x1 <- round(1.1*min(ycoord[,1],zcoord[,1],ycoord[,2],zcoord[,2]),1) x2 <- round(1.1*max(ycoord[,1],zcoord[,1],ycoord[,2],zcoord[,2]),1) plot(c(x1,x2), c(x1,x2), type="n", xlab="1o. eixo", ylab="2o. eixo", main="1o. Plano Fatorial", cex.main=0.8) lines(c(x1,x2),c(0,0)) lines(c(0,0),c(x1,x2)) points(ycoord, pch=19, col="red") text(ycoord, pos=3, labels = dimnames(m)[[1]],col="red", cex=0.8) points(zcoord, pch=15, col="blue") text(zcoord, pos=3, labels = dimnames(m)[[2]],col="blue", cex=0.8) Inercia Quiquadrado

Análise de Correspondência A análise de Correspondência é uma técnica exploratória desenvolvida para analisar tabelas de contingência de dupla e múltipla entradas, através de algumas medidas de correspondência entre linhas e colunas (ver Bouroche & Saporta, 1982 ou STATISTICA for Windows, 1996). Os resultados fornecidos permitem explorar a estrutura de relações entre as variáveis categóricas das tabelas. As tabelas mais comuns são as tabelas de frequências de dupla entrada, onde teremos um caso de análise de correspondência simples. Numa análise de correspondência simples, a tabela de frequências é padronizada para que a soma das frequências relativas de suas células totalizem 1.0. Uma forma de expressar o objetivo de uma análise típica é representar os valores na tabela de frequências relativas em termo de distâncias entre linhas e/ou colunas num espaço com poucas dimensões. Considerando uma tabela com l linhas e c colunas (tabela l x c), podemos pensar nos valores de cada linha como coordenadas de l pontos num espaço c-dimensional, de tal forma que poderíamos calcular as distâncias entre tais pontos. As distâncias entre estes pontos irão resumir toda a informação a respeito das similaridades entre as linhas da tabela. Suponha agora que encontremos um espaço com menos dimensões, sobre o qual possamos representar as posições dos l pontos de forma que toda, ou quase toda, informação das diferenças entre as linhas seja nele retida. Podemos, então, representar a informação a respeito das similaridades entre as linhas num simples gráfico de 1, 2 ou 3 dimensões. Enquanto isto não parece não ser particularmente útil para análise de pequenas tabelas, pode, por outro lado, trazer grande benefício na interpretação de tabelas muito grandes.

Definições: i) Massa: é o mesmo que a frequência relativa, ou seja, é dada pelas frequências divididas pelo total, de tal forma que a soma das entradas da tabela seja igual a 1.0. ii) Inércia: o termo inércia em análise de correspondência é usado de modo análogo que a definição de momento de inércia, aplicada em matemática. É definida como uma medida de dispersão entre as variáveis da tabela dada pelo Qui-quadrado de Pearson, 2 dividido pelo total das frequências, n. I 2, (4) n iii) Perfil Linha e Perfil Coluna: Se as linhas e colunas de uma tabela são completamente independentes, os valores na tabela podem ser reproduzidos através dos totais de linhas e colunas, que serão chamados perfis (ver Figura 1). De acordo com a estatística qui-quadrado para tabelas de dupla entrada, as frequências esperadas para a tabela, quando linhas e colunas são independentes, são iguais ao respectivo total da coluna vezes o total da linha, dividido pelo total geral n. Assim, a frequência esperada para a célula i,j, sob independência, é dada por: e i j ni n j, (5) n onde: n i e n j são os totais da linha i e da coluna j, respectivamente. Alguns desvios dos valores observados em relação aos valores esperados irão contribuir ao Qui-quadrado total. Então, outra forma de enxergarmos a análise de correspondência é considerá-la como um método

de decomposição do Qui-quadrado total em um pequeno número de dimensões, de tal forma que possamos reconstruir quase a totalidade do valor do 2. Como os totais das linhas e colunas são fixos, teremos ( l 1) entradas livres para as colunas e ( c 1) entradas livres para as linhas. Desta forma, o número máximo de dimensões que podem ser extraídas é dado por: min[(l 1); (c 1)], que será o número de autovalores (valores singulares) obtidos da tabela. 1... j... c totais 1 n 11 n 1j n 1c n 1 i n i1... n ij... n iq n i l n l1 n lj n lc n l totais n 1... n j... n c n Tabela 1: Tabela de contingência l x c. iv) Qualidade: Fornece a qualidade da representação dos pontos no sistema de coordenadas definido pelo número de dimensões escolhido. A qualidade dos pontos é definida pela razão entre o quadrado da distância no espaço definido pelo número dimensões escolhidas pelo quadrado da distância no espaço definido pelo número máximo de dimensões. Portanto quanto mais próximo de um, melhor será a representação do ponto no espaço escolhido.

v) Coseno 2 : (ou correlação quadrada) Contém a qualidade de cada ponto por dimensão. Este valor pode ser interpretado como a correlação do ponto com a respectiva dimensão, e também é o cosseno ao quadrado do ângulo que o ponto forma com a mesma. vi) Inércia Relativa: Representa a proporção de contribuição de cada ponto na inércia total I e é independente do número de dimensões escolhidas na análise. Note que uma particular pode ter um ponto pode ter boa qualidade de representação, porém, este mesmo ponto pode não contribuir muito para a inércia total. Tabela de Burt A tabela de Burt é uma matriz simétrica usada para ajudar a visualizar e analisar relações entre variáveis categóricas, possuindo uma coluna e uma linha para cada nível (categoria) de cada variável categórica. Por exemplo, se os dados são divididos entre 3 variáveis categóricas como: - Sexo (masculino, feminino); - Nível de atividade (leve, médio, alto) e - Idade (< 20, 20 a 50, > 50), a tabela de Burt possui 2 + 3 + 3 = 8 linhas e 8 colunas. Masculino Feminino Leve Médio Alto < 20 20 a 50 > 50 Masculino 87 0 33 45 9 26 47 14 Feminino 0 163 27 111 25 43 89 31 Leve 33 27 60 0 0 14 48 7 Médio 45 111 0 111 0 14 107 18 Alto 9 25 0 0 79 9 30 3 <20 26 43 14 14 9 37 0 0 20-50 47 89 48 107 30 0 185 0 >50 14 31 7 18 3 0 0 28 Cada entrada na tabela de Burt mostra o número de observações que satisfazem às categorias na linha e coluna correspondentes. Por exemplo,

uma entrada na linha 1 e coluna 3 é o número de observações masculinas e ligeiramente ativas (33). A entrada na linha 1 e coluna 2 é o número de observações masculinas e femininas ao mesmo tempo (0). É possível determinar o número total de observações para cada categoria nas entradas diagonais do canto superior esquerdo para o canto inferior esquerdo onde cada entrada possui o mesmo cabeçalho de linha e coluna. Por exemplo, a entrada na linha 1 e coluna 1 mostra o número total de Homens (87), a entrada na linha 2 e coluna 2 mostra o número total de Mulheres (173) e assim por diante. A tabela serve como base para análise de correspondência múltipla e é muito usada em análise de marketing para desenvolver e interpretar perfis de clientes. Dados suplementares Dados suplementares são dados adicionais na mesma forma do conjunto de dados de classificação para os quais você efetua uma análise de correspondência. Você pode determinar como esses dados suplementares são "classificados" usando os resultados do conjunto principal. Esses dados podem ser informações adicionais do mesmo estudo, informações de outros estudos ou perfis alvo. Eles não são incluídos para o cálculo dos componentes, mas é possível obter um perfil e exibir dados suplementares em gráficos. Você pode ter dados suplementares em linhas ou em colunas. Dados suplementares em linhas constituem linhas adicionais da tabela de contingência, enquanto dados suplementares em colunas constituem colunas adicionais da tabela de contingência. Os dados suplementares devem ser inseridos na forma de tabela de contingência. Por isso, todas as colunas desses dados devem conter c entradas (onde c é o número de colunas da tabela de contingência) ou l entradas (onde l é o número de linhas da tabela de contingência).