Análise de correspondência

Análise de correspondência rm(list=ls(all=true)) #M <- matrix(c(15,25,8,27,37,13,50,12,9,43,8,10),nrow=3) #dimnames(m)[[1]] <- c("-2000","2000 a 5000","+5000") #dimnames(m)[[2]] <- c("nfilh=0","nfilh=1","nfilh=2","nfilh>2") M <-matrix(c(30, 53,73, 20, 46, 45, 16, 10, 4, 1, 6, 36, 6, 28, 10, 16, 41, 1, 37, 59, 169, 39, 2, 1, 4, 13, 10, 5), nrow=7) dimnames(m)[[1]] <- c("p0","p1","p2","p3","p4","p5","p6") dimnames(m)[[2]] <- c("a","b","c","d") N <- sum(m) MP <- M/N vr <- rep(na,nrow(m)) vc <- rep(na,ncol(m)) k <- min(nrow(m)-1,ncol(m)-1) for(i in 1:nrow(M)){vr[i] <- sum(mp[i,])} for(i in 1:ncol(M)){vc[i] <- sum(mp[,i])} Esp <- vr%*%t(vc) Dr <- diag(vr) Dc <- diag(vc) Ptil <- solve(sqrt(dr))%*%(mp-esp)%*%solve(sqrt(dc)) U <- svd(ptil)$u[,1:k] V <- svd(ptil)$v[,1:k] Lamb <- diag(svd(ptil)$d[1:k]) A <- sqrt(dr)%*%u B <- sqrt(dc)%*%v Ycoord <- solve(dr)%*%a%*%lamb Zcoord <- solve(dc)%*%b%*%lamb Inercia <- sum(diag(lamb)^2) Quiquadrado <- Inercia*N x1 <- round(1.1*min(ycoord[,1],zcoord[,1],ycoord[,2],zcoord[,2]),1) x2 <- round(1.1*max(ycoord[,1],zcoord[,1],ycoord[,2],zcoord[,2]),1) plot(c(x1,x2), c(x1,x2), type="n", xlab="1o. eixo", ylab="2o. eixo", main="1o. Plano Fatorial", cex.main=0.8) lines(c(x1,x2),c(0,0)) lines(c(0,0),c(x1,x2)) points(ycoord, pch=19, col="red") text(ycoord, pos=3, labels = dimnames(m)[[1]],col="red", cex=0.8) points(zcoord, pch=15, col="blue") text(zcoord, pos=3, labels = dimnames(m)[[2]],col="blue", cex=0.8) Inercia Quiquadrado

Análise de Correspondência A análise de Correspondência é uma técnica exploratória desenvolvida para analisar tabelas de contingência de dupla e múltipla entradas, através de algumas medidas de correspondência entre linhas e colunas (ver Bouroche & Saporta, 1982 ou STATISTICA for Windows, 1996). Os resultados fornecidos permitem explorar a estrutura de relações entre as variáveis categóricas das tabelas. As tabelas mais comuns são as tabelas de frequências de dupla entrada, onde teremos um caso de análise de correspondência simples. Numa análise de correspondência simples, a tabela de frequências é padronizada para que a soma das frequências relativas de suas células totalizem 1.0. Uma forma de expressar o objetivo de uma análise típica é representar os valores na tabela de frequências relativas em termo de distâncias entre linhas e/ou colunas num espaço com poucas dimensões. Considerando uma tabela com l linhas e c colunas (tabela l x c), podemos pensar nos valores de cada linha como coordenadas de l pontos num espaço c-dimensional, de tal forma que poderíamos calcular as distâncias entre tais pontos. As distâncias entre estes pontos irão resumir toda a informação a respeito das similaridades entre as linhas da tabela. Suponha agora que encontremos um espaço com menos dimensões, sobre o qual possamos representar as posições dos l pontos de forma que toda, ou quase toda, informação das diferenças entre as linhas seja nele retida. Podemos, então, representar a informação a respeito das similaridades entre as linhas num simples gráfico de 1, 2 ou 3 dimensões. Enquanto isto não parece não ser particularmente útil para análise de pequenas tabelas, pode, por outro lado, trazer grande benefício na interpretação de tabelas muito grandes.

Definições: i) Massa: é o mesmo que a frequência relativa, ou seja, é dada pelas frequências divididas pelo total, de tal forma que a soma das entradas da tabela seja igual a 1.0. ii) Inércia: o termo inércia em análise de correspondência é usado de modo análogo que a definição de momento de inércia, aplicada em matemática. É definida como uma medida de dispersão entre as variáveis da tabela dada pelo Qui-quadrado de Pearson, 2 dividido pelo total das frequências, n. I 2, (4) n iii) Perfil Linha e Perfil Coluna: Se as linhas e colunas de uma tabela são completamente independentes, os valores na tabela podem ser reproduzidos através dos totais de linhas e colunas, que serão chamados perfis (ver Figura 1). De acordo com a estatística qui-quadrado para tabelas de dupla entrada, as frequências esperadas para a tabela, quando linhas e colunas são independentes, são iguais ao respectivo total da coluna vezes o total da linha, dividido pelo total geral n. Assim, a frequência esperada para a célula i,j, sob independência, é dada por: e i j ni n j, (5) n onde: n i e n j são os totais da linha i e da coluna j, respectivamente. Alguns desvios dos valores observados em relação aos valores esperados irão contribuir ao Qui-quadrado total. Então, outra forma de enxergarmos a análise de correspondência é considerá-la como um método

de decomposição do Qui-quadrado total em um pequeno número de dimensões, de tal forma que possamos reconstruir quase a totalidade do valor do 2. Como os totais das linhas e colunas são fixos, teremos ( l 1) entradas livres para as colunas e ( c 1) entradas livres para as linhas. Desta forma, o número máximo de dimensões que podem ser extraídas é dado por: min[(l 1); (c 1)], que será o número de autovalores (valores singulares) obtidos da tabela. 1... j... c totais 1 n 11 n 1j n 1c n 1 i n i1... n ij... n iq n i l n l1 n lj n lc n l totais n 1... n j... n c n Tabela 1: Tabela de contingência l x c. iv) Qualidade: Fornece a qualidade da representação dos pontos no sistema de coordenadas definido pelo número de dimensões escolhido. A qualidade dos pontos é definida pela razão entre o quadrado da distância no espaço definido pelo número dimensões escolhidas pelo quadrado da distância no espaço definido pelo número máximo de dimensões. Portanto quanto mais próximo de um, melhor será a representação do ponto no espaço escolhido.

v) Coseno 2 : (ou correlação quadrada) Contém a qualidade de cada ponto por dimensão. Este valor pode ser interpretado como a correlação do ponto com a respectiva dimensão, e também é o cosseno ao quadrado do ângulo que o ponto forma com a mesma. vi) Inércia Relativa: Representa a proporção de contribuição de cada ponto na inércia total I e é independente do número de dimensões escolhidas na análise. Note que uma particular pode ter um ponto pode ter boa qualidade de representação, porém, este mesmo ponto pode não contribuir muito para a inércia total. Tabela de Burt A tabela de Burt é uma matriz simétrica usada para ajudar a visualizar e analisar relações entre variáveis categóricas, possuindo uma coluna e uma linha para cada nível (categoria) de cada variável categórica. Por exemplo, se os dados são divididos entre 3 variáveis categóricas como: - Sexo (masculino, feminino); - Nível de atividade (leve, médio, alto) e - Idade (< 20, 20 a 50, > 50), a tabela de Burt possui 2 + 3 + 3 = 8 linhas e 8 colunas. Masculino Feminino Leve Médio Alto < 20 20 a 50 > 50 Masculino 87 0 33 45 9 26 47 14 Feminino 0 163 27 111 25 43 89 31 Leve 33 27 60 0 0 14 48 7 Médio 45 111 0 111 0 14 107 18 Alto 9 25 0 0 79 9 30 3 <20 26 43 14 14 9 37 0 0 20-50 47 89 48 107 30 0 185 0 >50 14 31 7 18 3 0 0 28 Cada entrada na tabela de Burt mostra o número de observações que satisfazem às categorias na linha e coluna correspondentes. Por exemplo,

uma entrada na linha 1 e coluna 3 é o número de observações masculinas e ligeiramente ativas (33). A entrada na linha 1 e coluna 2 é o número de observações masculinas e femininas ao mesmo tempo (0). É possível determinar o número total de observações para cada categoria nas entradas diagonais do canto superior esquerdo para o canto inferior esquerdo onde cada entrada possui o mesmo cabeçalho de linha e coluna. Por exemplo, a entrada na linha 1 e coluna 1 mostra o número total de Homens (87), a entrada na linha 2 e coluna 2 mostra o número total de Mulheres (173) e assim por diante. A tabela serve como base para análise de correspondência múltipla e é muito usada em análise de marketing para desenvolver e interpretar perfis de clientes. Dados suplementares Dados suplementares são dados adicionais na mesma forma do conjunto de dados de classificação para os quais você efetua uma análise de correspondência. Você pode determinar como esses dados suplementares são "classificados" usando os resultados do conjunto principal. Esses dados podem ser informações adicionais do mesmo estudo, informações de outros estudos ou perfis alvo. Eles não são incluídos para o cálculo dos componentes, mas é possível obter um perfil e exibir dados suplementares em gráficos. Você pode ter dados suplementares em linhas ou em colunas. Dados suplementares em linhas constituem linhas adicionais da tabela de contingência, enquanto dados suplementares em colunas constituem colunas adicionais da tabela de contingência. Os dados suplementares devem ser inseridos na forma de tabela de contingência. Por isso, todas as colunas desses dados devem conter c entradas (onde c é o número de colunas da tabela de contingência) ou l entradas (onde l é o número de linhas da tabela de contingência).