ANÁLISE DE CORRESPONDÊNCIAS (ASSOCIAÇÕES) A análise de componentes principais ou análise fatorial exigem dados mensurados em escala numérica contínua e não é apropriada para dados nominais, tais como contagem de números de diversos tipos de fósseis em um nível estratigráfico ou número de fraturas com diferentes orientações num maciço rochoso. Nesses casos, em que os dados são agrupados em categorias, a Análise de Correspondências permite estudar a associação entre variáveis qualitativas. Análise de Correspondências e Análise de Correspondências Múltiplas. 1 A matriz original de dados é constituída por p linhas (amostras) e q colunas (variáveis); os elementos, x ij, da matriz são contagens Na tabela de contingências os valores originais são transformados de modo a poder ser interpretados como probabilidades condicionais. Isso significa que as soluções, tanto entre amostras como entre variáveis, são equivalentes e, desse modo, o produto final mostra num espaço bidimensional, definido pelos dois mais importantes eixos de variabilidade, a distribuição simultânea tanto das amostras como das variáveis. Por causa da natureza dessa transformação as relações entre colunas e linhas da tabela transformada são as mesmas que aquelas da matriz original da dados. 3 Tal resultado gráfico mostra a correspondência (associação) entre amostras e variáveis. 4 Medir a associação entre duas variáveis qualitativas é complexa a exigir primeiro a transformação dos dados; não é possível calcular um coeficiente de correlação para valores qualitativos, como no caso de variáveis quantitativas. A transformação consiste em recodificar duas variáveis qualitativas V 1 e V em duas tabelas disjuntivas Z 1 e Z. Para cada categoria de uma variável, há uma coluna na respectiva tabela disjuntiva. Cada vez que a categoria c da variável V 1 ocorre para uma observação i, o valor da Z 1 (i, c) é definido como 1(um) e a mesma regra é aplicada para a variável V. Os outros valores de Z1 e Z são definidos como (zero). A generalização desta idéia para mais de duas variáveis é conhecida como Análise de Correspondências Múltiplas. Quando há apenas duas variáveis, é suficiente examinar a tabela de contingência das duas variáveis, que é a tabela Z 1 'Z (onde indica matriz transposta). 5 A distância pelo qui-quadrado tem sido sugerida para medir a distância entre as duas categorias. Para representar a distância entre duas categorias não é necessário o uso das tabelas disjuntivas X 1 e X. É suficiente iniciar a partir da tabela de contingência que algebricamente corresponde ao produto de X 1 'X. 6 1
Tabela de contingências (p x q) Variável X Variável Y 1 q total 1 N11 N1 N1q N1. N1 N Nq N. p Np1 Np Npq Np. Renda familiar (amostras, casos) Tabela de contingências 1 q total 1 N11 N1 N1q N1. N1 N Nq N. p Np1 Número Np de filhos (variáveis) Npq Np. 1 > total < 15 7 5 43 135-5 5 37 1 8 8 >5 8 13 9 1 4 7 8 p Np1 Np Npq Np. 1 > total < 15 7 5 43 135-5 5 37 1 8 8 >5 8 13 9 1 4 p Np1 Np Npq Np. 1 > total < 15 7 5 43 135-5 5 37 1 8 8 >5 8 13 9 1 4 Tabela de frequências (pij = nij/n) P 3, 4,58,97,31,15,195,144,47,51,35,167,31,39 Matriz de perfil de linhas: P i,j =(n 1./ /N, n. /N...n p. /N) P L,55,319,156 15/57 =,58 9 135/57 =,55 1 1 q total 1 N11 N1 N1q N1. N1 N Nq N. p Np1 Np Npq Np. 1 > total < 15 7 5 43 135-5 5 37 1 8 8 >5 8 13 9 1 4 Matriz de perfil de colunas: Pi,j=(n.1 /N, n. /N...n.q /N) P C,187,99,76,37 48/57 =,187 11 1
.6 F $< 1 q total N1 N1q N1. 1 N11 Análise de Correspondência N1 N Nq N. p Np1 Np Npq Np. 1 > total < 15 7 5 43 135-5 5 37 1 8 8 >5 8 13 9 1 4 $-5 F Inércia é uma medida, inspirada na Física, freqüentemente utilizada em Análise de Correspondências. A inércia de um conjunto de pontos é a média ponderada das distâncias ao quadrado ao centro de gravidade. No caso específico, a inércia total do conjunto de pontos (um ponto corresponde a uma categoria) pode ser escrita como: nij ni. n.j m1 m m m1 χ n n φ, com ni. nij e n.j nij n n i1 j1 i. n.j j1 i1 n 1F -. >F $>5 -.1 -.48 -.4 -.3 -.4 -.16 -.8.8.16.4.3.4.48.56 13 Colunas Linhas.n é a soma de freqüencias na tabela de contingências; desse modo a inércia é proporcional à estatística qui-quadrado de Pearson, calculada a partir da tabela de contingência O objetivo da Análise de Correspondências é o de representar o máximo possível da inércia no primeiro eixo principal, a inércia residual sobre o segundo eixo principal e assim por diante até que toda a inércia esteja representada no espaço dos eixos principais. 14 A Análise de Correspondências Múltiplas (ACM) permite estudar a associação entre duas ou mais variáveis qualitativas. Equivale à Analise de Componentes Principais para variáveis quantitativas. O produto final são gráficos onde é possível visualizar simultaneamente as distâncias entre as categorias das variáveis qualitativas e entre as observações. Também pode ser entendida como uma generalização da Análise de Correspondências para o caso em que existam mais de duas variáveis. Embora seja possível resumir numa tabela, com n observações e p (p> ) variáveis qualitativas, numa estrutura próxima a uma tabela de contingência, é mais comum a ACM iniciar a partir da tabela original de observações e variáveis. As p variáveis qualitativas são recodificadas em p tabelas disjuntivas Z 1, Z,..., Z P, compostas por um número de colunas idêntico ao de categorias em cada uma das variáveis. Cada vez que uma categoria c da j ésima variável corresponder a uma observação i, o valor de Z J (i,c) é definido como 1(um). Os outros valores Z j serão definidos como (zero). As p tabelas disjuntivas são concatenadas em uma tabela disjuntiva plena. Uma série de transformações permite a computação das coordenadas das categorias das variáveis qualitativas, bem como as coordenadas das observações em uma representação espacial ótima para um critério baseado na inércia. No caso da ACM a inércia total é igual à média do número de categorias menos um. A geração da tabela disjuntiva é o passo preliminar para o cáculo da ACM. 15 A inércia depende fundamentalmente do grau de associação entre as categorias. 16 Satisfeito Consertado Recepção Q/Preço Retorno C1 Sim Sim 5 Sim Sim Avaliação de desempenho em uma oficina de automóveis C Sim Sim 4 Sim Dúvida C3 Sim Sim 4 Sim Dúvida C4 Sim Dúvida 4 Sim Dúvida C5 Sim Dúvida 4 Sim Sim C6 Sim Dúvida 4 Sim Sim C7 Sim Dúvida 5 Sim Não C8 Sim Dúvida 3 Sim Não C9 Sim Sim Sim Não Satisfação: SIM NÃO Solução do problema: SIM NÃO DÚVIDA Qualidade da recepção: 1--3-4-5 O preço cobrado esta de acordo com a razão custo/benefício: SIM NÃO Retorno à oficina: SIM NÃO - DÚVIDA C1 Sim Sim 5 Não Dúvida C11 Sim Sim 4 Não Dúvida C1 Sim Sim 3 Não Sim C13 Sim Sim 1 Não Não C14 Sim Sim 1 Não Não C15 Sim Dúvida 3 Não Não C16 Não Não 3 Não Dúvida C17 Não Sim 4 Não Dúvida C18 Não Não 5 Sim Dúvida C19 Não Sim 3 Não Dúvida C Não Sim 3 Não Dúvida C1 Não Não 3 Não Dúvida C Não Não 1 Não Dúvida C3 Não Sim Não Dúvida C4 Não Sim Não Não 17 C5 Não Não 1 Não Não C6 Não Sim 1 Não Não 18 C7 Não Sim 1 Não Não C8 Não Dúvida Não Não 3
Eixo II (6.44 %) Marketing e tomada de decisões: clientes e modelos de carros 19 Modelo A Modelo B Modelo C Modelo D Fem-1-S 58 36 4 1 Fem--S 54 33 49 15 Fem-3-S 36 3 55 4 Fem-1-C 45 5 8 Fem--C 4 1 45 1 Fem-3-C 45 15 3 1 Mas-1-S 3 61 15 14 Mas--S 1 59 16 Mas-3-S 15 45 1 13 Mas-1-C 1 5 3 14 Mas--C 1 48 1 18 Mas-3-C 14 49 5 15.35 Análise de Correspondência Fem-1-S Epidemiologia de doenças transmissíveis.5.15.5 -.5 Mas-1-S Mas--S Modelo B Mas--C Mas-3-S Modelo A Fem-1-C Fem-3-C Fem--S Endemia de malária em Porto Velho (RO): um estudo baseado na análise estatística espacial de dados multivariados. -.15 Mas-3-C Modelo D -.5 -.35 Mas-1-C Modelo C Fem-3-S -.45 Fem--C -.6 -.5 -.4 -.3 -. -.1.1..3.4.5.6 Eixo I (7.69 %) Colunas Linhas 1 3 Áreas Florestas BAIRROS Criadouros Drenagens Alagadas Remanescentes Nascentes Riscos C1 > SIM SIM SIM SIM C 1 SIM SIM SIM SIM 1 C3 SIM SIM NÃO SIM C4 SIM SIM NÃO SIM C5 1 SIM NÃO SIM SIM C6 NÃO NÃO SIM NÃO C7 1 SIM SIM SIM SIM C8 NÃO NÃO NÃO NÃO 1 C9 1 SIM NÃO NÃO SIM 1 C1 SIM SIM NÃO NÃO C11 > SIM SIM SIM SIM C1 NÃO NÃO NÃO NÃO 1 C13 1 SIM SIM NÃO SIM 1 C14 SIM NÃO SIM SIM 1 C15 > SIM SIM SIM SIM 3 C16 1 SIM SIM NÃO SIM 1 C17 SIM SIM NÃO SIM 3 C18 SIM SIM NÃO NÃO C19 NÃO NÃO NÃO SIM 1 C SIM NÃO NÃO SIM 1 C1 SIM NÃO SIM SIM C SIM NÃO NÃO NÃO 1 C3 NÃO SIM SIM NÃO C4 1 SIM SIM SIM SIM 1 C5 1 SIM SIM SIM NÃO 1 C6 1 SIM SIM SIM SIM 1 C7 NÃO NÃO NÃO SIM 1 C8 SIM NÃO NÃO SIM C9 > SIM SIM SIM SIM 3 C3 > SIM SIM NÃO NÃO 1 C31 NÃO NÃO NÃO NÃO C3 NÃO SIM NÃO NÃO 1 C33 SIM SIM NÃO SIM 1 C34 SIM NÃO NÃO NÃO 1 C35 NÃO NÃO NÃO NÃO C36 1 SIM SIM NÃO NÃO C37 SIM SIM SIM SIM 1 C38 NÃO NÃO NÃO NÃO 1 C39 SIM SIM NÃO NÃO C4 SIM SIM SIM SIM 3 C41 NÃO NÃO NÃO NÃO 1 C4 SIM SIM SIM SIM 3 4 4
Em seguida essas informações nominais foram transformadas, para notação binária, com a finalidade de fornecer uma tabela disjuntiva, segundo os critérios: a) número de criadouros: níveis;, 1, e m ais de ; b) drenagens: presença (1) ou ausência () ; c) áreas alagadas: presença (1) ou ausência (); d) floresta remanescente: presença (1) ou ausência (); e) nascentes: presença (1) ou ausência (); f) risco de contrair a doença, segundo o Índice P arasitário Anual (IPA): sem risco IPA = (nível ); baixo risco,1 a 9,9 (nível 1); médio risco 1 a 49,9 (nível ); alto risco IPA maior ou igual a 5 (nível 3). 5 Áreas Florestas Criadouros Drenagens Nascentes Riscos AIRROS alagadas Remanescentes 1 > Sim Não Sim Não Sim Não Sim Não 1 3 1 1 1 1 1 1 1 1 1 1 1 1 1 3 1 1 1 1 1 1 4 1 1 1 1 1 1 5 1 1 1 1 1 1 6 1 1 1 1 1 1 7 1 1 1 1 1 1 8 1 1 1 1 1 1 9 1 1 1 1 1 1 1 1 1 1 1 1 1 11 1 1 1 1 1 1 1 1 1 1 1 1 1 13 1 1 1 1 1 1 14 1 1 1 1 1 1 15 1 1 1 1 1 1 16 1 1 1 1 1 1 17 1 1 1 1 1 1 18 1 1 1 1 1 1 19 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 3 1 1 1 1 1 1 4 1 1 1 1 1 1 5 1 1 1 1 1 1 6 1 1 1 1 1 1 7 1 1 1 1 1 1 8 1 1 1 1 1 9 1 1 1 1 1 1 3 1 1 1 1 1 1 31 1 1 1 1 1 1 3 1 1 1 1 1 1 33 1 1 1 1 1 1 34 1 1 1 1 1 1 35 1 1 1 1 1 1 36 1 1 1 1 1 1 37 1 1 1 1 1 1 38 1 1 1 1 1 1 6 7 8 Análise de Correspondências: Levantamento de solos efetuado pelo Swiss Federal Institute of Technology em Lausanne/Suíça, tendo sido coletado um total de 1 amostras Na matriz de dados apresentada no exercício constam valores para Cd, Cu e Pb. 3 5
Os limites máximos considerados toleráveis para o consumo humano são: Cd =.8; Cu = 5; Pb = 5 Tendo em vista esses valores, preliminarmente, efetuar uma transformação para as variáveis Cd, Cu e Pb da seguinte maneira: Se Cd i.8, substituir pelo valor 1 (um); caso contrário pelo valor (zero) Se Cu 5, substituir pelo valor 1 (um); caso contrário pelo valor (zero) Se Pb 5, substituir pelo valor 1 (um); caso contrário pelo valor (zero) 31 3 Para a transformação binária usar o aplicativo Excel função (f x ) Lógica SE, da seguinte maneira: Para cádmio: =SE(x,y<=.8;;1) Para cobre: =SE(x,y<=5;;1) Para chumbo =SE(x,y<=5;;1) De posse dessa nova tabela, com valores binários, efetuar análise de correspondências múltiplas para confrontar os resultados das 3 variáveis geoquímicas tanto com a litologia como com o uso da terra. 33 34 35 36 6
Concentrações de Cd e Pb acima dos limites toleráveis estão associadas à lavoura. Associação entre pradaria e terrenos J3; entre floresta e terrenos J. 37 explicação 38 39 4 Dados: metais pesados (ppm) provenientes de diversas profundidades (cm) de uma sondagem no leito de uma laguna 41 7
Tendência do teor em metais pesados com o aumento da profundidade? Comportamento das variáveis é o mesmo com o aumento da profundidade? 43 8