Procedimento para a determinação de novas variáveis (componentes) que expliquem a maior variabilidade possível existente em uma matriz de dados multidimensionais. ANÁLISE DE COMPONENTES PRINCIPAIS/PCA ou ACP Transformação linear de p" variáveis originais em p" novas variáveis, de tal modo que a primeira nova variável computada seja responsável pela maior variação possível existente no conjunto de dados. Análise de componentes principais: maximizar a variância de uma combinação linear de variáveis. Objetivo: variáveis originais X, X, X,..., Xp, correlacionadas, são transformadas em variáveis Y, Y, Y,..., Yp, não correlacionadas e com variâncias ordenadas, para que seja possível comparar os indivíduos usando apenas as variáveis Y i que apresentam maior variância. Variáveis medidas na mesma escala e em escalas diferentes Solução: Cálculo dos autovalores e correspondentes autovetores de uma matriz de variâncias-covariâncias [S] ou de correlações [R] entre variáveis. Imagem formada por um quadrado com vetores. Essa imagem sofre uma ampliação (transformação) apenas na horizontal, resultando um retângulo. Nessa condição, o vetor v passou a v*, que não tem a mesma direção do original v. O vetor v* não pode, portanto, ser representado por v multiplicado por um escalar. Mas o vetor v* tem a mesma direção de v e, por isso, pode ser representado por v multiplicado por um escalar. Diz-se então que v é um autovetor da transformação e que esse escalar é um autovalor associado. Autovetores representam as componentes principais e são o resultado do carregamento das variaveis originais em cada um deles. Tais carregamentos podem ser considerados como uma medida da relativa importância de cada variável em relação às componentes principais e os respectivos sinais, se positivos ou negativos, indicam relações direta ou inversamente proporcionais. O primeiro autovalor a ser determinado correspondera à maior porcentagem da variabilidade total presente e, assim, sucessivamente com os demais. Matriz de carregamentos de cada variavel nas componentes principais, ao ser multiplicada pela matriz original de dados, fornece a matriz de contagens (scores) de cada caso em relação às componentes principais. Esses valores dispostos num diagrama de dispersão, em que os eixos ortogonais são as duas componentes mais importantes, mostram o relacionamento entre os casos condicionados pelas variáveis medidas. 6
AUTOVALORES (EINGENVALUES) AUTOVETORES (EIGENVECTORS) As componentes principais são determinadas resolvendo-se a equação característica da matriz S ou R: det [R - I] = ou R - I = Cálculo das raizes da equação (autovalores) para uma matriz x : (a l)x + a x + a x = a x + (a l)x + a x = a x + a x + (a l)x = 7 8, λ,8,98 [ A] λ[i],8, λ,9,98,9, λ matriz de dados: (, - )(, - )(, - ) + (,8) (-,9)(-,98) + (-,98)(,8)(-,9) (-,98)(, - )(-,98) - (, - ) (-,9)(-,9) - (,8)(,8)(, - ) = matriz de coeficientes de correlação [A], [A],8,98 (variância total no sistema: + + = ),8,,9,98,9, 9 ( -,8)( -,88)( -,) autovalores: =,8 (,8/* = 9,66%) =,88 (,88/* = 6,7%) =, (,/* =,7%) (soma = ) Cálculo dos autovetores: Padronização do autovetor V para o tamanhao unitário Componentes do autovetor V: (, -,8)X +,8X -,98X =,8 - (, -,8)X -,9X = -,98X -,9X - (, -,8)X = X = -,; X = -,97; X =, V = -, -,97, Q = - + (-,97) + (,) =, Q=,7 V = -/,7 = -,8 V = -,97/,7 = -,6 V =,/,7 =,9 Autovetores F F F Var -.8 -.6.6 Var -.6.79.6 Var.9.6.79
Componente II (6.7 %) Componente II (6.7 %) Factor loadings (carregamento das variáveis nas componentes principais) ( autovetor padronizado F F F Var -.97 -.6. Var -.9.. Var..7. autovalor.7.. -. -. V V correspondente) ACP: variáveis V 7 8 *,8,6,9,6,79,6,6,6,79 F F F O b s... O b s.9 -. -. 7 O b s -.6 9 -.. 6 O b s -.. -. = factor scores -.7 - - -.7 -. -....7 Componente I (9.66 %) ACP: observações. O O O -. O - -. - -. - -... 6 Componente I (9.66 %) Tradicionalmente, o coeficiente de correlação é usado, em vez do de covariância, para a matriz inicial de similaridades. Isso porque o coeficiente de correlação elimina o efeito de escala: uma variável que oscile entre e não pesa mais na carga fatorial do que uma variável variando entre e. No entanto quando as variáveis foram obtidas em escalas idênticas ou quando se quer ressaltar a variância das variáveis, que influenciam nas cargas fatoriais, a covariância é utilizada. A escolha do número de componentes principais Manter componentes suficientes para explicar uma determinada percentagem do total da variância, por exemplo 8%. Manter componentes cujos auto-valores são maiores do que a média dos autovalores i /p; para uma matriz de correlações, essa média é. Usar o gráfico de declive/scree graph, e observar a mudança de inclinação de altos autovalores para baixos autovalores. Testar a significância das maiores componentes, ou seja, aquelas correspondentes aos maiores autovalores. 7 8
gráfico de declive/scree graph Exemplo r=-. i CP 9 valores ordenados; r=,98 Análise de agrupamentos e análise das componentes principais: fornecem os mesmos resultados mais informações em ACP Óxidos em rochas magmáticas Rochas SiO AlO FeO FeO MgO CaO NaO KO Sienito 6.7...7.6.. Sienito 8. 7.9..7..7.9. Sienito. 7.6.....7. Monzonito.... 6. 7.7.. Diorito 8.7.7.8.9. 6Diorito 6.9.9.9 7 9.6.7.7 7Diorito 8 7...8.... 8QDiorito. 6..7.6 6.7 6.7.. 9Gabro...7..8 9.9.9. Gabro.9..7.9 6. 8.9..7 Norito 7...6.8. 8... Norito 8. 8.. 6..8 9...7 HipGabro.8 8.8..7..6.9. HipGabro 7..8 6...7 Sienito 9.8 7..6.6..8. 6QSienito 66. 6...8. 6..8 7SienitoAlt 9.9..9 8.. 8Monzonito 7. 8..7..7 6.8..7 9Monzonito 9.8.8.8...9. Diabasio. 8....7 6..6.9
Porcentágens de empregados em nove grupos industriais em países na Europa: AGR: agricultura, florestal e pesca MIN: mineração e exploração de pedreiras FAB: fabricação FEA: fornecimento de energia e água CON: construção SER: serviços FIN: finanças SSP: serviços sociais e pessoais TC: transporte e comunicações 6 7 8 9