Análise Fatorial e Componentes Principais Aplicadas na Engenharia de Avaliações Diogo de Carvalho Bezerra Universidade Federal de Pernambuco Núcleo de Gestão e-mail:dicbezerra@hotmail.com SOBREA Sociedade Brasileira de Engenharia de Avaliações IV Simpósio, Recife, Novembro de 2014.
Outline 1 Apresentação 2 Análise dos Componentes Principais 3 Análise de Fatores 4 Aplicação dos Componentes Principais 5 Conclusão
Considerações Na análise estatística, normalmente, se trabalha com variáveis que não são independentes uma das outras. Análise de componentes principais é elaborada para reduzir o número de variáveis que necessitam ser consideradas a um número menor de índices (chamados componentes principais) os quais são combinações lineares das variáveis originais. Análise de Fatores também tem como objetivo estudar a variação em uma quantidade de variáveis originais usando um número menor de variáveis índices ou fatores.
Representação Uma representação de possíveis componentes é dada por: I 1 = X 1 + X 2 + X 3 + X 4 + X 5 Outro Índice: I 1 = X 1 + X 2 + X 3 X 4 X 5 O segundo índice poderia ser responsável por representar outra dimensão.
Aspectos Hitóricos e Objetivo Historicamente, a análise dos principais componentes foi descrita por Karl Pearson (1901). É um dos métodos de análise multivariada mais simples? não estatístico. O objetivo é tonar p variáveis X 1,... X p e encontrar combinações destas para produzir índices Z 1,..., Z p que sejam não correlacionados na ordem de importância, e que descrevam a variância da maioria dos índices. A ordem dos índices é tal que VAR(Z 1 ) VAR(Z 2 ) VAR(Z p )
Procedimento 1 Codificando as variáveis para terem médias zero e variâncias unitárias. Isto é usual, mas é omitido em alguns casos em que se assume que a importância das vaiáveis é refletida em suas variâncias; 2 Calcular a matriz de covariância, ou de correlação se o passo 1 for feito; 3 Encontrar os autovetores e autovalores. 4 Descarte quaisquer componentes que explicam somente uma pequena proporção da variação nos dados.
Procedimento Inicialmente, tem-se dados de p variáveis para n indivíduos. O primeiro componente principal, pode ser representado como a combinação linear das p variáveis: Z 1 = a 11 X 1 + a 12 X 2 + a 13 X 3 +... a 1p X p Que vai variar tanto quanto possível para os indivíduos, sujeitos à condição de que a 2 11 + a2 12 + a2 13 +... a2 1p = 1 A restrição é imposta para garantir que a variância de Z 1 não aumente indefinidamente.
Procedimento Repete o procedimento para o segundo componente principal: Z 2 = a 21 X 1 + a 22 X 2 + a 23 X 3 +... a 2p X p Que vai variar tanto quanto possível para os indivíduos, sujeitos à condição de que a 2 21 + a2 22 + a2 23 +... a2 2p = 1 Além de que Z 1 e Z 2 tenham correlação zero para os dados. Segue-se então a construção dos p componentes principais de forma a garantir uma maior representação da variância ordenadas dos indivíduos. Porém, a forma de cálculo da determinação dos componentes principais é irrelevante. O que se precisa é o cálculo dos autovalores e autovetores da matriz de covariância (ou correlação).
Procedimento Repete o procedimento para o segundo componente principal: Z 2 = a 21 X 1 + a 22 X 2 + a 23 X 3 +... a 2p X p Que vai variar tanto quanto possível para os indivíduos, sujeitos à condição de que a 2 21 + a2 22 + a2 23 +... a2 2p = 1 Além de que Z 1 e Z 2 tenham correlação zero para os dados. Segue-se então a construção dos p componentes principais de forma a garantir uma maior representação da variância ordenadas dos indivíduos. Porém, a forma de cálculo da determinação dos componentes principais é irrelevante. O que se precisa é o cálculo dos autovalores e autovetores da matriz de covariância (ou correlação).
Procedimento A matriz de covariância das p variáveis é representado por c 11 c 12... c 1p c 21 c 22... c 2p C =...... c p1 c p2... c pp onde c ij é a covariância entre X i e X j. Codificando as variáveis C representa a matriz de correlação. A variância dos componentes principais são os autovalores da matriz C. Os autovetores correspondentes ao autovalor λ i definem os valores de (a i1, a i2, a i3,..., a ip ). Uma propriedade importante dos autovalores é λ 1 + λ 2 + + λ p = c 11 + c 22 + + c pp
Objetivo A análise de fatores tem o objetivo semelhante ao da análise de componentes principais. A diferença principal é que o método de análise de fator é baseado em um modelo estatístico. Desenvolvido inicialmente por Charles Spearman em 1904. Spearman observou em uma matriz de correlação entre escores de testes para meninos de uma escola preparatória a seguinte relação: que quaisquer duas linhas eram quase proporcionais se as diagonais fossem ignoradas.
Representação Spearman sugeriu que os escores fossem descritos pela equação X i = a i F i + e i onde X i é o i ésimo escore depois ter sido padronizado; a i é uma contante; F é um fator com média zero e variância 1; e e 1 é a pare de X i que é especifica para o i ésimo teste somente.
Resultados É fácil verificar que: Var(X i ) = Var(a i F + e i ) = Var(a i F) + Var(e i ) = a 2 i Vaf (F) + Var(e i) Tem-se, ainda, que = a 2 i + Var(e i ) 1 = a 2 i + Var(e i )
Resultados Pode-se, concluir que a i, chamada de carga do fator, é tal que seu quadrado é a proporção da variância de X i que está contida no fator. Spearman formulou sua teoria de dois fatores de testes mentais. De acordo com esta teoria, cada resultado do teste é composto de duas partes, uma que é comum a todos os testes (inteligência geral), e outras que é especifica para o teste.
Generalização O modelo de análise de fatores geral estabelece X i = a i1 F 1 + a i2 F 2 + + a im F m + e i onde F 1 a F m são fatores comuns não correlacionados, cada um com média zero e variância unitária.
Procedimento O procedimento para uma análise de fatores é descrito em termos de três estágios: Primeiro, cargas de fator provisórias são determinadas através do método de componentes principais. Segundo, as cargas são modificadas através de um método de rotação para facilitar a interpretação dos dados. Terceiro, escores de fator são calculados, os quais são fatores para os indivíduos que possuem os valores de X conhecidos.
Procedimento Na segunda etapa a rotação de fatores pode ser ortogonal (para dar fatores não correlacionados) ou oblíqua (para dar fatores correlacionados)
Avaliação da Venda de Terrenos - Sergipe Apesar da base de dados apresentar um n = 4401. A maioria das vaiáveis não são pelo menos ordinal. A aplicação a nível de ilustração será com cinco variáveis: 1 Renda média do chefe de família em salários mínimos; 2 Coordenada UTM X; 3 Coordenada UTM Y; 4 Infraestrutura (Agregação de serviços como: guias e sarjetas; iluminação; rede de energia; telefone; água potável; esgotamento; galeria de águas pluviais; e pavimentação.) 5 Frente.
Avaliação da Venda de Terrenos - Sergipe Apesar da base de dados apresentar um n = 4401. A maioria das vaiáveis não são pelo menos ordinal. A aplicação a nível de ilustração será com cinco variáveis: 1 Renda média do chefe de família em salários mínimos; 2 Coordenada UTM X; 3 Coordenada UTM Y; 4 Infraestrutura (Agregação de serviços como: guias e sarjetas; iluminação; rede de energia; telefone; água potável; esgotamento; galeria de águas pluviais; e pavimentação.) 5 Frente. A análise foi realizada com base na correlação.
Table: Autovalor CP Autovalor % Variância Autovalor % Acumulativo Total Acumulativo Z1 2,0179 40,3584 2,0179 40,3584 Z2 1,2159 24,3181 3,2338 64,6764 Z3 0,9868 19,7365 4,2206 84,4129 Z4 0,7792 15,5837 4,9998 99,9966 Z5 0,0002 0,0034 5,0000 100,0000
Table: Autovetores Z1 Z2 Z3 Z4 Z5 Renda (SM) - 0,0290 0,7094-0,0002 0,7042-0,0048 coordx - 0,7011 0,0317 0,0669-0,0559 0,7070 coordy - 0,7013 0,0201 0,0697-0,0540-0,7071 INFRA 0,0607 0,6905-0,1970-0,6933-0,0070 Frente 0,1104 0,1359 0,9756-0,1321 0,0007
Table: Contribuição da Variável baseado na correlação. Z1 Z2 Z3 Z4 Z5 Renda (SM) 0,0008 0,5033 0,0000 0,4959 0,0000 coordx 0,4915 0,0010 0,0045 0,0031 0,4999 coordy 0,4918 0,0004 0,0049 0,0029 0,5000 INFRA 0,0037 0,4768 0,0388 0,4806 0,0000 Frente 0,0122 0,0185 0,9519 0,0175 0,0000
O objetivo de redução do número de variáveis é possível. A importância dos métodos analisados se faz quando o número de variáveis é ainda maior, próximo de vinte, porém o número de fatores pode ser reduzido a três.