ESTATÍSTICA MULTIVARIADA 2º SEMESTRE 21 / 11 EXERCÍCIOS PRÁTICOS - CADERNO 5 Análise Factorial de Componentes Principais 26-4-11 5.1
5. ANÁLISE FACTORIAL DE COMPONENTES PRINCIPAIS 5.1. Admita 3 variáveis cuja matriz de variâncias / covariâncias é 1 S 2 2 5 2 a) Calcule as respectivas componentes principais e mostre que a sua variância total é igual à soma das variâncias das variáveis originais. b) Mostre que os factores são estatisticamente independentes. c) Qual a variância explicada pelos 2 primeiros factores? d) Calcule as covariâncias entre os 1º e 2º factores e X 1 e X 2. 5.2. Considere 2 variáveis cuja matriz de variâncias / covariâncias é 1 S 4 4 1 a) Obtenha as respectivas componentes principais, a variância explicada pelo primeiro factor e a correlação entre o 1º. factor e as duas variáveis. b) Construa agora a matriz R (das correlações) e use-a para o cálculo dos factores (o que, como sabe, equivale a utilizar as variáveis padronizadas). Calcule os respectivos factores, a variância explicada pelo 1º. e a sua correlação com as duas variáveis. Que conclusões pode tirar do efeito da padronização? 5.3. Construa os factores para as variáveis do exercício 4.1 a partir da respectiva matriz de correlações e compare com os obtidos anteriormente. 5.4. Considere a matriz de covariâncias 5 S 2 2 2 a) Calcule os respectivos factores e a proporção da variância total explicada pelo primeiro factor. b) Converta a matriz numa matriz de correlações e repita os seus cálculos comparando os factores e a variância explicada com os resultados anteriormente obtidos. Interprete. 26-4-11 5.2
5.5. Considere a matriz de covariâncias 2 S 4 4 Calcule os componentes principais e comente os resultados. 5.6. Sejam X1 as vendas e X2 os lucros das 1 maiores empresas industriais dos EUA: 62 39 X 2. 927. 15. 2 255. 76 5 S 255. 76 1 14. 3 a) Determine os componentes principais e as suas variâncias para estes dados. b) Qual a proporção da variância explicada pelo primeiro factor? c) Calcule e interprete as correlações entre o primeiro factor e as variáveis. 5.7. (Adaptado da Questão III no Exame Final de 3.JUN.99) Um seu colega está a estudar a relação que existe entre 5 títulos cotados na Bolsa de Nova York. Para isso recolheu as taxas de variação entre as cotações médias em cem semanas consecutivas para cada um dos títulos. Os valores recolhidos apresentam-se no ficheiro NYSE.SAV. A ideia do seu colega é a de construir um factor que sintetize a variabilidade do rendimento destes cinco títulos. Com a ajuda do SPSS: a) Comente o interesse do modelo e a possibilidade de realizar a análise proposta face aos pressupostos do modelo e aos resultados obtidos. b) O seu colega pede-lhe agora que determine os componentes principais para as variações de cotação dos títulos a partir das correlações entre elas. Qual a variância explicada por cada um dos possíveis factores? Quantos factores sugere que sejam extraídos? c) Determine e interprete os "loadings" do factor que mais explica a variabilidade das cotações e as comunalidades das variáveis na hipótese de extrair apenas um factor. d) Quais as vantagens e desvantagens de realizar uma rotação dos factores? Que rotação sugere? 26-4-11 5.3
5.8. (Este caso é uma adaptação do apresentado em Johnson et al (1998), Applied Multivariate Statistical Analysis", pg. 581.) Uma empresa pretende avaliar a qualidade da sua força de vendas para o que está a tentar encontrar um ou um conjunto de testes que possa revelar o potencial dos seus vendedores. Para isso seleccionou uma amostra de 5 vendedores e avaliou-os através de 3 medidas de performance: crescimento das vendas, rentabilidade das vendas e vendas a novos clientes. Cada uma destas variáveis foi reduzida a um índice onde o 1 indica a performance média. Pediu ainda a cada um dos 5 indivíduos para realizarem quatro testes, com o propósito de medir, respectivamente, a sua criatividade, rapidez de raciocínio, capacidade de abstracção e capacidades matemáticas. No Quadro 3.8 apresentam-se as medidas de performance e os resultados dos testes para os 5 vendedores. (dispõe destes dados no ficheiro VENDEDOR.SAV na área de servidor partilhada nesta cadeira). Com base nesta informação e utilizando o SPSS: a) Averigue da adequação da informação disponível para reduzir as variáveis por meio da Análise de Componentes Principais. b) Derive um conjunto de factores para estas variáveis, explique e fundamente a sua escolha e avalie da qualidade do modelo. c) Realize a rotação de factores que se lhe afigurar apropriada e interprete os factores. Que conclusões tira acerca da relevâncias das variáveis usadas para qualificar os vendedores? d) Que "score" (ou "scores") será atribuído a um novo vendedor que, para as sete variáveis em causa, apresenta os valores (11, 98, 15, 15, 18, 12, 35)? 26-4-11 5.4
Vendedor Crescimento das vendas Índices para Rentabilidade das vendas Vendas a novos clientes Criatividade Resultados dos testes Rapidez de raciocínio Capacidade de abstracção Capacidades matemáticas (X 1) (X 2) (X 3) (X 4) (X 5) (X 6) (X 7) 1 93. 96. 97.8 9 12 9 2 2 88.8 91.8 96.8 7 1 1 15 3 95. 1.3 99. 8 12 9 26 4 11.3 13.8 16.8 13 14 12 29 5 12. 17.8 13. 1 15 12 32 6 95.8 97.5 99.3 1 14 11 21 7 95.5 99.5 99. 9 12 9 25 8 11.8 122. 115.3 18 2 15 51 9 12.8 18.3 13.8 1 17 13 31 1 16.8 12.5 12. 14 18 11 39 11 13.3 19.8 14. 12 17 12 32 12 99.5 111.8 1.3 1 18 8 31 13 13.5 112.5 17. 16 17 11 34 14 99.5 15.5 12.3 8 1 11 34 15 1. 17. 12.8 13 1 8 34 16 81.5 93.5 95. 7 9 5 16 17 11.3 15.3 12.8 11 12 11 32 18 13.3 11.8 13.5 11 14 11 35 19 95.3 14.3 13. 5 14 13 3 2 99.5 15.3 16.3 17 17 11 27 21 88.5 95.3 95.8 1 12 7 15 22 99.3 115. 14.3 5 11 11 42 23 87.5 92.5 95.8 9 9 7 16 24 15.3 114. 15.3 12 15 12 37 25 17. 121. 19. 16 19 12 39 26 93.3 12. 97.8 1 15 7 23 27 16.8 118. 17.3 14 16 12 39 28 16.8 12. 14.8 1 16 11 49 29 92.3 9.8 99.8 8 1 13 17 3 16.3 121. 14.5 9 17 11 44 31 16. 119.5 11.5 18 15 1 43 32 88.3 92.8 96.8 13 11 8 1 33 96. 13.3 1.5 7 15 11 27 34 94.3 94.5 99. 1 12 11 19 35 16.5 121.5 11.5 18 17 1 42 36 16.5 115.5 17. 8 13 14 47 37 92. 99.5 13.5 18 16 8 18 38 12. 99.8 13.3 13 12 14 28 39 18.3 122.3 18.5 15 19 12 41 4 16.8 119. 16.8 14 2 12 37 41 12.5 19.3 13.8 9 17 13 32 42 92.5 12.5 99.3 13 15 6 23 43 12.8 113.8 16.8 17 2 1 32 44 83.3 87.3 96.3 1 5 9 15 45 94.8 11.8 99.8 7 16 11 24 46 13.5 112. 11.8 18 13 12 37 47 89.5 96. 97.3 7 15 11 14 48 84.3 89.8 94.3 8 8 8 9 49 14.3 19.5 16.5 14 12 12 36 5 16. 118.5 15. 12 16 11 39 Quadro 5.8. Dados sobre os 5 vendedores da empresa 26-4-11 5.5
5.9. (do teste de Estatística Multivariada de 25.Outubro.24) Em 198 um economista conhecido apresentou um estudo intitulado «Employment in European Countries» no qual tentava descortinar as componentes que justificavam a distribuição da população activa por sectores de actividades na Europa. Para isso recolheu as % de população activa para 26 países europeus (Fonte: Euromonitor, 1979) que se apresentam no Quadro1. As variáveis são as percentagens da população activa em cada um dos nove sectores considerados: X 1 AGR - Agriculture X 2 MIN - Mining X 3 MAN - Manufacturing X 4 PS - Power supplies X 5 CON - Construction X 6 SI - Service industries X 7 FIN - Finance X 8 SPS - Social & personal services X 9 TC - Transport & communications Country AGR MIN MAN PS CON SI FIN SPS TC Belgium Denmark France W.Germany Ireland Italy Luxembourg Netherlands U.K. Austria Finland Greece Norway Portugal Spain Sweden Switzerland Turkey Bulgaria Czechoslovakia E.Germany Hungary Poland Rumania USSR Yugoslavia 3.3 9.2 1.8 6.7 23.2 15.9 7.7 6.3 2.7 12.7 13. 41.4 9. 27.8 22.9 6.1 7.7 66.8 23.6 16.5 4.2 21.7 31.1 34.7 23.7 48.7.9.1.8 1.3 1..6 3.1.1 1.4 1.1.4.6.5.3.8.4.2.7 1.9 2.9 2.9 3.1 2.5 2.1 1.4 1.5 27.6 21.8 27.5 35.8 2.7 27.6 3.8 22.5 3.2 3.2 25.9 17.6 22.4 24.5 28.5 25.9 37.8 7.9 32.3 35.5 41.2 29.6 25.7 3.1 25.8 16.8.9.6.9.9 1.3.5.8 1. 1.4 1.4 1.3.6.8.6.7.8.8.1.6 1.2 1.3 1.9.9.6.6 1.1 8.2 8.3 8.9 7.3 7.5 1. 9.2 9.9 6.9 9. 7.4 8.1 8.6 8.4 11.5 7.2 9.5 2.8 7.9 8.7 7.6 8.2 8.4 8.7 9.2 4.9 19.1 14.6 16.8 14.4 16.8 18.1 18.5 18. 16.9 16.8 14.7 11.5 16.9 13.3 9.7 14.4 17.5 5.2 8. 9.2 11.2 9.4 7.5 5.9 6.1 6.4 6.2 6.5 6. 5. 2.8 1.6 4.6 6.8 5.7 4.9 5.5 2.4 4.7 2.7 8.5 6. 5.3 1.1.7.9 1.2.9.9 1.3.5 11.3 26.6 32.2 22.6 22.3 2.8 2.1 19.2 28.5 28.3 16.8 24.3 11. 27.6 16.7 11.8 32.4 15.4 11.9 18.2 17.9 22.1 17.2 16.1 11.7 23.6 5.3 7.2 7.1 5.7 6.1 6.1 5.7 6.2 6.8 6.4 7. 7.6 6.7 9.4 5.7 5.5 6.8 5.7 3.2 6.7 7. 8.4 8. 6.9 5. 9.3 4. Quadro 1 26-4-11 5.6
O economista efectuou com estes dados uma análise factorial de componentes principais tendo apresentado os resultados que veremos mais à frente. a) Um colega seu resolveu refazer a análise apresentada e começou por ponderar a possibilidade de aplicar Análise Factorial com base na matriz de covariâncias ou na matriz de correlações. Face à informação que se segue, que pode dizer da viabilidade de utilizar esta técnica e que opção recomendaria quanto à matriz a utilizar? Descriptive Statistics Mean Std. Deviation Analysis N AGR 19,131 15,5466 26 MIN 1,254,97 26 MAN 27,8 7,78 26 PS,98,3762 26 CON 8,165 1,6456 26 SI 12,958 4,5753 26 FIN 4, 2,866 26 SPS 2,23 6,8295 26 TC 6,546 1,3915 26 Correlation Matrix AGR MIN MAN PS CON SI FIN SPS TC Correlation AGR 1,,36 -,671 -,4 -,538 -,737 -,22 -,747 -,565 MIN,36 1,,445,45 -,26 -,397 -,443 -,281,157 MAN -,671,445 1,,385,494,24 -,156,154,351 PS -,4,45,385 1,,6,22,11,132,375 CON -,538 -,26,494,6 1,,356,16,158,388 SI -,737 -,397,24,22,356 1,,366,572,188 FIN -,22 -,443 -,156,11,16,366 1,,18 -,246 SPS -,747 -,281,154,132,158,572,18 1,,568 TC -,565,157,351,375,388,188 -,246,568 1, Sig. AGR,431,,21,2,,14,,1 (1-tailed) MIN,431,11,2,451,22,12,82,222 MAN,,11,26,5,159,224,226,4 PS,21,2,26,386,161,297,26,29 CON,2,451,5,386,37,469,22,25 SI,,22,159,161,37,33,1,179 FIN,14,12,224,297,469,33,3,113 SPS,,82,226,26,22,1,3,1 TC,1,222,4,29,25,179,113,1 26-4-11 5.7
KMO and Bartlett's Test Kaiser-Meyer-Olkin Measure of Sampling Adequacy.,134 Bartlett's Test of Sphericity Approx. Chi-Square 274,53 df 36 Sig., Anti-image Matrices Anti-image Covariance Anti-image Correlation AGR MIN MAN CON SI FIN SPS TC AGR 7,16E-5,1,,1,,,,1 MIN,1,18,2,11,4,6,3,12 MAN,,2,,1,1,1,,2 PS,2,35,5,23,8,13,5,24 CON,1,11,1,7,2,4,2,7 SI,,4,1,2,1,1,1,3 FIN,,6,1,4,1,2,1,4 SPS,,3,,2,1,1,,2 TC,1,12,2,7,3,4,2,9 AGR,235(a),975 1,,993,999,998,999,987 MIN,975,11(a),972,971,977,978,975,963 MAN 1,,972,14(a),991,998,998,999,987 PS,892,826,89,93,884,879,895,847 CON,993,971,991,99(a),99,99,994,971 SI,999,977,998,99,155(a),997,998,989 FIN,998,978,998,99,997,6(a),997,989 SPS,999,975,999,994,998,997,151(a),983 TC,987,963,987,971,989,989,983,136(a) a Measures of Sampling Adequacy(MSA) b) No seguimento, o seu colega obteve com o SPSS os quadros que se seguem e que correspondem aos resultados apresentados pelo referido economista: Communalities Initial Extraction AGR 1,,965 MIN 1, G MAN 1,,714 PS 1,,719 CON 1,,4 SI 1, H FIN 1,,837 SPS 1,,735 TC 1,,711 Extraction Method: Principal Component Analysis. 26-4-11 5.8
Eigenvalue Total Variance Explained Initial Eigenvalues Extraction Sums of Squared Loadings Component Total % of Variance Cumulative % Total % of Variance Cumulative % 1 A B B A B B 2 2,13 C D 2,13 C D 3 1,99 12,211 74,625 1,99 12,211 74,625 4,994 11,5 85,675 5,543 6,36 91,711 6,383 4,26 95,971 7,226 2,58 98,48 8,137 1,52 99,999 9 4,563E-5,1 1, Extraction Method: Principal Component Analysis. 4 Scree Plot 3 2 1 1 2 3 4 5 6 7 8 9 Component Num ber Component Matrix(a) Component 1 2 3 AGR -,978,78 -,51 MIN -,2,92,211 MAN E,518,158 PS,478 F,588 CON,67,75 -,161 SI,78 -,511,121 FIN,139 -,662,616 SPS,723 -,323 -,327 TC,685,296 -,393 Extraction Method: Principal Component Analysis. a 3 components extracted. 26-4-11 5.9
1) Quantos factores foram extraídos? Qual lhe parece que foi o critério adoptado para decidir esse número? Concorda com a decisão? 2) Complete o output calculando os valores de A a H. Justifique sempre com os cálculos que tiver de efectuar. 3) Como valida o modelo estimado? c) Qual a sua expectativa para os loadindgs se fosse extraído um quarto factor? Justifica-se? 26-4-11 5.1