EFEITOS DO ERRO AMOSTRAL NAS ESTIMATIVAS DOS PARÂMETROS DO MODELO FATORIAL ORTOGONAL

Transcrição

1 SACHIKO ARAKI LIRA EFEITOS DO ERRO AMOSTRAL NAS ESTIMATIVAS DOS PARÂMETROS DO MODELO FATORIAL ORTOGONAL Tese apresentada como requsto parcal à obtenção do grau de Doutora em Cêncas no Programa de Pós-Graduação em Métodos Numércos em Engenhara, dos Setores de Tecnologa e de Cêncas Exatas da Unversdade Federal do Paraná. Orentador: Prof. Dr. Anselmo Chaves Neto CURITIBA 008

2 Lra, Sachko Arak Efetos do erro amostral nas estmatvas dos parâmetros do modelo fatoral ortogonal / Sachko Arak Lra Curtba, p. Orentador: Anselmo Chaves Neto. Tese (Doutorado) - Programa de Pós-Graduação em Métodos Numércos em Engenhara, Setores de Tecnologa e de Cêncas Exatas Unversdade Federal do Paraná.. Análse fatoral.. Modelo fatoral ortogonal. 3. Smulação Monte Carlo. 4. Precsão relatva. 5. Erro total relatvo. I. Título. CDU

3

4 AGRADECIMENTOS Ao orentador Prof. Anselmo Chaves Neto, pela confança depostada em mm, pela motvação, pelo apoo, acompanhamento e orentação na realzação deste trabalho. Aos professores e colegas do Programa de Pós-Graduação em Métodos Numércos em Engenhara. À Marstela Bandl, do PPGMNE, sempre prestatva no atendmento da Secretara da Coordenação do curso. Ao Insttuto Paranaense de Desenvolvmento Econômco e Socal (IPARDES), pela lberação, durante o horáro das aulas, para o cumprmento dos crédtos. Aos amgos e colegas da Dretora de Estatístca do Ipardes, que compartlharam comgo os bons e maus momentos, durante város anos em que trabalhamos juntos. À Elane M. D. Mandu, pelo apoo nos momentos dfíces pelos quas passamos, no decorrer do desenvolvmento do projeto deste trabalho. À Estelta S. de Matas e Ana Rta B. Noguera, que me auxlaram na revsão e edtoração fnal do texto. Ao meu esposo Herbert, pela compreensão, pela pacênca, pelo carnho e apoo rrestrto, em todos os momentos. Sem o seu apoo, não tera consegudo atngr este objetvo. Aos meus flhos, Herbert Júnor e Bernard, pelo carnho, pela motvação e prncpalmente pela pacênca e compreensão da mportânca de mnha dedcação a este trabalho.

5 3 RESUMO O presente estudo tem como objetvo avalar os efetos do erro amostral nas estmatvas dos parâmetros do modelo fatoral ortogonal por componentes prncpas. A precsão das estmatvas fo avalada pelo coefcente de varação. As populações normas multvaradas foram geradas pelo Método de Smulação Monte Carlo. Para cada tamanho de amostra dmensonado, para estmar o vetor de médas populaconal, adotando-se nível de confança de 95% e margens de erros relatvos fxados em 5%, 0% e 5%, foram retradas.000 amostras aleatóras, com reposção. Outra medda avalada fo a raz quadrada do erro quadrátco médo relatva (erro total relatvo) das estmatvas. O estudo consderou todos os fatores (autovalores maores do que, defndo pelo Crtéro de Kaser). Optou-se por utlzar o maor coefcente de varação e a maor raz quadrada do erro quadrátco médo relatva das estmatvas, pos, para cada modelo fatoral estmado, têm-se dferentes números de componentes (fatores e varáves). Desta forma, está-se avalando a menor precsão e o maor erro total relatvos das estmatvas. Ajustaram-se os modelos de regressão lnear múltpla para analsar a relação exstente entre coefcente de varação e raz quadrada do erro quadrátco médo relatva, com as varáves explcatvas: estmatvas dos autovalores, autovetores, cargas fatoras e comunaldades, tamanhos de amostra, números de varáves e de fatores e estmatva da explcação dos fatores. Todas as varáves explcatvas são determnantes na precsão das estmatvas. Em stuações cujas estmatvas são pequenas, tanto o coefcente de varação quanto a raz quadrada do erro quadrátco médo relatva são grandes. Constatou-se a exstênca de vés nas estmatvas, sendo consderavelmente maor nos autovetores e cargas fatoras, prncpalmente quando o número de varáves é grande. A medda ndcada para avalar a qualdade das estmatvas do modelo fatoral ortogonal é erro total relatvo, ou a raz quadrada do erro quadrátco médo relatva. Palavras-chave: Análse Fatoral; Modelo Fatoral Ortogonal; Smulação Monte Carlo; Precsão relatva; Erro total relatvo.

6 4 ABSTRACT The present study ams at assessng samplng error effects on the estmates of Orthogonal Factor Model parameters based on the Prncpal Components Method. Estmate precson was assessed through the coeffcent of varaton. We also produced multvarate normal populatons through the Monte Carlo Smulaton Method. In order to estmate the mean populaton vector, t was used a 95% confdence level and 5%, 0% and 5% margn of relatve error for each sample dmensoned sze. The study selected.000 samples wth replacement randomly. Ths work also assessed the relatve root mean square error (relatve total error) of the estmates and took nto consderaton every factor (egenvalue hgher than ), as defned by the Kaser Crteron. We chose to use the hghest coeffcent of varaton and the relatve root mean square error (relatve total error) of the estmates, snce each factor model estmated has a dfferent number of components (factor and varables), thus we assessed the estmate least precson. Multple Lnear Regresson models were adjusted so that the study could analyze the relaton between the coeffcent of varaton and the relatve root mean square error (relatve total error), wth the followng explanatory varables: egenvalue estmates, egenvectors, factor loads and communaltes, sample szes, varable and factor number, and factor explanaton estmates. All the explanatory varables are essental for the precson of the estmates. In stuatons where estmates are low, both the coeffcent of varaton and the relatve root mean square error (relatve total error) are relatvely hgh. In the estmates there was evdence of bas, whch was consderably hgher n the egenvectors and factor loads, manly when number of varables s large. Relatve total error, or relatve root mean square error (relatve total error), s the best measurement to asses the estmates of Orthogonal Factor Model parameters. Key-words: Factor Analyss; Orthogonal Factor Model; Monte Carlo Smulaton; Relatve Precson; Relatve Total Error.

7 5 LISTA DE QUADROS - TAMANHOS DE AMOSTRAS PARA DIFERENTES ERROS RELATIVOS E NÍVEL DE CONFIANÇA DE 95%, SEGUNDO VARIÁVEIS AUTOVALORES, AUTOVETORES, CARGAS FATORIAIS E COMUNALIDADES DO MODELO FATORIAL ORTOGONAL ESTIMATIVAS DOS AUTOVALORES, VIÉS, VARIÂNCIA E ERRO QUADRÁTICO MÉDIO, SEGUNDO TAMANHOS DE AMOSTRAS ESTIMATIVAS DOS AUTOVETORES, VIÉS, VARIÂNCIA E ERRO QUADRÁTICO MÉDIO, SEGUNDO TAMANHOS DE AMOSTRAS ESTIMATIVAS DAS CARGAS FATORIAIS, VIÉS, VARIÂNCIA E ERRO QUADRÁTICO MÉDIO, SEGUNDO TAMANHOS DE AMOSTRAS ESTIMATIVAS DAS COMUNALIDADES, VIÉS, VARIÂNCIA E ERRO QUADRÁTICO MÉDIO, SEGUNDO TAMANHOS DE AMOSTRAS COEFICIENTE DE VARIAÇÃO E RAIZ QUADRADA DO ERRO QUADRÁTICO MÉDIO RELATIVA DAS ESTIMATIVAS DOS AUTOVALORES, SEGUNDO TAMANHOS DE AMOSTRAS COEFICIENTE DE VARIAÇÃO E RAIZ QUADRADA DO ERRO QUADRÁTICO MÉDIO RELATIVA DAS ESTIMATIVAS DOS AUTOVETORES, SEGUNDO VARIÁVEIS COEFICIENTE DE VARIAÇÃO E RAIZ QUADRADA DO ERRO QUADRÁTICO MÉDIO RELATIVA DAS ESTIMATIVAS DAS CARGAS FATORIAIS, SEGUNDO VARIÁVEIS COEFICIENTES DE VARIAÇÃO E RAÍZES QUADRADAS DO ERRO QUADRÁTICO MÉDIO RELATIVAS DAS ESTIMATIVAS DAS COMUNALIDADES, SEGUNDO VARIÁVEIS DESCRIÇÃO DAS VARIÁVEIS VALORES MÍNIMO, PERCENTIL 5, MEDIANA, PERCENTIL 75 E MÁXIMO, SEGUNDO VARIÁVEIS ESTIMATIVAS DOS COEFICIENTES DE REGRESSÃO, ERRO PADRÃO, ESTATÍSTICAS t E F, VALOR-p E COEFICIENTE DE DETERMINAÇÃO DO MODELO AJUSTADO PARA O MAIOR COEFICIENTE DE VARIAÇÃO DOS AUTOVALORES ESTIMADOS ESTIMATIVAS DOS COEFICIENTES DE REGRESSÃO, ERRO PADRÃO, ESTATÍSTICAS t E F, VALOR-p E COEFICIENTE DE DETERMINAÇÃO DO MODELO AJUSTADO PARA A MAIOR RAIZ QUADRADA DO ERRO QUADRÁTICO MÉDIO RELATIVA DOS AUTOVALORES ESTIMADOS ESTIMATIVAS DOS COEFICIENTES DE REGRESSÃO, ERRO PADRÃO, ESTATÍSTICAS t E F, VALOR-p E COEFICIENTE DE DETERMINAÇÃO DO MODELO

8 6 AJUSTADO PARA O MAIOR COEFICIENTE DE VARIAÇÃO DOS AUTOVETORES ESTIMADOS ESTIMATIVAS DOS COEFICIENTES DE REGRESSÃO, ERRO PADRÃO, ESTATÍSTICAS t E F, VALOR-p E COEFICIENTE DE DETERMINAÇÃO DO MODELO AJUSTADO PARA A MAIOR RAIZ QUADRADA DO ERRO QUADRÁTICO MÉDIO RELATIVA DOS AUTOVETORES ESTIMADOS ESTIMATIVAS DOS COEFICIENTES DE REGRESSÃO, ERRO PADRÃO, ESTATÍSTICAS t E F, VALOR-p E COEFICIENTE DE DETERMINAÇÃO DO MODELO AJUSTADO PARA O MAIOR COEFICIENTE DE VARIAÇÃO DAS CARGAS FATORIAIS ESTIMADAS ESTIMATIVAS DOS COEFICIENTES DE REGRESSÃO, ERRO PADRÃO, ESTATÍSTICAS t E F, VALOR-p E COEFICIENTE DE DETERMINAÇÃO DO MODELO AJUSTADO PARA A MAIOR RAIZ QUADRADA DO ERRO QUADRÁTICO MÉDIO RELATIVA DAS CARGAS FATORIAIS ESTIMADAS ESTIMATIVAS DOS COEFICIENTES DE REGRESSÃO, ERRO PADRÃO, ESTATÍSTICAS t E F, VALOR-p E COEFICIENTE DE DETERMINAÇÃO DO MODELO AJUSTADO PARA O MAIOR COEFICIENTE DE VARIAÇÃO DAS COMUNALIDADES ESTIMADAS ESTIMATIVAS DOS COEFICIENTES DE REGRESSÃO, ERRO PADRÃO, ESTATÍSTICAS t E F, VALOR-p E COEFICIENTE DE DETERMINAÇÃO DO MODELO AJUSTADO PARA A MAIOR RAIZ QUADRADA DO ERRO QUADRÁTICO MÉDIO RELATIVA DAS COMUNALIDADES ESTIMADAS... - MODELOS AJUSTADOS PARA O MAIOR COEFICIENTE DE VARIAÇÃO E A MAIOR RAIZ QUADRADA DO ERRO QUADRÁTICO MÉDIO RELATIVA E OS COEFICIENTES DE DETERMINAÇÃO, SEGUNDO OS ESTIMADORES DO MODELO FATORIAL ORTOGONAL... 4

9 7 SUMÁRIO INTRODUÇÃO.... JUSTIFICATIVA OBJETIVOS Objetvo Geral Objetvos Específcos... 4 REVISÃO DE LITERATURA PRECISÃO E ACURÁCIA DAS ESTIMATIVAS AUTOVALORES E AUTOVETORES DA MATRIZ QUADRADA TEOREMA DA DECOMPOSIÇÃO ESPECTRAL JACOBIANO DA MATRIZ DE TRANSFORMAÇÃO Propredades do Jacobano....5 DISTRIBUIÇÃO NORMAL MULTIVARIADA Função Densdade de Probabldade Propredades da Dstrbução Normal Multvarada Estmadores de Máxma Verossmlhança da Dstrbução Normal Multvarada Estmadores não Vesados da Dstrbução Normal Multvarada Dstrbução Amostral de X e S Avalação da Suposção de Normaldade (Gaussandade) Inferênca sobre Vetor de Médas Regão de Confança com Largura Fxa MÉTODO DE MONTE CARLO ANÁLISE DE REGRESSÃO LINEAR MÚLTIPLA Estmação pelo Método dos Mínmos Quadrados Inferênca sobre os Parâmetros de Regressão Teste para o Relaconamento Modelável por Regressão TESTES PARA AVALIAR AS SUPOSIÇÕES SOBRE A COMPONENTE ERRO Teste de Multcolneardade Teste de Homogenedade de Varânca Teste de Gaussandade de Kolmogorov-Smrnov com Correção de Lllefors... 56

10 8.9 IDENTIFICAÇÃO DOS OUTLIERS E PONTOS INFLUENTES Resíduos Studentzados Externamente Pontos de Alavanca ou de Alto Leverage Medda de Influênca ANÁLISE FATORIAL INTRODUÇÃO MODELO FATORIAL ORTOGONAL MÉTODO DA MÁXIMA VEROSSIMILHANÇA Teste para o Número de Fatores Comuns em Grandes Amostras MÉTODO DAS COMPONENTES PRINCIPAIS Análse Fatoral para População Análse Fatoral para Amostra NÚMERO DE FATORES Número de Fatores Defndo com Base no Grau de Explcação dos Autovalores Estmados Número de Fatores Defndo com Base no Crtéro de Kaser ROTAÇÃO DOS FATORES ESCORES FATORIAIS Método dos Mínmos Quadrados Ponderados Método da Regressão SIGNIFICÂNCIA ESTATÍSTICA DA MATRIZ DE CORRELAÇÃO Teste de Esfercdade de Bartlett Medda de Adequabldade da Amostra de Kaser-Meyer-Olkn MATERIAL E MÉTODO MÉTODO DE DETERMINAÇÃO DA POPULAÇÃO População Normal Multvarada com 5 Varáves MÉTODO DE OBTENÇÃO DAS AMOSTRAS MÉTODO DE AVALIAÇÃO DAS ESTIMATIVAS DOS PARÂMETROS DO MODELO FATORIAL ORTOGONAL RESULTADOS E DISCUSSÃO APLICAÇÃO DA ANÁLISE FATORIAL EM DADOS POPULACIONAIS APLICAÇÃO DA ANÁLISE FATORIAL EM DADOS AMOSTRAIS... 93

11 9 5.. Coefcente de Varação e Raz Quadrada do Erro Quadrátco Médo Relatva das Estmatvas dos Autovalores Coefcente de Varação e Raz Quadrada do Erro Quadrátco Médo Relatva das Estmatvas dos Autovetores Coefcente de Varação e Raz Quadrada do Erro Quadrátco Médo Relatva das Estmatvas das Cargas Fatoras Coefcente de Varação e Raz Quadrada do Erro Quadrátco Médo Relatva, das Estmatvas das Comunaldades ANÁLISE DO COEFICIENTE DE VARIAÇÃO E RAIZ QUADRADA DO ERRO QUADRÁTICO MÉDIO RELATIVA DAS ESTIMATIVAS DOS AUTOVALORES Coefcente de Varação das Estmatvas dos Autovalores Raz Quadrada do Erro Quadrátco Médo Relatva das Estmatvas dos Autovalores ANÁLISE DO COEFICIENTE DE VARIAÇÃO E RAIZ QUADRADA DO ERRO QUADRÁTICO MÉDIO RELATIVA DAS ESTIMATIVAS DOS AUTOVETORES Coefcente de Varação das Estmatvas dos Autovetores Raz Quadrada do Erro Quadrátco Médo Relatva das Estmatvas dos Autovetores ANÁLISE DO COEFICIENTE DE VARIAÇÃO E RAIZ QUADRADA DO ERRO QUADRÁTICO MÉDIO RELATIVA DAS ESTIMATIVAS DAS CARGAS FATORIAIS Coefcente de Varação das Cargas Fatoras Estmadas Raz Quadrada do Erro Quadrátco Médo Relatva das Cargas Fatoras Estmadas ANÁLISE DO COEFICIENTE DE VARIAÇÃO E RAIZ QUADRADA DO ERRO QUADRÁTICO MÉDIO RELATIVA DAS ESTIMATIVAS DAS COMUNALIDADES Coefcente de Varação das Estmatvas das Comunaldades Raz Quadrada do Erro Quadrátco Médo Relatva das Estmatvas das Comunaldades MODELOS AJUSTADOS PARA O MAIOR COEFICIENTE DE VARIAÇÃO E MAIOR RAIZ QUADRADA DO ERRO QUADRÁTICO MÉDIO RELATIVA DAS ESTIMATIVAS DOS AUTOVALORES, AUTOVETORES, CARGAS FATORIAIS E COMUNALIDADES... 3

12 0 CONCLUSÕES E RECOMENDAÇÕES... 7 REFERÊNCIAS... 9 BIBLIOGRAFIAS CONSULTADAS... APÊNDICE - PARÂMETROS PARA SIMULAÇÃO MONTE CARLO... 3 APÊNDICE - TESTE DE ESFERICIDADE DE BARTLETT E ESTATÍSTICA DE ADEQUABILIDADE DA AMOSTRA (MSA)... 5 APÊNDICE 3 - SCRIPTS DO SISTEMA R APÊNDICE 4 - MATRIZES DE CORRELAÇÃO DAS POPULAÇÕES 7 E 5 E DAS RESPECTIVAS AMOSTRAS APÊNDICE 5 - MAIORES COEFICIENTES DE VARIAÇÃO E MAIORES RAÍZES QUADRADAS DO ERRO QUADRÁTICO MÉDIO RELATIVAS E AS RESPECTIVAS ESTIMATIVAS DOS AUTOVALORES, AUTOVETORES, CARGAS FATORIAIS E COMUNALIDADES APÊNDICE 6 - MÉDIA E DESVIO PADRÃO DAS VARIÁVEIS DOS MODELOS AJUSTADOS APÊNDICE 7 - AVALIAÇÃO DAS SUPOSIÇÕES DO MODELO DE REGRESSÃO LINEAR MÚLTIPLA E IDENTIFICAÇÃO DE OUTLIERS E PONTOS INFLUENTES... 8 APÊNDICE 8 - AUTOVALOR, FORMA QUADRÁTICA E PROPRIEDADE DOS DETERMINANTES... 9

13 INTRODUÇÃO A Análse Fatoral é, atualmente, aplcada nas dversas áreas do conhecmento. É partcularmente útl na área das Engenharas, com aplcações muto mportantes na Engenhara de Produção (MÜLLER e CHAVES NETO, 007; ZANELLA et al., 007), na Engenhara Agrícola e Ambental (KURTZ et al., 00; FURTADO et al., 003; BRITO et al., 006 e GIRÃO et al., 007), entre outras. Isto se deve à sua grande utldade, que permte descrever a estrutura de covarânca dos relaconamentos exstentes entre mutas varáves, por meo de um número menor de fatores. Os fatores são combnações lneares das varáves orgnas, podendo ser correlaconados (fatores oblíquos) ou não (fatores ortogonas), de manera a conservar o máxmo das nformações orgnas. Devdo à complexdade não só da Análse Fatoral, mas das demas técncas da Análse Multvarada, a teora da Estatístca Inferencal tem sdo pouco desenvolvda neste campo. O presente trabalho tem por objetvo avalar a precsão das estmatvas dos parâmetros do modelo fatoral ortogonal. Utlzou-se o Método das Componentes Prncpas para estmar os carregamentos (pesos) dos fatores e defnu-se o número de fatores pelo Crtéro de Kaser. A estmação da matrz das cargas fatoras, L, pelo Método das Componentes Prncpas, necessta das estmatvas da matrz dagonal dos autovalores Λ e da matrz ortogonal dos autovetores P. Outro elemento a ser estmado, que é mportante na decsão da escolha das varáves que permanecerão m no modelo, é a soma dos quadrados das cargas fatoras estmadas, ˆl, para cada varável. Este valor é conhecdo como comunaldade. Foram consderados, neste trabalho, todos os fatores (autovalores maores que, pelo Crtéro de Kaser) defndos para o modelo, possbltando, desta forma, conhecer a precsão real das estmatvas. O que ocorre, normalmente, é consderar =

14 os fatores mas mportantes, ou seja, que explcam a maor proporção da varânca total. No entanto, os demas são também componentes do modelo e, portanto, sujetos aos erros amostras. Defnu-se o número de varáves p entre 5 e 0, e então foram geradas as populações normas multvaradas, pelo Método de Monte Carlo, utlzando-se dos parâmetros prevamente defndos. A partr destas populações, retraram-se.000 amostras aleatóras smples, com reposção, de dferentes tamanhos. Adotou-se os tamanhos de amostras para estmar o vetor de médas populaconal, com nível de confança de 95% e margens de erros relatvos de 5%, 0% e 5%. Os tamanhos das amostras n varam entre 4 e 984, assm a razão entre o tamanho da amostra e o número de varáves n p está compreendda entre 3,7 e 49,5. O presente estudo traz contrbuções mportantes para os pequsadores e profssonas que utlzam a Análse Fatoral no desenvolvmento de suas pesqusas, no tocante à questão do erro amostral nas estmatvas dos autovalores, autovetores, cargas fatoras e comunaldades. O trabalho está estruturado em 5 capítulos. Além desta ntrodução, onde constam a justfcatva e os objetvos deste estudo, tem-se mas quatro capítulos. No capítulo apresenta-se uma revsão de lteratura, onde se comentam trabalhos sobre as estmatvas das cargas fatoras do modelo fatoral ortogonal pelo Método das Componentes Prncpas, entre outros. Também é feta uma revsão de concetos e defnções fundamentas ao desenvolvmento da metodologa deste estudo. No capítulo 3 apresenta-se a metodologa da Análse Fatoral, bem como o teste para avalar a sgnfcânca estatístca da matrz de correlação e medda de adequabldade da amostra, para aplcação do método. O capítulo 4 traz o método de determnação das populações (unversos) e obtenção das amostras, além da Análse de Regressão Lnear Múltpla, utlzada para o ajuste dos modelos matemátcos.

15 3 No capítulo 5 são apresentados os modelos matemátcos que relaconam o coefcente de varação e raz quadrada do erro quadrátco médo relatva das estmatvas dos parâmetros do modelo fatoral ortogonal, com as varáves explcatvas: estmatvas dos parâmetros, tamanho da amostra, número de varáves, número de fatores e estmatva da explcação dos fatores. Fnalmente, apresentamse a conclusão e sugestões para pesqusas futuras.. JUSTIFICATIVA O emprego da Análse Fatoral na área das Engenharas está se tornando mperatvo na resolução de alguns problemas. É possível ctar o caso da dentfcação de nstrumentos noperantes na barragem da Usna Hdrelétrca de Itapu (VILLWOCK et al., 007). Anda, as metodologas de classfcação (ranqueamento) de áreas especalmente protegdas, na Engenhara Ambental (FURTADO et al., 003), e de fornecedores, na Engenhara de Produção (MÜLLER e CHAVES NETO, 007). Então, em análses que envolvem dados amostras é fundamental conhecer a precsão das estmatvas assocada ao tamanho da amostra. E, apesar das preocupações com essa questão da Análse Fatoral, anda são poucos os trabalhos desenvolvdos sobre o tema. Dferentes autores dscutem a mportânca tanto do tamanho da amostra, quanto do número de fatores, no modelo, mas não exste consenso quanto aos números deas. Assm, estudos sobre esse tema são mprescndíves. Segundo FABRIGAR et al. (999), apesar das atuas facldades computaconas, para se utlzar a Análse Fatoral é necessáro que o pesqusador tome decsões mportantes com relação a algumas questões metodológcas. Entre elas, está a defnção do tamanho da amostra e do número de fatores a serem ncluídos no modelo. Dante dessas consderações e da necessdade de estudos que possam trazer contrbuções para a solução dessas questões, pretende-se, neste trabalho, avalar os efetos do tamanho da amostra, do número de varáves, do número de

16 4 fatores e da estmatva da explcação dos fatores na precsão e no erro total dos autovalores, autovetores, cargas fatoras e comunaldades, estmados pelo Modelo Fatoral Ortogonal, utlzando o Método das Componentes Prncpas. A medda de precsão utlzada fo o coefcente de varação e, do erro total relatvo, a raz quadrada do erro quadrátco médo relatva.. OBJETIVOS.. Objetvo Geral Este trabalho tem como objetvo geral avalar a precsão das estmatvas dos parâmetros do modelo fatoral ortogonal, que são: autovalores, autovetores, cargas fatoras e comunaldades... Objetvos Específcos Os objetvos específcos são: a) ajustar um modelo para estmar a precsão das estmatvas, medda pelo coefcente de varação, dos parâmetros do Modelo Fatoral Ortogonal, em função das varáves explcatvas: estmatvas dos parâmetros, tamanhos de amostra, estmatva da explcação dos fatores, número de varáves e número de fatores; b) ajustar um modelo para estmar o erro total relatvo das estmatvas, meddo pela raz quadrada do erro quadrátco médo relatva dos parâmetros do Modelo Fatoral Ortogonal, em função das varáves explcatvas: estmatvas dos parâmetros, tamanhos de amostra, estmatva da explcação dos fatores, número de varáves e número de fatores; c) propor a melhor medda para avalar a qualdade das estmatvas dos autovalores, autovetores, cargas fatoras e comunaldades.

17 5 REVISÃO DE LITERATURA. PRECISÃO E ACURÁCIA DAS ESTIMATIVAS Os resultados de levantamentos por amostragem estão sempre sujetos a um certo grau de ncerteza, pos apenas uma parte da população é avalada, devendo-se consderar, também, erros de medda (COCHRAN, 977). Essa ncerteza pode ser reduzda à medda que se aumenta o tamanho da amostra e utlzam-se melhores nstrumentos de medda. A qualdade da estmatva pode ser avalada através do erro quadrátco médo, apresentado na defnção.. Defnção.: Seja o parâmetro θ e o seu estmador θˆ. Então, uma medda do desempenho de θˆ é dada por: EQM ( θˆ ) θˆ θ = E( ) (.) O erro quadrátco médo pode ser expresso em uma forma que evdence as duas componentes da varabldade dos dados, ou seja, a varânca do estmador (para a precsão) e o víco do estmador (para a acuráca). Resultado.: O erro quadrátco médo, apresentado na defnção., pode ser expresso como sendo: EQM ( θ ˆ ) = V ( θˆ ) + b ( θˆ ). Prova: Tem-se da defnção. que o erro quadrátco médo é dado por: EQM ( θˆ ) = E( θˆ θ )

18 6 Assm, subtrando e adconando E( ˆθ ), na expressão anteror, tem-se: [ θˆ E( θˆ ) + E( θˆ ) θ ] EQM ( θˆ ) = E (.) EQM ( θˆ ) θˆ θˆ θˆ θ = E( E( )) + (E( ) ) (.3) EQM ( θ ˆ ) = V ( θˆ ) + b ( θˆ ) (.4) em que: V ( ˆθ ) é a varânca da dstrbução amostral do estmador θˆ (precsão); b( ˆθ ) é o vés do estmador θˆ (acuráca). A raz quadrada da varânca da dstrbução amostral do estmador é chamada de erro padrão EP( ˆθ ) e ndca a precsão das estmatvas. O erro padrão mede o erro de natureza aleatóra, nerente ao processo de amostragem, ou seja, o erro amostral. Quanto menor o erro padrão, maor será a precsão das estmatvas obtdas. Em algumas stuações, é útl consderar meddas relatvas de varação, ao nvés das absolutas, prncpalmente quando as undades de medda dfcultam as comparações (KISH, 965). Uma medda relatva comum é o coefcente de varação CV( θ ˆ ). Assm, a precsão relatva pode ser avalada por: V ( ˆ ) EP( ˆ ) CV ( ˆ θ θ θ ) = = (.5) E( θˆ ) E( θˆ ) De acordo com KISH (965) e SILVA (998), a raz quadrada do erro quadrátco médo é denomnada de erro total ( ET ). Sua expressão é: ET = V ( θ ˆ ) + b ( θˆ ) (.6) O erro total (ET) é uma medda que nclu o vés (víco) e a varânca. Portanto, quando o vés não for desprezível, o erro total é melhor do que a varânca como medda para avalar as estmatvas.

19 7 A determnação da precsão desejada pode ser feta através da quantdade de erro que se dspõe a acetar nas estmatvas amostras. Esta quantdade é defnda de acordo com a utlzação que se pretende fazer da estmatva. Na análse fatoral, poucos são os estudos envolvendo a Inferênca Estatístca. A aplcação de concetos e técncas da Estatístca nferencal tem sdo pequena (CLIFF e HAMBURGER, 967). Segundo COSTA (006), não exstem testes adequados para a comprovação da sgnfcânca estatístca, na Análse Fatoral, devdo à dfculdade de especfcação dos parâmetros teórcos dos modelos de dstrbução por amostragem, das estatístcas envolvdas. Os estatístcos, engenheros e outros profssonas têm lutado durante décadas com a questão do tamanho da amostra na Análse Fatoral e Análse de Componentes Prncpas. Alguns se preocupam com o tamanho da amostra ( n) e outros com a razão entre o número de observações (tamanho da amostra) e o de varáves (p ) (OSBORNE e COSTELLO, 004). Anda, de acordo com os autores, amostras grandes são melhores do que as pequenas, pos as prmeras tendem a mnmzar a probabldade de erros, maxmzar a acuráca das estmatvas e aumentar as possbldades de generalzação dos resultados. Segundo HAIR et al. (998), na Análse Fatoral a amostra não deve ter menos do que 50 observações e preferencalmente deve ser maor do que 00. Como regra geral, o número de observações deve ser, no mínmo, 5 vezes o número de varáves em análse, e o mas acetável é a razão de dez para uma, ou seja, o número de observações deve ser 0 vezes o número de varáves. Alguns propõem um mínmo de 0 observações para cada varável. Nota-se que os crtéros varam muto. De acordo com FABRIGAR et al. (999), quando cada fator é representado por 3 ou 4 varáves e as comunaldades são altas, podem ser obtdas boas estmatvas mesmo com amostras pequenas, como as de tamanho gual a 00. Entretanto, em condções mas moderadas, pode ser necessáro o uso de amostras

20 8 de pelo menos 00 observações. Quando se tem mutas varáves e comunaldades moderadas, é possível que mesmo amostras de tamanho grande, como, por exemplo, entre 400 e 800, não sejam sufcentes. A utlzação da Análse Fatoral requer a defnção de outros crtéros, além da questão do tamanho da amostra e número de varáves. Um deles é quanto ao número de fatores a serem consderados, que é uma decsão mportante. Se adotado o método das Componentes Prncpas, faz-se necessáro estmar os pares de autovalores-autovetores, cujas dstrbuções para grandes amostras estão apresentadas em JOHNSON e WICHERN (988). A partr das estmatvas dos pares de autovalores-autovetores obtêm-se as cargas fatoras, que são as correlações de cada varável com o fator. CLIFF e HAMBURGER (967) apresentam algumas evdêncas dos erros amostras, nas estmatvas das cargas fatoras, sem e com a rotação dos fatores, utlzando o Método de Smulação Monte Carlo. No estudo desenvolvdo por um dos autores, observou-se vés grande nas estmatvas das cargas fatoras. Ocorreram tendêncas de váras subestmações, prncpalmente para as cargas fatoras maores. Recentemente, COSTA (006) utlzou os procedmentos jackknfe e booststrap para estabelecer um crtéro para sgnfcânca das cargas fatoras. Em seu estudo, obteve o vés, a varânca e o erro quadrátco médo das cargas fatoras, para os prmeros dos fatores. A partr destes resultados, construu os ntervalos de confança e testes de hpóteses para as estmatvas obtdas.. AUTOVALORES E AUTOVETORES DA MATRIZ QUADRADA escalares Sejam,..., A p x p uma matrz quadrada e p x p λ, λ λ satsfazendo à equação polnomal p Ι a matrz dentdade. Então os q ( λ ) = A λ Ι = 0 (.7) são chamados de autovalores (ou raízes característcas) da matrz A.

21 9 A equação q ( λ ) = A λ Ι = 0 (como uma função de λ) é chamada de equação característca. E, para cada autovalor λ, exste um autovetor (vetor característco) correspondente x 0 que satsfaz A x = λ x. Em geral obtém-se o autovetor padronzado, dada a ndetermnação do sstema de equações no cálculo dos componentes do autovetor, ou seja, com comprmento untáro. Assm, se x A x = λ x, faz-se e =, tendo o autovetor correspondente de λ. x x Tem-se que o coefcente de p λ em ( ) q λ é gual a p ( ), logo é possível escrever q( λ ) em termos de suas raízes, na forma: p q ( λ ) = ( λ λ ) (.8) = e gualando as expressões (.7) e (.8) e com λ = 0, tem-se: A λ (.9) = p = De forma que o determnante de A é gual ao produto dos autovalores de A. De manera semelhante, a soma dos autovalores da matrz A é gual ao traço de A, representado por: p = p λ a = tr A = (.0) =.3 TEOREMA DA DECOMPOSIÇÃO ESPECTRAL O teorema da decomposção espectral ou da decomposção de Jordan tem grande mportânca nas técncas de Análse Multvarada. Sendo assm, é apresentado a segur. Resultado.: Qualquer matrz smétrca A (p p) pode ser escrta como

22 0 p A = Γ Λ Γ = λ γ γ (.) = onde Λ é a matrz dagonal dos autovalores ( λ ) de A e Γ é uma matrz ortogonal cujas colunas são os autovetores padronzados ( γ ). Prova: que Aγ = λ γ Suponha que seja possível encontrar vetores ortonormas, para algum valor λ. Então γ, γ γ tal,..., p γ A γ j = λ j γ γ j λ, = j = 0, j (.) ou na forma matrcal Γ A Γ = Λ (.3) Pré e pós multplcando a expressão (.3) por Γ e Γ, respectvamente, tem-se: Γ Γ A Γ Γ = Γ Λ Γ (.4) A = Γ Λ Γ (.5) Tem-se, neste caso, que A e Λ têm os mesmos autovalores, conforme mostra a expressão A.8., do apêndce 8. Então, os elementos de Λ são exatamente os autovalores de A com as mesmas multplcdades. É precso achar bases ortonormas dos autovetores. Note que, se λ λ j são autovalores dstntos, com autovetores x e y, respectvamente, então λ x y = x Ay = y Ax = λ y x, de modo que y x = 0. Portanto, para a matrz smétrca, autovetores correspondendo a autovalores dstntos são ortogonas entre s. Supondo que exstem k autovalores dstntos de A com autoespaços correspondentes H,H,..., Hk de dmensões,r,..., rk r.

23 Seja r (.6) = k r j j= Já que dstntos autoespaços são ortogonas, exste um conjunto ortonormal de vetores e,e,..., er, tal que os vetores denomnados j = j r +,..., r (.7) = formam uma base para H j. Tem-se que r j é menor ou gual à multplcdade do autovalor correspondente, conforme apresentado em MARDIA, KENT e BIBBY (98, p.467): seja λ um autovalor partcular de A p x p dmensão r. Se k representa a multplcdade de λ em H, então, com autoespaço H de r k. Portanto, reordenando os autovalores λ, se necessáro, pode-se supor que: A e λ = e, =,,..., r (.8) e r p. Se r = p, tem-se que γ = e, o que prova o teorema. É necessáro mostrar que se r < p, ca-se numa contradção, o que não pode ocorrer. Sem perda de generaldade, pode-se supor que todos os autovalores de A são estrtamente postvos (se não, pode-se substtur A por A + α Ι, para um α adequado, pos ambos têm os mesmos autovetores). Seja B = A λ e e r = (.9) p > = r+ Então tem-se que: tr B = tr A λ e e = λ 0 r =, desde que r < p. Então B tem pelo menos um autovalor dferente de zero, chamado θ. Seja x 0 autovetor correspondente. Então para j r, r θe j x = e jb x = λ e λ (e e ) e x = 0 = (.0) de modo que x é ortogonal a e j, j =,,..., r. Então

24 r r θ x = B x = A λ e e x = A x λ( e x ) e = A x = = (.) de modo que x é também autovetor de A. Assm, θ = λ para algum e x é uma combnação lnear para algum dos e, que contradz a ortogonaldade entre x e e. Assm, fca demonstrado o teorema da decomposção espectral, e, como conseqüênca, a prova do resultado...4 JACOBIANO DA MATRIZ DE TRANSFORMAÇÃO Defnção.: Suponha que X e Y sejam matrzes que têm o mesmo número de elementos dstntos r. Então se Y = f ( X ), o jacobano da transformação é defndo como sendo: ( Y X) A J =, onde y A =,, j=,, L, r (.) x j Tem-se que A é o valor absoluto de A e ( x,x, L,xr ) e ( y,y, L,yr ) são os dstntos valores de X e Y, respectvamente. Lstam-se, a segur, algumas propredades mportantes do Jacobano da transformação, apresentadas em PRESS (98). Os Jacobanos são utlzados com frequênca na Análse Multvarada, para obter densdades de funções de vetores e matrzes aleatóros..4. Propredades do Jacobano. Se y p, x p, A e y = A x, então tem-se que p p J ( y x ) = A é o jacobano da transformação lnear do vetor. (.3)

25 3. Se Y p q, A p p, X p q e Y = A X, então tem-se que q J ( Y X ) = A onde q colunas de Y são transformações de q (.4) colunas de X. 3. Se Y p q, X p q, B q q e Y = XB, então tem-se que p J ( Y X ) = B é análoga à propredade, exceto que as trans- (.5) formações são aplcadas nas p lnhas. 4. Se Y p q, A p p, B q q, X p q e Y = A X B, então tem-se que q p J ( Y X ) = A B (.6) 5. Se Y p p, X p p, X = X e Y = AX A, então tem-se que J ( Y p+ X ) = A, A 0 (.7) 6. Se Y p q, X p q, a é um escalar e Y = a X, então tem-se que pq ( Y X) a J = (.8) Esta transformação corresponde à mudança de escala da undade de todos os elementos de Y. 7. Se Y p p, X p p, Y = Y, X = X, a é um escalar e Y = a X, então tem-se que J ( Y p( p+ ) X ) = a (.9)

26 4 8. Se A 0, A = A ( A) A. Se X = A, então tem-se que J ( A (p+ ) X ) = X, onde X p p sendo X = X. (.30) Σ 9. Se f ( X) tr ( AX X ), onde A q q sendo A = A, X p q, Σ p p > 0, então tem-se que X f ( x ) Σ = X A (.3).5 DISTRIBUIÇÃO NORMAL MULTIVARIADA.5. Função Densdade de Probabldade A função densdade de probabldade da dstrbução normal multvarada é uma generalzação da normal unvarada para p dmensões (JOHNSON e WICHERN, 988). Relembrando, a função densdade de probabldade (f.d.p.) da dstrbução normal unvarada é: f ( x ) x µ σ = e, µ R, σ > 0, x R (.3) σ π O expoente da f.d.p. da dstrbução normal unvarada pode ser desenvolvdo em: x µ = ( x µ )( σ ) ( x µ ). Esta expressão mede a dstânca σ quadrátca de x em relação a µ, em undades do desvo padrão. E, esta dstânca pode ser generalzada para o caso multvarado, onde x é um vetor de dmensão p. Então, tem-se: ( x µ ) Σ ( x µ ) (.33)

27 5 O vetor µ na expressão (.33), de dmensão p, representa o valor esperado do vetor aleatóro X, e a matrz Σ, de ordem p p, smétrca e defnda postva, é a matrz de covarânca desse vetor. A expressão (.33) é conhecda como dstânca de Mahalanobs ( D ). Ao substtur a expressão (.33), na função densdade de probabldade dada em (.3), a constante de normalzação σ π deve ser trocada, de forma que o volume sob a superfíce da densdade multvarada seja gual à undade, para qualquer p. Segundo ANDERSON (958, p.), esta constante é ( π ) Σ. Deste modo, a f.d.p. da dstrbução normal multvarada é dada por: p f ( x ) ( x µ ) Σ ( x µ ) = e, (.34) p ( π ) Σ sendo p p µ R, Σ é defnda postva e x R. Assm, se o vetor aleatóro p-dmensonal X tem dstrbução normal multvarada, a sua função densdade de probabldade é representada por ( µ, Σ). O vetor médo e a matrz de covarânca do vetor aleatóro p-dmensonal X são apresentados adante: N p E( X ) E( X E( X = M E( X p ) µ ) µ = M ) µ p = µ (.35) e Σ = COV ( X ) = E( X µ )( X µ ) σ σ = M σ p σ σ M σ p L L M L σ σ p p M σ p (.36)

28 6 É comum separar as nformações contdas nas varâncas σ daquelas contdas nas meddas de assocação, em partcular o coefcente de correlação populaconal ρ k. O coefcente de correlação populaconal, ρ k é defndo como segue: σ COV ( X, X ρ = ) k k k = (.37) σ σ σk σk em que: ρ k é o coefcente de correlação entre as varáves X e X k ; σ k é a covarânca entre as varáves X e X k ; σ é a varânca da varável σ é a varânca da varável k X ; X. k segur: Assm, a matrz de correlação populaconal ρ é obtda e apresentada a ρ = σ σ σ σ M σ σ σ p σ σ p σ σ σ σ M σ σ σ p σ σ p L L M L σ σ σ σ M σ σ σ p p p p σ σ p p p = ρ M ρp ρ M ρ p L L M M ρp ρp M (.38) Apresenta-se a segur, como lustração, a fgura da função densdade de probabldade da dstrbução normal bvarada, com varâncas guas, σ = σ correlação nula, ρ = 0. Para a obtenção da fgura utlzou-se o sstema R, cujo scrpt encontra-se no apêndce 3., e

29 7 FIGURA - FUNÇÃO DENSIDADE DE PROBABILIDADE DA DISTRIBUIÇÃO NORMAL BIVARIADA FONTE: A autora NOTA: σ = e ρ = 0 σ.5. Propredades da Dstrbução Normal Multvarada São apresentadas a segur, como resultados, propredades bastante útes da dstrbução normal multvarada. Resultado.3: Seja X um vetor aleatóro, com dstrbução normal p-varada, ou seja, X ~ Np ( µ, Σ). Tem-se que: Y = CX (.39) N p (C,C C ) onde C é uma matrz não sngular. Então, µ Σ. Y tem dstrbução Prova: A função densdade de probabldade do vetor aleatóro X é dada por: f (x ) ( x µ ) Σ ( x µ ) = e (.40) p ( π ) Σ em que p p µ R, Σ é defnda postva e x R.

30 8 E, a densdade de Y é obtda a partr da densdade de X, fazendo a segunte substtução: y C x = (.4) e multplcando pelo jacobano de transformação da expressão (.4). Assm, tem-se que: C J y x = =, que é o Jacobano de transformação, como apresentado na seção.4. Fazendo C C C C C C C = = = = (.4) A forma quadrátca do expoente de ) x ( f da expressão (.40) é: ) x ( ) x ( Q µ Σ µ = (.43) Substtundo (.4) em (.43) e desenvolvendo, tem-se: ) y ( C ) y ( C Q µ Σ µ = (.44) ) C C y ( C ) C C y ( C Q µ Σ µ = (.45) [ ] [ ] ) C y ( C ) C y ( C Q µ Σ µ = (.46) ) C y ( C ) ( C ) C y ( Q µ Σ µ = (.47) ) C y ( ) C ( C ) C y ( Q µ Σ µ = (.48) Maores detalhes sobre forma quadrátca poderão ser obtdos no apêndce 8 deste trabalho.

31 9 Portanto, a densdade de Y será: f ( y ) = f ( x ) C = ( π (C y µ ) Σ (C y µ ) e p ) Σ C C (.49) f ( y ) = f ( x ) C ( y C ) (C C) ( y C ) µ Σ µ = e p ( π ) C C (.50) f ( y ) = f ( x ) C = f ( C x ) (.5) Logo, Y ~ Np ( Cµ,C C ) (.5) Resultado.4: Seja X, com dstrbução N p ( µ, ) com > 0. Então, tem-se que a dstânca de Mahalanobs ( x µ ) Σ ( x µ ) é dstrbuída conforme dstrbução ququadrado com p graus de lberdade, ou seja, ( x µ ) Σ ( x µ ) ~ χ p. Prova: Tem-se que Z p Z Zp = Z ~ = + χ, onde Z,Z,..., Zp são varáves p ndependentes N (0,) e pelo teorema da decomposção espectral (ver seção.3) p p tem-se que = λ e e, e a sua nversa é dada por = e e. = λ = Pré-multplcando por ( x µ ) ambos os membros da gualdade da segunda expressão e pós-multplcando por ( x µ ), tem-se: [ e (x )] p p (x µ ) = (x µ ) ee (x µ ) = (.53) = λ = λ ( x µ ) µ p µ ) (x µ ) = e (x µ ) (.54) = λ ( x

32 30 Fazendo ) x ( A Z µ = com λ λ λ = e e e A M, a expressão acma será escrta na forma: = = µ µ p Z ) x ( ) x ( (.55) De modo que ) x ( µ tem dstrbução ) (0, N p. Então, pelo resultado.3, temse que ) x ( A Z µ = é dstrbuído como ) A A ( 0, N p. É necessáro mostrar que Ι = A A, pos assm tem-se que Z ~ ) ( 0, N p Ι. Então, fazendo o produto das matrzes, A A, resultará em: λ λ λ λ λ λ λ = = p p p p p (pxp) (pxp) (pxp) e e e e e e e e A A L M (.56) Ι = λ λ λ λ λ λ = p p p p (pxp) (pxp) (pxp) e e e e e e A A L M (.57) Portanto, Z ~ ) ( 0, N p Ι. Logo, ) x ( ) x ( µ Σ µ tem dstrbução p χ. (.58)

33 3.5.3 Estmadores de Máxma Verossmlhança da Dstrbução Normal Multvarada O resultado a segur apresenta os estmadores de máxma verossmlhança da dstrbução normal multvarada. Resultado.5: Os estmadores de máxma verossmlhança do vetor médo µ e da matrz de covarânca Σ são, respectvamente: µ ˆ = X (vetor de médas) (.59) n Σˆ = V = ( x X )( x X ) (matrz de covarânca) n n = (.60) Prova: Sejam os vetores ( p ), X, X,..., Xn, que formam uma amostra aleatóra da população normal multvarada com vetor médo µ e matrz de covarânca Σ, ou seja, X ~ Np ( µ, Σ). Como X, X,..., Xn são mutuamente ndependentes, a função densdade conjunta da amostra é o produto das densdades margnas normas. Então, tem-se: f ( x ( x ) ( x ) ( xn ) ( xn ) µ µ Σ µ Σ µ, x,..., x n ) e... e p p = (.6) ( π) Σ ( π) Σ e, a expressão acma pode ser escrta da segunte forma: n µ ( x ) Σ ( x f ( x =,x,..., xn ) e (.6) p = ( π ) Σ µ ) e, fnalmente, tem-se que:

34 3 n µ ( x ) Σ ( x µ ) = f ( x,x,...,xn ) = e (.63) n p n ( π ) Σ a expressão acma é função de µ e Σ, e para o conjunto fxo de observações x é chamada de verossmlhança, e é apresentada abaxo.,x,..., xn n µ ( x ) Σ ( x µ ) = L ( µ, Σ) = e (.64) n p n ( π ) Σ Escrevendo o expoente na forma de traço, e adconando e subtrando X, tem-se: n tr Σ ( x X )( x X ) + n( X µ )( X µ ) = L (, = (.65) µ Σ ) ( π ) n p Σ n e reescrevendo a expressão acma, tem-se: n n tr Σ ( x X )( x X ) + n( X µ )( X µ ) = Σ = L (, (.66) µ Σ ) ( π ) n p e e aplcando a propredade do determnante, tem-se que Σ = Σ, portanto a expressão acma será: n n tr Σ ( x X )( x X ) + n( X µ )( X µ ) = Σ = L (, (.67) µ Σ ) ( π ) n p e E, defnndo Λ Σ, tem-se que: n n tr Λ ( x X )( x X ) + n( X µ )( X µ ) Λ = = L (, (.68) µ ) ( π ) Λ n p e

35 33 Defnndo n V L( n = ( x = X )( x n µ, Λ ) X ), e substtundo na expressão (.68), tem-se: tr [ Λ(n V+ X )( X ) )] n( µ µ = Λ n p e (.69) ( π ) Agora, escrevendo a expressão (.69) na forma logarítmca, tem-se: np n n n ln L ( µ, Λ ) = ln( π ) + ln Λ trλv trλ( X µ )( X µ ) (.70) Dervando a expressão (.70) em relação a µ, tem-se: ln L( µ µ, Λ ) n = [( X µ ) Λ( X µ ) ] µ (.7) lnl( µ, Λ ) µ n = Λ( X µ ) (.7) Igualando a zero tem-se: n Λ ( X µ ) = 0 (.73) Como fo defndo que Λ Σ, sendo Λ defnda postva, a expressão (.73) será gual a zero somente se ( X µ ) = 0. Logo: µ ˆ = X (.74) Dervando a expressão (.70) em relação a Λ, tem-se: n µ Λ ln ln L(, ) = Λ Λ n n trλv tr Λ ( X µ )( X µ ) Λ (.75) ln L ( µ, Λ ) n = µ Λ n n [ Λ dag Λ ] [ V dag V ] [ ( X µ )( X µ ) dag( X µ )( X ) ] (.76)

36 34 Defnu-se que Λ Σ, então, Λ ( Σ ) = Σ, assm: [ ( X µ )( X µ ) dag( X µ )( X ) ] ln L ( µ, Λ ) n n n = nσ dag Σ n V + dag V µ Λ (.77) Como µ ˆ = X, dag Σ = dag ( V ), logo, tem-se: ln L( µ, Λ ) = nσ n V (.78) Λ Igualando a zero, resultará em: n Σˆ = V = ( x X)( x X) (.79) n =.5.4 Estmadores não Vesados da Dstrbução Normal Multvarada Os estmadores não vesados da dstrbução normal multvarada são apresentados no resultado.6. Resultado.6: Sejam os vetores de dmensão p, X,X,..., Xn, que formam uma amostra aleatóra da população normal multvarada com vetor médo µ e matrz de n covarânca Σ, ou seja, X ~ Np ( µ, Σ). Então X e S = estmadores não vesados de µ e Σ. n = ( x X )( x X ) são os Prova: = L Xn (.80) n Seja : X [ X + X + + ]

37 35 Então, tem-se que: E( X) = E [ X ] X L Xn (.8) n E ( X ) = E [ X + X + L + Xn ] (.8) n [ µ + µ + + µ ] E ( X ) = L (.83) n E ( X ) =µ (.84) E, o estmador não vesado de Σ é S, conforme apresentado a segur: Tem-se que: n S = ( x X )( x X ) (.85) n = Então: n E ( S ) = E ( x X )( x X ) (.86) n = E( S ) n = E x x nx X (.87) n = n E ( S ) = E( x x ) ne X X (.88) n = E ( S) = n( µµ + Σ) n µµ + Σ (.89) n n [ nµ µ + nσ µµ Σ] E ( S ) = n (.90) n (n ) E ( S ) = Σ (.9) n E ( S ) = Σ (.9)

38 Dstrbução Amostral de X e S Seja X = [ X, X,..., ] uma amostra aleatóra da normal unvarada, ou Xn seja, X ~ N( µ, σ ). Então, no caso unvarado ( p = ), X é normalmente dstrbuída σ com méda µ e varânca, ou seja, n σ X ~ N µ,. Tem-se anda que n (n σ )S ~ χ n. Resultado.7: Para o caso multvarado ( p ), X tem dstrbução normal com méda µ e matrz de covarânca. n Prova: Da seção.5.4, tem-se que E ( X ) = µ E, tem-se que: COV ( X ) = E( X µ )( X µ ) (.93) Portanto: COV ( X ) COV ( X ) n n E ( x µ ) ( x ) (.94) n = n = = µ n E ( x µ ) ( x ) (.95) n = = µ COV ( X ) = Σ (.96) n Defnção.3: Segue-se a defnção da dstrbução de Wshart apresentada por Marda, Kent e Bbby (MARDIA, KENT e BIBBY, 98, p.66):

39 37 Se M pode ser escrta como M = XX, onde X m p é a matrz de dados da p p dstrbução ( 0, Σ ), então M tem dstrbução de Wshart com matrz de escala Σ e N p graus de lberdade m, e representa-se M ~ W ( Σ, m ). Quando Σ = Ιp, a dstrbução é dta ser na forma padrão. A dstrbução amostral da matrz de covarânca amostral ( S ) é chamada de Dstrbução de Wshart. De acordo com JOHNSON e WICHERN (988), ( n ) S é dstrbuída como matrz aleatóra de Wshart com (n-) graus de lberdade. Outra dstrbução mportante é a de n( X µ ) S ( X µ ), para a construção do ntervalo de confança para o vetor médo µ. De acordo com JOHNSON e WICHERN (988), a dstrbução n( X χ é aproxmadamente a dstrbução amostral de µ ) Σ ( X µ ), quando X é aproxmadamente normalmente dstrbuído. E, anda segundo os autores, quando o tamanho da amostra n é grande e é muto maor que o número de varáves p, a substtução de seramente a aproxmação da dstrbução χ. Então, tem-se: por S não afeta n( X µ ) S ( X µ ) é aproxmadamente χ p. (.97).5.6 Avalação da Suposção de Normaldade (Gaussandade) Tendo em vsta que mutas técncas multvaradas dependem da suposção de Gaussandade, é prudente checar essa premssa. Em stuações em que o tamanho da amostra é grande, e as técncas dependem uncamente do comportamento de X, ou das dstâncas envolvendo X, da forma n ( X µ ) S ( X µ ), a suposção de normaldade é menos crucal (JOHNSON e WICHERN, 988, p.4 e 46). Mas, até certo ponto, a qualdade das nferêncas fetas por esses métodos depende de quanto se aproxmam da dstrbução normal multvarada.

40 38 Os gráfcos são sempre útes para qualquer análse estatístca de dados. O gráfco Q-Q plots pode ser utlzado para avalar a suposção de normaldade. Este gráfco pode ser construído para dstrbuções margnas das observações amostras de cada varável. Trata-se de um gráfco do quantl amostral versus quantl esperado da dstrbução normal. Quando os pontos estão bastante próxmos da reta, a X µ suposção de normaldade pode ser aceta, pos Z = e X = σ Z + µ (equação σ da reta). Uma outra possbldade é aplcar testes baseados nas meddas de assmetra e curtose multvarada de Marda (MARDIA, 970). Para qualquer dstrbução normal multvarada essas meddas são obtdas respectvamente pelas expressões a segur: β {( y µ ) } ( x 3, p = ) E µ (.98) sendo x ndependente de y, mas com a mesma dstrbução e, β {( y µ ) } ( y,p = ) E µ (.99) Assm, quando a dstrbução é normal multvarada tem-se que β 0 e,p = β,p = p(p + ). As estmatvas de β, p e β, p, para amostras de tamanho n, podem ser obtdas através de: n n βˆ 3,p = g j (.00) n = j= n n βˆ 4,p = g = d (.0) n = n = onde g ( y y ) = S ( y y ) j j (.0) e d = g (.03)

41 39 MARDIA (970) demonstrou que para grandes amostras tem-se: nβˆ,p κ = ~ χ υ (.04) 6 onde p (p + )(p + ) υ = (.05) 6 ˆ,p p(p + ) κ = β ~ N ( 0,) (.06) 8p(p + ) n Estas estatístcas podem ser utlzadas para testar a hpótese nula de multnormaldade. Rejeta-se a hpótese nula para valores pequenos de κ e κ..5.7 Inferênca sobre Vetor de Médas Quando o objetvo é fazer nferêncas sobre a méda populaconal, é possível utlzar dos métodos: testes de sgnfcânca e ntervalos de confança. Será abordada aqu a obtenção do ntervalo de confança para a méda populaconal Intervalo de confança Sejam os vetores X,X,..., Xn, que compõem uma amostra ndependente e normalmente dstrbuída com méda µ e matrz de covarânca. Então as estmatvas de µ e são obtdas do vetor X a partr dos estmadores não vesados (vcados): n X = x (.07) n = n S = ( x X ) ( x X ) (.08) n =

42 40 No caso unvarado, a regão de confança é um ntervalo na reta. Já, no caso multvarado é uma regão elpsodal R (X). A regão R (X) é chamada de 00( α)% de confança se, antes da amostra ser seleconada, P R(X) cobrr o verdadero θ = α, onde θ representa o vetor de parâmetros desconhecdos. A regão de confança para µ com nível de ( α)00%, segundo JOHNSON e WICHERN (988), é dada por: P n ( X µ (n ) p ) S ( X µ ) Fp, n p ( α) = α n p (.09) onde n ( X ) µ S ( X µ ) = T, e é chamado de T de Hotellng, sendo uma generalzação da dstânca quadrátca t = n ( X µ )( S ) ( X µ ) do caso unvarado. Tem-se que: T (n ) p ~ F n p p,n p (.0) Resultado.8: Sejam X amostras aleatóras da população normal ( µ, Σ ), com, X,..., Xn N p Σ defnda postva. Assm, os ntervalos smultâneos de confança de α, para a cobertura dos valores paramétrcos, para todo l, são dados pela expressão a segur: ( n )p ( n )p P l X Fp,n p ( α) l S l l µ l X + Fp,n p ( α) l S l = α n( n p ) n(n p ) Prova: expressão: Fazendo T = n( X µ )S ( X µ ) c, é possível obter-se a segunte

43 4 ( n l X l µ ) l S l c (.) c ± ( n l X l µ ) l S l (.) Resolvendo a expressão anteror, obtém-se: l S l l µ l X c (.3) n e l S l l µ l X + c, logo (.4) n l S l l S l l X c l µ l X + c (.5) n n P (n )p Escolhendo-se c = Fp,n p ( α), tem-se de (.09) que (n p ) [ T c ] = α, logo l S l l S l P l X c l µ l X + c = α (.6) n n Fnalmente, os ntervalos smultâneos de confança podem ser obtdos através da expressão: (n )p (n )p P l X Fp,n p ( α) l S l l µ l X + Fp,n p ( α) l S l = α (.7) n(n p ) n(n p ) que conterá l µ, com probabldade α, para todo l, ou seja: quando l = [ 0 L 0], l µ = µ l = [ 0 L 0], l µ = µ M l = 0 0 L, l µ = µ [ ] p

44 Inferênca sobre a méda populaconal a partr de grandes amostras Quando a amostra é grande, testes de hpóteses e regões de confança podem ser construídos sem a suposção da normaldade da população. Todas as nferêncas sobre µ a partr de grandes amostras são baseadas na dstrbução χ (JOHNSON e WICHERN, 988, p.90). Conforme apresentado na seção.5.5, n ( X µ ) Σ ( X µ ) tem dstrbução aproxmadamente de n ( X µ ) S ( X µ ) é aproxmadamente expressão (.6), o ntervalo de confança será: χ p. Para n grande, muto maor que p, a dstrbução χ p. Assm, fazendo-se c = χ na l S l l S l P l X χp ( α ) l µ l X + χp ( α ) = α (.8) n n para todo l (JOHNSON e WICHERN, 988, p.9)..5.8 Regão de Confança com Largura Fxa Desejando-se fxar a largura da regão de confança, faz-se necessáro varar o tamanho da amostra. No caso unvarado, se ndependentes, com dstrbução N( µ, σ ), a méda amostral é X. Se X são,x,..., Xn σ é conhecda, o ntervalo de confança para µ é obtdo através da expressão σ σ X Z α, X + Z α, para nível de confança de 00( α)%. Fxando-se a n n largura do ntervalo tal que seja < d, para algum valor fxo de d tem-se: σ Z α < d (.9) n Isolando n, tem-se: σ Z α n > (.0) d

45 43 Agora, consderando-se as observações multvaradas x,x,...,xn ~ Np ( µ, ), com conhecda. É possível, segundo SRIVASTAVA e CARTER (983, p.45), obter k ntervalos de confança para os parâmetros da forma l µ para algum vetor l, =,,..., k. Se X é a méda amostral, então os k ntervalos de confança smultâneos para nível de ( α)00%, para l,,,..., k são dados por: = l X ± χ l p, α n l, onde P( χ p > χp, α ) = α (.) Quando Z α k χ < p, α, utlza-se: l l l X ± Z α k (.) n Z α k χ < p, α Na maora dos casos, a não ser que k seja grande, tem-se que. Neste caso, para o comprmento do j-ésmo ntervalo não ser maor que d, escolhe-se n tal que: n > Z α l l k, =,,...,k d (.3) Se utlzar χ ao nvés de p, α Z α k, então escolhe-se n tal que: n > l l p,, =,,...,k d χ α (.4) Se é desconhecda, é possível utlzar sua estmatva S (SRIVASTAVA e CARTER, 983). Assm, as expressões (.) e (.) poderão ser expressas como segue: l X ± χ p, α l S l n (.5) E, quando Z α k < χp, α, l S l l X ± Z α k (.6) n

46 44 Para obter o comprmento do j-ésmo ntervalo que não seja maor que d, escolhe-se n tal que: l S l n > Z α k, =,,...,k d (.7) e n l S l χ p,, = d > α,,..., k (.8) quando utlza-se k Z α e χ p, α, respectvamente..6 MÉTODO DE MONTE CARLO O Método de Monte Carlo tem sdo bastante utlzado para obter aproxmações numércas de funções complexas. Envolve a geração de observações de alguma dstrbução de probabldades e a utlzação da amostra obtda, para aproxmação da função de nteresse (EHLERS, 003). As aplcações mas comuns do Método de Monte Carlo, em computação numérca, são para avalar ntegras. O propósto do método é escrever a ntegral que se deseja calcular na forma de esperança matemátca, ou seja, do valor esperado. De acordo com EHLERS (003), a expressão em que a ntegral é a esperança matemátca de uma função g ( X ), onde X tem função densdade de probabldade f ( x ), é dada por: b [ g( X ) ] M = g(x )f ( x )dx = E (.9) a Assm, é possível obter uma aproxmação de M através de: n Mˆ = g(x ) (.30) n =

Exibir mais