Robustecendo a dstrbução normal Marcos Rafael Noguera Cavalcante Dssertação apresentada ao Insttuto de Matemátca e Estatístca da Unversdade de São Paulo para obtenção do título de Mestre em Cêncas Programa: Estatístca Orentador: Prof. Dr. Heleno Bolfarne Durante o desenvolvmento deste trabalho o autor recebeu auxílo nancero do CNPq São Paulo, novembro de 15
Robustecendo a dstrbução normal Esta versão da dssertação contém as correções e alterações sugerdas pela Comssão Julgadora durante a defesa da versão orgnal do trabalho, realzada em 6/11/15. Uma cópa da versão orgnal está dsponível no Insttuto de Matemátca e Estatístca da Unversdade de São Paulo. Comssão Julgadora: Prof. Dr. Heleno Bolfarne - IME-USP Prof a. Dr a. Slva Nagb Elan - IME-USP Prof. Dr. Cao Lucdus Naberezny Azevedo - UNICAMP-Externo
Hno DeMolay A coroa da juventude nca Até o merdano a nossa jornada Contempla em nós, brlho do meo da Perante este altar, a promessa sagrada. Que soberanos sejam os nossos deas Luzes no camnho de vrtudes mortas Que estas sete velas sejam nossa Le O Brasão Heroco da Ordem DeMolay. Consagrada batalha da vda Conduz o camnho da retdão Em nossa bandera mponente, estendda Estão os baluartes da nossa Nação. Que soberanos sejam os nossos deas Luzes no camnho de vrtudes mortas Que estas sete velas sejam nossa Le O Brasão Heroco da Ordem DeMolay. Sob a regênca do Pa Celestal Nos das de aurora até o apogeu Que em nossa Ordem sejam um snal De honra que o fogo não feneceu. Que soberanos sejam os nossos deas Luzes no camnho de vrtudes mortas Que estas sete velas sejam nossa Le O Brasão Heroco da Ordem DeMolay. Que Deus te abençoe mãe. Que Deus te abençoe pa. Que Deus abençoe a causa da Ordem DeMolay. Amém!
Agradecmentos Gostara de agradecer: Prmeramente a Deus, nosso Pa Celestal, pos sem Ele nada sera possível e é por causa Dele que consegu superar todos os obstáculos ao longo dos meus estudos. Aos meus pas, Luzeva e Marcos, pelos seus carnhos, conselhos, cudados, ensnamentos e amor ncondconal. Sem eles eu não tera força para segur em frente, pos eles são o meu porto seguro. Foram eles que sempre me ncentvaram a lutar pelos meus sonhos. São eles que eu sempre podere contar em todos os momentos de mnha vda. E os meus rmãos que apesar das nossas brgas, sempre me apoaram e torceram por mm. À mnha esposa, Rosane, que sempre esteve ao meu lado todos os das e fo compreensva nos momentos que não pude lhe dar a atenção que ela merece. Tenho muto a agradecer ao meu orentador, Heleno, pos sem sua grande pacênca e compreensão eu não podera ter obtdo este título que me orgulho tanto. Não posso dexar de agradecer aos meus professores que me ensnaram todo que eu se, sem seus ensnamentos e conselhos eu não podera ter chegado até aqu. Fo graças aos meus mestres que tve ao longo da mnha vda de estudante que me torne quem sou hoje. Aos meus grandes amgos que conhec todos estes anos. Na graduação conhec pessoas ncríves que me ensnaram muto. Na resdênca unverstára pude convver com pessoas muto dferentes das mas dversas opnões, elas me ajudaram muto a crescer. No IME conhec amgos que re levar para toda a vda. Fo graças a todos os momentos felzes que tvemos que pude aprovetar ao máxmo esta jornada. Nunca podera dexar de agradecer aos meus rmãos da Ordem DeMolay e aos meus tos Maçons. Fo graças a eles que pude melhorar as vrtudes que me foram ensnadas por meus pas. São as vrtudes de um DeMolay que moldaram o homem que eu sou. Enm, a todas as pessoas que zeram parte de cada momento que levou à mnha conclusão do mestrado.
v
Resumo CAVALCANTE, M. R. N. Robustecendo a dstrbução normal. 15. 93 f. Dssertação Mestrado) - Insttuto de Matemátca e Estatístca, Unversdade de São Paulo, São Paulo, 15. Esta dssertação tem como objetvo o estudo da dstrbução slash, consderando seus casos smétrco e assmétrco unvarados. Serão apresentadas propredades probablístcas e nferencas dessa dstrbução, assm como peculardades e problemas. Para serem fetas nferêncas será consderado o enfoque clássco através do uso dos métodos dos momentos e máxma verossmlhança. São apresentados também os cálculos para a obtenção destes estmadores. Nos casos onde estes estmadores não podem ser obtdos algebrcamente foram utlzados métodos computaconas, através da mplementação do algortmo EM. Para sto, fo utlzado o software R e os comandos estão no Apêndce A. No caso dos estmadores de máxma verossmlhança será mplementado o método de Lous para estmar os elementos da matrz de nformação de Fsher. Foram realzados estudos de smulação e aplcações para dados reas. Nas aplcações fo analsado o modelo de regressão lnear smples, onde fo consderado que os erros seguem dstrbução slash assmétrca. Palavras-chave: Dstrbução slash, Dstrbução slash assmétrca. v
v
Abstract CAVALCANTE, M. R. N. Robustfyng the normal dstrbuton. 15. 93 f. MSc dssertaton - Insttuto de Matemátca e Estatístca, Unversdade de São Paulo, São Paulo, 15. Ths dssertaton ams at studyng the slash dstrbuton consderng ts symmetrc and asymmetrc versons. We present probablstc as well as nferental aspects of ths dstrbuton, ncludng peculartes and problems related to model ttng. The classcal approach based on maxmum lkelhood estmaton s used. Moments estmaton s also consdered as startng values for the maxmum lkelhood estmaton. The mplementaton of the EM algorthm s developed for the mplementaton of the lkelhood approach. For ths mplementaton software R was used and codes requred are presented n the Appendx. As a byproduct of the EM algorthm, Lous method s consdered for estmatng the Fsher nformaton matrx whch can be used for computng large sample ntervals for model parameters. Extensons for a smple regresson model s consdered. Smulaton studes are presented llustratng the performance of the estmaton approach consdered. Results of real data analyss ndcate that the methodology can perform well n appled scenaros. Keywords: Dstrbuton slash, dstrbuton slash asymmetrcal. v
v
Sumáro Lsta de Abrevaturas Lsta de Símbolos Lsta de Fguras Lsta de Tabelas x x xv xv 1 Introdução 1 1.1 Organzação da dssertação................................ 1 Dstrbução slash smétrca 3.1 Introdução.......................................... 3. Momentos.......................................... 5..1 Estmadores pelo método dos momentos..................... 6.3 Estmação por máxma verossmlhança......................... 7.3.1 Algortmo EM................................... 7.3. Matrz de nformação de Fsher.......................... 9.3.3 Método de Lous.................................. 1.3.4 Aplcando o algortmo............................... 1.4 Estudo de smulação.................................... 13.4.1 1 Caso : q conhecdo............................... 13.4. Caso : q desconhecdo.............................. 16.5 Aplcação em dados reas................................. 19 3 Dstrbução slash assmétrca 3 3.1 Introdução.......................................... 3 3. Dstrbução slash assmétrca............................... 4 3.3 Momentos.......................................... 5 3.3.1 Assmetra e curtose................................ 6 3.3. Estmadores pelo método dos momentos..................... 7 3.4 Máxma verossmlhança.................................. 7 3.4.1 Algortmo EM................................... 8 3.4. Matrz de nformação de Fsher.......................... 9 3.4.3 Método de Lous.................................. 3 3.4.4 Aplcando o algortmo............................... 34 x
x SUMÁRIO 3.5 Estudo de smulação.................................... 35 3.5.1 q conhecdo..................................... 35 3.6 Aplcação em dados reas................................. 37 4 Regressão lnear 39 4.1 Introdução.......................................... 39 4. Regressão lnear smples.................................. 4 4..1 Algortmo EM................................... 4 4.. Matrz de nformação de Fsher.......................... 43 4..3 Método de Lous.................................. 43 4..4 Aplcando o algortmo............................... 48 4.3 Aplcação em dados reas................................. 5 5 Consderações nas 53 5.1 Trabalhos futuros...................................... 53 A Comandos do R 55 A.1 Dstrbução slash com q conhecdo............................ 55 A.1.1 Smulações..................................... 55 A.1. Aplcação...................................... 56 A. Dstrbução slash com q desconhecdo.......................... 58 A..1 Smulações..................................... 58 A.. Aplcação...................................... 61 A.3 Dstrbução slash assmétrca com q conhecdo..................... 63 A.3.1 Smulações..................................... 63 A.3. Aplcação...................................... 65 A.4 Regressão lnear smples.................................. 68 Referêncas Bblográcas 73
Lsta de Abrevaturas ASS EC EM EQM SL SN SSL Coecente de assmetra Excesso de curtose Algortmo EM - Esperança e Maxmzação Erro quadrátco médo Dstrbução slash Dstrbução normal assmétrca Dstrbução slash assmétrca x
x LISTA DE ABREVIATURAS
Lsta de Símbolos γ Função gama ncompleta Γ Função gama Ψ Função acumulada de uma dstrbução gama no ponto 1 φ Densdade de uma dstrbução normal padrão Φ Acumulada de uma dstrbução normal padrão ˆµ m, ˆσ m, ˆq m, ˆλ m Estmadores pelo método dos momentos ˆµ mv, ˆσ mv, ˆq mv, ˆη mv, ˆτ mv Estmadores pelo método de máxma verossmlhança DGI Função dgama ncompleta I F θ) Matrz de nformação de Fsher I O θ) Matrz de nformação observada x
xv LISTA DE SÍMBOLOS
Lsta de Fguras.1 Densdade da dstrbução Betaq,1)............................ 4. Densdade da dstrbução SL,1,q)............................ 5.3 Boxplot das estmatvas de máxma verossmlhança dos parâmetros da dstrbução Slash1,9,5) consderando q conhecdo. a) estmatvas de µ e b) estmatvas de σ. 14.4 Boxplot das estmatvas de máxma verossmlhança dos parâmetros da dstrbução Slash1,9,5) consderando q conhecdo. a) estmatvas de µ, b) estmatvas de σ e c) estmatvas de q.................................... 17.5 Hstograma do percentual de gordura dos atletas australanos........... 19 3.1 Densdade da normal assmétrca.............................. 3 3. Densdade da dstrbução SSLµ, σ, λ, q)......................... 5 3.3 Boxplot das estmatvas de máxma verossmlhança dos parâmetros da dstrbução SSL1,9,5, -) consderando q conhecdo. a) estmatvas de µ, b) estmatvas de σ e c) estmatvas de λ.................................... 36 4.1 Boxplot dos atletas australanos.............................. 5 4. Dspersão dos atletas australanos por percentual de gordura e peso.......... 5 xv
xv LISTA DE FIGURAS
Lsta de Tabelas.1 Estmatvas para os parâmetros da dstrbução SL1,9,5), com 5 réplcas de tamanho gual a, 5 e 1................................. 13. Víco e Erro Quadrátco Médo EQM) para as estmatvas dos parâmetros da dstrbução SL1,9,5), com 5 réplcas de tamanho gual a, 5 e 1......... 14.3 Resumo do número de terações para a convergênca dos estmadores de máxma verossmlhança em 5 réplcas de tamanho gual a, 5 e 1............ 15.4 Estmatvas para os parâmetros da dstrbução SL1,9,5), com, respectvamente, 8, 347 e 4 réplcas de tamanho gual a, 5 e 1................. 16.5 Víco e Erro Quadrátco Médo EQM) para as estmatvas dos parâmetros da dstrbução SL1,9,5), com, respectvamente, 8, 347 e 4 réplcas de tamanho gual a, 5 e 1.......................................... 17.6 Resumo do número de terações para a convergênca dos estmadores de máxma verossmlhança em, respectvamente, 8, 347 e 4 réplcas de tamanho gual a, 5 e 1............................................ 18.7 Estatístcas para a varável Bfat.............................. 19.8 Estmatvas para os parâmetros da dstrbução da varável Bf at, supondo que segue uma dstrbução SLµ, σ, q).................................9 Estmatvas para os parâmetros da dstrbução da varável Bf at, supondo que segue uma dstrbução SLµ, σ, q), onde q, 1; 19..................... 1.1 Estmatvas dos componentes da matrz de covarâncas dos estmadores dos parâmetros µ e σ para q, 1; 19............................... 3.1 Estmatvas de máxma verossmlhança para os estmadores dos parâmetros da dstrbução SSL1,9,5,-), com 5 réplcas de tamanho gual a, 5 e 1....... 35 3. Víco e Erro Quadrátco Médo EQM) das estmatvas de máxma verossmlhança para os estmadores dos parâmetros da dstrbução SSL1,9,5,-), com 5 réplcas de tamanho gual a, 5 e 1.............................. 35 3.3 Resumo do número de terações para a convergênca dos estmadores de máxma verossmlhança em 5 réplcas de tamanho gual a, 5 e 1............ 36 3.4 Estmatvas para os parâmetros da dstrbução da varável Bf at, supondo que segue uma dstrbução SSLµ, σ, q, λ).............................. 37 3.5 Estmatvas dos elementos da matrz de covarâncas dos estmadores dos parâmetros µ, η e τ............................................ 37 4.1 Estatístcas dos resíduos................................... 51 xv
xv LISTA DE TABELAS
Capítulo 1 Introdução Exstem mutas stuações prátcas onde a usual suposção de normaldade dos dados não é a deal. Isso ocorre devdo a város problemas, um destes é a falta de smetra dos dados. Uma alternatva é a nclusão de um parâmetro, λ, para modelar a assmetra, assm tem-se a dstrbução normal assmétrca. Quando utlza-se em modelos de regressão as dstrbuções normal e normal assmétrca, estes são sensíves a presença de observações extremas ou aberrantes outlers). Assm, estudaremos como alternatva uma famíla mas geral de dstrbuções que nclu como casos partculares as dstrbuções normal e normal assmétrca. Esta famíla de dstrbuções é denomnada slash assmétrca. A dstrbução slash assmétrca possu quatro parâmetros: posção, escala, forma e assmetra. Com os parâmetros de forma e assmetra esta dstrbução é bem mas geral e bem menos sensível, sendo uma boa alternatva à dstrbução normal. O prncpal objetvo deste trabalho é dscutr os aspectos nferencas na estmação dos parâmetros das dstrbuções slash e slash assmétrca. Para tal será utlzado o enfoque clássco. Para a obtenção dos estmadores dos parâmetros serão consderados os métodos dos momentos e de máxma verossmlhança. No método de máxma verossmlhança para a obtenção dos estmadores fo utlzado o algortmo EM. Com a nclusão do parâmetro de forma, q, o algortmo ca mas lento, uma forma de acelerar o algortmo é consderar q conhecdo. Para uma escolha mas ecaz de q fo utlzado o método de Lous. Para avalar os estmadores foram realzadas smulações e aplcações em dados reas. Fo realzado também um estudo sobre um modelo de regressão lnear smples, onde fo suposto que os erros seguem a dstrbução slash assmétrca. 1.1 Organzação da dssertação A presente dssertação de mestrado está dvda em cnco capítulos. No segundo capítulo, apresentamos a denção da dstrbução slash e algumas propredades, dentre elas, os momentos, assmetra e curtose. São apresentados também os estmadores para os parâmetros do modelo pelo método dos momentos e de máxma verossmlhança. Para a avalação dos estmadores são realzadas smulações e aplcação em dados reas. No tercero capítulo, apresentamos as denções das dstrbuções normal assmétrca e slash assmétrca e algumas propredades: como os momentos, assmetra, curtose e outros. São apresentados também os estmadores de máxma verossmlhança. Para a avalação dos estmadores são realzadas smulações e aplcação em dados reas. No quarto capítulo estudamos o modelo de regressão lnear smples, onde ao nvés de supormos que os dados seguem dstrbução normal, suporemos que os dados seguem dstrbução slash assmétrca. E no qunto capítulo, são apresentadas conclusões dos resultados obtdos neste trabalho e perspectvas de trabalhos futuros. 1
INTRODUÇÃO 1.1
Capítulo Dstrbução slash smétrca Neste captulo será denda a dstrbução slash smétrca. Serão apresentadas propredades e métodos de estmação. Os estmadores apresentados são obtdos pelos métodos dos momentos e de máxma verossmlhança. No estmador de máxma verossmlhança será utlzado o algortmo EM, juntamente com o método de Lous para estmar a matrz de nformação de Fsher. São apresentados também um estudo de smulação para dos casos: q parâmetro de forma) conhecdo e desconhecdo. Será também realzada uma análse para dados reas..1 Introdução Em stuações prátcas mutas vezes a suposção de normaldade dos dados não é a deal, como quando exstem outlers. A dstrbução slash é uma alternatva à dstrbução normal. Isto ocorre porque ela possu propredades nteressantes como a dstrbução normal. Além dsso tem a dstrbução normal como caso lmte e anda possu caudas mas pesadas, o que a torna menos sensível a outlers. Wang e Genton 6) apresentam como denção para a dstrbução slash o segunte cocente S = Z SL, 1, q), q >, U 1/q onde, Z Normal, 1) ndependente de U Unforme, 1). Consderando a varável aleatóra U, unformemente dstrbuída no ntervalo,1). E a transformação M = U 1/q. Como esta transformação é bunívoca, então F M m) = P M m) = P U 1/q m) = P U m q ) = F U m q ) Sabe-se que se U Unforme, 1), então F U u) = ui,1) u) + I 1, ) u). Assm, F M m) = m q I,1) m) + I 1, ) m) = f M m) = qm q 1 I,1) m). Desta forma, U 1/q Betaq, 1). Assm, pode-se utlzar a segunte denção para a dstrbução slash. Dene-se uma varável aleatóra, S, com dstrbução Slash quando esta é dada por S = Z U SL, 1, q), q > onde, Z N ormal, 1) ndependente de U Betaq, 1). Com densdades dadas, respectvamente, por f Z z) = e z / π I R z) e f U u) = qu q 1 I,1) u) 3
4 DISTRIBUIÇÃO SLASH SIMÉTRICA.1 Na Fgura.1 encontra-se a densdade da dstrbução beta para város valores de q. fx) 4 6 8 1 Beta,1;1) Beta,;1) Beta,5;1) Beta1;1) Beta;1) Beta5;1) Beta1;1)...4.6.8 1. x Fgura.1: Densdade da dstrbução Betaq,1). Utlzando-se o método do jacobano tem-se que a densdade de S é dada por f S s) = 1 qu q φsu)du = q ) q + 1 γ 8π, s I R s), onde, φu) é a densdade da dstrbução normal padrão no ponto u. A função gama ncompleta é dada por γα, β) = Γ α) β α Ψ α, β). A função Ψ α, β) é a função dstrbução acumulada de uma varável aleatóra Gamaα, β) no ponto 1. Se q = 1, obtém-se a dstrbução slash padrão, ou na forma canônca, que possu densdade na forma smplcada { φ) φs) f S s) =, se s ; s, se s =. φ) Para obter uma dstrbução slash com parâmetros de posção e escala, quando há nteresse, basta usar a propredade de lneardade ver Wang e Genton, 6). Ou seja, se o nteresse é obter uma dstrbução com parâmetros de posção e escala, respectvamente, µ e σ é só utlzar a slash canônca, e em seguda, fazer uma transformação lnear. O modelo está, portanto, na classe dos modelos de localzação-escala. Assm se S SL, 1, q), então X = µ + σs SLµ, σ, q).
. MOMENTOS 5 Na Fgura. encontra-se a densdade da dstrbução slash para város valores de q. fx)..1..3.4 Normal;1) SL;1;,1) SL;1;,) SL;1;,5) SL;1;1) SL;1;) SL;1;5) SL;1;1) 1 5 5 1 x Fgura.: Densdade da dstrbução SL,1,q).. Momentos Seja S = Z/U SL, 1, q). Para encontrar os momentos não centras basta utlzar o fato de que Z e U são ndependentes. Assm o k-ésmo momento não central é dado por Z ES k k = E U k 1 = EZ k E U k. Desta forma, precsa-se encontrar os momentos não centras das dstrbuções normal padrão e beta. Consderando Z N ormal, 1), tem-se {, se k é ímpar; EZ k = k/ Γ k+1 ) π, se k é par. Por outro lado, se U Betaq, 1) 1 E U k = q, para q > k. q k Sendo assm, conclu-se que o k-ésmo momento não central da dstrbução slash é dado por {, se k é ímpar e q > k; ES k = k/ Γ k+1 ) q, se k é par e q > k. π q k
6 DISTRIBUIÇÃO SLASH SIMÉTRICA.3 Pode-se vercar também, que a dstrbução slash só possu esperança para q > 1, sendo ES =, e só possu varânca para q >, sendo V ars = q q ver Wang e Genton, 6). O excesso de curtose, EC, é dado por EC = ES ES)4 ES ES) 3 = ES4 ES 3 = 3 q q q 4 q ) q ) 4q + 4 3 = 3 q 1 = 4q 1 qq 4). Nota-se que só é possível calcular a curtose para q > 4, e que EC >. Assm a dstrbução slash é leptocúrtca, ou seja, possu cauda mas pesada do que a dstrbução normal. Quando q aumenta o excesso de curtose tende a zero. Para encontrar o k-ésmo momento não central de uma dstrbução slash geral é só usar a propredade da lneardade menconada anterormente...1 Estmadores pelo método dos momentos Denndo uma amostra aleatóra de tamanho n de uma varável aleatóra X. Sabe-se que o k-ésmo momento populaconal e amostral, respectvamente µ k e m k, são dados por µ k = EX k e m k = Consderando S SL, 1, q), tem-se que n =1 Xk ES =, q > 1; ES = q q, q > ; ES 3 =, q > 3; ES 4 = 3 q q 4, q > 4. Agora, utlzando o fato de que X = µ + σs SLµ, σ, q), temos que e EX = Eµ + σs = µ, q > 1; EX = Eµ + σs) = µ + σ q q, q > ; EX 3 = Eµ + σs) 3 = µ 3 + 3µσ q q, q > 3; EX 4 = Eµ + σs) 4 = µ 4 + 6µ σ q q + q 3σ4 q 4, q > 4. Igualando os momentos populaconas aos momentos amostras obtém-se os estmadores pelo método dos momentos. A equação encontrada gualando o tercero momento populaconal ao amostral não obtém nformação sobre o parâmetro q, assm precsa-se utlzar a equação do quarto momento. ˆµ m = X, q > 1; ˆσ m = n q q ˆσ, se q é conhecdo e maor que ; 4+k + 4+c ˆσ, se q é desconhecdo e maor que 4;. onde X = ˆq m = + 4 + c, se q é desconhecdo e maor que 4; n =1 X n, ˆσ n =1 = X X) 1ˆσ n e c = 4 1/n n =1 X4 X 4 6 X ˆσ. 3ˆσ 4
.3 ESTIMAÇÃO POR MÁXIMA VEROSSIMILHANÇA 7.3 Estmação por máxma verossmlhança Os estmadores de máxma verossmlhança têm a vantagem de que sua varânca assntótca é dada pelos elementos do nverso da matrz de nformação de Fsher e portanto são mas ecentes que os estmadores pelo método dos momentos. Por sso são mas utlzados do que os estmadores do método dos momentos. Os estmadores de máxma verossmlhança para os parâmetros da dstrbução slash não possuem forma fechada. Logo precsa-se utlzar métodos computaconas para encontrar os estmadores para os parâmetros dessa dstrbução. Um método bastante utlzado é o algortmo EM Esperança e Maxmzação). A dstrbução slash pode ser obtda como uma mstura de normas no parâmetro de escala ver Alberghn, 11). Sua densdade pode ser expressa por f X x) = 1 f X U x u)f U u)du,.1) onde, X U = u Normalµ, σ u ), U Betaq, 1), e X SLµ, σ, q)..3.1 Algortmo EM Quando utlza-se o algortmo EM trabalha-se com outra verossmlhança, denomnada verossmlhança completa. Assm precsa-se modcar a densdade de nteresse para que se obtenha um produto de densdades, uma condconal por uma margnal, como no ntegrando em.1. A dstrbução margnal é chamada de dados faltantes mssng values), pos não são observados e a dstrbução condconal é chamada de dados observados. Assm após observar uma amostra aleatóra de tamanho n obtemos a verossmlhança completa, composta pelos dados observados e os dados faltantes mssng values). A dstrbução slash sendo observada como mstura de normas na escala já está na forma desejada. Consdera-se como dados faltantes a varável aleatóra U. A densdade conjunta de X, U), para os dados observados e faltantes, é expressa por f X,U x, u) = quq 1 πσ e u x µ) σ I R x)i,1) u). Consderamos agora uma amostra aleatóra de tamanho n da dstrbução conjunta de X, U). Obtém-se então, a verossmlhança completa, ou seja n ) q Lθ) = q n πσ ) n/ u e =1 u x µ) =1 σ, onde θ = µ, σ, q) T. É comum utlzar-se o logartmo natural da função de verossmlhança. Pos, como a função logarítmca é estrtamente crescente, então maxmzar Lθ) é equvalente a maxmzar lθ), de modo que lθ) = loglθ)) = n logq) n logπσ ) + q logu ) =1 =1 u x µ) σ.
8 DISTRIBUIÇÃO SLASH SIMÉTRICA.3 Passo E No algortmo EM, na etapa j, precsa-se encontrar a esperança em relação a U do logartmo da função de verossmlhança condconada aos dados observados e aos parâmetros encontrados na etapa j 1. Assm Qθ, θ j 1) ) = Elθ) x, θ j 1) = n logq) n logπσ ) + q =1 β j) 1 =1 β j) x µ) σ. Para facltar os cálculos fo utlzado a segunte transformação R = U. Logo a dstrbução de R X é dada por Desta forma, f R X r x) = f X,Rx, r) f X x) = r q 1 1 r q 1 x µ) r e σ x µ) r e σ. dr e ElogU) X = ElogR 1/ ) X = 1 ElogR) X = 1 1 q 1 log r)r 1 r q 1 e x µ) r e σ x µ) r σ dr, dr EU X = ER X = 1 r q+1 x µ) r e σ 1 r q 1 e σ Manpulando as esperanças acma encontra-se β 1 e β. Assm, β j) 1 = ElogU ) x, θ j 1) = 1 γ q j 1) +1, 1 q+1 γ, 1 r x µ) ) ) x µ j 1) σ j 1) ) ) = x µ j 1) σ j 1) dr. dr 1 DGI qj 1) + 1, 1 ) x µ j 1), σ j 1) e β j) = EU x, θ j 1) = q γ j 1) +3 γ x µ j 1), 1 x µ j 1) q j 1) +1, 1 σ j 1) ) ) σ j 1) ) ), sendo DGIα, β) = logγα,β)) α 1 logr)rα 1 e βr dr. = γ α,β) γα,β) a função dgama ncompleta e γ α, β) = γα,β) α =
.3 ESTIMAÇÃO POR MÁXIMA VEROSSIMILHANÇA 9 Passo M No segundo passo, na etapa j, do algortmo precsa-se maxmzar a esperança do logartmo da verossmlhança completa em relação aos parâmetros. Para tal encontra-se as seguntes dervadas funções escore) Qθ, θ j 1) ) µ Qθ, θ j 1) ) σ = Qθ, θ j 1) ) q =1 = n σ + x µ)β j) σ ; =1 = n q + x µ) β j) σ 4 ; Igualando as dervadas a zero obtém-se que os estmadores dos parâmetros na etapa j são dados por =1 β j) 1. ˆµ mv = µ j) = n =1 βj) x, ˆσ n =1 βj) mv = σ j) ) = n =1 x ˆµ j) ) β j) n e ˆq mv = q j) = n n =1 βj) 1..3. Matrz de nformação de Fsher Os estmadores de máxma verossmlhança possuem propredades assntótcas ótmas. Consderando um vetor de parâmetros θ = µ, σ, q) T, então ˆθ a N 3 θ, I 1 F θ)). Assm os estmadores de máxma verossmlhança são assntotcamente normas, assntotcamente não vesados, E ˆθ = θ, e possuem matrz de covarâncas assntótca gual ao nverso da a matrz de nformação de Fsher. Sendo que, pelo crtéro da nformação, entre os estmadores não vesados a varânca mínma é a varânca encontrada nos elementos do nverso da nformação de Fsher. A matrz de nformação de Fsher é dada por I F θ) = E lθ) θ θ T. Exstem casos onde encontrar a matrz de nformação de Fsher é muto complcado. Nestes casos pode-se estma-la pela matrz de nformação observada, sendo esta um estmador consstente, que é dada por I O θ) = lθ) θ θ T. θ=ˆθ
1 DISTRIBUIÇÃO SLASH SIMÉTRICA.3.3.3 Método de Lous Quando utlza-se o algortmo EM, a matrz de covarâncas assntótca dos estmadores dos parâmetros dada pela matrz de nformação observada é superestmada, pos utlza-se o logartmo da função de verossmlhança completa, onde esta possu mas nformação do que a verossmlhança observada. Assm precsa-se corrgr esta estmatva, e, uma alternatva é usar o método de Lous ver Lm, 7). A proposta de Lous pode ser escrta como lθ) θ θ T Qθ, ˆθ) θ=ˆθ θ θ T θ=ˆθ lθ) V ar θ x, ˆθ θ=ˆθ. Para encontrar a estmatva da matrz de nformação observada ou esperada) precsa-se encontrar prmeramente a matrz de segundas dervadas. Assm, a 11 = =1 a 1 = a 1 = A = Qθ, ˆθ) θ θ T = θ=ˆθ β j) ˆσ ; a = n ˆσ 4 =1 =1 a 11 a 1 a 13 a 1 a a 3 a 31 a 3 a 33. x ˆµ) β j) ˆσ 6 ; a 33 = ṋ q ; x ˆµ)β j) ˆσ 4 ; a 13 = a 31 = a 3 = a 3 =. Em seguda precsa-se encontrar as dervadas da função logarítmca da verossmlhança completa. lθ) = nlogq) nlogπσ ) lθ) σ + q lθ) µ = =1 logu ) =1 = n σ + lθ) q u x µ) σ ; =1 =1 u x µ) σ 4 ; = n q + logu ). =1 u x µ) σ ; Agora, calculando a varânca das dervadas da função logarítmca da verossmlhança completa condconada aos dados e as estmatvas dos parâmetros encontradas na etapa j, tem-se que onde lθ) B = V ar θ x, θ θ=ˆθ j 1) = b 11 b 1 b 13 b 1 b b 3 b 31 b 3 b 33, b 11 = b = x ˆµ) =1 x ˆµ) 4 =1 b 33 = ˆσ 4 V aru x, θ j 1) = 4ˆσ 8 V aru x, θ j 1) = =1 =1 V arlogu ) x, θ j 1) = =1 x ˆµ) β j) 4 β j) ) ) ˆσ 4 ; x ˆµ) 4 β j) 4 β j) ) ) 4ˆσ 8 ; =1 β j) 3 β j) 1 ) );
.3 ESTIMAÇÃO POR MÁXIMA VEROSSIMILHANÇA 11 b 1 = b 1 = x ˆµ) 3 =1 ˆσ 6 V aru x, θ j 1) = =1 x ˆµ) 3 β j) 4 β j) ) ) ˆσ 6 ; b 13 = b 31 = =1 x ˆµ) ˆσ CovU x, θ j 1), logu ) x, θ j 1) ) = =1 x ˆµ)β j) 5 β j) βj) 1 ) ˆσ ; b 3 = b 3 = x ˆµ) =1 ˆσ 4 CovU x, θ j 1), logu ) x, θ j 1) ) = =1 x ˆµ) β j) 5 β j) βj) 1 ) ˆσ 4. Sendo, β j) 1 = ElogU ) x, θ j 1) = 1 β j) = EU x, θ j 1) = β j) 3 = ElogU )) x, θ j 1) = 1 4 β j) 4 = EU ) x, θ j 1) = β j) 5 = EU logu ) x, θ j 1) ) = 1 γ q j 1) +1 γ x µ j 1), 1 x µ j 1) q j 1) +1, 1 q γ j 1) +3 γ x µ j 1), 1 x µ j 1) q j 1) +1, 1 γ q j 1) +1 γ σ j 1) ) ) σ j 1) ) ) ; σ j 1) ) ) σ j 1) ) ); x µ j 1), 1 x µ j 1) q j 1) +1, 1 q γ j 1) +5 γ x µ j 1), 1 x µ j 1) q j 1) +1, 1 γ q j 1) +3 γ σ j 1) ) ) σ j 1) ) ) ; σ j 1) ) ) σ j 1) ) ); x µ j 1), 1 x µ j 1) q j 1) +1, 1 σ j 1) ) ) σ j 1) ) ). Assm, a matrz de nformação observada pelo método de Lous é dada por C = lθ) θ θ T θ=ˆθ c 11 c 1 c 13 c 1 c c 3 c 31 c 3 c 33 = a 11 + b 11 a 1 + b 1 a 13 + b 13 a 1 + b 1 a + b a 3 + b 3 a 31 + b 31 a 3 + b 3 a 33 + b 33 = c 11 = =1 ˆσ β j) x ˆµ) β j) 4 β j) ) ) ˆσ 4 ; c = =1 ˆσ 4 + 4ˆσ x ˆµ) β j) x ˆµ) 4 β j) 4 β j) ) ) 4ˆσ 8 ; c = ṋ q β j) 3 =1 β j) 1 ) ); c 1 = c 1 = =1 ˆσ x ˆµ)β j) x ˆµ) 3 β j) 4 β j) ) ) ˆσ 6 ;
1 DISTRIBUIÇÃO SLASH SIMÉTRICA.3 c 13 = c 31 = =1 x ˆµ)β j) 5 β j) βj) 1 ) ˆσ ; c 3 = c 3 = =1 x ˆµ) β j) 5 β j) βj) 1 ) ˆσ 4. Desta forma conclu-se que 1 ) ˆθ a N 3 θ, lθ) θ θ T. θ=ˆθ.3.4 Aplcando o algortmo Para utlzar o algortmo precsa-se de valores ncas para os parâmetros, pode-se utlzar as estmatvas obtdas nos estmadores pelo método dos momentos. Assm na etapa j temos sendo e µ j) = n =1 βj) x, σ ) j) = n =1 βj) β j) 1 n =1 x µ j) ) β j) n e q j) = )) = 1 DGI q j 1) + 1, 1 x µ j 1) ) σ ) j 1), β j) = γ q j 1) +3 γ, 1 x µ j 1) ) q j 1) +1, 1 x µ j 1) ) σ ) j 1) )) σ ) j 1) )). n n =1 βj) 1 Repete-se as etapas até a convergênca, para a qual costuma-se adotar um crtéro de parada, como, por exemplo θ j) θ j 1) <, para algum pequeno e maor que zero. Após a convergênca do algortmo utlza-se os valores obtdos nas etapas j e j 1 para encontrar a estmatva dos elementos da matrz de nformação pelo método de Lous. Formalmente temos o algortmo. Passo 1: Incalzar θ = µ, σ, q); Passo : Calcular β j) 1 e β j) ; Passo 3: Calcular θ j) = µ j), σ ) j), q j) ); Passo 4: Voltar ao passo. Iterar o algortmo até que se atnja um crtéro de parada como, por exemplo, θ j) θ j 1) <.,
.4 ESTUDO DE SIMULAÇÃO 13.4 Estudo de smulação No estudo de smulação fo utlzado o software R; para mas detalhes vercar os Apêndces A.1.1 e A..1 com os comandos. As réplcas foram geradas a partr da dstrbução slash com parâmetros: µ = 1, σ = 9 e q = 5. Para encontrar os estmadores serão consderados dos casos: q conhecdo e desconhecdo..4.1 1 Caso : q conhecdo Quando q é conhecdo o problema se reduz a estmar dos parâmetros, posção e escala, o que faclta os cálculos, torna o algortmo mas ecaz e a convergênca mas rápda. Foram smuladas 5 réplcas de tamanhos, 5 e 1. Os comandos estão no Apêndce A.1.1. Na Tabela.1 encontra-se um resumo das estmatvas de máxma verossmlhança e pelo método dos momentos para 5 réplcas de tamanho, 5 e 1. Tabela.1: Estmatvas para os parâmetros da dstrbução SL1,9,5), com 5 réplcas de tamanho gual a, 5 e 1. n= n=5 n=1 Estmador de máxma Estmador pelo verossmlhança método dos momentos ˆµ ˆσ ˆµ ˆσ Méda 1,3 8,511 1,9 8,4 Varânca,745 1,88,785 1,49 Mínmo 7,3,44 6,746,49 1 Quartl 9,51 6, 9,497 5,74 Medana 1,53 7,891 1, 7,55 3 Quartl 1,511 1,394 1,581 9,93 Máxmo 1,53,399 1,7 3,953 Méda 1,1 8,971 1,11 8,85 Varânca,83 4,15,31 5,17 Mínmo 8,515 4,531 8,576 4,139 1 Quartl 9,658 7,59 9,68 7,4 Medana 9,997 8,81 1,7 8,54 3 Quartl 1,391 1,396 1,44 1,4 Máxmo 11,68 17,31 11,838 18,435 Méda 1,8 8,97 1,8 8,93 Varânca,13,36,143 5,393 Mínmo 8,6 5,614 8,543 5,193 1 Quartl 9,779 7,87 9,767 7,554 Medana 1,1 8,853 1,13 8,5 3 Quartl 1,33 9,75 1,54 9,849 Máxmo 11, 15,11 11,78 4,65
14 DISTRIBUIÇÃO SLASH SIMÉTRICA.4 Na Fgura.3 pode-se vercar que as estmatvas de máxma verossmlhança vão tendendo ao verdadero valor do parâmetro quando aumenta-se a quantdade de réplcas. Verca-se também que a varabldade das estmatvas dmnuem. 7 8 9 1 11 1 5 1 15 n= n=5 n=1 n= n=5 n=1 a) b) Fgura.3: Boxplot das estmatvas de máxma verossmlhança dos parâmetros da dstrbução Slash1,9,5) consderando q conhecdo. a) estmatvas de µ e b) estmatvas de σ. Na Tabela. encontra-se o víco e o erro quadrátco médo para os estmadores de máxma verossmlhança. Tabela.: Víco e Erro Quadrátco Médo EQM) para as estmatvas dos parâmetros da dstrbução SL1,9,5), com 5 réplcas de tamanho gual a, 5 e 1. n= n=5 n=1 Estmador de máxma Estmador pelo verossmlhança método dos momentos ˆµ ˆσ ˆµ ˆσ Víco,34 -,489,9 -,795 EQM,745 11,97,784 13,99 Víco,1 -,8,11 -,195 EQM,83 4,14,31 5,134 Víco,8 -,73,7 -,77 EQM,13,361,143 5,389
.4 ESTUDO DE SIMULAÇÃO 15 Na Tabela.3 encontra-se um resumo do número de terações necessáras para a convergênca dos estmadores de máxma verossmlhança. Tabela.3: Resumo do número de terações para a convergênca dos estmadores de máxma verossmlhança em 5 réplcas de tamanho gual a, 5 e 1. n Mínmo 1 Quartl Medana Méda 3 Quartl Máxmo 9, 11, 1, 1,93 13, 37, 5 9, 11, 1, 1,78 13,, 1 1, 1, 1, 1,49 13, 18, Após analsar as Tabelas.1,. e.3 e a Fgura.3, pode-se conclur que o algortmo é ecaz na estmação dos parâmetros do modelo, consderando q conhecdo. Verca-se que o algortmo converge rapdamente. O crtéro de parada para conclur a convergênca fo que a dferença, em valor absoluto, entre a j-ésma teração e a j 1)-ésma teração é menor que 1 6 para as estmatvas dos parâmetros µ e σ. Conclu-se também que quando aumenta-se a quantdade de réplcas, o víco e o erro quadrátco médo dmnuíram. Nota-se também que os estmadores de máxma verossmlhança são melhores que os estmadores pelo método dos momentos, pos a varabldade dos estmadores de máxma verossmlhança é menor.
16 DISTRIBUIÇÃO SLASH SIMÉTRICA.4.4. Caso : q desconhecdo Quando q é desconhecdo o algortmo ca mas complcado. A estmação do q afeta na estmação dos demas parâmetros; consequentemente, o algortmo demora mas para convergr. Isso pode ser vercado nas tabelas a segur. Para estudar a convergênca do algortmo foram geradas 5 réplcas de tamanhos, 5 e 1. Como a estmatva de q pode tender ao nnto, foram consderadas somente as réplcas onde a estmatva fo nferor a. Fo escolhdo este valor porque quando o valor de q é maor que a dstrbução slash tende à dstrbução normal. Nos três tamanhos de amostra foram consderadas, respectvamente, 8, 347 e 4 réplcas váldas. Nota-se que quando aumenta o tamanho das réplcas é mas provável a acetação da suposção de que os dados seguem dstrbução slash. Pos rejeta-se menos réplcas e as estmatvas de q estão mas próxmas do verdadero valor do parâmetro. Os comandos estão no Apêndce A..1. Na Tabela.4 encontra-se um resumo das estmatvas de máxma verossmlhança e pelo método dos momentos. Tabela.4: Estmatvas para os parâmetros da dstrbução SL1,9,5), com, respectvamente, 8, 347 e 4 réplcas de tamanho gual a, 5 e 1. n= n=5 n=1 Estmador de máxma Estmador pelo verossmlhança método dos momentos ˆµ ˆσ ˆq ˆµ ˆσ ˆq Méda 1,67 7,36 5,713 1,89 7,53 4,5 Varânca,716 19,791 5,679,765 1,711,635 Mínmo 7,711,7,748 7,795,434,93 1 Quartl 9,458 3,88,463 9,534 5,165 3,568 Medana 1,19 6,447 3,399 1,55 7,15 4,175 3 Quartl 1,66 9,899 6,899 1,71 9,4 4,383 Máxmo 1,631 1,633 19,673 1,7 18,773 9,76 Méda 1,11 8,45 5,866 1,3 7,956 4,33 Varânca,95 1,137 17,134,319 8,355,11 Mínmo 8,475,579 1,557 8,487,66,13 1 Quartl 9,66 6,188 3,149 9,563 5,95 3,489 Medana 9,973 7,918 4,5 1,17 7,575 4,31 3 Quartl 1,368 1,136 6,956 1,395 9,893 4,65 Máxmo 11,814 3,4 19,817 11,838 16,16 19,11 Méda 1,4 8,76 5,9 1,1 8,94 4,835 Varânca,141 5,185 14,676,155 7,78 18,819 Mínmo 8,937 3,435,189 8,958 1,467,1 1 Quartl 9,757 7, 3,679 9,764 6,556 3,497 Medana 1, 8,434 4,57 1,6 8,18 4,493 3 Quartl 1,45 1,9 6,57 1,61 9,589 5,1 Máxmo 11,6 18,83 19,941 11,16 34,71 84,3
.4 ESTUDO DE SIMULAÇÃO 17 Na Fgura.4 pode-se vercar que as estmatvas de máxma verossmlhança vão tendendo ao verdadero valor do parâmetro quando aumenta-se a quantdade de réplcas. Verca-se também que a varabldade das estmatvas dmnuem. Nota-se anda que consderando q desconhecdo as suas estmatvas possuem uma varação muto grande, sto mostra que este parâmetro é muto sensível e que a sua modelagem necessta de muto cudado. 8 9 1 11 1 5 1 15 5 1 15 n= n=5 n=1 n= n=5 n=1 n= n=5 n=1 a) b) c) Fgura.4: Boxplot das estmatvas de máxma verossmlhança dos parâmetros da dstrbução Slash1,9,5) consderando q conhecdo. a) estmatvas de µ, b) estmatvas de σ e c) estmatvas de q. Na Tabela.5 encontra-se o víco e o erro quadrátco médo para os estmadores de máxma verossmlhança. Tabela.5: Víco e Erro Quadrátco Médo EQM) para as estmatvas dos parâmetros da dstrbução SL1,9,5), com, respectvamente, 8, 347 e 4 réplcas de tamanho gual a, 5 e 1. n= n=5 n=1 Estmador de máxma Estmador pelo verossmlhança método dos momentos ˆµ ˆσ ˆq ˆµ ˆσ ˆq Víco,67-1,674,713,89 -,41 -,948 EQM,718,56 6,74,77 14,845 1,531 Víco,1 -,548,866,3-1,51 -,667 EQM,94 1,48 17,834,319 9,41,549 Víco,4 -,73,9,1-1,4 -,165 EQM,14 5,47 15,491,155 8,81 18,8
18 DISTRIBUIÇÃO SLASH SIMÉTRICA.4 Na Tabela.6 encontra-se um resumo das terações necessáras para a convergênca dos estmadores de máxma verossmlhança. Tabela.6: Resumo do número de terações para a convergênca dos estmadores de máxma verossmlhança em, respectvamente, 8, 347 e 4 réplcas de tamanho gual a, 5 e 1. n Mínmo 1 Quartl Medana Méda 3 Quartl Máxmo 3, 9, 5, 154,8 17,5 831, 5, 3, 47, 13,1 16, 787, 1 1, 3, 44, 19,5 8,.537, Após analsar as Tabelas.4,.5 e.6 e a Fgura.4 conclu-se que o algortmo é menos ecaz quando consdera-se q desconhecdo. No entanto este também é ecaz quando se aumenta o tamanho da amostra. Verca-se que quando o tamanho da amostra aumenta a quantdade de terações necessáras para a convergênca dmnu. Para o estudo de smulação fo utlzado como crtéro de parada quando a dferença, em valor absoluto, entre a j-ésma teração e a j 1)-ésma teração é menor que 1, sso devdo a grande varabldade dos estmadores e ao tempo até a convergênca. Nota-se anda que a varabldade do estmador de q, ˆq é grande, assm quando se aplca o algortmo a dados reas sera nteressante ter uma amostra grande e anda utlzar város valores ncas para q. Percebe-se anda que quando a amostra é grande os estmadores de máxma verossmlhança são melhores que os estmadores pelo método dos momentos, sso devdo a varabldade nas estmatvas ser menor. Uma alternatva para contornar essa grande varabldade na estmatva de q é consderá-lo conhecdo e utlzar o método de Lous para avalar qual sera o melhor valor para q.
.5 APLICAÇÃO EM DADOS REAIS 19.5 Aplcação em dados reas Nesta seção será utlzado o método de Lous para melhorar o algortmo. Consderando q conhecdo, o método de Lous ajuda a escolher qual sera o melhor valor para o parâmetro, assm o algortmo converge mas rápdo. Para a aplcação foram utlzados os dados dos atletas australanos que estão no pacote sn do R, que está dsponível em http://azzaln.stat.unpd.t/sn/. Os comandos estão nos Apêndces A.1. e A... Para o teste do algortmo fo utlzado a varável Bfat, porcentagem de gordura corporal de atletas. Na Tabela.7 encontram-se algumas estatístcas sobre a varável Bf at. Tabela.7: Estatístcas para a varável Bf at. Méda Varânca Mínmo 1 Quartl Medana 3 Quartl Máxmo 13,51 38,31 5,63 8,54 11,65 18,8 35,5 Na Fgura.5 encontra-se o hstograma da varável Bf at, pode-se deduzr que a suposção de normaldade dos dados não é a deal. Densdade...4.6.8 5 1 15 5 3 35 4 Percentual de gordura corporal Bfat Fgura.5: Hstograma do percentual de gordura dos atletas australanos. Aos dados fo aplcado o teste de Shapro-Wlk, este teste tem como hpótese nula que os dados seguem dstrbução normal. Quando o teste fo aplcado encontrou-se um valor p menor que 4, 5 1 9, o que rejeta a suposção de normaldade dos dados. Assm pode-se supor que os dados seguem uma dstrbução que não seja a normal. Iremos consderar essa dstrbução como sendo a SLµ, σ, q).
DISTRIBUIÇÃO SLASH SIMÉTRICA.5 Na Tabela.8 encontram-se as estmatvas para os parâmetros da dstrbução da varável Bf at, supondo que segue uma dstrbução SLµ, σ, q). Para a convergênca do algortmo EM foram necessáras 35 terações. Tabela.8: Estmatvas para os parâmetros da dstrbução da varável Bf at, supondo que segue uma dstrbução SLµ, σ, q). Método de estmação ˆµ ˆσ ˆq Momentos 13,51,87 4,4 Máxma verossmlhança 13,45 3,5 1,44 Pelo método de Lous encontram-se as estmatvas dos elementos da matrz de covarâncas. Assm, como a amostra é razoavelmente grande pode-se dzer que ˆµ ˆσ ˆq a N 13, 45 3, 5 1, 44,, 19, 63 1, 6, 63 41, 76 65, 47 1, 6 65, 47 137, 85. Neste caso fo utlzado como crtéro de parada que a dferença, em valor absoluto, entre a j-ésma teração e a j-1)-ésma teração seja menor que 1. Quando utlza-se um crtéro mas rgoroso a estmatva de q aumenta. Utlzando como crtéro 1 4 pode-se dzer que a estmatva va para nnto, pos cresce muto. Assm, sera mas nteressante consderar q conhecdo. Mas a surge a pergunta: qual o melhor valor de q que deve-se utlzar? Para ajudar a escolher o valor de q pode-se utlzar como crtéro a aproxmação para a matrz de nformação de Fsher obtda pelo método de Lous. O valor de q tem que ser postvo, mas nos casos onde q exstem problemas. Como fo vsto quando foram calculados os momentos, os dos prmeros momentos não exstem. Assm serão consderados q, 1; 19. Para q > pode-se dzer que os dados seguem dstrbução normal, pos a dstrbução slash se aproxma da dstrbução normal. Na Tabela.9 encontram-se as estmatvas para µ e σ consderando q, 1; 19. E na Tabela.1 encontram-se as estmatvas dos elementos da matrz de covarâncas. Analsando essas tabelas conclu-se que para q =, 1 as estmatvas para a covarânca entre ˆµ e ˆσ e a varânca para ˆµ são maores. Mas obtém-se a menor estmatva para a varânca de ˆσ. Como a dferença entre as varâncas é mas sgncatva para ˆσ, então escolhe-se q =, 1. Assm, ˆµ ˆσ ) a 1, 73,, 18 N 15, 3,, 18 3, 7 No próxmo capítulo será estudada a dstrbução slash assmétrca, onde a dstrbução slash é um caso partcular. ).
.5 APLICAÇÃO EM DADOS REAIS 1 Tabela.9: Estmatvas para os parâmetros da dstrbução da varável Bf at, supondo que segue uma dstrbução SLµ, σ, q), onde q, 1; 19. ˆµ ˆσ q Iterações ˆµ ˆσ q Iterações 1,73539 15,3179,1 3 13,351 6,46481 6, 8 1,7746 15,81548, 13,3144 6,84191 6,5 8 1,8155 16,383,3 13,3536 7,1978 6,5 7 1,84358 16,7813,4 19 13,33543 7,53419 6,75 6 1,8744 17,3588,5 18 13,3447 7,8553 7, 6 1,9 17,673,6 18 13,3619 8,4434 7,5 7 1,9836 18,9364,7 17 13,37557 8,975 8, 7 1,9568 18,4987,8 16 13,38798 9,456 8,5 7 1,97535 18,8893,9 16 13,3988 9,8871 9, 7 1,99654 19,654 3, 15 13,4834 3,85 9,5 6 13,1638 19,6854 3,1 15 13,41674 3,6499 1, 6 13,3499 19,97913 3, 14 13,4418 3,98315 1,5 6 13,548,31778 3,3 14 13,438 31,948 11, 6 13,6894,6451 3,4 13 13,4367 31,57396 11,5 6 13,8447,96164 3,5 13 13,44198 31,8369 1, 6 13,11966 1,791 3,75 1 13,44673 3,794 1,5 6 13,154,39955 4, 1 13,451 3,347 13, 6 13,17751 3,3919 4,5 11 13,45486 3,5148 13,5 5 13,154 3,63336 4,5 11 13,45836 3,7181 14, 5 13,98 4,18669 4,75 1 13,4644 33,6556 15, 5 13,4 4,7319 5, 1 13,46946 33,37776 16, 5 13,5954 5,18636 5,5 9 13,47369 33,65439 17, 5 13,753 5,6398 5,5 9 13,4777 33,915 18, 5 13,8949 6,6464 5,75 8 13,4833 34,14 19, 5
DISTRIBUIÇÃO SLASH SIMÉTRICA.5 Tabela.1: Estmatvas dos componentes da matrz de covarâncas dos estmadores dos parâmetros µ e σ para q, 1; 19. q =, 1 q = 4, q = 9,,3975,1787864,191585,199841,1886841,4533856,1787864 3,73399,199841 6,359785,4533856 9,668331 q =, q = 4, 5 q = 9, 5,19944,1734599,19188,147863,188658,453879,1734599 3,866484,147863 6,59763,453879 9,81351365 q =, 3 q = 4, 5 q = 1,,837,168146,1956791,978486,18865669,39565,168146 4,167395,978486 6,71688343,39565 9,9914593 q =, 4 q = 4, 75 q = 1, 5,1997416,16698,19148,9313931,1886317,3619,16698 4,164774,9313931 6,9415787,3619 1,1795794 q =, 5 q = 5, q = 11,,1988341,1587331,1899969,88936,18865576,3589,1587331 4,3844,88936 7,1338187,3589 1,31577473 q =, 6 q = 5, 5 q = 11, 5,1979773,154759,1896943,858347,18866738,3144456,154759 4,4877747,858347 7,391136,3144456 1,419743 q =, 7 q = 5, 5 q = 1,,1971863,15113,1894819,81618,1886936,979353,15113 4,6187776,81618 7,55359964,979353 1,5313 q =, 8 q = 5, 75 q = 1, 5,19655,14636,1897834,777655,188688,8116,14636 4,7599898,777655 7,78388816,8116 1,64483 q =, 9 q = 6, q = 13,,1958893,1431499,18914517,7355645,1886774,637361,1431499 4,91319,7355645 7,965113,637361 1,75637481 q = 3, q = 6, 5 q = 13, 5,195993,13933,1894318,76998,18869937,46196,13933 5,497433,76998 8,1565161,46196 1,877756 q = 3, 1 q = 6, 5 q = 14,,194793,1354633,18896447,6871435,188691,888,1354633 5,173476,6871435 8,8944985,888 1,9917681 q = 3, q = 6, 75 q = 15,,19433,13578,18886618,65699,1887117,1983,13578 5,987853,65699 8,49737748,1983 11,378848 q = 3, 3 q = 7, q = 16,,19384,188831,1888575,634845,1887514,171551,188831 5,44845,634845 8,643359,171551 11,36519591 q = 3, 4 q = 7, 5 q = 17,,1934379,157875,1887448,584678,1886993,15187,157875 5,546771,584678 8,86766484,15187 11,4954745 q = 3, 5 q = 8, q = 18,,19377,1965,188783,5366934,1887976,1316719,1965 5,664935,5366934 9,18957568,1316719 11,68856 q = 3, 75 q = 8, 5 q = 19,,19488,116481,18865775,498341,18876556,133463,116481 5,9596,498341 9,4471599,133463 11,76564644
Capítulo 3 Dstrbução slash assmétrca Há stuações onde além de apresentar valores atípcos os dados apresentam também assmetra. Nesses casos necessta-se de um parâmetro extra, dgamos λ, para modelar a assmetra dos dados. A dstrbução slash assmétrca é uma generalzação da dstrbução slash. Quando λ = temos a dstrbução slash apresentada no capítulo anteror. A normal assmétrca também é um caso partcular, onde q. Assm como a dstrbução slash é dervada a partr da dstrbução normal, a dstrbução slash assmétrca é dervada a partr da dstrbução normal assmétrca. Sendo assm na próxma seção, den-se a dstrbução normal assmétrca e algumas de suas propredades. 3.1 Introdução Para denr-se a dstrbução slash assmétrca, que denotamos SSL, precsa-se prmero denr a dstrbução normal assmétrca, que denotamos SN. Dz-se que Z possu dstrbução normal assmétrca skew normal) padrão com parâmetro de assmetra λ, SN, 1, λ) ver Azzaln, 1985), se sua função densdade for denda da segunte forma: f Z z) = φz)φλz). Na Fgura 3.1 encontra a densdade da normal assmétrca para város valores de λ. fxx)...4.6.8 1. SN,1,1) SN,1,) SN,1,3) SN,1,4) SN,1,) SN,1, 1) SN,1, ) SN,1, 3) SN,1, 4) 4 4 x Fgura 3.1: Densdade da normal assmétrca. 3
4 DISTRIBUIÇÃO SLASH ASSIMÉTRICA 3. Esta representação gera problemas nas estmatvas de máxma verossmlhança ao utlzar o algortmo EM. Dentre eles pode-se ctar que o estmador para λ pode ser nnto, ou menos nnto, e anda que no caso onde λ = a matrz de nformação de Fsher é sngular ver Rodríguez, 5). Uma forma alternatva de representar a dstrbução SN, 1, λ) é através da representação estocástca ver Henze, 1986). Segue que Z SN, 1, λ) se Z = δy 1 + 1 δ Y, λ 1+λ. onde Y 1 HalfNormal, 1) ndependente de Y Normal, 1) e δ = Sabe-se que quando M Normal, 1), então Y = M HalfNormal, 1). Assm f Y1 = e y 1 / π I R+ y 1 ). Utlzando o método do jacobano e a varável auxlar, W = Y 1, tem-se que a dstrbução conjunta de Z, W ) é dada por f Z,W z, w) = e w / 1 1 1 z δw) π π 1 δ e 1 δ I R +w)i R z), desta forma, W HalfNormal, 1) e Z W = w Normalδw, 1 δ ). 3. Dstrbução slash assmétrca Agora, dene-se a dstrbução slash assmétrca como a dstrbução do quocente S = Z U SSL, 1, q, λ), onde Z SN, 1, λ) ndependente de U Betaq, 1). Obtém-se a dstrbução conjunta S, U, W ), utlzando a forma estocástca da normal assmétrca, como sendo f S,U,W s, u, w) = e w / 1 u 1 u s δw/u) π π 1 δ e 1 δ qu q 1 I R +w)i R s)i,1) u), tem-se que W HalfNormal, 1), S W = w, U = u) Normal δw u, 1 δ u ) e U Betaq, 1). A dstrbução slash assmétrca também possu a propredade da lneardade, assm X = µ + σs SSLµ, σ, q, λ), segue o modelo slash assmétrco de posção-escala. Assm, f X,U,W x, u, w) = π e w / 1 π u σ 1 δ e 1 u x µ σδw/u) σ 1 δ ) onde W HalfNormal, 1), S W = w, U = u) Normal Para facltar os cálculos será utlzada a segunte reparametrzação qu q 1 I R +w)i R x)i,1) u), µ + σδw u, σ 1 δ ) u ) e U Betaq, 1). Logo, η = σδ e τ = σ 1 δ. f X,U,W x, u, w) = π e w / 1 π u τ e 1 u x µ ηw/u) τ qu q 1 I R +w)i R x)i,1) u),
3.3 MOMENTOS 5 com W HalfNormal, 1), X W = w, U = u) Normalµ + ηw u, τ u ) e U Betaq, 1). Na Fgura 3. encontra-se a densdade da dstrbução slash assmétrca para város valores de λ e q. fx)..1..3.4.5.6 SSL;1; ;,1) SSL;1; ;,) SSL;1; ;,5) SSL;1; ;1) SSL;1; ;) SSL;1; ;5) SSL;1; ;1) fx)..1..3.4.5.6 SSL;1; 1;,1) SSL;1; 1;,) SSL;1; 1;,5) SSL;1; 1;1) SSL;1; 1;) SSL;1; 1;5) SSL;1; 1;1) fx)..1..3.4.5.6 SSL;1;;,1) SSL;1;;,) SSL;1;;,5) SSL;1;;1) SSL;1;;) SSL;1;;5) SSL;1;;1) 6 4 4 6 6 4 4 6 6 4 4 6 x x x fx)..1..3.4.5.6 SSL;1;;,1) SSL;1;;,) SSL;1;;,5) SSL;1;;1) SSL;1;;) SSL;1;;5) SSL;1;;1) fx)..1..3.4.5.6 SSL;1;1;,1) SSL;1;1;,) SSL;1;1;,5) SSL;1;1;1) SSL;1;1;) SSL;1;1;5) SSL;1;1;1) fx)..1..3.4.5.6 SSL;1;3;,1) SSL;1;3;,) SSL;1;3;,5) SSL;1;3;1) SSL;1;3;) SSL;1;3;5) SSL;1;3;1) 6 4 4 6 6 4 4 6 6 4 4 6 x x x Fgura 3.: Densdade da dstrbução SSLµ, σ, λ, q). 3.3 Momentos Consderemos S = Z/U SSL, 1, q, λ). Assm como no caso smétrco para encontrar os momentos não centras basta utlzar o fato de que Z e U são ndependentes. Assm, Z ES k k = E U k 1 = EZ k E U k. Desta forma precsa-se encontrar os momentos não centras da dstrbução normal assmétrca padrão e da dstrbução beta. Utlzando o fato de que a dstrbução normal assmétrca pode ser expressa como pode-se calcular o k-ésmo momento não central, para Z = δy 1 + 1 δ Y, EZ k = EδY 1 + 1 δ Y ) k = E nd. = k = k k = k ) δ 1 δ ) k EY 1 EY k, ) δ Y1 1 δ ) k Y k
6 DISTRIBUIÇÃO SLASH ASSIMÉTRICA 3.3 e Y 1 HalfNormal, 1) EY k 1 = k/ π Γ Y Normal, 1) EY k = Assm k ) = k ímpar EZ k = k = k par Por outro lado, se U Betaq, 1) 1 E U k Sendo assm, conclu-se que { k + 1 ),, se k ímpar; π Γ ) k+1, se k par. k/ δ 1 δ ) k k/ π Γ +1 ) δ 1 δ ) k k/ π Γ +1 = q, para q > k. q k ) Γ k +1 ), se k ímpar; ) Γ k +1 ), se k par. ES k = k ) = k ímpar k = k par δ 1 δ ) k k/ π Γ +1 ) δ 1 δ ) k k/ π Γ +1 ) Γ k +1 ) q q k, ) Γ k +1 ) q q k, se k ímpar e q>k; se k par e q>k. Pode-se vercar, que a dstrbução slash assmétrca só possu esperança para q > 1, sendo ES = q q 1 π δ, e só possu varânca para q >, sendo V ars = q q q δ. πq 1) 3.3.1 Assmetra e curtose Utlzando as fórmulas encontradas na seção anteror pode-se calcular os coecentes de assmetra, ASS, e de excesso de curtose, EC, da dstrbução slash assmétrca. sendo ASS = ES ES)3 ES ES) 3/ e EC = ES ES)4 ES ES) 3, ES ES) = q q q δ πq 1), q > ; 3 δ ES ES) 3 = π qδ q 3 3q q 1)q ) + 4q δ ) πq 1) 3, q > 3; ES ES) 4 = 3q q 4 8q δ 3 δ ) πq 1)q 3) + 1q 3 δ πq 1) q ) 1q4 δ 4 π q 1) 4, q > 4. Fazendo q tender ao nnto nos coecentes de assmetra e curtose encontra-se os coecentes da normal assmétrca, que são dados por lm ASS = q π δ3 4 π 1 ) 1 π δ ) 3/ e lm q EC = 8δ4 π 3) π δ ).
3.4 MÁXIMA VEROSSIMILHANÇA 7 A dstrbução slash assmétrca possu uma abrangênca maor para modelar a assmetra do que a dstrbução normal assmétrca, podendo chegar a ntervalos bem amplos se forem consderados valores pequenos para q. Quando o valor de q tende ao nnto o ntervalo se guala ao da normal assmétrca, que é -,9957;,9957 ver Rodríguez, 5). Tem-se anda, que o excesso de curtose é maor que zero, o que conclu que a dstrbução slash assmétrca também é leptocúrtca como no caso smétrco. 3.3. Estmadores pelo método dos momentos Os estmadores pelo método dos momentos para a dstrbução SSLµ, σ, q, λ) possuem formas complexas, o que os tornam nváves, ou até mpossíves de serem obtdos. No entanto consderando a dstrbução slash assmétrca, SSL, 1, q, λ) os estmadores podem ser obtdos. Levando em consderação o prmero e o segundo momentos amostras e populaconas obtém-se que os estmadores são ˆq m = n =1 x n =1 x n e ˆλm = ) sendo que x ˆqm ˆq m 1 π, π, para sua exstênca. Na normal assmétrca o ntervalo para x é dado por x π,. π πˆqm 1) x, 1 πˆqm 1) x ˆq m Comparando-se os estmadores pelo método dos momentos da slash assmétrca com os da normal assmétrca nota-se que o ntervalo de restrção de x é até duas vezes maor que na normal assmétrca ver Rodríguez, 5). E conforme o q aumenta o ntervalo va se equparando ao ntervalo da normal assmétrca, como era de se esperar. Assm, como exste uma restrção com relação aos dados, sso é um problema na escolha desse método de estmação, tem-se também que a estmatva de λ pode dvergr. Verca-se anda que os problemas encontrados na dstrbução normal assmétrca exstem também na slash assmétrca. 3.4 Máxma verossmlhança Os estmadores de máxma verossmlhança para os parâmetros da dstrbução slash assmétrca assm como da dstrbução slash não possuem forma fechada. Desta forma, precsa-se utlzar métodos computaconas para encontrar estmadores para os parâmetros dessa dstrbução. Um método bastante utlzado é o algortmo EM Esperança e Maxmzação). A dstrbução slash assmétrca pode ser obtda como uma mstura de normas nos parâmetros de posção e escala. Que pode ser expressa por f X x) = f X W,U x w, u)f W w)f U u)dudw, onde, X W = w, U = u) Normal µ + ηw u ),, τ W HalfNormal, 1), U Betaq, 1), u X SSLµ, σ λ, q, λ), η = σ e τ = σ 1+λ 1+λ.