MISTURAS DE ESCALA DA DISTRIBUIÇÃO NORMAL ASSIMÉTRICA COM DADOS FALTANTES. Camila Xavier Sá Peixoto Pinheiro

Transcrição

1 MISTURAS DE ESCALA DA DISTRIBUIÇÃO NORMAL ASSIMÉTRICA COM DADOS FALTANTES Camla Xaver Sá Pexoto Pnhero Dssertação de Mestrado apresentada ao Programa de Pós-graduação em Matemátca, da Unversdade Federal do Amazonas, como parte dos requstos necessáros à obtenção do título de Mestre em Matemátca Orentador: Celso Rômulo Barbosa Cabral Manaus Mao de 2016

2

3 Xaver Sá Pexoto Pnhero, Camla Msturas de Escala da Dstrbução Normal Assmétrca com Dados Faltantes/Camla Xaver Sá Pexoto Pnhero. Manaus: UFAM/ICE, X, 41 p.: l.; 29,7cm. Orentador: Celso Rômulo Barbosa Cabral Dssertação (mestrado) UFAM/ICE, Lnha de Pesqusa: Estatístca, Referêncas Bblográfcas: p Algortmos MCMC. 2. Normal assmétrca. 3. Msturas de escala da normal assmétrca. 4. Dados faltantes. I. Rômulo Barbosa Cabral, Celso. II. Unversdade Federal do Amazonas, UFAM, Lnha de Pesqusa: Estatístca. III. Título.

4 Dedcado ao Professor Celso Rômulo B. Cabral. v

5 Agradecmentos Agradeço, Às mnhas tas, Dana e Amazoneda, pelo apoo, educação e exemplo de mulheres fortes e determnadas. Ao meu pa pela educação e amor. À mnha mãe e à mnha rmã pelas orações e pela torcda. Aos amgos da UFAM Carna, Carla, Márca e Nelson pelo eterno apoo e pela ajuda dreta no trabalho. Ao Dego pelo suporte computaconal crucal para conclusão do trabalho. À Márca Brandão pelo ncentvo dáro na reta fnal do trabalho, tendo partcpação mportante para que o mesmo fosse fnalzado. Aos amgos que me deram palavras de ncentvo em momentos dfíces. Ao Professor Celso pela dedcação, orentação, por acredtar em mm, mas do que eu mesma e por sempre me ncentvar a segur em frente mesmo dante das adversdades. Ao Professor Aldo Medna por suas sugestões e auxílo na execução da nossa proposta. Aos Professores do Departamento de Estatístca da UFAM pelos ensnamentos. Ao Professor James Dean por ter doado o computador que me acompanhou nessa trajetóra e ao Professor Max por conceder alguns das de seu computador pessoal para smulações. Ao Gulherme Hasmoto por ceder seu computador para me ajudar nas smulações. À CAPES pelo apoo fnancero. v

6 Resumo da Dssertação apresentada ao Programa de Pós-Graduação em Matemátca, da Unversdade Federal do Amazonas, como parte dos requstos necessáros para a obtenção do grau de Mestre em Matemátca. (M.Sc.) MISTURAS DE ESCALA DA DISTRIBUIÇÃO NORMAL ASSIMÉTRICA COM DADOS FALTANTES Camla Xaver Sá Pexoto Pnhero Mao/2016 Orentador: Celso Rômulo Barbosa Cabral Lnha de Pesqusa: Estatístca Neste trabalho estudamos uma ferramenta de estmação para modelos sob a classe de msturas de escala da dstrbução normal assmétrca multvarada onde valores faltantes ocorrem nos dados. Desta forma, apresentamos uma proposta utlzando tas modelos flexíves e algortmos computaconas para a análse de dados multvarados com comportamento que foge do padrão usual da dstrbução normal e outras dstrbuções smétrcas usuas, apresentando forte assmetra e caudas pesadas. Além dsso, mostramos a efcênca da aplcação da modelagem sugerda e do método de estmação proposto, por meo de estudos de smulação computaconal, analsando a qualdade dos estmadores va estudos de víco e erro quadrátco médo e comparando dferentes modelos va crtéros de seleção. A abordagem nferencal utlzada fo a Bayesana, utlzando os métodos MCMC tradconas para obter gerações de amostras da dstrbução a posteror. v

7 Sumáro Lsta de Fguras Lsta de Tabelas x x 1 Introdução Modelagem para Dados Multvarados com Observações Faltantes Estrutura do Trabalho Dstrbução Normal Assmétrca Multvarada e Famíla SMSN Notação A Dstrbução Normal Assmétrca e a Famíla SMSN Dstrbução t de Student Assmétrca (St) Dstrbução Slash Assmétrca (SSL) Dstrbução Normal Contamnada Assmétrca (SCN) A Famíla SMN Representação Estocástca da Famíla SMSN Modelo SMSN com dados faltantes A Função de Verossmlhança e Prncpas Resultados Dstrbuções a Pror O Algortmo MCMC O Amostrador de Gbbs Comparação de modelos DIC WAIC v

8 6 Aplcação com Dados Smulados e Reas Estudo de Smulação I Estudo de Smulação II Análse de Dados Reas Australan Insttute of Sport Data Conclusões e Pesqusas Futuras 36 Referêncas Bblográfcas 37 v

9 Lsta de Fguras 6.1 Vés e EQM das estmatvas de µ 1, µ 2 e µ 3 para os dados smulados. Prmera coluna, vés. Segunda coluna, EQM Vés e EQM das estmatvas de 1, 2 e 3 para os dados smulados. Prmera lnha, vés. Segunda lnha, EQM Vés para os dados smulados. Prmera lnha, Γ 11, Γ 12 e Γ 13. Segunda lnha, Γ 22, Γ 23 e Γ EQM para os dados smulados. Prmera lnha, Γ 11, Γ 12 e Γ 13. Segunda lnha, Γ 22, Γ 23 e Γ Dagrama de dspersão e hstogramas das varáves BMI e LBM Prmera e segunda colunas: traceplot e hstograma de µ 1 e µ 2. Tercera e quarta colunas traceplot e hstograma de 1 e Traceplot e hstograma de Γ 11, Γ 12 e Γ Traceplot e hstograma de ν x

10 Lsta de Tabelas 6.1 Vés e EQM para as estmatvas para dferentes percentuas de dados faltantes e dferentes modelos Proporção de vezes em que um dos modelos fo melhor do que os demas através dos métodos de comparação DIC e WAIC, para dferentes percentuas de faltantes Crtéros de seleção para os modelos da famíla SMNSN aplcados aos dados AIS Estmatvas dos parâmetros para o conjunto de dados AIS. A sgla dp denota o desvo padrão, LI e LS representam os lmtes nferor e superor do ntervalo de credbldade a posteror x

11 Capítulo 1 Introdução 1.1 Modelagem para Dados Multvarados com Observações Faltantes O objetvo geral deste trabalho é construr uma ferramenta de estmação para modelos de msturas de escala da dstrbução normal assmétrca (SMSN, scale mxture of skew-normal, em nglês) multvarada onde valores faltantes ocorrem nos dados, (mssng data, em nglês). Além dsso, pretendemos mostrar a efcênca da aplcação da modelagem sugerda e do método de estmação proposto, por meo de estudos de smulação computaconal, analsando a qualdade dos estmadores va estudos de víco e erro quadrátco médo e comparando dferentes modelos va crtéros de seleção. Dados faltantes ocorrem com frequênca na prátca, nas mas dversas áreas. A presença de dados faltantes pode acarretar números problemas na análse nferencal, tas como vés nas estmatvas dos parâmetros. Exstem dversas técncas para ldar com o problema, algumas não recomendáves, como a exclusão completa de casos, e outras que se mostraram bastante efcentes em dversas aplcações, como a mputação múltpla. Para uma revsão detalhada sobre o tema, ver van Buuren (2012). A lteratura para dados multvarados faltantes com dstrbução normal está bem consoldada em trabalhos como os de Anderson (1957), Hockng & Smth (1968), Rubn (1987), Lu (1999) e Sun & Sun (2006). Para a análse de dados com observações ncompletas, métodos baseados em algortmos para mputação tem sdo bastante utlzados 1

12 nos últmos anos, como o EM (Dempster et al., 1977, Expectaton-Maxmzaton) e o DA (Tanner & Wong, 1987, Data Augmentaton). A suposção de normaldade é uma das hpóteses utlzadas com mas frequênca na modelagem estatístca. Embora dados reas raramente comportem-se de acordo com esta suposção, mutas vezes é convenente, prncpalmente por razões de tratabldade matemátca, assumr que os dados são provenentes de uma dstrbução normal. Porém, sabemos que na prátca os dados podem ser assmétrcos, não-negatvos, possur múltplas modas ou ter caudas pesadas, sso para ctar alguns desvos da normaldade. No caso de observações faltantes, sso cra uma evdente ncompatbldade entre dados observados e mputados, o que pode afetar de forma negatva as estmatvas de nteresse. Consderando a possbldade de modelar dados provenentes de dstrbuções com caudas mas pesadas que a da normal, Lu (1995) consdera o método de mputação múltpla para a dstrbução t multvarada. Para avalar a efcáca da mputação múltpla no contexto de observações multvaradas, Demrtas et al. (2008) analsaram o desempenho do método sob o modelo normal com covarâncas não estruturadas em uma ampla gama de conjuntos de dados ncompletos smulados que apresentam dferentes característcas dstrbutvas como dstorção e multmodaldade, conclundo que, para amostras grandes (n > 400) a mputação múltpla sob a suposção de normaldade é uma ferramenta bastante razoável, mesmo quando o pressuposto de normaldade é claramente volado. No entanto, anda permanece a questão sobre amostras de tamanho pequeno ou moderado provenentes de populações com desvos da normaldade. Ln et al. (2009) propuseram algortmos do tpo EM e MCMC para estmação dos parâmetros e mputação dos dados faltantes no modelo normal assmétrco multvarado de Azzaln & Dalla Valle (1996), que é uma dstrbução que estende a normal através da ncorporação de um vetor de parâmetros que regula a assmetra. Este trabalho fo estenddo em Ln & Chy (2011), onde é consderada a dstrbução t de Student assmétrca de Sahu et al. (2003), que é uma extensão da dstrbução t de Student usual ncorporando assmetra. Neste trabalho propomos uma extensão das propostas de Ln et al. (2009) e Ln & Chy (2011), por meo da modelagem de dados com observações faltantes utlzado a classe das msturas de escala das normas assmétrcas. Esta classe de dstrbuções contém dversos modelos que estendem o modelo normal, através da ncorporação de 2

13 parâmetros que regulam ao mesmo tempo assmetra e caudas pesadas. Estão nesta classe dstrbuções conhecdas, como a própra normal, a slash, a normal contamnada, a t de Student, e versões assmetrzadas destas dstrbuções. Neste trabalho adotaremos a abordagem nferencal Bayesana. Uma justfcatva para sto são os problemas assocados ao procedmento por máxma verossmlhança (ML) no caso da dstrbução normal assmétrca. Como descrto em Bayes & Branco (2007), no método ML: () podemos obter uma estmatva nfnta para o parâmetro de forma, () a matrz de nformação é sngular quando o parâmetro de forma é zero, e () podem ocorrer máxmos locas. 1.2 Estrutura do Trabalho Esta dssertação de mestrado está dvdda em sete capítulos. No Capítulo 2, é apresentada a famíla de dstrbuções multvaradas de msturas de escala da normal assmétrca, apresentando algumas propredades útes no contexto de análse para dados faltantes, como a representação estocástca da famíla. No Capítulo 3 é apresentado o modelo SMSN para análse de dados com observações faltantes. No Capítulo 4 apresentamos um algortmo tpo MCMC para estmação a posteror dos parâmetros do modelo proposto. No Capítulo 5 apresentamos os crtéros que serão utlzados para comparar os dferentes modelos da famíla SMSN nas aplcações com dados reas e smulados. No Capítulo 6 mostramos dos estudos de smulação, com o objetvo de avalar a performance da metodologa proposta, e também uma aplcação com dados reas. No Capítulo 7 são apresentadas as conclusões do trabalho e as pesqusas futuras. 3

14 Capítulo 2 Dstrbução Normal Assmétrca Multvarada e Famíla SMSN 2.1 Notação Prmeramente, vamos ntroduzr notações que serão utlzadas ao longo do trabalho. No que segue, em geral, utlzaremos a notação tradconal denotando uma varável aleatóra ou vetor aleatóro por letra maúscula e a correspondente realzação por letra mnúscula (utlzaremos letras em negrto no caso de vetores e matrzes, aleatóros ou não). A j é a entrada (, j) da matrz A. A é a transposta de A. 0 p q é a matrz nula de ordem p q, I q é a matrz dentdade de ordem q (os índces rão desaparecer quando não houver possbldade de confusão). dag{a 1,...,a p } denota uma matrz dagonal p p com os elementos a 1,...,a p na dagonal prncpal. D = block dag{d 11,D 22 } representa uma matrz partconada, denomnada block dagonal, ou seja, D = D D 22. Utlzamos os símbolos d e nd para denotar varáves aleatóras ndependentes e dentcamente dstrbuídas and ndependentes, respectvamente. Y N p (µ, Ω) denota um vetor aleatóro com dstrbução normal p varada com vetor de médas µ e matrz de covarâncas Ω. A densdade correspondente é denotada por N p ( µ, Ω). Φ( ) é a função de dstrbução da normal padrão. Ω 1/2 é a raz qua- 4

15 drada de uma matrz postva defnda Ω, sto é, uma matrz postva defnda que satsfaz Ω 1/2 Ω 1/2 = Ω. A raz quadrada de Ω 1 é denotada por Ω 1/2 = (Ω 1 ) 1/2. A raz quadrada é únca veja, por exemplo, Gentle (2007, Sec ). det(ω) e tr(ω) são o determnante e o traço de Ω, respectvamente. 2.2 A Dstrbução Normal Assmétrca e a Famíla SMSN A suposção de normaldade é rotnera na análse de dados, mas tal condção frequentemente é volada em stuações reas, especalmente quando há a presença de forte assmetra e/ou caudas pesadas. Na prátca, é comum encontrar dados com as característcas ctadas, por exemplo, dados de renda famlar. A classe das dstrbuções SMSN possblta a acomodação smultânea de assmetra e caudas pesadas, sendo assm uma alternatva vável à dstrbução normal. Antes de defnrmos a famíla SMSN, precsamos estabelecer o conceto de dstrbução normal assmétrca. O estudo de extensões da dstrbução normal ncorporando assmetra, ou dstrbução normal assmétrca (skew-normal,sn), tem uma longa hstóra na lteratura de probabldade e estatístca. Contudo, não há dúvdas de que a abordagem mas famosa fo a dada por Adelch Azzaln e colegas, quando eles apresentaram extensões para a dstrbução normal unvarada e multvarada em artgos como Azzaln (1985) e Azzaln & Dalla Valle (1996), respectvamente, segudos por Arellano-Valle & Azzaln (2006). Aqu será utlzada uma defnção de dstrbução normal assmétrca como membro da famíla de dstrbução normal assmétrca fundamental, apresentada por Arellano- Valle & Genton (2005). Defnção 1. Dzemos que um vetor aleatóro Z p-dmensonal tem dstrbução normal assmétrca padrão, com notação Z SN(λ), se sua densdade é dada por SN p (z λ) = 2N p (z 0,I)Φ(λ z), onde, λ : p 1 é um vetor de parâmetros que regula a forma da dstrbução. Parâmetros de locação e dspersão podem ser ntroduzdos consderando a transformação Y = ξ + Ω 1/2 Z, onde ξ : p 1 é um vetor de constantes e Ω : p p é uma 5

16 matrz postva defnda. Dessa forma, a dstrbução normal assmétrca pode ser descrta de acordo com a defnção que segue. Defnção 2. Um vetor aleatóro p-dmensonal X tem dstrbução normal assmétrca com vetor de locação µ : p 1, matrz de dspersão (postva defnda) Ω : p p e vetor de forma λ : p 1, com notação X SN p (µ, Ω, λ), se sua densdade é dada por SN p (x µ, Ω, λ) = 2N p (x µ, Ω)Φ(λ Ω 1/2 (x µ)). (2.1) Note que o caso em que λ = 0 corresponde à dstrbução normal usual. A opção de utlzar essa versão é apenas uma questão de escolha e convenênca. De fato, a prátca mostra que, a fm de estender os modelos baseados na normal clássca, como modelos de regressão de posto completo, modelos de efetos mstos e modelos com erros nas varáves a versão (2.1) da normal assmétrca apresenta algumas vantagens sobre os competdores, notavelmente quando se comparam os aspectos computaconas. Agora ntroduzmos o conceto mas mportante desse trabalho. Defnção 3. A dstrbução de um vetor p-dmensonal Y pertence a famíla de msturas de escala da normal assmétrca (SMSN), quando: Y = µ +U 1/2 X, onde, µ : p 1 é um vetor de constantes, X SN p (0, Ω, λ) e U é uma varável aleatóra postva (com probabldade 1), ndependente de X, com função de dstrbução H( ν). Aqu ν é um parâmetro de ndexação da dstrbução de U,que pode ser um escalar ou um vetor. U é uma varável aleatóra conhecda como fator de escala. H(. ν) é chamada função de dstrbução de mstura. A notação que será utlzada é Y SMSN p (µ, Ω, λ, ν). Observe que aqu há um certo abuso de notação, por omssão de H. A famíla SMSN fo defnda ncalmente por Branco & Dey (2001). Temos que Y U = u SN p (µ,u 1 Ω, λ), U H( ν), mplcando que a densdade margnal de Y é SMSN p (y µ, Ω, λ, ν) = 2 N p (y µ,u 1 Ω)Φ(u 1/2 λ Ω 1/2 (y µ))dh(u ν). (2.2) 0 6

17 Nas próxmas sessões serão apresentados os dferentes membros da famíla SMSN que serão usados na nossa proposta levando em conta algumas possbldades da dstrbução do fator de escala U. Observe que a dstrbução SN corresponde ao caso em que U é degenerada em 1, ou seja, P[U = 1] = 1. Para mas detalhes sobre a famíla de dstrbuções SMSN veja Lachos & Labra (2014) Dstrbução t de Student Assmétrca (St) A dstrbução t de Student multvarada é uma extensão da tradconal dstrbução t de Student que, como é de amplo conhecmento, tem um papel central na teora estatístca. Possu aplcações nas mas dversas áreas, como uma alternatva ao uso da dstrbução normal, em stuações onde a dstrbução dos dados apresenta caudas pesadas. Estas áreas ncluem, por exemplo, econometra (Yang & Yuan, 2016), engenhara (Vdal & Castro, 2010), reconhecmento de padrões (We, 2012) e medcna (Nguyen & Wu, 2012). Para um texto com uma teora abrangente envolvendo a dstrbução t de Student multvarada, veja Kotz & Nadarajah (2004). Dzemos que um vetor aleatóro p dmensonal Y tem dstrbução t de Student p varada com vetor de médas µ, matrz de escala Σ e ν graus de lberdade, quando a sua densdade é dada por t p (y µ, Σ,ν) = p+ν Γ( 2 ) ( Γ( ν 2 )π p/2 ν p/2 Σ 1/2 1 + d ) Σ(y, µ) (p+ν)/2, (2.3) ν onde Γ( ) é a função gamma e d Σ (y, µ) = (y µ)σ 1 (y µ) é a dstânca de Mahalanobs ao quadrado. Neste caso, usamos a notação Y t p (µ, Σ,ν). Uma extensão da dstrbução t de Student ncorporando assmetra é a dstrbução t de Student assmétrca (skew-t, St) com ν graus de lberdade, com notação St p (µ, Ω, λ,ν), que é obtda fazendo U Gamma(ν/2,ν/2), ν > 0 na Defnção 3. Utlzando argumentos smlares aos utlzados em Gupta (2003), é possível provar que a densdade de Y é dada por St p (y µ, Ω, λ,ν) = 2t p (y µ, Ω,ν)T [ ( ) ν + p 1/2 λ Ω 1/2 (y µ) ν + p], ν + d Ω (y, µ) onde T( ν + p) é a função de dstrbução acumulada da t de Student padrão unvarada 7

18 (ou seja, com méda zero e escala 1) e ν + p são seus graus de lberdade. O vetor de médas e a matrz de covarâncas de Y são dados respectvamente por onde δ = λ/(1 + λ λ) 1/2. E[Y] = µ + ν π Γ((ν 1)/2) Ω 1/2 δ; Γ(ν/2) Var[Y] = ν ( ) Γ((ν 1)/2) 2 ν 2 Ω (ν/π) Ωδδ. Γ(ν/2) Note que se λ é o vetor nulo, então recuperamos a dstrbução t de Student smétrca. No contexto de modelos smétrcos, a dstrbução t de Student torna-se uma alternatva à dstrbução normal para ldar com valores extremos, já que apresenta caudas mas pesadas que a normal, podendo proporconar ajustes mas robustos. Isso por que a t de Student apresenta um atratvo adconal: o parâmetro extra ν pode ser entenddo como o responsável pela acomodação de valores extremos. Evdentemente essa nterpretação estende-se ao contexto da dstrbução t de Student assmétrca Dstrbução Slash Assmétrca (SSL) A dstrbução Slash assmétrca (skew slash, SSL), denotada por SSL p (µ, Ω, λ,ν), é mas um modelo que possu caudas pesadas e assmetra. Essa dstrbução pode ser obtda utlzando a Defnção 3, fazendo U Beta(ν,1) com ν > 0, onde Beta(a,b) denota a dstrbução Beta com parâmetros a > 0 e b > 0, cuja densdade é dada por f (u) = u a 1 (1 u) b 1 Γ(a + b) Γ(a) + Γ(b), 0 < u < 1. Assm, a densdade de Y SSL p (µ, Ω, λ,ν) é dada por 1 SSL p (y µ, Ω, λ,ν) = 2ν u ν 1 N p (y µ,u 1 Ω)Φ(u 1/2 λ Ω 1/2 (y µ))du, 0 8

19 que pode ser avalada usando a função do R ntegrate (R Core Team, 2016). O vetor de médas e a matrz de covarâncas são respectvamente dados por E[Y] = µ + Var[Y] = 2 π ν ν 1 Ω (2/π) 2ν 2ν 1 Ω1/2 δ, ν > 1/2; ( ) 2ν 2 Ω 1/2 δδ Ω 1/2, ν > 1. 2ν Dstrbução Normal Contamnada Assmétrca (SCN) A dstrbução normal contamnada assmétrca (skew contamnated normal, SCN), é obtda na Defnção 3 quando o fator de escala U é uma varável aleatóra bnára com P(U = τ) = ρ e P(U = 1) = 1 ρ, onde 0 < τ, ρ < 1 (e portanto ν = (τ,ρ) ). Neste caso, usamos a notação Y SCN p (µ, Ω, λ, ν). A densdade de Y é dada por SCN p (y µ, Ω, λ, ν) = { } 2 ρn p (y µ,τ 1 Ω)Φ(τ 1/2 λ Ω 1/2 (y µ)) + (1 ρ)n p (y µ, Ω)Φ(λ Ω 1/2 (y µ). Os parâmetros ρ e τ ndcam a proporção de outlers e o grau de contamnação, respectvamente. O vetor de médas e matrz de covarâncas são dados respectvamente por A Famíla SMN ( 2 ρ E[Y] = µ + π ( ρ ) Var[Y] = τ + 1 ν 1 Ω 2 π τ 1/2 + 1 ρ ) Ω 1/2 δ ( ρ τ 1/2 + 1 ν 1 ) 2 Ωδδ. Se na Defnção 3 fzermos λ = 0, teremos a famíla de msturas de escala da dstrbução normal (SMN), como defnda em Andrews & Mallows (1974) (ver também Lange & Snshem (1993)). Neste caso teremos, como casos partculares, as já ctadas dstrbuções t de Student e normal, e as dstrbuções slash e normal contamnada. 9

20 2.2.5 Representação Estocástca da Famíla SMSN Por razões computaconas utlzamos uma parametrzação sugerda por Lachos & Labra (2014) que é dada da segunte forma: = Ω 1/2 δ, Γ = Ω 1/2 (I δ δ )Ω 1/2 = Ω, (2.4) É possível recuperar os parâmetros orgnas λ e Ω utlzando as relações λ = (Γ + ) 1/2 [1 (Γ + ) 1 ] 1/2, Ω = Γ +. (2.5) No que segue, utlzamos esta parametrzação ou a parametrzação orgnal conforme a convenênca. A proposção a segur uma representação estocástca para a famíla SMSN é fundamental para a nossa teora. A demonstração é consequênca da Proposção 2.2 de Arellano-Valle & Genton (2005). A partr deste resultado, é possível obter um algortmo do tpo Gbbs relatvamente smples, com o objetvo de proceder estmação Bayesana para os parâmetros dos modelos que remos propor. Metodologa smlar a que usaremos aqu fo utlzada com sucesso em outros trabalhos que estendem modelos baseados na suposção de normaldade como, por exemplo, Lachos et al. (2009a), Lachos et al. (2009b), Cancho et al. (2010), Cabral et al. (2012) e Garay et al. (2015). Proposção 1. Y SMSN p (µ, Ω, λ, ν) admte a segunte representação estocástca Y U = u,t = t N p (µ + t,u 1 Γ); T U = u TN(0,u 1,(0, )); U H( ν), onde e Γ são como em (2.4), e TN(ξ,σ 2,(a,b)) denota a dstrbução normal truncada no ntervalo (a,b), onde ξ e σ 2 são a méda e a varânca, respectvamente, antes do truncamento. Note que essa proposção pode ser usada para gerar amostras artfcas de modelos SMSN, além de possbltar obter a dstrbução de uma transformação lnear AY, onde A é uma matrz q p, segundo o próxmo coroláro. 10

21 Coroláro 1. Consderando a parametrzação (2.4), seja A : q p e Y SMSN p (µ, Γ,, ν). Então AY SMSN q (Aµ,AΓA,A, ν). Para recuperar os parâmetros orgnas basta usar os resultados em (2.5). 11

22 Capítulo 3 Modelo SMSN com dados faltantes 3.1 A Função de Verossmlhança e Prncpas Resultados Suponha que temos observações ndependentes em n ndvíduos, Y 1,Y 2,...,Y n, onde cada Y SMSN p (µ, Ω, λ, ν), = 1,2,...,n. Para cada, vamos partconar o vetor Y na forma Y = (Y o,ym ), onde Yo : p o 1 é um vetor com as coordenadas observadas e Y m : p m 1 é o vetor com as coordenadas que contém as observações faltantes. É mportante observar que o conjunto de índces da partção depende da observação. Ao longo da nossa exposção, vamos supor que o mecansmo gerador de observações faltantes é do tpo MAR (mssng at random), como proposto por Rubn (1976), o que sgnfca que o mecansmo de geração depende somente dos valores observados. Esta hpótese também fo utlzada em Ln et al. (2009) e Ln & Chy (2011). Consdere que µ = ((µ o ),(µ m ) ), = (( o ),( m ) ) e Γ = Γoo Γ mo Γ om Γ mm são as partções correspondentes de µ, e Γ. Além dsso, vamos consderar uma representação herárquca para Y baseada na Proposção 1, ou seja, Y U = u,t = t N p (µ + t,u 1 Γ); (3.1) T U = u TN(0,u 1,(0, )); (3.2) U H( ν), = 1,...,n. (3.3) Temos então os seguntes resultados, que serão utlzados na elaboração do algortmo para 12

23 estmação no modelo que remos propor: Proposção 2. () A dstrbução condconal de Y m dado Y o = y o, T = t e U = u é Y m Y o = y o,t = t,u = u N p m (µ m + m t + Γ mo (Γ oo ) 1 (y o µ o o t ),u 1 Γ mm.o ), onde Γ mm.o = Γ mm Γ mo (Γ oo ) 1 Γ om ; () A dstrbução condconal de Y m dado T = t e U = u é Y m T = t,u = u N p m (µ m + m t,u 1 Γ mm ); () A dstrbução condconal de T dado Y o = y o e U = u é T Y o = y o,u = u TN(µ T,u 1 MT 2,(0, )), onde µ T = MT 2 ( o ) (Γ oo ) 1 (y o µo ) e M2 T = 1/(1 + ( o ) (Γ oo ) 1 o ). (v) Se U Gamma(ν/2,ν/2), ν > 0, a dstrbução condconal de T dado Y o = yo é ( Tt (y o µ o ) Ω 1 oo o, (d Ωoo (yo, µo ) + ν)(1 ( o ) (Ω oo ) 1 o ) ν + p o que é uma dstrbução t de Student truncada em (0, ). ) ),ν + p o,(0, ), Demonstração. O resultado () é consequênca de (3.1) e do clássco resultado sobre dstrbução condconal de subvetores de um vetor aleatóro com dstrbução normal multvarada, ver Marda et al. (1979, Teorema 3.2.4). O resultado () é consequênca de (3.1) e do fato de que subvetores de um vetor com dstrbução normal multvarada também tem dstrbução normal multvarada (Marda et al., 1979, Teorema 3.2.3). Os resultados () e (v) serão demonstrados em um únco bloco. Novamente utlzando (3.1) e o Teorema de Marda et al. (1979), vem que Y o U = u,t = t N p o (µ o + o t,u 1 Γ oo ). (3.4) No que segue, para vetores aleatóros arbtráros X e Y, π(x y) denota a densdade cond- 13

24 conal de X Y = y. Então, a dstrbução conjunta de Y o, T e U é dada por π(y o,t,u ) = π(y o t,u )π(t u )π(u ) { u po /2 exp u } 2 (yo µ o o t ) (Γ oo ) 1 (y o µ o o t ) (3.5) { u 1/2 exp u } 2 t2 I (0, ) (t ) (3.6) { u ν/2 1 exp ν } 2 u = u (po +1+ν)/2 1 I (0, ) (t ) { exp u [ (y o 2 µ o o t) (Γ oo ) 1 (y o µ o o t ) +t 2 + ν ]} = u (po +1+ν)/2 1 I (0, ) (t ) { u 2 exp [ (y 0 µ o ) (Γ oo ) 1 (y o µ 0 ) 2(y 0 µ o ) (Γ oo ) 1 o t + ( o ) (Γ oo ) 1 o t 2 +t 2 + ν ]} = u (po +1+ν)/2 1 I (0, ) (t ) { exp u [ (y o 2 µ o ) (Γ oo ) 1 (y o µ o ) 2(y o µ o ) (Γ oo ) 1 o t + (( o ) (Γ oo ) 1 o + 1)t 2 + ν ]}, (3.7) onde I B ( ) denota a função ndcadora, sto é, I B (t ) = 1 se t B e I B (t ) = 0 caso contráro. Observe que, utlzando as equações (3.5) e (3.6), podemos obter a dstrbução condconal de T Y o = y o,u = u, que é dada por π(t y o,u ) π(y o t,u )π(t u ) { exp u [ 2(y o 2 µ o ) (Γ oo ) 1 o t + ( o ) (Γ oo ) 1 o t 2 ] } { exp u } I (0, ) (t ) = exp { u 2 2 t2 [ 2(y o µ o ) (Γ oo ) 1 o t + (1 + ( o ) (Γ oo ) 1 o )t 2 ] } I (0, ) (t ), que é exatamente o núcleo da dstrbução normal truncada dada no tem (). Vamos agora obter o resultado (v). Utlzando (2.5) e o exercíco 2.9 de Rao (1973), obtemos (Γ oo ) 1 = (Ω oo = (Ω oo = (Ω oo o ( o ) ) 1 = (Ω oo ) 1 + (Ω oo ) 1 o (1 ( o ) (Ω oo ) 1 o ) 1 ( o ) (Ω oo ) 1 + (Ω oo ) 1 o (1 + ( o ) (Γ oo ) 1 o )( o ) (Ω oo ) 1 + (Ω oo ) 1 o ψ 1 ( o ) (Ω oo ) 1, ) 1 ) 1 14

25 onde ψ 1 = 1 + ( o ) (Γ oo ) 1 o (note que o resultado de Rao (1973) fo utlzado para encontrar as nversas de Γ oo (Γ oo ) 1 na equação (3.7), obtendo e 1 ( o ) (Ω oo ) 1 o ). Então, usamos esta expressão de π(y o,t,u ) u (po +1+ν)/2 1 I (0, ) (t ) { exp u [ (y o 2 µ o ) ((Ω oo ) 1 + (Ω oo ) 1 o ψ 1 ( o ) (Ω oo ) 1 )(y o µ o ) 2(y o µ o ) ((Ω oo ) 1 + (Ω oo ) 1 o ψ 1 ( o ) (Ω oo ) 1 ) o t + ψ 1 t 2 + ν ]} u (po +1+ν)/2 1 I (0, ) (t ) { exp u 2 +(y o µ o ) (Ω oo 2(y o µ o ) (Ω oo [ (y o µ o ) (Ω oo ) 1 (y o µ o ) 2(yo µ o ) (Ω oo ) 1 o t + ψ 1 t 2 + ν ) 1 o ψ 1 ( o ) (Ω oo ) 1 (y o µ o ) ) 1 o ψ 1 ( o ) (Ω oo ) 1 o ]} t u (po +1+ν)/2 1 I (0, ) (t ) { exp u [ d Ω 2 oo (y o, µ o ) 2ao t + ψ 1 t 2 + (a o ) 2 ψ 1 u (po +1+ν)/2 1 I (0, ) (t ) { exp u [ d Ω 2 oo (y o, µ o ) + ψ 1 t 2 2a o ψ 1 t + (a o ) 2 ψ 1 2a o t + 2a o ψ 1 t 2a o ψ 1 ( o ) (Ω oo ) 1 o t + ν ]} u (po +1+ν)/2 1 I (0, ) (t ) { exp u [ d Ω 2 oo onde a o = (yo µo ) (Ω oo (y o, µ o ) + (t a o ) 2 ψ 1 da últma expressão é zero. Então, { π(y o,t,u ) u (po +1+ν)/2 1 exp u [ 2 2a o ψ 1 + 2a o t ( 1 + ψ 1 ]} ( o ) (Ω oo ) 1 o t + ν ψ 1 ( o ) (Ω oo ) 1 o ) + ν ) 1 o. Mas ( o ) (Ω oo ) 1 o = 1 ψ, e assm o tercero termo d Ω oo Integrando a expressão 3.8 com relação a u, obtemos π(y o,t ) ( dω oo (y o, µo ) + (t a o )2 ψ 1 2 ]} (y o, µ o ) + (t a o ) 2 ψ 1 + ν I (0, ) (t ). + ν ) p o +1+ν 2 (3.8) I (0, ) (t ). (3.9) ]}, Como temos π(t y o ) = π(yo,t )/π(y o ), o mesmo resultado é váldo para a dstrbução condconal de T Y o = y o. Multplcando (3.9) por (2/(d Ω oo (y o, µo ) + ν)) (po +1+ν)/2, 15

26 obtemos π(t y o ) ( 1 + (t a o )2 ψ 1 (ν + p o ) (ν + p o )(d Ω oo (y o, µo ) + ν) ) p o +1+ν 2 I (0, ) (t ), (3.10) que é uma dstrbução t de Student-t truncada em (0, ), com parâmetros antes do truncamento a o (méda), ψ (d oo Ω (y o, µo )+ν)/(ν + po ) (escala) e ν + po (graus de lberdade). Como consequênca da Proposção de 3.4 e da representação estocástca (3.1)- (3.3), temos o próxmo resultado. Proposção 3. A dstrbução de Y o é SMSN p o (µ o, Γoo, o, ν). 3.2 Dstrbuções a Pror Em um contexto Bayesano, especfcações das dstrbuções a pror são necessáras para complementar a construção do modelo e proceder nferênca. Prmeramente, vamos concatenar os vetores µ e em um únco vetor φ, atrbundo-lhe uma dstrbução a pror normal. Especfcamente, vamos supor que φ = (µ, ) N 2p (a,b), (3.11) onde a é um vetor de médas conhecdo e B é uma matrz de covarâncas postva defnda conhecda. Essa concatenação dos parâmetros em um únco vetor, conhecda como blockng, permte a construção de um algortmo MCMC mas efcente para gerar amostras da dstrbução a posteror, já que a atualzação para os dos parâmetros é feta em um só passo do algortmo, veja Lu (1994). No que dz respeto à matrz de dspersão Γ, adotamos uma especfcação a pror herárquca, defnda por Γ 1 D Wsh p (c,d), D Wsh p (e,f), onde Wsh p (c,d) denota a dstrbução Wshart, F é uma matrz assmétrca conhecda, com det(f) > 0, c e e são hperparâmetros conhecdas, com c,e > (p 1)/2. Esta espec- 16

27 fcação fo sugerda por Rchardson & Green (1997) no contexto de msturas de dstrbuções normas unvaradas e fo estendda por Stephens (1997) para o caso multvarado. Exstem mutas parametrzações para a dstrbução Wshart. Aqu escolhemos a segunte parametrzação: se X Wsh p (r,s), então a densdade de X é dada por onde X é postva defnda e é a função Gama generalzada. f (X r,s) = det(s)r Γ p (r) det(x)r (p+1)/2 exp{ tr(sx)}, Γ p (r) = π p(p 1)/4 p =1 ( ) 2r + 1 Γ 2 Quanto ao parâmetro ν, cada modelo específco da famíla SMSN pode ser descrto de uma manera dferente. Por exemplo, exstem váras sugestões para estmar os graus de lberdade desconhecdos do modelo t de Student. Para uma dscussão, veja Fonseca et al. (2008) e Garay et al. (2015). Para os casos das dstrbuções t assmétrca e slash assmétrca, consderamos a segunte estrutura, ν exp(λ), λ Unform(λ 0,λ 1 ), onde 0 < λ 0 < λ 1 são hperparâmetros. Para a normal contamnada assmétrca, consderamos ρ Beta(ρ 0,ρ 1 ) e τ Beta(τ 0,τ 1 ), onde ρ 0, ρ 1, τ 0 e τ 1 são constantes conhecdas e postvas. Essa escolha de prors tem sdo usada com sucesso em outros trabalhos, como em Cabral et al. (2012). Assumndo ndependênca a pror entre os parâmetros, a especfcação da pror completa é dada por π(φ, Ψ,D,ν,λ) = π(φ)π(ν λ)π(λ)π(ψ D)π(D), onde Ψ = Γ 1 (retrando λ nos casos smétrcos). 17

28 Capítulo 4 O Algortmo MCMC O objetvo deste capítulo é propor um algortmo para estmação Bayesana dos parâmetros nos modelos da famíla SMSN com dados faltantes. Para sso, a representação em dados aumentados dada em (3.1) (3.3) tem papel fundamental. 4.1 O Amostrador de Gbbs Prmeramente vamos consderar o caso t de Student assmétrco. A dstrbução condconal completa de T y o,u, µ,, Γ é dada pela Proposção 2, tem (), ou seja ( ( T y o o ) (Γ oo ) 1 (y o,u, µ,, Γ TN µo ) 1 + ( o ) (Γ oo ) 1 o, 1 u (1 + ( o ) (Γ oo ) ) 1 o ),(0, ) Apesar desta estratéga ser correta do ponto de vsta teórco, um procedmento mas efcente pode ser obtdo se consderarmos amostras geradas a partr de dstrbuções margnas parcas, ntegrando algumas varáves latentes presentes no esquema de dados aumentados. Este procedmento é denomnado collapsng prncple, veja Lu (1994) para uma dscussão detalhada. No caso da nossa proposta, sso é possível utlzando a Proposção 2, tem (v). Então, obtemos amostras de T a partr da dstrbução Tt ( (y o µ o ) (Ω oo Observe que, por (2.5), Ω oo ) 1 o, (d Ω oo (y o, µo ) + ν)(1 ( o ) (Ω oo ) 1 o ) ) ν + p o,ν + p o,(0, ). = Γ oo + o ( o ). Para gerar amostras de U, consderamos a dstrbução condconal completa de. 18

29 U y o,t, µ,, Γ,ν. Esta dstrbução pode ser obtda usando a demonstração da Proposção 2, tem (v). Especfcamente, observe que, pela equação (3.8), esta dstrbução é Gamma ( p o + ν + 1 2, d Ω oo (y o, µo ) + (t (y o µo ) (Ω oo ) 1 o ) 2 (1 ( o ) (Ω oo ) 1 o ) ) 1 + ν. 2 Para cada = 1,...,n, o vetor com dados faltantes Y m é vsto como um vetor latente em nossa estrutura de dados aumentados. Assm, a dstrbução condconal completa deste vetor pode ser obtda com o objetvo de geramos amostras que serão mputadas no lugar dos valores faltantes. Esta dstrbução pode ser obtda faclmente consderando da Proposção 2, tem (), e é dada por Y m y o,t,u, µ,, Γ N p p o (µ m + m t + Γ mo (Γ oo ) 1 (y o µ o o t ),u 1 Γ mm.o ), onde Γ mm.o = Γ mm Γ mo (Γ oo ) 1 Γ om. Seja y m a amostra gerada para o ndvíduo neste passo do algortmo, = 1,...,n. Para dar contnudade ao processo completamos o vetor de amostras para o ndvíduo, mputando y m no lugar de y m, obtendo o vetor y = (y o,ym ). Para obter a condconal completa do vetor φ = (µ, ), relembremos que, por (3.1), dados u, t, µ, e Γ, temos Y N p (W φ, Γ), (4.1) [ onde Y = u 1/2 Y e W = u 1/2 I p u 1/2 t I p ], = 1,...,n. Então, é smples obter a dstrbução condconal completa de φ, desde que (4.1) é um modelo de regressão normal com vetor de parâmetros φ, com uma dstrbução a pror dada por (3.11). Assm, φ y,u,t, Γ N 2p ( Σ φ ( n =1W Γ 1 y + B 1 a ), Σ φ ), onde Σ φ = ( n =1 W Γ 1 W + B 1) 1, y = {y1,...,y n }, t = {t 1,...,t n } e u = {u 1,...,u n }. Em relação à nversa da matrz de dspersão Ψ = Γ 1, a condconal completa é 19

30 dada por π(ψ y,t,d,u, µ, ) π(y Ψ,t,u, µ, )π(ψ D) { mplcando em = det(ψ) n/2 exp 1 2 n =1 det(ψ) c (p+1)/2 exp{ tr(dψ)} = det(ψ) (n/2)+c (p+1)/2 { ( n 1 exp tr 2 Ψ y,t,d,u, µ, Wsh p ( n 2 + c, 1 2 =1 n =1 A dstrbução condconal completa de D é dada por u (y µ t ) Ψ(y µ t ) u (y µ t )(y µ t ) + D u (y µ t )(y µ t ) + D ) } ) Ψ. }, D Wsh p (c + e,f + Ψ). A dstrbução condconal completa de λ é TGama(2,ν,(λ 0,λ 1 )), que é uma dstrbução Gamma truncada no ntervalo (λ 0,λ 1 ). A dstrbução condconal completa de ν, π(ν u) não tem uma forma conhecda, e uma alternatva é gerar amostras a partr desta dstrbução usando passos de Metropols- Hastngs paths. No entanto, como comentado anterormente, uma alternatva mas efcente é utlzar o collapsng prncple, gerando amostras a partr da dstrbução condconal margnalzada π(ν y, µ,, Γ), que é obtda ntegrando a verossmlhança aumentada (3.1) (3.3) em u e t. Este procedmento produz, em geral, convergênca mas rápda e amostras menos correlaconadas do que obter amostras a partr de π(ν u). Assm, geramos amostras de ν a partr da dstrbução de π(ν y, µ,, Γ) exp{ λν} n =1 St p (y µ, Γ,,ν), (4.2) onde St p ( µ, Γ,,ν) denota a densdade t de Student assmétrca. Dado um valor amostral ν (t 1) obtdo no estágo t 1 do algortmo, geramos uma observação canddata ν c a partr da dstrbução lognormal LN(ν (t 1),σν 2 ). Esta proposta é aceta com probabldade 20

31 { } π (ν c y, µ,, Γ)ν c Q = mn π ( ν (t 1) y, µ,, Γ ),1. (4.3) ν (t 1) Agora vamos consderar o caso slash assmétrco. Então, π(u ν) é uma densdade beta com parâmetros ν e 1, de tal manera que π(u y o,t, µ,, Γ,ν) π(y o u,t, µ,, Γ)π(t u )π(u ν) { u po /2 exp u } 2 (yo (µ o + o t )) (Γ oo ) 1 (y o (µ o + o t )) { u 1/2 exp u } 2 t2 u ν 1 I (0,1) (u ) = u (po +2ν+1)/2 1 { exp u [ (y o 2 (µ o + o t )) (Γ oo ) 1 (y o (µ o + o t )) +t 2 ] } I (0,1) (u ). Assm, temos a segunte dstrbução condconal completa U y o,t, µ,, Γ,ν ( p o TGamma + 2ν + 1, (yo (µo + o t )) (Γ oo ) 1 (y o (µo + o t )) +t 2 ),(0,1). 2 2 A dstrbução condconal completa de λ é, como anterormente, TGama(2,ν,(λ 0,λ 1 )). Amostras da posteror de ν são obtdas a partr da dstrbução Gamma ( n + 1,λ n =1 logu ), que é obtda por conjugação usando o fato que u Beta(ν,1) em conjunto com a especfcação a pror para ν. Agora vamos consderar o caso normal contamnado assmétrco. Então, é medato provar que a dstrbução condconal completa de u é dscreta tomando os valores τ, 21

32 com probabldade η /(η + ζ ), e 1, com probabldade ζ /(η + ζ ), onde { η = ρτ (po +1)/2 exp ζ = (1 ρ)exp { 1 2 τ 2 [ (y o (µ o + o t )) (Γ oo ) 1 (y o (µ o + o t )) +t 2 ] }, e [ (y o (µ o + o t )) (Γ oo ) 1 (y o (µ o + o t )) +t 2 ] }. que Para obter a dstrbução condconal completa de ρ, observemos prmeramente π(u ρ,τ) = (1 ρ) (u τ)/(1 τ) ρ (1 u )/(1 τ). Lembrando que a dstrbução a pror de ρ é Beta(ρ 0,ρ 1 ), temos π(ρ u, τ) π(u ρ)π(ρ) (1 ρ) ( n =1 u nτ)/(1 τ)+ρ 1 1 ρ (n n =1 u )/(1 τ)+ρ 0 1, mplcando que a dstrbução condconal completa de ρ é Beta com parâmetros (n n =1 u )/(1 τ) + ρ 0 e ( n =1 u nτ)/(1 τ) + ρ 1. É possível mostrar que o prmero parâmetro é gual a ρ 0 somado com o número de u s guas a τ. Em relação ao parâmetro τ, Lu (1996) notou que, se tomarmos amostras a partr da sua condconal completa, então τ tpcamente fcará concentrado em torno de seu valor ncal ndefndamente. Para evtar sto, ntegramos a verossmlhança aumentada o máxmo possível e consderamos a dstrbução condconal completa margnal de τ, dada por g(τ µ, Γ,,ρ,y) τ τ0 1 (1 τ) τ 1 1 n SCN p (y µ, Γ,,τ,ρ). =1 Ao nvés de consdermos amostras a partr desta dstrbução, consderamos a transformação τ = τ/(1 τ), que é uma função 1-1 entre o ntervalo (0,1) e os reas postvos R +. Então, tomamos amostras a partr da dstrbução de τ, dada por π(τ µ, Γ,,ρ,y) = g(τ/(1 + τ) µ, Γ,,ρ,y)/(1 + τ) 2. Para fazer sto, utlzamos um passo de Metropols-Hastngs com propostas a partr de uma dstrbução lognormal, segundo os mesmos passos utlzados no caso t de Student assmétrco, veja (4.3). Então, para reverter a transformação, usamos τ = τ/(1 + τ), obtendo a amostra desejada para τ. 22

33 Capítulo 5 Comparação de modelos Consdere o problema de comparar város modelos da famíla SMSN, com dferentes proporções de dados faltantes. Como mensurar qual o melhor modelo para um problema real ou smulado? Na lteratura exstem mutos crtéros de comparação de modelos, tanto no contexto frequentsta, como o AIC (Akake, 1974) e o BIC (Schwarz, 1978) quanto no contexto Bayesano, como o DIC (Spegelhalter et al., 2002) e o WAIC (Watanabe, 2010), que são as opções que utlzaremos neste trabalho. 5.1 DIC Como prmera proposta de crtéro de seleção de modelos temos o DIC (devance nformaton crteron) observado, que vamos denotar por DIC obs. Ao contráro do DIC tradconal, proposto por (Spegelhalter et al., 2002), o DIC obs utlza em sua formulação a verossmlhança ntegrada, ou seja, a verossmlhança obtda ntegrando as varáves latentes. Como comentado por L et al. (2012), crtéros como o DIC usual não devem ser utlzados no contexto de dados aumentados, pos a verossmlhança dos dados completos não é regular, o que nvalda os argumentos assntótcos que são necessáros para justfcálo. O cálculo do DIC obs é baseado nas amostras a posteror MCMC, sendo uma versão modfcada do DIC usual. Veja os comentáros na Seção 3.1 de Celeux et al. (2006), onde o DIC obs é denotado por DIC 3. Para a amostra observada y o = {y o 1,...,yo n}, DIC observado é dado por DIC obs = D(Θ) + τ D, 23

34 onde Θ é o vetor com os parâmetros em foco, D(Θ) = 2E{log[L(y o Θ)] y} e L(y o Θ) = n =1 SMSN p o (y o Θ o ), (5.1) Θ o = (µ o, o, Γ oo, ν) contém as correspondentes partções do vetor de locação µ, do vetor de forma, da matrz de dspersão Γ, e o parâmetro do fator de escala ν. A função de verossmlhança para o ndvíduo, L(y o Θo ) = SMSN p o (y o Θo ), pode ser calculada utlzando a Proposção 3. Observe que E{log[L(y o Θ)] y} = log[l(y o Θ)]π(Θ y)dθ é a esperança posteror de log[l(y o Θ)]. τ D é uma medda do número efetvo de parâmetros no modelo, dada por τ D = D(Θ) + 2p(y o ), onde p(y o ) = log(e[l(y o Θ) y]) = n =1 loge[l(y o Θ o ) y] = n =1 log L(y o Θ o )π(θ y)dθ é o logartmo da densdade predtva a posteror. Assm, podemos escrever DIC obs = 2D(Θ) + 2p(y o ). (5.2) Seja Θ (l) a amostra MCMC gerada na teração l do algortmo, l = 1,...,m. O prmero termo nesta expressão pode ser aproxmado por D = 2 m m n l=1 =1 [ ] log L(y o Θ (l) ). (5.3) Como recomendado por Celeux et al. (2006), uma estmatva MCMC para o valor da densdade predtva a posteror p(y o ) em (5.2) é dada por n p(y o ) = 2 =1log p(y o ), com p(y o ) = 1 m m l=1 L(y o Θ (l) ). (5.4) Com o propósto de comparar dferentes modelos, aquele com menor DIC obs será mas 24

35 adequado. 5.2 WAIC O WAIC, do nglês Watanabe-Akake nformaton crteron, é um crtéro para a seleção de modelos ntroduzdo por Watanabe (2010) consdera a qualdade e complexdade do ajuste, além de ser assntotcamente equvalente à perda por valdação cruzada de Bayes. Bascamente, o WAIC é p(y o ) mas uma correção para o número efetvo de parâmetros. Exstem duas formas dferentes para calcular esta correção, e ambas podem ser vstas como uma aproxmação ao método de valdação cruzada, como dscutdo em Gelman et al. (2014). Elas são dadas por ρ WAIC1 = 2p(y o ) + D(Θ) e ρ WAIC2 = n =1 Var [logl(y o Θ o ) y], onde é D(Θ) é dado em (5.1). Temos então as seguntes versões para o WAIC: WAIC k = 2ρ WAICk 2p(y o ), k = 1,2. Observe que o valor de WAIC 1 é gual ao valor do DIC obs. Então, neste trabalho, consderaremos somente o WAIC 2. Para a comparação de modelos, aquele que apresentar menor WAIC é o escolhdo como melhor modelo. 25

36 Capítulo 6 Aplcação com Dados Smulados e Reas Com o propósto de avalar a performance da metodologa proposta neste trabalho, dos estudos de smulação foram delneados. Todos os procedmentos computaconas foram mplementados utlzando o software R (R Core Team, 2016). O prmero estudo analsa o comportamento do víco e do erro quadrátco médo das estmatvas MCMC para os dferentes modelos SMSN como função da taxa de observações faltantes. O segundo estudo compara os dferentes modelos SMSN, va crtéros de seleção, também levando-se em consderação a taxa de observações faltantes. 6.1 Estudo de Smulação I O objetvo deste estudo de smulação é verfcar o comportamento do víco e o do erro quadrátco médo (EQM) das estmatvas MCMC obtdas va o algortmo proposto no Capítulo 4 como função das taxas de observações faltantes. Com este objetvo geramos amostras de tamanho n = 100 a partr das dstrbuções normal, normal assmétrca, t de Student e t de Student assmétrca. Os parâmetros foram fxados em µ = (1,2,3), Γ = dag{0.1,0.2,0.3}, = ( 2,0,2) (para as dstrbuções normal assmétrca e t assmétrca) e ν = 3 (para as dstrbuções t e t assmétrca). As taxas de observações faltantes foram fxadas em 3% (leve), 10% (moderada) e 30% (severa). Em relação ao passo de Metropols-Hastngs utlzado para obter amostras de ν, o parâmetro de escala para as propostas fo ajustado com o propósto de obtermos uma taxa de acetação no ntervalo (0.15, 0.4). Para cada proporção de observações faltantes, foram smulados 100 conjuntos de 26

37 Vés N SN T ST EQM N SN T ST Proporção de faltantes Proporção de faltantes Vés N SN T ST EQM N SN T ST Proporção de faltantes Proporção de faltantes Vés N SN T ST EQM N SN T ST Proporção de faltantes Proporção de faltantes Fgura 6.1: Vés e EQM das estmatvas de µ 1, µ 2 e µ 3 para os dados smulados. Prmera coluna, vés. Segunda coluna, EQM. dados. Para cada um deles, ajustamos os modelos ctados anterormente e armazenamos as estmatvas MCMC dos parâmetros. Então, calculamos o víco e o EQM para as estmatvas em cada modelo. Para obter as estmatvas partr de um determnado conjunto de dados fxado, foram consderadas 5000 amostras MCMC, descontando-se as prmeras 1000 como um período de burn-n. Assm, para o parâmetro µ j, j = 1,2,3, defnmos o víco e o EQM estmados por onde ˆµ () j Víco = =1 ( ˆµ () j µ j ), MSE = =1 ( ˆµ () j µ j ) 2 é a estmatva MCMC de µ j para o ésmo conjunto de dados smulado, j = 1,2,3, = 1,2,...,100. Defnções análogas de víco e EQM valem para os outros parâmetros. A Tabela 6.1 e as Fguras 6.1,6.2,6.3 e 6.4 contém os resultados de vés e EQM para os dados smulados. Observe que, em geral, os valores são pequenos para todas as combnações de parâmetros e modelos, e que não há um padrão de varação bem defndo nem para o vés, e nem para o EQM como função da proporção dos dados faltantes. 27

38 Tabela 6.1: Vés e EQM para as estmatvas para dferentes percentuas de dados faltantes e dferentes modelos. Vés Parâmetro % N SN T ST N SN T ST µ 1 10% % % µ 2 10% % % µ 3 10% % % % % % % % % % % % % ν 10% % Γ 11 10% % % Γ 12 10% % % Γ 13 10% % % Γ 22 10% % % Γ 23 10% % % Γ 33 10% % % EQM 28

39 Vés SN ST EQM SN ST Proporção de faltantes Proporção de faltantes Vés SN ST EQM SN ST Proporção de faltantes Proporção de faltantes Vés SN ST EQM SN ST Proporção de faltantes Proporção de faltantes Fgura 6.2: Vés e EQM das estmatvas de 1, 2 e 3 para os dados smulados. Prmera lnha, vés. Segunda lnha, EQM. Vés N SN T ST Vés N SN T ST Vés N SN T ST Proporção de faltantes Proporção de faltantes Proporção de faltantes Vés N SN T ST Vés N SN T ST Vés N SN T ST Proporção de faltantes Proporção de faltantes Proporção de faltantes Fgura 6.3: Vés para os dados smulados. Prmera lnha, Γ 11, Γ 12 e Γ 13. Segunda lnha, Γ 22, Γ 23 e Γ

40 EQM N SN T ST EQM N SN T ST EQM N SN T ST Proporção de faltantes Proporção de faltantes Proporção de faltantes EQM N SN T ST EQM N SN T ST EQM N SN T ST Proporção de faltantes Proporção de faltantes Proporção de faltantes Fgura 6.4: EQM para os dados smulados. Prmera lnha, Γ 11, Γ 12 e Γ 13. Segunda lnha, Γ 22, Γ 23 e Γ Estudo de Smulação II Neste estudo de smulação o objetvo é comparar a performance de alguns modelos na classe SMSN sob a presença de dados faltantes utlzando os crtéros de seleção DIC obs e WAIC defndos no Capítulo 5. Os modelos consderados para este estudo foram: normal, t de Student, slash, normal contamnada, normal assmétrca, t de Student assmétrca, slash assmétrca e normal contamnada assmétrca. Foram geradas 100 amostras de n = 60 de uma dstrbução normal contamnada assmétrca com os seguntes parâmetros fxados ao longo de todas as smulações: µ = (2,6,8), Γ = dag{0.1,0.1,0.1}, = (2,2,2), τ = 0.1 e ρ = 0.8. Estes valores foram escolhdos com o propósto de garantr uma assmetra acentuada e um elevado grau de contamnação. Consderamos novamente as taxas de observações faltantes 3% (leve), 10% (moderada) e 30% (severa) e uma taxa adconal de 0%. Para obter amostras de τ e ν nos passos de Metropols-Hastngs, o parâmetro de escala para as propostas fo ajustado com o propósto de obtermos uma taxa de acetação no ntervalo (0.15,0.4). Para cada conjunto de dados ajustamos os modelos ctados anterormente e estmatvas MCMC dos parâmetros. Para os modelos slash e slash assmétrco, por questões de tempo computaconal, fxamos o valor do parâmetro do fator de escala em ν = 1. En- 30

Exibir mais