MISTURAS DE ESCALA DA DISTRIBUIÇÃO NORMAL ASSIMÉTRICA COM DADOS FALTANTES. Camila Xavier Sá Peixoto Pinheiro

Tamanho: px
Começar a partir da página:

Download "MISTURAS DE ESCALA DA DISTRIBUIÇÃO NORMAL ASSIMÉTRICA COM DADOS FALTANTES. Camila Xavier Sá Peixoto Pinheiro"

Transcrição

1 MISTURAS DE ESCALA DA DISTRIBUIÇÃO NORMAL ASSIMÉTRICA COM DADOS FALTANTES Camla Xaver Sá Pexoto Pnhero Dssertação de Mestrado apresentada ao Programa de Pós-graduação em Matemátca, da Unversdade Federal do Amazonas, como parte dos requstos necessáros à obtenção do título de Mestre em Matemátca Orentador: Celso Rômulo Barbosa Cabral Manaus Mao de 2016

2

3 Xaver Sá Pexoto Pnhero, Camla Msturas de Escala da Dstrbução Normal Assmétrca com Dados Faltantes/Camla Xaver Sá Pexoto Pnhero. Manaus: UFAM/ICE, X, 41 p.: l.; 29,7cm. Orentador: Celso Rômulo Barbosa Cabral Dssertação (mestrado) UFAM/ICE, Lnha de Pesqusa: Estatístca, Referêncas Bblográfcas: p Algortmos MCMC. 2. Normal assmétrca. 3. Msturas de escala da normal assmétrca. 4. Dados faltantes. I. Rômulo Barbosa Cabral, Celso. II. Unversdade Federal do Amazonas, UFAM, Lnha de Pesqusa: Estatístca. III. Título.

4 Dedcado ao Professor Celso Rômulo B. Cabral. v

5 Agradecmentos Agradeço, Às mnhas tas, Dana e Amazoneda, pelo apoo, educação e exemplo de mulheres fortes e determnadas. Ao meu pa pela educação e amor. À mnha mãe e à mnha rmã pelas orações e pela torcda. Aos amgos da UFAM Carna, Carla, Márca e Nelson pelo eterno apoo e pela ajuda dreta no trabalho. Ao Dego pelo suporte computaconal crucal para conclusão do trabalho. À Márca Brandão pelo ncentvo dáro na reta fnal do trabalho, tendo partcpação mportante para que o mesmo fosse fnalzado. Aos amgos que me deram palavras de ncentvo em momentos dfíces. Ao Professor Celso pela dedcação, orentação, por acredtar em mm, mas do que eu mesma e por sempre me ncentvar a segur em frente mesmo dante das adversdades. Ao Professor Aldo Medna por suas sugestões e auxílo na execução da nossa proposta. Aos Professores do Departamento de Estatístca da UFAM pelos ensnamentos. Ao Professor James Dean por ter doado o computador que me acompanhou nessa trajetóra e ao Professor Max por conceder alguns das de seu computador pessoal para smulações. Ao Gulherme Hasmoto por ceder seu computador para me ajudar nas smulações. À CAPES pelo apoo fnancero. v

6 Resumo da Dssertação apresentada ao Programa de Pós-Graduação em Matemátca, da Unversdade Federal do Amazonas, como parte dos requstos necessáros para a obtenção do grau de Mestre em Matemátca. (M.Sc.) MISTURAS DE ESCALA DA DISTRIBUIÇÃO NORMAL ASSIMÉTRICA COM DADOS FALTANTES Camla Xaver Sá Pexoto Pnhero Mao/2016 Orentador: Celso Rômulo Barbosa Cabral Lnha de Pesqusa: Estatístca Neste trabalho estudamos uma ferramenta de estmação para modelos sob a classe de msturas de escala da dstrbução normal assmétrca multvarada onde valores faltantes ocorrem nos dados. Desta forma, apresentamos uma proposta utlzando tas modelos flexíves e algortmos computaconas para a análse de dados multvarados com comportamento que foge do padrão usual da dstrbução normal e outras dstrbuções smétrcas usuas, apresentando forte assmetra e caudas pesadas. Além dsso, mostramos a efcênca da aplcação da modelagem sugerda e do método de estmação proposto, por meo de estudos de smulação computaconal, analsando a qualdade dos estmadores va estudos de víco e erro quadrátco médo e comparando dferentes modelos va crtéros de seleção. A abordagem nferencal utlzada fo a Bayesana, utlzando os métodos MCMC tradconas para obter gerações de amostras da dstrbução a posteror. v

7 Sumáro Lsta de Fguras Lsta de Tabelas x x 1 Introdução Modelagem para Dados Multvarados com Observações Faltantes Estrutura do Trabalho Dstrbução Normal Assmétrca Multvarada e Famíla SMSN Notação A Dstrbução Normal Assmétrca e a Famíla SMSN Dstrbução t de Student Assmétrca (St) Dstrbução Slash Assmétrca (SSL) Dstrbução Normal Contamnada Assmétrca (SCN) A Famíla SMN Representação Estocástca da Famíla SMSN Modelo SMSN com dados faltantes A Função de Verossmlhança e Prncpas Resultados Dstrbuções a Pror O Algortmo MCMC O Amostrador de Gbbs Comparação de modelos DIC WAIC v

8 6 Aplcação com Dados Smulados e Reas Estudo de Smulação I Estudo de Smulação II Análse de Dados Reas Australan Insttute of Sport Data Conclusões e Pesqusas Futuras 36 Referêncas Bblográfcas 37 v

9 Lsta de Fguras 6.1 Vés e EQM das estmatvas de µ 1, µ 2 e µ 3 para os dados smulados. Prmera coluna, vés. Segunda coluna, EQM Vés e EQM das estmatvas de 1, 2 e 3 para os dados smulados. Prmera lnha, vés. Segunda lnha, EQM Vés para os dados smulados. Prmera lnha, Γ 11, Γ 12 e Γ 13. Segunda lnha, Γ 22, Γ 23 e Γ EQM para os dados smulados. Prmera lnha, Γ 11, Γ 12 e Γ 13. Segunda lnha, Γ 22, Γ 23 e Γ Dagrama de dspersão e hstogramas das varáves BMI e LBM Prmera e segunda colunas: traceplot e hstograma de µ 1 e µ 2. Tercera e quarta colunas traceplot e hstograma de 1 e Traceplot e hstograma de Γ 11, Γ 12 e Γ Traceplot e hstograma de ν x

10 Lsta de Tabelas 6.1 Vés e EQM para as estmatvas para dferentes percentuas de dados faltantes e dferentes modelos Proporção de vezes em que um dos modelos fo melhor do que os demas através dos métodos de comparação DIC e WAIC, para dferentes percentuas de faltantes Crtéros de seleção para os modelos da famíla SMNSN aplcados aos dados AIS Estmatvas dos parâmetros para o conjunto de dados AIS. A sgla dp denota o desvo padrão, LI e LS representam os lmtes nferor e superor do ntervalo de credbldade a posteror x

11 Capítulo 1 Introdução 1.1 Modelagem para Dados Multvarados com Observações Faltantes O objetvo geral deste trabalho é construr uma ferramenta de estmação para modelos de msturas de escala da dstrbução normal assmétrca (SMSN, scale mxture of skew-normal, em nglês) multvarada onde valores faltantes ocorrem nos dados, (mssng data, em nglês). Além dsso, pretendemos mostrar a efcênca da aplcação da modelagem sugerda e do método de estmação proposto, por meo de estudos de smulação computaconal, analsando a qualdade dos estmadores va estudos de víco e erro quadrátco médo e comparando dferentes modelos va crtéros de seleção. Dados faltantes ocorrem com frequênca na prátca, nas mas dversas áreas. A presença de dados faltantes pode acarretar números problemas na análse nferencal, tas como vés nas estmatvas dos parâmetros. Exstem dversas técncas para ldar com o problema, algumas não recomendáves, como a exclusão completa de casos, e outras que se mostraram bastante efcentes em dversas aplcações, como a mputação múltpla. Para uma revsão detalhada sobre o tema, ver van Buuren (2012). A lteratura para dados multvarados faltantes com dstrbução normal está bem consoldada em trabalhos como os de Anderson (1957), Hockng & Smth (1968), Rubn (1987), Lu (1999) e Sun & Sun (2006). Para a análse de dados com observações ncompletas, métodos baseados em algortmos para mputação tem sdo bastante utlzados 1

12 nos últmos anos, como o EM (Dempster et al., 1977, Expectaton-Maxmzaton) e o DA (Tanner & Wong, 1987, Data Augmentaton). A suposção de normaldade é uma das hpóteses utlzadas com mas frequênca na modelagem estatístca. Embora dados reas raramente comportem-se de acordo com esta suposção, mutas vezes é convenente, prncpalmente por razões de tratabldade matemátca, assumr que os dados são provenentes de uma dstrbução normal. Porém, sabemos que na prátca os dados podem ser assmétrcos, não-negatvos, possur múltplas modas ou ter caudas pesadas, sso para ctar alguns desvos da normaldade. No caso de observações faltantes, sso cra uma evdente ncompatbldade entre dados observados e mputados, o que pode afetar de forma negatva as estmatvas de nteresse. Consderando a possbldade de modelar dados provenentes de dstrbuções com caudas mas pesadas que a da normal, Lu (1995) consdera o método de mputação múltpla para a dstrbução t multvarada. Para avalar a efcáca da mputação múltpla no contexto de observações multvaradas, Demrtas et al. (2008) analsaram o desempenho do método sob o modelo normal com covarâncas não estruturadas em uma ampla gama de conjuntos de dados ncompletos smulados que apresentam dferentes característcas dstrbutvas como dstorção e multmodaldade, conclundo que, para amostras grandes (n > 400) a mputação múltpla sob a suposção de normaldade é uma ferramenta bastante razoável, mesmo quando o pressuposto de normaldade é claramente volado. No entanto, anda permanece a questão sobre amostras de tamanho pequeno ou moderado provenentes de populações com desvos da normaldade. Ln et al. (2009) propuseram algortmos do tpo EM e MCMC para estmação dos parâmetros e mputação dos dados faltantes no modelo normal assmétrco multvarado de Azzaln & Dalla Valle (1996), que é uma dstrbução que estende a normal através da ncorporação de um vetor de parâmetros que regula a assmetra. Este trabalho fo estenddo em Ln & Chy (2011), onde é consderada a dstrbução t de Student assmétrca de Sahu et al. (2003), que é uma extensão da dstrbução t de Student usual ncorporando assmetra. Neste trabalho propomos uma extensão das propostas de Ln et al. (2009) e Ln & Chy (2011), por meo da modelagem de dados com observações faltantes utlzado a classe das msturas de escala das normas assmétrcas. Esta classe de dstrbuções contém dversos modelos que estendem o modelo normal, através da ncorporação de 2

13 parâmetros que regulam ao mesmo tempo assmetra e caudas pesadas. Estão nesta classe dstrbuções conhecdas, como a própra normal, a slash, a normal contamnada, a t de Student, e versões assmetrzadas destas dstrbuções. Neste trabalho adotaremos a abordagem nferencal Bayesana. Uma justfcatva para sto são os problemas assocados ao procedmento por máxma verossmlhança (ML) no caso da dstrbução normal assmétrca. Como descrto em Bayes & Branco (2007), no método ML: () podemos obter uma estmatva nfnta para o parâmetro de forma, () a matrz de nformação é sngular quando o parâmetro de forma é zero, e () podem ocorrer máxmos locas. 1.2 Estrutura do Trabalho Esta dssertação de mestrado está dvdda em sete capítulos. No Capítulo 2, é apresentada a famíla de dstrbuções multvaradas de msturas de escala da normal assmétrca, apresentando algumas propredades útes no contexto de análse para dados faltantes, como a representação estocástca da famíla. No Capítulo 3 é apresentado o modelo SMSN para análse de dados com observações faltantes. No Capítulo 4 apresentamos um algortmo tpo MCMC para estmação a posteror dos parâmetros do modelo proposto. No Capítulo 5 apresentamos os crtéros que serão utlzados para comparar os dferentes modelos da famíla SMSN nas aplcações com dados reas e smulados. No Capítulo 6 mostramos dos estudos de smulação, com o objetvo de avalar a performance da metodologa proposta, e também uma aplcação com dados reas. No Capítulo 7 são apresentadas as conclusões do trabalho e as pesqusas futuras. 3

14 Capítulo 2 Dstrbução Normal Assmétrca Multvarada e Famíla SMSN 2.1 Notação Prmeramente, vamos ntroduzr notações que serão utlzadas ao longo do trabalho. No que segue, em geral, utlzaremos a notação tradconal denotando uma varável aleatóra ou vetor aleatóro por letra maúscula e a correspondente realzação por letra mnúscula (utlzaremos letras em negrto no caso de vetores e matrzes, aleatóros ou não). A j é a entrada (, j) da matrz A. A é a transposta de A. 0 p q é a matrz nula de ordem p q, I q é a matrz dentdade de ordem q (os índces rão desaparecer quando não houver possbldade de confusão). dag{a 1,...,a p } denota uma matrz dagonal p p com os elementos a 1,...,a p na dagonal prncpal. D = block dag{d 11,D 22 } representa uma matrz partconada, denomnada block dagonal, ou seja, D = D D 22. Utlzamos os símbolos d e nd para denotar varáves aleatóras ndependentes e dentcamente dstrbuídas and ndependentes, respectvamente. Y N p (µ, Ω) denota um vetor aleatóro com dstrbução normal p varada com vetor de médas µ e matrz de covarâncas Ω. A densdade correspondente é denotada por N p ( µ, Ω). Φ( ) é a função de dstrbução da normal padrão. Ω 1/2 é a raz qua- 4

15 drada de uma matrz postva defnda Ω, sto é, uma matrz postva defnda que satsfaz Ω 1/2 Ω 1/2 = Ω. A raz quadrada de Ω 1 é denotada por Ω 1/2 = (Ω 1 ) 1/2. A raz quadrada é únca veja, por exemplo, Gentle (2007, Sec ). det(ω) e tr(ω) são o determnante e o traço de Ω, respectvamente. 2.2 A Dstrbução Normal Assmétrca e a Famíla SMSN A suposção de normaldade é rotnera na análse de dados, mas tal condção frequentemente é volada em stuações reas, especalmente quando há a presença de forte assmetra e/ou caudas pesadas. Na prátca, é comum encontrar dados com as característcas ctadas, por exemplo, dados de renda famlar. A classe das dstrbuções SMSN possblta a acomodação smultânea de assmetra e caudas pesadas, sendo assm uma alternatva vável à dstrbução normal. Antes de defnrmos a famíla SMSN, precsamos estabelecer o conceto de dstrbução normal assmétrca. O estudo de extensões da dstrbução normal ncorporando assmetra, ou dstrbução normal assmétrca (skew-normal,sn), tem uma longa hstóra na lteratura de probabldade e estatístca. Contudo, não há dúvdas de que a abordagem mas famosa fo a dada por Adelch Azzaln e colegas, quando eles apresentaram extensões para a dstrbução normal unvarada e multvarada em artgos como Azzaln (1985) e Azzaln & Dalla Valle (1996), respectvamente, segudos por Arellano-Valle & Azzaln (2006). Aqu será utlzada uma defnção de dstrbução normal assmétrca como membro da famíla de dstrbução normal assmétrca fundamental, apresentada por Arellano- Valle & Genton (2005). Defnção 1. Dzemos que um vetor aleatóro Z p-dmensonal tem dstrbução normal assmétrca padrão, com notação Z SN(λ), se sua densdade é dada por SN p (z λ) = 2N p (z 0,I)Φ(λ z), onde, λ : p 1 é um vetor de parâmetros que regula a forma da dstrbução. Parâmetros de locação e dspersão podem ser ntroduzdos consderando a transformação Y = ξ + Ω 1/2 Z, onde ξ : p 1 é um vetor de constantes e Ω : p p é uma 5

16 matrz postva defnda. Dessa forma, a dstrbução normal assmétrca pode ser descrta de acordo com a defnção que segue. Defnção 2. Um vetor aleatóro p-dmensonal X tem dstrbução normal assmétrca com vetor de locação µ : p 1, matrz de dspersão (postva defnda) Ω : p p e vetor de forma λ : p 1, com notação X SN p (µ, Ω, λ), se sua densdade é dada por SN p (x µ, Ω, λ) = 2N p (x µ, Ω)Φ(λ Ω 1/2 (x µ)). (2.1) Note que o caso em que λ = 0 corresponde à dstrbução normal usual. A opção de utlzar essa versão é apenas uma questão de escolha e convenênca. De fato, a prátca mostra que, a fm de estender os modelos baseados na normal clássca, como modelos de regressão de posto completo, modelos de efetos mstos e modelos com erros nas varáves a versão (2.1) da normal assmétrca apresenta algumas vantagens sobre os competdores, notavelmente quando se comparam os aspectos computaconas. Agora ntroduzmos o conceto mas mportante desse trabalho. Defnção 3. A dstrbução de um vetor p-dmensonal Y pertence a famíla de msturas de escala da normal assmétrca (SMSN), quando: Y = µ +U 1/2 X, onde, µ : p 1 é um vetor de constantes, X SN p (0, Ω, λ) e U é uma varável aleatóra postva (com probabldade 1), ndependente de X, com função de dstrbução H( ν). Aqu ν é um parâmetro de ndexação da dstrbução de U,que pode ser um escalar ou um vetor. U é uma varável aleatóra conhecda como fator de escala. H(. ν) é chamada função de dstrbução de mstura. A notação que será utlzada é Y SMSN p (µ, Ω, λ, ν). Observe que aqu há um certo abuso de notação, por omssão de H. A famíla SMSN fo defnda ncalmente por Branco & Dey (2001). Temos que Y U = u SN p (µ,u 1 Ω, λ), U H( ν), mplcando que a densdade margnal de Y é SMSN p (y µ, Ω, λ, ν) = 2 N p (y µ,u 1 Ω)Φ(u 1/2 λ Ω 1/2 (y µ))dh(u ν). (2.2) 0 6

17 Nas próxmas sessões serão apresentados os dferentes membros da famíla SMSN que serão usados na nossa proposta levando em conta algumas possbldades da dstrbução do fator de escala U. Observe que a dstrbução SN corresponde ao caso em que U é degenerada em 1, ou seja, P[U = 1] = 1. Para mas detalhes sobre a famíla de dstrbuções SMSN veja Lachos & Labra (2014) Dstrbução t de Student Assmétrca (St) A dstrbução t de Student multvarada é uma extensão da tradconal dstrbução t de Student que, como é de amplo conhecmento, tem um papel central na teora estatístca. Possu aplcações nas mas dversas áreas, como uma alternatva ao uso da dstrbução normal, em stuações onde a dstrbução dos dados apresenta caudas pesadas. Estas áreas ncluem, por exemplo, econometra (Yang & Yuan, 2016), engenhara (Vdal & Castro, 2010), reconhecmento de padrões (We, 2012) e medcna (Nguyen & Wu, 2012). Para um texto com uma teora abrangente envolvendo a dstrbução t de Student multvarada, veja Kotz & Nadarajah (2004). Dzemos que um vetor aleatóro p dmensonal Y tem dstrbução t de Student p varada com vetor de médas µ, matrz de escala Σ e ν graus de lberdade, quando a sua densdade é dada por t p (y µ, Σ,ν) = p+ν Γ( 2 ) ( Γ( ν 2 )π p/2 ν p/2 Σ 1/2 1 + d ) Σ(y, µ) (p+ν)/2, (2.3) ν onde Γ( ) é a função gamma e d Σ (y, µ) = (y µ)σ 1 (y µ) é a dstânca de Mahalanobs ao quadrado. Neste caso, usamos a notação Y t p (µ, Σ,ν). Uma extensão da dstrbução t de Student ncorporando assmetra é a dstrbução t de Student assmétrca (skew-t, St) com ν graus de lberdade, com notação St p (µ, Ω, λ,ν), que é obtda fazendo U Gamma(ν/2,ν/2), ν > 0 na Defnção 3. Utlzando argumentos smlares aos utlzados em Gupta (2003), é possível provar que a densdade de Y é dada por St p (y µ, Ω, λ,ν) = 2t p (y µ, Ω,ν)T [ ( ) ν + p 1/2 λ Ω 1/2 (y µ) ν + p], ν + d Ω (y, µ) onde T( ν + p) é a função de dstrbução acumulada da t de Student padrão unvarada 7

18 (ou seja, com méda zero e escala 1) e ν + p são seus graus de lberdade. O vetor de médas e a matrz de covarâncas de Y são dados respectvamente por onde δ = λ/(1 + λ λ) 1/2. E[Y] = µ + ν π Γ((ν 1)/2) Ω 1/2 δ; Γ(ν/2) Var[Y] = ν ( ) Γ((ν 1)/2) 2 ν 2 Ω (ν/π) Ωδδ. Γ(ν/2) Note que se λ é o vetor nulo, então recuperamos a dstrbução t de Student smétrca. No contexto de modelos smétrcos, a dstrbução t de Student torna-se uma alternatva à dstrbução normal para ldar com valores extremos, já que apresenta caudas mas pesadas que a normal, podendo proporconar ajustes mas robustos. Isso por que a t de Student apresenta um atratvo adconal: o parâmetro extra ν pode ser entenddo como o responsável pela acomodação de valores extremos. Evdentemente essa nterpretação estende-se ao contexto da dstrbução t de Student assmétrca Dstrbução Slash Assmétrca (SSL) A dstrbução Slash assmétrca (skew slash, SSL), denotada por SSL p (µ, Ω, λ,ν), é mas um modelo que possu caudas pesadas e assmetra. Essa dstrbução pode ser obtda utlzando a Defnção 3, fazendo U Beta(ν,1) com ν > 0, onde Beta(a,b) denota a dstrbução Beta com parâmetros a > 0 e b > 0, cuja densdade é dada por f (u) = u a 1 (1 u) b 1 Γ(a + b) Γ(a) + Γ(b), 0 < u < 1. Assm, a densdade de Y SSL p (µ, Ω, λ,ν) é dada por 1 SSL p (y µ, Ω, λ,ν) = 2ν u ν 1 N p (y µ,u 1 Ω)Φ(u 1/2 λ Ω 1/2 (y µ))du, 0 8

19 que pode ser avalada usando a função do R ntegrate (R Core Team, 2016). O vetor de médas e a matrz de covarâncas são respectvamente dados por E[Y] = µ + Var[Y] = 2 π ν ν 1 Ω (2/π) 2ν 2ν 1 Ω1/2 δ, ν > 1/2; ( ) 2ν 2 Ω 1/2 δδ Ω 1/2, ν > 1. 2ν Dstrbução Normal Contamnada Assmétrca (SCN) A dstrbução normal contamnada assmétrca (skew contamnated normal, SCN), é obtda na Defnção 3 quando o fator de escala U é uma varável aleatóra bnára com P(U = τ) = ρ e P(U = 1) = 1 ρ, onde 0 < τ, ρ < 1 (e portanto ν = (τ,ρ) ). Neste caso, usamos a notação Y SCN p (µ, Ω, λ, ν). A densdade de Y é dada por SCN p (y µ, Ω, λ, ν) = { } 2 ρn p (y µ,τ 1 Ω)Φ(τ 1/2 λ Ω 1/2 (y µ)) + (1 ρ)n p (y µ, Ω)Φ(λ Ω 1/2 (y µ). Os parâmetros ρ e τ ndcam a proporção de outlers e o grau de contamnação, respectvamente. O vetor de médas e matrz de covarâncas são dados respectvamente por A Famíla SMN ( 2 ρ E[Y] = µ + π ( ρ ) Var[Y] = τ + 1 ν 1 Ω 2 π τ 1/2 + 1 ρ ) Ω 1/2 δ ( ρ τ 1/2 + 1 ν 1 ) 2 Ωδδ. Se na Defnção 3 fzermos λ = 0, teremos a famíla de msturas de escala da dstrbução normal (SMN), como defnda em Andrews & Mallows (1974) (ver também Lange & Snshem (1993)). Neste caso teremos, como casos partculares, as já ctadas dstrbuções t de Student e normal, e as dstrbuções slash e normal contamnada. 9

20 2.2.5 Representação Estocástca da Famíla SMSN Por razões computaconas utlzamos uma parametrzação sugerda por Lachos & Labra (2014) que é dada da segunte forma: = Ω 1/2 δ, Γ = Ω 1/2 (I δ δ )Ω 1/2 = Ω, (2.4) É possível recuperar os parâmetros orgnas λ e Ω utlzando as relações λ = (Γ + ) 1/2 [1 (Γ + ) 1 ] 1/2, Ω = Γ +. (2.5) No que segue, utlzamos esta parametrzação ou a parametrzação orgnal conforme a convenênca. A proposção a segur uma representação estocástca para a famíla SMSN é fundamental para a nossa teora. A demonstração é consequênca da Proposção 2.2 de Arellano-Valle & Genton (2005). A partr deste resultado, é possível obter um algortmo do tpo Gbbs relatvamente smples, com o objetvo de proceder estmação Bayesana para os parâmetros dos modelos que remos propor. Metodologa smlar a que usaremos aqu fo utlzada com sucesso em outros trabalhos que estendem modelos baseados na suposção de normaldade como, por exemplo, Lachos et al. (2009a), Lachos et al. (2009b), Cancho et al. (2010), Cabral et al. (2012) e Garay et al. (2015). Proposção 1. Y SMSN p (µ, Ω, λ, ν) admte a segunte representação estocástca Y U = u,t = t N p (µ + t,u 1 Γ); T U = u TN(0,u 1,(0, )); U H( ν), onde e Γ são como em (2.4), e TN(ξ,σ 2,(a,b)) denota a dstrbução normal truncada no ntervalo (a,b), onde ξ e σ 2 são a méda e a varânca, respectvamente, antes do truncamento. Note que essa proposção pode ser usada para gerar amostras artfcas de modelos SMSN, além de possbltar obter a dstrbução de uma transformação lnear AY, onde A é uma matrz q p, segundo o próxmo coroláro. 10

21 Coroláro 1. Consderando a parametrzação (2.4), seja A : q p e Y SMSN p (µ, Γ,, ν). Então AY SMSN q (Aµ,AΓA,A, ν). Para recuperar os parâmetros orgnas basta usar os resultados em (2.5). 11

22 Capítulo 3 Modelo SMSN com dados faltantes 3.1 A Função de Verossmlhança e Prncpas Resultados Suponha que temos observações ndependentes em n ndvíduos, Y 1,Y 2,...,Y n, onde cada Y SMSN p (µ, Ω, λ, ν), = 1,2,...,n. Para cada, vamos partconar o vetor Y na forma Y = (Y o,ym ), onde Yo : p o 1 é um vetor com as coordenadas observadas e Y m : p m 1 é o vetor com as coordenadas que contém as observações faltantes. É mportante observar que o conjunto de índces da partção depende da observação. Ao longo da nossa exposção, vamos supor que o mecansmo gerador de observações faltantes é do tpo MAR (mssng at random), como proposto por Rubn (1976), o que sgnfca que o mecansmo de geração depende somente dos valores observados. Esta hpótese também fo utlzada em Ln et al. (2009) e Ln & Chy (2011). Consdere que µ = ((µ o ),(µ m ) ), = (( o ),( m ) ) e Γ = Γoo Γ mo Γ om Γ mm são as partções correspondentes de µ, e Γ. Além dsso, vamos consderar uma representação herárquca para Y baseada na Proposção 1, ou seja, Y U = u,t = t N p (µ + t,u 1 Γ); (3.1) T U = u TN(0,u 1,(0, )); (3.2) U H( ν), = 1,...,n. (3.3) Temos então os seguntes resultados, que serão utlzados na elaboração do algortmo para 12

23 estmação no modelo que remos propor: Proposção 2. () A dstrbução condconal de Y m dado Y o = y o, T = t e U = u é Y m Y o = y o,t = t,u = u N p m (µ m + m t + Γ mo (Γ oo ) 1 (y o µ o o t ),u 1 Γ mm.o ), onde Γ mm.o = Γ mm Γ mo (Γ oo ) 1 Γ om ; () A dstrbução condconal de Y m dado T = t e U = u é Y m T = t,u = u N p m (µ m + m t,u 1 Γ mm ); () A dstrbução condconal de T dado Y o = y o e U = u é T Y o = y o,u = u TN(µ T,u 1 MT 2,(0, )), onde µ T = MT 2 ( o ) (Γ oo ) 1 (y o µo ) e M2 T = 1/(1 + ( o ) (Γ oo ) 1 o ). (v) Se U Gamma(ν/2,ν/2), ν > 0, a dstrbução condconal de T dado Y o = yo é ( Tt (y o µ o ) Ω 1 oo o, (d Ωoo (yo, µo ) + ν)(1 ( o ) (Ω oo ) 1 o ) ν + p o que é uma dstrbução t de Student truncada em (0, ). ) ),ν + p o,(0, ), Demonstração. O resultado () é consequênca de (3.1) e do clássco resultado sobre dstrbução condconal de subvetores de um vetor aleatóro com dstrbução normal multvarada, ver Marda et al. (1979, Teorema 3.2.4). O resultado () é consequênca de (3.1) e do fato de que subvetores de um vetor com dstrbução normal multvarada também tem dstrbução normal multvarada (Marda et al., 1979, Teorema 3.2.3). Os resultados () e (v) serão demonstrados em um únco bloco. Novamente utlzando (3.1) e o Teorema de Marda et al. (1979), vem que Y o U = u,t = t N p o (µ o + o t,u 1 Γ oo ). (3.4) No que segue, para vetores aleatóros arbtráros X e Y, π(x y) denota a densdade cond- 13

24 conal de X Y = y. Então, a dstrbução conjunta de Y o, T e U é dada por π(y o,t,u ) = π(y o t,u )π(t u )π(u ) { u po /2 exp u } 2 (yo µ o o t ) (Γ oo ) 1 (y o µ o o t ) (3.5) { u 1/2 exp u } 2 t2 I (0, ) (t ) (3.6) { u ν/2 1 exp ν } 2 u = u (po +1+ν)/2 1 I (0, ) (t ) { exp u [ (y o 2 µ o o t) (Γ oo ) 1 (y o µ o o t ) +t 2 + ν ]} = u (po +1+ν)/2 1 I (0, ) (t ) { u 2 exp [ (y 0 µ o ) (Γ oo ) 1 (y o µ 0 ) 2(y 0 µ o ) (Γ oo ) 1 o t + ( o ) (Γ oo ) 1 o t 2 +t 2 + ν ]} = u (po +1+ν)/2 1 I (0, ) (t ) { exp u [ (y o 2 µ o ) (Γ oo ) 1 (y o µ o ) 2(y o µ o ) (Γ oo ) 1 o t + (( o ) (Γ oo ) 1 o + 1)t 2 + ν ]}, (3.7) onde I B ( ) denota a função ndcadora, sto é, I B (t ) = 1 se t B e I B (t ) = 0 caso contráro. Observe que, utlzando as equações (3.5) e (3.6), podemos obter a dstrbução condconal de T Y o = y o,u = u, que é dada por π(t y o,u ) π(y o t,u )π(t u ) { exp u [ 2(y o 2 µ o ) (Γ oo ) 1 o t + ( o ) (Γ oo ) 1 o t 2 ] } { exp u } I (0, ) (t ) = exp { u 2 2 t2 [ 2(y o µ o ) (Γ oo ) 1 o t + (1 + ( o ) (Γ oo ) 1 o )t 2 ] } I (0, ) (t ), que é exatamente o núcleo da dstrbução normal truncada dada no tem (). Vamos agora obter o resultado (v). Utlzando (2.5) e o exercíco 2.9 de Rao (1973), obtemos (Γ oo ) 1 = (Ω oo = (Ω oo = (Ω oo o ( o ) ) 1 = (Ω oo ) 1 + (Ω oo ) 1 o (1 ( o ) (Ω oo ) 1 o ) 1 ( o ) (Ω oo ) 1 + (Ω oo ) 1 o (1 + ( o ) (Γ oo ) 1 o )( o ) (Ω oo ) 1 + (Ω oo ) 1 o ψ 1 ( o ) (Ω oo ) 1, ) 1 ) 1 14

25 onde ψ 1 = 1 + ( o ) (Γ oo ) 1 o (note que o resultado de Rao (1973) fo utlzado para encontrar as nversas de Γ oo (Γ oo ) 1 na equação (3.7), obtendo e 1 ( o ) (Ω oo ) 1 o ). Então, usamos esta expressão de π(y o,t,u ) u (po +1+ν)/2 1 I (0, ) (t ) { exp u [ (y o 2 µ o ) ((Ω oo ) 1 + (Ω oo ) 1 o ψ 1 ( o ) (Ω oo ) 1 )(y o µ o ) 2(y o µ o ) ((Ω oo ) 1 + (Ω oo ) 1 o ψ 1 ( o ) (Ω oo ) 1 ) o t + ψ 1 t 2 + ν ]} u (po +1+ν)/2 1 I (0, ) (t ) { exp u 2 +(y o µ o ) (Ω oo 2(y o µ o ) (Ω oo [ (y o µ o ) (Ω oo ) 1 (y o µ o ) 2(yo µ o ) (Ω oo ) 1 o t + ψ 1 t 2 + ν ) 1 o ψ 1 ( o ) (Ω oo ) 1 (y o µ o ) ) 1 o ψ 1 ( o ) (Ω oo ) 1 o ]} t u (po +1+ν)/2 1 I (0, ) (t ) { exp u [ d Ω 2 oo (y o, µ o ) 2ao t + ψ 1 t 2 + (a o ) 2 ψ 1 u (po +1+ν)/2 1 I (0, ) (t ) { exp u [ d Ω 2 oo (y o, µ o ) + ψ 1 t 2 2a o ψ 1 t + (a o ) 2 ψ 1 2a o t + 2a o ψ 1 t 2a o ψ 1 ( o ) (Ω oo ) 1 o t + ν ]} u (po +1+ν)/2 1 I (0, ) (t ) { exp u [ d Ω 2 oo onde a o = (yo µo ) (Ω oo (y o, µ o ) + (t a o ) 2 ψ 1 da últma expressão é zero. Então, { π(y o,t,u ) u (po +1+ν)/2 1 exp u [ 2 2a o ψ 1 + 2a o t ( 1 + ψ 1 ]} ( o ) (Ω oo ) 1 o t + ν ψ 1 ( o ) (Ω oo ) 1 o ) + ν ) 1 o. Mas ( o ) (Ω oo ) 1 o = 1 ψ, e assm o tercero termo d Ω oo Integrando a expressão 3.8 com relação a u, obtemos π(y o,t ) ( dω oo (y o, µo ) + (t a o )2 ψ 1 2 ]} (y o, µ o ) + (t a o ) 2 ψ 1 + ν I (0, ) (t ). + ν ) p o +1+ν 2 (3.8) I (0, ) (t ). (3.9) ]}, Como temos π(t y o ) = π(yo,t )/π(y o ), o mesmo resultado é váldo para a dstrbução condconal de T Y o = y o. Multplcando (3.9) por (2/(d Ω oo (y o, µo ) + ν)) (po +1+ν)/2, 15

26 obtemos π(t y o ) ( 1 + (t a o )2 ψ 1 (ν + p o ) (ν + p o )(d Ω oo (y o, µo ) + ν) ) p o +1+ν 2 I (0, ) (t ), (3.10) que é uma dstrbução t de Student-t truncada em (0, ), com parâmetros antes do truncamento a o (méda), ψ (d oo Ω (y o, µo )+ν)/(ν + po ) (escala) e ν + po (graus de lberdade). Como consequênca da Proposção de 3.4 e da representação estocástca (3.1)- (3.3), temos o próxmo resultado. Proposção 3. A dstrbução de Y o é SMSN p o (µ o, Γoo, o, ν). 3.2 Dstrbuções a Pror Em um contexto Bayesano, especfcações das dstrbuções a pror são necessáras para complementar a construção do modelo e proceder nferênca. Prmeramente, vamos concatenar os vetores µ e em um únco vetor φ, atrbundo-lhe uma dstrbução a pror normal. Especfcamente, vamos supor que φ = (µ, ) N 2p (a,b), (3.11) onde a é um vetor de médas conhecdo e B é uma matrz de covarâncas postva defnda conhecda. Essa concatenação dos parâmetros em um únco vetor, conhecda como blockng, permte a construção de um algortmo MCMC mas efcente para gerar amostras da dstrbução a posteror, já que a atualzação para os dos parâmetros é feta em um só passo do algortmo, veja Lu (1994). No que dz respeto à matrz de dspersão Γ, adotamos uma especfcação a pror herárquca, defnda por Γ 1 D Wsh p (c,d), D Wsh p (e,f), onde Wsh p (c,d) denota a dstrbução Wshart, F é uma matrz assmétrca conhecda, com det(f) > 0, c e e são hperparâmetros conhecdas, com c,e > (p 1)/2. Esta espec- 16

27 fcação fo sugerda por Rchardson & Green (1997) no contexto de msturas de dstrbuções normas unvaradas e fo estendda por Stephens (1997) para o caso multvarado. Exstem mutas parametrzações para a dstrbução Wshart. Aqu escolhemos a segunte parametrzação: se X Wsh p (r,s), então a densdade de X é dada por onde X é postva defnda e é a função Gama generalzada. f (X r,s) = det(s)r Γ p (r) det(x)r (p+1)/2 exp{ tr(sx)}, Γ p (r) = π p(p 1)/4 p =1 ( ) 2r + 1 Γ 2 Quanto ao parâmetro ν, cada modelo específco da famíla SMSN pode ser descrto de uma manera dferente. Por exemplo, exstem váras sugestões para estmar os graus de lberdade desconhecdos do modelo t de Student. Para uma dscussão, veja Fonseca et al. (2008) e Garay et al. (2015). Para os casos das dstrbuções t assmétrca e slash assmétrca, consderamos a segunte estrutura, ν exp(λ), λ Unform(λ 0,λ 1 ), onde 0 < λ 0 < λ 1 são hperparâmetros. Para a normal contamnada assmétrca, consderamos ρ Beta(ρ 0,ρ 1 ) e τ Beta(τ 0,τ 1 ), onde ρ 0, ρ 1, τ 0 e τ 1 são constantes conhecdas e postvas. Essa escolha de prors tem sdo usada com sucesso em outros trabalhos, como em Cabral et al. (2012). Assumndo ndependênca a pror entre os parâmetros, a especfcação da pror completa é dada por π(φ, Ψ,D,ν,λ) = π(φ)π(ν λ)π(λ)π(ψ D)π(D), onde Ψ = Γ 1 (retrando λ nos casos smétrcos). 17

28 Capítulo 4 O Algortmo MCMC O objetvo deste capítulo é propor um algortmo para estmação Bayesana dos parâmetros nos modelos da famíla SMSN com dados faltantes. Para sso, a representação em dados aumentados dada em (3.1) (3.3) tem papel fundamental. 4.1 O Amostrador de Gbbs Prmeramente vamos consderar o caso t de Student assmétrco. A dstrbução condconal completa de T y o,u, µ,, Γ é dada pela Proposção 2, tem (), ou seja ( ( T y o o ) (Γ oo ) 1 (y o,u, µ,, Γ TN µo ) 1 + ( o ) (Γ oo ) 1 o, 1 u (1 + ( o ) (Γ oo ) ) 1 o ),(0, ) Apesar desta estratéga ser correta do ponto de vsta teórco, um procedmento mas efcente pode ser obtdo se consderarmos amostras geradas a partr de dstrbuções margnas parcas, ntegrando algumas varáves latentes presentes no esquema de dados aumentados. Este procedmento é denomnado collapsng prncple, veja Lu (1994) para uma dscussão detalhada. No caso da nossa proposta, sso é possível utlzando a Proposção 2, tem (v). Então, obtemos amostras de T a partr da dstrbução Tt ( (y o µ o ) (Ω oo Observe que, por (2.5), Ω oo ) 1 o, (d Ω oo (y o, µo ) + ν)(1 ( o ) (Ω oo ) 1 o ) ) ν + p o,ν + p o,(0, ). = Γ oo + o ( o ). Para gerar amostras de U, consderamos a dstrbução condconal completa de. 18

29 U y o,t, µ,, Γ,ν. Esta dstrbução pode ser obtda usando a demonstração da Proposção 2, tem (v). Especfcamente, observe que, pela equação (3.8), esta dstrbução é Gamma ( p o + ν + 1 2, d Ω oo (y o, µo ) + (t (y o µo ) (Ω oo ) 1 o ) 2 (1 ( o ) (Ω oo ) 1 o ) ) 1 + ν. 2 Para cada = 1,...,n, o vetor com dados faltantes Y m é vsto como um vetor latente em nossa estrutura de dados aumentados. Assm, a dstrbução condconal completa deste vetor pode ser obtda com o objetvo de geramos amostras que serão mputadas no lugar dos valores faltantes. Esta dstrbução pode ser obtda faclmente consderando da Proposção 2, tem (), e é dada por Y m y o,t,u, µ,, Γ N p p o (µ m + m t + Γ mo (Γ oo ) 1 (y o µ o o t ),u 1 Γ mm.o ), onde Γ mm.o = Γ mm Γ mo (Γ oo ) 1 Γ om. Seja y m a amostra gerada para o ndvíduo neste passo do algortmo, = 1,...,n. Para dar contnudade ao processo completamos o vetor de amostras para o ndvíduo, mputando y m no lugar de y m, obtendo o vetor y = (y o,ym ). Para obter a condconal completa do vetor φ = (µ, ), relembremos que, por (3.1), dados u, t, µ, e Γ, temos Y N p (W φ, Γ), (4.1) [ onde Y = u 1/2 Y e W = u 1/2 I p u 1/2 t I p ], = 1,...,n. Então, é smples obter a dstrbução condconal completa de φ, desde que (4.1) é um modelo de regressão normal com vetor de parâmetros φ, com uma dstrbução a pror dada por (3.11). Assm, φ y,u,t, Γ N 2p ( Σ φ ( n =1W Γ 1 y + B 1 a ), Σ φ ), onde Σ φ = ( n =1 W Γ 1 W + B 1) 1, y = {y1,...,y n }, t = {t 1,...,t n } e u = {u 1,...,u n }. Em relação à nversa da matrz de dspersão Ψ = Γ 1, a condconal completa é 19

30 dada por π(ψ y,t,d,u, µ, ) π(y Ψ,t,u, µ, )π(ψ D) { mplcando em = det(ψ) n/2 exp 1 2 n =1 det(ψ) c (p+1)/2 exp{ tr(dψ)} = det(ψ) (n/2)+c (p+1)/2 { ( n 1 exp tr 2 Ψ y,t,d,u, µ, Wsh p ( n 2 + c, 1 2 =1 n =1 A dstrbução condconal completa de D é dada por u (y µ t ) Ψ(y µ t ) u (y µ t )(y µ t ) + D u (y µ t )(y µ t ) + D ) } ) Ψ. }, D Wsh p (c + e,f + Ψ). A dstrbução condconal completa de λ é TGama(2,ν,(λ 0,λ 1 )), que é uma dstrbução Gamma truncada no ntervalo (λ 0,λ 1 ). A dstrbução condconal completa de ν, π(ν u) não tem uma forma conhecda, e uma alternatva é gerar amostras a partr desta dstrbução usando passos de Metropols- Hastngs paths. No entanto, como comentado anterormente, uma alternatva mas efcente é utlzar o collapsng prncple, gerando amostras a partr da dstrbução condconal margnalzada π(ν y, µ,, Γ), que é obtda ntegrando a verossmlhança aumentada (3.1) (3.3) em u e t. Este procedmento produz, em geral, convergênca mas rápda e amostras menos correlaconadas do que obter amostras a partr de π(ν u). Assm, geramos amostras de ν a partr da dstrbução de π(ν y, µ,, Γ) exp{ λν} n =1 St p (y µ, Γ,,ν), (4.2) onde St p ( µ, Γ,,ν) denota a densdade t de Student assmétrca. Dado um valor amostral ν (t 1) obtdo no estágo t 1 do algortmo, geramos uma observação canddata ν c a partr da dstrbução lognormal LN(ν (t 1),σν 2 ). Esta proposta é aceta com probabldade 20

31 { } π (ν c y, µ,, Γ)ν c Q = mn π ( ν (t 1) y, µ,, Γ ),1. (4.3) ν (t 1) Agora vamos consderar o caso slash assmétrco. Então, π(u ν) é uma densdade beta com parâmetros ν e 1, de tal manera que π(u y o,t, µ,, Γ,ν) π(y o u,t, µ,, Γ)π(t u )π(u ν) { u po /2 exp u } 2 (yo (µ o + o t )) (Γ oo ) 1 (y o (µ o + o t )) { u 1/2 exp u } 2 t2 u ν 1 I (0,1) (u ) = u (po +2ν+1)/2 1 { exp u [ (y o 2 (µ o + o t )) (Γ oo ) 1 (y o (µ o + o t )) +t 2 ] } I (0,1) (u ). Assm, temos a segunte dstrbução condconal completa U y o,t, µ,, Γ,ν ( p o TGamma + 2ν + 1, (yo (µo + o t )) (Γ oo ) 1 (y o (µo + o t )) +t 2 ),(0,1). 2 2 A dstrbução condconal completa de λ é, como anterormente, TGama(2,ν,(λ 0,λ 1 )). Amostras da posteror de ν são obtdas a partr da dstrbução Gamma ( n + 1,λ n =1 logu ), que é obtda por conjugação usando o fato que u Beta(ν,1) em conjunto com a especfcação a pror para ν. Agora vamos consderar o caso normal contamnado assmétrco. Então, é medato provar que a dstrbução condconal completa de u é dscreta tomando os valores τ, 21

32 com probabldade η /(η + ζ ), e 1, com probabldade ζ /(η + ζ ), onde { η = ρτ (po +1)/2 exp ζ = (1 ρ)exp { 1 2 τ 2 [ (y o (µ o + o t )) (Γ oo ) 1 (y o (µ o + o t )) +t 2 ] }, e [ (y o (µ o + o t )) (Γ oo ) 1 (y o (µ o + o t )) +t 2 ] }. que Para obter a dstrbução condconal completa de ρ, observemos prmeramente π(u ρ,τ) = (1 ρ) (u τ)/(1 τ) ρ (1 u )/(1 τ). Lembrando que a dstrbução a pror de ρ é Beta(ρ 0,ρ 1 ), temos π(ρ u, τ) π(u ρ)π(ρ) (1 ρ) ( n =1 u nτ)/(1 τ)+ρ 1 1 ρ (n n =1 u )/(1 τ)+ρ 0 1, mplcando que a dstrbução condconal completa de ρ é Beta com parâmetros (n n =1 u )/(1 τ) + ρ 0 e ( n =1 u nτ)/(1 τ) + ρ 1. É possível mostrar que o prmero parâmetro é gual a ρ 0 somado com o número de u s guas a τ. Em relação ao parâmetro τ, Lu (1996) notou que, se tomarmos amostras a partr da sua condconal completa, então τ tpcamente fcará concentrado em torno de seu valor ncal ndefndamente. Para evtar sto, ntegramos a verossmlhança aumentada o máxmo possível e consderamos a dstrbução condconal completa margnal de τ, dada por g(τ µ, Γ,,ρ,y) τ τ0 1 (1 τ) τ 1 1 n SCN p (y µ, Γ,,τ,ρ). =1 Ao nvés de consdermos amostras a partr desta dstrbução, consderamos a transformação τ = τ/(1 τ), que é uma função 1-1 entre o ntervalo (0,1) e os reas postvos R +. Então, tomamos amostras a partr da dstrbução de τ, dada por π(τ µ, Γ,,ρ,y) = g(τ/(1 + τ) µ, Γ,,ρ,y)/(1 + τ) 2. Para fazer sto, utlzamos um passo de Metropols-Hastngs com propostas a partr de uma dstrbução lognormal, segundo os mesmos passos utlzados no caso t de Student assmétrco, veja (4.3). Então, para reverter a transformação, usamos τ = τ/(1 + τ), obtendo a amostra desejada para τ. 22

33 Capítulo 5 Comparação de modelos Consdere o problema de comparar város modelos da famíla SMSN, com dferentes proporções de dados faltantes. Como mensurar qual o melhor modelo para um problema real ou smulado? Na lteratura exstem mutos crtéros de comparação de modelos, tanto no contexto frequentsta, como o AIC (Akake, 1974) e o BIC (Schwarz, 1978) quanto no contexto Bayesano, como o DIC (Spegelhalter et al., 2002) e o WAIC (Watanabe, 2010), que são as opções que utlzaremos neste trabalho. 5.1 DIC Como prmera proposta de crtéro de seleção de modelos temos o DIC (devance nformaton crteron) observado, que vamos denotar por DIC obs. Ao contráro do DIC tradconal, proposto por (Spegelhalter et al., 2002), o DIC obs utlza em sua formulação a verossmlhança ntegrada, ou seja, a verossmlhança obtda ntegrando as varáves latentes. Como comentado por L et al. (2012), crtéros como o DIC usual não devem ser utlzados no contexto de dados aumentados, pos a verossmlhança dos dados completos não é regular, o que nvalda os argumentos assntótcos que são necessáros para justfcálo. O cálculo do DIC obs é baseado nas amostras a posteror MCMC, sendo uma versão modfcada do DIC usual. Veja os comentáros na Seção 3.1 de Celeux et al. (2006), onde o DIC obs é denotado por DIC 3. Para a amostra observada y o = {y o 1,...,yo n}, DIC observado é dado por DIC obs = D(Θ) + τ D, 23

34 onde Θ é o vetor com os parâmetros em foco, D(Θ) = 2E{log[L(y o Θ)] y} e L(y o Θ) = n =1 SMSN p o (y o Θ o ), (5.1) Θ o = (µ o, o, Γ oo, ν) contém as correspondentes partções do vetor de locação µ, do vetor de forma, da matrz de dspersão Γ, e o parâmetro do fator de escala ν. A função de verossmlhança para o ndvíduo, L(y o Θo ) = SMSN p o (y o Θo ), pode ser calculada utlzando a Proposção 3. Observe que E{log[L(y o Θ)] y} = log[l(y o Θ)]π(Θ y)dθ é a esperança posteror de log[l(y o Θ)]. τ D é uma medda do número efetvo de parâmetros no modelo, dada por τ D = D(Θ) + 2p(y o ), onde p(y o ) = log(e[l(y o Θ) y]) = n =1 loge[l(y o Θ o ) y] = n =1 log L(y o Θ o )π(θ y)dθ é o logartmo da densdade predtva a posteror. Assm, podemos escrever DIC obs = 2D(Θ) + 2p(y o ). (5.2) Seja Θ (l) a amostra MCMC gerada na teração l do algortmo, l = 1,...,m. O prmero termo nesta expressão pode ser aproxmado por D = 2 m m n l=1 =1 [ ] log L(y o Θ (l) ). (5.3) Como recomendado por Celeux et al. (2006), uma estmatva MCMC para o valor da densdade predtva a posteror p(y o ) em (5.2) é dada por n p(y o ) = 2 =1log p(y o ), com p(y o ) = 1 m m l=1 L(y o Θ (l) ). (5.4) Com o propósto de comparar dferentes modelos, aquele com menor DIC obs será mas 24

35 adequado. 5.2 WAIC O WAIC, do nglês Watanabe-Akake nformaton crteron, é um crtéro para a seleção de modelos ntroduzdo por Watanabe (2010) consdera a qualdade e complexdade do ajuste, além de ser assntotcamente equvalente à perda por valdação cruzada de Bayes. Bascamente, o WAIC é p(y o ) mas uma correção para o número efetvo de parâmetros. Exstem duas formas dferentes para calcular esta correção, e ambas podem ser vstas como uma aproxmação ao método de valdação cruzada, como dscutdo em Gelman et al. (2014). Elas são dadas por ρ WAIC1 = 2p(y o ) + D(Θ) e ρ WAIC2 = n =1 Var [logl(y o Θ o ) y], onde é D(Θ) é dado em (5.1). Temos então as seguntes versões para o WAIC: WAIC k = 2ρ WAICk 2p(y o ), k = 1,2. Observe que o valor de WAIC 1 é gual ao valor do DIC obs. Então, neste trabalho, consderaremos somente o WAIC 2. Para a comparação de modelos, aquele que apresentar menor WAIC é o escolhdo como melhor modelo. 25

36 Capítulo 6 Aplcação com Dados Smulados e Reas Com o propósto de avalar a performance da metodologa proposta neste trabalho, dos estudos de smulação foram delneados. Todos os procedmentos computaconas foram mplementados utlzando o software R (R Core Team, 2016). O prmero estudo analsa o comportamento do víco e do erro quadrátco médo das estmatvas MCMC para os dferentes modelos SMSN como função da taxa de observações faltantes. O segundo estudo compara os dferentes modelos SMSN, va crtéros de seleção, também levando-se em consderação a taxa de observações faltantes. 6.1 Estudo de Smulação I O objetvo deste estudo de smulação é verfcar o comportamento do víco e o do erro quadrátco médo (EQM) das estmatvas MCMC obtdas va o algortmo proposto no Capítulo 4 como função das taxas de observações faltantes. Com este objetvo geramos amostras de tamanho n = 100 a partr das dstrbuções normal, normal assmétrca, t de Student e t de Student assmétrca. Os parâmetros foram fxados em µ = (1,2,3), Γ = dag{0.1,0.2,0.3}, = ( 2,0,2) (para as dstrbuções normal assmétrca e t assmétrca) e ν = 3 (para as dstrbuções t e t assmétrca). As taxas de observações faltantes foram fxadas em 3% (leve), 10% (moderada) e 30% (severa). Em relação ao passo de Metropols-Hastngs utlzado para obter amostras de ν, o parâmetro de escala para as propostas fo ajustado com o propósto de obtermos uma taxa de acetação no ntervalo (0.15, 0.4). Para cada proporção de observações faltantes, foram smulados 100 conjuntos de 26

37 Vés N SN T ST EQM N SN T ST Proporção de faltantes Proporção de faltantes Vés N SN T ST EQM N SN T ST Proporção de faltantes Proporção de faltantes Vés N SN T ST EQM N SN T ST Proporção de faltantes Proporção de faltantes Fgura 6.1: Vés e EQM das estmatvas de µ 1, µ 2 e µ 3 para os dados smulados. Prmera coluna, vés. Segunda coluna, EQM. dados. Para cada um deles, ajustamos os modelos ctados anterormente e armazenamos as estmatvas MCMC dos parâmetros. Então, calculamos o víco e o EQM para as estmatvas em cada modelo. Para obter as estmatvas partr de um determnado conjunto de dados fxado, foram consderadas 5000 amostras MCMC, descontando-se as prmeras 1000 como um período de burn-n. Assm, para o parâmetro µ j, j = 1,2,3, defnmos o víco e o EQM estmados por onde ˆµ () j Víco = =1 ( ˆµ () j µ j ), MSE = =1 ( ˆµ () j µ j ) 2 é a estmatva MCMC de µ j para o ésmo conjunto de dados smulado, j = 1,2,3, = 1,2,...,100. Defnções análogas de víco e EQM valem para os outros parâmetros. A Tabela 6.1 e as Fguras 6.1,6.2,6.3 e 6.4 contém os resultados de vés e EQM para os dados smulados. Observe que, em geral, os valores são pequenos para todas as combnações de parâmetros e modelos, e que não há um padrão de varação bem defndo nem para o vés, e nem para o EQM como função da proporção dos dados faltantes. 27

38 Tabela 6.1: Vés e EQM para as estmatvas para dferentes percentuas de dados faltantes e dferentes modelos. Vés Parâmetro % N SN T ST N SN T ST µ 1 10% % % µ 2 10% % % µ 3 10% % % % % % % % % % % % % ν 10% % Γ 11 10% % % Γ 12 10% % % Γ 13 10% % % Γ 22 10% % % Γ 23 10% % % Γ 33 10% % % EQM 28

39 Vés SN ST EQM SN ST Proporção de faltantes Proporção de faltantes Vés SN ST EQM SN ST Proporção de faltantes Proporção de faltantes Vés SN ST EQM SN ST Proporção de faltantes Proporção de faltantes Fgura 6.2: Vés e EQM das estmatvas de 1, 2 e 3 para os dados smulados. Prmera lnha, vés. Segunda lnha, EQM. Vés N SN T ST Vés N SN T ST Vés N SN T ST Proporção de faltantes Proporção de faltantes Proporção de faltantes Vés N SN T ST Vés N SN T ST Vés N SN T ST Proporção de faltantes Proporção de faltantes Proporção de faltantes Fgura 6.3: Vés para os dados smulados. Prmera lnha, Γ 11, Γ 12 e Γ 13. Segunda lnha, Γ 22, Γ 23 e Γ

40 EQM N SN T ST EQM N SN T ST EQM N SN T ST Proporção de faltantes Proporção de faltantes Proporção de faltantes EQM N SN T ST EQM N SN T ST EQM N SN T ST Proporção de faltantes Proporção de faltantes Proporção de faltantes Fgura 6.4: EQM para os dados smulados. Prmera lnha, Γ 11, Γ 12 e Γ 13. Segunda lnha, Γ 22, Γ 23 e Γ Estudo de Smulação II Neste estudo de smulação o objetvo é comparar a performance de alguns modelos na classe SMSN sob a presença de dados faltantes utlzando os crtéros de seleção DIC obs e WAIC defndos no Capítulo 5. Os modelos consderados para este estudo foram: normal, t de Student, slash, normal contamnada, normal assmétrca, t de Student assmétrca, slash assmétrca e normal contamnada assmétrca. Foram geradas 100 amostras de n = 60 de uma dstrbução normal contamnada assmétrca com os seguntes parâmetros fxados ao longo de todas as smulações: µ = (2,6,8), Γ = dag{0.1,0.1,0.1}, = (2,2,2), τ = 0.1 e ρ = 0.8. Estes valores foram escolhdos com o propósto de garantr uma assmetra acentuada e um elevado grau de contamnação. Consderamos novamente as taxas de observações faltantes 3% (leve), 10% (moderada) e 30% (severa) e uma taxa adconal de 0%. Para obter amostras de τ e ν nos passos de Metropols-Hastngs, o parâmetro de escala para as propostas fo ajustado com o propósto de obtermos uma taxa de acetação no ntervalo (0.15,0.4). Para cada conjunto de dados ajustamos os modelos ctados anterormente e estmatvas MCMC dos parâmetros. Para os modelos slash e slash assmétrco, por questões de tempo computaconal, fxamos o valor do parâmetro do fator de escala em ν = 1. En- 30

3 A técnica de computação intensiva Bootstrap

3 A técnica de computação intensiva Bootstrap A técnca de computação ntensva ootstrap O termo ootstrap tem orgem na expressão de língua nglesa lft oneself by pullng hs/her bootstrap, ou seja, alguém levantar-se puxando seu própro cadarço de bota.

Leia mais

MODELOS DE REGRESSÃO PARAMÉTRICOS

MODELOS DE REGRESSÃO PARAMÉTRICOS MODELOS DE REGRESSÃO PARAMÉTRICOS Às vezes é de nteresse nclur na análse, característcas dos ndvíduos que podem estar relaconadas com o tempo de vda. Estudo de nsufcênca renal: verfcar qual o efeto da

Leia mais

4 Critérios para Avaliação dos Cenários

4 Critérios para Avaliação dos Cenários Crtéros para Avalação dos Cenáros É desejável que um modelo de geração de séres sntétcas preserve as prncpas característcas da sére hstórca. Isto quer dzer que a utldade de um modelo pode ser verfcada

Leia mais

3 Metodologia de Avaliação da Relação entre o Custo Operacional e o Preço do Óleo

3 Metodologia de Avaliação da Relação entre o Custo Operacional e o Preço do Óleo 3 Metodologa de Avalação da Relação entre o Custo Operaconal e o Preço do Óleo Este capítulo tem como objetvo apresentar a metodologa que será empregada nesta pesqusa para avalar a dependênca entre duas

Leia mais

O problema da superdispersão na análise de dados de contagens

O problema da superdispersão na análise de dados de contagens O problema da superdspersão na análse de dados de contagens 1 Uma das restrções mpostas pelas dstrbuções bnomal e Posson, aplcadas usualmente na análse de dados dscretos, é que o parâmetro de dspersão

Leia mais

O problema da superdispersão na análise de dados de contagens

O problema da superdispersão na análise de dados de contagens O problema da superdspersão na análse de dados de contagens 1 Uma das restrções mpostas pelas dstrbuções bnomal e Posson, aplcadas usualmente na análse de dados dscretos, é que o parâmetro de dspersão

Leia mais

DEFINIÇÃO - MODELO LINEAR GENERALIZADO

DEFINIÇÃO - MODELO LINEAR GENERALIZADO DEFINIÇÃO - MODELO LINEAR GENERALIZADO 1 Um modelo lnear generalzado é defndo pelos seguntes três componentes: Componente aleatóro; Componente sstemátco; Função de lgação; Componente aleatóro: Um conjunto

Leia mais

Prof. Lorí Viali, Dr.

Prof. Lorí Viali, Dr. Prof. Lorí Val, Dr. val@mat.ufrgs.br http://www.mat.ufrgs.br/~val/ É o grau de assocação entre duas ou mas varáves. Pode ser: correlaconal ou expermental. Prof. Lorí Val, Dr. UFRG Insttuto de Matemátca

Leia mais

Regressão Múltipla. Parte I: Modelo Geral e Estimação

Regressão Múltipla. Parte I: Modelo Geral e Estimação Regressão Múltpla Parte I: Modelo Geral e Estmação Regressão lnear múltpla Exemplos: Num estudo sobre a produtvdade de trabalhadores ( em aeronave, navos) o pesqusador deseja controlar o número desses

Leia mais

DIAGNÓSTICO EM MODELOS LINEARES GENERALIZADOS

DIAGNÓSTICO EM MODELOS LINEARES GENERALIZADOS DIAGNÓSTICO EM MODELOS LINEARES GENERALIZADOS 1 A análse de dagnóstco (ou dagnóstco do ajuste) confgura uma etapa fundamental no ajuste de modelos de regressão. O objetvo prncpal da análse de dagnóstco

Leia mais

REGRESSÃO NÃO LINEAR 27/06/2017

REGRESSÃO NÃO LINEAR 27/06/2017 7/06/07 REGRESSÃO NÃO LINEAR CUIABÁ, MT 07/ Os modelos de regressão não lnear dferencam-se dos modelos lneares, tanto smples como múltplos, pelo fato de suas varáves ndependentes não estarem separados

Leia mais

É o grau de associação entre duas ou mais variáveis. Pode ser: correlacional ou experimental.

É o grau de associação entre duas ou mais variáveis. Pode ser: correlacional ou experimental. Prof. Lorí Val, Dr. val@mat.ufrgs.br http://www.mat.ufrgs.br/~val/ É o grau de assocação entre duas ou mas varáves. Pode ser: correlaconal ou expermental. Numa relação expermental os valores de uma das

Leia mais

2 Incerteza de medição

2 Incerteza de medição 2 Incerteza de medção Toda medção envolve ensaos, ajustes, condconamentos e a observação de ndcações em um nstrumento. Este conhecmento é utlzado para obter o valor de uma grandeza (mensurando) a partr

Leia mais

1. CORRELAÇÃO E REGRESSÃO LINEAR

1. CORRELAÇÃO E REGRESSÃO LINEAR 1 CORRELAÇÃO E REGREÃO LINEAR Quando deseja-se estudar se exste relação entre duas varáves quanttatvas, pode-se utlzar a ferramenta estatístca da Correlação Lnear mples de Pearson Quando essa correlação

Leia mais

Notas Processos estocásticos. Nestor Caticha 23 de abril de 2012

Notas Processos estocásticos. Nestor Caticha 23 de abril de 2012 Notas Processos estocástcos Nestor Catcha 23 de abrl de 2012 notas processos estocástcos 2 O Teorema de Perron Frobenus para matrzes de Markov Consdere um processo estocástco representado por um conunto

Leia mais

Modelo linear normal com erros heterocedásticos. O método de mínimos quadrados ponderados

Modelo linear normal com erros heterocedásticos. O método de mínimos quadrados ponderados Modelo lnear normal com erros heterocedástcos O método de mínmos quadrados ponderados Varâncas homogêneas Varâncas heterogêneas y y x x Fgura 1 Ilustração da dstrbução de uma varável aleatóra y (condconal

Leia mais

CAPÍTULO 2 DESCRIÇÃO DE DADOS ESTATÍSTICA DESCRITIVA

CAPÍTULO 2 DESCRIÇÃO DE DADOS ESTATÍSTICA DESCRITIVA CAPÍTULO DESCRIÇÃO DE DADOS ESTATÍSTICA DESCRITIVA. A MÉDIA ARITMÉTICA OU PROMÉDIO Defnção: é gual a soma dos valores do grupo de dados dvdda pelo número de valores. X x Soma dos valores de x número de

Leia mais

ALGORITMOS PARA DADOS AUMENTADOS

ALGORITMOS PARA DADOS AUMENTADOS ALGORITMOS PARA DADOS AUMNTADOS. INTRODUÇÃO Dos algortmos baseados na consderação de dados latentes. Temos os dados efetvamente observados e de uma manera convenente aumentamos esses dados ntroduzndo os

Leia mais

X = 1, se ocorre : VB ou BV (vermelha e branca ou branca e vermelha)

X = 1, se ocorre : VB ou BV (vermelha e branca ou branca e vermelha) Estatístca p/ Admnstração II - Profª Ana Cláuda Melo Undade : Probabldade Aula: 3 Varável Aleatóra. Varáves Aleatóras Ao descrever um espaço amostral de um expermento, não especfcamos que um resultado

Leia mais

Ao se calcular a média, moda e mediana, temos: Quanto mais os dados variam, menos representativa é a média.

Ao se calcular a média, moda e mediana, temos: Quanto mais os dados variam, menos representativa é a média. Estatístca Dscplna de Estatístca 0/ Curso de Admnstração em Gestão Públca Profª. Me. Valéra Espíndola Lessa e-mal: lessavalera@gmal.com Meddas de Dspersão Indcam se os dados estão, ou não, prómos uns dos

Leia mais

Reconhecimento Estatístico de Padrões

Reconhecimento Estatístico de Padrões Reconhecmento Estatístco de Padrões X 3 O paradgma pode ser sumarzado da segunte forma: Cada padrão é representado por um vector de característcas x = x1 x2 x N (,,, ) x x1 x... x d 2 = X 1 X 2 Espaço

Leia mais

Ao se calcular a média, moda e mediana, temos: Quanto mais os dados variam, menos representativa é a média.

Ao se calcular a média, moda e mediana, temos: Quanto mais os dados variam, menos representativa é a média. Estatístca Dscplna de Estatístca 0/ Curso Superor de tecnólogo em Gestão Ambental Profª. Me. Valéra Espíndola Lessa e-mal: lessavalera@gmal.com Meddas de Dspersão Indcam se os dados estão, ou não, prómos

Leia mais

CORRELAÇÃO E REGRESSÃO

CORRELAÇÃO E REGRESSÃO CORRELAÇÃO E REGRESSÃO Constata-se, freqüentemente, a estênca de uma relação entre duas (ou mas) varáves. Se tal relação é de natureza quanttatva, a correlação é o nstrumento adequado para descobrr e medr

Leia mais

MISTURAS DE MODELOS DE REGRESSÃO LINEAR COM ERROS NAS VARIÁVEIS USANDO MISTURAS DE ESCALA DA NORMAL ASSIMÉTRICA. Renata Evangelista Monteiro

MISTURAS DE MODELOS DE REGRESSÃO LINEAR COM ERROS NAS VARIÁVEIS USANDO MISTURAS DE ESCALA DA NORMAL ASSIMÉTRICA. Renata Evangelista Monteiro MISTURAS DE MODELOS DE REGRESSÃO LINEAR COM ERROS NAS VARIÁVEIS USANDO MISTURAS DE ESCALA DA NORMAL ASSIMÉTRICA Renata Evangelsta Montero Dssertação de Mestrado apresentada ao Programa de Pós-graduação

Leia mais

RAD1507 Estatística Aplicada à Administração I Prof. Dr. Evandro Marcos Saidel Ribeiro

RAD1507 Estatística Aplicada à Administração I Prof. Dr. Evandro Marcos Saidel Ribeiro UNIVERIDADE DE ÃO PAULO FACULDADE DE ECONOMIA, ADMINITRAÇÃO E CONTABILIDADE DE RIBEIRÃO PRETO DEPARTAMENTO DE ADMINITRAÇÃO RAD1507 Estatístca Aplcada à Admnstração I Prof. Dr. Evandro Marcos adel Rbero

Leia mais

Os modelos de regressão paramétricos vistos anteriormente exigem que se suponha uma distribuição estatística para o tempo de sobrevivência.

Os modelos de regressão paramétricos vistos anteriormente exigem que se suponha uma distribuição estatística para o tempo de sobrevivência. MODELO DE REGRESSÃO DE COX Os modelos de regressão paramétrcos vstos anterormente exgem que se suponha uma dstrbução estatístca para o tempo de sobrevvênca. Contudo esta suposção, caso não sea adequada,

Leia mais

Prof. Lorí Viali, Dr.

Prof. Lorí Viali, Dr. Prof. Lorí Val, Dr. val@mat.ufrgs.br http://www.mat.ufrgs.br/~val/ 1 É o grau de assocação entre duas ou mas varáves. Pode ser: correlaconal ou expermental. Numa relação expermental os valores de uma das

Leia mais

Associação entre duas variáveis quantitativas

Associação entre duas variáveis quantitativas Exemplo O departamento de RH de uma empresa deseja avalar a efcáca dos testes aplcados para a seleção de funconáros. Para tanto, fo sorteada uma amostra aleatóra de 50 funconáros que fazem parte da empresa

Leia mais

R X. X(s) Y Y(s) Variáveis aleatórias discretas bidimensionais

R X. X(s) Y Y(s) Variáveis aleatórias discretas bidimensionais 30 Varáves aleatóras bdmensonas Sea ε uma experênca aleatóra e S um espaço amostral assocado a essa experênca. Seam X X(s) e Y Y(s) duas funções cada uma assocando um número real a cada resultado s S.

Leia mais

Implementação Bayesiana

Implementação Bayesiana Implementação Bayesana Defnção 1 O perfl de estratégas s.) = s 1.),..., s I.)) é um equlíbro Nash-Bayesano do mecansmo Γ = S 1,..., S I, g.)) se, para todo e todo θ Θ, u gs θ ), s θ )), θ ) θ Eθ u gŝ,

Leia mais

3.6. Análise descritiva com dados agrupados Dados agrupados com variáveis discretas

3.6. Análise descritiva com dados agrupados Dados agrupados com variáveis discretas 3.6. Análse descrtva com dados agrupados Em algumas stuações, os dados podem ser apresentados dretamente nas tabelas de frequêncas. Netas stuações devemos utlzar estratégas específcas para obter as meddas

Leia mais

Curso de extensão, MMQ IFUSP, fevereiro/2014. Alguns exercício básicos

Curso de extensão, MMQ IFUSP, fevereiro/2014. Alguns exercício básicos Curso de extensão, MMQ IFUSP, feverero/4 Alguns exercíco báscos I Exercícos (MMQ) Uma grandeza cujo valor verdadero x é desconhecdo, fo medda três vezes, com procedmentos expermentas dêntcos e, portanto,

Leia mais

Eventos coletivamente exaustivos: A união dos eventos é o espaço amostral.

Eventos coletivamente exaustivos: A união dos eventos é o espaço amostral. DEFINIÇÕES ADICIONAIS: PROBABILIDADE Espaço amostral (Ω) é o conjunto de todos os possíves resultados de um expermento. Evento é qualquer subconjunto do espaço amostral. Evento combnado: Possu duas ou

Leia mais

Classificação de Padrões

Classificação de Padrões Classfcação de Padrões Introdução Classfcadores Paramétrcos Classfcadores Sem-paramétrcos Redução da Dmensonaldade Teste de Sgnfcânca 6.345 Sstema de Reconhecmento de Voz Teora Acústca da Produção de Voz

Leia mais

Algarismos Significativos Propagação de Erros ou Desvios

Algarismos Significativos Propagação de Erros ou Desvios Algarsmos Sgnfcatvos Propagação de Erros ou Desvos L1 = 1,35 cm; L = 1,3 cm; L3 = 1,30 cm L4 = 1,4 cm; L5 = 1,7 cm. Qual destas meddas está correta? Qual apresenta algarsmos com sgnfcado? O nstrumento

Leia mais

Estatística II Antonio Roque Aula 18. Regressão Linear

Estatística II Antonio Roque Aula 18. Regressão Linear Estatístca II Antono Roque Aula 18 Regressão Lnear Quando se consderam duas varáves aleatóras ao mesmo tempo, X e Y, as técncas estatístcas aplcadas são as de regressão e correlação. As duas técncas estão

Leia mais

Modelo linear clássico com erros heterocedásticos. O método de mínimos quadrados ponderados

Modelo linear clássico com erros heterocedásticos. O método de mínimos quadrados ponderados Modelo lnear clássco com erros heterocedástcos O método de mínmos quadrados ponderados 1 Varâncas homogêneas Varâncas heterogêneas y y x x Fgura 1 Ilustração da dstrbução de uma varável aleatóra y (condconal

Leia mais

7 - Distribuição de Freqüências

7 - Distribuição de Freqüências 7 - Dstrbução de Freqüêncas 7.1 Introdução Em mutas áreas há uma grande quantdade de nformações numércas que precsam ser dvulgadas de forma resumda. O método mas comum de resumr estes dados numércos consste

Leia mais

2. VARIÁVEIS ALEATÓRIAS

2. VARIÁVEIS ALEATÓRIAS VARIÁVEIS ALEATÓRIAS 0 Varável aleatóra Ω é o espaço amostral de um epermento aleatóro Uma varável aleatóra é uma função que atrbu um número real a cada resultado em Ω Eemplo Retra- ao acaso um tem produzdo

Leia mais

5 Métodos de cálculo do limite de retenção em função da ruína e do capital inicial

5 Métodos de cálculo do limite de retenção em função da ruína e do capital inicial 5 Métodos de cálculo do lmte de retenção em função da ruína e do captal ncal Nesta dssertação serão utlzados dos métodos comparatvos de cálculo de lmte de retenção, onde ambos consderam a necessdade de

Leia mais

Variável discreta: X = número de divórcios por indivíduo

Variável discreta: X = número de divórcios por indivíduo 5. Análse descrtva com dados agrupados Em algumas stuações, os dados podem ser apresentados dretamente nas tabelas de frequêncas. Netas stuações devemos utlzar estratégas específcas para obter as meddas

Leia mais

UNIDADE IV DELINEAMENTO INTEIRAMENTE CASUALIZADO (DIC)

UNIDADE IV DELINEAMENTO INTEIRAMENTE CASUALIZADO (DIC) UNDADE V DELNEAMENTO NTERAMENTE CASUALZADO (DC) CUABÁ, MT 015/ PROF.: RÔMULO MÔRA romulomora.webnode.com 1. NTRODUÇÃO Este delneamento apresenta como característca prncpal a necessdade de homogenedade

Leia mais

Gráficos de Controle para Processos Autocorrelacionados

Gráficos de Controle para Processos Autocorrelacionados Gráfcos de Controle para Processos Autocorrelaconados Gráfco de controle de Shewhart: observações ndependentes e normalmente dstrbuídas. Shewhart ao crar os gráfcos de controle não exgu que os dados fossem

Leia mais

Universidade Federal do Paraná Departamento de Informática. Reconhecimento de Padrões. Classificadores Lineares. Luiz Eduardo S. Oliveira, Ph.D.

Universidade Federal do Paraná Departamento de Informática. Reconhecimento de Padrões. Classificadores Lineares. Luiz Eduardo S. Oliveira, Ph.D. Unversdade Federal do Paraná Departamento de Informátca Reconhecmento de Padrões Classfcadores Lneares Luz Eduardo S. Olvera, Ph.D. http://lesolvera.net Objetvos Introduzr os o conceto de classfcação lnear.

Leia mais

Teoria Elementar da Probabilidade

Teoria Elementar da Probabilidade 10 Teora Elementar da Probabldade MODELOS MATEMÁTICOS DETERMINÍSTICOS PROBABILÍSTICOS PROCESSO (FENÓMENO) ALEATÓRIO - Quando o acaso nterfere na ocorrênca de um ou mas dos resultados nos quas tal processo

Leia mais

INTRODUÇÃO À PROBABILIDADE. A probabilidade é uma medida da incerteza dos fenômenos. Traduz-se por um número real compreendido de 0 ( zero) e 1 ( um).

INTRODUÇÃO À PROBABILIDADE. A probabilidade é uma medida da incerteza dos fenômenos. Traduz-se por um número real compreendido de 0 ( zero) e 1 ( um). INTRODUÇÃO À PROILIDDE teora das probabldade nada mas é do que o bom senso transformado em cálculo probabldade é o suporte para os estudos de estatístca e expermentação. Exemplos: O problema da concdênca

Leia mais

Figura 8.1: Distribuição uniforme de pontos em uma malha uni-dimensional. A notação empregada neste capítulo para avaliação da derivada de uma

Figura 8.1: Distribuição uniforme de pontos em uma malha uni-dimensional. A notação empregada neste capítulo para avaliação da derivada de uma Capítulo 8 Dferencação Numérca Quase todos os métodos numércos utlzados atualmente para obtenção de soluções de equações erencas ordnáras e parcas utlzam algum tpo de aproxmação para as dervadas contínuas

Leia mais

Cálculo Numérico BCC760 Interpolação Polinomial

Cálculo Numérico BCC760 Interpolação Polinomial Cálculo Numérco BCC76 Interpolação Polnomal Departamento de Computação Págna da dscplna http://www.decom.ufop.br/bcc76/ 1 Interpolação Polnomal Conteúdo 1. Introdução 2. Objetvo 3. Estênca e uncdade 4.

Leia mais

Capítulo 1. Exercício 5. Capítulo 2 Exercício

Capítulo 1. Exercício 5. Capítulo 2 Exercício UNIVERSIDADE FEDERAL DE GOIÁS CIÊNCIAS ECONÔMICAS ECONOMETRIA (04-II) PRIMEIRA LISTA DE EXERCÍCIOS Exercícos do Gujarat Exercíco 5 Capítulo Capítulo Exercíco 3 4 5 7 0 5 Capítulo 3 As duas prmeras demonstrações

Leia mais

Covariância na Propagação de Erros

Covariância na Propagação de Erros Técncas Laboratoras de Físca Lc. Físca e Eng. omédca 007/08 Capítulo VII Covarânca e Correlação Covarânca na propagação de erros Coefcente de Correlação Lnear 35 Covarânca na Propagação de Erros Suponhamos

Leia mais

UMA ABORDAGEM ALTERNATIVA PARA O ENSINO DO MÉTODO DOS MÍNIMOS QUADRADOS NO NÍVEL MÉDIO E INÍCIO DO CURSO SUPERIOR

UMA ABORDAGEM ALTERNATIVA PARA O ENSINO DO MÉTODO DOS MÍNIMOS QUADRADOS NO NÍVEL MÉDIO E INÍCIO DO CURSO SUPERIOR UNIVERSIDADE FEDERAL DE JUIZ DE FORA INSTITUTO DE CIÊNCIAS EATAS DEPARTAMENTO DE ESTATÍSTICA UMA ABORDAGEM ALTERNATIVA PARA O ENSINO DO MÉTODO DOS MÍNIMOS QUADRADOS NO NÍVEL MÉDIO E INÍCIO DO CURSO SUPERIOR

Leia mais

UMA VALIDAÇÃO MATEMÁTICA PARA UM ALGORITMO QUE SIMULA MISTURAS DE DISTRIBUIÇÕES

UMA VALIDAÇÃO MATEMÁTICA PARA UM ALGORITMO QUE SIMULA MISTURAS DE DISTRIBUIÇÕES UMA VALIDAÇÃO MATEMÁTICA PARA UM ALGORITMO QUE SIMULA MISTURAS DE DISTRIBUIÇÕES Ana Paula Coelho MADEIRA Lucas Montero CHAVES Devanl Jaques de SOUZA Resumo: Uma valdação matemátca, utlzando o conceto de

Leia mais

Análise de Regressão Linear Múltipla IV

Análise de Regressão Linear Múltipla IV Análse de Regressão Lnear Múltpla IV Aula 7 Guarat e Porter, 11 Capítulos 7 e 8 He et al., 4 Capítulo 3 Exemplo Tomando por base o modelo salaro 1educ anosemp exp prev log 3 a senhorta Jole, gerente do

Leia mais

Prof. Lorí Viali, Dr.

Prof. Lorí Viali, Dr. Prof. Lorí Val, Dr. vall@mat.ufrgs.br http://www.mat.ufrgs.br/~val/ Em mutas stuações duas ou mas varáves estão relaconadas e surge então a necessdade de determnar a natureza deste relaconamento. A análse

Leia mais

NOÇÕES SOBRE CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES

NOÇÕES SOBRE CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES NOÇÕES SOBRE CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES 1 O nosso objetvo é estudar a relação entre duas varáves quanttatvas. Eemplos:. Idade e altura das cranças.. v. Tempo de prátca de esportes e rtmo cardíaco

Leia mais

Estatística Espacial: Dados de Área

Estatística Espacial: Dados de Área Estatístca Espacal: Dados de Área Dstrbução do número observado de eventos Padronzação e SMR Mapas de Probabldades Mapas com taxas empírcas bayesanas Padronzação Para permtr comparações entre dferentes

Leia mais

4 Discretização e Linearização

4 Discretização e Linearização 4 Dscretzação e Lnearzação Uma vez defndas as equações dferencas do problema, o passo segunte consste no processo de dscretzação e lnearzação das mesmas para que seja montado um sstema de equações algébrcas

Leia mais

Redução dos Dados. Júlio Osório. Medidas Características da Distribuição. Tendência Central (Localização) Variação (Dispersão) Forma

Redução dos Dados. Júlio Osório. Medidas Características da Distribuição. Tendência Central (Localização) Variação (Dispersão) Forma Redução dos Dados Júlo Osóro Meddas Característcas da Dstrbução Tendênca Central (Localzação) Varação (Dspersão) Forma 1 Meddas Característcas da Dstrbução Meddas Estatístcas Tendênca Central Dspersão

Leia mais

Variação ao acaso. É toda variação devida a fatores não controláveis, denominadas erro.

Variação ao acaso. É toda variação devida a fatores não controláveis, denominadas erro. Aplcação Por exemplo, se prepararmos uma área expermental com todo cudado possível e fzermos, manualmente, o planto de 100 sementes seleconadas de um mlho híbrdo, cudando para que as sementes fquem na

Leia mais

3 Algoritmos propostos

3 Algoritmos propostos Algortmos propostos 3 Algortmos propostos Nesse trabalho foram desenvolvdos dos algortmos que permtem classfcar documentos em categoras de forma automátca, com trenamento feto por usuáros Tas algortmos

Leia mais

DELINEAMENTOS EXPERIMENTAIS

DELINEAMENTOS EXPERIMENTAIS SUMÁRIO 1 Delneamentos Expermentas 2 1.1 Delneamento Interamente Casualzado..................... 2 1.2 Delneamento Blocos Casualzados (DBC).................... 3 1.3 Delneamento Quadrado Latno (DQL)......................

Leia mais

Resumo de Álgebra Linear - parte II

Resumo de Álgebra Linear - parte II Aula 7 Resumo de Álge Lnear - parte II 7.1 Resumo Nesta aula contnuamos desenvolvendo concetos báscos de álge lnear, aprmorando a famlardade com a notação de Drac. Bblograa: Moysés, 8.7 (em parte), e Cohen-Tannoudj,

Leia mais

Análise Descritiva com Dados Agrupados

Análise Descritiva com Dados Agrupados Análse Descrtva com Dados Agrupados Em algumas stuações, os dados podem ser apresentados dretamente nas tabelas de frequêncas. Netas stuações devemos utlzar estratégas específcas para obter as meddas descrtvas

Leia mais

Análise de Regressão. Profa Alcione Miranda dos Santos Departamento de Saúde Pública UFMA

Análise de Regressão. Profa Alcione Miranda dos Santos Departamento de Saúde Pública UFMA Análse de Regressão Profa Alcone Mranda dos Santos Departamento de Saúde Públca UFMA Introdução Uma das preocupações estatístcas ao analsar dados, é a de crar modelos que explctem estruturas do fenômeno

Leia mais

Programa do Curso. Sistemas Inteligentes Aplicados. Análise e Seleção de Variáveis. Análise e Seleção de Variáveis. Carlos Hall

Programa do Curso. Sistemas Inteligentes Aplicados. Análise e Seleção de Variáveis. Análise e Seleção de Variáveis. Carlos Hall Sstemas Intelgentes Aplcados Carlos Hall Programa do Curso Lmpeza/Integração de Dados Transformação de Dados Dscretzação de Varáves Contínuas Transformação de Varáves Dscretas em Contínuas Transformação

Leia mais

Testes não-paramétricos

Testes não-paramétricos Testes não-paramétrcos Prof. Lorí Val, Dr. http://www.mat.ufrgs.br/val/ val@mat.ufrgs.br Um teste não paramétrco testa outras stuações que não parâmetros populaconas. Estas stuações podem ser relaconamentos,

Leia mais

PRESSUPOSTOS DO MODELO DE REGRESSÃO

PRESSUPOSTOS DO MODELO DE REGRESSÃO PREUPOTO DO MODELO DE REGREÃO A aplcação do modelo de regressão lnear múltpla (bem como da smples) pressupõe a verfcação de alguns pressupostos que condensamos segudamente.. Os erros E são varáves aleatóras

Leia mais

2 Metodologia de Medição de Riscos para Projetos

2 Metodologia de Medição de Riscos para Projetos 2 Metodologa de Medção de Rscos para Projetos Neste capítulo remos aplcar os concetos apresentados na seção 1.1 ao ambente de projetos. Um projeto, por defnção, é um empreendmento com metas de prazo, margem

Leia mais

Robustecendo a distribuição normal

Robustecendo a distribuição normal Robustecendo a dstrbução normal Marcos Rafael Noguera Cavalcante Dssertação apresentada ao Insttuto de Matemátca e Estatístca da Unversdade de São Paulo para obtenção do título de Mestre em Cêncas Programa:

Leia mais

MAP Cálculo Numérico e Aplicações

MAP Cálculo Numérico e Aplicações MAP0151 - Cálculo Numérco e Aplcações Lsta 5 (Correção Neste ponto, todos já sabemos que todas as questões têm o mesmo valor, totalzando 10.0 pontos. (Questão 1 Fque com vontade de fazer mas do que fo

Leia mais

3 Elementos de modelagem para o problema de controle de potência

3 Elementos de modelagem para o problema de controle de potência 3 Elementos de modelagem para o problema de controle de potênca Neste trabalho assume-se que a rede de comuncações é composta por uma coleção de enlaces consttuídos por um par de undades-rádo ndvdualmente

Leia mais

MOQ-14 PROJETO E ANÁLISE DE EXPERIMENTOS LISTA DE EXERCÍCIOS 1 REGRESSÃO LINEAR SIMPLES

MOQ-14 PROJETO E ANÁLISE DE EXPERIMENTOS LISTA DE EXERCÍCIOS 1 REGRESSÃO LINEAR SIMPLES MOQ-14 PROJETO E ANÁLISE DE EXPERIMENTOS LISTA DE EXERCÍCIOS 1 REGRESSÃO LINEAR SIMPLES 1. Obtenha os estmadores dos coefcentes lnear e angular de um modelo de regressão lnear smples utlzando o método

Leia mais

Probabilidade e Estatística I Antonio Roque Aula 4. Resumos Numéricos de Distribuições

Probabilidade e Estatística I Antonio Roque Aula 4. Resumos Numéricos de Distribuições Probabldade e Estatístca I Antono Roque Aula Resumos umércos de Dstrbuções As representações tabulares e grácas de dados são muto útes, mas mutas vezes é desejável termos meddas numércas quanttatvas para

Leia mais

Regressão Linear Simples by Estevam Martins

Regressão Linear Simples by Estevam Martins Regressão Lnear Smples by Estevam Martns stvm@uol.com.br "O únco lugar onde o sucesso vem antes do trabalho, é no dconáro" Albert Ensten Introdução Mutos estudos estatístcos têm como objetvo estabelecer

Leia mais

Resumos Numéricos de Distribuições

Resumos Numéricos de Distribuições Estatístca Aplcada à Educação Antono Roque Aula Resumos umércos de Dstrbuções As representações tabulares e grácas de dados são muto útes, mas mutas vezes é desejável termos meddas numércas quanttatvas

Leia mais

Análise de influência

Análise de influência Análse de nfluênca Dzemos que uma observação é nfluente caso ela altere, de forma substancal, alguma propredade do modelo ajustado (como as estmatvas dos parâmetros, seus erros padrões, valores ajustados...).

Leia mais

AULA EXTRA Análise de Regressão Logística

AULA EXTRA Análise de Regressão Logística 1 AULA EXTRA Análse de Regressão Logístca Ernesto F. L. Amaral 13 de dezembro de 2012 Metodologa de Pesqusa (DCP 854B) VARIÁVEL DEPENDENTE BINÁRIA 2 O modelo de regressão logístco é utlzado quando a varável

Leia mais

FICHA de AVALIAÇÃO de MATEMÁTICA A 10.º Ano Versão 4

FICHA de AVALIAÇÃO de MATEMÁTICA A 10.º Ano Versão 4 FICHA de AVALIAÇÃO de MATEMÁTICA A 10.º Ano Versão 4 Nome Nº Turma: Data: / / Professor 10.º Ano Classfcação Apresente o seu racocíno de forma clara, ndcando todos os cálculos que tver de efetuar e todas

Leia mais

Identidade dos parâmetros de modelos segmentados

Identidade dos parâmetros de modelos segmentados Identdade dos parâmetros de modelos segmentados Dana Campos de Olvera Antono Polcarpo Souza Carnero Joel Augusto Munz Fabyano Fonseca e Slva 4 Introdução No Brasl, dentre os anmas de médo porte, os ovnos

Leia mais

RISCO. Investimento inicial $ $ Taxa de retorno anual Pessimista 13% 7% Mais provável 15% 15% Otimista 17% 23% Faixa 4% 16%

RISCO. Investimento inicial $ $ Taxa de retorno anual Pessimista 13% 7% Mais provável 15% 15% Otimista 17% 23% Faixa 4% 16% Análse de Rsco 1 RISCO Rsco possbldade de perda. Quanto maor a possbldade, maor o rsco. Exemplo: Empresa X va receber $ 1.000 de uros em 30 das com títulos do governo. A empresa Y pode receber entre $

Leia mais

5 Implementação Procedimento de segmentação

5 Implementação Procedimento de segmentação 5 Implementação O capítulo segunte apresenta uma batera de expermentos prátcos realzados com o objetvo de valdar o método proposto neste trabalho. O método envolve, contudo, alguns passos que podem ser

Leia mais

FICHA de AVALIAÇÃO de MATEMÁTICA A 10.º Ano Versão 2

FICHA de AVALIAÇÃO de MATEMÁTICA A 10.º Ano Versão 2 FICHA de AVALIAÇÃO de MATEMÁTICA A 10.º Ano Versão 2 Nome Nº Turma: Data: / / Professor 10.º Ano Classfcação Apresente o seu racocíno de forma clara, ndcando todos os cálculos que tver de efetuar e todas

Leia mais

DIFERENCIANDO SÉRIES TEMPORAIS CAÓTICAS DE ALEATÓRIAS ATRAVÉS DAS TREND STRIPS

DIFERENCIANDO SÉRIES TEMPORAIS CAÓTICAS DE ALEATÓRIAS ATRAVÉS DAS TREND STRIPS 177 DIFERENCIANDO SÉRIES TEMPORAIS CAÓTICAS DE ALEATÓRIAS ATRAVÉS DAS TREND STRIPS Antôno Carlos da Slva Flho Un-FACEF Introdução Trend Strps (TS) são uma nova técnca de análse da dnâmca de um sstema,

Leia mais

Modelagem do crescimento de clones de Eucalyptus via modelos não lineares

Modelagem do crescimento de clones de Eucalyptus via modelos não lineares Modelagem do crescmento de clones de Eucalyptus va modelos não lneares Joselme Fernandes Gouvea 2 Davd Venanco da Cruz 3 Máco Augusto de Albuquerque 3 José Antôno Alexo da Slva Introdução Os fenômenos

Leia mais

Jorge Figueiredo, DSC/UFCG. Análise e Técnicas de Algoritmos Jorge Figueiredo, DSC/UFCG. Análise e Técnicas de Algoritmos 2005.

Jorge Figueiredo, DSC/UFCG. Análise e Técnicas de Algoritmos Jorge Figueiredo, DSC/UFCG. Análise e Técnicas de Algoritmos 2005. Agenda Análse e Técncas de Algortmos Jorge Fgueredo Ordenação baseada em comparação Inserton Sort Mergesort Qucksort Ordenação em tempo lnear Análse de de Algortmos de de Ordenação Problema da Ordenação

Leia mais

Dinâmica Estocástica. Instituto de Física, outubro de Tânia Tomé - Din Estoc

Dinâmica Estocástica. Instituto de Física, outubro de Tânia Tomé - Din Estoc Dnâmca Estocástca Insttuto de Físca, outubro de 2016 1 Dnâmcas estocástcas para o modelos defndos em redes Sstema defndo em um retculado em um espaço de d dmensões Exemplo: rede quadrada d=2 em que cada

Leia mais

FICHA de AVALIAÇÃO de MATEMÁTICA A 10.º Ano Versão 1

FICHA de AVALIAÇÃO de MATEMÁTICA A 10.º Ano Versão 1 FICHA de AVALIAÇÃO de MATEMÁTICA A 10.º Ano Versão 1 Nome Nº Turma: Data: / / Professor 10.º Ano Classfcação Apresente o seu racocíno de forma clara, ndcando todos os cálculos que tver de efetuar e todas

Leia mais

Aprendizagem de Máquina

Aprendizagem de Máquina Introdução Aprendzagem de Máquna Alessandro L. Koerch Redes Bayesanas A suposção Naïve Bayes da ndependênca condconal (a 1,...a n são condconalmente ndependentes dado o valor alvo v): Reduz a complexdade

Leia mais

Capítulo 2. APROXIMAÇÕES NUMÉRICAS 1D EM MALHAS UNIFORMES

Capítulo 2. APROXIMAÇÕES NUMÉRICAS 1D EM MALHAS UNIFORMES Capítulo. Aproxmações numércas 1D em malhas unformes 9 Capítulo. AROXIMAÇÕS NUMÉRICAS 1D M MALHAS UNIFORMS O prncípo fundamental do método das dferenças fntas (MDF é aproxmar através de expressões algébrcas

Leia mais

1. ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA

1. ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA 1. ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA 014 Estatístca Descrtva e Análse Exploratóra Etapas ncas. Utlzadas para descrever e resumr os dados. A dsponbldade de uma grande quantdade de dados e de

Leia mais

PROVA DE ESTATÍSTICA & PROBABILIDADES SELEÇÃO MESTRADO/UFMG 2010/2011

PROVA DE ESTATÍSTICA & PROBABILIDADES SELEÇÃO MESTRADO/UFMG 2010/2011 Instruções: PROVA DE ESTATÍSTICA & PROBABILIDADES SELEÇÃO MESTRADO/UFMG 00/0 Cada uestão respondda corretamente vale (um) ponto. Cada uestão respondda ncorretamente vale - (menos um) ponto. Cada uestão

Leia mais

Departamento de Informática. Modelagem Analítica do Desempenho de Sistemas de Computação. Modelagem Analítica. Disciplina: Variável Aleatória

Departamento de Informática. Modelagem Analítica do Desempenho de Sistemas de Computação. Modelagem Analítica. Disciplina: Variável Aleatória Departamento de Informátca Dscplna: do Desempenho de Sstemas de Computação Varável leatóra Prof. Sérgo Colcher colcher@nf.puc-ro.br Varável leatóra eal O espaço de amostras Ω fo defndo como o conjunto

Leia mais

3 Método Numérico. 3.1 Discretização da Equação Diferencial

3 Método Numérico. 3.1 Discretização da Equação Diferencial 3 Método Numérco O presente capítulo apresenta a dscretação da equação dferencal para o campo de pressão e a ntegração numérca da expressão obtda anterormente para a Vscosdade Newtonana Equvalente possbltando

Leia mais

Dados ajustáveis a uma linha recta

Dados ajustáveis a uma linha recta Capítulo VI juste dos Mínmos Quadrados Dados ajustáves a uma lnha recta Determnação das constantes e B Incerteza nas meddas de Incerteza na determnação de e B juste dos mínmos quadrados a outras curvas:

Leia mais

Representação e Descrição de Regiões

Representação e Descrição de Regiões Depos de uma magem ter sdo segmentada em regões é necessáro representar e descrever cada regão para posteror processamento A escolha da representação de uma regão envolve a escolha dos elementos que são

Leia mais

Elementos de Estatística e Probabilidades II

Elementos de Estatística e Probabilidades II Elementos de Estatístca e Probabldades II Varáves e Vetores Aleatóros dscretos Inês Das 203 O prncpal objetvo da deste documento é fornecer conhecmentos báscos de varáves aleatóras dscretas e pares aleatóros

Leia mais

5 Formulação para Problemas de Potencial

5 Formulação para Problemas de Potencial 48 Formulação para Problemas de Potencal O prncpal objetvo do presente capítulo é valdar a função de tensão do tpo Westergaard obtda para uma trnca com abertura polnomal (como mostrado na Fgura 9a) quando

Leia mais

AEP FISCAL ESTATÍSTICA

AEP FISCAL ESTATÍSTICA AEP FISCAL ESTATÍSTICA Módulo 11: Varáves Aleatóras (webercampos@gmal.com) VARIÁVEIS ALEATÓRIAS 1. Conceto de Varáves Aleatóras Exemplo: O expermento consste no lançamento de duas moedas: X: nº de caras

Leia mais