Modelos para séries temporais de dados circulares

Transcrição

1 Modelos para séries temporais de dados circulares Mariana Raniere Neves Universidade Federal do Rio de Janeiro Instituto de Matemática Departamento de Métodos Estatísticos 2015

2 Modelos para séries temporais de dados circulares Mariana Raniere Neves Dissertação de Mestrado submetida ao Programa de Pós-Graduação em Estatística do Instituto de Matemática da Universidade Federal do Rio de Janeiro - UFRJ, como parte dos requisitos necessários à obtenção do título de Mestre em Estatística. Aprovada por: Prof a Mariane Branco Alves D.Sc - IM - UFRJ - Orientadora. Dani Gamerman PhD - IM - UFRJ. Antonio Carlos Monteiro Ponce de Leon D.Sc - IME - UERJ. Rio de Janeiro, RJ - Brasil 2015 ii

3 À minha mãe, irmãos amigos e amigos irmãos. iii

4 Nada do que foi será De novo do jeito que já foi um dia Tudo passa Tudo sempre passará A vida vem em ondas Como um mar Num indo e vindo infinito Tudo que se vê não é Igual ao que a gente Viu há um segundo Tudo muda o tempo todo No mundo Não adianta fugir Nem mentir Pra si mesmo agora Há tanta vida lá fora Aqui dentro sempre Como uma onda no mar Como uma onda - Lulu Santos iv

5 Agradecimentos Pela ajuda na conclusão deste trabalho, não poderia deixar de agradecer a algumas pessoas que foram essenciais para que eu conseguisse concluir mais esta etapa da minha vida. O término deste mestrado significa para mim não somente a conclusão de mais uma etapa da minha vida acadêmica, mas também mais uma vitória pessoal. O caminho até aqui foi árduo, mas o retorno é gratificante. Acredito hoje que posso tudo que quero, não por acreditar em forças sobrenaturais ou místicas, mas sim por saber que a maioria das coisas depende de esforço e força de vontade. Esta dissertação é motivo de muito orgulho para mim e espero que ela faça jus a todo incentivo que me foi dado. Em primeiro lugar, agradeço a minha mãe que, apesar das diferenças, sempre me garantiu uma educação de qualidade e que se preocupou em me incentivar a fazer uma pós-graduação já que segundo ela, graduação não é mais diferencial. Não foi preciso pagar para que eu tivesse acesso a um ensino médio, superior e a um mestrado de qualidade, mas sei que se necessário, eu teria incentivos e apoio financeiro, mesmo a grana sendo curta e compartilhada por cinco filhos. Mãe, esse trabalho é seu e é fruto de tudo que investiu em mim. Não há palavras para agradecer, mas retribuirei tudo com todo amor que puder dar. Além da minha mãe, devo agradecer também aos meus irmãos e melhores amigos. Sou uma pessoa de muita sorte por possuir os laços mais fortes com essas pessoas que amo tanto. Filipe, Gustavo, Miguel e Pedro muito obrigada por caminharem comigo nesta jornada, nada que eu disser será suficiente para expressar o meu amor por vocês. Agradeço também ao meu pai e meus avós por me abrigarem enquanto eu estava estudando e não podia pagar por um lugar para mim. v

6 Gostaria de agradecer também ao meu amigo Carlos pela maravilhosa companhia em todas horas nesta jornada e por toda ajuda com revisões, dúvidas, por estar sempre disponível quando precisei. Ganhei o melhor presente no dia que por acaso me colocaram para trabalhar em conjunto com você. Devo agradecer também ao meu amigo Rafael pelas incontáveis revisões dos meus programas no R e por todo o incentivo que sempre me deu. Não posso esquecer de agradecer à Ingrid pela ajuda, incentivo e por me fazer companhia em todas as horas. À minha amiga Lorena, agradeço pela revisão do texto, além de todo apoio e compreensão sempre. Agradeço muitíssimo à Michelle, que apesar de ter um ritmo de vida muito diferente do meu, compreende as minhas necessidades e me dá apoio incondicional. Agradeço a Juliana, que um dia agradeci por ser minha melhor companhia, hoje agradeço por me ensinar de forma contraditória e empírica que nada precisa ser na dor, tudo pode ser no amor. Agradeço à Mariane por me orientar por tantos anos e por investir tempo em mim e no meu trabalho. Devo agradecer também pela paciência, incentivo, pelos conselhos na minha vida profissional e pessoal. Não posso deixar de dizer que te admiro e me sinto uma pessoa de sorte por ter um referencial de que tipo de professora quero ser. À professora Alexandra, nunca posso deixar de agradecer por abrir tantas portas no meu caminho, pelas ótimas aulas de inferência na graduação e no mestrado. Aos professores Antonio Carlos Monteiro Ponce de Leon, Dani Gamerman e Thaís Cristina Oliveira da Fonseca, agradeço por aceitarem fazer parte da banca. vi

7 Resumo Muitas vezes deseja-se trabalhar com observações cujas medidas são expressas em ângulos. Para este tipo de dado, uma representação natural é o círculo. Ademais, obervações periódicas também podem ser representadas no círculo, onde a circunferência representa o período. Para estes conjuntos de dados, a metodologia usual utilizada para se trabalhar com dados na reta leva a resultados errôneos. Pode-se ter interesse, ainda, em observar essse tipo de dado temporalmente. A metodologia para análises estatísticas nestes casos deve diferir daquelas usualmente utilizada para se trabalhar com dados na reta, levando-se em conta as particularidades inerentes à esse tipo de observação. Dadas as limitações dos métodos para análise de dados com representação no círculo e a enxuta literatura a respeito de esquemas para estimação em modelos para dados desta natureza, este trabalho se propõe a estudar diferentes modelos e métodos de estimação para séries temporais de dados circulares. Os modelos abordados no presente trabalho tratam de problemas de diferentes naturezas. Os modelos dinâmicos abordados, por exemplo, se encarregam de tratar da autocorrelação temporal de forma mais intuitiva, através da equação de evolução, e de possíveis associações entre a variável resposta e outras variáveis. Já os modelos de mistura, fazem o papel de aumentar a gama de aplicações possíveis, pois os mesmos podem ser assimétricos e multimodais. Por fim, os modelos de misturas markovianas abordados são utilizados para se ober estruturas flexíveis sem prescindir do tratamento de autocorrelação temporal advinda da observação de variáveis temporalmente. Para se trabalhar com tais modelos, utilizam-se extensões de métodos com teoria já bem estabelecida. vii

8 A metodologia proposta neste trabalho é avaliada a partir de estudos simulados para cada um dos modelos abordados, por fim, através de uma aplicação à dados reais. Palavras-Chaves: modelos dinâmicos, séries temporais, modelos de misturas, modelos de misturas markovianos, dados circulares e modelos circulares. viii

9 Abstract It is known that observations which are depicted in angles are very often accomplished. For this kind of data, the circle is a natural representation. Moreover, periodical observations can also be represented on the circle where the circumference corresponds to this period. The usual methodology used in the work with such data in the straight line can lead to misguided results. It is also possible to observe data of this nature in a time perspective. The methodology used in analytical statistics in these instances must differ from the ones usually found, taking into account the intrinsic singularities in this kind of observation. Considering the limitation of methods of analysis of data in the representation on the circle, and also the bated literature on estimation schemes in models of data of this nature, the present paper aims at studying different models and methods of estimation for the time series of circular data. The approached dynamic models, for instance are responsible for establishing temporal autocorrelation in a more intuitive way through the evolution equation and through possible associations with the response variable and other variables. Meanwhile, the mixture models are responsible for enlarging the range of possible applications, for the former could be asymmetric and multimodal. Finally, the approached Markovs mixture models are used to obtain flexible structures without dispensing the temporal autocorrelation original from the observation of time variables. In order to work with such models, there have been used extension methods with solid theoretical foundations. The proposed methodology is here tested through simulated ix

10 studies for each one of the models approached and, finally, through the application of actual data. Keywords: dynamic models,temporal series, mixture models, markov mixture models, circular data, circular models. x

11 Sumário 1 Introdução 1 2 Estatísticas Descritivas Circulares Medidas de Posição Direção Média Direção Mediana Medidas de Concentração e Dispersão Variância Circular Desvio Padrão Circular Modelos Circulares Uniforme Circular Distribuição Cardioide Von Mises Wrapped Models Wrapped Normal Métodos de Inferência Bayesiana e Modelos Dinâmicos Inferência Bayesiana Teorema de Bayes Estimação Pontual Estimação Intervalar Distribuição Preditiva Procedimento de inferência via MCMC xi

12 3.2.1 Introdução Metropolis-Hastings Amostrador de Gibbs Resumo das etapas para implementação dos métodos MCMC Modelos Dinâmicos Modelos Lineares Dinâmicos (MLD) Esquemas de Amostragem em Modelos Dinâmicos Foward Filtering Backward Sampling Modelos Dinâmicos para Dados Circulares Modelo Von Mises Estático e Dinâmico Modelo Wrapped Normal Dinâmico Estudo Simulado Distribuições Circulares a partir de Misturas Misturas de Distribuições: Fundamentos Estimação Bayesiana para modelos de mistura utilizando o MCMC Wrapped Misturas de Normais Estudo Simulado Modelos de Misturas Markovianas Estimação Bayesiana para modelos de misturas markovianas utilizando o MCMC Wrapped Misturas Markovianas de Distribuições Normais Estudo Simulado Aplicação a dados reais 83 7 Conclusões e trabalhos futuros 90 A Método Bayessiano de Estimação para Modelos Von Mises 94 A.1 Modelo Von Mises Estático A.2 Modelo Von Mises Dinâmico xii

13 A.2.1 Condicionais Completas A.2.2 Resultados xiii

14 Lista de Figuras 2.1 Representação gráfica da utilização da média aritmética em dados circulares Representação gráfica da utilização da direção média circular Traço da cadeia de σ 2 e valor verdadeiro (vermelho) Dados µ estimado (cinza) Traço das cadeias de µ = (µ 1, µ 2 ) Traço das cadeias de σ 2 = (σ1 2, σ2 2 ) Média geral da mistura Variância geral da mistura Média das médias da mistura em cada réplica e valor real da média da mistura (vermelho) Histograma da média das variâncias da mistura em cada réplica e valor real da variância da mistura (vermelho) Traço das cadeias de µ = (µ 1, µ 2 ) Traço das cadeias de σ 2 = (σ1 2, σ2 2 ) Média geral da mistura Variância geral da mistura Média das médias da mistura em cada réplica e valor real da média da mistura (vermelho) Histograma da média das variâncias da mistura em cada réplica e valor real da variância da mistura (vermelho) Conjunto de dados reais xiv

15 6.2 Diagrama de rosas com a direção média de cada mês em 2012, 2013 e Histograma circular das direções dos ventos em cada mês de 2012, 2013 e Série de direção dos ventos observada e resposta média (vermelho) A.1 Traços da cadeia de µ utilizando o método encontrado em Damien and Walker (1999) A.2 Traços da cadeia de κ utilizando o método encontrado em Damien and Walker (1999) A.3 Estimação dos parâmetros do modelo Von Mises em uma das réplicas utilizando o algoritmo proposto por Damien e Walker (1999) A.4 Estimação dos parâmetros do modelo Von Mises utilizando o método MCMC programado de forma independente A.5 Cadeias de µ t, para t = 25, 50, 75, A.6 Cadeia de κ A.7 Dados gerados(preto) µ estimado xv

16 Capítulo 1 Introdução Muitas vezes deseja-se trabalhar com medidas que são direções. Um biólogo, por exemplo, pode ter interesse em analisar a direção do voo de um pássaro, enquanto que um meteorologista em estudar a direção dos ventos numa certa região. Um conjunto onde as observações são direções é chamado conjunto de dados direcionais. Direções bidimensionais podem ser representadas como ângulos com respeito a uma direção zero e um sentido de rotação. Como uma direção não tem magnitude, ela pode ser representada como um ponto na circunferência de um círculo unitário centrado na origem ou como vetores unitários. Devido a essa representação circular, observações deste tipo são chamadas de dados circulares. De forma similar, observações tridimensionais são também chamadas de dados esféricos. Além de dados direcionais, que parecem se adequar naturalmente a uma representação na circunferência, fenômenos periódicos, com período conhecido, também podem ser representados em um círculo, onde o comprimento da circunferência corresponde ao período. Pode-se ter interesse em estudar, por exemplo, a criminalidade em certa cidade ao longo de um dia ou a chegada de pacientes com ataque cardíaco em um hospital em certo período de tempo. Outro exemplo seria utilizar o círculo para representar os 365 dias do ano e fazer uma análise da ocorrência de acidentes de avião para avaliar 1

17 se os acidentes são uniformemente distribuídos ao longo das estações do ano. Devido à possível representação destes dados em uma circunferência, esses dados também podem ser chamados de dados circulares. Para trabalhar com dados circulares, deve-se ter em mente que estes apresentam características próprias, tanto em termos de modelagem quanto em termos de tratamento estatístico descritivo. A representação numérica de um ângulo, por exemplo, pode não ser única, já que este valor depende tanto da escolha da origem quanto do sentido da rotação. Logo, é importante assegurar que as conclusões obtidas através da análise destes tipos de dados levem em consideração essas particularidades, ou seja, deve-se chegar a conclusões que não dependam da escolha da origem e do sentido de rotação. Nota-se, também, que a comparação da grandeza de duas observações também depende da escolha da origem e do sentido de rotação. Além das particularidades apontadas anteriormente, deve-se observar que 0 e 2π representam o mesmo ponto no círculo e a medida é periódica. As características desses tipos de observações fazem com que a metodologia necessária para a análise de dados direcionais seja bem diferente da metodologia usual, utilizada para análise de dados lineares. A necessidade de métodos estatísticos e medidas invariantes com respeito ao sentido de rotação e à escolha da origem fazem com que a aplicação de métodos usuais para a análise de dados leve a resultados sem sentido. É possível encontrar na literatura diferentes abordagens para se trabalhar com dados circulares. Em Mardia (1975) são apresentadas algumas distribuições para dados circulares, por exemplo, sugere-se a Von Mises-Fisher, uma das distribuições circulares mais utilizadas, caracterizada por dois parâmetros que descrevem direção média e concentração. Detalhes sobre a análise de dados circulares podem ser vistos em Mardia (1975) e Jammalamadaka e Sengupta (2001). Para o caso em que se deseja trabalhar com dados bivariados onde uma componente é um ângulo e a outra um número real, Johnson e Wehrly (1978) sugerem algumas distribuições e modelos de regressão. Em Fisher e Lee (1994) é sugerida uma distribuição Von Mises para se trabalhar com mode- 2

18 los de regressão para respostas angulares. No contexto da Inferência Bayesiana, Guttorp e Lockhart (1988) fornecem um método para se fazer inferência Bayesiana utilizando a distribuição Von Mises. A proposta em Guttorp e Lockhart (1988) é elicitar prioris conjugadas para a estimação dos parâmetros da Von Mises nos caso em que se tem um ou ambos os parâmetros desconhecidos. Damien e Walker (1999) fornecem uma análise bayesiana completa para os casos em que se trabalha com a distribuição Von Mises e os parâmetros são supostos desconhecidos. O método sugerido se baseia nas prioris sugeridas por Guttorp e Lockhart (1988) e a ideia principal constitui-se na introdução de variáveis latentes, fazendo com que as condicionais completas dos parâmetros de interesse sejam conhecidas, facilitando o esquema de inferência no contexto de inferência bayesiana para dados circulares. Ao mesmo tempo que este artigo se destaca por fazer inferência Bayesiana completa, nota-se algumas limitações, como descrito no presente trabalho: dificuldade computacional para tratamento de séries temporais longas foram observadas ao se aplicar o algoritmo proposto. Do ponto de vista do modelo propriamente dito, tem-se unimodalidade e simetria na distribuição circular proposta, bem como pressuposto de independência entre observações. Ainda se tratando da distribuição Von Mises, Gill e Hangartner (2010) apresentam um procedimento para regressão Bayesiana utilizando os métodos de Monte Carlo via cadeias de Markov (MCMC) para os casos em que supõe-se que a distribuição da variável resposta é Von Mises e deseja-se estimar os parâmetros desta distribuição, bem como os efeitos das covariáveis na variável resposta. Nestes casos, as variáveis explicativas são introduzidas no modelo através da direção média, o primeiro parâmetro da Von Mises. Como este parâmetro tem suporte no círculo, é necessário que se utilize uma função de ligação, já que as regressoras têm suporte na reta real. Uma das desvantagens do método de estimação sugerido no artigo, é que a estimação de κ, o parâmetro de concentração da Von Mises, é feita através do método de máxima verossimilhança, com estimativa pontual para tal parâmetro plugada a outras etapas do algoritmo, em que a estimação dos demais parâmetros é tratada. Para a estimação desses outros parâmetros do modelo, é utilizado o algoritmo de Metropolis-Hastings. Nos casos em que se tem uma série circular observada temporalmente, Lan et al. (2013) sugerem o uso de filtro de partículas na estimação do parâmetro de centralidade da distribuição Von 3

19 Mises,, que supõe-se variar no tempo, mas ao mesmo tempo que é possível estimar de forma Bayesiana este parâmetro, o autor não considera fazer a estimação das variâncias de evolução e observação e esses últimos parâmetros são supostos conhecidos. A contribuição do presente trabalho neste contexto, consiste na elaboração de um método que possibilite a estimação de todos os parâmetros de um modelo Von Mises dinâmico. Uma outra abordagem possível para se trabalhar com dados circulares é utilizar os chamados Wrapped Models. Tais modelos são construídos a partir de distribuições com suporte na reta por meio de uma transformação que leva os valores da reta ao círculo. A vantagem na utilização desse tipo de abordagem provém do fato de ser possível utilizar modelos com suporte que originalmente não seja no círculo, proporcionando uma maior flexibilidade. Jona-Lasinio et al. (2012) constroem um modelo hierárquico para lidar com dados circulares quando supõe-se que a variável resposta tem distribuição Wrapped Normal, e mostram que é possível se fazer inferência Bayesiana nesses casos utilizando métodos de Monte Carlo via Cadeias de Markov (MCMC). A ideia consiste em estimar k, o número de voltas dadas no círculo quando se faz a transformação de valores da reta para o círculo. Condicionalmente a k, as distribuições condicionais completas para os parâmetros da Wrapped Normal são conhecidos, o que faz com que esquemas MCMC funcionem de forma mais prática e eficiente. A ideia de introdução de k como uma variável latente a ser estimada será utilizada em todas as aplicações de modelos wrapped no presente trabalho. Neste artigo, os autores trabalham com uma componente que trata da autocorrelação espacial, já que o conjunto de dados é observado no espaço, mas não são considerados casos em que uma série temporal é observada e deseja-se trabalhar com modelos que tratem de autocorrelação temporal. Holzmann et al. (2006) propõe modelos para séries temporais circulares. Tanto em um modelo Von Mises quanto em um modelo Wrapped Normal, o autor assume que os parâmetros variem num espaço discreto e finito, com uma estrutura Markoviana, responsável pela autocorrelação temporal, dando conta da transição entre estados. A estimação é feita por máxima verossimilhança. Hughes (2007) considera, entre outras 4

20 propostas, versões wrapped de modelos clássicos para séries temporais como modelos autoregressivos. Mais recentemente, Mastrantonio et al. (2015) propõem processos wrapped gaussianos espaço-temporais, especificando uma estrutura de covariância espaço-temporal não separável, mas preservam a direção média constante. Ainda com foco na estrutura de covariância,wang e Gelfand (2014) trata, num contexto espaçotemporal, também com média fixa, a modelagem conjunta de uma variável circular e uma variável linear (como direção de ventos e altura de ondas). Admitimos, no presente trabalho, observações circulares em um contexto puramente temporal, em que a direção média evolua. A estrutura especificada para evolução da direção média induz, simultaneamente, o tratamento de autocorrelação temporal. Nota-se que tanto a Von Mises quanto a Wrapped Normal são modelos unimodais e simétricos e que existe interesse em estruturas mais flexíveis que contemplem, por exemplo, multimodalidade e assimetria no círculo. Neste sentido, modelos de mistura são muito úteis, já que possibilitam a construção de estruturas que podem se adequar bem a conjuntos e dados assimétricos ou multimodais. Lan et al. (2013) consideram a mistura de distribuições Von Mises, em um modelo estático e que pressupõe independência entre as observações. O procedimento de estimação é feito por meio do algoritmo EM (Expectation-Maximization). Não encontramos, na literatura, nenhum artigo de referência para os casos em que se deseja trabalhar com modelos wrapped mistura de normais utilizando inferência Bayesiana. Portanto, na elaboração deste trabalho, foi necessário desenvolver uma metologia para esses casos. O método desenvolvido consiste na junção de ideias do artigo de Jona- Lasinio et al. (2012) e dos métodos de estimação bayesianos para modelos de mistura encontrados em Fruhwirth-Schnatter (2006). Temos interesse em estruturas flexíveis sem, contanto, prescindir do tratamento da autocorrelação para dados observados temporalmente. Uma outra contribuição desta dissertação é fornecer um método de estimação bayesiano para modelos de mistura markovianos, mais especificamente, misturas de Wrapped Normal. A metodologia desenvolvida foi, mais uma vez, baseada na junção 5

21 das ideias encontradas em Jona-Lasinio et al. (2012) e Fruhwirth-Schnatter (2006). Este trabalho tem como objetivo, portanto, propor modelos dinâmicos e modelos de misturas para dados circulares observados temporalmente, considerando-se formalmente tanto a autocorrelação inerente a esse tipo de dado, quanto a possibilidade de distribuição multimodal ou assimétrica no círculo. O trabalho está estruturado como segue. Nos capítulo 2 serão apresentadas estatísticas descritivas utilizadas para a análise de dados circulares, já que pela natureza deste tipo de dado, as estatísticas descritivas usuais não podem ser aplicadas, pois levam a resultados muitas vezes incoerentes e errôneos. Serão apresentadas medidas circulares equivalentes à média, mediana e variância na reta. Serão apresentados também, modelos usuais para dados circulares, sendo estes os modelos com suporte natural no círculo e os Wraped Models, que são obtidos a partir de um modelo com suporte na reta via uma operação matemática que leva os valores da reta ao círculo. O capítulo 3 abordará conceitos e métodos de estimação utilizados no contexto de inferência Bayesiana, em particular são apresentados, sumariamente, elementos sobre o método de Monte Carlo via cadeias de Markov(MCMC). Será feita uma breve revisão sobre modelos dinâmicos e métodos para estimação de parâmetros nestes modelos, partircularmente, o Forward Filter Bacward Sampling (FFBS). No capítulo 4, serão apresentados modelos dinâmicos para dados circulares, como o modelo Von Mises dinâmico e o modelo Wrapped Normal dinâmico. Tais modelos naturalmente acomodam autocorrelação em séries temporais circulares. Apresenta-se, também, a metodologia desenvolvida para se trabalhar com estes modelos e os resultados obtidos em simulações com dados artificiais para cada modelo utilizado. No capítulo 5, serão abordados modelos de mistura e modelos de misturas Markovianas para dados circulares. Ademais, serão apresentados os métodos de estimação 6

22 desenvolvidos para se trabalhar com estes modelos e os resultados obtidos a partir de exercícios simulados. Uma aplicação dos modelos e métodos a dados reais de direção dos ventos será apresentada no capítulo 6. Por fim, no Capítulo 7, serão apresentadas as conclusões e possíveis extensões deste trabalho. 7

23 Capítulo 2 Estatísticas Descritivas Circulares Como foi observado anteriormente, a análise estatística e medidas descritivas usuais não são adequadas para se trabalhar com dados circulares. Nesta seção serão apresentadas medidas que se adequam melhor ao estudo de dados desta natureza. Dados circulares podem ser representados como ângulos ou como pontos na circunferência de raio unitário, portanto, pode-se utilizar a representação em coordenadas polares ou retangulares. Dado que se tem a representação em uma das duas formas, é possível converter a medida para outra forma equivalente. Na análise de dados direcionais, usualmente se tem interessse na direção e não na magnitude do vetor, logo, a fim de facilitar a análise, esses vetores serão representados como vetores com comprimento unitário. 8

24 2.1 Medidas de Posição Direção Média Em conjuntos de dados circulares unimodais, muitas vezes deseja-se definir uma direção média. Para calcular a direção média, seria natural pensar na média aritimética das observações. Supondo, por exemplo, que se tem duas medidas, 15 o e 345 o, para direção dos ventos em um certo dia em uma certa estação de medição no nordeste do Brasil e deseja-se calcular a direção média deste dia nesta estação, a média aritmética destes ângulos é 180 o. Como se pode perceber pela figura 2.1, a medida encontrada leva a uma conclusão totalmente equivocada sobre a direção média dos ventos, pois esta medida aponta para a direção errada. Figura 2.1: Representação gráfica da utilização da média aritmética em dados circulares 9

25 O exemplo dado é apenas uma situação entre várias que podem ocorrer, onde a utilização da média aritmética para este tipo de dado pode levar a conclusões erradas. Uma medida apropriada da direção média para um conjunto de dados unimodal pode ser obtida considerando as observações como vetores unitários e calculando a direção do vetor resultante. Sejam a 1, a 2, a 3,..., a n um conjunto de observações de ângulos dados em coordenadas polares, e considere a transformação polar para retangular para cada observação: (cos a i, sen a i ), i = 1,..., n. O vetor resultante R dos n vetores unitários é obtido da seguinte forma: n n R = ( cos a i, sen a i ) = (C, S). i=1 i=1 O tamanho do vetor resultante é determinado por:. R = R = C 2 + S 2 Propõe-se que a direção média circular, que será denotada por ᾱ, seja dada pela direção do vetor resultante R. Pode-se definir a direção do vetor resultante pelas seguintes equações: cosᾱ = C R, senᾱ = S R. Sendo assim, pode-se calcular ᾱ por: 10

26 ) ᾱ = arctan ( S C onde; arctan ( S C ), se C > 0, S 0; π, se C = 0, S > 0; ( ) 2 S ᾱ = arctan = arctan ( ) S C C + π, se C < 0; arctan ( ) S C + 2π, se C 0, S < 0; indefinido, se C = 0, S = 0. ᾱ é o centro do conjunto de dados e não depende do sentido de rotação ou da escolha da origem (proposição 1.1, Jammalamadaka e Sengupta (2001, página 14)). Voltando ao exemplo dado, calculando a direção média circular obtém-se o valor 0 o. Pela figura 2.2, pode-se notar que este valor parece ser coerente com a interpretação intuitiva e levar a conclusões razoáveis sobre o problema. 11

27 Figura 2.2: Representação gráfica da utilização da direção média circular Direção Mediana Para se fazer uma estimação robusta da mediana populacional, é útil obter uma versão circular da mediana. A direção mediana α dos ângulos a 1, a 2, a 3,..., a n pode ser definida como um ângulo φ, tal que: Metade das observações esteja no arco [φ, φ + π) A maioria das observações esteja mais perto de φ do que de φ + π 12

28 Quando o tamanho amostral n é ímpar, a direção mediana é uma das observações, mais especificamente a n+1 -ésima observação, sendo a primeira, a mais distante de φ 2 pertencente a qualquer um dos dois arcos ([φ, φ + π) ou [φ π, π)). Quando n é par, é usual tomar a direção média como ponto médio das duas observações apropriadas. 2.2 Medidas de Concentração e Dispersão Variância Circular O tamanho do vetor resultante R foi definido anteriormente por:. R = (C 2 + S 2 ) Pode-se definir R, o tamanho médio do vetor resultante, como:, R = ( C 2 + S 2 ) onde; n C = 1 n i=1 cosa i 13

29 S = 1 n n sena i. i=1 Dado que as observações a 1, a 2, a 3,..., a n são vetores unitários, tem-se que: 0 R 1. Se as direções a 1, a 2, a 3,..., a n estão muito concentradas em uma certa parte da circunferência, R será próximo de 1. Por outro lado, se as observações estiverem dispersas, R será próximo de 0. Logo, R é uma medida de concentração do conjunto de dados. Note que para qualquer conjunto de dados da forma a 1, a 2, a 3,..., a n, a 1 + π, a 2 + π, a 3 + π,..., a n + π, R = 0. Logo, se R 0 não necessariamente as observações estão dispersas ao redor da circunferência. Ainda, R é invariante sob rotação. Na maior parte dos casos, o tamanho do vetor médio resultante R é a medida de concentração mais importante. Entretanto, por analogia a medidas para dados na reta, é útil considerar medidas de dispersão circulares. Uma medida de dispersão circular é a variância circular amostral, definida como: V = 1 R Desvio Padrão Circular Além da variância circular, pode ser útil definir uma medida análoga ao desvio padrão usual. Uma maneira de obter essa medida é fazendo uma transformação da variância amostral V. Define-se o desvio padrão circular v como: 14

30 { v={ 2log(1 V )} = 2log 2 R} 2.3 Modelos Circulares Uma distribuição circular é uma distribuição de probabilidade na qual a probabilidade total está concentrada na circunferência de raio unitário. Há algumas maneiras de definir essas distribuições, mas deve-se atentar para algumas características peculiares. É importante, por exemplo, que o suporte da distribuição volte ao ponto inicial, à medida que os valores aumentam. O suporte de uma variável aleatória circular θ, medida em radianos, pode ser qualquer intervalo de comprimento 2π, geralmente sendo [0, 2π) ou [ π, π). Distribuições circulares podem ser essencialmente de dois tipos: discretas ou contínuas. No caso contínuo, a função densidade de probabilidade satisfaz às seguintes propriedades: f(θ) 0; 2π 0 f(θ)dθ = 1; f(θ) = f(θ + k 2π), para qualquer inteiro k. Muitas distribuições circulares úteis podem ser geradas a partir de distribuições de probabilidade conhecidas através de uma série de mecanismos. Dois exemplos bastante interessantes de tipos de distribições obtidas desta forma são as wrapped distributions, que são obtidas enrolando-se uma distribuição linear ao redor de um círculo unitário e as offset distributions, que são obtidas através da tranformação de uma variável 15

31 aleatória bivariada linear para seu componente direcional. A seguir, são apresentadas sucintamente algumas distribuições circulares usuais. 16

32 2.3.1 Uniforme Circular Se a probabilidade total está espalhada uniformemente sobre a circunferência, temos uma distribuição Uniforme Circular: f(θ) = 1 2π, 0 θ 2π. Todas as direções têm igual densidade e por isso esta distribuição é comumente conhecida como distribuição isotrópica ou aleatória. Esta distribuição não tem média bem definida e tem máxima entropia. Ela é muito importante na análise de dados circulares, pois representa a falta de direção preferencial. Quando a distribuição não é uniforme, espera-se uma concentração ao redor de uma ou mais direções. Usualmente, tem-se uma concentração maior ao redor de uma única direção e a distribuição é unimodal. As distribuições abordadas nos próximos tópicos são algumas das importantes distribuições circulares unimodais Distribuição Cardioide Se θ tem distribuição cardioide, a sua função densidade de probabilidade é dada por: f(θ µ, ρ) = 1 2π {1 + 2ρcos(θ µ)}, 0 µ < 2π, 1 2 < ρ < 1 2, 17

33 em que µ é a direção média e ρ é parâmetro de concentração. Essa distribuição é umimodal e simétrica ao redor de µ Von Mises Essa distribuição foi introduzida como um modelo estatístico por Von Mises (1918). Em Gumbel et al. (1953), a Von Mises é também chamada de distribuição Normal Circular para enfatizar sua importância e semelhança com a distribuição normal na reta real. Esta é a distribuição circular mais comumente utilizada. Se θ é variável aleatória com distribuição Von Mises (denota-se vm(µ, k)), θ tem suporte em qualquer intervalo de comprimento 2π e a sua função de densidade é da forma: f(θ µ, k) = 1 2πI 0 (k) ek(cos(θ µ)), onde µ é a direção média, 0 µ < 2π e k é parâmetro de concentração k 0. Aqui I 0 (k) na constante normalizadora representa a função Bessel Modificada de primeiro tipo e ordem zero, dada por: I 0 (k) = 1 2π e kcosθ dθ = 2π 0 0 ( ) 2r ( ) 2 k 1. (2.2) 2 r! A densidade é unimodal e simétrica em torno da direção média µ (0 µ < 2π) e k 0 é um parâmetro de concentração. Para fins computacionais, aproxima-se o somatório infinito em (2.2), de acordo com um número de termos conveniente. 18

34 2.4 Wrapped Models Outra alternativa para modelagem de dados circulares são os Wrapped Models, obtidos enrolando-se uma distribuição originalmente definida na reta sobre a circunferência de raio unitário. De acordo com Mardia e Jupp (2009), se X é uma variável aleatória definida na reta, obtém-se uma variável circular Y ao definir-se Y = X(mod 2π). Se X tem função de distribuição acumulada F, então Y terá função de distribuição: F Y (y) = {F (y + 2πk) F (2πk)}, 0 y < 2π. (2.3) k= Em particular, se X tem função densidade de probabilidade f, então Y terá densidade: f Y (y) = k= f(y + 2πk), 0 y < 2π. (2.4) É possível, portanto, contruir um Wrapped Model a partir de qualquer modelo que se queira. De acordo com Jona-Lasinio et al. (2012), da equação (2.4), pode-se perceber que a distribuição conjunta de (Y, K) é f(y + 2πk) com y [0, 2π) e K Z. Note que X determina (Y, K) e vice-versa e a marginalização com respeito a K produz (2.4). Da distribuição conjunta, a distribuição marginal de K é P (K = k) = 2π 0 f(y + 2πk)dy. Além disso, K Y = y é tal que P (K = k Y = y) = f(y+2πk) j= f(y+2πj) enquanto que f(y+2πk) a condicional de Y K = k é 2π. Logo, é fácil trabalhar com distribuições 0 f(y+2πk)dy enroladas, tratando K como variável latente Wrapped Normal 19

35 Um Wrapped Model bastante utilizado é a distribuição Wrapped Normal(µ, σ 2 ),que é obtida enrolando-se a distribuição Normal(µ, σ 2 ) no círculo. Se Y Wrapped Normal(µ, σ 2 ), então a densidade de Y é dada por: f(y µ, σ 2 ) = 1 σ 2π k= Outra representação possível para esta densidade é dada por: { f(y µ, σ 2 ) = π [ ] (y µ + 2πk) 2 exp. (2.5) 2σ 2 } ρ p2 cos p(y µ), 0 ρ 1, (2.6) p=1 onde p = exp { 1 2 σ2}. A distribuição é unimodal e simétrica em torno da direção média µ (mod 2π). Quando ρ 0, a densidade aproxima-se da Uniforme no círculo, enquanto quando ρ 1, a densidade tende à degeneração com massa concentrada em µ. Seguindo Jona-Lasinio et al. (2012), a expressão (2.5), que envolve uma soma infinita, pode ser bem aproximada utilizando-se poucos termos, sem que seja necessário explorar todo o suporte da quantidade latente k, {0, ±1, ±2,...}. Em Mardia e Jupp (2009), para fins práticos, a densidade pode ser aproximada através do truncamento de k { 1, 0, 1} quando σ 2 2π, enquanto que para σ 2 < 2π considerar apenas k=0 já gera uma aproximação razoável. Segundo Jona-Lasinio et al. (2012), é possível ser mais preciso. Suponha que translademos X para X = (X + π) mod 2π π, resultando em um suporte simétrico [ π, π), com a translação correspondente de µ para µ. Se ϕ denota a função de densidade da normal padrão, pode-se escrever: π π 1 σ ϕ ( x + 2kπ µ σ ) dx = π π 1 σ ϕ ( x + 2kπ µ σ ) dx = (2k+1)π µ σ (2k 1)π µ σ 20 ϕ(z)dz.

36 Cálculos revelam que, se k U = 1 + 3σ 2π = kl, (onde a denota a parte inteira de a), então (2k U + 1)π µ > 3π e (2k U 1)π µ < 3π. Como resultado, (2k+1)π µ σ (2k 1)π µ σ ϕ(z)dz > k U k=k L (2k+1)π µ σ (2k 1)π µ σ ϕ(z)dz > 3 3 ϕ(z)dz = (2.7) A expressão (2.7) permite determinar o número necessário de termos para uma boa aproximação em função de σ, por exemplo, se σ < 2π 3, então k { 1, 0, 1}; se 2π 3 σ < 4π 3 então k { 2, 1, 0, 1, 2}. Então K pode ser grande se e somente se σ 2 puder ser grande. 21

37 Capítulo 3 Métodos de Inferência Bayesiana e Modelos Dinâmicos 3.1 Inferência Bayesiana Teorema de Bayes Em problemas de inferência paramétrica, tem-se interesse na estimação ou tomada de decisão sobre quantidades não observáveis θ, ditas parâmetros, que indexam um modelo probabilístico p(y θ) subjacente ao comportamento de uma variável aleatória Y sob observação. Os procedimentos Bayesianos de inferência paramétrica caracterizam-se por utilizar, como fonte de informação para estimação ou tomada de decisão sobre θ, não somente observações y 1,..., y n de Y θ (como nos métodos cássicos de inferência), mas também informação externa ao conjunto de dados observados, referentes a crenças subjetivas sobre θ e refletindo a incerteza inicial do tomador de decisão. A informação proveniente dos dados é traduzida pela função de verossimilhança, denotada por l(θ; y), em que y representa o conjunto de dados observado e θ os parâmetros a serem estimados. A função de verossimilhança tem a mesma expressão que define o 22

38 modelo probabilístico p(y θ), porém são objetos matemáticos distintos. Do ponto de vista de estimação ou tomada de decisões sobre θ passa-se a considerar p(y θ) como função de θ, desconhecido, condicional a um vetor de observações y e essa função, cujo argumento agora é o vetor paramétrico, é denominada verossimilhança. A informação subjetiva, por sua vez, é incorporada ao modelo supondo uma distribuição (ou densidade) de probabilidade denotada por π(θ) a priori para o vetor de parâmetros θ. O grau de incerteza sobre cada parâmetro está relacionado à variabilidade da respectiva priori: quanto maior a variabilidade, maior é a incerteza a priori (e consequentemente, menor o grau de subjetividade incorporado ao modelo). O Teorema de Bayes, enunciado a seguir, estabelece a relação entre priori e verossimilhança na composição da incerteza acerca dos parâmetros. Essa incerteza se traduz em termos probabilísticos através da distribuição à posteriori, denotada por π(θ y). A partir da posteriori são calculadas as estimativas dos parâmetros, as medidas de incerteza, como por exemplo variância, entre outras. Teorema 3.1. (Teorema de Bayes): Sejam θ o vetor de parâmetros com suporte Θ e distribuição a priori π(θ), e y o vetor de observações com verossimilhança p(y θ). Então a distribuição a posteriori é dada por: π(θ y) = p(y θ)π(θ) p(y θ)π(θ), (3.1) p(y θ)π(θ)dθ em que o produto p(y θ)π(θ) é chamado núcleo da distribuição a posteriori. De fato, qualquer função obtida de p(y θ)π(θ) através da multiplicação de uma constante que não dependa de θ, mas que ocasionalmente dependa do vetor de dados y, pode ser chamada de núcleo da posteriori. Vale ressaltar que, sob o enfoque bayesiano na 23

39 atualização da incerteza associada ao parâmetro θ via Teorema de Bayes, as observações y são consideradas valores numéricos conhecidos. O Teorema de Bayes também pode ser visto sob o aspecto sequencial, segundo o qual cada observação é incorporada em sequência à informação a priori para compor a incerteza a posteriori. Mais especificamente, denotando o vetor de observações por y = (y 1, y 2,..., y n ), temos no instante zero a distribuição a priori π(θ). Incorporada a primeira observação y 1 à informação a priori, atualiza-se a incerteza a respeito de θ através do Teorema de Bayes, obtendo assim a distribuição a posteriori no tempo 1: π(θ y 1 ) p(y 1 θ)π(θ). Agora, no instante 2, toda a informação prévia a respeito de θ (traduzida pela posteriori no instante 1: π(θ y 1 )) é considerada informação a priori e, ao ser combinada com a observação no tempo corrente, resulta na posteriori no instante 2: π(θ y 1, y 2 ) p(y 2 θ, y 1 )π(θ y 1 ) = p(y 2 θ)π(θ y 1 ), onde a igualdade ocorre quando se supõe independência entre as observações, dado o conhecimento do vetor paramétrico, o que significa assumir que o vetor paramétrico sintetiza toda a informação necessária para determinação do comportamento probabilístico do vetor y antes de se observar os dados. Analogamente, no tempo n tem-se a relação de recorrência: π(θ y 1,..., y n ) p(y n θ)π(θ y n 1,..., y 1 ). Através dessa relação, é possível chegar à fórmula enunciada no Teorema de Bayes: π(θ y 1,..., y n ) p(y n θ)p(y n 1 θ)...p(y 1 θ)π(θ) = p(y θ)π(θ), (3.2) 24

40 onde a igualdade novamente ocorre quando se supõe independêcia entre as observações condicionadas ao vetor paramétrico, e que toda informação subjetiva sobre θ esteja resumida em π(θ) no instante 0. Portanto, admitindo ausência de informação externa aos dados além da priori inicial, a distribuição a posteriori obtida sequencialmente é a mesma obtida em uma única aplicação do Teorema de Bayes considerando o vetor completo y = (y 1,..., y n ) (Neves e Zanini (2013)) Estimação Pontual Um dos maiores problemas de inferência estatística consiste na estimação dos parâmetros. A densidade a posteriori obtida via teorema de Bayes contém toda descrição probabilística da informação disponível a respeito da quantidade de interesse. O gráfico da densidade a posteriori (ou sua expressão analítica) é a mais completa descrição do processo inferencial. Entretanto, pode ser útil sumarizar a informação contida na posteriori, mas esse processo deve ser feito com cuidado. A forma mais simples de sumarizar a informação é utilizar a estimação pontual, e, neste caso, toda informação contida na distribuição a posteriori é resumida em um único valor sobre a quantidade de interesse θ. A estimação pontual consiste em calcular uma estimativa ˆθ para o parâmetro θ a partir de valores da amostra y e fontes adicionais de informação sobre θ. Geralmente, adota-se uma regra de decisão δ para calcular esta estimativa do parâmetro: escolhe-se um estimador δ(y ) que minimiza uma função perda L(δ(Y ), θ). Suponha que existe uma perda L(d, θ) para cada valor de θ e cada possível estimativa d pentencente ao espaço paramétrico Θ. Desta forma, a perda esperada a posteriori ou risco a posteriori é calculado por: r(d y) = E[L(δ(Y ), θ)] = L(δ(Y ), θ)p(θ y)dθ. Θ 25

41 Segundo Migon et al. (2014), uma regra de decisão δ é ótima se tiver risco mínimo, ou seja, R(δ ) < R(δ), δ. Essa regra é chamada de regra de Bayes e seu risco é chamado de risco de Bayes. Os estimadores δ(y ) obtidos minimizando-se o risco esperado a posteriori são chamados estimadores de Bayes. As funções de perda mais comumente utilizadas e seus respectivos estimadores de Bayes são: Função perda quadrática: L(δ(Y ), θ) = (θ δ(y )) (θ δ(y )); Média a posteriori: ˆθ = E(θ y); Função perda absoluta: L(δ(Y ), θ) = (θ δ(y )) ; Mediana a posteriori: ˆθ tal que ˆθ p(θ y)dθ = 0.5; k, se (θ δ(y )) > ɛ Função perda 0-1: L(δ(Y ), θ) = 0, se (θ δ(y )) ɛ; Moda a posteriori: ˆθ tal que p(ˆθ y) = sup θ Θ p(θ y); Estimação Intervalar Como obsevado anteriormente, deve-se ter cautela ao tentar sumarizar a informação contida na distribuição a posteriori, já que a forma mais adequada de expressar essa informação é através desta distribuição. Ao se fazer uma estimação pontual, a informação está sendo resumida em um único valor, o que muitas vezes pode não ser adequado. Além de calcular uma estimativa para o parâmetro, pode ser bastante útil estimar o quão precisa é esta estimativa. Uma possibilidade é associar estimativas pontuais a medidas de incerteza sobre elas. Pode-se, por exemplo, através da distribuição a posteriori, encontrar um intervalo para θ onde está concentrada a maior massa de probabilidade. Idealmente, 26

42 este intervalo deve ser o menor possível, mas que contenha muita massa de probabilidade. O tamanho deste intervalo informa a dispersão dos valores de θ. Assim, quanto menor comprimento do intervalo, mais concentrada está a distribuição deste parâmetro e, quanto menor, mais dispersa está a distribuição. Este intervalo é chamado intervalo de credibilidade. Definição: Seja θ uma quantidade desconhecida definida em Θ. Um intervalo C Θ é um intervalo 100(1 α)% de credibilidade para θ se P (θ C y) 1 α. Nesse caso, 1 α é chamado nível de credibilidade. Uma característica importante dos intervalos de credibilidade é que eles são invariantes a transformações 1-a-1 do parâmetro, ou seja, se C é um intervalo de credibilidade 100(1 α)% para θ e φ = φ(θ) é uma transformação 1-a-1 de θ, então φ(c) é um intervalo de credibilidade 100(1 α)% para φ Distribuição Preditiva É interessante notar que o processo sequencial de inferência está intimamente ligado à distribuição preditiva, a partir da qual são realizadas as previsões sob o enfoque inferencial bayesiano, no caso em que os dados constituem uma série temporal. A distribuição preditiva é de grande importância não só pela sua capacidade de fazer previsões, como também para a avaliação da adequação do modelo teórico formulado pelo estatístico aos dados reais. A distribuição preditiva para uma observação futura y n+k, k N a partir do conjunto de observações y 1,..., y n é a distribuição de probabilidade (ou função densidade) dada por 27

43 p(y n+k y n,..., y 1 ) = l(θ; y n+k )π(θ y n,..., y 1 )dθ = E θ y1,...,y n (l(θ; y n+k )). Θ Assim, o inverso da constante de proporcionalidade em (3.1) é justamente p(y n y 1,..., y n 1 ), isto é, a distribuição preditiva 1 passo à frente, condicional a (y 1,..., y n 1 ). A distribuição preditiva para y n+k pode ser interpretada como uma média dos valores de l(θ; y n+k ) ponderados pela posteriori de θ (y n,..., y 1 ). Neste ponto, é importante observar que a predição sob o enfoque Bayesiano é condicionada apenas à observação do vetor de observações, sem nenhuma dependência do vetor paramétrico. 3.2 Procedimento de inferência via MCMC Introdução Nem sempre é possível obter a distribuição a posteriori de forma analítica, devido à integral presente no denominador de (3.1). Nesse caso, a posteriori deve ser aproximada computacionalmente. Uma possibilidade é o uso de Métodos de Monte Carlo Via Cadeias de Markov. Os métodos de Monte Carlo via Cadeias de Markov consistem em criar uma cadeia de Markov irredutível, recorrente positiva e aperiódica cujo espaço de estados Θ seja o suporte do vetor paramétrico θ, de modo que esta cadeia convirja em distribuição para a densidade a posteriori π(θ y), dado qualquer estado inicial em Θ da cadeia. O que se faz é simular uma ou mais realizações dessa cadeia e tomar os valores observados após um determinado número de iterações m a partir do qual seja possível assumir 28

44 que a distribuição estacionária, ou seja, a densidade a posteriori, tenha sido alcançada. Dessa forma, os algoritmos MCMC fornecem uma amostra simulada da distribuição a posteriori e, a partir dela, pode-se estimar quaisquer medidas resumo (média, variância, quantis, enre outras) da posteriori através das respectivas medidas observadas na amostra obtida. Uma forma empírica de verificar a convergência para a distribuição a posteriori de interesse é simular múltiplas cadeias independentemente, cada uma delas inicializada num ponto distinto no espaço paramétrico. Como a convergência é garantida para qualquer estado inicial, a partir do momento em que as cadeias se encontram e passam a apresentar um mesmo comportamento ao longo do tempo, tem-se um forte indício de que a distribuição estacionária foi alcançada. Denomina-se período de aquecimento da cadeia o intervalo de tempo discreto transcorrido até se observar indícios da convergência. Por fim, recomenda-se que o tamanho da amostra final seja grande para que se possa ter boas estimativas das características de interesse a posteriori. Porém, também é desejável que os valores simulados não apresentem redundância, isto é, que não sejam muito autocorrelacionados. Do contrário, uma análise precipitada levando em conta apenas o tamanho da amostra simulada pode fazer parecer que as estimativas foram obtidas com uma precisão maior do que a realidade. O que se costuma fazer é, após o período de aquecimento, tomar apenas os valores espaçados de k unidades no tempo, de forma que as autocorrelações sejam próximas de zero. A seguir, são descritos os dois métodos MCMC que foram implementados neste trabalho: Metropolis-Hastings e o Amostrador de Gibbs Metropolis-Hastings Sejam Θ o suporte do vetor paramétrico θ e {X t } uma cadeia de Markov (C.M.) irredutível e aperiódica com função de transição q : Θ Θ. Costuma-se fazer referência 29

45 à função de transição q como densidade proposta. Considere a distribuição a posteriori π (θ) = π(θ y) com núcleo n (θ) e a C.M. com função de transição p : Θ Θ dada por: p(θ 1, θ 2 ) = q(θ 1, θ 2 )α(θ 1, θ 2 ), } = min { α(θ 1, θ 2 ) = min 1, π (θ 2 )q(θ 2, θ 1 ) π (θ 1 )q(θ 1, θ 2 ) { 1, n (θ 2 )q(θ 2, θ 1 ) n (θ 1 )q(θ 1, θ 2 ) }. A função α garante que p e π satisfaçam a condição de reversibilidade π (θ 1 )p(θ 1, θ 2 ) = π (θ 2 )p(θ 2, θ 1 ), θ 1, θ 2 Θ. p. Essa condição implica π ser distribuição invariante da cadeia com função de transição Portanto, fornecida a densidade proposta q, prossegue-se com a simulação da cadeia com função de transição p da seguinte da forma: 1. Escolhe-se um valor inicial θ (0) Θ (i=0); 2. Dado θ (i), amostra-se um valor θ de q(θ (i), ); 3. Com probabilidade α(θ (i), θ ), fazemos θ (i+1) = θ e com probabilidade 1 α(θ (i), θ ) fazemos θ (i+1) = θ (i). 4. Atualiza-se o contador i para i+1 e repete-se os passos 2 e 3. A teoria subjacente garante que a cadeia de Markov com função de transição p converge para a distribuição π(θ y) para qualquer densidade proposta q escolhida e qualquer valor inicial θ (0). Cabe ressaltar, porém, que a escolha de q afeta bastante o tempo de convergência da cadeia e, portanto, deve-se estudar boas propostas antes da implementação dos métodos MCMC. Gamerman (1998) e Migon et al. (2013), por exemplo, tratam de 30

46 duas formas de especificar a proposta q visando justamente diminuir o tempo computacional necessário à convergência das cadeias Amostrador de Gibbs O amostrador de Gibbs é um caso particular do algoritmo de Metropolis-Hastings em que a probabilidade de aceitação de cada valor gerado é sempre 1. Portanto, os argumentos que justificam a convergência do método são os mesmos exibidos na seção anterior. Seja θ = (θ 1,..., θ n ) o vetor de parâmetros e, inicialmente, suponha conhecidas as n condicionais completas (θ 1 θ 2,..., θ n, y),..., (θ n θ 1,..., θ n 1, y). A seguir, descreve-se as etapas do algoritmo do amostrador de Gibbs: 1. Escolha n valores iniciais θ (0) 1,..., θ n (0) (i=0) 2. Sorteia-se um valor θ (i+1) 1 de θ 1 θ (i) 2,..., θ (i) n ; Sorteia-se um valor θ (i+1) 2 de θ 2 θ (i+1) 1, θ (i) 3,..., θ (i) n ;. Sorteia-se um valor θ (i+1) n de θ n θ (i+1) 1,..., θ (i+1) n 1 ; 3. Repete-se a etapa anterior para as iterações seguintes (i=1,2,3,..). A suposição inicial de que as condicionais completas são conhecidas não é estritamente necessária. Uma vez que o núcelo dessas distibuições é sempre conhecido, pode-se utilizar um passo de Metropolis-Hastings para gerar valores de cada condicional completa cuja forma analítica seja desconhecida durante a etapa 2 do algoritmo. 31

47 3.2.4 Resumo das etapas para implementação dos métodos MCMC 1. Estipula-se a função de verossimilhança l(y θ) e especifica-se distribuição a priori para o vetor de parâmetros θ; 2. Obtém-se o núcleo da posteriori π(θ y) através do teorema de Bayes; 3. Obtida a densidade conjunta a posteriori, deve-se encontrar o núcleo de cada uma das condicionais completas e identificar quais correspondem a distribuições conhecidas; 4. Escolhe-se os valores iniciais no suporte do vetor paramétrico e a proposta q; 5. Aplica-se o algoritmo do amostrador de Gibbs, lembrando que, a cada vez que se fizer necessário amostrar de uma distribuição condicional completa cuja forma analítica seja desconhecida, convenciona-se utilizar um passo do algoritmo geral de Metropolis-Hastings; 6. Após diagnosticar indícios de que a convergência da cadeia foi alcançada, considerase os valores obtidos posteriormente pelo algoritmo como amostra da distribuição a posteriori; 7. Através da amostra final obtida após escolher um espaçamento adequado, estima-se as características de interesse referentes à distribuição a posteriori. 32

48 3.3 Modelos Dinâmicos Não raramente, dados circulares são observados no tempo. Por exemplo, é típico terse estações monitorando a direção dos ventos ao longo do tempo. Extensões dinâmicas de modelos para dados circulares são muito úteis à medida que possibilitam a modelagem de padrões que evoluem no tempo e levam em conta a autocorrelação existente em uma série temporal. Considere uma série temporal (Y t, t = 1, 2, 3,...), onde Y t é um vetor aleatório observável (m 1). Para se fazer inferência em séries temporais, em particular para prever o valor de Y t+1 dadas as observações passadas (Y 1,..., Y t ), é preciso especificar a lei de probabilidade do processo {Y t }, ou seja, é preciso especificar a estrutura de dependência entre as variáveis Y t s (Petris et al. (2009)). Assuma-se que a lei de probabilidade associada a Y t dependa de um processo latente {θ t }. A.1 (θ t, t = 0, 1,...) é uma cadeia de Markov, isto é, θ t depende dos valores passados (θ 0, θ 1,..., θ t 1 ) somente através de θ t 1. Portanto, a lei de probabilidade do processo (θ t, t = 0, 1,...) é especificada, atribuindo-se a densidade inicial p 0 (θ 0 ) de θ 0 e as densidades de transição p(θ t θ t 1 ) de θ t condicionalmente a θ t 1. A.2 Condicionalmente a (θ t, t = 0, 1,...) os Y t s são independentes e Y t depende somente de θ t. Então, para qualquer n 1, (Y 1,..., Y n ) (θ 1,..., θ n ) tem densidade conjunta condicional n t=1 f(y t θ t ). A dependência entre as variáveis pode ser deduzida a partir da lei de probabilidade do processo aleatório conjunto((θ t, Y t ), t = 1, 2,...) que é escrita a partir das suposições (A1)- (A2). É importante ressaltar que Y t é condicionalmente independente das informações passadas (Y 1,..., Y t 1 ) dado o valor de θ t, o que leva a uma outra interpretação para θ t : tal quantidade representa uma informação quantitativa que sumariza o histórico passado 33

49 do processo observado e ajuda a prever o comportamento deste processo no futuro. Uma classe muito importante de modelos de espaço de estados é dada pelos modelos de espaço de estados lineares Gausssianos, também chamados de Modelos Lineares Dinâmicos(MLD). Esta classe de modelos contempla os casos em que a resposta tem distribuição normal. Para esses modelos em particular, o procedimento de inferência pode ser encontrado em West e Harrison (1999, capítulo 4). Há uma classe mais abrangente de modelos onde a resposta pertence à família exponencial e esta classe é chamada de modelos lineares dinâmicos generalizados(mldg). Esta classe engloba os modelos lineares dinâmicos, já que a distribuição normal pertence á família exponencial. Um possível esquema de inferência neste contexto pode ser encontrado em West e Harrison (1999, capítulo 14) Modelos Lineares Dinâmicos (MLD) A classe de Modelos Lineares Dinâmicos (MLD) se aplica nos casos em que a distribuição da variável resposta é normal. Esses modelos permitem explicar de forma dinâmica a variável resposta a partir de covariáveis, blocos representando tendência e sazonalidade e qualquer outra estrutura que possa ser útil no estudo desta variável dependente por meio de um preditor linear, quando se acredita que a relação entre a resposta e as variáveis explicativas muda com o passar do tempo. O MLD em sua forma geral é descrito por duas equações, sendo elas a equação de observação, que descreve a relação entre variáveis explicativas e a variável resposta, e a equação de evolução, que descreve a forma com que os parâmetros do modelo variam conforme o tempo. Para cada t, um modelo linear dinâmico univariado, representado pela quádrupla F t, G t, V t, W t é definido por: 34

50 Equação de Observação: Y t = F t θ t + ν t, ν t N[0, V t ] Equação de Evolução: θ t = G t θ t 1 + w t, w t N[0, W t ] Informação Inical: (µ 0 D 0 ) N[m 0, C 0 ] onde as sequências v t e w t são independentes e mutualmente independentes, além de serem independentes de (µ 0 D 0 ). Para que se possa obter distribuição conjunta a posteriori de forma analítica, por meio do Filtro de Kalman, os valores de V t e W t podem ser desconhecidos, mas os valores de G t e F t são conhecidos. Para os casos em que a distribuição da variável resposta pertence à família exponencial, é possível encontrar metodos para se fazer Inferência Bayesiana em West e Harrison (1999). 3.4 Esquemas de Amostragem em Modelos Dinâmicos Ao se trabalhar com modelos dinâmicos em que a distribuição a posteriori não esteja disponível analiticamente, é usual que se utilize os métodos MCMC decompondo o esquema em amostragem dos estados condicional aos parâmetros estáticos e amostragem dos parâmetros estáticos condicional ao vetor de estados. No caso particular de modelos lineares dinâmicos, os estados podem ser amostrados conjuntamente utilizando-se um tipo de amostrador de Gibbs chamado Foward Filtering Backward Sampling (FFBS) (Fruhwirth-Schnatter, 1994; Carter e Kohn, 1994) Foward Filtering Backward Sampling O esquema FFBS foi proposto em Frühwirth-Schnatter(1994) e Carter and Kohn (1994) com o objetivo de se obter amostras do vetor de estados em um Modelo Linear Dinâmico(MLD) de forma eficiente. O algoritmo consiste em amostrar o vetor de estados conjuntamente utilizando as distribuições filtradas e suavizadas destes parâmetros. Para um MLD da forma: 35

51 Y t = F t θ t + v t, v t N[0, V t ] θ t = G t θ t 1 + w t, w t N[0, W t ], a amostragem do vetor de estados pode ser decomposta em dois passos e funciona da seguinte maneira: Foward Filtering Este passo consiste na obtenção do vetor de médias m t e matriz de covariâncias C t através das equações do filtro de Kalman(1960). O esquema para obtenção destas quantidades se dá da seguinte forma: 1. Posteriori em t-1: θ t 1 D t 1 N[m t 1, C t 1 ] 2. Priori em t: θ t D t 1 N[a t, R t ] onde: a t = G t m t 1 e R t = G t C t G t + W t 36

52 3. Preditiva: Y t D t 1 N[f t, Q t ] onde: f t = F t a t 1 e R t = F t R t F t + V t 4. Posteriori em t: θ t D t N[m t, C t ] sendo: m t = a t + A t e t e C t = R t A t Q t A t onde: A t = R t F t Q 1 t e e t = Y t f t 37

53 Backward Sampling O passo Backward Sampling do algoritmo é baseado na decomposição da distribuição a posteriori conjunta dos parâmetros de estado da forma T 1 p(θ 1,..., θ T D T ) = p(θ T D T ) p(θ t θ t+1, D t ) Pelo teorema de Bayes, para t=t-1,...,1, t=1 p(θ t θ t+1, D t ) p(θ t+1 θ t, D t )p(θ t D t ) representa a densidade de uma distribuição normal com média m s t = m t + C t G t+1(g t+1 C t G t+1 + W t+1 ) 1 (θ t+1 G t+1 m t ) e variância C s t = C t C t G t+1(g t+1 C t G t+1 + W t+1 ) 1 G t+1 C t em que m t e C t são o primeiro e segundo momentos obtidos através do Foward Filtering e m s t e C s t são chamados momentos suavizados. Algoritmo 3.1: Foward Filtering Backward Sampling Usando o FFBS, a obtenção de uma amostra do vetor paramétrico de estados na iteração i do algoritmo se dá da seguinte forma: 38

54 1. Utiliza-se o Foward Filtering para calcular m (i) t e C (i) t, t=1,...,t, onde m (i) t são o primeiro e segundo momentos da distribuição filtrada no tempo t. e C (i) t 2. Sorteia-se θ (i) T da distribuição normal com vetor de médias m (i) T e matriz de covariância C (i) T, onde θ(i) T é o vetor de estados no tempo T. 3. Sorteia-se θ (i) t e variância suavizada C s(i) t, onde θ (i) t da distribuição normal com média suavizada m s(i) t é o vetor de estados no tempo t e m s(i) t e segundo momentos da distribuição suavizada no tempo t. e C s(i) t são o primeiro 39

55 Capítulo 4 Modelos Dinâmicos para Dados Circulares No capítulo 3, foram abordados modelos e métodos de estimação usualmente utilizados para se trabalhar com dados que assumam valores na reta. Por vezes, pode-se ter interesse em dados que sejam observados temporalmente e que possam assumir valores em um intervalo de comprimento 2π. Pode-se querer observar, por exemplo, como a direção dos ventos muda ao longo de um dia em uma cidade, ou como o número de pacientes que dão entrada em certo hospital muda ao longo da semana. Para esses tipos de dados, os modelos e métodos de estimação estudados anteriormente podem não ser adequados. O objetivo, neste capítulo, é trabalhar com modelos circulares sem prescindir do tratamento de autocorrelação temporal inerente a dados observados no tempo. Para isso, no presente trabalho, utilizou-se dois modelos base. 40

56 Modelo Von Mises Dinâmico Y t υm(µ t, κ) µ t = g(α t + F tθ t ) α t υm(α t 1, κ α ) θ t = G t θ t 1 + ω t, ω t N(0, W t ) Onde: θ t é um vetor paramétrico associado a covariáveis lineares; α t é um nível com evolução dinâmica; κ, κ α e W t são repectivamente parâmetros de concentração observacional, concentração da evolução do nível e matriz de covariância de evolução; g( ) é uma função de ligação que mapeia valores da reta ao círculo; F t é um vetor de regressoras definidas na reta e supostas conhecidas; G t é a matriz de evolução, cujas componentes são supostas conhecidas. Uma extensão natural para esse modelo seria considerar, ao invés de apenas um nível dinâmico, um grupo de regressoras circulares com dinâmica associada e fazer com que a evolução do vetor de estados atrelado às variáveis circulares tivesse uma distribuição Von Mises multivariada, como a proposta por Mardia et al. (2008). Uma dificuldade no uso dessa distribuição é o fato de que, para dimensões superiores a 2, sua constante normalizadora não tem expressão analítica fechada. Modelo Wrapped Normal Dinâmico 41

57 Y t W N(F tθ t, σ 2 ) θ t = G t θ t 1 + ω t, ω t N(0, W t ) onde: θ t é o vetor de estados no tempo t; F t é um vetor de regressoras definidas e/ou componentes sazonais, estruturais de tendência e com todos os elementos supostos conhecidos; G t é a matriz de evolução suposta conhecida. 4.1 Modelo Von Mises Estático e Dinâmico O modelo Von Mises é um dos modelos mais utilizados ao se trabalhar com dados univariados de natureza circular. No contexto de inferência Bayesiana, para um modelo estático da forma: Y t vm(µ, κ) onde µ é estático, Guttorp e Lockhart (1988) sugerem prioris conjugadas para os casos em que um dos parâmetros da distribuição ou ambos são considerados desconhecidos. 42

58 Ainda se tratando de um modelo Von Mises estático, Damien e Walker (1999) fornecem um esquema completo de inferência bayesiana, baseado nas prioris sugeridas em Guttorp e Lockhart (1988) para simplicar o uso do MCMC quando a resposta é Von Mises e µ é estático, mas restringem-se à obtenção da moda a posteriori para o parâmetro de concentração. Utilizando as prioris sugeridas e a partir da introdução de variáveis latentes convenientes, tem-se condicionais completas conhecidas para os parâmetros de interesse, evitando-se, assim, a complicação gerada no processo de escolhas de propostas para a utilização eventual de um algoritmo de Metropolis-Hastings. Fez-se um estudo simulado utilizando o esquema proposto cujos resultados encontramse no Apêndice A e, através deste estudo, foi possível perceber algumas limitações: problemas numéricos surgiram quando se tentou trabalhar com séries temporais longas (as aplicações do artigo se baseiam em séries de tamanho em torno de 10) e a extensão para o caso em que a direção média µ é dinâmica não parece trivial. Além do estudo simulado utilizando o método sugerido por Damien e Walker (1999), fez-se um estudo a partir da aplicação do método MCMC programado de forma independente. O algoritmo MCMC aplicado nesse caso consistiu na utilização da priori sugerida em Guttorp e Lockhart (1988), fazendo com que a condicional completa para o parâmetro µ seja conhecida e na aplicação de uma transformação ψ = log(κ) para o parâmetro de concentração κ. Os resultados para este estudo simulado podem ser encontrados ainda no Apêndice A. A comparação entre os resultados obtidos via MCMC programado de forma independente e método proposto por Damien e Walker (1999), parecem levar à conclusão de que a utilização do esquema MCMC sugerido baseado na transformação do parâmetro κ e na utilização de prioris convenientes leva a resultados melhores e mais acurados do que a utilização do esquema de introdução de variáveis latentes proposto em Damien e Walker (1999). Gill e Hangartner (2010) também trabalham com resposta Von Mises, explicada por um preditor que compreende um intercepto e regressoras. No esquema sugerido no ar- 43

59 tigo, a estimação do intercepto e coeficientes das regressoras é feita utilizando MCMC, já o parâmetro de concentração κ é estimado a partir de seu estimador de máxima verossimilhança, encontrado em Downs e Mardia (2002). A utilização do esquema proposto por Gill e Hangartner (2010) em um conjunto de dados simulado a partir de covariáveis disponíveis não gerou bons resultados. O foco desta dissertação consiste em se trabalhar com modelos flexiveís para dados circulares temporais utilizando inferência Bayesiana. Neste contexto, Lan et al. (2013) sugere um esquema de filtro de partículas para a estimação de um nível dinâmico, em um modelo onde a resposta é Von Mises e a variância de observação e de evolução são supostas conhecidas. A partir das referências encontradas que trabalham com a Von Mises como distribuição para a variável resposta, nota-se que há dificuldade na estimação do parâmetro de concentração desta distribuição. Para o caso em que se deseja trabalhar com variáveis que eventualmente possam ser utilizadas como explicativas para a variável resposta, e as variâncias tanto de observação quanto de evolução sejam estimadas, não se conhece nenhum trabalho de referência. O modelo de interesse é da seguinte forma: Y t vm(µ t, k), k desconhecido µ t vm(µ t 1, ck) µ 0 vm(m 0, ck) Apesar de não ter sido possível encontrar artigos que trabalhem com um modelo Von Mises dinâmico onde a variância de observação seja estimada de forma bayesiana, foi possível utilizar as prioris sugeridas em Guttorp e Lockhart (1988) para se obter um esquema MCMC para a estimação dos parâmetros µ t, t = 1... T e κ no modelo Von Mises dinâmico. Observou-se que utilizando a priori sugerida no artigo citado, pode-se obter condicionais completas conhecidas para µ t e, assim, pode-se utilizar um esquema Gibbs para esses parâmetros de estado. Já para o parâmetro de concentração κ, trabalhou-se 44

60 com o algoritmo de Metropolis-Hastings a partir do uso da transformação ψ = log(κ) Fez-se um estudo simulado utilizando este esquema MCMC e os resultados podem ser vistos no Apêndice A. A partir desse estudo simulado, notou-se que há dificuldade na estimação do parâmetro de concetração κ e a incerteza associada à estimação deste parâmetro é grande. Deve-se ressaltar que a estimação deste parâmetro parece complexa, mesmo para modelos estáticos, conforme sugerem as discussões em Damien e Walker (1999) e Gill e Hangartner (2010). A partir deste estudo, observou-se que os métodos propostos na literatura para se trabalhar com um modelo Von Mises parecem ser limitados. Apesar de ter sido possível fazer uma extensão dos métodos já estabelecidos para modelos estáticos, conseguindo aplicálos em modelos dinâmicos, chegando inclusive a resultados satisfatórios para estimação do parâmetro dinâmico de posição, foi possível peceber que extensões que possibilitem o uso de modelos assimétricos, multivariados e até mesmo modelos dinâmicos que incluam um preditor linear compreendendo regressoras e sazonalidade podem não ser triviais sob adoção da distribuição Von Mises. Logo, passamos a adotar os os modelos Wrapped, em que tais extensões podem ser mais naturalmente acomodadas. 4.2 Modelo Wrapped Normal Dinâmico Na classe dos modelos Wrapped, o modelo wraped normal se destaca por ser uma transformação do modelo normal. Por ser um modelo comumente utilizado no estudo de variáveis circulares e pelo fato de ser intuitivo pensar em extensões dinâmicas baseadas 45

61 em versões wrapped de modelos de espaço de estados, que eventualmente incluam um preditor compreendendo covariáveis e sazonalidade, blocos para tratamento de tendência, decidiu-se dar maior ênfase, no desenvolvimento deste trabalho, a esse tipo de modelo. No contexto de inferência bayesiana, Jona-Lasinio et al. (2012) sugerem um método para a estimação dos parâmetros µ e σ 2 de um modelo Wrapped Normal estático. O artigo trabalha com dados direcionais espaciais e um dos modelos utilizados no artigo, para o caso particular em que se considera apenas uma localização, é da seguinte forma: Y t W N(µ, σ 2 ) O método sugerido consiste em fazer uso da forma de construção do modelo Wrapped Normal. Como visto no capítulo 2, se X N(µ, σ 2 ) então Y = X mod 2 π W N(µ, σ 2 ). Pode-se escrever X em função de Y, ou seja, X = 2π k + Y, onde k é o número de voltas dadas no círculo, por vezes chamado de spinning number. A partir daí, pode-se pensar em um esquema que gere k, construa X em função de Y, e utilizar a metodologia usual para a estimação de µ e σ 2 considerando que X tem distribuição normal. Nota-se que o papel da introdução da variável latente k neste caso, é diferente daquele desempenhado no artigo de Damien e Walker (1999), onde as variáveis introduzidas facilitam o uso do MCMC, já que a introdução de tais variáveis faz com que a distribuição condicional completa para os parâmetros de interesse seja conhecida. Em Jona-Lasinio et al. (2012), a introdução da variável latente k é utilizada como artifício para possibilitar o uso de métodos de estimação já conhecidos. Jona-Lasinio et al. (2012) sugerem que o modelo para os dados y 1, y 2,..., y n seja escrito em termos da distribuição conjunta (Y i, K i ), i = 1,..., n, ou seja: p(y i, k i ) = i i { } 1 exp (yi + 2k i π µ) 2 2πσ 2 2σ 2 (4.1) 46

62 A introdução de k como variável latente faz com que a implementação do MCMC seja mais fácil, já que dado k, elicitando-se prioris convenientes, tem-se condicionais completas para os outros parâmetros com forma analítica fechada. No artigo, os valores de k são amostrados para cada localização e a cada iteração. Sabe-se que é dificil amostrar no suporte 0, ±1, ±2,... de k. Para fins práticos, Mardia e Jupp (2009) sugerem que a densidade em (4.1) seja aproximada através da truncagem de k. Jona-Lasinio et al. (2012) chegam à conclusão de que o suporte de k pode ser bem aproximado por m,..., 0,..., m, onde m = 1+ 3σ 2π e c é o menor inteiro próximo a c. Tal redução no suporte de k é justificada pela discussão ao término da subseção 2.4.1, onde se observa, na equação (2.7), que a adoção desse truncamento dá conta de praticamente toda a massa da função densidade de interesse. Baseando-se em ajustes de modelos para dados simulados sabe-se que o par {K, σ 2 } não será bem identificado a menos que seja elicitada uma priori informativa para σ 2. Além disso, quando o parâmetro de concentração c da Wrapped Normal é pequeno (σ 2 grande), é difícil distinguir a distribuição Wrapped Normal da distribuição uniforme no círculo. A partir de experimentos simulados, onde foram geradas 1000 amostras da distribuição Wrapped Normal e foram utilizados diferentes tamanhos amostrais e valores diferentes para as variâncias, Jona-Lasinio et al. (2012) reportam que testes de uniformidade como Rayleigh, Kuiper-Watson e Rao falharam em distinguir a Wrapped Normal e uniforme circular para σ 2 = com tamanhos de amostra pequenos (n = 30), para σ 2 = 4.02 quando n = 100 e para σ 2 = 7.01 quando n = Segundo Jona-Lasinio et al. (2012), é válido fazer uma análise exploratória para obter os estimadores de momentos para µ e σ 2 e verificar quando é adequado utilizar a distribuição Wrapped Normal. Fica claro que há dificuldade na identificação do par {σ 2, K} e do ponto de vista bayesiano, faz-se necessária, portanto, a introdução de informação a priori para identificação do par. No contexto de inferência bayesiana, a atualização de K i dados µ e σ 2 pode ser feita 47

63 utilizando expressão em (2.7) para implementar um truncamento, ou seja, pode-se fazer m = 1 + 3σ 2π e k { m,..., 1, 0, 1,..., m}. Então, onde P (K i = k i µ, σ, x i ) ϕ( (x i+2k i π µ) σ ) m k i = m ϕ( (x i+2k i π µ) σ ) (4.2) k i = { m,..., 1, 0, 1,..., m}. A discussão acima serve de base para a escolha das especificações das prioris. Primeiro, é usual assumir que µ e σ 2 são independentes. Para µ se pode adotar uma distribuição normal a priori da forma N(µ 0, σ 2 0). Lembrando que µ = µ + K µ, então implicitamente diz-se que a priori para µ é uma Wrapped Normal e fica evidente que não se pode aprender sobre µ através dos X i, ou seja, em (4.2) não se pode identificar os k i s e k µ nem os k i s e µ. Além disso, por causa da conjugação, obtém-se a distribuição condicional completa de µ que será N( σ2 0 i (x i+2πk i )+σ 2 µ 0 nσ 2 0 +σ2, σ 2 σ 2 0 σ 2 +nσ 2 0 ). Para σ 2, Jona-Lasinio et al. (2012) sugerem uma distribuição Gama Inversa truncada à direita com parâmetros α 0 e β 0 e o truncamento definido de acordo com ˆσ 2 e n, considerando as observações feitas anteriormente. Por exemplo, se o tamanho da amostra for n = 30, a Gama Inversa pode ser truncada à direita em π. Logo, a condicional completa para σ 2 será uma Gama Inversa truncada com parâmetro de forma α 0 + n 2 e parâmetro de escala β n i=1 (x i+2k i π µ) 2. No artigo, o esquema MCMC funciona a partir da atualização de k, que acontece através de probabilidades calculadas por meio da aproximação para o suporte desta variável. A atualização de µ (que neste caso é estático) é feita elicitando-se uma priori normal resultando em uma condicional completa normal para este parâmetro e, escolhendo-se uma priori gama inversa para σ 2, a condicional completa deste parâmetro também é conhecida. Como o foco deste estudo é trabalhar com modelos dinâmicos, a partir das idéias 48

64 sugeridas em Jona-Lasinio et al. (2012), criou-se um método de estimação para o caso em que os parâmetros variam no tempo, para um modelo da forma: Y t W N(F tθ t, σ 2 ) θ t = G t θ t 1 + ω t, ω t N(0, W ), onde: θ t é o vetor de estados no tempo t; F t é um vetor de regressoras e/ou componentes para representação de tendência e sazonalidade, com todas as componentes supostas conhecidas; G t é a matriz de evolução, suposta conhecida. Condicionalmente a k, X = 2π k + Y tem distribuição normal, e, portanto pode-se pensar na utilização de métodos usuais de estimação em MLD. Dos métodos disponíveis neste caso, optou-se por utilizar o FFBS para a estimação dos parâmetros do vetor de estados. Se a priori elicitada para σ 2 for inversa gama, a condicional completa deste parâmetro será conhecida. Do mesmo modo, se forem elicitadas prioris gama inversa para w jj, j = 1,..., C, elementos da diagonal da matriz W, as condicionais completas destes parâmetros também serão conhecidas. O esquema MCMC para este caso é dado pelo seguinte algoritmo: 49

65 Algoritmo 4.1: MCMC para um modelo Wrapped Normal Dinâmico Inicia-se o algoritmo com valores iniciais µ 0, σ 2 0 e na iteração i, executa-se os seguintes passos: 1. Calcula-se m (i) 3σ t = 1 + 2π, t = 1,..., T ; 2. Sorteia-se k (i) t { }, t = 1,..., T de acordo com as probabilidades dadas por: m (i) t,..., 0,..., m (i) t P (K (i) t = k (i) t onde µ (i 1) t = F tθ (i 1) t ; 3. Calcula-se y (i) t µ (i 1) t, σ (i 1), x t ) = 2k (i) t π + x t. (i) m t k (i) t ϕ((x t + 2k (i) t π µ (i 1) t )/σ (i 1) ) = m (i) t ϕ((x t + 2k (i) t π µ (i 1) t )/σ (i 1) ) 4. Utiliza-se o Algoritmo 3.1 para gerar o vetor de estados θ (i) t para t = 1..., T ; 5. Gera-se σ 2(i) da condicional completa deste parâmetro. Se σ 2 IG(α 0, β 0 ), a condicional completa [ para este parâmetro será uma gama inversa com parâmetros α 0 + n e β T ( ) ] t=1 x t + 2k (i) t π F tθ (i) t. 6. Gera-se cada elemento w (i) jj da diagonal da matriz W, para j = 1,..., C e sendo C o tamanho do vetor de estados, da condicional completa deste parâmetro. Se w jj IG(ϕ 0, δ 0 ) para j = 1,..., C, a condicional completa [ para este parâmetro será uma gama inversa com parâmetros ϕ 0 + n e δ T ( ) ] t=1 µ (i) t µ (i) t 1. 50

66 4.2.1 Estudo Simulado Em um primeiro momento, estudou-se o processo de estimação em um modelo Wrapped Normal estático, como descrito em Jona-Lasinio et al. (2012). Já o foco da dissertação consiste em trabalhar com modelos flexíveis especificamente para dados circulares, pensou-se em um modelo Wrapped Normal dinâmico como uma extensão de um modelo Wrapped Normal. O processo de estimação dos parâmetros de um Wrapped Normal dinâmico se deu a partir da aplicação do Algoritmo 4.1. Utilizou-se o Algoritmo 4.1 na estimação dos parâmetros do seguinte modelo base: Modelo Base: Y t W N(F tθ t, σ 2 ) θ t = G t θ t 1 + ω t, ω t N(0, W ) (4.4) Foram testados diferentes modelos, incluindo sazonalidade, regressoras, modelo de tendência polinomial de primeira e de segunda ordem e combinações dessas configurações. Decidiu-se por reportar os ressultados somente de um modelo considerado mais completo, com os seguintes parâmetros: θ t = (θ 1t θ 2t θ 3t θ 4t θ 5t ) F t = (1 P t V V t 1 0) onde: 51

67 VV t = velocidade dos ventos no tempo t P t = pressão no tempo t G t = sen( 2πt 2πt ) cos( ) cos( 2πt 2πt ) sen( ) Utilizou-se as seguintes prioris: θ 11 N(2, 0.05) θ 21 N(0.001, 0.005) θ 31 N( 0.003, 0.005) θ 41 N(0.075, 0.005) θ 51 N( 0.05, 0.005) w jj IG(2, 0.01), para j = 1,..., 5 Sendo: w jj elemento j da diagonal da matriz W. Foram geradas 100 réplicas de séries temporais de comprimento T=100 deste modelo. Reportamos a saída de uma única réplica, cujos resultados são típicos daquilo que foi observado nas 100 replicações. Foram feitas iterações e os resultados foram obtidos 52

68 via Algoritmo 4.1. O traço da cadeia gerada para σ 2, via Algoritmo 4.1, é exibido na figura A figura exibe a evolução temporal da média a posteriori do preditor linear, junto aos dados gerados na reta (esquerda) e aos dados no círculo (direita). Figura 4.1: Traço da cadeia de σ 2 e valor verdadeiro (vermelho) Figura 4.2: Dados µ estimado (cinza) 53

69 Nota-se que parece ter sido possível fazer uma boa estimação de σ 2. Além disso, parece ter sido possível recuperar de forma satisfatória as direções médias da série temporal gerada. Observa-se que em um gráfico de série temporal com suporte na reta, a primeira impressão pode ser que o ajuste da direção média não tenha sido razoável. Ao se posicionar esses pontos (média a posteriori e observada), a cada tempo no círculo, vê-se que as direções ajustadas são compatíveis com aquelas efetivamente observadas. 54

70 Capítulo 5 Distribuições Circulares a partir de Misturas No capítulo 4, tratamos de dois modelos dinâmicos para dados circulares. Os modelos adotados acomodam naturalmente a autocorrelação de dados temporalmente observados, bem como eventual não estacionariedade nos processos geradores desses dados. Ainda assim, tanto o modelo Von Mises quanto o Wrapped Normal pressupõem unimodalidade no círculo, a cada tempo, e distribuição simétrica em torno da direção média. Podem existir situações em que haja multimodalidade de direções, em certo período de tempo, ou, ainda, assimetria da distribuição circular. Distribuições de mistura podem acomodar essas características. Iniciamos este capítulo com uma revisão sobre a teoria de distribuições de misturas, propondo uma versão circular desse tipo de modelo. Em seguida, de forma a preservar o tratamento de autocorrelação temporal, admitimos a existência de uma estrutura markoviana subjacente aos pesos das componentes da mistura. São descritos os esquemas adotados para realização de inferência bayesiana sobre os modelos propostos e tais esquemas são testados a partir de exercícios com dados simulados. 55

71 5.1 Misturas de Distribuições: Fundamentos Modelos de misturas são, atualmente, aplicados em áreas diversas como biometria, genética, medicina, marketing entre outras. Existem várias características de distribuições de misturas que as fazem muito úteis na modelagem estatística. Modelos estatísticos baseados em distribuições de misturas podem capturar muitas características específicas de dados reais, como a multimodalidade, assimetria, curtose e heterogeneidade. Sua extensão para modelos de mistura Markovianos é capaz de lidar com muitas características de séries temporais reais como, por exemplo, dependência de longa duração e heterocedasticidade condicional. Os modelos de misturas oferecem uma extensão simples, mas muito flexível e útil, de modelos estatísticos usuais. O preço pago por essa flexibilidade é que a inferência para estes modelos é mais complexa. Muitos modelos estatísticos envolvem misturas de distribuições de alguma maneira. O primeiro caso já estudado que envolve, naturalmente, uma distribuição de misturas, pode ser encontrado em Feller (1943). Considere uma população constituida por L subgrupos, misturados aleatoriamente em proporção aos seus tamanhos relativos η 1,..., η L. Assume-se que o interesse esteja em alguma característica aleatória Y que é heterogênea entre os grupos e homogênea dentro de cada grupo. Dada a heterogeneidade entre os grupos, Y tem uma distribuição de probabilidade diferente em cada grupo, usualmente assumida vinda de uma mesma família paramétrica p(y θ) com vetor paramétrico θ diferindo entre os grupos. Os grupos são rotulados através de uma variável indicadora discreta S, que assume valores no conjunto 1,..., L. Quando amostra-se aleatoriamente desta população, deve-se documentar não só a variável de interesse Y, mas também a variável indicadora de grupo S que denota de qual grupo veio esta observação. A probabilidade de amostrar do grupo S é denotada por η S, e condicionalmente a S, Y é uma variável aleatória com distribuição p(y θ S ), sendo θ S o parâmetro referente ao grupo S. A densidade conjunta p(y, S) é dada por: 56

72 p(y, S) = p(y S)p(S) = p(y θ S )η S. Uma distribuição de misturas finitas surge quando só se consegue observar a resposta Y mas não é possível obter o indicador de grupo S. A densidade marginal p(y) é dada pela distribuição de mistura a seguir: L p(y) = p(y, S) = η 1 p(y θ 1 ) η L p(y θ L ). S=1 Para esse modelo, tem-se: µ = E(Y υ) = L µ k η k, (5.1) k=1 σ 2 = V (Y υ) = L (µ k + σk)η 2 k µ 2, (5.2) k=1 onde µ k = E[y θ k ], σ 2 k = V [y θ k] e υ = (θ 1,..., θ L, η 1,..., η L ). A teoria para misturas de distribuições na reta descrita neste capítulo baseia-se fortemente em Fruhwirth-Schnatter (2006). Aliou-se a essa teoria o tratamento para dados circulares advindos de uma mistura. 57

73 5.2 Estimação Bayesiana para modelos de mistura utilizando o MCMC Uma distribuição de misturas surge quando não se sabe a qual grupo cada observação y pertence, ou seja, não se sabe quais valores assumem as variáveis que denotam as alocações S 1,..., S N. Neste caso, pode-se pensar em um modelo de mistura como um problema com dados incompletos introduzindo-se as alocações S como dados faltantes. Para misturas de modelos pertencentes à família exponencial é possível fazer uma análise conjugada quando as alocações S = (S 1,..., S N ) são observadas (Fruhwirth-Schnatter (2006)). A vantagem da introdução de S como dado faltante quando se trabalha com misturas na família exponencial, é que condicionalmente a S, pode-se fazer uso de análise conjugada e a estimação dos parâmetros pode ser feita utilizando-se, por exemplo, o algoritmo MCMC. A inferência bayesiana para um modelo geral de mistura se baseia na estimação do vetor paramétrico aumentado (S, υ), através da amostragem da distribuição a posteriori p(s, υ y), onde υ = (θ 1,..., θ L, η 1,..., η L ) e assume-se que θ i, i = 1,..., L são parâmtros das distribuições pertencentes à família exponencial. A posteriori é encontrada através do teorema de Bayes, p(s, υ y) p(y S, υ)p(s υ)p(υ). (5.3) A amostragem da posteriori em (5.3) geralmente é feita através de métodos MCMC, onde amostra-se υ condicionalmente a S e S é amostrado condionalmente a υ. Assim sendo, adotando-se distribuições a priori adequadas, as condicionais completas dos parâmetros θ i, i = 1,..., L são conhecidas. A estrutura da condicional completa p(θ 1,..., θ L S, y) depende da família de distribuições dos componentes da mistura e das dis- 58

74 tribuições a priori arbitradas. Se as componentes pertencem à família exponencial, elicitando-se prioris convenientes, pode-se fazer uso de uma análise conjugada. Os parâmetros θ 1,..., θ L são independentes, dado S, e podem ser amostrados da condicional completa p(θ k S, y), k = 1,..., L. Ademais, assumindo-se uma distribuição à priori Dirichlet D(e 0,..., e 0 ) para os pesos η, a distribuição à posteriori de η dado S é D(e 1,..., e L ), onde: e k = e 0 + N k (S), k = 1,..., L, (5.4) onde N k (S) = # {S i = k} = # {i {1,..., L} S i = k}. O algoritmo a seguir resume o esquema de atualização. Algoritmo 5.1: MCMC para um Modelo de Mistura Para a estimação dos parâmetros de um modelo de mistura, inicia-se o algoritmo com valores iniciais S (0) e tem-se os seguintes passos: 1. Simulação dos parâmetros condicional às alocações S (i) : Amostra-se o vetor η (i) da distribuição Dirichlet D(e 1 (S (i 1) ),..., e L (S (i 1) )), onde e k (S (i 1) ), k = 1,..., L é dado por (5.4). Amostra-se θ (i) 1,..., θ (i) L da condicional completa p(θ 1,..., θ L S (i 1), y). 59

75 2. Classifica-se cada observação y j condicionalmente ao conhecimento de υ (i) = (θ (i) 1,..., θ (i) L, η(i) ): amostra-se S i de forma independente para j = 1,..., N, onde N é o número de observações, da condicional completa p(s j υ (i), y j ) dada por: p(s j υ (i), y j ) p(y j θ (i) k )η(i) k. O Algoritmo 5.1 não garante que a distribuição a posteriori seja bem explorada e deve-se ter cautela na utilização dos resultados obtidos via aplicação do algoritmo explicitado. O comportamento das cadeias pode ser bastante imprevisível por consequência de um problema de identificação de rótulos. Para ilustrações do problema, Fruhwirth- Schnatter (2006) fornece um exemplo com conjuntos de dados artificiais onde o Algoritmo 5.1 é aplicado e os resultados são comparados a fim de ilustrar as consequências deste problema. Um algoritmo simples, mas eficiente para obter um amostrador que explora a todo o espaço da distribuição a posteriori, consiste em selecionar aleatoriamente uma permutação de rótulos ao final de cada iteração do MCMC. Algoritmo 5.2: MCMC com permutação para estimação em modelos de misturas 1. Segue-se todos os passos do Algoritmo Seleciona-se aleatoriamente uma das L! permutações ρ s (1),..., ρ s (L) dos rótulos. Essa permutação é aplicada a η (i), aos parâmetros de estados θ (i) 1,..., θ (i) L alocações S (i) Os pesos η (i) 1,..., η (i) L Os parâmetros θ (i) k são substituídos por η(i) ρ,..., s(1) η(i) ρ. s(l) são substituídos por θ (i) ρ s(k) para k = 1,..., K 60 e às

76 As alocações S (i) j são substituídos por ρ s (S (i) j ), para j = 0,..., N. 5.3 Wrapped Misturas de Normais Um modelo wrapped misturas de normais pode surgir, por exemplo, da necessidade de se trabalhar com dados multimodais ou assimétricos situados no círculo. Alguns conjuntos de dados circulares multimodais interessantes podem ser encontrados em Fisher e Lee (1994), que apresentam, por exemplo, um conjunto de dados referente aos tempos de chegada de 254 pacientes em uma unidade de tratamento intensivo em 12 meses. Além da multimodalidade, também pode haver situações em que o conjunto de dados é assimétrico. Para os casos em que se deseja modelar dados considerando uma possível assimetria, distribuições de misturas também se mostram adequadas. Para conjuntos de dados bimodais, Ravindran e Ghosh (2001) sugerem o uso de uma distribuição wrapped Beta. Wu et al. (2012) fazem uso de métodos bayesianos variacionais para estimação dos parâmetros de um modelo de mistura de normais. O método utilizado tem a desvantagem de resultar em diferentes estimativas para os parâmetros do modelo para diferentes valores iniciais arbitrados. Utilizamos, para geração de modelos de mistura no círculo, um modelo de misturas na reta que, por meio de uma variável latente (spinning number), é transposto para o círculo. Tal quantidade denota o número de voltas ao se mapear o modelo da reta ao círculo. A ideia, já mencionada no capítulo 4, é adotada em Jona-Lasinio et al. (2012). Na elaboração deste trabalho, a introdução da variável latente k desempenhou um papel 61

77 crucial no processo de estimação dos parâmetros do modelo wrapped misturas de distribuições normais, já que dado k, tem-se uma mistura de distribuições normais e neste caso, pode-se utilizar os esquemas de estimação usuais para os parâmetros de um modelo de misturas. Denotando por y = (y 1,..., y N ) o conjunto de dados circulares observados, pode-se utilizar o seguinte algoritmo para estimação dos parâmetros de um modelo Wrapped Misturas de Distribuições Normais: Algoritmo 5.3: MCMC para Wrapped Misturas de Distribuições Normais Inicia-se o algoritmo com vetores iniciais L-dimensionais µ 0, σ 2 0, η 0 e S 0 e na iteração i, executa-se os seguintes passos: 1. Calcula-se m (i) 3σ j = 1 + 2(i 1) l 2π, j = 1,..., N e l {1,..., L} é o índice que indica a alocação da variável y j e c é o menor inteiro próximo a c. { 2. Sorteia-se k j,i },..., 0,..., m(i), j = 1,..., N de acordo com as probabilidades dadas por: m (i) j j P (K j,i = k j,i µ S, σ S, x j, S j,i ) ϕ((y i + 2k j,i π µ S )/σ S )) m k j,i= m ϕ((y i + 2k j,i π µ S )/σ S )) 3. Calcula-se x j,i = 2k j,i π + y j, 62

78 4. Segue-se todos os passos do Algoritmo 5.2, considerando que θ (i) l 1,..., L. = (µ (i) l, σ 2(i) l ), l = Estudo Simulado Em um primeiro momento, estudou-se um modelo de misturas de normais com L = 2. Como o foco da dissertação consiste em trabalhar com modelos especificamente para dados circulares, pensou-se em wrapped mistura de normais como uma extensão de modelos de misturas de normais, já que a distribuição Wrapped Normal é obtida enrolandose uma distribuição normal no círculo. Para estimação dos parâmetros de um Wrapped Misturas de Normais, foi utilizado o Algoritmo 5.3. Foram feitas 100 simulações de 100 conjuntos de dados artificiais a partir do seguinte modelo: X i µ 1, µ 2, σ 2 1, σ 2 2, η 1, η 2 η 1 N(µ 1, σ 2 1) + η 2 N(µ 2, σ 2 2), i = 1,..., 100 Y i = X i mod(2π) onde: µ 1 = 2; µ 2 = 4; σ 1 = 0.01; σ 1 = 0.25; η 1 = 0.3; 63

79 η 2 = 0.7. Utilizou-se as seguintes prioris para os parâmetros de interesse: µ 1 N(3, 1) µ 2 N(3, 1) σ1 2 IG(2.0225, ) σ2 2 IG(2.0225, ) η 1 β(1.5, 1) Como é necessário impor priori informativa para σ 2, a escolha das prioris para σ1 2 e σ2 2 foi feita de forma a preservar a relação entre os parâmetros α e β da distribuição IG(α, β) utilizada em uma das aplicações de Jona-Lasinio et al. (2012), onde a moda e a variância de σ 2 são respectivamente 0.4 e Os resultados obtidos via Algoritmo 5.3 para uma das réplicas de conjuntos de dados artificiais estão representados a seguir. Figura 5.1: Traço das cadeias de µ = (µ 1, µ 2 ) 64

80 Figura 5.2: Traço das cadeias de σ 2 = (σ 2 1, σ2 2 ) Pode-se notar que os traços das cadeias de µ e σ 2 parecem assumir os mesmos valores, ou seja, parece que se conseguiu explorar o espaço da posteriori de forma balanceada. Isto se deve à permutação aleatória de rótulos descrita no Algoritmo 5.2. Figura 5.3: Média geral da mistura 65

81 Figura 5.4: Variância geral da mistura Nota-se também, que se conseguiu estimar bem a média geral da mistura, apesar do mesmo não ter acontecido com a variância. Calculou-se a média das médias a posteriori da mistura considerando-se cada réplica deste modelo, conforme exibe a figura 5.5. Figura 5.5: Média das médias da mistura em cada réplica e valor real da média da mistura (vermelho) Nota-se que foi possível estimar de forma satisfatória o verdadeiro valor da média da mistura (µ = 3.4) em todas as réplicas. Além disso, calculou-se a média das variâncias da mistura considerando todas as iterações em cada réplica deste modelo. 66

82 Figura 5.6: Histograma da média das variâncias da mistura em cada réplica e valor real da variância da mistura (vermelho) Pode-se perceber que apesar de aparentemente não ter sido possível recuperar o verdadeiro valor da variância (σ 2 = 0.38), houve alguma concentração de massa na região próxima ao valor verdadeiro. Deve-se ressaltar que a estimação desse parâmetro parece ser complexa, há dificuldade na identificação de σ 2 e do spinning number k como observado em Jona-Lasinio et al. (2012). 5.4 Modelos de Misturas Markovianas Nesta seção, a ideia é estender os modelos de misturas para o caso em que se deseja trabalhar com séries temporais, ou seja, deseja-se tratar formalmente autocorrelação temporal. A extensão para casos em que os dados são observados temporalmente é feita a partir da substituição do indicador latente discreto S i, introduzido como uma variável indicadora de alocação para modelos de misturas, por uma cadeia de Markov escondida. 67

83 Essa solução leva a uma classe de modelos não lineares para séries temporais que resolve uma grande variedade de problemas em análises de séries temporais. Seja Y t, t = 1,..., T uma série temporal de observações univariadas assumindo valores no espaço amostral que deve ser discreto ou contínuo. Uma série temporal usual pode ser considerada como uma realização de um processo estocástico {Y t } T t=1. Assume-se que a distribuição de probabilidade do processo estocástico Y t dependa da realização de um processo estocástico discreto escondido S t. O processo estocástico Y t é diretamente observável enquanto que S t é um processo aleatório latente que é observável somente indiretamente através do efeito que causa nas realizações Y t. O processo escondido {S t } T t=0 é um processo a tempo discreto com espaço de estados finito {1,..., L} que atende à seguinte condição: C1 S t é uma cadeia de Markov irredutível e aperiódica, começando da distribuição ergódica η = (η 1,..., η L ): P (S 0 = k ξ) = η K. As propriedades estocásticas de S t são suficientemente descritas por uma matriz de transição ξ com dimensão (L L), onde cada elemento ξ jk é igual à probabilidade de transição do estado j para o estado k: ξ jk = P (S t = k S t 1 = j), j, k {1,..., L} Para S t, uma cadeia de Markov de primeira ordem homogênea com matriz de transição ξ, qualquer distribuição de probabilidade η = (η 1,..., η L ) que atende à propriedade de 68

84 invariância ξ η = η (5.5) é chamada distribuição invariante de S t. No caso em que L=2, a resolução de 5.5 leva às seguintes probabilidades invariantes, η 1 = ξ 21 ξ 21 + ξ 12, (5.6) η 2 = ξ 12 ξ 21 + ξ 12. (5.7) A importância prática da distribuição invariante para a cadeia de markov S t é que se no tempo t-1 os estados S t 1 são advindos de uma distribuição invariante η de ξ, então os estados de S t são mais uma vez advindos de η. Seja τ(θ) uma família de distribuições paramétricas, definida no espaço γ que pode ser discreto ou contínuo, com densidade p(y θ), indexada por um parâmetro θ Θ. Seja {Y t } T t=1 uma sequência de variáveis aleatórias que depende de {S t} T t=0 da seguinte forma: C2 Condicionalmente ao conhecimento de S = (S 0,..., S T ), as variáveis aleatórias Y 1,..., Y T são estocasticamente independentes. Para cada t 1, a distribuição de Y t é uma das L distribuições τ(θ 1 ),..., τ(θ L ), dependendo do estado de S t : 69

85 Y t S t = k τ(θ k ). Para um processo estocástico {S t, Y t } T t=1 atendendo às condições C1 e C2, a distribuição marginal de Y t é: L p(y t υ) = P (y t S t = k, υ)p (S t = k υ) k=1 Como a cadeia de Markov S t é estacionária e a variável aleatória Y t S t = k tem densidade p(y t θ k ), obtém-se que a distribuição de Y t é uma mistura finita de τ(θ k ) com as probabilidades ergódicas η = (η 1,..., η L ) sendo os pesos da mistura: L p(y t υ) = p(y t θ k )η k, e a média e a variância são dadas pelas equações (5.1) e (5.2). k=1 Assim, o processo Y t é dito gerado de uma mistura de Markov finita das distribuições τ(θ). Y t é estacionário e o processo é autocorrelacionado, uma diferença importante do modelo de misturas usual, já que o mesmo produz sequências de variáveis aleatórias independentes. Para um modelo de misturas markovianas de dois estados, a função de autocorrelação é dada por: ρ Yt (h υ) = η 1η 2 (µ 1 µ 2 ) 2 σ 2 λ h, h = 1, 2,... onde λ = ξ 11 ξ 21 é o segundo autovalor da matriz de transição ξ. 70

86 O modelo de mistura markoviana pode ser aplicado em diversas áreas, incluindo biologia, economia, finanças entre outras. Diferentes terminologias são artribuídas a modelos baseados em cadeias de Markov escondidas. São usados, por exemplo, os termos Markov Switching Model e Modelos de Markov Escondidos Estimação Bayesiana para modelos de misturas markovianas utilizando o MCMC A inferência sobre S t, dadas as informações y T = (y 1,.,.,.y T ) a respeito do processo Y t observável para todo t T, é expressa em termos da distribuição de probabilidade P (S t = l y t, ), l = 1,..., L. O significado preciso destas probabilidades depende da relação entre t e T. As probabilidades P (S t = l y t, ) com t > T são as preditivas, já as probabilidades P (S t = l y t, ) com t = T são as probabilidades filtradas. As probabilidades P (S t = l y t, ), com t < T são as probabilidades suavizadas. Problemas de estimação conhecidos como o filtro de Kalman e suavizador ocorrem para modelos com espaço de estados contínuo. Os métodos de filtragem e suavização desenvolvidos para cadeias de Markov escondidas devem ser vistos como uma versão discreta do filtro de Kalman, pois uma cadeia de Markov escondida pode ser pensada como um modelo de espaço de estados com espaço de estados discreto (Hamilton (1994)). Algoritmo 5.4: Filtragem dos estados Para um modelo de espaço de estados, o problema de filtragem consiste em se fazer 71

87 inferência sobre os estados, dadas as observações até o tempo t. Devido ao suporte discreto da variável S t, é possível encontrar a distribuição filtrada completa P (S t = l y t, υ) para todas as realizações possíveis l {1,..., L} de S t, para t = 1,..., T, da seguinte forma: Previsão um passo à frente para S t P (S t = l y t 1, υ) = K ξkl(t 1)P (S t 1 = k y t 1, υ), para l = 1,..., L k=1 onde ξ kl (t 1) = P (S t = l S t 1 = k, y t 1, υ e reduz-se a probabilidade de transição ξ kl no caso de cadeias de Markov homogêneas. Filtragem para S t P(S t = l y t, υ) = p(yt St=l,yt 1,υ)P (S t=l y t 1,υ) p(y t y t 1,υ), onde K p(y t y t 1, υ) = p(y t S t = l, y t 1, υ)p (S t = k y t, υ). k=1 Quando t=1, inicia-se o filtro com a distribuição P (S 0 = k ξ). Algumas distribuições iniciais são sugeridas em Fruhwirth-Schnatter (2006). Para t=1: 72

88 K P (S 1 = l y 0, υ) = ξkl(0)p (S 0 = k ξ), k=1 onde ξ kl (0) = P (S 1 = l S 0 = k, υ) reduz-se a probabilidade de transição ξ kl para cadeias de Markov homogêneas. Algoritmo 5.5: Suavização dos estados O Algoritmo 5.4 leva à distribuição de probabilidade de S t dada a informação y t até o tempo t. Quando se trabalha com séries temporais, cálculos para as probabilidades de S t que incorporem toda a informação y = (y 1,..., y T ) devem ser preferidos quando possível. Tais calcúlos das probabilidades são realizados através das probabilidades suavizadas com base em toda amostra P (S t = l y, υ). O Algoritmo 5.5 funciona como uma suavização depois da utilização do Algoritmo 5.4. Esse processo é análogo ao utilizado no FFBS e tem as seguintes etapas: 1. O Algoritmo 5.4 deve ser utilizado para a obtenção das probabilidades filtradas P (S t = l y t, υ), l = 1,..., L para cada t = 1,..., T. 2. Inicia-se o processo de suavização a partir de T=t, sendo a distribuição P (S T y, υ) igual à distribuição filtrada em t=t. 3. Para cada t = T 1,..., t 0 as probabilidades suavizadas P (S t = l y, υ), l = 1,..., L são calculadas da seguinte maneira: 73

89 P (S t = l y, υ) = K k=1 ξlk (t)p (S t = l y t, υ)p (S t+1 = k y, υ) K j=1 ξ kl (t)p (S, (5.10) t = j y t, υ) onde ξ lk (t) = P (S t+1 = k S t = l, y t, υ) são simplificadas para a probabilidade de transição ξ lk no caso de cadeias de Markov homogêneas. A suavização termina no tempo t=1 se S 0 for determinístico. Para um valor inicial aleatório de S 0, a suavização termina em t 0 = 0 e a probabilidade P (S 0 = l y, υ) sobre o valor inicial é atualizada com base na série temporal observada. Neste último passo, (5.10) se reduz a P (S 0 = l y, υ) = K k=1 ξ lk (0)P (S 0 = l ξ) K j=1 ξ lk (0)P (S 0 = j ξ)), onde P (S 0 = l ξ) é a distribuição inicial e ξ lk (0) = P (S 1 = k S 0 = l, υ) é a probabilidadede transição ξ lk para cadeias de Markov homogêneas. Para sugestões de distribuições iniciais, Fruhwirth-Schnatter (2006) lista algumas possibilidades. Amostragem da matriz de transição ξ O algoritmo para amostragem da matriz de transição ξ da condicional completa de p(ξ S) para determinada trajetória de S depende das suposições feitas a respeito da distribuição p 0 para o valor inicial S 0. Assumindo que S 0 e ξ são independentes e que as linhas da matriz ξ são independentes a priori e têm distribuição Dirichlet, ξ j D(e j1,..., e jl ), j = 1,..., L, então as linhas ξ j permanecem independentes a posteriori, cada uma com distribuição Dirichlet: 74

90 ξ j D(e j1 + N j1 (S),..., jl +N jl (S)), j = 1,..., L, onde N jk (S) é o número de transições de j para k. Algoritmo 5.6: MCMC para modelos de misturas markovianas Para a estimação dos parâmetros em um modelo de misturas markovianas, inicia-se o processo em algum estado inicial S (0) e itera-se os seguintes passos: 1. Simulação dos parâmetros condicional aos estados S i 1 : Amostra-se a matriz de transição ξ da condicional completa p(ξ S (i 1) ) Amostram-se os parâmetros do modelo θ 1,..., θ L p(θ 1,..., θ L y, S (i 1) ) da condicional completa 2. Amostram-se os estados condicionalmente a υ (i), amostrando-se S da condicional completa p(s υ (i), y), da seguinte forma: Utiliza-se o Algoritmo 5.4 para encontrar as probabilidades filtradas condicional à υ. Amostra-se S (i) T da distribuição de probabilidade filtrada P (S T y T, υ). Para T 1,..., 0, amostra-se S (i) t da distribuição condicional P (S t = j S (i) t+1, y t, υ) dada por: P (S t = j S (i) t+1, y t, υ) = ξ j,l m (t)p (S t = j y t, υ) K k=1 ξ k,l m (t)p (S t = k y t, υ) 75

91 onde ξj,l m (t) = P (S t+1 = l m S t = j, υ, y t ) é ξj,l m para cadeias de Markov homogêneas S t e l m é o estado de S (i) t+1. O desempenho do Algoritmo 5.6 é de certa forma imprevisível e pode se prender a única região modal da distribuição de mistura markoviana a posteriori, ou pode alternar aleatoriamente entre diferentes regiões modais causando um problema de identificação de rótulos. Na maioria dos casos, o algoritmo utilizado não explora bem a distribuição de mistura markoviana a posteriori, algo essencial ao se amostrar quando estima-se as posterioris marginais. Um algoritmo simples, mas eficiente, sugerido em Frühwirth-Schnatter (2001) pode ser utilizado para resolver tal problema. Algoritmo 5.7: MCMC com permutação para estimação em modelos de misturas markovianas 1. Segue-se todos os passos do Algoritmo Seleciona-se aleatoriamente uma das L! permutações ρ s (1),..., ρ s (L) dos rótulos. Essa permutação é aplicada à ξ (i), aos parâmetros de estados θ (i) 1,..., θ (i) L estados S (i) e aos Cada elemento ξ (m) jk para j, k = 1,..., L. da matriz de transição simulada é substituído por ξ (m) ρ s(j),ρ s(k), Os parâmetros θ (i) k são substituídos por θ (i) ρ s(k) para k = 1,..., K Os estados S i t são substituídos por ρ s (S (i) t ), para t = 0,..., T. 76

92 5.5 Wrapped Misturas Markovianas de Distribuições Normais Denotando por y = (y 1,..., y N ) o conjunto de dados circulares observados, pode-se utilizar o seguinte algoritmo para estimação dos parâmetros de um modelo Wrapped Misturas Markovianas de Distribuições Normais: Algoritmo 5.8: MCMC para estimação dos parâmetros de Wrapped Misturas Markovianas de Distribuições Normais Inicia-se o algoritmo com valores µ 0, σ 2 0, e S 0 e na iteração i, executa-se os seguintes passos: 1. Calcula-se m (i) 3σ j = 1 + 2(i 1) l 2π, j = 1,..., N e l {1,..., L} é o índice que indica a alocação da variável y j. { 2. Calcula-se k j,i }, j = 1,..., N de acordo com as probabilidades dadas por: m (i) j,..., 0,..., m(i) j P (K j,i = k j,i µ S, σ S, y j, S j,i ) ϕ((y i + 2k j,i π µ S )/σ S )) m k j,i= m ϕ((y i + 2k j,i π µ S )/σ S )) 3. Calcula-se x j,i = 2k j,i π + y j. 4. Segue-se todos os passos do Algoritmo 5.7, considerando que θ (i) l = (µ (i) l, σ 2(i) ), l = 1,..., L l 77

93 5.5.1 Estudo Simulado O estudo deste tipo de modelo em particular iniciou-se através da aplicação direta da metodologia descrita em Frühwirth-Schnatter (2001). Como se tem interesse em trabalhar com séries temporais cuja variável resposta assuma valores em um intervalo de comprimento 2π, mais uma vez foi necessário adaptar a teoria existente para se trabalhar com dados circulares. A adaptação consistiu em aplicar conjuntamente as ideias encontradas em Jona-Lasinio et al. (2012) e em Fruhwirth-Schnatter (2006). O método desenvolvido para a estimação dos parâmetros neste modelo deu origem ao Algoritmo 5.8, algoritmo que foi utilizado na estimação dos parâmetros do modelo Wrapped Misturas Markovianas de Distribuições Normais. Foram feitas 100 simulações do seguinte modelo: X t S t N(µ St, σ 2 S t ), t = 1,..., 100; Y t = X t mod(2pi) onde: (µ St S t = 1) = 2; (µ St S t = 2) = 4; (σ St S t = 1) = 0.01; (σ St S t = 2) = 0.25; Utilizou-se as seguintes prioris para os parâmetros de interesse: µ 1 N(3, 1) µ 2 N(3, 1) σ1 2 IG(2.0225, ) 78

94 σ 2 2 IG(2.0225, ) ξ,1 β(1.5, 1) ξ,2 β(1.5, 1) Como é necessário impor priori informativa para σ 2, a escolha das prioris para σ1 2 e σ2, 2 mais uma vez, foi feita de forma a preservar a relação entre os parâmetros α e β da distribuição IG(α, β) utilizada em uma das aplicações de Jona-Lasinio et al. (2012), onde a moda e a variância de σ 2 são respectivamente 0.4 e Os resultados obtidos via Algoritmo 5.8 para uma das réplicas de conjuntos de dados artificiais estão representados a seguir. Figura 5.7: Traço das cadeias de µ = (µ 1, µ 2 ) 79

95 Figura 5.8: Traço das cadeias de σ 2 = (σ 2 1, σ2 2 ) Pode-se notar que os traços das cadeias de µ e σ 2 parecem percorrer os mesmos valores, ou seja, parece que conseguiu-se passear pela posteriori de forma balanceada. Isto se deve à permutação aleatória de rótulos descrita no Algoritmo 5.7. Figura 5.9: Média geral da mistura 80

96 Figura 5.10: Variância geral da mistura Nota-se também, que conseguiu-se estimar bem a média geral da mistura, apesar do mesmo não ter acontecido com a variância. Calculou-se a média das médias a posteriori da mistura considerando-se todas as réplicas deste modelo: Figura 5.11: Média das médias da mistura em cada réplica e valor real da média da mistura (vermelho) Nota-se que foi possível estimar de forma satisfatória o verdadeiro valor da média da mistura (µ = 3.4) considerando-se todas as réplicas. Além disso, calculou-se a média das variâncias da mistura considerando todas as iterações em cada réplica deste modelo. Observou-se grande incerteza associada à estimação da variância da mistura, conforme 81

97 Figura 5.12: Histograma da média das variâncias da mistura em cada réplica e valor real da variância da mistura (vermelho) já esperado, de cordo com relato em Jona-Lasinio et al. (2012), sobre a dificuldade para estimação desse parâmetro. 82

98 Capítulo 6 Aplicação a dados reais A fim de ilustrar os métodos desenvolvidos no presente trabalho, fez-se uma aplicação destes métodos a um conjunto de dados reais utilizando os modelos abordados. O conjunto de dados consite em séries temporais com 1126 observações referentes à direção dos ventos, velocidade dos ventos, temperatura umidade e pressão em diversas estações da Catalunha de 1 de agosto de 2012 à 1 de agosto de Mais especificamente, foram utilizados somente as observações de uma estação em particular situada a 650 metros de altitude em L Ametlla del Vallès, um município da Espanha na província de Barcelona. As séries observadas estão representadas graficamente na figura

99 Figura 6.1: Conjunto de dados reais 84

100 O estudo da direção dos ventos é importante para diversas áreas, por exemplo, podese querer saber o efeito da direção dos ventos na dispersão de poluentes nas cidades, ou estudar o clima através da direção dos ventos. Alguns estudos relacionam direção dos ventos e temperatura, umidade, pressão e a velocidade dos ventos. Como dispõe-se de um conjunto de dados onde essas variáveis estão presentes, fez-se uso das mesmas como variáveis explicativas para a direção média dos ventos. A utilização de componentes sazonais nos modelos aplicados foi motivada pela observação do gráfico da direção média em cada mês (considerando uma série temporal de 36 meses), que parece evidenciar a existência de um ciclo anual. Pode-se perceber, por exemplo, que as direções médias de agosto de 2012, 2013 e 2014 parecem apontar para uma mesma direção. Além disso, nota-se que ao longo do ano a direção média a cada mês passa de sudoeste a sudeste, e em julho a direção média volta a apontar para a direção sudoeste completando assim, um ciclo anual de sazonalidade. Figura 6.2: Diagrama de rosas com a direção média de cada mês em 2012, 2013 e Observando-se um histograma circular das direções dos ventos em um determinado mês em certo ano, percebe-se que parece haver não uma, mas possivelmente duas ou mais direções preferenciais, justificando assim, o uso de um modelo wrapped de misturas de distribuições normais. 85

101 Figura 6.3: Histograma circular das direções dos ventos em cada mês de 2012, 2013 e 2014 Trabalhou-se com os seguintes modelos: Modelo 1: Wrapped Normal estático Y t W N(µ, σ 2 ) Nota-se que este modelo prescinde do tratamento da autocorrelação temporal e supõe que a distribuição da direção dos ventos é unimodal e simétrica em relação a média. Modelo 2: Wrapped Normal dinâmico Y t W N(F t θ t, σ 2 ) 86

102 θ t = G t θ t 1 + w t, w t N(0, W ) θ t = (θ 1t θ 2t θ 3t θ 4t θ 5t θ 6t θ 7t ) F t = (1 1 0 T t U t P t V V t ) onde: T t = temperatura no tempo t U t = umidade no tempo t V V t = velocidade dos ventos no tempo t P t = pressão no tempo t G t = sen( 2πt 2πt ) cos( ) cos( 2πt 2πt ) sen( ) Este modelo trata da autocorrelação inerente à séries temporais e supõe que distribuição da direção dos ventos é simétrica e unimodal ao redor da média a cada tempo t. 87

103 Modelo 3: Wrapped Misturas de Distribuições Normais X i µ 1, µ 2, σ 2 1, σ 2 2, η 1, η 2 η 1 N(µ 1, σ 2 1) + η 2 N(µ 2, σ 2 2), i = 1,..., 100 Y i = X i mod(2pi) Esse modelo captura eventual assimetria e multimodalidade no círculo mas não trata a autocorrelação inerente à séries temporais. Modelo 4: Wrapped Misturas Markovianas de Distribuições Normais Y t S t N(µ St, σ 2 S t ), t = 1,..., 100; onde: S t = 1 ou S t = 2, ou seja, L=2. Esse modelo captura assimetria e multimodalidade no círculo além de tratar da autocorrelação temporal. Fez-se no mínimo iterações para cada modelo e, após convergência, calculou-se o erro absoluto médio em cada uma das aplicações, com tal erro dado pelo comprimento de arco entre direção média estimada a posteriori e direção observada. Obteve-se os seguintes valores: 88

104 Erro Absoluto Médio WN estático WN dinâmico WMM WMMM O menor erro absoluto médio foi obtido para o modelo 2. Para esse modelo, obteve-se seguinte o gráfico da resposta média versus a série observada: Figura 6.4: Série de direção dos ventos observada e resposta média (vermelho) Nota-se que, levando-se em consideração o posicionamento desses pontos no círculo unitário, parece ter sido possível acompanhar a trajetória da série observada. 89

105 Capítulo 7 Conclusões e trabalhos futuros A proposta deste trabalho é apresentar, criar e analisar modelos e metologias para se trabalhar com dados circulares. Os modelos apresentados são os modelos mais comumente utilizados na análise de dados desta natureza. Por este motivo, ressalta-se a importância de se ter métodos disponíveis para a estimação dos parâmetros destes modelos. O artigo Jona-Lasinio et al. (2012) forneceu a ideia central para a obtenção de métodos bayesianos de estimação para se trabalhar com inferência bayesiana em modelos circulares baseados em versões wrapped de modelos definidos na reta. Apesar da ideia de introdução da variável auxiliar k ( Sppinning Number ) já ter sido abordada anteriormente, como por exemplo, em Fisher e Lee (1994) e Coles (1998), a introdução de k como meio de possibilitar a utilização de métodos de estimação bayesiana com teoria já bem estabelecida abordada em Jona-Lasinio et al. (2012), consistiu na principal ideia utilizada na elaboração deste estudo. Notou-se que as metodologias já disponíveis na literatura para estimação bayesiana em modelos para dados circulares temporalmente observados parecem limitadas. Por isso, acredita-se ter sido importante desenvolver, com base nos métodos e modelos disponíveis, alternativas para análise de dados desta natureza. Os métodos e modelos abordados são flexíveis e permitem a modelagem e estimação em modelos que compreendam regressoras, efeitos sazonais, modelos com tratamento de autocorrelação temporal, assimetria e 90

106 multimodalidade. Inicialmente, estudou-se o modelo Von Mises bem como a estimação dos parâmetros deste modelo. Para se trabalhar com séries temporalmente observadas, utilizou-se as prioris sugeridas em Guttorp e Lockhart (1988) obtendo-se, assim, condicionais completas conhecidas para a direção média µ t, t = 1,..., T. Além disso, para a estimação do parâmetro de concentração κ (trabalhou-se com a transformação ψ = log(κ)e com o algoritmo de Metropolis-Hastings). A partir de um estudo simulado, notou-se que a estimação de κ é complexa e que extensões do modelo Von mises que possibilitem uma maior flexibilidade não são triviais. Passou-se a adotar os chamados Wrapped Models. Por ser um modelo bastante utilizado, trabalhou-se com o moodelo Wrapped Normal, a partir da utilização de uma ideia abordada em Jona-Lasinio et al. (2012). A ideia central consiste em fazer uso de uma variável auxiliar e, a partir disso, utilizar toda a teoria disponível já bem estabelecida para fazer estimação dos parâmetros de um modelo normal. Desevolveu-se um método para estimação em modelos Wrapped Normal a partir da utilização do esquema de introdução de vaiáveis latentes abordados em Jona-Lasinio et al. (2012). Conseguiu-se obter bons resultados a partir da utilização do método desenvolvido, tendo sido possível trabalhar com modelos que incluam sazonalidade e regressoras. Até este momento, havia-se trabalhado com o modelo Von Mises e Wrapped Normal. Tais modelos são simétricos e, portanto, não são adequados para se trabalhar com determinados conjuntos de dados. Buscando uma maior flexibilidade, começou-se a estudar modelos de misturas. Esses modelos têm a vantagem de serem flexíveis podendo ser aplicados a conjuntos de dados que pareçam apresentar assimetria ou multimodalidade. Para aplicação desses modelos a dados circulares, a ideia da introdução da variável latente k, mais uma vez, se mostrou necessária, uma vez que não se conhece teoria bayesiana para estimação de parâmetros em modelos wrapped misturas de normais. Com a introdução de k no problema,pode-se utilizar os métodos usuais de estimação para os parâmetros de 91

107 um modelo de misturas. Neste contexto, a contribuição deste trabalho foi o desenvolvimento de um método de estimação em modelos wrapped misturas de normais, baseado na introdução da variável auxiliar k e nos métodos de estimação para os parâmetros de misturas de normais, encontrados em Jona-Lasinio et al. (2012). Fez-se um estudo simulado e o esquema de estimação bayesiano em modelos wrapped misturas de normais desenvolvido se mostrou eficiente na estimação dos parâmetros de um wrapped misturas de normais. Visando uma maior flexibilidade sem prescindir do tratamento de autocorrelação temporal, decidiu-se estudar os modelos de misturas Markovianas. Estes modelos tratam da autocorrelação presente em séries temporais através da inclusão de uma estrutura Markoviana em S t, as alocações em cada tempo t. Para estes modelos, assim como para modelos de misturas, estão disponíveis métodos de estimação bayesianos em Fruhwirth-Schnatter (2006). No caso em que se deseja trabalhar com observações circulares utilizando modelos de misturas markovianas, foi necessára, mais uma vez, a utilização da variável auxiliar k, como forma de possibilitar o uso de esquemas de estimação bayesianos já conhecidos para a estimação dos parâmetros dos modelos que chamamos neste trabalho de wrapped misturas markovianas. O método desenvolvido no presente trabalho se mostrou eficiente para estimação dos parâmetros do modelo proposto, e a partir da utilização do mesmo, foi possível obter bons resultados. Por fim, aplicou-se toda metodologia estudada e desenvolvida em um conjunto de dados reais referente à direção dos ventos em estações de medição na Catalunha. Tal aplicação visa ilustrar o uso dos métodos e modelos aqui desenvolvidos para estimação dos parâmetros nos casos abordados. Como possíveis continuações deste trabalho, pode-se adicionar uma componente espacial nos modelos estudados. Com isso, pode-se modelar, por exemplo, todas as estações obersavadas na Catalunha, considerando além do tempo, cada localização no espaço. Ademais, além dos modelos abordados neste estudo, pode-se trabalhar também com 92

108 modelos discretos, como wrapped poisson ou versões wrapped de outros modelos na família exponencial, e possíveis extensões dinâmicas para estes modelos. Pode-se também estudar outros métodos de estimação, como por exemplo, filtro de partículas. Outras aplicações também são passíveis de serem abordadas, por exemplo, aplicações a obervações periódicas como no estudo de criminalidade em certa cidade ou entrada de pacientes em uma emergência de um hospital. 93

109 Apêndice A Método Bayessiano de Estimação para Modelos Von Mises A.1 Modelo Von Mises Estático Para a aplicação do método sugerido em Damien and Walker (1999), fez-se um exercício simulado gerando 100 réplicas de conjuntos de dados com 100 observações do seguinte modelo: Y t vm(0, 3). Utilizou-se a priori sugerida em Guttorp and Lockhart(1988): f(µ, κ) {I 0 (k)} c exp {kr 0 cos (µ µ 0 )} com µ 0 = 0, κ = 5 e R 0 = 5. Os resultados obtidos para algumas das réplicas estão listados abaixo: 94

110 Figura A.1: Traços da cadeia de µ utilizando o método encontrado em Damien and Walker (1999) Figura A.2: Traços da cadeia de κ utilizando o método encontrado em Damien and Walker (1999) 95

111 (a) Histograma de µ estimado e µ (b) Histograma de κ estimado e κ real(vermelho) real(verde) Figura A.3: Estimação dos parâmetros do modelo Von Mises em uma das réplicas utilizando o algoritmo proposto por Damien e Walker (1999). Já na aplicação do método MCMC programado de forma independente e aplicado a um conjunto de dados com 100 observações artificiais geradas do mesmo modelo:: utilizou-se as seguintes prioris: Y t vm(0, 3) µ υm(2, 1); Obteve-se os seguintes resultados: κ Gama(6, 0.5). 96

112 (a) Histograma de µ estimado e µ (b) Histograma de κ estimado e κ real(vermelho) real(verde) Figura A.4: Estimação dos parâmetros do modelo Von Mises utilizando o método MCMC programado de forma independente. Pode-se notar que parece ter sido possível obter melhores estimativas, principalmente para o parâmetro de concentração κ, utilizando o MCMC programado de forma independente. Porém, deve-se ressaltar que é indispensável fazer um estudo mais profundo para que essas afirmações sejam validadas. A.2 Modelo Von Mises Dinâmico A.2.1 Condicionais Completas O modelo de interesse é da seguinte forma: Y t vm(µ t, k), k desconhecido µ t vm(µ t 1, ck) µ 0 vm(m 0, ck) Para este modelo, foi usada uma extensão das ideias encontradas em Guttorp and Lockhart [1988]. As condicionais completas dos parâmetros do vetor de estados po- 97

113 dem ser encontradas da seguinte forma: µ = (µ 0,..., µ T ): (A.1) p(µ 0, µ 1,..., µ T y 1,..., y T, k) T t=1 f(y t µ t, k) T i=1 p(µ i µ t 1 )p(µ 0 ) exp{k T t=1 cos(y t µ t ) + c k T i=1 cos(µ t µ t 1 ) + c k cos(µ 0 m 0 ))} = exp{k[ T t=1 (cos(y t)cos(µ t ) + sen(y t )sen(µ t )) + c T i=1 (cos(µ i)cos(µ i 1 ) + sen(µ i )sen(µ i 1 )) + c(cos(µ 0 )cos(m 0 ) + sen(µ 0 )sen(m 0 ))]} = exp{k[ T t=1 (cos(µ t)(cos(y t ) + c(µ t 1 )) + sen(µ t )(sen(y t ) c sen(µ t 1 ))) + c(cos(µ 0 )cos(m 0 ) + sen(µ 0 )sen(m 0 ))]} µ 0 : p(µ 0 µ 1,..., µ T, y 1,..., y T, k) exp{c k[cos(µ 0 )(cos(m 0 ) + cos(µ 1 )) + sen(µ 0 )(sen(m 0 ) + sen(µ 1 ))]} (A.2) µ t, t = 1,... T 1: p(µ t µ 0,..., µ t 1, µ t+1,..., µ T, y 1,..., y T, k) exp{k[cos(µ t )(cos(y t ) + c(cos(µ t 1 ) + cos(µ t+1 )))]} + sen(µ t )(sen(y t ) + c(sen(µ t 1 )sen(µ t+1 ))), t = 1,..., T 1 (A.3) µ T : 98

114 p(µ T µ 0,..., µ T 1, y 1,..., y T, k) exp{k[cos(µ T )(cos(y T ) + c cos(µ T 1 )) + sen(µ T )(sen(y T ) + c sen(µ T 1 ))]} (A.4) Definindo: c(cos(m 0 ) + cos(µ 1 )), t=0 c t cos(ψ t ) = cos(y t ) + c(cos(µ t 1 ) + cos(µ t+1 )), t=1,..., T-1 cos(y T ) + c cos(µ T 1 ), t=t c(sen(m 0 ) + sen(µ 1 )), t=0 c t sen(ψ t ) = sen(y t ) + c(sen(µ t 1 ) + sen(µ t+1 )), t=1,..., T-1 sen(y T ) + c sen(µ T 1 ), t=t Tem-se: p(µ 0, µ 1,..., µ T y 1,..., y T, k) T exp{c t k[cos(µ t )cos(ψ t ) + sen(µ t )sen(ψ t )]} t=0 = T exp{c t k[cos(µ t cosψ t )]} t=0 onde tg(ψ t ) = bt a t ψ t = arctan( bt a t ) e c t = a 1 t + b 2 t Esquema gibbs para estimação dos parâmetros Em cada iteração i gera-se: 99

115 µ (i) 0 µ (i 1) 1,..., µ (i 1) T, y 1,..., y T, k V M(ψ 0, k c 0 ). µ (i) T µ(i) 0,..., µ (i) T 1, y 1,..., y T, k V M(ψ T, k c T ) A.2.2 Resultados Gerou-se 200 observações do modelo: Y t vm(µ t, 5) µ t vm(µ t 1, 2) µ 0 vm(3, 2) As prioris utilizadas foram: µ 0 V M(0, 2) κ G(3, 0.5) Os resultados obtidos foram: Figura A.5: Cadeias de µ t, para t = 25, 50, 75,

Exibir mais