Universidade Federal do Rio de Janeiro

Documentos relacionados
Universidade Federal do Rio de Janeiro. Inferência Bayesiana Aproximada em Modelos de Espaço de Estados. Camila Maria Casquilho Resende

Modelos com Coeficientes Dinâmicos Variando no Espaço para Dados da Família Exponencial

Metodologia de inversão

CONHECIMENTOS ESPECÍFICOS

Técnicas computacionais em probabilidade e estatística II

Métodos Computacionais para inferência estatística

3 Filtro de Kalman Discreto

Influencia de Distribuições a priori na Analise Bayesiana em dados de contagem

Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação

A análise de séries temporais é uma área da estatística dedicada ao estudo de dados orientados no tempo (MONTGOMERY, 2004).

Inferência Bayesiana

ESTATÍSTICA COMPUTACIONAL

CC-226 Aula 07 - Estimação de Parâmetros

ESTATÍSTICA COMPUTACIONAL

Modelos Lineares Generalizados

Inferência Bayesiana Exata para Processos de Cox Level-Set

Ajuste do modelo de regressão linear: Inferência Bayesiana, aspectos computacionais e seleção de variáveis.

ões652conclusões e trabalhos futuroschapter.6 (Gamerman, 1999)

Técnicas computacionais em probabilidade e estatística II

2 Modelos em Espaço de Estado Lineares: Formulação Geral

5 Filtro de Kalman Aplicado ao Modelo de Schwartz e Smith (2000)

Redes Neurais e Sistemas Fuzzy

ESTATÍSTICA COMPUTACIONAL

Aula 2 Uma breve revisão sobre modelos lineares

AGA Análise de Dados em Astronomia I 8. Inferência Bayesiana e MCMC

Disciplina de Modelos Lineares Professora Ariane Ferreira

4 Modelos Lineares Generalizados

Econometria em Finanças e Atuária

Modelos bayesianos estáticos globais na construção de tábuas de mortalidade para a macrorregião do sul de Minas Gerais

4 Modelos de Regressão Dinâmica

Um modelo de espaço de estados poisson para a modelagem dos confrontos de futebol entre Brasil e Argentina

Modelos Lineares Generalizados - Estimação em Modelos Lineares Generalizados

Gibbs Sampler para ANOVA e Misturas

Econometria em Finanças e Atuária

ESTATÍSTICA COMPUTACIONAL

2 Modelos Não Lineares

ESTATÍSTICA COMPUTACIONAL

3 Aprendizado por reforço

Análise de Dados Longitudinais Aula

UMA NOVA CLASSE DE MODELOS ESPAÇO-TEMPORAIS PARA DADOS. Juan Carlos Vivar-Rojas

Regressão de Poisson e parentes próximos

Séries Temporais e Modelos Dinâmicos. Econometria. Marcelo C. Medeiros. Aula 9

A Importância da Estatística na Pesquisa Científica e na Tomada de Decisão

Análise Multivariada Aplicada à Contabilidade

ESTATÍSTICA COMPUTACIONAL

Análise de séries temporais. Prof. Thaís C O Fonseca DME - UFRJ

Multicolinariedade e Autocorrelação

Modelos espaço-temporais para óbitos por causas externas

Séries Temporais e Modelos Dinâmicos. Econometria. Marcelo C. Medeiros. Aula 12

Novembro/2018. Ajuste Automático ao Histórico em Simulação de Reservatórios

Minera c ao de Dados Aula 6: Finaliza c ao de Regress ao e Classifica c ao Rafael Izbicki 1 / 33

FAMÍLIA EXPONENCIAL DE DISTRIBUIÇÕES

Aplicação dos modelos lineares generalizados na análise do número de estômatos em coentro (Coriandrum sativum L.): estimação bayesiana utilizando INLA

4 Conceitos Básicos de Estatística Bayesiana e Simulação Estocástica

Redes Neurais. A Rede RBF. Redes RBF: Função de Base Radial. Prof. Paulo Martins Engel. Regressão não paramétrica. Redes RBF: Radial-Basis Functions

Ralph S. Silva

Modelo fatorial espacial dinâmico para dados pertencentes à família exponencial

RESOLUÇÃO Nº 01/2016

Modelos Lineares Generalizados - Componentes do Modelo

Inferência Estatistica

Exercícios de programação

ESTATÍSTICA BAYESIANA

A Metodologia de Box & Jenkins

CONHECIMENTOS ESPECÍFICOS

Universidade Federal do Rio de Janeiro. Modelos dinâmicos para observações binárias com. Renata Souza Bueno

MODELOS DE REGRESSÃO PARA DADOS CONTÍNUOS ASSIMÉTRICOS

Ricardo Ehlers Departamento de Matemática Aplicada e Estatística Universidade de São Paulo

Fundação Oswaldo Cruz Escola Nacional de Saúde Pública Departamento de Epidemiologia. Estatística espacial. Áreas

MAE 5882 aula 02. O log-retorno de período k (agregação temporal dos retornos)

7 Conclusões e desenvolvimentos futuros

Análise de Dados Categóricos

Introdução a Inferência Bayesiana

Algoritmo Array Rápido para Filtragem de Sistemas Lineares Sujeitos a Saltos Markovianos com Variação Estruturada dos Parâmetros no Tempo

Modelos para dados de contagem

CONHECIMENTOS ESPECÍFICOS

IND 1115 Inferência Estatística Aula 6

CONHECIMENTOS ESPECÍFICOS

Distribuição Amostral e Estimação Pontual de Parâmetros

Análise de séries temporais Gaussianas univariadas por meio de modelos dinâmicos lineares

Aplicações de inferência bayesiana aproximada para modelos gaussianos latentes espaço temporais

P.62, Exerc. 1.3: Trocar as posições de tipo AB e tipo O.

CE062c - GAMLSS. Silva, J.P; Taconeli, C.A. 09 de outubro, Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, / 42

Definição. Os valores assumidos pelos estimadores denomina-se estimativas pontuais ou simplesmente estimativas.

Markov Switching Models. Profa. Airlane Alencar. Depto de Estatística - IME-USP. lane. Ref: Kim e Nelson (1999) e Hamilton (1990)

Modelos Dinâmicos para Estimação de Ciclos: Um estudo sobre geração e ajuste de dados

Controle Ótimo - Aula 8 Equação de Hamilton-Jacobi

EES-20: Sistemas de Controle II. 20 Novembro 2017

Séries Temporais e Modelos Dinâmicos. Econometria. Marcelo C. Medeiros. Aula 6

3 Modelos e metodologias comparadas

Classificadores. André Tavares da Silva.

MAE 5882 aula 02. O log-retorno de período k (agregação temporal dos retornos)

Modelagem Computacional. Parte 8 2

MOQ-13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel

6 Implementação do Modelo e do Filtro de Kalman

Estudo de Periodicidade dos Dados de Poluição Atmosférica na Estimação de Efeitos na Saúde no Município do Rio de Janeiro

Mais sobre Modelos Continuos

Um modelo estocástico para o fluxo de caixa de um plano de previdência de um indivíduo 15

Geração de cenários de energia renovável correlacionados com hidrologia: uma abordagem bayesiana multivariada.

INFERÊNCIA EM MODELOS LINEARES GENERALIZADOS ANÁLISE DE DEVIANCE

Transcrição:

Universidade Federal do Rio de Janeiro Uma Comparação entre Métodos de Aproximações Determinísticas e Estocástica para Inferência Bayesiana em Modelos Dinâmicos Lineares Generalizados Teresa Villanueva Caballero 2013

Uma Comparação entre Métodos de Aproximações Determinísticas e Estocástica para Inferência Bayesiana em Modelos Dinâmicos Lineares Generalizados Teresa Villanueva Caballero Dissertação de Mestrado submetida ao Programa de Pós-Graduação em Estatística do Instituto de Matemática da Universidade Federal do Rio de Janeiro - UFRJ, como parte dos requisitos necessários à obtenção do grau de Mestre em Estatística. Orientadora: Mariane Branco Alves Rio de Janeiro Novembro 2013 ii

iv

À minha família, em especial ao meus pais, Juan e Flora. v

Agradecimentos À minha orientadora Mariane Branco Alves, obrigada pelo tempo que disponibilizou para nossas reuniões, pela orientação acadêmica e paciência ao longo deste trabalho. À minha família, que sempre acreditou em mim. Aos meus pais, Juan e Flora, pelo amor, carinho. Aos meus irmãos(as), pelo apoio incondicional, apesar da distância. Ao Alexéi, pelo amor, compreensão e que sempre me deu força nos momentos de desânimo, estresse e cujo carinho e amor foi essencial ao dar um sentido na minha vida. À Mariana Albi de Oliveira Souza, agradeço por me fornecer a programação utilizada no seu relatorio técnico. Ao Thiago Guerrera Martins, pela ajuda dada, mesmo à distancia. A todos meus amigos, e companheiros do DME que compartilharam comigo experiências, momentos de dificuldade e de alegria. Em especial, Mariana, Aniel, Cristian, Pamela, Renata, Larissa, Kelly, Carlos e Arthur. Agradeço a todos meus professores do programa de Pós-Graduação do DME-UFRJ, pelo valioso conhecimento transmitido, pelas maravilhosas aulas e toda a disponibilidade para ajudar. Em especial, aos professores Nei Rocha e Alexandra Schmidt, pelo compartilhamento de conhecimento das aulas didáticas que eles apresentam e fazem você pôr mais vontade de continuar estudando. Ao professor Dani Gamerman, pelo valioso conhecimento transmitido no estágio docente e pela compressão, ajuda nos momentos de dificuldade. Agradeço às professoras Alexandra Schmidt e Glaura da Conceicao Franco, por aceitarem participar da banca e à professora Marina Silva Paez pela posição de suplente na banca. Por fim, agradeço à CAPES por ter financiado e possibilitaram o prosseguimento dos meus estudos. vi

Resumo Nesta dissertação, temos interesse em apresentar procedimentos de inferência Bayesiana na classe de modelos dinâmicos lineares generalizados. Muitas vezes, as distribuições de interesse não são possíveis de serem obtidas analiticamente, sendo necessário utilizar métodos de aproximação, tais como métodos determinísticos e estocásticos. Neste contexto, apresentamos os métodos INLA (Integrated Nested Laplace Aproximation), Linear Bayes (LB) e Monte Carlo via cadeia de Markov (MCMC). Particularmente, objetivamos comparar estes métodos para um modelo dinâmico Poisson com dados artificiais. Os três métodos capturam bem o comportamento da série de dados artificiais, mas o método LB difere do modelo ajustado por MCMC e INLA, pois nestes dois últimos métodos, pressupõe variâncias fixas no tempo e enquanto o LB varia ao longo do tempo e especificadas por meio de fator de desconto. Outra diferença entre os métodos deve-se, a que o LB processa informação em tempo real, já INLA e MCMC produzem inferência condicional a toda informação disponível. Além disso, estes últimos produzem inferência completa para os estados, diferentemente do LB, em que tal inferência resume-se a primeiro e segundo momentos, do vetor de estados. Finalmente analisamos dois conjuntos de dados reais. O primeiro, trata do efeito de poluentes atmosféricos sobre contagem de óbitos de criancas menores de cinco anos por doenças respiratórias, na cidade de São Paulo, usando os modelos Poisson e Poisson inflacionado de zeros. O segundo conjunto de dados trata de efeito de volumes diários de chuva sobre níveis de poluição. Para sua estimação usamos os modelos Gama e Bernoulli. Palavras-Chaves: Métodos Integrated Nested Laplace Approximation, métodos de Monte Carlo via cadeias de Markov, Linear Bayes, modelos de espaço de estados, inferência Bayesiana. vii

Abstract In this work, are interested in presenting procedures for Bayesian inference in the class of generalized linear dynamic models. Often, distributions of interest are not available analytically, approximated methods are needed, such as methods deterministic and stochastic. We present methods Integrated Nested Laplace Aproximation (INLA), Linear Bayes (LB) and Monte Carlo Markov Chain (MCMC). Particularly, we aimed to compare these methods for a dynamic Poisson model with simulated data. The three methods capture the behavior the series of artificial data, but the LB method differs from the adjusted model by MCMC and INLA, since these last two methods, presupposes fixed variances in time and while the LB varies over time and specified by the discount factor. Another difference between the methods is due, LB processes information in real time, already INLA and MCMC processes conditional inference all available information, Moreover, the latter produces full inference to the states, unlike LB, in which such inference comes down to first and second moments of the state vector. Finally we analyze two real data sets. The first deals with the effect of air pollutants on count of deaths of under five children with respiratory diseases in the city of São Paulo,using the Poisson model and inflated Poisson models of zeros. The second set of data deals with effect daily volumes of rain about levels of pollution. For its estimation we use the Gamma and Bernoulli models. Keywords: Method Integrated Nested Laplace Approximation, methods of Monte Carlo Markov chain, Linear Bayes, state-space modeling, Bayesian inference. viii

Sumário 1 Introdução 1 2 Modelos Dinâmicos 5 2.1 Modelos Lineares Dinâmicos.......................... 5 2.1.1 Inferência Para Modelos Lineares Dinâmicos............. 6 2.2 Modelos Lineares Generalizados........................ 7 2.3 Modelos Dinâmicos Lineares Generalizados.................. 8 2.4 Métodos de Aproximação da Posteriori em Modelos Dinâmicos Lineares Generalizados................................. 9 2.4.1 Variações do Filtro de Kalman..................... 9 2.4.2 Aproximação Linear Bayes....................... 10 3 Métodos de Aproximação MCMC e INLA 21 3.1 Método de Aproximação MCMC........................ 22 3.1.1 Amostrador de Gibbs......................... 23 3.1.2 Algoritmo de Metropolis Hastings................... 25 3.2 O Método de Aproximação INLA....................... 27 3.2.1 Parametrização adequada do vetor paramétrico e exploração da grade 29 3.2.2 Aproximação para p(θ y)....................... 31 3.2.3 Aproximação para p(x i θ, y)...................... 32 3.2.4 Algoritmo INLA............................ 33 3.3 Modelo Poisson Dinâmico com dados artificiais, exemplo........... 34 3.3.1 Prioris para os parâmetros fixos.................... 35 ix

3.3.2 Prioris para variaveis gaussianas latentes............... 36 3.3.3 Aproximação Gaussiana para a distribuição Condicional Completa x t 38 3.3.4 Resultados............................... 40 4 Aplicações com Dados Reais 48 4.1 Efeito de Monóxido de Carbono sobre Óbitos de Crianças em São Paulo... 48 4.1.1 Formulação do Modelo Proposto................... 51 4.1.2 Inferência Bayesiana Utilizando INLA................. 55 4.1.3 Escolha do melhor Modelo....................... 59 4.1.4 Resultados para o Modelo 1: Dinâmica no Nível........... 61 4.2 Efeito de Chuva sobre Níveis de material Particulado no Rio de Janeiro... 68 4.2.1 Descrição dos Dados.......................... 68 4.2.2 Modelo Gama............................. 71 4.2.3 Resultados do modelo......................... 71 4.2.4 Modelo Bernoulli............................ 77 4.2.5 Resultados do modelo......................... 77 5 Conclusões 85 A Códigos Usados para Dados Artificiais 87 A.1 Código usado pelo método Linear Bayes................... 87 A.2 Código usado em WinBUGS.......................... 90 A.3 Código usando a Biblioteca INLA....................... 91 B Código Usados aos Dados de Contagem de Óbitos 96 B.1 Código do modelo Poisson Tradicional.................... 97 B.2 Código do modelo Poisson inflação-zeros do tipo 0.............. 98 B.3 Código do modelo Poisson inflação-zeros do tipo 1.............. 98 C Código Referentes aos Dados de Material Particulado 100 C.1 Código do modelo Gama............................ 100 C.2 Código do modelo Bernoulli.......................... 102 x

Capítulo 1 Introdução Nos últimos anos, vários estudos têm evidenciado associação significativa entre a exposição à poluição do ar e eventos adversos à saúde, com foco em exposição de curto prazo. Numerosos estudos epidemiológicos têm encontrado associações positivas entre os poluentes, tais como material particulado (P M 10 ) e monóxido de carbono (CO) e mortalidade ou morbidade, sendo muitas destas associações relacionadas com níveis de poluição que ultrapassam limiares de segurança, veja por exemplo, Vedal S e J. (2003), Dominici F e J. (2002) e Alves et al. (2010). Recentemente, a Agência Internacional de Pesquisas sobre o Câncer (IARC), vinculada à Organização Mundial da Saúde (OMS), classificou a poluição do ar exterior como uma causa de câncer. Estes estudos são tipicamente baseados em dados diários de uma região específica e período de tempo e a análise é efetuada utilizando métodos de regressão de séries temporais. Caso os dados de saúde estejam disponíveis apenas como contagens diárias, no contexto epidemiológico, o modelo Poisson linear generalizado e modelos aditivos são o método padrão de análise. Pode-se ter interesse, ainda, na modelagem do nível diário de certo poluente atmosférico, podendo-se utilizar para tal fim, por exemplo, um modelo Gama linear generalizado. Um outro interesse, no mesmo contexto, pode ser a explicação de uma resposta binária, como por exemplo, a ultrapassagem de um limiar de segurança, por um certo poluente atmosférico. Na literatura estatística, muitos modelos são construídos sob a suposição de normalidade da variável resposta. Alternativas são necessárias para o tratamento de dados que não satisfaçam essa restrição. Como descrito por Alves (2006), Nelder e Wedderburn (1972) 1

propuseram uma classe, denominada modelos lineares generalizados (MLG), permitindo que a distribuição da variável resposta pertença à família exponencial. A função de reposta média relaciona-se a um preditor linear por meio de uma transformação monótona e diferenciável, conhecida como função de ligação. Apesar da grande flexibilização permitida pelos MLGs - se comparados aos tradicionais modelos lineares - estes ainda supõem independência da variável resposta sobre diferentes unidades observacionais. Por outro lado, os modelos dinâmicos lineares (MDL) West e Harrison (1997), que são um caso particular da classe de modelos de espaço de estados, Franco et al. (2009) pressupõem normalidade da variável resposta, mas tratam formalmente a autocorrelação típica de dados de série temporal, ao permitir evolução aos parâmetros que controlam o preditor linear. A evolução desses parâmetros é tipicamente descrita por relações estocásticas markovianas. West et al. (1985) estendem tanto os MLGs quanto os MDLs, ao combinar uma estrutura observacional não necessariamente Gaussiana - mais especificamente, pertencente à família exponencial, como nos MLGs - a uma estrutura de evolução dinâmica para os parâmetros, como nos MDLs. Do ponto de vista de realização de inferência bayesiana, a classe de modelos dinâmicos lineares generalizados apresenta dificuldades, pois não é possível a obtenção anaĺıtica de distribuição a posteriori de todas as quantidades latentes de interesse. Há várias alternativas na literatura para aproximação ou resumo da distribuição a posteriori nesse contexto. Na década de 80, eram primordialmente utilizadas aproximações determinísticas, que se tornam mais complexas à medida em que a dimensão do vetor paramétrico aumenta. West et al. (1985) propõem a metodologia linear bayes para realização de inferência em MDLGs. Sua abordagem baseia-se na adoção de uma distribuição a priori conjugada para a resposta média e a avaliação incompleta das distribuições a priori e a posteriori do vetor de estados, apenas em termos de momentos de primeira e segunda ordens, evitando assim esforço computacional para integração ou otimização. Além do reduzido tempo computacional, permitindo realização de inferência em tempo real, outra vantagem do método é a obtenção de distribuições preditivas com forma anaĺıtica fechada, devido a propriedades de conjugação da família exponencial (Migon e Gamerman 1999, pp 62-70). A perda em relação a métodos que exigem maior esforço computacional, como MCMC, reside no fato de não se obter a distribuição a posteriori para o campo latente de forma completa, mas apenas sua média e matriz de covariância, o 2

que permite a obtenção de estimativas intervalares. No método linear Bayes, todo o ciclo de inferência é baseado no conhecimento de hiperparâmetros ou na sua especificação por meio de alguma racionalização, como por exemplo o uso de fatores de desconto (West e Harrison 1997, pp 193-202), para especificação de variâncias/covariâncias evolucionais. A especificação desses fatores pode não ser trivial. Fahrmeir (1992), por outro lado, apresenta uma generalização do filtro de Kalman estendido em modelos dinâmicos lineares generalizados multivariadas, para estimar os parâmetros de estado através de modas a posteriori. A partir da década de 90, com avanços computacionais, métodos aproximados baseados em simulação - em particular os métodos de Monte Carlo via cadeias de Markov (MCMC), detalhados em Gamerman e Lopes (2006) - dominaram o cenário de aproximações para distribuições a posteriori, nos casos em que estas são analiticamente intratáveis. Tais métodos buscam, a partir de núcleos de transição convenientes, a construção iterativa de uma cadeia de Markov homogênea, irredutível, ergódica, que tenha como distribuição estacionária a posteriori de interesse. No caso dos modelos de espaço de estados, que pressupõem correlação temporal entre seus parâmetros, a convergência de métodos MCMC para a distribuição estacionária pode ser bastante lenta. Devido ao elevado custo computacional dos métodos MCMC no contexto abordado, buscase alternativas a estes, de forma a tornar a realização de inferência bayesiana aproximada mais rápida e eficiente. Tem despertado grande interesse o trabalho de Rue et al. (2009), propondo a realização de inferência bayesiana por meio de aproximações determinísticas para modelos de espaço de estados com campos latentes Gaussianos, ou seja, aqueles em que se supõe que a evolução estocástica dos parâmetros de estado é ditada por uma distribuição Gaussiana (mas a resposta, não necessariamente). Os autores relatam a obtenção de estimativas acuradas de hiperparâmetros e do campo latente, com tempos computacionais bastante reduzidos, em comparação a longas cadeias obtidas via MCMC. Resende (2011) propõe uma extensão desse método para modelos de espaço de estados com campos latentes não Gaussianos, apresentando a base teórica da proposta, entretanto relata problemas computacionais que impediram a exemplificação do método ali proposto. No presente trabalho, propomos uma comparação do método Linear Bayes, MCMC e 3

aproximação determinística, como sugerem Rue et al. (2009), a duas aplicações de interesse no contexto de epidemiologia ambiental. Este documento está organizado da seguinte forma: no capítulo 2, é apresentada a estrutura dos modelos dinâmicos lineares generalizados e discute-se as dificuldades relacionadas à sua estimação, sob abordagem bayesiana e os métodos de aproximação da distribuição a posteriori em MDLG, como o Linear Bayes. Já os métodos MCMC e INLA são descritos no capítulo 3, isto devido à importância neste trabalho, apresentando um exemplo de aplicão a dados Poisson artificialmente gerados, com base em um preditor estruturado em termos de um nível e uma covariável (CO) com efeito dinâmico. As estimativas obtidas via INLA são comparadas aquelas obtidas com os métodos LB e MCMC. No capítulo 4, apresentam-se dois conjuntos de dados reais com a metodologia descrita. Na seção 4.1 apresenta-se um modelo de regressão dinâmica Poisson, em que se busca descrever o impacto de poluentes atmosféricos e variáveis climáticas sobre desfechos epidemiológicos, com diferentes estruturas preditivas. Na seção 4.2 é apresentado um modelo Gama para quantificar o efeito cumulativo de volumes diários de chuva sobre o níveis de material particulado e em seguida o modelo com resposta Bernoulli, para analisar fatores associados á ultrapassagem de um limiar de segurança no nível de material particulado. O capítulo 5 conclui este trabalho. 4

Capítulo 2 Modelos Dinâmicos 2.1 Modelos Lineares Dinâmicos Na literatura bayesiana, os Modelos Lineares Dinâmicos (MLD) são conhecidos também como modelos de espaço de estados. Tais modelos foram introduzidos por Harrison e Stevens (1976), estão bem documentados em West e Harrison (1997) e constituem uma ampla classe paramétrica, com parâmetros variando no tempo, em que tanto a variação dos parâmetros quanto a informação a respeito de quantidades observáveis são descritas de uma forma probabiĺıstica. Os modelos lineares dinâmicos possuem estrutura hierárquica e são uma metodologia flexível para tratar problemas em análises de séries temporais, caracterizando-se através das seguintes equações: Y t = F tx t + v t, v t N(0, V t ) (2.1a) x t = G t x t 1 + ω t, ω t N(0, W t ),, (2.1b) em que para t = 1,..., Y t = (y 1, y 2,..., y n ) é o vetor de observações; x t é um vetor p dimensional denominado vetor de estados; F t é uma matriz de p n de variáveis regressoras ou variáveis explicativas, cujos elementos são conhecidos; G t é uma matriz quadrada de ordem p que descreve a evolução dos parâmetros de estado no tempo. As matrizes de covariância V t e W t, de ordem n e p, estão associadas ao erro observacional v t e ao erro de evolução dos estados ω t, respectivamente. Assume-se que os erros v t e ω t, sejam serial e mutuamente independentes. O modelo completa-se com uma densidade a priori (x 1 D 0 ) 5

N(a, R), em que D 0 denota a informação inicial disponível ao analista. O modelo descrito em (2.1) é completamente especificado pela quádrupla {F t, G t, V t, W t } e de uma distribução a priori assumida para os parâmetros de estados. A equação (2.1a) é denominada equação da observação e relaciona o vetor de observações e componentes estruturais (como nível, tendência, sazonalidade etc.), tendo a forma de uma regressão multivariada e a equação (2.1b) é denominada equação de estados ou do sistema, responsável pela evolução do vetor de coeficientes de regressão (ou parâmetros de estado) ao longo do tempo. De acordo com Migon et al. (2005), modelos dinâmicos podem ser vistos como uma generalização de modelos de regressão, permitindo alterações nos valores de parâmetros ao longo do tempo, por meio da introdução de uma equação que rege a evolução temporal da coeffcientes regressão. 2.1.1 Inferência Para Modelos Lineares Dinâmicos Seja Y o vetor de obsevações e x o vetor de parâmetros. De acordo com o paradigma bayesiano, assume-se uma distribuição a priori p(x) 1, a qual representa a incerteza inicial acerca do vetor de parâmetros, antes de que Y seja observado, e a função de verossimilhança do modelo, p(y x). A especificação de p(x) e p(y x) fornece um modelo probabiĺıstico, p(y, x) = p(y x)p(x). Tendo observado os dados Y que contêm informação acerca de x, pode-se usar Y para atualizar a informação acerca de x. Através do teorema de Bayes, encontra-se a distribução a posteriori de x, que contém toda informação probabiĺıstica de interesse sobre x, dada por p(x Y ) = p(y x)p(x) (2.2) p(y x)p(x)dx Em modelos lineares dinâmicos, a inferência segue os passos usuais em inferência bayesiana e é realizada en forma sequencial, combinando duas operações principais: evolução para construir, a cada instante, a priori e atualização, para incorporar a nova observação no tempo t. Seja D t = D t 1 y t a informação disponível no instante t. Então, para cada tempo t, a distribuição a priori, preditiva a um passo e posteriori são, respectivamente: 1 De fato, p(x D 0 ), mas para simplicidade de notação, omitimos o condicionamento no conjunto inicial de informação, D 0. 6

p(x t D t 1 ) = p(y t D t 1 ) = p(x t x t 1 )p(x t 1 D t 1 )dx t 1 (2.3) p(y t x t )p(x t D t 1 )dx t (2.4) p(x t D t ) p(y t x t )p(x t D t 1 ), (2.5) sendo a equação (2.5) obtida via teorema de Bayes. Essa forma simplificada do teorema de Bayes será útil em problemas que envolvam estimação de parâmetros, já que o denominador é apenas uma constante normalizadora, às vezes facilmente obtida. Isso ocorre, em particular, no caso em que (F, G, V, W) são todos conhecidos e assumido-se normalidade dos erros. O algoritmo resultante, neste caso, é conhecido como filtro de Kalman (Anderson e Moore, 1979). Em geral, o medelo descrito em (2.1) é completamente especificado pela quádrupla {F t, G t, V t, W t } e de uma distribução a priori assumida para os parâmetros de estados. Mas, geralmente, V t, W t e em alguns casos elementos de F t e G t não são conhecidos, o que implica que a inferência não pode ser feita de forma anaĺıtica. Estas quantidades desconhecidas são chamadas de hiperparâmetros. 2.2 Modelos Lineares Generalizados A classe dos modelos lineares tem por objetivo analisar a influência de covariáveis em uma determinada variável resposta através de uma relação linear nos parâmetros que governam os impactos de tais regressoras. Uma suposição usual, porém frequentemente inadequada, é a de que as variáveis resposta a serem modeladas seguem distribuição Normal. Uma extensão dos modelos lineares permite modelar observações descritas por membros da família exponencial. Esta classe de modelos é conhecida como Modelos Lineares Generalizados (MLG), introduzida por Nelder e Wedderburn (1972). A ideia básica consiste em ampliar a gama de opções para a distribuição da variável resposta, sendo a mesma pertencente à família exponencial, por um conjunto de covariáveis independentes, às quais é aplicada uma estrutura linear e dar flexibilidade para a relação funcional entre a média da variável resposta e o preditor 7

linear. A média passa a ser relacionada a um preditor linear após passar por uma transformação monótona e diferenciável, denominada função de ligação g. Considere-se Y t, para cada t = 1,..., T, a variável resposta e F t o vetor de covariáveis no instante t. A estrutura para o modelo linear generalizado univariado é dada por: p(y t η t, φ) = exp[φ {y t η t a(η t )}]b(y t, φ), (2.6) em que η t é o parâmetro natural da distribução de y t, satisfazendo e φ é denominado parâmetro de escala. E[Y t η t, φ] = µ t = ȧ(η t ) (2.7a) V [Y t η t, φ] = ä(η t )/φ (2.7b) Um modelo linear generalizado é composto pela estrutura observacional (2.6), combinada a um preditor linear λ t, determinado por um vetor (p 1) de regressoras conhecidas F t : g(η t ) = λ t = F tx, (2.8) sendo x um vetor latente de parâmetros a estimar, de ordem (p 1), e g(.) uma função de ligação monótona e diferenciável. O modelo completa-se com a hipótese de que os Y t s, condicionalmente a η t, t = 1,..., T e φ, sejam independentes e identicamente distribuídos. 2.3 Modelos Dinâmicos Lineares Generalizados West et al. (1985) formalizaram uma extensão dos modelos lineares dinâmicos (MLD) para observações que pertençam à família exponencial, baseados no modelo linear generalizado de Nelder e Wedderburn (1972), fazendo possível a utilização destes modelos para variados tipos de problemas. Os modelo dinâmicos lineares generalizados (MDLG) contornam a restrição gaussiana do modelo linear e atribuem tratamento formal à autocorrelação serial, ao substutituir a especificação do preditor linear em termos de quantidades latentes x estáticas, como em (2.8), pela dinâmica: g(η t ) = λ t = F tx t, (2.9) 8

adicionando ainda à formulação do modelo uma equação de evolução ou sistema, descrevendo a forma de atualização do campo latente dinâmico: x t = G t x t 1 + ω t, ω t N[0, W t ], (2.10) em que G t é uma matriz de transição, suposta conhecida e de ordem (p p) e W t a matriz de covariâncias de ordem (p p), associada aos erros de evolução, ω t, dos estados ou campo latente x t. No caso de MLGD as integrais em (2.3),(2.4) e (2.5) não podem ser obtidas analiticamente, e assim a inferência não pode ser feita de forma exata. Muitas propostas para resolver este problema têm sido apresentadas na literatura. Nas subseções seguintes apresentam-se algumas delas. 2.4 Métodos de Aproximação da Posteriori em Modelos Dinâmicos Lineares Generalizados Modelos dinâmicos introduzidos na seção 2.1.1 permitem a inferência completa apenas quando o F t, G t e W t são totalmente conhecidas e, ainda, sob suposição de normalidade dos erros. Em geral, quando estas quantidades ou outras quantidades são desconhecidas (hiperparâmetros) e a inferência sobre eles devem basear-se na distribuição a posteriori, essa distribuição não tem solução anaĺıtica. No que segue apresentamos uma revisão de alguns métodos adotados para aproximações de distribuições a posteriori para os MLGD. 2.4.1 Variações do Filtro de Kalman Fahrmeir (1992) apresenta uma generalização do filtro de Kalman estendido em modelos dinâmicos lineares generalizados multivariado, para estimar os parâmetros de estado através da moda a posteriori. O algoritmo é aplicado sequencialmente e proporciona uma aproximação da moda a posteriori. A utilização do estimador da moda a posteriori, é apenas para evitar a integração 9

numérica. Para estimar o hiperparâmetro é proposto um procedimento baseado em um algoritmo tipo-em, Junger (2002). Para estimar os parâmetros de espaço de estado, Singh e Roberts (1992) propuseram uma aplicação iterativa do filtro Kalman linear a modelos dinâmicos lineares generalizados, modificando a equação observacional (2.6) por: ỹ t = F tx t + ṽ t, ṽ t N(0, Ṽt), (2.11) em que ỹ t são observações modificadas, dadas por uma aproximação linear das observações, segundo: ỹ t = η t + (y t µ t )ġ(µ t ) (2.12) e com variâncias associadas: Ṽ t = Ṽt(x t ) = ä φ t (η t )[g (µ t )] 2 (2.13) com ġ e ä indicando a primeira e a segunda derivada das funções g e a, respectivamente. Estas observações e variâncias modificadas são definidas a cada iteração usando os valores de x t estimados em iterações anteriores, pelo filtro de Kalman. Singh e Roberts (1992) estimam W t = W utilizando uma abordagem baseada em momentos. Fahrmeir (1997) também trabalhou na obtenção da moda a posteriori dos parâmetros de estado para MLGD multivariado. Eles mostraram que o algoritmo proposto por Singh e Roberts (1992) leva à moda a posteriori dos parâmetros de estado condicionado em um valor fixo W. Eles também mostraram que a generalização do filtro de Kalman estendido de Fahrmeir (1992) é um caso especial deste algoritmo com apenas uma iteração e uma escolha conveniente dos valores iniciais. Eles sugerem a utilização de um procedimento com base no critério de validação cruzada generalizada para estimar hiperparâmetros. 2.4.2 Aproximação Linear Bayes West et al. (1985) propuseram uma aproximação baseada em linear Bayes. Esta ideia foi também descita por Migon e Harrison (1985) dentro do contexto de modelos não-lineares 10

dinâmicos normais e é um dos métodos aplicados neste trabalho, portanto passamos a descrevê-lo mais detalhadamente. Suponha-se que o modelo de amostragem no tempo t tem a forma (2.6) e admita-se que uma distribuição a priori conjugada, denotada por (η t D t 1 ) CP [r t, s t ] seja adotada para o parâmetro natural ou canônico η t p(η t D t 1 ) = C(r t, s t )exp [r t η t s t a(η t )] (2.14) para algum par r t e s t. A extensão dinâmica natural de um modelo linear generalizado pressupõe g(η t ) = λ t = F tx t, mas tal especificação imporia severas restrições à priori de η t. Ao invés disso, West et al. (1985) utilizam a ligação entre g(η t ) e λ t apenas como um guia para formar a priori para η t, passando a denotar tal relação guia por g(η t ) λ t. Ainda, suponha-se que as distribuições a priori e a posteriori do vetor de estados agora não sejam necessariamente normais, mas que, por analogia ao modelo Gaussiano, sejam especificadas apenas pelos momentos de primeira e segunda ordens do vetor de estados x t, dadas por (x t 1 D t 1 ) [m t 1, C t 1 ], (2.15) (x t D t 1 ) [a t, R t ], (2.16) em que: a t = G t m t 1 and R t = G t C t 1 G t + W t. (2.17) Nesse ponto, os autores sugerem o uso de fatores de desconto para contornar o problema de especificação ou estimativa de W t. A ideia de fatores de desconto é especificar uma quantidade que descreva a perda do valor de observações passadas para a inferência a cada instante. Mais especificamente, segundo West e Harrison (1997), observando-se que V [x t 1 D t 1 ] = C t 1 e V [x t D t 1 ] = G t C t 1 G t + W t, denotando-se a primeira parcela no lado direito da equação acima por P t, tem-se R t = P t + W t (2.18) 11

e W t, portanto, representa a inflação na incerteza ao se passar do instante t 1 ao instante t, condicionalmente ao mesmo conjunto de informação, D t 1. Assim, tomando-se 0 < δ 1, tal inflação poderia ser representada por Igualando-se (2.18) e (2.19), tem-se R t = P t δ. (2.19) W t = 1 δ P t. δ Portanto, condicional a P t e arbitrando-se δ, W t fica completamente especificada. West e Harrison (1997)[pp. 196-8] estendem essa ideia, permitindo especificação de diferentes fatores de desconto δ j para cada bloco estrutural em um preditor, permitindo trajetórias mais suaves (δ j 1) ou mais voláteis, como em West et al. (1985), que definem uma matriz diagonal 1 B t, de dimensão p p, cujos elementos são, 0 < δ j 1, j = 1,..., p. δj Logo, reescrevendo (2.17), temos a t = G t m t 1 and R t = B t G t C t 1 G tb t, (2.20) com a matriz de transição G t e matriz de descontos B t conhecidos. Note-se que a representação (2.10) pode ser utilizada, mas evidentemente, ω t não é necessariamente normal. Além disso,a distribuição completa do vetor de estados não é especificada; apenas a média e matriz de covariância são assumidas. g(η t ) = λ t = F tx t é dada por em que Finalmente, a distribuição a priori para λ t D t 1 [f t, q t ], (2.21) f t = E [λ t D t 1 ] = F ta t, q t = V [λ t D t 1 ] = F tr t F t, e S t = C [λ t, x t D t 1 ] = R t F t. Neste ponto, a priori para o parâmetro natural η t está apenas parcialmente especificada, tendo a forma (2.14), sem qualquer restrição sobre os valores de r t e s t. Estes valores são 12

escolhidos com base na relação g(η t ) λ t, que fixa os dois primeiros momentos de g(η t ) determinando r t e s t. A relação guia sugere os valores de f t e q t, para estes momentos e S t, para a covariância entre g(η t ) e x t. Com base nessa especificação, é imediato que a distribuição preditiva tem a forma: p(y t D t 1, φ) = c(r t, s t ) c(r t + φy t, s t + φ) b(y t, φ), (2.22) podendo ser diretamente obtida, e a distribução a posteriori para (η t D t ) é a congujada atualizada da forma η t D t CP (r t + φy t, s t + φ). Uma análise bayesiana completa requer também a posteriori para (x t D t ), mas esta não está disponível porque a priori para (x t D t 1 ) é apenas parcialmente especificada e o modelo não fornece verossimilhança para x t. O modelo desenvolvido até agora, no entanto, não requer a especificação completa para prosseguir para o tempo (t + 1), apenas a média e matriz de covariância de (x t D t ) são necessárias e estas satisfazem as identidades m t = E [E [x t η t, D t ]] (2.23) e C t = V [E [x t η t, D t ]] + E [V [x t η t, D t ]] (2.24) Além disso, assim como no caso normal, (x t η t, D t ) é condicionalmente independente de I t = {Y t, F t }, e como D t = {I t, D t 1 }, tem-se que os momentos condicionais nas esperanças internas em (2.23) e (2.24) são (x t η t, D t 1 ). Em geral, estes momentos serão desconhecidos, funções não lineares de η t, sendo a única informação disponível aquela que diz respeito aos momentos conjuntos de (g (η t ), x t D t 1 ), g (η t) D t 1 f t, q t S t, (2.25) x t a t S t R t onde a matriz de covariância completa é singular. Na base desta informação por si, uma abordagem alternativa é necessária para que a informação em I t possa ser filtrada de volta para x t. 13

Atualização do campo latente O método linear Bayes pode ser aplicado no modelo anterior para fornecer feedback das informações em I t para x t. A densidade de p(x t η t, D t 1 ) é a distribuição desconhecida preditiva de x t, dado η t ; a média é o preditor ótimo, no sentido de minimizar o traço da função de risco quadrática [A t (d)] em relação a d, em que: A t (d) = E [ (x t d) (x t d) ] η t, D t 1. (2.26) A matriz de covariância da distribuição é o valor de A t (d) na média. Agora, uma vez que a média é desconhecida, um preditor alternativo é procurado através da abordagem linear Bayes. Tendo em vista a relação (2.9) e a construção de η t, é natural que se adote uma função linear de g(η t ) como preditor de x t. Especificamente, suponha que d deva ser escolhido de tal modo que d = d 0 + d 1 g(η t ) para algum d 0 e d 1 e que, em vez de (2.26), d minimize o risco global quadrático (ou soma de variâncias) dado por r t (d) = traçoe [A t (d) D t 1 ], onde a esperança é com relação a p(η t D t 1 ). Neste modelo, os momentos conjuntos (2.25) são suficientes para determinar o preditor requerido. Diretamente minimizando r t (d) em relação a d 0 e d 1, obtém-se um único mínimo em d = â t, onde o valor de E [A t (d) D t 1 ] no mínimo é dado por â t = a t + S t (g (η t ) f t ) /q t (2.27) R t = R t S t S t/q t (2.28) Os valores â t e R t, fornecem um preditor linear ótimo de x t η t, D t 1 e a medida do risco associado é um problema não linear. A alimentação da informação de I t, pode agora ser completada substituindo-se a média condicional e matriz de covariância em (2.23) e (2.24) por â t e R t para se obter o preditor esperado e risco, dados por: 14

m t =a t + S t (g t f t ) /q t C t =R t S t S t (1 p t /q t ) /q t, onde g t = E [g (η t ) D t ] e p t = V [g (η t ) D t ] são calculadas pela posteriori conjugada de (η t, D t ). Modelo Poisson Dinamico No capítulo 3, o método proposto por West et al. (1985) será aplicado a contagens epidemiológicas. Suponha-se, em particular, que tais observações sigam uma distribuição Poisson com média λ t. O modelo é definido pelas seguintes quatro componentes: equação de observação, distribuição a priori, função de ligação e a evolução de estados. Considere os seguintes componentes essenciais do análise para o modelo dinâmico Poisson: Modelo observacional y t P oisson(λ t ) p(y t λ t ) = exp [y t log(λ t ) λ t ] 1 y t!, (2.29) em que φ = 1, η t = logλ t com η t parâmetro natural e a(η t ) = λ t = e ηt, sendo a média e variancia E[y t η t, φ] = µ t = a (η t ) = e ηt respectivamente. = λ t e V [y t η t, φ] = a (η t )/φ = e ηt Priori para (η t D t 1 ) CP [r t, s t ]. No caso Poisson, especificamos uma priori log-gama para η t, ou seja, uma priori Gama para λ t : λ t D t 1 CP [r t, s t ] = gama(r t, s t ) O par (α t, β t ) é deduzido usando propriedades da família exponencial. A função de ligação e a equação do sitema: η t = log(λ t ) = F t x t x t = G t x t 1 + w t [0, W t ], 15

A fim de iniciar o procedimento de estimação seqüencial precisamos a informação inicial de x 0. Informação inicial: (x 0 D 0 ) (m 0, C 0 ), A natureza sequencial de modelos dinâmicos é conseguida através da ciclagem de três passos: evolução, equalização dos parâmetros e atualização, a partir de t = 1,, T. As distribuições são apenas parcialmente especificadas em termos de seus momentos. Para um determinado tempo t, os passos (1)-(3) são descritos a seguir. 1. Evolução: Prioris para o parâmetro de estado e do preditor linear: x t D t 1 [a t, R t ] η t D t 1 [f t, q t ] Priori para λ t : já que o parâmetro λ t > 0 é real positivo, uma escolha natural para a priori é a família gama: (λ t D t 1 ) CP [r t, s t ] = gama(r t, s t ), em que r t, s t > 0. Os seus dois primeiros momentos são conhecidos e serão utilizados na solução de um sistema não linear simples, a fim de obter os valores dos parâmetros (r t, s t ) consistentes com (f t, q t ), os momentos de (η t D t 1 ). Os detalhes sobre a solução do sistema não-linear são descritos no próximo passo. 2. Equalização dos parâmetros: Considerando-se que o preditor linear está relacionado com a média da distribuição observacional por meio de uma função de ligação, alguma aproximação é necessária para determinar os hiperparâmetros r t e s t da distribuição a priori de λ t. Da priori de (η t D t 1 ) e a transformação η t = log(λ t ) obtemos a priori (λ t D t 1 ) como uma distribuição gama, isto é (λ t D t 1 ) = gama(r t, s t ) com densidade 16

p(λ t D t 1 ) = srt t Γ(r t ) λrt 1 exp ( s t λ t ), O par (r t, s t ) é deduzido usando propriedades da família exponencial, isto é, [ ( s r t )] t p(λ t D t 1 ) = exp (r t 1)log(λ t ) s t λ t + log Γ(r t ) e η t = log(λ t ), então temos: com p(η t D t 1 ) = exp r t log(λ t ) }{{} s t λ }{{} t η t exp(η t) ( s r t ) t +log Γ(r t ) T = (T 1 (λ t ), T 2 (λ t )) = (logλ t, λ t ) b(r t, s t ) = r t log(s t ) + logγ(r t ). Então, E[T 1 ] = b r t = log(s t ) + ψ(r t ) E[T 2 ] = b = r t s t s t V [T 1 ] = 2 b = ψ (r rt 2 t ) V [T 2 ] = 2 b = r t Cov[T 2 ] = s 2 t s 2 t 2 b s t r t = 1 s t, com ψ(z) a função digamma, definida por ψ(z) = dlog(γ(z)) dz e ψ (z) = dψ(z), a função dz trigamma (Abramowitz e Stegun (1964)). Da teoria associada à família exponencial, temos 17

f t = E[η t D t 1 ] = E[log(λ t ) D t 1 ] = E[T 1 ] = log(s t ) + ψ(r t ) q t = V [η t D t 1 ] = V [log(λ t ) D t 1 ] = V [T 1 ] = ψ (r t ) Com base na avaliação da média e variância de log(λ t ) e uma aproximação numérica da função digamma dada por ψ(z) log(z) e ψ (z) z 1 segundo Abramowitz e Stegun (1964), temos f t log(s t ) + log(r t ) = log ( rt s t ) (2.30) q t 1 r t (2.31) Resolvendo as equações (2.33) e (2.31), temos r t = 1 q t, ( ) ft s t = exp q t (2.32) com isso temos a priori conjugada para λ t é completamente especificada e (η t D t 1 ) [ ( ) r f t = log t s t, q t = 1 r t ]. 3. Distribuição preditiva um passo à frente: A distribuição incondicional da distribuição preditiva um passo à frente é obtida através da integração de λ t : 18

p(y t D t 1 ) = p(y t, λ t D t 1 )dλ t = p(y t λ t, D t 1 )p(λ t D t 1 )dλ t p(y t D t 1 ) = 1 y t! exp( λ t)λ yt t s rt t Γ(r t )y t! s rt t s rt t λ rt 1 t Γ(r t ) e stλt dλ t λ (yt+rt) 1 t e (st+1)λt dλ t Γ(r t )y t! Γ(y t + r t ) t, então yt+rt (1 + s t ) ( Γ(y t + r t ) t st Γ(y t + 1)Γ(r t ) s t + 1 ) rt ( 1 s t + 1 ) yt, que é uma distribuição binomial negativa, denotada por y t D t 1 Bin neg ( ) 1 r t, s t+1. A média e a variância da distribuição preditiva podem ser calculadas usando esperanças condicionais, isto é, 4. Atualização: E(y t D t 1 ) = E (E(y t λ t ) D t 1 ) = r t s t V (y t D t 1 ) = E (V (y t λ t ) D t 1 ) + V (E(y t λ t ) D t 1 ) = r t(s t + 1). s 2 t Posteriori para λ t : A distribuição posterior de λ t é obtida usando o teorema de Bayes. Seja p(λ t D t ) = p(y t λ t, D t 1 )p(λ t D t 1 ) p(y t D t 1 ) p(y t λ t, D t 1 )p(λ t D t 1 ) 1 y t! exp( λ s rt t)λ yt t λ rt 1 t t Γ(r t ) e( s tλ t ) s rt t Γ(y t + 1)Γ(r t ) λyt+rt 1 t exp( (s t + 1)λ t ) que é a distribuição gama, denotada por λ t D t gama (y t + r t, s t + 1). Da teoria associada à família exponencial e por analogia, o cálculo de g t e p t que são a média e a variância a posteriori do preditor linear η t, respectivamente, temos 19

g t = E[η t D t ] = E[log(λ t ) D t ] = log(s t + 1) + ψ(y t + r t ) p t = V [η t D t ] = V [log(λ t ) D t ] = ψ (y t + r t ), que podem ser calculados recursivamente, pois: ψ(z) = ψ(z + 1) z 1 ψ (z) = ψ (z + 1) + z 2. Utilizando a aproximação numérica da função digamma dada por ψ(z) log(z) + (2z) 1 e ψ (z) 1 z 1 2z 2 segundo Abramowitz e Stegun (1964), temos g t = log(s t + 1) + ψ(y t + r t ) 1 log(s t + 1) + log(y t + r t ) + 2(y t + r t ) ( ) yt + r t 1 = log + s t + 1 2(y t + r t ) 1 p t = ψ (y t + r t ) (y t + r t ) 1 2(y t + r t ) 2 = 2(y t + r t ) 1 2(y t + r t ) 2 Atualização dos estados: A distribuição conjunta de x t e η t é parcialmente especificada e obtida a partir dos resultados anteriores. O método de estimação linear bayesiana West e Harrison (1997) podem ser utilizados para obter x t D t [m t, C t ]. com m t = a t + S t (g t f t )/q t e C t = R t S t S t(1 p t /q t )/q t. Transição de estado: a t = G t m t 1 e R t = B t G t C t 1 G tb t. Outros métodos de aproximação de inferência bayesiana são os métodos de simulação estocástica, em particular os métodos de Monte Carlo via Cadeias de Markov (MCMC) e o método determinístico Integrated Nested Laplace Approximation (INLA). Estos métodos são centrais nesta dissertação e são desenvolvidos de forma mas detalhada no capítulo 3. 20

Capítulo 3 Métodos de Aproximação MCMC e INLA Neste capítulo, descrevemos os métodos de aproximação MCMC e INLA para realizar inferência bayesiana completa em uma classe de modelos de espaço de estados. Em termos gerais os métodos de Monte Carlo via Cadeias de Markov (MCMC), baseados em simulaçaõ estocástica que estão relacionados ao processo de obtenção de amostras da distribuição a posteriori para sumarizar informação e que são descritos de forma detalhada por Gamerman e Lopes (2006). Por outro lado o método de aproximação determinístico, Integrated Nested Laplace Approximation (INLA), proposto por Rue et al. (2009), combinando aproximações Laplace e integração numérica tornando este método eficiente (ver Rue e Martino (2007), Rue et al. (2009), para um tratamento mais extenso). O método de aproximação INLA, calcula diretamente aproximações muito precisas para as marginais a posteriori de interesse, não passando por atualização recursiva, como métodos baseados em variações do filtro de Kalman ou por procedimento iterativo, como métodos MCMC. Em comum com esses últimos, o INLA fornece a posteriori dos estados e hiperparâmetros com respeito a toda a amostra observada, mas seu principal benefício é o tempo computacional reduzido, em comparação a métodos MCMC. Os métodos MCMC, em contrapartida, aplicam-se a classes mais abrangentes, não sujeitas às imposições descritas a seguir sobre a forma dos modelos tratáveis via INLA. Na seção 3.1 apresentamos o método MCMC e na seçaõ 3.2 apresentamos a metodologia 21

INLA, e para a ilustração dos métodos, exibimos uma aplicação com dados artificias, em que a variável resposta não-gaussiana segue uma distribuição Poisson. No dado artificial, apresentamos comparação entre os métodos INLA, MCMC e Linear Bayes (LB) comentando restrições do LB em relação aos demais, e ganho de eficiência computacional ao se usar o método INLA, ao invés de MCMC. 3.1 Método de Aproximação MCMC Em modelos dinâmicos, como vimos no capítulo anterior, no caso que F t,g t,w t são totalmente conhecidas, sob normalidade dos erros e se uma forma conjugada é imposta a V t = V, t, então tem-se inferência bayesiana completa, de forma anaĺıtica. É natural assumir-se, entretanto, que W t seja desconhecida. Uma alternativa é a especificação de W t por meio de fatores de desconto, como descrito na seção anterior, mas pode-se ter interesse na estimação de W t ou de quantidades desconhecidas em F t e G t. Ainda, a suposição de normalidade dos erros pode não ser válida. Nesse caso, não há forma anaĺıtica fechada para distribuições a priori, preditiva e posteriori. Em particular, no caso MDLG, devido à verossimilhança construída com base na família exponencial, associada a prioris não conjugadas, não se obtém forma fechada para a densidade a posteriori de diversos parâmetros, ao contrário do que ocorre nos modelos dinâmicos normais Alves (2006). Em inferência bayesiana, os problemas não solucionados analiticamente podem ser resolvidos usando métodos de simulação que estão relacionados ao processo de obtenção de amostras de distribuições a posteriori. Os métodos de Monte Carlo via Cadeias de Markov (MCMC) são métodos de simulação estocástica, amplamente utilizados na inferência bayesiana nas duas últimas décadas, quando se tem interesse em simular amostras de uma determinada distribuição a posteriori, a qual não possui forma anaĺıtica conhecida. A idéia básica do método MCMC consiste em construir uma cadeia de Markov que, por meio de escolhas adequadas de núcleos de transição, tenha como distribuição estacionária a distribuição de interesse: no contexto bayesiano, a distribuição a posteriori. Tais métodos requerem ainda que a cadeia de Markov seja homogênea (as probabilidades de transição de 22

um estado para outro são invariantes), irredutível (cada estado pode ser atingido a partir de qualquer outro em um número finito de iterações) e aperiódica(não haja estados absorventes), cuja distribuição estacionária seja igual à distribuição de interesse. Uma vez que a convergência da cadeia tenha sido atingida, as amostras estarão sendo geradas da distribuição estacionária. A principal vantagem desta abordagem é a possibilidade de se fazer a análise bayesiana completa, o que significa tratamento formal da incerteza devida ao fato de que os hiperparâmetro θ são desconhecidos, sendo possível integrar θ a fim de apresentar inferência sobre (x 1,, x T ). Além disso, a estimação pontual e a estimação por intervalo de θ podem ser feitas com base na distribuição a posteriori. Quando a distribuição condicional completa de um parâmetro de interesse está disponível para amostragem, usualmente adota-se o amostrador de Gibbs, caso particular de algoritmo MCMC, descrito a seguir. Em MDLGs, entretanto, não se consegue amostrar a condicional completa de x t. Existem algumas propostas de implementação do amostrador de Gibbs para casos particulares e o algoritmo Metropolis Hastings é indicado para as aplicações em geral, tais algoritmos serão apresentados na subseções seguintes. Detalhes sobre métodos MCMC podem ser vistos em Gamerman e Lopes (2006). A difusão da aplicação destes métodos foi iniciada com o trabalho de Gelfand e Smith (1990), no qual foi feita uma comparação entre o amostrador de Gibbs, proposto inicialmente por Geman e Geman (1984), com outros esquemas de simulação estocástica. Até então, os trabalhos desenvolvidos eram baseados principalmente em aproximações numéricas e anaĺıticas. O avanço computacional na década de 1990 facilitou a popularização de aplicações dos métodos bayesianos. 3.1.1 Amostrador de Gibbs O amostrador de Gibbs foi proposto por Geman e Geman (1984), sendo popularizado por Gelfand e Smith (1990). O amostrador de Gibbs é um esquema iterativo de amostragem de uma cadeia de Markov, utilizando tal esquema para amostrar uma distribuição a posteriori p(x) do vetor parâmetrico x = (x 1, x 2,, x d ), desde que as distribuições 23

condicionais completas destes parâmetros sejam conhecidas para amostragem. A distribuição condicional completa é a distribuição da j ésima componente de x condicionada à informação de todos os outros parâmetros, podendo ser denotada por p(x j x j ) onde x j = (x 1,, x j 1, x j+1,, x d ). A distribuição condicional completa é obtida a partir da distribuição conjunta. Em muitos casos, a geração de uma amostra diretamente de p(x) pode ser custosa ou impossível, mas se as distribuições condionais completas forem completamente conhecidas, então o algoritmo do amostrador de Gibbs pode descrito através dos seguintes passos: (i) Especifique-se um valor arbitrário inicial para x (0) para x e inicialize-se o contador j = 1; (ii) Obtém-se um novo valor x (j) a partir de x (j 1) através de gerações sucessivas dos valores x (j) 1 p(x 1 x (j 1) 2,..., x (j 1) d ) x (j) 2 p(x 2 x (j) 1, x (j 1) 3,..., x (j 1) d ) x (j) 3 p(x 3 x (j) 1, x (j) 2, x (j 1) 4,..., x (j 1) d ). x (j) d p(x d x (j) 1, x (j) 2,..., x (j) d 1 ). (iii) Atualiza-se o contador de j para j + 1 e retorna-se ao passo (ii) até que a convergência seja obtida. Carlin et al. (1992) introduziram o uso do amostrador Gibbs para realizar inferência para modelos de espaço de estados não-normais e não-lineares, com perturbações tanto na equação observação e na equação do sistema. Embora Carlin et al. (1992) não trabalhem com MDLG, a ideia motivou algumas soluções baseadas em MCMC para MDLG. Fahrmeir et al. (1992) propôs o amostrador de Gibbs para análise de MDLG utilizando amostragem por rejeição para gerar a partir das condicionais completas de x t. No contexto de MDLGD a equação do sistema tem perturbações normais, e assim existem m t e C t tal 24

que p(x t x t, D t, W ) p(y t x t )N(m t, C t ) = f(x t ), t. Fahrmeir et al. (1992) então propuseram g(x t ) = N(m t, C t ) o que parece natural, mas pode levar a baixas taxas de aceitação. A desvantagem é que este abordagem não é aplicável à família exponencial em geral, pois não é possível amostrar as distribuições condicionais completas de todos os parâmetros de interesse, como descritos no paso 2 acima. Nestes casos, passos de Metropolis Hastings podem ser inseridos no algoritmo de Gibbs 3.1.2 Algoritmo de Metropolis Hastings O método de Metropolis-Hastings foi apresentado por Metropolis et al. (1953) e posteriormente estendido por Hastings (1970), resultando o algoritmo de Metropolis-Hastings. O método é usado geralmente para a geração de amostras da distribuição de parâmetros de interesse cujas condicionais completas não tenham forma anaĺıtica fechada. Nesse caso, são gerados valores para cada parâmetro a partir de uma distribuição auxiliar, chamada de distribuição proposta q( ), tais valores são aceitos ou não com uma certa probabilidade. Para superar a dificuldade de amostragem das distribuições condicionais completas de todos os parâmetros de interesse, alguns autores vêm apresentando abordagens com base no algoritmo de Metropolis-Hastings. A ideia consiste em usar o amostrador de Gibbs com passos de Metropolis-Hastings para conseguir amostrar as densidades dos parâmetros de estado. No caso da amostragem dos parâmetros de estado, um de cada vez, este passo de Metropolis- Hastings é composto de dois passos. Sejam p( ) a função densidade de probabilidade de interesse e q( ) a função de probabilidade ou função densidade de probabilidade proposta. Então: (i) Gera-se um valor ξ de uma distribuição proposta q(x (j 1), ξ). (ii) Aceita-se o valor gerado em (ii) com probabilidade { } p(ξ)/q(x (j 1), ξ) α (x, ξ) = min 1,. p(x (j 1) )/q(ξ, x (j 1) ) Se o valor for aceito, x (j) = ξ. Caso contrário, a cadeia não se move e x (j) = x (j 1). 25