Carlos Antonio Abanto Valle

Transcrição

1 UFRJ Métodos de Simulação Estocástica em Modelos Dinâmicos não Lineares: Uma Aplicação em Modelos de Volatilidade Carlos Antonio Abanto Valle Tese de Doutorado submetida ao Programa de Pós-graduação em Estatística do Instituto de Matemática da Universidade Federal do Rio de Janeiro como parte dos requisitos necessários para obtenção do grau de Doutor em Ciências Estatísticas. Orientador: Ph.D. Helio S. Migon Co-orientador: Ph.D. Hedibert F. Lopes Rio de Janeiro Agosto, 2005.

2 Métodos de Simulação Estocástica em Modelos Dinâmicos não Lineares: Uma Aplicação em Modelos de Volatilidade Carlos Antonio Abanto Valle Orientador: Prof. Ph.D. Helio S. Migon Co-orientador: Prof. Ph.D. Hedibert F. Lopes Tese de Doutorado submetida ao Programa de Pós-graduação em Estatística do Instituto de Matemática da Universidade Federal do Rio de Janeiro como parte dos requisitos necessários para obtenção do grau de Doutor em Ciências Estatísticas. Aprovada por : Presidente, Prof. Helio S.Migon Prof. Hedibert F. Lopes Prof. Dani Gamerman Prof. Pedro Alberto Morettin Prof. Luiz Renato Regis de Oliveira Lima Prof. Marco Antonio Rosa Ferreira Rio de Janeiro Agosto, ii

3 Abanto-Valle, Carlos Antonio Métodos de simulação estocástica em modelos dinâmicos não Lineares: uma aplicação em modelos de volatilidade/ Carlos Antonio Abanto-Valle.- Rio de Janeiro: UFRJ/IM, xii, 177f.: il.; 31cm. Orientador: Helio S. Migon Dissertação (doutorado) - UFRJ/IM/ Programa de Pósgraduação em Estatística, Referências Bibliográficas: f Modelos dinâmicos. 2. Volatilidade estocástica. 3. Volume de negócios. 4. MCMC. 5. Métodos de Monte Carlo seqüenciais I. Migon, Helio S. II. Universidade Federal do Rio de Janeiro, Instituto de Matemática. III. Título. iii

4 Resumo Métodos de Simulação Estocástica em Modelos Dinâmicos não Lineares: Uma Aplicação em Modelos de Volatilidade Carlos Antonio Abanto Valle Orientador: Prof. Ph.D. Helio S. Migon Co-orientador: Prof. Ph.D. Hedibert F. Lopes Resumo da Tese de Doutorado submetida ao Programa de Pósgraduação em Estatística do Instituto de Matemática da Universidade Federal do Rio de Janeiro como parte dos requisitos necessários para obtenção do grau de Doutor em Ciências Estatísticas. Esta tese introduz os métodos de simulação estocástica, algoritmos seqüenciais e os métodos de Monte Carlo via Cadeias de Markov (MCMC), em modelos cuja estrutura Markoviana é mantida, porém num contexto não linear. A eficiência computacional dos vários métodos é comparada na classe dos modelos de volatilidade estocástica normal univariada. Outras especificações de volatilidade univariada são colocadas na forma dos modelos dinâmicos não lineares/não Gaussianos e comparadas usando dados reais. O modelo bivariado de retornos e volume de negócios é introduzido e estimado usando métodos seqüenciais e MCMC. Neste contexto, a especificação da log-volatilidade é modificada permitindo diferentes regimes. A especificação bivariada básica é estendida num contexto multivariado para vários ativos. Palavras-chave: Modelos dinâmicos, volatilidade estocástica, volume de negócios, MCMC, métodos de Monte Carlo seqüenciais. iv

5 Abstract Simulation Based Methods in Nonlinear Dynamic Models: An Application to Volatility Models Carlos Antonio Abanto Valle Orientador: Prof. Ph.D. Helio S. Migon Co-orientador: Prof. Ph.D. Hedibert F. Lopes Abstract da Tese de Doutorado submetida ao Programa de Pósgraduação em Estatística do Instituto de Matemática da Universidade Federal do Rio de Janeiro como parte dos requisitos necessários para obtenção do grau de Doutor em Ciências Estatísticas. This thesis considers new simulation-based analysis approach, including both sequential and off-line learning algorithms, for general dynamic models whose Markovian structure is mantained, but in a non linear context. We compare computational efficiency of the various methods using the univariate stochastic volatility models with normal innovations. Other univariate specifications of stochastic volatility models are casting in a non-linear/non-gaussian dynamic model framework, and models are compared using a real data set. A bivariate system of returns and trading volume is introduced and we estimate it using sequential parameter learning and Markov Chain Monte Carlo methods. Then, this bivariate system is modified to include switching level in the log-volatility specification. Finally, we generalize this class of models in a multivariate setting. Key-words: Dynamic Models, stochastic volatilty, trading volume, MCMC, sequential Monte Carlo methods. v

6 Resumen Métodos de Simulación Estocástica en Modelos Dinámicos no Lineales: Una aplicación a modelos de Volatilidad Carlos Antonio Abanto Valle Orientador: Prof. Ph.D. Helio S. Migon Co-orientador: Prof. Ph.D. Hedibert F. Lopes Resumen da Tese de Doutorado submetida ao Programa de Pósgraduação em Estatística do Instituto de Matemática da Universidade Federal do Rio de Janeiro como parte dos requisitos necessários para obtenção do grau de Doutor em Ciências Estatísticas. Esta tesis introduce los métodos de simulación estocástica, algoritmos sequenciales y los métodos de Monte Carlo vía Cadenas de Markov (MCMC), en modelos cuya estructura Markoviana es mantenida, pero en un contexto no lineal. La eficiencia computacional de los diferentes métodos es comparada en la clase de modelos de volatilidad estocástica normal univariado. Otras especificações univariadas de volatilidad, son colocadas en la forma de los modelos dinámicos no lineales/no Gaussianos e comparadas usando dados reales. El modelo bivariado de retornos y volumen de negocios es introducido y estimado usando métodos sequenciales e MCMC. En este contexto, la especificación de la log-volatilidad es modificada permitiendo diferentes regimenes. La especificación bivariada básica es extendida a un contexto multivariado para varios activos. Palabras-clave: Modelos dinámicos, volatilidade estocástica, volumen de negocios, MCMC, Métodos de Monte Carlo sequenciales. vi

7 Agradecimentos Em primeiro lugar a Deus, que dispensa comentários. A minha esposa, Magda, minha musa inspiradora, pelo amor e apoio na aventura do doutorado. Meus agradecimentos e desculpas a meu filho, Andrés, que sempre vê o lado belo de tudo que faço, apesar das várias noites que dormiu sem que eu pudesse estar ao seu lado, pois estava trabalhando nesta tese. A minha mãe, Leoniza, que sempre confiou em meus sonhos, mesmo nos mais loucos, e me ensinou a acreditar que é possível realizá-los, além de me mostrar que trabalho duro, perseverança e honestidade são as ferramentas ideais para atingirmos nossas metas. A minha irmã por seu apoio constante e pelas palavras de alento. Ao Professor Hélio Migon, pela confiança, amizade, por compartilhar suas experiências comigo. Foi uma honra ter trabalhado junto com ele. Ao Professor Hedibert F. Lopes, pelas sugestões e esclarecimentos nas conversas que tivemos. Ao Professor Dani Gamerman, por seu incentivo durante o curso. À Gladys, à Liliana e ao Rigoberto, minha familia no Brasil. Ao Mario, ao Luis e à Romy pela amizade, boa vontade e pelas conversas que tivemos. Ao Departamento de Métodos Estatísticos do Instituto de Matemática, pela oportunidade e à CAPES pelo apoio financeiro. Finalmente, é muito difícil agradecer a todos sem esquecer, inevitavelmente, de alguém, mas aos que esqueci, meu pedido de perdão e meus agradecimentos sinceros! vii

8 Símbolos N (µ, σ 2 ) distribuição normal com média µ e variância σ 2 N (x µ, σ 2 ) densidade da normal com média µ e variância σ 2 avaliada em x N T (a,b) (µ, σ 2 ) distribuição normal com média µ e variância σ 2 St(µ, σ 2, ν) St(x µ, σ 2, ν) N k (µ, Σ) N k(b) (µ, Σ) χ ν G(a, b) GI(a, b) D(d 1,..., d k ) B(a, b) P(λ) truncada no intervalo (a,b) distribuição t-student com ν graus de liberdade e parâmetros de locação e escala µ e σ 2, respectivamente distribuição t-student com ν graus de liberdade e parâmetros de locação e escala µ e σ 2, respectivamente avaliada em x distribuição normal k-variante com média µ e matriz de covariâncias Σ. distribuição normal k-variante com média µ e matriz de covariâncias Σ, truncada na região B. distribuição Chi-quadrado com ν graus de liberdade distribuição Gamma com parâmetros a e b distribuição Gamma Inversa com parâmetros a e b distribuição de Dirichlet com parâmetros d 1,..., d k distribuição Beta com parâmetros a e b distribuição de Poisson com parâmetro λ U(a, b) distribuição uniforme em (a, b) I A (x) função indicadora da região A, avaliada em x viii

9 Sumário 1 Introdução 1 2 Preliminares Introdução Inferência Bayesiana Integração por Monte Carlo Métodos de Simulação Aceitação-Rejeição Amostragem por Importância Reamostragem Ponderada (SIR) Teoria de Monte Carlo com Cadeias de Markov Cadeias de Markov O algoritmo de Metropolis-Hastings O amostrador de Gibbs Avaliação da Convergência Critérios de Seleção de Modelos Fator de Bayes e verossimilhança marginal Deviance Information Criterion (DIC) Modelos Dinâmicos Introdução ix

10 3.2 Modelos Dinâmicos Algoritmos para Filtragem, Suavização e Previsão Filtragem Suavização Previsão O Modelo Linear Dinâmico (MLD) O Filtro de Kalman Suavizador de Kalman Filtro de Perturbações Perturbações suavizadas Previsão Monte Carlo com Cadeias de Markov Amostrador single move Amostrador multi move Métodos de Monte Carlo Seqüenciais Filtros SIS e SIR Filtro Auxiliar de Partículas Modelos de Volatilidade Estocástica Introdução O Modelo de Volatilidade Estocástica Normal Inferência no Modelo VEN: MCMC Amostrador single-move Forward Filtering, Backward Sampling Simulaçao da distribuiçao suavizada usando o algoritmo de de Jong e Shepard Amostrador por Blocos Inferência no Modelo VEN: SMC x

11 4.4.1 Filtros SIS e SIR Filtro Auxiliar de Partículas Algoritmo APF com estimação de parâmetros Aplicações Estudo de Simulação Aplicação empírica Extensões Univariadas e Comparação de Modelos de Volatilidade Introdução Modelo de Volatilidade com erros t-student Estimação via MCMC Estimação via SMC Avaliação da Verossimilhança Modelo de Volatilidade com alavancagem Estimação via MCMC Estimação via SMC Avaliação da verosimilhança Modelo de Volatilidade com mudança de regime Estimação via MCMC Estimação via SMC Avaliação da verossimilhança Aplicação Comparação de Modelos Volatilidade Estocástica e Volume de Negócios Introdução O Volume de Negócios Modelo de Volatilidade e Volume xi

12 6.3.1 Estimação via MCMC Estimação via SMC O Modelo de volatilidade com mudança de regime e volume de negócios Estimação via MCMC Aplicações Dados Simulados Análise Empírica Modelos Multivariados Introdução Modelos de volatilidade multivariada Modelos de volatilidade e volume multivariados Aplicações Conclusões e Futuros Desenvolvimentos 158 Referências Bibliográficas 161 A Modelos GARCH/EGARCH 175 xii

13 Capítulo 1 Introdução A modelagem de séries temporais, inferência e previsão, baseadas em modelos dinâmicos, é uma das mais importantes áreas que surgiram na estatística ao final da última centúria. A classe dos modelos dinâmicos é muito flexível e muitos dos mais importantes problemas na estatística podem ser colocados nesta estrutura. Um tratamento exaustivo da matéria pode ser encontrado nos livros de West e Harrison (1997), Durbin e Koopman (2002) e Harvey (1989). O Filtro de Kalman pode ser usado para calcular previsões dos estados e das observações em modelos dinâmicos lineares/ou Gaussianos. Porém, em muitas aplicações, especificações mais complexas são necessárias fazendo com que os cálculos analíticos sejam complicados. Recentes desenvolvimentos dos métodos de Monte Carlo com Cadeias de Markov (MCMC) e métodos de Monte Carlo seqüenciais (SMC) têm incrementado a popularidade da inferência Bayesiana em modelos dinâmicos nas mais diversas áreas. A volatilidade ocupa um papel muito importante nas finanças modernas especialmente nas derivações dos preços de ativos. O modelo de Black-Scholes o qual serve para se determinar os preços de opções européias é de longe a fórmula 1

14 mais usada na determinação dos preços das opções. É muito bem conhecido que a suposição de volatilidade constante usada no modelo de Black-Scholes é violada pelo mercado. Pesquisas nas mudanças da volatilidade usando séries temporais têm sido bastante ativas nas duas últimas décadas. Existem duas classes de modelos de volatilidade: os modelos de volatilidade determinística representada pelos modelos ARCH e GARCH, e os modelos de volatilidade estocástica. Os modelos de volatilidade estocástica têm chamado a atenção dos pesquisadores nas áreas de econometria e finanças desde a década dos anos 70, pelo seu apelo teórico e porque suas propriedades estatísticas são simples de se entender e generalizar. Infelizmente, a estimação do modelo é muito complicada pela estrutura não linear do modelo. Esta classe de modelos é um excelente exemplo de modelos não lineares e não Gaussianos. O foco deste trabalho de tese é a estimação Bayesiana dos modelos de volatilidade estocástica e do modelo bivariado que relaciona os retornos, o volume de negócios à volatilidade. As principais contribuições do trabalho incluem: a comparação de diferentes algoritmos para a estimação dos modelos de volatilidade estocástica normal, a comparação deste modelo com outras especificações de volatilidade, determinística e estocástica, usando fatores de Bayes e o critério DIC, a implementação Bayesiana do modelo bivariado usando métodos seqüenciais, a modelagem da log-volatilidade como um processo Markoviano de primeira ordem permitindo mudanças de regime na volatilidade, e por último a extensão do modelo num contexto multivariado para vários ativos. O trabalho está organizado da seguinte forma: No Capítulo 2, são descritos de uma forma geral os conceitos fundamentais da inferência Bayesiana, os métodos computacionais Bayesianos com ênfase aos métodos de simulação de Monte Carlo com Cadeias de Markov (MCMC). No Capítulo 3, apresenta-se o modelo dinâmico geral e os algoritmos para a 2

15 determinação das densidades filtradas e suavizadas, e finalmente algoritmos eficientes para a estimação via MCMC e SMC. No Capítulo 4, serão discutidas as propriedades do modelo de volatilidade estocástica normal. Aproveitando a estrutura de um modelo dinâmico não linear, algoritmos para a estimação das variáveis latentes, via MCMC e SMC são comparados em dados artificiais e reais. Introduz-se o modelo dinâmico de primeira ordem como uma alternativa simples da modelagem da volatilidade. No Capítulo 5, apresentam-se extensões ao modelo de volatilidade estocástica básico. Estas incluem o modelo de volatilidade com erros t-student para as inovações dos retornos, o modelo de volatilidade com a presença do efeito de alavancagem, e o modelo de volatilidade com mudança de regime. Algoritmos MCMC são desenvolvidos. Métodos seqüenciais para o cálculo das densidades filtradas e a verossimilhança marginal são apresentados e a comparação Bayesiana de modelos é implementada usando fatores de Bayes e o Deviance Information Criteria (DIC). Apresenta-se uma aplicação com dados reais. No Capítulo 6, o modelo que relaciona os retornos e volume de negócios à volatilidade é introduzido. Neste capítulo estão as principais contribuições da tese. Os parâmetros do modelo são estimados seqüencialmente e via MCMC. O modelo é estendido, permitindo que o processo da log-volatilidade seja um processo Markoviano de primeira ordem incluindo regimes. Exemplos em dados reais e artificiais são apresentados com a aplicação dos métodos estudados. No Capítulo 7, o modelo de retornos é volume é estendido para vários ativos. O modelo é estimado usando MCMC. No Capítulo 8 apresentamos as conclusões e recomendações para futuros desenvolvimentos. Finalizando esta tese, apresenta-se um apêndice com alguns dos conceitos que foram usados neste trabalho. 3

16 Capítulo 2 Preliminares 2.1 Introdução Neste Capítulo são apresentados alguns conceitos que serão usados nos próximos capítulos no desenvolvimento da presente tese. Assim, por exemplo, na seção 2.2 são apresentadas noções básicas da inferência Bayesiana, na seção 2.3 o método de integração por Monte Carlo. A seção 2.4 trata dos métodos de simulação, enquanto que que a seção 2.5 apresenta uma breve introdução aos métodos de Monte Carlo com Cadeias de Markov (MCMC). Finalmente na seção 2.6 são apresentados critérios para a seleção de modelos. 2.2 Inferência Bayesiana Nesta seção são introduzidas as idéias básicas da inferência Bayesiana. Para um tratamento aprofundado dos conceitos da inferência Bayesiana ver por exemplo: Migon e Gamerman (1999) e Gelman, Carlin, Stern e Rubin (2003). Diferentemente da inferência clássica, a inferência Bayesiana não faz distinção entre variáveis aleatórias e os parâmetros de um modelo: todos são considerados quantidades aleatórias. Seja y o vetor de observações e θ o vetor de parâmetros. 4

17 Suponha que tenhamos uma distribuição a priori p(θ), a qual representa a incerteza inicial acerca do vetor de parâmetros, antes de que y seja observado, e a função de verossimilhança do modelo p(y θ). A especificação de p(θ) e p(y θ) fornece um modelo probabilístico, para o qual p(y, θ) = p(y θ)p(θ). Uma vez que os dados y contêm informação acerca de θ, pode-se usar y para atualizar a informação acerca de θ determinando-se a distribuição condicional de θ dado y. Usando o Teorema de Bayes, esta distribuição é dada por p(θ y) = p(y θ)p(θ) p(y θ)p(θ). (2.1) Na maior parte das aplicações de interesse, a integral do denominador na equação (2.1) não possui forma analítica fechada e sua avaliação usando métodos numéricos em dimensões maiores do que 20 torna-se impraticável. Para aproximar a distribuição posterior (2.1) usa-se, freqüentemente, integração pelo método de Monte Carlo ou MCMC. Estes métodos em geral usam o fato que o denominador na equação (2.1) não depende de θ, o qual leva a p(θ y) p(y θ)p(θ). (2.2) Para facilitar a exposição a distribuição a posteriori p(θ y), será denotada por π(θ). 2.3 Integração por Monte Carlo O método de integração por Monte Carlo é utilizado para aproximar integrais que são difíceis ou impossíveis de serem calculadas analiticamente, particularmente quando a dimensão do problema é grande. Dado o enfoque Bayesiano da presente tese, considera-se que o interesse centra-se na esperança a posteriori de uma 5

18 função g(θ), isto é E[g(θ) y] = θ g(θ)π(θ)dθ. (2.3) Esta integral pode ser aproximada gerando amostras θ (i), i = 1,..., M da distribuição π(θ) e calculando a média amostral 1 ḡ M 1 M g(θ (i) ). i Tem-se que ḡ M converge quase certamente para E[g(θ) y] pela Lei Forte dos Grandes Números (ver Breiman, 1992, Capítulo 3). Além disso, quando g 2 tem esperança finita sob π(θ), a expressão ḡ M E[g(θ) y] vm d N (0, 1), onde d indica convergência em distribuição e v M = M 2 M i=1 [g(θ(i) ) ḡ M ] 2 (ver Breiman, 1992, Capítulo 8). 2.4 Métodos de Simulação Nesta seção são apresentados três métodos comumente utilizados para extrair amostras de uma densidade que é difícil de se amostrar. Estes métodos são aceitação-rejeição (A-R), amostragem por importância (IS) e reamostragem ponderada (SIR). Para cada método o objetivo é extrair uma amostra do núcleo da distribuição π. 1 quando somente o núcleo κ(θ) da densidade π(θ) é conhecida, a integral (2.3) é dividida pela integral sob o núcleo. Isto é E[g(θ) y] = θ g(θ)κ(θ)dθ θ κ(θ)dθ 6

19 2.4.1 Aceitação-Rejeição O Método de A-R está diretamente ligado ao método SIR. Entretanto, a diferença entre este e o método SIR, é que A-R produz amostras independentes e identicamente distribuídas da distribuição π(θ) e não uma amostra aproximada. Este método requer a especificação de uma densidade q(θ) da qual seja simples de se amostrar. Seja w(θ) = π(θ)/q(θ). A escolha de q(θ) é feita de forma que π(θ) cq(θ) para todo θ, onde c > 0 é uma constante conhecida. Então o método pode ser esquematizado de maneira algorítmica. Algoritmo A-R 1. Gerar θ de q(θ). 2. Gerar u U(0, 1). 3. Calcular a probabilidade de aceitação w(θ )/c 4. Se u < w(θ )/c aceitar o valor θ, caso contrario rejeitar. Proposição 2.1 Se θ for um valor obtido pelo método A-R, a distribuição exata de θ é π. Prova: (Ripley, 1987) Seja θ uma variável aleatória gerada pelo método A-R, e U U(0, 1). Consideremos que A é um subconjunto do espaço paramétrico. Logo, temos de provar que P (θ A) = P (θ A θ ser aceito). Por definição, a probabilidade condicional P (θ A θ ser aceito) e dada por P (θ A θ ser aceito) = P (θ A e θ ser aceito) P (θ. (2.4) ser aceito) O numerador em (2.4) é equivalente a P (θ A e θ ser aceito) = P (θ A, U w(θ ) ), c 7

20 isto é P (θ A e θ ser aceito) = A 0 = c 1 w(θ)/c A duq(θ)dθ w(θ)q(θ)dθ O denominador de (2.4), a probabilidade de θ ser aceito, é dada por P (θ ser aceito) = P (U w(θ) ) c w(θ)/c = q(θ)dudθ 0 = c 1 w(θ)q(θ)dθ Finalmente, temos que P (θ A θ ser aceito) = = w(θ)q(θ)dθ A, w(θ)q(θ)dθ π(θ)dθ A π(θ)dθ Então θ se distribui com função de densidade π(θ). Para que o método funcione com eficiência é preciso escolher cuidadosamente c tal que garanta o envelopamento total, isto é: π(θ) cq(θ) para todo θ. A melhor escolha para c é dada por c = sup θ π(θ) q(θ) Amostragem por Importância O método de amostragem por importância (IS) foi introduzido por Kloek e van Dijk (1978). O método IS é principalmente usado no cálculo de integrais da forma (2.3) quando a amostragem de θ da distribuição π(θ) não é simples de se fazer. O método requer que uma densidade de importância q(θ) seja usada, a qual se relaciona com a distribuição π(θ) através do peso w(θ) = π(θ)/q(θ). Como E(g(θ)) = θ g(θ)π(θ) q(θ) q(θ)dθ = g(θ)w(θ)q(θ)dθ, (2.5) θ 8

21 a aproximação é calculada por E(g(θ)) 1 g(θ (i) )w(θ (i) ). (2.6) M A amostra θ (i), i = 1,..., M é extraída da distribuição q(θ), adaptando as diferenças entre as duas distribuições através dos pesos em (2.6). O método de IS funciona bem quando a função q(θ) é uma boa aproximação da função objetivo, isto é quando as ponderações w(θ) são próximas de 1. Nas caudas da distribuição, isto nem sempre pode ser possível. i Reamostragem Ponderada (SIR) Este método também chamado de amostragem-reamostragem por importância, foi introduzido por Rubin (1987) e requer a especificação de uma densidade q(θ) da qual seja simples de se amostrar. A densidade q(θ) deve estar definida no mesmo espaço que π(θ); isto quer dizer por exemplo, se π(θ) > 0, então q(θ) > 0. Na primeira fase, uma amostra de M pontos é obtida a partir de q(θ). Denotese a estes valores {θ (i) } i=1,...,m. Na segunda fase são atribuídos pesos wi, que satisfaçam w i = w i M i=1 w i (2.7) onde w i = π(θ (i) )/q(θ (i) ). Conseqüentemente, os pesos wi não dependem da constante de normalização de π. Finalmente, reamostra-se com reposição R pontos da distribuição discreta {θ (i) } i=1,...,m, com probabilidade wi, obtendo-se a amostra { θ (i ) }i=1,...,r. Proposição 2.2 Seja {θ (i) } i=1,...,m uma amostra de tamanho M da distribuição q(θ) e wi definido por (2.7), onde w i = π(θ (i) )/q(θ (i) ), então a distribuição discreta que atribui probabilidade wi a cada ponto θ (i) converge em distribuição para π(θ). 9

22 Prova: (Smith e Gelfand, 1992). probabilidades w i Seja ˆθ uma variável aleatória discreta com nos pontos θ (i) e seja A um subconjunto qualquer do espaço paramétrico. Seja ˆP (θ A) uma estimativa de P (θ A), então M M ˆP (θ A) = I A (θ (i) )wi i=1 = I A(θ (i) )w i M i=1 w. i Logo, usando a Lei fraca dos grandes números temos que ˆP (θ A) i=1 M E q[i A (θ )w] E q [w] = E q [I A (θ )] = P (θ A). Supondo que M seja escolhido convenientemente, a amostra de R pontos gerados por este algoritmo será aproximadamente uma amostra da distribuição π. A acurácia deste método depende da escolha de M e se a densidade q(θ) aproxima bem a π. Se q(θ) é completamente diferente de π(θ), então os pesos w i terão uma variância grande e a amostra ficará reduzida a uns poucos pontos que terão pesos diferentes de zero. Isto leva a incrementar a razão M/R para obter uma amostra adequada. Rubin (1987) sugere que M = 10R geralmente deve dar bons resultados. 2.5 Teoria de Monte Carlo com Cadeias de Markov Esta seção introduz os métodos de simulação estocástica via cadeias de Markov (MCMC) os quais serão usados nos próximos capítulos para obter amostras de densidades posteriores complexas. Para começar na subseção são descritas as cadeias de Markov e suas propriedade básicas. Nas subseções e o algoritmo de Metropolis-Hastings e o amostrador de Gibbs são descritos. Para uma introdução detalhada aos métodos MCMC ver Gilks, Richardson e Spiegelhalter (1996), Gamerman (1997) e Robert e Casella (2004). 10

23 2.5.1 Cadeias de Markov Uma cadeia de Markov é uma coleção de variáveis aleatórias (vetores aleatórios) {X Ω i M}, onde usualmente M = N. A evolução da cadeia de Markov no espaço Ω R p é dada pelo núcleo de transição P (x, A) = P r(x i+1 A X i = x, X j, j < i) = P r(x i+1 A X i = x) (x Ω, A Ω). (2.8) Isto quer dizer que uma cadeia de Markov é um processo estocástico, em que, dado o estado presente, passado e futuro são independentes. Em geral, o núcleo de transição tem um componente contínuo e um componente discreto para alguma função p : Ω Ω [0, ), sendo expressado por P (x, dy) = p(x, y)dy + r(x)i dy (x), (2.9) onde p(x, x) = 0 e r(x) = 1 p(x, y)dy. Do mesmo modo, a transição de Ω x para y ocorre de acordo com p(x, y), e a transição de x para x ocorre com probabilidade r(x). Da equação (2.8) segue que o núcleo de transição proporciona a distribuição de X i+1 dado que X i = x. O núcleo de transição n-passos a frente é dado por: P (n) (x, A) = onde P (1) (x, dy) = P (x, dy) e Ω P (x, A) = P (n 1) (y, A)P (x, dy), A P (x, dy) Sob certas condições de regularidade que serão mencionadas a seguir a distribuição dada pela n-ésima iteração do núcleo de transição converge à distribuição invariante π quando n. A distribuição invariante satisfaz π = P (x, dy)π(x)dx (2.10) Ω 11

24 onde π é a densidade de π com relação a medida de Lebesgue, isto é π = π(y)dy. A condição de invariância estabelece que se X i tem distribuição π, então todos os subseqüentes elementos da cadeia têm distribuição π. Uma cadeia de Markov é reversível se a função p(x, y) na equação (2.9) satisfaz f(x)p(x, y) = f(y)p(y, x), x, y, para uma densidade f(.). Se a condição é satisfeita, então f(.) é a densidade da distribuição invariante. Isto segue das equações (2.8) e (2.9) já que A Ω, P (x, A)f(x)dx = p(x, y)f(x)dydx + r(x)f(x)dx A A = p(y, x)f(y)dxdy + r(x)f(x)dx A A = [1 r(y)]f(y)dy + r(x)f(x)dx A A = f(y)dy. A Outro conceito importante é o de uma cadeia π -irredutível, onde π é uma medida de probabilidade. Este é o requisito de que uma cadeia possa visitar todos os possíveis conjuntos com uma probabilidade positiva sob π qualquer que seja o ponto inicial em Ω. Formalmente, uma cadeia de Markov é π -irredutível se para cada x Ω π (A) > 0 P r(x i A X 0 = x) > 0 para algum i 1. Uma cadeia de Markov é chamada de aperiódica se não existe uma partição (Ω 0,..., Ω k 1 ) de Ω para algum k 2 tal que P r(x i Ω imodk X 0 = x) = 1, i Logo, a aperiocidade de uma cadeia de Markov assegura que uma cadeia não cicla em um número finito de conjuntos. 12

25 As definições anteriores permitem estabelecer os seguintes resultados, os quais são a base dos métodos MCMC. O primeiro resultado dá as condições sob as quais a Lei Forte dos Grandes Números é satisfeita. A prova pode ser encontrada em Tierney (1994), Corolário 1 e Teorema 3. O segundo resultado estabelece as condições sob as quais a densidade de probabilidade da M ésima iteração converge à única distribuição invariante (Tierney, 1994, Teorema 1) Teorema 2.1 Suponha que {X} é uma Cadeia de Markov π -irredutível, aperiódica com núcleo de transição P(.,.) e distribuição invariante π. Se P(x,.) é absolutamente continua com respeito a π para todo x Ω, então π é a única distribuição invariante de P(.,.) e para toda função real-valorada h, integrável em relação a π, 1 M M h(x i ) i=1 h(x)π(x)dx, quando M, q.c. Teorema 2.2 Suponha que {X} é uma cadeia de Markov π -irredutível, aperiódica com núcleo de transição P(.,.) e distribuição invariante π. Então para quase todo x Ω, e para todos os conjuntos A tem-se que P M (x, A) π (A) 0, quando M, onde. denota a distância de total variação O algoritmo de Metropolis-Hastings O algoritmo de Metropolis foi apresentado inicialmente por Metropolis, Rosenbluth, Rosenbluth, Teller e Teller (1953) e generalizado por Hastings (1970) resultando no algoritmo de Metropolis-Hastings. Esse método é usado geralmente quando é difícil gerar amostras da distribuição a posteriori, π(θ). Neste caso, são gerados valores do parâmetro a partir de uma distribuição proposta q(θ θ (i 1) ) 13

26 e esse é aceito ou não com uma certa probabilidade. Para descrever o algoritmo, suponha que a distribuição de interesse é π(θ) e que a distribuição proposta é q(θ θ (i 1) ) a qual será usada para obter θ dado o valor atual θ (i 1) e seja α MH (θ (i 1), θ ) a probabilidade de aceitação [ π(θ α MH (θ (i 1), θ )q(θ (i 1) θ ] ) ) = min π(θ (i 1) )q(θ θ (i 1) ), 1 (2.11) De maneira algorítmica, os valores simulados podem ser obtidos a partir do seguinte procedimento recursivo. Algoritmo M-H 1. Especificar um valor inicial θ (0) tal que π(θ (0) ) > 0 e fazer i = Gerar uma proposta θ q(θ θ (i 1) ). 3. Gerar u U(0, 1) 4. Fazer θ (i) = θ, se u α MH (θ (i 1), θ ), θ (i 1) em outro caso 5. Fazer i = i + 1, voltar a 2 e continuar o procedimento até alcançar a convergência. Proposição 2.3 (Tierney, 1994) A cadeia de Markov obtida pelo algoritmo M-H é reversível e tem a π(θ) como sua distribuição estacionária. O algoritmo M-H é bastante geral, e pode, pelo menos a princípio, ser implementado com qualquer distribuição π(θ) e para qualquer proposta. Entretanto, sob o ponto de vista prático, a escolha da proposta é crucial para sua convergência para a distribuição posterior. 14

27 Quando a distribuição proposta não depende do valor da iteração anterior, q(θ θ (i 1) ) = q(θ), resulta em uma cadeia independente e a probabilidade de transição é dada por α MH (θ (i 1), θ ) = [ π(θ )q(θ (i 1) ] [ ) w(θ ] min π(θ (i 1) )q(θ ), 1 ) = min w(θ (i 1) ), 1 com w(θ) = π(θ) q(θ). Quando a distribuição proposta é simétrica em torno da iteração anterior, isto é q(θ a θ b ) = q(θ b θ a ), e α MH (θ (i 1), θ ) = [ π(θ ] ) min π(θ (i) ), 1 (2.12) Este é o algoritmo original proposto por Metropolis et al. (1953). Um caso especial de uma cadeia simétrica e o passeio aleatório no qual q(θ θ) = q(θ θ). Para mais informações sob o algoritmo M-H ver Tierney (1994), Chib e Greenberg (1995), Gilks et al. (1996) e Gamerman (1997) O amostrador de Gibbs O amostrador de Gibbs é um caso especial do algoritmo M-H que permite gerar uma amostra da distribuição posterior π(θ) desde que as condicionais completas estejam disponíveis para amostragem. Uma introdução ao amostrador de Gibbs é dado por exemplo em Gamerman (1997) e Gelman et al. (2003). Já que o amostrador de Gibbs é simples e amplamente usado, não é necessariamente o procedimento mais eficiente na solução de um problema. Assim, em casos onde o amostrador de Gibbs não é a única aproximação possível, a simplicidade da implementação é uma vantagem que compensa sua ineficiência. Para descrever o algoritmo suponha que a distribuição de interesse é a distribuição π(θ) onde θ = (θ 1,..., θ d ). Cada θ i pode ser um escalar o um vetor. Considere também que todas as condicionais completas π i (θ i θ i ) estejam disponíveis e que se sabe gerar amostras de cada uma delas. Portanto, o esquema 15

28 de amostragem é dado por: Algoritmo de Gibbs 1. Especificar um valor inicial θ (0) e fazer i = Dado θ (i 1), o próximo valor é obtido por simulação θ (i) 1 π 1 (θ 1 θ (i 1) 2,..., θ (i 1) d ) θ (i) 2 π 2 (θ 2 θ (i) 1, θ (i 1) 3..., θ (i 1) d ). θ (i) d π d (θ d θ (i) 1,..., θ (i) d 1 ) Note-se que aqui o processo de atualização segue uma ordem fixa. Isto não é necessário. A ordem pode ser aleatóriamente permutada a cada passo. 3. Fazer i = i + 1, voltar a 2 e continuar o procedimento até alcançar convergência Avaliação da Convergência Os métodos de MCMC são uma ótima ferramenta para resolução de muitos problemas práticos na análise Bayesiana. Porém, algumas questões relacionadas à convergência nestes métodos ainda merecem bastante pesquisa. Entretanto, uma questão que pode surgir é Quantas iterações deve ter o processo de simulação para garantir que a cadeia convergiu para o estado de equilíbrio?. Como a cadeia não é inicializada na distribuição estacionária, uma prática comum é usar um período de aquecimento (Gilks et al., 1996). A cadeia é rodada por L + M iterações, sendo as primeiras L iterações iniciais descartadas. Espera-se que depois deste período de aquecimento a cadeia tenha esquecido os valores iniciais e convergido para a distribuição de equilíbrio; a amostra resultante 16

29 de tamanho M, será uma amostra da distribuição de equilíbrio. Para eliminar uma possível auto correlação das cadeias seleciona a partir do aquecimento a cada k iterações, o tamanho de k será chamado de lag. O grau de correlação da amostra final afetará a acurácia do estimador de Monte Carlo (2.4) baseado na amostra. O conceito de tempo de autocorrelação (Madras e Sokal, 1998) é usado para quantificar este efeito. Assumindo que a cadeia tenha alcançado o equilíbrio, seja θ t o valor da cadeia no tempo t. autocorrelação, ρ g (k), no lag k para alguma função g(θ) é definida por ρ g (k) = E[g(θt )g(θ t+k )] E[g(θ t )] 2 V[g(θ t ] A esperança é com relação à densidade π(θ t ). O tempo de autocorrelação, τ g para a função g é definido como A τ g = ρ g (k) Se M >> τ g, então a aproximação para a variância de 1 M M g(θ t ), t=1 o estimador da esperança de g(θ), é V[g(θ)]τ g /M o qual é maior que o estimador baseado em uma amostrade tamanho M de observações independentes e identicamente distribuídas. Em outras palavras, o número efetivo de amostras independentes em uma cadeia de tamanho M é aproximadamente M/τ g. Métodos para estimar τ g da saída do MCMC podem ser encontrados em Geyer (1992). Observe que o tempo de autocorrelação é uma estimativa da eficiência da cadeia de Markov uma vez que alcança o equilíbrio, e portanto a estacionariedade, e não uma estimativa de quantas iterações são necessárias para a cadeia alcançar a distribuição estacionária. Para avaliar a convergência dos métodos de MCMC faz-se uso de alguns 17

30 critérios que existem na literatura. As técnicas mais populares são as Geweke (1992) e Heidelbelger e Welch (1983) que usam resultados baseados em análise espectral, Raftery e Lewis (1992) que permite calcular quantas iterações são necessárias para uma cadeia atingir a distribuição estacionária através da estimação de quantis posteriores com uma precisão previamente fixada e Gelman e Rubin (1992) que usa resultados baseados na análise de variância clássica para duas ou mais cadeias simuladas com valores iniciais diferentes. Estes métodos e outros foram comparados no trabalho de Cowles e Carlin (1996), onde se chegou a conclusão de que não se pode afirmar qual deles é o mais eficiente. As técnicas de Geweke, Heidelberger-Welch, Raftery-Lewis, Gelman-Rubin e outras estão implementadas no pacote CODA (Cowles e Carlin, 1996) executável no freeware R. 2.6 Critérios de Seleção de Modelos A escolha de modelos é uma atividade fundamental que vem tornando-se cada vez mais importante na análise estatística, uma vez que, devido aos avanços computacionais, é possível construir modelos cada vez mais complexos. Tal complexidade normalmente aumenta de acordo com a estrutura imposta pelos modelos que requerem especificações em cada um de seus níveis. Considere que o mecanismo gerador dos dados, y, é dado pelo modelo M k M e que nosso objetivo é comparar a coleção de modelos M = {M 1, M 2,..., M K }. Suponha também que cada modelo é caracterizado por um vetor de parâmetros, θ k Θ k R d k de dimensão dk específico para cada modelo e que a função de verossimilhança dado pelo modelo M k é p(y θ k, M k ). O paradigma Bayesiano atribui probabilidades a priori ao vetor de parâmetros do modelo p(θ k M k ), e a probabilidade a priori p(m k ) a cada modelo. Intuitivamente esta especificação pode ser entendida como um modelo hierárquico de misturas com três hierarquias; 18

31 na primeira o modelo M k é gerado a partir de p(m 1 ),..., p(m K ), na segunda o vetor de parâmetros θ k é gerado de p(θ k M k ) e na terceira os dados são gerados de p(y θ k, M k ) Fator de Bayes e verossimilhança marginal Em termos da formulação hierárquica apontada anteriormente, o problema da seleção de modelos consiste em determinar em M o modelo que gera os dados. A probabilidade a posteriori de que M k foi o modelo que gerou os dados, é dada por onde p(m k y) = p(y M k )p(m k ) K j=1 p(y M j)p(m j ) (2.13) p(y M k ) = p(y θ k, M k )p(θ k M k )dθ k Θ k (2.14) é a verossimilhança marginal de M k. Baseados nestas probabilidades a posteriori a comparação de dos modelos, por exemplo M 1 e M 2, é dada por p(m 1 y) = p(m 2 y) }{{} Razão de chance a posteiori p(y M 1 ) p(y M 2 ) }{{} Fator de Bayes p(m 1 ) p(m 2 ) }{{} Razão de chance a priori. (2.15) Esta última expressão mostra como os dados permitem a atualização da razão de chance a priori através do Fator de Bayes para obter a razão de chances a posteriori. Quando a razão de chances a priori for 1, indicando indiferença a priori, a razão de chance posterior coincide com o fator de Bayes. Assim, o fator de Bayes fornece uma medida relativa de avaliação de um modelo. O fator de Bayes é denotado por B 12 = p(y M 1) p(y M 2 ), 19

32 ou seja é igual à razão de verossimilhanças dos modelos. Por outro lado, as verossimilhanças marginais são equivalentes as probabilidades do modelo (já que as probabilidades a priori p(m k ) são conhecidas) e portanto são as quantidades chave para a seleção Bayesiana de modelos. Uma grande variedade de métodos têm sido propostos na literatura para calcular a verossimilhança marginal definida em (2.14), já que esta integral, em geral, não possui uma solução analítica fechada. Alguns deles são específicos à análise baseada nos métodos MCMC para cada modelo de forma individual, e outros são genéricos e baseados em argumentos analíticos e assintóticos. A seguir alguns dos métodos para calcular a verossimilhança marginal serão apresentados. A dependência no indicador de modelo M i será omitida da notação, já que todas as computações devem ser feitas para todos os modelos em consideração. Estimador de Monte Carlo Denote a ˆp(y) uma estimativa da verossimilhança marginal p(y). A partir de (2.14), tem-se a estimativa de Monte Carlo: ˆp(y) = 1 M M p(y θ (i) ), (2.16) i=1 onde {θ i } M i=1 é uma amostra da distribuição a priori p(θ). Uma desvantagem deste método é que a verossimilhança p(y θ (g) ) é tipicamente diferente se comparada à distribuição a priori p(θ), como resultado (2.16) será uma estimativa ineficiente de p(y). Estimador de média harmônica O estimador da média harmônica faz uso da seguinte identidade p(y) 1 = p(y θ) 1 π(θ)dθ. (2.17) 20

33 Como é discutido em Newton e Raftery (1994), o estimador resultante, ˆp H (y) é baseado na aproximação da integral em (2.17) usando amostragem por importância e com a densidade a posteriori como densidade de importância. Logo a aproximação ˆp H (y) é dada por ˆp 1 H = G 1 G p(y θ (g) ) 1, (2.18) g=1 onde θ (i) π(θ). Newton e Raftery (1994) tem documentado as propriedades e a acurácia deste estimador. Estimador de Gelfand e Dey Uma geralização de (2.18) foi proposta por Gelfand e Dey (1994), baseada na identidade p(y) 1 = g(θ)π(θ){p(θ)p(y θ)} 1 dθ, (2.19) onde g( ) é uma densidade arbitrária. Dadas as amostras {θ (g) } G g da distribuição a posteriori, Gelfand e Dey (1994) sugeriram que o estimador ˆp GD é dado por ˆp 1 GD = G 1 G g(θ (i) ){p(θ (i) )p(y θ (i) )} 1 (2.20) i=1 Estimador de Laplace-Metropolis O estimador de Laplace-Metropolis combina a aproximação analítica com a saída do MCMC, para modificar a aproximação assintótica de Laplace (Tierney e Kadane, 1986). O estimador resultante, discutido em Lewis e Raftery (1997), tem a forma de ˆp LM = (2π) d/2 Ψ 1/2 p(y θ)p( θ), (2.21) onde θ é o valor da amostra da densidade posterior tal que p(y θ)p(θ) seja máximo. Ψ é uma aproximação da variância a posteriori de θ, obtida da amostra por MCMC e d é a dimensão de θ. Uma alternativa deste método consiste em colocar θ como sendo a média a posterior obtida das saídas do MCMC. 21

34 Bridge sampling O método Bridge Sampling (BS) foi proposto por Meng e Wong (1996) e foi aplicada a modelos ARCH com mudança de regime por Kaufmann e Frühwirth- Schnater (2002). Seja g(θ) uma densidade com o mesmo suporte que a densidade a posteriori π(θ) e α uma função arbitrária. O método BS é baseado na identidade p(y) = α(θ)p(θ)p(y θ)g(θ)dθ α(θ)g(θ)p(θ y)dθ = E g[α(θ)p(θ)p(y θ)]. E p [α(θ)g(θ)] Se amostras {θ (i) } M i=1 e { θ (l) } L l=1 da distribuição a posteriori π(θ) e g(θ) estão disponíveis, então o estimador BS é dado por ˆp BS (y) = L 1 L l=1 α( θ (l) )p( θ (l) )p(y θ (l) ) M. (2.22) m=1 α(θ(m) )g(θ (m) ) O estimador ˆp GD (y) é um caso particular de (2.22) com α(θ) = 1 p(y θ)p(θ). Meng e Wong (1996) propuseram uma escolha ótima de α(θ) minimizando erro relativo esperado do estimador ˆp BS (y) como α(θ) = 1 Lg(θ) + Mπ(θ). Como α(θ) depende da posterior normalizada π(θ), o seguinte procedimento iterativo pode ser aplicado: usando a estimativa previa de ˆp BS (y) (t 1) normalizase a distribuição posterior ˆp(θ y) = 1 ˆp BS (y) (t 1) p(y θ)p(θ) e uma nova estimativa ˆp BS (y) (t) pode ser obtida usando (2.22). Estimador de Chib Para evitar a especificação da função g, Chib (1995) propôs um método indireto para estimar a verossimilhança marginal através da amostra do algoritmo de Gibbs, recentemente estendido para o algoritmo de M-H (Chib e Jeliazov, 2001) 22

35 e para algoritmo A-R (Chib e Jeliazov, 2002). O método é baseado na identidade da verossimilhança marginal p(y) = p(y θ)p(θ), (2.23) π(θ) onde somente o denominador do lado direito não é conhecido. Esta identidade é verdadeira para qualquer valor θ, e somente requer uma estimativa da densidade a posteriori ˆπ(θ ) onde θ é, em geral, a média a posteriori. Então o estimador da verossimilhança, na escala logarítmica é log[ˆp CE (y)] = log p(y θ ) + log p(θ ) log ˆπ(θ ). (2.24) No capítulo 5 os estimadores de média harmonica, Gelfand e Dey, e o estimador de Chib serão usados para comparar diferentes especificações dos modelos de volatilidade Deviance Information Criterion (DIC) Do ponto de vista freqüentista, a avaliação do modelo é baseado na deviance. Dempster (1974) sugere examinar a distribuição posterior da deviance clássica definida por: D(Θ) = 2 ln p(y Θ) + 2 ln g(y), (2.25) onde p(y θ) é a verossimilhança e ln g(y) é um termo que depende unicamente dos dados. Dempster (1974) propõe comparar a média a posteriori de D(θ) e Spiegelhalter, Best, Carlin e van der Linde (2002) segue nessa sugestão no desenvolvimento do DIC como um critério de escolha de modelos. Baseado na distribuição posterior de D(Θ), o DIC consiste em duas componentes: um termo que mede a bondade do ajuste e outro termo de penalidade pelo aumento da complexidade do modelo. 23

36 O primeiro termo, a medida de bondade de ajuste é definida pela esperança condicional da deviance D = E θ y [D(θ)] = E θ y [ 2 ln p(y θ)]. (2.26) Quanto mais o modelo se ajusta aos dados, maiores os valores da verossimilhança, logo valores grandes de D indicam melhores modelos. O segundo componente mede a complexidade através do número efetivo de parâmetros, p D, definido como a diferença entre a média posterior da deviance e a deviance avaliada em θ, que a média posterior de θ definido por: p D = D D( Θ) = E Θ y [D(Θ)] D(E Θ YT [Θ]) = E Θ YT [ 2 ln p(y T Θ)] + 2 ln p(y T Θ). (2.27) Então, o DIC é definido como a soma de ambos os componentes, isto é DIC = D + p D = 2 D D( Θ) = D( Θ) + 2p D (2.28) Para uma revisão aprofundada do DIC ver Spiegelhalter et al. (2002), Celeux, Forbes, Robert e Titterington (2005) e van der Linde (2004). 24

37 Capítulo 3 Modelos Dinâmicos 3.1 Introdução Os Modelos Dinâmicos, também conhecidos como modelos de espaço de estados, são formulados para permitir alterações nos valores dos estados com o passar do tempo e vêm sendo utilizados para a análise e previsão de séries temporais e processos espaço-temporais. Avanços recentes em computação estocástica aumentaram muito o potencial de utilização desta classe de modelos nas mais diversas áreas. Os métodos MCMC foram desenvolvidos e estão bem documentados, no entanto a inferência depende fortemente da especificação do modelo. Os modelos dinâmicos consistem de dois processos: o processo de estados não observáveis {θ t } e o processo observacional {y t }, onde t é um indicador temporal. Com a evolução do tempo, toda a informação relevante para prever o futuro é recebida e pode ser usada na revisão e crítica do modelo. Suponha que o tempo inicial seja t = 0 e que D 0 represente a informação relevante e disponível sobre o modelo, a qual será usada pelo modelador para fazer as previsões iniciais do futuro. De forma similar, suponha que para qualquer tempo t > 0, a informação disponível e relevante seja denotada por D t. Qualquer afirmação sobre o futuro 25

38 será condicionada nesta informação. Uma vez que y t foi observado no tempo t, define-se D t = {y t, D t 1 }. O restante do Capítulo é organizado da seguinte forma. Na seção 3.2 é introduzido o modelo dinâmico geral, na seção 3.3 são apresentados os algoritmos para filtragem, suavização e previsão do modelo dinâmico geral, enquanto que a seção 3.4 trata do modelo linear dinâmico. Finalmente nas seções 3.5 e 3.6 são apresentados os métodos MCMC e Monte Carlo Seqüencial no contexto do modelo dinâmico geral. 3.2 Modelos Dinâmicos Nesta seção é formulado o modelo dinâmico geral (MD) usando-se a terminologia Bayesiana segundo West e Harrison (1997). Tal formulação é particularmente útil na derivação dos resultados em qualquer sub-classe dos MD. Definição 3.1 Para cada t o MD geral e definido por y t p(y t θ t, ψ) (3.1) θ t p(θ t θ t 1, ψ) (3.2) θ 0 p(θ 0 ψ) (3.3) onde y t é o vetor de observações e θ t é o vetor de estados não observáveis. θ 0 tem distribuição p(θ 0 ψ) a qual pode ser interpretada como a distribuição a priori do estado inicial do sistema e ψ é o vetor de parâmetros. O modelo é completado assumindo que [y t+i θ t ] é independente de θ t j, para i = 0, 1... e j = 1,..., t. Suponha-se, inicialmente, que ψ é conhecido e que será omitido da notação para simplificarla. Posteriormente se mostrará como incluir ψ na análise. 26

39 3.3 Algoritmos para Filtragem, Suavização e Previsão Para a estimação do vetor de estado no MD geral a distribuição de θ t condicional nos dados D s, p(θ t D s ), tem que ser avaliada. Usando somente as definições de probabilidade condicional, densidade marginal e o Teorema de Bayes, as densidades filtradas, suavizadas e preditivas K passos a frente podem ser obtidas de maneira recursiva. De acordo com a terminologia adotada em (Kitagawa, 1987), as densidades {p(θ t D t } T t=1 e {p(θ t D T } T t=1 serão chamadas de densidade filtrada e densidade suavizada respectivamente. A densidade p(θ t+k D t ) será chamada densidade preditiva K-passos-a frente Filtragem As distribuições envolvidas em um MD para qualquer tempo t 1, são dadas pelas seguintes equações: Priori em t: p(θ t D t 1 ) = p(θ t θ t 1, D t 1 )p(θ t 1 D t 1 )dθ t 1 (3.4) Previsão um passo a frente: p(y t D t 1 ) = p(y t θ t, D t 1 )p(θ t D t 1 )dθ t. (3.5) Posteriori em t p(θ t D t ) = p(y t θ t, D t 1 )p(θ t D t 1 ). (3.6) p(y t D t 1 ) A recursão é iniciada por p(θ 1 y 0 ) = p(θ 1 θ 0 )p(θ 0 )dθ 0. (3.7) 27

40 3.3.2 Suavização Sejam y s:r = {y s,..., y r } e θ s:r = {θ s,..., θ r }. Logo, a densidade conjunta suavizada, p(θ 0:T D T ), pode ser calculada aplicando de forma recursiva a lei multiplicativa das probabilidades, isto é p(θ 0:T D T ) = p(θ T D T )p(θ 0:T 1 θ T, D T ) = p(θ T D T )p(θ T 1 θ T, D T )p(θ 0:T 2 θ T, θ T 1, D T ) =. = p(θ T D T ) T 1 t=0 p(θ t θ t+1, D T ) (3.8) O termo dentro do produtório pode ser calculado usando o teorema de Bayes p(θ t θ t+1, D T ) = p(θ t θ t+1, D t, y t+1:t ) = p(y t+1:t θ t, θ t+1, D t )p(θ t θ t+1, D t ) p(y t+1:t θ t+1, D t ) (3.9) Em (3.9), se usarmos que θ t é independente de qualquer observação futura dados θ t+1 e D t, teremos que p(θ t θ t+1, D T ) = p(y t+1,t θ t+1, D t )p(θ t θ t+1, D t ) p(y t+1:t θ t+1, D t ) = p(θ t θ t+1, D t ). (3.10) Então, substituindo (3.10) em (3.8), temos que a densidade conjunta suavizada, p(θ 0:T D T ), e dada por Previsão T 1 p(θ 0:T D T ) = p(θ T D T ) p(θ t θ t+1, D t ). (3.11) A densidade preditiva K-passos a frente pode ser obtida para cada t, condicional na informação disponível D t. Dado o MD definido pelas equações (3.1), (3.2) t=0 28

41 e (3.3), a densidade preditiva K-passos a frente do vetor de estados θ t pode ser avaliada iterativamente. Supondo que p(θ t+1 θ t, D t ) = p(θ t+1 θ t ) (3.12) a densidade preditiva 1 passo a frente é dada por p(θ t+1 D t ) = p(θ t+1 θ t )p(θ t D t )dθ t (3.13) e a densidade preditiva K-passos-a frente p(θ t+k D t ) pode ser obtida recursivamente através de p(θ t+k D t ) = p(θ t+k θ t+k 1 )p(θ t+k 1 D t )dθ t+k 1 (3.14) para k = 1,..., K. Se a quantidade de interesse for (y t+k D t ), sua densidade pode ser calculada a partir de p(y t+k D t ) = p(y t+k θ t+k )p(θ t+k D t )dθ t+k (3.15) 3.4 O Modelo Linear Dinâmico (MLD) Definição 3.2 Para cada t, o MLD geral é definido por y t = c t + F tθ t + ν t ν t N d (0, V t ) (3.16) θ t = d t + G t θ t 1 + ω t ω t N p (0, W t ) (3.17) θ 0 D 0 N p (m 0, C 0 ) (3.18) onde y t é o vetor de observações e θ t é o vetor de estados não observáveis. m 0 e C 0 são os momentos da distribuição inicial e são supostos conhecidos. Assume-se que os erros observacionais, {ν t }, e os erros da evolução, {ω t }, são mutuamente independentes e também independentes da distribuição inicial. 29

42 Os vetores c t, d t e as matrizes F t, G t, V t e W t são consideradas conhecidas para cada t e podem depender de um vetor de parâmetros ψ, o que não é inicialmente incluído na notação. A inclusão de c t, d t na definição 3.4 foi motivada pela classe de modelos modelos de volatilidade estocástica e suas extensões que serão apresentados nos capítulos 4, 5 e 6 desta tese. Esta definição do MLD foi introduzida por Harrison e Stevens (1976) no contexto Bayesiano. Um amplo tratamento usando esta abordagem pode ser encontrado em West e Harrison (1997), enquanto que o tratamento clássico do MLD é dado por exemplo por Harvey (1989) O Filtro de Kalman O Filtro de Kalman é um método para avaliar a distribuição posterior (θ t D t ) baseado na distribuição a priori (θ t D t 1 ). Essencialmente o filtro de Kalman é um algoritmo que permite atualizar de forma recursiva a distribuição dos estados quando uma nova observação esta disponível. Teorema 3.1 No MLD da definição 3.2, as distribuições um passo a frente e posterior, para cada t, são dados a seguir a t {}}{{}}{ θ t D t 1 N p ( d t + G t m t 1, G t C t 1 G t + W t ) (3.19) f t Q t {}}{{}}{ y t D t 1 N d ( c t + F ta t, F tr t F t + V t ) (3.20) A t {}}{{}}{ θ t D t N p (a t + R t F t Q 1 (y t f t ), R }{{} t A t Q t A t.) (3.21) }{{} m t C t Prova: (West e Harrison, 1997) A prova, é baseada no principio de indução. Pela hipótese de indução, θ t 1 D t 1 N (m t 1, C t 1 ), e da equação de estado (3.17) tem-se (3.19). Usando-a conjuntamente com a equação observacional (3.16) resulta (3.20). (3.19) e (3.20) determinam a distribuição conjunta de y t e θ t exceto e t R t 30

43 pela covariância, a qual segue de (3.16) e é dada por C(y t, θ t D t 1 ) = F tr t. Logo, da teoria da distribuição Normal tem-se (3.21) e estabelecendo-se a fórmula recursiva. Nas fórmulas do filtro de Kalman, foi introduzida a matriz adaptativa A t, (também conhecida como ganho de Kalman), a previsão um passo a frente, f t, com suas variâncias associadas, Q t, e o erro de previsão um passo a frente, e t Suavizador de Kalman A distribuição do vetor de estados θ t, utilizando toda a informação disponível, D T, é chamada de distribuição suavizada. O algoritmo que permite obter estas distribuições para todo t é chamado de algoritmo suvizador de Kalman. Teorema 3.2 No MLD da definição 3.2, define-se B t = C t G t+1 R 1 t+1 para todo t. Então a distribuição suavizada de θ t dado D T é dada por θ t D T N p ( m t, C t ) onde: m t = m t + B t ( m t+1 a t+1 ) e C t = C t + B t ( C t+1 R t+1 )B t onde m T = m T e C T = C T Prova: (West e Harrison, 1997) A dedução das formulas recursivas do algoritmo de suavização de Kalman e baseada no principio de indução para trás em t. Logo no tempo t = T tem-se que θ T D T N p ( m T, C T ) (3.22) 31

44 tal que m T = m T e C T = C T. Pela hipótese indutiva tem-se que θ t+1 D T N p ( m t+1, C t+1 ). Logo temos que provar que θ t D T N p ( m t, C t ). Do Filtro de Kalman, (3.19) e (3.21), tem-se as identidades θ t+1 D t N p (a t+1, R t+1 ) θ t D t N p (m t, C t ) as quais determinam a distribuição condicional conjunta de θ t+1 e θ t dado D t. A covariância C(θ t+1, θ t D t ) = C t G t+1 é obtida a partir de (3.17). Logo, da distribuição normal multivariada tem-se que (θ t θ t+1, D t ) N p (m t + B t {}}{ C t G t+1 R 1 t+1(θ t+1 a t+1 ), C t B t R t+1 B t).(3.23) Já que θ t é condicionalmente de D T \Dt dado θ t+1, a distribuição em (3.23) é idêntica à distribuição de (θ t θ t+1, D T ). Finalmente, usando a hipótese de indução, obtém-se m t = E[E[θ t θ t+1, D T ] D T ] = m t + B t ( m t+1 a t+1 ) (3.24) C t = E[V[θ t θ t+1, D T ] D T ] + V[E[θ t θ t+1, D T ] D T ] = C t + B t ( C t+1 R t+1 )B t. (3.25) Desta maneira, o algoritmo suavizador de Kalman é processado depois do Filtro de Kalman e inicializado pela equação (3.22). As demais recursões seguem de (3.24) e (3.25). O sinal µ t = F tθ t dado D T tem distribuição µ t N d (F t m t, F C t t F t ) (3.26) 32

45 3.4.3 Filtro de Perturbações O filtro de perturbações é matemáticamente equivalente ao filtro de Kalman. A razão para esta terminologia é que a saída do filtro de perturbações fornece os erros de previsão um passo a frente e t, a inversa das variâncias destes erros, Q 1 t, e as matrizes adaptativas escaladas K t. As equações do filtro de perturbações são obtidas a partir do filtro de Kalman e o algoritmo é inicializado usando m 0 e C 0, os parâmetros de [θ 0 D 0 ]. No filtro de Kalman temos que a 1 = d 1 + G 1 m 0 e R 1 = G 1 C 0 G 1 + W 1. Então para t = 1,..., T temos a seguinte recursão: e t = y t c t F ta t Q t = F tr t F t + V t K t = G t+1 F t R t Q 1 t a t+1 = d t+1 + G t+1 a t + K t e t R t+1 = G t+1 R t (G t+1 K t F t) + W t+1, onde K t = G t+1 A t é a conexão com o coeficiente adaptativo definido em (3.21). Deste modo o filtro de perturbações é equivalente ao filtro de Kalman, exceto pelas saídas. Somente K t, Q 1 t Kalman armazena adicionalmente m t e C t Perturbações suavizadas e e t são armazenados, enquanto que o Filtro de Como no caso da filtragem, é possível obter um ganho computacional usando as perturbações ao invés dos estados. Isto é, determinam-se ν t = E[ν t D T ] e ω t = E[ω D T ] em lugar de m = E[θ t D T ]. O algoritmo de perturbações suavizadas introduzido por Koopman (1993), fornece o estimador do erro quadrático médio do vetor de perturbações dadas todas as observações, a partir das saídas do filtro de perturbações, K t, Q 1 t e e t. 33

46 Como na derivação de suavizador de Kalman, a obtenção das perturbações suavizadas é uma recursão para trás no tempo. Seja r t o vetor p dimensional para as perturbações dos estados e ε t o vetor d-dimensional de perturbações das observações. A recursão é inicializada com r T = 0. Então para t = T,..., 1 tem-se a recursão para trás ε t = Q 1 t e t K t r t (3.27) ν t = V t ε t (3.28) ω t = W t r t 1 (3.29) r t = F t ε + G t+1r t (3.30) Observe-se que comparada ao suavizador de Kalman, não são necessárias inverter matrizes, já que Q t tem sido invertida pelo filtro de perturbações. Então os valores suavizados m t são obtidos pela recursão m t = G t m t 1 + ω t, t = 1,..., T As fórmulas de C t são omitidas já que não tem sido usadas nas aplicações, mais estas podem ser vista em Koopman (1993) e Koopman, Shepard e Doornik (1999) Previsão Nesta subseção são apresentados as distribuições k-passos a frente das observações (y t+k D t ) e dos estados (θ t D t ), k N. Teorema 3.3 Para cada t, k 1 as distribuições k-passos a frente de θ t+k D t e y t+k D t são dadas por (θ t+k D t ) N p (a (k) t, R (k) t ), (y t+k D t ) N d (d t+k F t+ka (k) t, F t+kr (k) t F t+k + V t+k ). 34

47 onde a (k) t e R (k) t são obtidos pele recursão a (k) t = G t+k a (k 1) t, R (k) t = G t+k R (k 1) t G t+k + W t+k. Os valores iniciais são obtidos pelo filtro de Kalman no tempo t a (0) t = m t, R (0) t = C t. A prova do teorema 3.3 pode ser obtida em West e Harrison (1997). 3.5 Monte Carlo com Cadeias de Markov Nesta seção, considera-se o problema da inferência Bayesiana para os parâmetros e estados do MD. Esta não é uma tarefa simples de se fazer, pois geralmente a distribuição conjunta posterior não tem solução analítica fechada. Com a aparição dos métodos MCMC este problema tem sido resolvido pois, pelo menos a princípio, podem ser implementados com qualquer distribuição posterior. A aplicação dos métodos MCMC no MD definido pelas equações (3.1)-(3.3) é baseada na geração de amostras da distribuição posterior p(θ 0:T, ψ y 1:T ) onde ψ é o vetor de parâmetros. Para amostrar a distribuição acima procede-se em duas etapas: inicialmente amostra-se ψ p(ψ θ 0:T, y 1:T ). e a seguir os estados são simulados condicionais a este valor a partir de θ 0:T p(θ 0:T ψ, y 1:T ). 35

48 Em geral amostrar esta distribuição não é uma tarefa fácil. Existem na literatura duas classes de amostradores para os estados que exploram a natureza do MD: o amostrador single-move que atualiza um estado por vez um estado, e o amostrador multi-move que atualiza blocos de estados simultaneamente, sendo este último mais eficiente do ponto de vista computacional, além de acelerar a convergência à distribuição de equilíbrio Amostrador single move Carlin, Polson e Stoffer (1992) propuseram o amostrador single move usando o algoritmo de Gibbs. Mais recentemente Geweke e Tanizaki (2001) incluíram um passo de Metropolis-Hasting dentro do amostrador de Gibbs que pode ser aplicado para qualquer modelo dinâmico seja não Gaussiano ou não linear. A idéia é amostrar θ (i) t de p(θ t θ t, ψ, y 1:T ). onde θ t denota o vetor de estados θ 0:T sem a t - ésima componente. Logo os estados são gerados um a um, aproveitando a estrutura Markoviana de estados vizinhos. Porém, de Jong e Shepard (1995) tem documentado que esta aproximação é extremamente ineficiente computacionalmente em uma ampla gama de modelos de interesse, pois devido a natureza Markoviana do MD, os estados vizinhos são altamente correlacionados, fazendo que a exploração do espaço paramétrico seja lenta, e em alguns casos a convergência à distribuição de equilíbrio não é sempre alcançada Amostrador multi move Forward Filtering, Backwards Sampling Diante da ineficiência do amostrador single move, uma solução melhor é amostrar θ 0:T de uma só vez. A idéia central é usar a decomposição da densidade posterior 36

49 baseada em (3.11). T 1 p(θ 0:T ψ, y 1:T ) = p(θ T ψ, y 1:T ) p(θ t ψ, θ t+1, y 1:t ). (3.31) Esta densidade pode ser determinada de maneira aproximada em modelos dinâmicos não gaussianos ou não lineares. No caso Gaussiano todavia é muito simples obterse esta decomposição (3.31), já que todas as quantidades envolvidas são fornecidas pelo filtro e pelo suavizador de Kalman. Então o algoritmo de simulação procede da seguinte maneira Amostrar θ (i) T N p(m T, C T ) t=0 para t = T 1,..., 0 amostrar θ (i) t de p(θ t ψ, θ (i) t+1, y 1:t ) como em (3.23). Então θ (i) 0:T é uma amostra de p(θ 0:T ψ, y 1:T ). Para obter uma amostra de p(θ 0:T ψ, y 1:T ), repete-se o mecanismo de simulação. Este método por razões obvias é denominado forward filtering, backwards sampling (FFBS) e foi independentemente proposto por Carter e Kohn (1994) e Frühwirth-Schnater (1994) como alternativa à ineficiência da aproximação usando o amostrador de Gibbs com movimento simple. Carter e Kohn (1994) fizeram uma comparação empírica dos dois amostradores. Baseados em seus exemplos eles concluem, e concordam com de Jong e Shepard (1995), que gerar os estados simultaneamente produz uma rápida convergência. Algoritmo de de Jong e Shephard O algoritmo FFBS foi melhorado por de Jong e Shepard (1995), simulando as perturbações em lugar dos estados. Esta técnica é chamada de algoritmo de simulação de perturbações suavizadas. A principal razão para que este algoritmo seja mais eficiente é que somente as saídas do filtro de pertubações são necessárias, em lugar das saídas do filtro de Kalman que precisam de maior espaço para 37

50 armazená-las. A recursão é iniciada fazendo r T = 0, N T = 0. Logo para t = T,..., 1 Ω t = W t W t N t W t υ N p (0, Ω t ) Λ {}} t { Υ t = W t N t {G t+1 K t F t} r t 1 = F t ε t G t+1r t Υ tω 1 t υ t N t 1 = F t Q 1 t F T + Λ tn t Λ t + Υ t Ω 1 t Υ t (3.32) onde ε t vem de (3.27). Note que se υ t 0 e Υ t = 0, então r t = r t, o algoritmo de de Jong e Shepard se reduz ao algoritmo de perturbações suavizadas. Uma amostra ω (i) t e desta de p(ω t y 1:T ) é dada por ω (i) t = W t r t 1 + υ t (3.33) θ t = G t θ (i) t 1 + ω (i) t (3.34) Para obter uma amostra i.i.d de p(θ 0:T ψ, y 1:T ), repete-se o procedimento. Amostrador por Blocos Como foi descrito o amostrador single-move tem seus inconvenientes, embora as taxas de aceitação sejam próximas de 1. Com a finalidade de evitar estes problemas Shephard e Pitt (1997) e Watanabe e Omori (2004) consideram a atualização dos estados por blocos. Suponha que a equação de transição do modelo dinâmico é dada por θ t = G t θ t 1 + S t η t, η t N (0, I), t = 1,..., T (3.35) 38

51 Assume-se por simplicidade que W t = S t S t é não singular. Seja θ s:s+m = (θ s,..., θ s+m ). Considere a distribuição condicional θ θ s 1, θ s+m+1, y s,..., y s+m para m 2. Vemos que e esta distribuição é uma distribuição altamente multivariada e possivelmente degenerada, então constrói-se uma proposta de densidade baseada nas perturbações que são não degeneradas. Logo, o log a distribuição condicional de η s:s+m θ s 1, θ s+m+1, y s:s+m, é dado por log f(η s:s+m θ s 1, θ s+m+1, y s:s+m ) Sejam cte 1 s+m s+m η η + log p(y t θ s:s+m ) 2 t=s t=s 1 2 (θ s+m+1 G s+m θ s+m ) W 1 s+m+1(θ s+m+1 G s+m θ s+m ) (3.36) l s = log f(y s θ) L = s+m l t 1 2 (θ s+m+1 G s+m θ s+m ) W 1 s+m+1(θ s+m+1 G s+m θ s+m ) t=s η s:s+m = (η s,..., η s+m) quando s + m = T, L = T t=s l t. De fato existe uma correspondência entre η s:s+m e θ s:s+m. θ s 1, θ s+m+1 são denominados nós estocásticos. Então, dados θ s 1, θ s+m+1, usa-se uma expansão do logaritmo da distribuição condicional de η s:s+m em torno da moda ˆη s:s+m e a proposta de densidade é obtida como segue 39

52 log f(η s:s+m θ s 1, θ s+m+1, y s:s+m ) cte 1 s+m η 2 tη t + ˆL + L η (η s:s+m ˆη s:s+m ) t=s ηs:s+m = ˆη s:s+m + 1 ( ) 2 (η s:s+m ˆη s:s+m ) L 2 E (η η s:s+m η s:s+m ˆη s:s+m ) s:s+m η s:s+m = ˆη s:s+m = cte 1 s+m η 2 tη + ˆL + d (θ s:s+m ˆθ s:s+m ) 1 2 (θ s:s+m ˆθ s:s+m ) Q(θ s:s+m ˆθ s:s+m ) t=s = cte + log f (η s:s+m θ s 1, θ s+m+1, y s:s+m ) (3.37) onde ˆL = L ηs:s+m = ˆη s:s+m, d = [ ] L 2 Q = E θ θ = η s:s+m = ˆη s:s+m L η s:s+m ηs:s+m = ˆη s:s+m e M s N s N s+1 M s+1 N s N s+2 M s N s+m N s+m M s+m [ ] L 2 M t = E θ t θ, t = s,..., s + m t η s:s+m = ˆη [ ] s:s+m L 2 N t = E θ t θ t = s + 1,..., s + m, N s = 0. t 1 η s:s+m = ˆη s:s+m as esperanças são tomadas com relação aos y t condicionais nos θ s:s+m (Omori e Watanabe, 2003). Usa-se Q porque é necessário que seja positiva definida. Entretanto, outras matrizes como o negativo da matriz Hessiana pode ser usada para construir a proposta. Seja D t = M t N t D 1 t 1N t para t = s + 1,..., s + m, com D s = M s e H t denota a decomposição de Cholesky de D t tal que D t = H t H t. Define-se a variável auxiliar ŷ t = ˆδ t + D 1 t b t onde 40

53 ˆδ t = ˆθ t + H 1 t J t+1ˆθ t+1, t = s,..., s + m 1 ˆθ s+m, t = s + m, b t = d t J t H 1 t 1b t 1, t = s + 1,..., s + m, b s = d s, J t = H 1 t 1N t, t = s + 1,..., s + m, J s = 0. Então considere-se o MLD dado por: ŷ t = Z t θ t + u t (3.38) θ t = G t θ t + S t η t, t = s,..., s + m. (3.39) onde Z t = I + H 1 t J t+1g t+1, e u t = H 1 t J t+1s t+1 η t+1 + H 1 t ɛ t. Pode ser mostrado que a densidade posterior dos η t obtida a partir de (3.38) e (3.39) e a mesma que f em (3.37)(Omori e Watanabe, 2003). Logo, é possível simular da densidade η θ s 1, θ s+m+1, ŷ usando o algoritmo de simulação de perturbações suavizadas (de Jong e Shepard, 1995). A proposta gerada é aceita usando o algoritmo de Aceitação Rejeição e Metropolis-Hastings (AR-MH). Detalhes deste algoritmo podem ser encontrados em Tierney (1994), Watanabe (2003), Omori e Watanabe (2003). Uma característica que faz atrativo o amostrador por blocos é que para avaliar a razão de aceitação, f/f, usada no algoritmo de Metopolis-Hastings só é precisso calcular a diferença entre L e d (θ ˆθ) 1 2 (θ ˆθ) Q(θ ˆθ). Conseqüentemente, o algoritmo segue sendo eficiente embora a dimensão do problema cresça. Há aproximação baseada em encontrar a expansão de segunda ordem ao redor de ˆη a moda da distribuição, dados os nós. Então, para obter a moda se expande L ao redor de valores arbitrários de ˆη para obter as equações (3.38)- (3.39). Logo, usando o algoritmo de pertubações suavizadas se obtém a média destas perturbações e expande-se ao redor desta e assim se procede iterativa- 41

54 mente. Na pratica depois de 4 iterações obtém-se ˆθ muito próximo da moda. 3.6 Métodos de Monte Carlo Seqüenciais Considere o modelo dinâmico definido na seção 3.2 pelas equações (3.1), (3.2) e (3.3). Suponha por enquanto, que o vetor de parâmetros ψ é conhecido. Depois, será mostrado como incluí-lo na análise. No entanto as equações de evolução e de atualização para cada t, são dadas pelas equações (3.4) e (3.6) respectivamente. Somente em alguns casos estas densidades admitem uma forma analítica. A idéia central nos métodos seqüenciais é usar uma amostra, com pesos associados, para representar a densidade a posteriori. Desta forma, é possível considerar qualquer problema não linear e não gaussiano de uma maneira sistemática. Existem diferentes versões do filtro de partículas baseados em aceitação-rejeição, MCMC e amostragem por importância. Os filtros apresentados neste trabalho serão baseados no princípio de amostragem por importância. Antes de apresentar os algoritmos se introduz a seguinte notação para facilitar a exposição dos mesmos. {(θ (1) t, w (1) t ),..., (θ (i) t, w (i) t ),..., (θ (N) t, w (N) t )} a p(θ t D t ) é usada para denotar que a função de densidade de probabilidades, p(θ D t ), de uma variável aleatória contínua, θ t, é aproximada por uma variável discreta com suporte discreto. O objetivo dos métodos seqüenciais é aproximar a integral E[g(θ t ) D t ] = g(θ t )p(θ t D t ) a cada instante do tempo, através de simulação recursiva. Do Teorema de Bayes, para qualquer tempo t, temos que p(θ t D t ) = p(θ t D t 1 )p(y t θ t, D t 1 ). (3.40) p(y t D t 1 ) 42

55 Note que p(θ t D t 1 ) = p(θ t θ t 1 )p(θ t 1 D t 1 ) pode ser aproximada por p(θ t D t 1 ) N i=1 p(θ t θ (i) t 1)w (i) t 1 (3.41) onde θ (i) t 1 é uma amostra de p(θ t 1 D t 1 ) com peso w (i) t 1. Logo, E[g(θ t ) D t ] = = = g(θ t )p(θ t D t ) g(θ t ) p(θ t D t 1 )p(y t θ t, D t 1 ) dθ t p(y t D t 1 ) 1 N g(θ t ) p(θ t θ (i) p(y t D t 1 ) t 1)w t 1p(y (i) t θ t )dθ t 1 p(y t D t 1 ) 1 p(y t D t 1 ) N i=1 N i=1 i=1 g(θ t )q(θ t θ (i) t 1, y t ) p(θ t θ (i) t 1)p(y t θ t )w (i) t 1 dθ q(θ t θ t 1, (i) t y t ) g(θ t )w (i) t (3.42) onde θ (i) t é uma amostra da densidade de importância q(θ t θ (i) t 1, y t ), e t = p(θ t θ (i) t 1)p(y t θ t ) w t 1. (i) (3.43) q(θ t θ t 1, (i) y t ) w (i) 43

56 Note que p(y t D t 1 ) = p(θ t 1 D t 1 )p(y t θ t 1 )dθ t 1 = = = N i=1 N i=1 N i=1 N i=1 N i=1 p(y t θ t 1 )w (i) t 1 w (i) t 1 w (i) t 1 w (i) t 1 p(θ t θ (i) t 1)p(y t θ t, D t 1 )dθ t q(θ t θ (i) t 1, y t ) p(θ t θ (i) t 1)p(y t θ t ) dθ q(θ t θ (i) t t 1, y t ) p(θ (i) t θ (i) q(θ (i) t t 1)p(y t θ (i) θ (i) t 1, y t ) t ) w (i) t (3.44) Logo, substituindo (3.44) em (3.42), temos que E[g(θ t ) D t ] N i=1 g(θ t )w (i) t (3.45) onde Filtros SIS e SIR w (i) t = w (i) t N k=1 w (k) t (3.46) O algoritmo de amostragem por importância seqüencial (SIS) é um método de Monte Carlo (MC) que é a base para a maior parte dos filtros seqüenciais que tem sido desenvolvidos na década passada, (ver Doucet, Godsill e Andrieu, 2000; Doucet, de Freitas e Gordon, 2001; e Arulampalam, Maskell, Gordon e Clapp (2002) para uma revisão aprofundada). A aproximação por Monte Carlo Seqüencial (SMC) é conhecida também como filtro bootstrap (Gordon, Salmond e Smith, 1993) e filtro de partículas (Carpenter, Clifford e Fearnhead, 1999). É uma 44

57 técnica para implementar recursivamente o filtro Bayesiano por simulações de Monte Carlo. Com a finalidade de desenvolver detalhes do algoritmo, seja θ (1) t 1,..., θ (N) t 1 uma amostra de p(θ t 1 D t 1 ). Uma alternativa natural para a densidade de importância q(θ t θ t 1, y t ), é usar p(θ t θ t 1 ) para amostrar um novo conjunto de partículas, (1) θ t,..., (N) θ t. Esse novo conjunto de partículas representa uma amostra de p(θ t D t ). Os pesos são atualizados, substituindo p(θ t θ t 1 ) por q(θ t θ t 1, y t ) na equação (3.43), pela recursão w (i) t p(y t θ t )w (i) t 1 (3.47) Esta foi a idéia original. Porém esta aproximação leva à degeneração da amostra, ou seja depois de umas poucas iterações, restam somente algumas partículas com pesos diferentes de zero. O problema da degeneração pode ser controlado introduzindo-se a reamostragem como proposto por Gordon et al. (1993). Este algoritmo, denominado amostragem-reamostragem por importância (SIR), pertence a uma ampla classe de filtros bootstrap, os quais usam um passo de reamostragem para gerar partículas com pesos uniformes. Este passo introduz uma diferença no conjunto de partículas, evitando a degeneração. Além disso, devido ao passo de re-amostragem os pesos das partículas se distribuem uniformemente: w t 1 = 1/N. As partículas θ (i) t são reamostradas, por simplicidade N vezes, com pesos proporcionais a p(y t θ (i) t ) para produzir um novo conjunto de partículas θ (1) t,..., θ (N) t e pesos w t = 1/N Filtro Auxiliar de Partículas Existem diferentes versões do filtro de partículas básico. Em Pitt e Shephard (1999) o Filtro Auxiliar de Partículas (APF) é proposto como um método alter- 45

58 nativo. Assumindo {(θ (1) t 1, w (1) t 1),..., (θ (i) t 1, w (i) t 1),..., (θ (N) t 1, w (N) t 1)} a p(θ t 1 D t 1 )}, uma aproximação natural de Monte Carlo (quando M ) para a distribuição a priori p(θ t D t 1 ) é dada por ˆp(θ t D t 1 ) definida em (3.41), a qual, segundo a terminologia adotada por Pitt e Shephard (1999) é chamada de densidade preditiva empírica. Combinando esta priori com a equação observacional, através do Teorema de Bayes, temos a seguinte aproximação da distribuição a posteriori do vetor de estados no tempo t ˆp(θ t D t ) N i=1 p(y t θ t )p(θ t θ (i) t 1)w (i) t 1 (3.48) a densidade filtrada empírica segundo Pitt e Shephard (1999). Observe que a equação (3.48) é uma mistura de distribuições, a qual pode ser re-parametrizada introduzindo uma variável auxiliar k {1,..., N} que indica o componente da mistura. Em outras palavras, se (θ t, k) são amostrados da seguinte distribuição p(θ t, k D t ) p(y t θ t )p(θ t θ (k) t 1)p(k D t 1 ) (3.49) e o indicador k descartado, o θ t resultante é uma amostra de (3.48). A idéia principal do APF é incrementar a influência das partículas que tenham uma grande verossimilhança preditiva. Desta maneira, o algoritmo gera um novo conjunto de partículas simulando conjuntamente o indicador k (seleção) e o valor partícula θ t (mutação) da densidade de importância g(θ (j) t, k j D t ) g(θ (j) t D t )g(k j D t 1 ) = p(θ t θ (kj ) t 1 )p(y t µ (kj ) t )w (kj ) t 1 (3.50) para j = 1,..., N e onde µ (kj ) t é uma estimativa de θ t dado θ (kj ) t 1, por exemplo a média, a moda ou um outro valor altamente provável p(θ t θ t 1 ). Deste modo, partículas menos informativas são descartadas. A informação contida em cada 46

59 partícula é avaliada com relação à variável observável e ao conjunto inicial de partículas. Os pesos das partículas são atualizados de acordo com t = p(y t θ (j) t ) p(y t µ (kj ) t ). (3.51) w (j) 47

60 Capítulo 4 Modelos de Volatilidade Estocástica 4.1 Introdução O modelo de volatilidade estocástica (VE) foi introduzido por Tauchen e Pitts (1983) e Taylor (1982) como uma maneira de descrever as mudanças das volatilidades dos retornos ao longo do tempo. Esta classe de modelos, uma alternativa aos modelos GARCH, está diretamente ligada aos processos de difusão usados na teoria financeira de precificação de ativos (Melino e Turnbull, 1990) e captura, de uma maneira mais apropriada, as principais propriedades empíricas observadas freqüentemente nas séries de retornos financeiros (veja, por exemplo, Carnero, Peña e Ruiz, 2004). Embora o modelo de VE tenha estes atrativos teóricos, sua estimação não é simples. O problema central é que o processo latente, a volatilidade, entra no modelo de forma não linear. Este fato origina que a função de verossimilhança não seja simples de se obter pois depende de integrais que não têm solução analítica fechada e cuja dimensão é a dimensão dos dados. Uma variedade de métodos têm sido propostos no contexto da inferência clássica; isto inclui o método generalizado dos momentos (Melino e Turnbull, 48

61 1990; Sorensen, 2000), quase verossimilhança (Harvey, Ruiz e Shepard, 1994), o método dos momentos (Gallant, Hshie e Tauchen, 1997), máxima verossimilhança simulada (Danielson, 1994; Sandmann e Koopman, 1998; Liesenfeld e Jung, 2000) e, mais recentemente, amostragem por importância eficiente (Liesenfeld e Richard, 2003). Os métodos MCMC tem sido usados para estimar os parâmetros e as logvolatilidades do modelo de VE do ponto de vista Bayesiano. Assim por exemplo Jacquier, Polson e Rossi (1994) usaram o amostrador de Gibbs singlemove dentro do algoritmo de Metropolis-Hastings para amostrar das log-volatilidades. Geweke (1994) observou que a distribuição condicional completa das log-volatilidades é log-côncava, e conseqüentemente o algoritmo de Gilks e Wild (1992) poderia ser usado. Kim, Shepard e Chib (1998) e Mahieu e Schotman (1998), entre outros, aproximaram a distribuição do logaritmo do quadrado dos retornos por uma mistura de distribuições normais, permitindo que todo o vetor de log-volatilidades pudesse ser amostrado de uma vez só. Shephard e Pitt (1997) e Watanabe (2003) sugeriram o uso de blocos aleatórios compostos por alguns dos componentes do vetor de log-volatilidades. Quando uma nova observação torna-se disponível, em princípio poderia-se simplesmente rodar o algoritmo MCMC para estimar o modelo de VE. Entretanto, quando um analista financeiro necessita fazer previsões das log-volatilidades alguns passos a frente para alguns dos ativos que compõem seu portfolio, o custo de rodar novamente as rotinas com os métodos MCMC pode ser proibitivo e os algoritmos seqüenciais em tempo-real jogam um papel central para avaliar a distribuição posterior das log-volatilidades a cada passagem do tempo. Neste contexto, Pitt e Shephard (1999) introduziram o filtro auxiliar de partículas (APF) aplicando-lo ao modelo de VE. Stroud, Polson e Müller (2004) forneceram o algoritmo denominado Practical Filtering with Parameter Learning que permite 49

62 avaliar simultaneamente as distribuições filtradas das log-volatilidades e a posteriori dos parâmetros a cada instante do tempo. Stroud et al. (2004) compararam sua aproximação com o algoritmo APF baseado em Storvik (2002). O objetivo deste capítulo é: apresentar uma revisão das propriedades básicas do modelo do VE com erros normais (VEN ), das técnicas MCMC usadas na estimação dos parâmetros e das log-volatilidades, comparando a eficiência dos algoritmos usados, e dos métodos de Monte Carlo Seqüenciais (SMC). O resto do capítulo está organizado da seguinte forma. A seção 4.2 explica brevemente o modelo de VEN e algumas das suas propriedades básicas. A seção 4.3 descreve os métodos MCMC para o modelo de VEN. A seção 4.4 mostra os métodos SMC aplicados ao problema de estimação seqüencial em modelos de VEN. Finalmente a seção 4.5 apresenta uma aplicação do modelo VEN a dados sintéticos e à série de retornos diários do índice da Bolsa de Valores de São Paulo (IBOVESPA). 4.2 O Modelo de Volatilidade Estocástica Normal O Modelo de Volatilidade Estocástica Normal (VEN) é especificado por y t = exp(h t /2)ε t, ε t N (0, 1) t = 1,..., T, (4.1) h t = α + φh t 1 + σ η η t, η t N (0, 1), (4.2) onde y t é o retorno composto no instante t, h t é log-volatilidade de y t, {ε t } e {η t } são erros mutuamente independentes com distribuição N (0, 1), ψ = (α, φ, ση) 2 são os parâmetros do modelo, e h 0 N (m 0, C 0 ) com m 0 e C 0 conhecidos. O espaço paramétrico é R ( 1, 1) R +. A restrição em φ garante a estacionariedade estrita de y t. As estimativas de φ tipicamente estão próximas de 1, conseqüentemente φ é interpretado como parâmetro de persistência da volatilidade. A média incondicional de h t é µ = α/(1 φ) e (4.2) pode ser parametrizada usando µ, então h t = µ + φ(h t µ) + σ η η t. Uma outra parametrização remove 50

63 α da equação (4.2), rescrevendo a equação (4.1) como y t = τ exp(h t /2)ε t, onde τ = exp(µ/2). As diferentes parametrizações tem correspondência entre si e qualquer parametrização a ser usada, simplesmente é uma questão de conveniência e eficiência numérica nos algoritmos de estimação. Uma revisão das propriedade do modelo de VE pode ser encontrada em Taylor (1994), Shephard (1996), Ghysels, Harvey e Renault (1996), Capobianco (2001) e Barndorff-Nielsen e Shephard (2001). Se φ < 1, h t é estacionário e a variância incondicional de y t é σy 2 = exp{0.5σh} 2 (4.3) onde σ 2 h = σ2 η/(1 φ 2 ), é a variância marginal do processo de log-volatilidades. A curtose de y t é dada por κ y = κ ε exp{σ 2 h} (4.4) onde κ ε é a curtose de ε t. Observe-se que a curtose κ y é finita se φ < 1. Embora a série y t seja não correlacionada, não é uma seqüencia de variáveis aleatórias independentes. A dinâmica da série aparece nos quadrados dos retornas e sua função de autocorrelação (acf), obtida por Taylor (1986), é dada por ρ(r) = exp(σ2 h φr ) 1 κ ε exp(σ 2 h ) 1 exp(σ2 h ) 1 3 exp(σ 2 h ) 1φr, r 1 (4.5) O comportamento das autocorrelações em (4.5) é o mesmo das autocorrelações de um processo ARMA(1,1). Não obstante, Carnero et al. (2004) mostraram que o comportamento teórico das auto correlações e a aproximação em (4.5) podem ser diferentes. Em qualquer caso, φ é considerado como uma medida de persistência dos quadrados dos retornos. A estimação por Máxima Verossimilhança (ML) e, em principio, a estimação 51

64 Bayesiana requerem do cálculo da função de verossimilhança da amostra observada, a qual e uma tarefa complicada. De fato, a densidade Y T = (y 1,..., y T ) dado ψ requer o cálculo da integral múltipla com dimensão igual à dimensão dos dados mais um: p(y T ψ) = p(y T H T, ψ)p(h T ψ)dh T (4.6) onde H T = (h 0, h 1,..., h T ). O modelo de VE pode ser linearizado tomando os logaritmos dos quadrados dos retornas: log(yt 2 ) = h t + log(ε 2 t ) (4.7) h t = α + φh t 1 + σ η η t (4.8) onde E(log(ε 2 t )) = e V(log(ε 2 t )) = Harvey et al. (1994) trataram as distribuições dos log(ε 2 t ) como se fossem Gaussianas e usaram o filtro de Kalman para estimar os parâmetros (α, φ, ση) 2 R ( 1, 1) R + maximizando a função de quase verossimilhança a qual, ignorando as constantes, é dada por log L Q (log y 2 1,..., log y 2 T ψ) = 1 2 T log Q t 1 2 t=1 T t=1 f 2 t Q 1 t (4.9) onde f t é o erro de previsão um passo-a-frente de log(yt 2 ) e Q t e a variância da previsão um passo-a-frente. Ruiz (1994) mostrou que o estimador de quase máxima verossimilhança (QML) é consistente e assintoticamente normal, não obstante, o estimador de QML é ineficiente. Observe-se que a approximação da densidade log(ε 2 t ) pela normal em lugar de usar a verdadeira log χ 2 1 pode resultar inadequada (ver a Figura 4.1a na página 57 para uma comparação de ambas densidades). As propriedades do estimador de QML foram analisadas por Ruiz (1994) quem mostrou que o viés do estimador ση 2 aumenta quando ση 2 decresce. Jacquier et al. (1994) também encontraram que o estimador QML tem 52

65 propriedades inadequadas quando a persistência é grande e ση 2 pequena. O modelo VEN pode ser escrito na forma do MD não linear com as variâncias dependendo dos estados, isto é p(y t h t ) N (0, exp ht ) (4.10) p(h t h t 1, ψ) N (α + φh t 1, ση) 2 (4.11) p(h 0 ) N (m 0, C 0 ) (4.12) 4.3 Inferência no Modelo VEN: MCMC O tratamento Bayesiano para a estimação dos parâmetros e log-volatilidade é baseado nos métodos MCMC (Gilks et al., 1996; Gamerman, 1997) para amostrar da densidade a posteriori conjunta. Andersen, Chung e Sφrensen (1999) obtiveram as propriedades dos vários estimadores em amostras finitas através de um estudo de Monte Carlo e encontraram que os métodos MCMC são as ferramentas mais eficientes para a estimação. Além disso, como produto da estimação de parâmetros, os métodos MCMC proporcionam estimativas das log-volatilidades e as distribuições preditivas (ver por exemplo Jacquier et al., 1994). Usando o princípio de aumento de dados, considere-se agora a distribuição posterior conjunta dos parâmetros e do vetor de log-volatilidades condicionados na informação no tempo T, isto é T p(ψ, H T D T, ψ) p(h 0 ) p(y t h t )p(h t h t 1, ψ)p(ψ) (4.13) t=1 Para amostrar (ψ, H T ) da densidade posterior se utiliza o amostrador de Gibbs (Gelfand e Smith, 1990). Amostra-se iterativamente primeiro ψ p(ψ H T, D T )(simulação dos parâmetros) e logo H T p(h T ψ, D T ) (aumento de dados). Kim et al. (1998) e Shephard e Pitt (1997) proporcionam prioris apropriadas e métodos de amostragem eficientes. O procedimento pode ser representado de maneira algorítmica da seguint forma: 53

66 1. Fazer i=0. 2. Inicializar parâmetros ψ (i) e H (i) T 3. Amostrar ψ (i+1) p(ψ H (i) T, Y T ) 4. Amostrar H (i+1) T p(h T ψ (i+1), Y T ) 5. Fazer i=i Retornar a 3. A derivação da distribuição de interesse, como a marginal de ψ e a média posterior podem ser obtidas a partir das saídas do algoritmo de Gibbs. Quando as distribuições condicionais não podem ser amostradas diretamente um passo de M-H é realizado. Assumindo que a priori a distribuição de ψ = (α, φ, σ 2 η) é dada por α N (ᾱ, s 2 α), φ N T [ 1,1] ( φ, σ 2 φ ) e σ2 η GI( T 0 destes parâmetros têm a forma 2, M 0 2 α. N ( b a, σ2 η a ) φ. N T ( 1,1) ( d c, σ2 η c ) σ 2 η. GI( T 1 2, M 1 2 ) ), então as condicionais completas As definições destas quantidades podem ser encontradas em Abanto-Valle, Migon e Lopes (2005) A seguir serão apresentados os algoritmos introduzidos na seção 3.5 do Capítulo 3, para amostrar das log volatilidades no contexto do modelo de VEN Amostrador single-move O amostrador de Gibbs single-move (SMGS) tem sido usado por exemplo em Jacquier et al. (1994), Geweke (1994), Kim et al. (1998), Meyer e Yu (2000), 54

67 Geweke e Tanizaki (2001) e Abanto-Valle e Migon (2004), para gerar amostras da distribuição posterior dos estados. Na implementação do SMGS, portanto é necessário obter as densidade condicionais completas de [h t.] p(h t H t, ψ, D T ) as quais são obtidas da equação (4.13) e tem a forma { } { p(h t H t, ψ, D T ) exp (y2 t e ht + h t ) 2 exp (h } t α φh t 1 ) 2 2 ση 2 { exp (h } t+1 α φh t ) 2 if t = 1,..., T 1 2σ η 2 (4.14) onde H t denota o vetor de estados H T sem a t ésima componente. Para t = T a condicional completa é (4.14) sem o último termo no produto. Como a condicional completa p(h t H t, ψ, D T ) não tem forma fechada, h t é simulada usando o algoritmo de M-H e o fato que p(h t H t, ψ, D T ) é log-côncava. A densidade proposta é obtida por uma expansão em Taylor de segunda ordem do logaritmo do núcleo da condicional completa (see Geweke e Tanizaki, 2001). Seja q(.) o log da condicional completa, então a proposta de densidade é N(µ ht, τ 2 h t ), onde µ ht = x q (x) q (x) e τ 2 h t = ( q (x)) 1, x é o valor da iteração anterior, q (.) e q (.) denotam à primeira e segunda derivadas respectivamente. Logo, os estados são gerados um componente a cada vez usando a estrutura Markoviana que permite condicionar nos estados vizinhos. Porém, como observado por de Jong e Shepard (1995), o amostrador de Gibbs single-move é extremamente ineficiente, devido a dependência Markoviana, os estados são correlacionados, e a convergência pode ser muito lenta Forward Filtering, Backward Sampling O amostrador de misturas usado por de Jong e Shepard (1995) e Kim et al. (1998) vem da transformação (4.7), onde y t = log(y 2 t ),(este amostrador será denotado por MSGS). Eles aproximaram a densidade de ξ t = log(ε 2 t ) por uma mistura de 55

68 sete densidades normais (ver Figura 4.1b), tal que os quatro primeiros momentos de ambas densidades sejam iguais. Logo a densidade aproximada pode ser escrita como 7 f(ξ t ) = q i f(ξ t s t = i). (4.15) i=1 onde ξ t s t = i N (µ i, υi 2 ) e q i = P (s t = i) (ver Tabela 4.1). s = (s 1,..., s T ) denota o vetor com os indicadores da mistura. Tabela 4.1: Pesos, média e variância da mixtura de normais i q i µ i υi Após a transformação do MD não Gaussiano numa mistura de MD Gaussianos, o modelo resultante é um MLD a cada t. 1 Conseqüentemente, amostrar [H T s, D T, ψ], [s H T, D T ] e [ψ H T, D T ], resulta simples. Gerar amostras do vetor H T, a partir da distribuição p(h T DT, ψ, s), pode ser feita de uma usando o MLD via o filtro de Kalman descrito no Capítulo 3. A amostragem de [ψ H T, D T ] é a mesma que no caso do amostrador single-move. A amostragem 1 D t denota a informação disponível no tempo t usando y t. A informação contida em D t e D t é equivalente. 56

69 (a) (b) Figura 4.1: (a) densidade do log χ 2 1 (linha cheia) e sua aproximação normal (linha grossa). (b) densidade do log χ 2 1 (linha cheia) e a aproximação por mistura de sete normais (linha pontilhada) da variável indicadora s de [s H T, DT ] é feita amostrando independentemente cada s t usando a massa de probabilidade como em Kim et al. (1998). Para amostrar do vetor de estados H T de uma vez só, omite-se a dependência do processo de variáveis indicadoras na derivação de já que p(h T T 1 p(h T DT, ψ) p(h T DT, ψ) p(h t D t, h t+1, ψ) (4.16) D T, ψ) e p(h t D t, h t+1, ψ) tem distribuição normal, é bastante simples obter uma amostra baseado na decomposição (4.16) já que as quantidades necessárias para estas densidades condicionais são obtidas do filtro de Kalman. Então o mecanismo de simulação segue da seguinte maneira Amostrar h (i) T N p(m T, C T ) Parar t = T 1,..., 0 amostrar h (i) t de p(h t ψ, h t+1, D t+1) como em (3.23). O valor atual h t+1 é usado. 57 t=0

70 Então H (i) T é uma amostra de p(h T ψ, DT ). Repetir algoritmo para obter uma amostra i.i.d de p(h T ψ, D T ) Simulaçao da distribuiçao suavizada usando o algoritmo de de Jong e Shepard de Jong e Shepard (1995) sugerem que amostrar das perturbações em lugar dos estados é mais eficiente porque evita as possíveis degenerações dos estados. Logo, o MSGS pode ser melhorado amostrando das perturbações em lugar das logvolatilidades diretamente. Assim, fazendo d t = α, G t = φ, W t = σ 2 η o algoritmo de de Jong e Shepard (1995) apresentado na seção 3.4 pode ser usado Amostrador por Blocos Shephard e Pitt (1997) propuseram o amostrador multi-move para amostrar os estados de MD não gaussianos e não lineares da sua distribuição posterior dados os parâmetros. Para reduzir a ineficiência do amostrador single-move, Shephard e Pitt (1997) dividem o vetor de estados em blocos e amostram cada bloco de uma vez. Este amostrador será denotado por BSGS. O amostrador BSGS baseado na aproximação da verdadeira densidade posterior por blocos dos erros dos estados dados os parâmetros e os nós por um MLD Gaussiano. Logo, a distribuição condicional do bloco de perturbações {η} t+k r=t dado h t 1 e h t+1 é expressa por log f({η r } r=t.) t+k = const + log f({η r } t+k r=t) + log f({y r } t+k r=t {h r } t+k r=t) 1 (h 2ση 2 t+k+1 α φh t+k ) 2 = const + 1 2σ 2 η t+k t+k ηr 2 + log f(y r h r ) r=t r=t 1 (h 2ση 2 t+k+1 α φh t+k ) 2. (4.17) 58

71 Então temos que log f(y r h r ) = const h r 2 y2 r exp( h r ) 2 (4.18) Denote log f(y r h r ) por l(h r ) e sejam l e l a primeira e segunda derivadas com relação a h r. A expansão de Taylor de segunda ordem nesta log-densidade log f({η r } r=t.) t+k ao redor de alguma estimativa preliminar {ˆη} t+k r=t, resulta que log f({η r } t+k+1 r=t.) const 1 + 2σ 2 η t+k ηr 2 1 (h 2σ 2 t+k+1 α φh t+k ) 2 + r=t η } t+k { l(ĥr) + (h r ĥr)l (ĥr) (h r ĥr) 2 l (ĥr) r=t = log g, (4.19) onde {ĥ}t+k r=t são as estimativas de {h r} t+k r=t correspondentes a {ˆη} t+k r=t. Definem-se d r e ŷ r como segue. 2 Para r = t,..., t + k 1, para r = t + k < T e se t + k = T, σ 2 η d r = 1 l (ĥr) ŷ r = ĥr + d r l (ĥr) (4.20) d t+k = φ σηl 2 (ĥt+k) [ ŷ t+k = d t+k l (ĥt+k) l (ĥt+k)ĥt+k + φ ] (h ση 2 t+k+1 α), (4.21) d t+k = 1 l (ĥt+k) ŷ t+k = ĥt+k + d t+k l (ĥt+k) (4.22) 2 Shephard e Pitt (1997) definiram d r e ŷ r para todo r usando as equações (4.20). Watanabe e Omori (2004) mostrou que este erro pode causar um viés significativo nas estimativas de ambos os parâmetros e as log-volatilidades. Quando t + k < T, d t+k e ŷ t+k devem ser definidos usando (4.21) 59

72 Então, a versão normalizada de g é uma densidade normal k-dimensional, a qual é a densidade exata de {ˆη r } t+k r=t condicional em {ŷ} r t+k r=t ŷ r = h r + ɛ r, ɛ r N(0, d r ), no MLD gaussiano: h r = α + φh r 1 + η r, η r N(0, σ 2 η) (4.23) Assim, o simulador de de Jong e Shepard (1995) pode ser aplicado neste modelo para amostrar {η r } t+k r=t da densidade g. Segundo Shephard e Pitt (1997), o ponto de expansão para o bloco, {ĥr} t+k r=t, é obtido aplicando o seguinte procedimento iterativo. Uma vez que o ponto arbitrário {ĥr} t+k r=t é selecionado, calcula-se as variáveis artificiais {ŷ r} t+k r=t. Então, aplicando o suavizador de Kalman ao MLD Gaussiano dado por (6.32) com variáveis artificiais {ŷ r } t+k r=t {ŷ} t+k r=t proporcionam a média de {h r } t+k r=t condicional em no MLD Gaussiano, a qual é usada como o seguinte {ĥr} t+k r=t. Nas aplicações tem-se usado cinco iterações deste procedimento para obter o ponto de expansão do bloco. Para implementar o amostrador BSGS, (Shephard e Pitt, 1997) escolhem os K nós (K > 2), que equivalem K + 1 blocos, aleatóriamente com U i sendo variáveis aletórias iid com distribuição uniforme, isto é U i U(0, 1), k i = int[t {(i + U i )/(K + 2)}], i = 1,..., K onde int[x] representa o operador que arredonda x ao inteiro mas próximo. Os nós estocásticos asseguram que o método não fique preso por uma excessiva quantidade de rejeições. 4.4 Inferência no Modelo VEN: SMC Considere a representação do modelo de VEN como um MD não linear dado pelas equações (4.10), (4.11) and (4.12). Nesta seção serão apresentados os algoritmos descritos na seção 3.6 do Capítulo 3. 60

73 Para facilitar a exposição dos algoritmos que serão apresentados a seguir considere que {(h (1) t, w (1) t ),..., (h (i) t, w (i) t ),..., (h (N) t, w (N) t )} a p(h t D t ) é usada para denotar que a densidade de probabilidades, p(h t D t ), da variável aleatória contínua, h t, é aproximada por uma discreta. Conseqüentemente, se o interesse é, por exemplo, calcular E(g(h t ) D t ), a aproximação baseada no conjunto de pontos h (1) t,..., h (N) t é N i=1 w ig(h (i) t ) Filtros SIS e SIR Seja h (1) t 1,..., h (N) t 1 uma amostra de p(h t 1 D t 1 ) uma escolha natural é usar a equação (4.11) como densidade de importância para amostrar o novo conjunto de partículas, h (1),..., (N) h t. O novo conjunto de partículas representa uma amostra de p(h t D t ). A atualização dos pesos é feita pela recursão w (i) t p(y t h t )w (i) t 1 (4.24) A seguir descrevem-se os algoritmos SIS e SIR de maneira algorítmica no contexto do modelo VEN. Algoritmo SIS-VEN 1. Posteriori em t 1: {(h (1) t 1, w (1) t 1),..., (h (i) t 1, w (i) t 1),..., (h (N) t 1, w (N) t 1)} a p(h t 1 D t 1 ) 2. Evolução: For i = 1,..., N amostrar h (i) t N (h t α + φh (i) t 1, σ 2 η) 3. Pesos: Para i = 1,..., N atualizar os pesos como segue { w t w (i) t 1 exp 1 [ ]} yt 2 e h(i) t + h (i) t 2 61

74 4. Posteriori em t: {(h (1) t, w (1) t ),..., (h (i) t, w (i) t ),..., (h (N) t, w (N) t )} a p(h t D t ) Algoritmo SIR-VEN 1. Posteriori em t 1: {(h (1) t 1, 1 ),..., (h(i) N t 1, 1 ),..., (h(n) N t 1, 1 )} a N p(h t 1 D t 1 ) 2. Evolução: For i = 1,..., N amostrar h (i) t N (h t α + φh (i) t 1, σ 2 η) 3. Pesos: For i = 1,..., N atualizar os pesos de acordo a { w t w (i) t 1 exp 1 [ y 2 (i) h t e t Atualização: For i = 1,..., N. Sample ]} (i) h t h (i) t {( h (1) t, w (1) t ),..., ( h (i) t, w (i) t ),..., ( h (N) t, w (N) t )} 5. Posteriori em t: {(h (1) t, 1 N ),..., (h(i) t, 1 ),..., (h(n) N t, 1 )} a N p(h t D t ) Filtro Auxiliar de Partículas Com a finalidade de obter a densidade filtrada a cada t, o Filtro auxiliar de partículas, introduzido no Capítulo 3, será aplicado ao modelo VEN. Para facilitar a exposição será feita de maneira algorítmica. 62

75 Algoritmo APF-VEN 1. Posteriori em t 1: {(h (1) t 1, w (1) t 1),..., (h (i) t 1, w (i) t 1),..., (h (N) t 1, w (N) t 1)} a p(h t 1 D t 1 ) 2. Para i = 1,..., N, calcular µ t = α + φh (i) t 1 3. Amostrar (k, h t ): For i = 1,..., N Indicador: k i tal que P (k i = k) N (y t µ (i) t )w (i) t 1 Evolução: Pesos: calcular w t como segue h (i) t N (h t µ ki t ) w t N (y t 0, e h(i) t )/N (y t 0, e µki t ) 4. Posteriori em t: {(h (1) t, w (1) t ),..., (h (i) t, w (i) t ),..., (h (N) t, w (N) t )} a p(h t D t ) Algoritmo APF com estimação de parâmetros Nesta seção o algoritmo APF de Storvik (2002) é apresentado. O procedimento de amostragem por importância seqüencial assume um conjunto inicial de N partículas (H t 1, ψ) p(h t 1, ψ D t 1 ). Seja s t 1 uma estatística suficiente que pode ser atualizada a cada t, o algoritmo amostra de ψ p(ψ s t 1 ) e h t p(h t H t 1, ψ) e pondera (H t 1, ψ) proporcionalmente à verossimilhança p(y t θ t, ψ). Para o modelo VEN, implementa-se a versão AFP do algoritmo de Storvik usando o procedimento de Pitt e Shephard (1999). Dado um conjunto inicial de partículas, o algoritmo APF primeiro seleciona partículas com uma grande 63

76 verossimilhança e as propaga para o próximo passo. No modelo VEN, define-se a probabilidade de seleção λ j p(y t µ (i) t )w t 1, (i) onde µ (i) t = α + φh (i) t 1 é uma estimativa de h t para a partícula i. Para cada partícula selecionada k i, amostrase (h (i) t, ψ (i) ) da priori p(h t, ψ h (ki ) 0:t 1, y 1:t ), logo se re-pondera as partículas pela verossimilhança p(y t µ (i) t ) para obter uma amostra da distribuição a posteriori. O algorimo APF para a estimação conjunta de parâmetros e estados e apresentada a seguir (Para detalhes e a definição de s t e as recursões para sua atualização ver Stroud et al., 2004) Algoritmo APF-EP-VEN 1. Para i = 1,..., N: Gerar h (i) 0 p(h 0 ), e fazer s 0 = s 0 Inicializar os pesos em w (i) 0 = N 1 2. Posteriori em t 1: {( h (1) t 1, w (1) t 1),..., ( h (i) t 1, w (i) t 1),..., ( h (N) t 1, w (N) t 1)} a p(ψ, h t 1 D t 1 ) 3. Para i = 1,..., N, calcular µ t = α + φh (i) t 1 4. Amostrar (k, h t ): para i = 1,..., N Indicador: k i such that P (k i = k) N (y t µ (i) t )w (i) t 1 Evolução: atualizar s (i) t h (i) t ψ (i) p(ψ s (ki ) t 1) N (h t µ ki t, ψ (i) ) = S(h t, H t 1 ), e fazer h t = (ψ (i), h (i) t, s (i) t ). pesos: calcular w t da seguinte maneira w t N (y t 0, e h(i) t )/N (y t 0, e µki t ) 64

77 4. Posterior em t: {( h (1) t, w (1) t ),..., ( h (i) t, w (i) t ),..., ( h (N), w (N) t )} a p(ψ, h t D t ) t 4.5 Aplicações Estudo de Simulação Para ilustrar os métodos descritos na seção 4.3, um conjunto de dados artificiais com 500 observações usando α =.008, φ = 0.97 e ση 2 =.04 foi gerado. Estes valores correspondem a valores típicos encontrados em séries de retornos diárias. Assume-se as seguintes prioris para os parâmetros α N (0, 1), φ N T ( 1,1) (0.95, 1) e ση 2 GI(2.5,.04). Nesta aplicação usamos os amostradores SMGS, MSGS e o BSGS com 10 blocos. Abanto-Valle, Migon e Lopes (2004) usaram o amostrador BSGS no contexto de volatilidade estocástica com mudança de regime e volume de negócios iterações são usadas para os algoritmos SMGS e MSGS. As primeiras iterações são descartadas. Para o BSGS, considerou-se uma cadeia com iterações e as primeiras foram descartadas. Todos os resultados são apresentados na tabela 4.1. É importante notar que os valores das estimativas dos parâmetros são bastantes similares. A figura 4.2 mostra as estimativas das médias suavizadas das log-volatilidades, obtidas pelos três métodos. É claro que praticamente não existem diferenças entre as estimativas. A Tabela 4.1 reporta o fator de ineficiência da simulação (Geweke, 1992), este é estimado como a variância da amostra MCMC dividida pela variância da média amostral de um amostrador hipotético que obtém amostras independentes da distribuição a posteriori (a variância dividida pelo número de iterações). O fator de ineficiência indica que o amostrador SMGS converge mais rápido que os outros dois. 65

78 Tabela 4.2: Modelo VEN, dados simulados: Valores verdadeiros, média a posteriori, erro padrão, percentis 2.5 e 97.5, fator de ineficiência. SMGS Parâmetro Valor verdadeiro Média E.P. 2.5% 97.5% INEF α φ ση h MSGS Parâmetro Valor verdadeiro Média E.P. 2.5% 97.5% INEF α φ ση h BSGS Parâmetro Valor verdadeiro Média E.P. 2.5% 97.5% INEF α φ ση h

79 (a) (b) Figura 4.2: (a) série de retornos simulados. (b) médias suavizadas das log-volatilidades obtidas das saídas MCMC. Os algoritmos anteriores foram implementados na linguagem C++, usando a biblioteca estatística Scythe 3, num computador AMD Athlon XP GHz com 512 MB de memória RAM. O tempo de computação das iterações 3 A livraria Scythe inclui funções para a manipulação de matrizes, geração de números aleatórios e fuñções de otimização numérica e pode ser obtida gratuitamente no sitio 67

80 para o SMGS e o MSGS é necessária ao redor de 40 minutos. Para o BSGS o tempo foi de 15 minutos para rodar iterações. A seguir mostra-se a aplicação dos algoritmos sequenciais SIS, SIR e APF ao conjunto de dados artificiais usados previamente. Nestes algoritmos considera-se que os parâmetros são fixados nos valores verdadeiros. O número de partículas usadas foi de No algoritmo APF um passo de re-amostragem é incluído. As figuras 4.3a, 4.3b e 4.3c mostram as verdadeiras log-volatilidades e as estimativas baseadas nas médias filtradas. O algorimo SIS segue a verdadeira log-volatilidade até o tempo 280 aproximadamente, isto pode ser causado provavelmente pela degeneração das partículas. As médias filtradas obtidas pelos algoritmos SIR e APF fornecem resultados similares e acompanham o comportamento da série de log-volatilidades verdadeiras. O algoritmo APF com estimação seqüencial dos parâmetros foi usado por Abanto-Valle, Lopes e Migon (2004) no contexto de volatilidade estocástica e volume de negócios. No conjunto de dados simulados este algoritmo é implementado para estimar simultaneamente os parâmetros e log-volatilidades usando partículas. As figuras 4.4a, 4.4b, 4.4c and 4.5d mostram os percentis 2.5, 50 e 97.5 para os parâmetros e log-volatilidades. Todos os resultados são consistentes com os verdadeiros valores. O tempo computacional usando partículas leva quase 1 hora e meia Aplicação empírica Para ilustrar a aplicação em dados reais das metodologias apresentadas nas seções 4.3 e 4.4, o índice de fechamento diário da Bolsa de Valores de São Paulo (IBOVESPA) é analisado no período compreendido entre 22 de setembro de 1998 até 12 de março de 2004, resultando em 1304 observações. Este mesmo conjunto de dados foi analisado por Abanto-Valle e Migon (2004). Neste período algumas crises financeiras aconteceram. Assim por exemplo, em janeiro de 1999 a desva- 68

81 (a) SIS (b) SIR (c) APF Figura 4.3: modelo VEN, dados simulados: verdadeiras log-volatilidades (linha grossa) vs médias filtradas estimadas das log-volatilidades (linha cheia) 69

82 (a) α (b) φ (c) σ 2 η (d) h t Figura 4.4: modelo VEN, dados simulados. versão APF do algoritmo de Storvik percentis 2.5, 50 and 97.5 baseados no 70

83 lorização do real, em abril de 2000 a crise do Nasdaq e no último trimestre de 2002 a crise pre-eleitoral. No que resta se usará o retorno composto corrigido pela média, isto é [ y t = 100 log(x t /x t 1 ) 1 T T t=1 ] log(x t /x t 1 ) (4.25) onde x t é o valor do IBOVESPA. A figura 4.5 mostra alguns gráficos desta série. A série histórica y t (painel superior) sugere que há dias com grandes movimentações seguidos por dias com as mesmas características (volatility clustering). Nesta mesma figura também é mostrado o histograma de y t (painel do meio) e as funções de auto correlação dos quadrados dos retornos (painel inferior). A Tabela 2 reporta estatísticas resumo para a série do IBOVESPA. Antes da implementação do modelo VEN, uma primeira tentativa simples para a modelagem dos retornos, considere-se o MLD de primeira ordem para os retornos como sugerido por Triantafyllopoulos e Harrison (2002) e Migon, Gamerman, Lopes e Ferreira (2004). y t = µ t + ν t, ν t D t 1 N (0, V t ), (4.26) µ t = µ t 1 + ω t, ω t D t 1 T nt 1 (0, W t ), (4.27) onde µ t é o nível no tempo t, V t é a volatilidade desconhecida dos erros observacionais, W t é a variância do nível. Assume-se que {ν t, ω t } são mutuamente independentes. Usualmente a variância W t, por questões práticas, é especificada via um fator de desconto δ (ver por exemplo Ameen e Harrison, 1985). µ 0 D 0 T n0 (m 0, C 0 ) é a distribuição inicial com m 0 e C 0 conhecidos. O estimador da variância é simples de calcular e computacionalmente eficiente (para detalhes das recursões das atualizações ver Triantafyllopoulos e Harrison, 2002). Aplicando este modelo à série de retornos do IBOVESPA obtemos as estimativas das médias filtradas das volatilidades, figura (4.6), as quais seguem o mesmo 71

84 comportamento dos retornos absolutos. Tabela 4.3: Estatísticas resumo para o conjunto de dados do IBOVESPA Estatística Média Mediana Min Max S.D. Curtose Assim. Retorno Agora, considere o modelo VEN. Assume-se que a priori os parâmetros seguem as seguintes distribuições: α N (0, 1), φ N T ( 1,1) (0.95, 1) e ση 2 GI(2.5,.04). Os resultados reportados correspondem somente aos amostradores SMGS e ao MSGS. Para ambos rodou-se uma cadeia de iterações, descartando-se como período de aquecimento. As restantes são usadas para fazer as inferências reportadas na tabela 4.3. É importante notar que ambos métodos fornecem estimativas, média a posteriori, muito próximas para o parâmetro φ, indicando uma alta persistência na log-volatilidade. O fator de ineficiência indica que o amostrador MSGS converge mais rápido que o amostrador SMGS. Este fato é confirmado analisando as funções de autocorrelação da saída do algoritmo MCMC para os parâmetros (ver figuras 4.8a e 4.8b). As funções de autocorrelação dos parâmetros usando o amostrador MSGS decrescem mais rápido se comparado com o amostrador SMGS. A figura (4.7), mostra os retornos absolutos da série do IBOVESPA e a estimativa da média suavizada das volatilidades. As estimativas acompanham o comportamento da série de retornos absolutos e capturam os períodos de grandes oscilações. Agora aplica-se ao modelo de VEN a versão do APF segundo Storvik (2002) à série do IBOVESPA. O número de partículas usadas foi de As figuras 4.10a, 4.10b, 4.10c e 4.10d reportam os percentis 2.5, 50 e 97.5 dos parâmetros e 72

85 Figura 4.5: Retornos diários do IBOVESPA. Superior: série histórica. Médio: histograma. Inferior: funções de auto correlação dos quadrados dos retornos 73

86 Figura 4.6: Modelo dinâmico de primeira ordem, dados IBOVESPA. Estimativa das médias filtradas das volatilidades (linha cheia), retornos absolutos (linha pontilhada) Tabela 4.4: média posterior, erro padrão (E.P.), percentis 2.5 e 97.5, fator de ineficiência (INEF) para a série dos retornos do IBOVESPA. SMGS Parâmetro Média E.P 2.5% 97.5% INEF α φ ση MSGS Parâmetro Média E.P. 2.5% 97.5% INEF α φ ση

87 log-volatilidades. As estimativas seqüenciais de φ indicam uma alta persistência. Figura 4.7: modelo VEN, dados IBOVESPA: média a posteriori suavizada de exp(h t /2) (linha cheia), retornos absolutos (linha pontilhada) Finalmente, a figura 4.9 compara as estimativas das médias filtradas usando o algoritmo APF e o MLD de primeira ordem. Há algumas diferenças na grandeza das mesmas, porém apresentam um comportamento similar. A estimativas das médias filtradas usando o MLD de primeira ordem podem ser usadas como benchmark para comparar as volatilidades. Em resumo, neste capítulo revisamos avanços recentes na estimação Bayesiana do modelo VEN dentro da perspectiva da modelagem dinâmica. Os métodos são computacionalmente intensivos, mas permitem estimar simultaneamente parâmetros e log-volatilidades ou qualquer função destas. Isto é importante em aplicações com opções e derivativos onde a volatilidade é um input dos modelos existentes. Uma análise preliminar dos dados usando um modelo dinâmico de primeira ordem provê um interessante benchmark para comparar as volatilidades e mais pesquisa é necessária nesta área. 75

88 (a) (b) Figura 4.8: modelo VEN, datos IBOVESPA. funções de autocorrelação dos parâmetros(a) SMGS (b) MSGS Figura 4.9: dados IBOVESPA. estimativas da média filtrada exp(h t /2), modelo VEN (linha cheia), média de V 1/2 t, MLD de primeira ordem (linha grossa) 76

89 (a) α (b) φ (c) σ 2 η (d) h t Figura 4.10: modelo VEN, dados IBOVESPA. percentis 2.5, 50 and 97.5 da distribuição filtrada baseados na versão APF do algoritmo de Storvik 77

90 Capítulo 5 Extensões Univariadas e Comparação de Modelos de Volatilidade 5.1 Introdução Neste capítulo outras especificações de volatilidade estocástica são apresentadas. Algoritmos MCMC e algoritmos SMC são desenvolvidos para estimar as densidades suavizadas, densidades filtradas e a verossimilhança destes modelos.a estrutura do capítulo é a seguite: na seção 5.2 o modelo de VE com erros t-student é estudado, na seção 5.3 o modelo de VE com efeito de alavancagem e na seção 5.4 o modelo de VE com mudança de regime. A seção 5.5 apresenta uma aplicação em dados reais onde são implementadas estas especificações. Finalmente a seção 5.6 compara esta classe de modelos com os modelos determinísticos. 5.2 Modelo de Volatilidade com erros t-student Uma das características observadas empiricamente em séries financeiras de retornos é a existência de caudas pesadas para a distribuição dos retornos, ou seja, a distribuição dos retornos é leptocúrtica não sendo portanto normal. 78

91 No contexto dos modelos de volatilidade estocástica, os estudos realizados por Ruiz (1994), Harvey et al. (1994), Geweke (1994), Gallant et al. (1997), Sandmann e Koopman (1998), Liesenfeld e Jung (2000) e Liesenfeld e Richard (2003), proveram evidência empírica sugerindo caudas pesadas na distribuição condicional da média dos retornos. Este fato também tem sido documentado na literatura dos modelos GARCH/EGARCH (Bollerslev, 1987; Nelson, 1991; Bollerslev, Chow e Kroner, 1992). Para incorporar as caudas pesadas na distribuição condicional dos retornos, Jacquier, Polson e Rossi (2004), introduziram na equação da média um processo latente, λ t, de modo que λ 1 t segue uma distribuição χ 2. A distribuição t-student é facilmente obtida pela mistura da variável χ 2 e os erros Gaussianos. por: O modelo de volatilidade estocástica com erros t-student (VE-t) é definido y t = exp(h t /2)λ 1/2 t ε t, ε t N (0, 1), (5.1) h t = α + φh t 1 + σ η η t, η t N (0, 1), (5.2) t G( ν 2, ν 2 ), (5.3) 2 λ 1 onde ν são os graus de liberdade. É importante destacar que as especificações dos modelos VEN e VE-t tratam os outliers de forma diferente. Assim, no modelo VEN, valores grandes de y t proporcionam indícios de que exp(h t ) é grande. Entretanto, no modelo VE-t, λ t provê uma fonte adicional de flexibilidade e sua inclusão permite lidar com outliers introduzindo um valor maior de λ t. Conseqüentemente, os y t podem ter valores grandes, entanto que exp(h t ) não. Assim, o modelo, VE-t pode ser considerado como sendo mais resistente a outliers que o modelo VEN. Para uma revisão das propriedades empíricas do modelo VE-t ver por exemplo Liesenfeld e Jung (2000). 79

92 5.2.1 Estimação via MCMC Consideremos agora o problema da estimação Bayesiana de todas as quantidades desconhecidas no modelo VE-t. Sejam ψ = (α, φ, ση, 2 ν) o vetor de parâmetros, λ = (λ 1,..., λ t ) o vetor de variáveis latentes de escala e H T = (h 0, h 1,..., h T ) o vetor das log-volatilidades. Usando o princípio de aumento de dados, a distribuição a posteriori conjunta dos parâmetros, as variáveis de escala e as log-volatilidades condicionados na informação existente no tempo T, é dada por p(ψ, λ, H T D T ) p(ψ)p(h 0 ) T p(y t h t, λ t )p(λ t ν)p(h t h t 1, ψ) t=1 = p(ψ) 1 φ 2 ( 1 ση 2 ( ν 2 2 σ 2 η { exp ) T/2 exp{ 1 ) T ν 2 T t=1 ( ( Γ (1 φ2 ) (h 2ση 2 0 α 1 φ )2 T } (h t α φh t 1 ) 2 2ση 2 t=1 ) ν 1 λ t ν exp{ ν 2 2λ t } } ) T (5.4) (ψ, λ, H T ) será amostrado da densidade a posteriori (5.4) usando o amostrador de Gibbs. Para isso, amostra-se iterativamente primeiro ψ p(ψ H T, D T ), logo λ p(λ ψ, H T, D T ) e finalmente H T p(h T ψ, λ, D T ). A representação algorítmica do procedimento iterativo é mostrada a seguir 1. Fazer i=0. 2. Inicializar parâmetros ψ (i), λ e H (i) T 3. Amostrar ψ (i+1) p(ψ λ (i), H (i) T, Y T ) 4. Amostrar λ (i+1) p(λ ψ (i+1), ψ (i+1), Y T ) 80

93 5. Amostrar H (i+1) T p(h T ψ (i+1), λ (i+1), Y T ) 6. Fazer i=i Retornar a 3. A distribuição a posteriori (5.4) é determinada completamente com a especificação das distribuições a priori para os parâmetros. Assumimos que as distribuições a priori para α, φ, e σ 2 η, são as mesmas que as adotadas no modelo VEN, isto é: α N (α 0, s 2 α), φ N T ( 1,1) (φ 0, s 2 φ ) e σ2 η GI( T 0 2, M 0 2 ). Para ν adota-se 1 a priori, restrita ao intervalo 2 < ν 40. Esta priori foi usada por Vrontos, ν 2 Dellaportas e Politis (2000) no contexto dos modelos GARCH/EGARCH. Logo, as distribuições condicionais completas dos parâmetros α, φ e σ 2 η são as mesmas que as obtidas na seção 4.3 para o modelo VEN, isto é Amostrar H T α. N ( b a, σ2 η a ) φ. N T [ 1,1] ( d c, σ2 η c ) σ 2 η. GI( T 1 2, M 1 2 ) da sua condicional completa é uma tarefa simples usando o amostrador por blocos descrito na seção 4.3.4; todo o que se tem de fazer é substituir a equação (4.18) por log p(y r h r, λ r ) = const h r 2 y2 r exp( h r ) 2λ r (5.5) Agora descreveremos como amostrar do vetor de escalas λ e de ν. Condicional em ν, ε 2 t +ν 2/λ t segue uma distribuição χ 2 (ν +1), portanto é simples amostrar de p(λ ν, {ε t } T t=1). O logaritmo da distribuição condicional completa de ν é obtida de (5.4) substituindo a priori 1/ν 2, isto é log p(ν λ) = const log(ν 2) + T ν ( ) ( ) ν 2 ν 2 log T log Γ ων 2 2 (5.6) 81

94 onde ω = 1 2 T { log(λ t ) + 1 }. (5.7) λ t i=1 Para amostrar desta distribuição usamos o método proposto por Geweke e Tanizaki (2001). Especificamente usamos uma proposta normal, N (µ ν, V ν ) para o algoritmo de M-H. Denotemos por q(.) o log da condicional completa dada pela equação (5.6). Então µ ν = x q q (x) e V ν = [q (x)] 1, onde x é o valor da iteração anterior e q (.) e q (.) denotam a primeira se segundas derivadas respectivamente. positiva. O seguinte teorema mostra que a variância da proposta é sempre Teorema 5.1 A distribuição condicional completa definida na equação (5.6) é log-côncava para todo ν > 0, se T 2, isto é Prova: Derivando duas vezes a equação (5.6), temos d 2 q(ν) dν 2 < 0. (5.8) d 2 q(ν) dν 2 = 1 (ν 2) + T [ ν (ν 2) 1 ( )] ν 2 2 ψ 2 (5.9) onde ψ(x) é a função digamma definida por ψ(x) = d log Γ(x)/dx e ψ (x) é a função trigamma definida por ψ(x) = dψ(x)/dx. log Γ(ν/2) é representada por log Γ( ν 2 ) = log(2π) 2 + ν 1 2 log( ν 2 ) ν 2 + θ 6ν, 0 < θ < 1 (5.10) (ver a equação de Abramowitz e Stegun, 1970). Substituindo a segunda derivada de (5.10) em (5.9) temos que d 2 q(ν.) dν 2 = 1 (ν 2) 2 + T 2 82 [ ν 4 (ν 2) ν + 1 2θ ] ; (5.11) 2 ν 2 ν 3

95 após alguma álgebra temos que d 2 q(ν) = 1 [ ] T ν 3 (4T 2)ν 2 T (ν + 1)(ν 2) 2 θ (5.12) dν 2 2 ν 2 (ν 2) 2 3ν 3 Logo, d 2 q(ν) = 1 [ ] (T 2)ν 2 + 4T θ (5.13) dν 2 2 ν 2 (ν 2) 2 3ν 3 Desta última equação, garante-se que a função d2 q(ν) dν 2 para T Estimação via SMC < 0 com T 2 0, isto é Com a finalidade de obter a densidade filtrada a cada t, o filtro auxiliar de partículas, introduzido no Capítulo 3, será aplicado ao modelo VE-t. Considere-se a representação alternativa para a equação (5.1), isto é: onde ξ t St(0, ν ν 2 eht, ν). y t = exp(h t /2)ξ t, Para facilitar o entendimento da metodologia a exposição será feita de maneira algorítmica. Algoritmo APF-VE-t 1. Posteriori em t 1: {(h (1) t 1, w (1) t 1),..., (h (i) t 1, w (i) t 1),..., (h (N) t 1, w (N) t 1)} a p(h t 1 D t 1 ) 2. Para i = 1,..., N, calcular µ t = α + φh (i) t 1 3. Amostrar (k, h t ): para i = 1,..., N Indicador: k i tal que P (k i = k) St(y t 0, ν Evolução: h (i) t N (h t µ ki t ) 83 eµ(i) t ν 2, ν)w (i) t 1

96 Pesos: calcular w t da seguinte forma ν (i) w t St(y t 0, ν 2 eh t ν i, ν)/st(y t 0, ν 2 eµk t, ν) 4. Posteriori em t: {(h (1) t, w (1) t ),..., (h (i) t, w (i) t ),..., (h (N) t, w (N) t )} a p(h t D t ) Avaliação da Verossimilhança Algoritmo: Verossimilhança do modelo VE-t 1. Fazer t=1, inicializar ψ e obter uma amostra de h (i) t Para cada h (i) t 1 amostrar h (i) t N (α + φh (i) t 1, σ 2 η) 3. Estimar ˆp(y t D t 1 ) = 1 N N ν (i) St(y t 0, ν 2 eh t, ν) i=1 4. Aplicar o algoritmo APF-VE-t para obter uma amostra h (1) t,..., h (N) t p(h t D t ). 5. Fazer t=t+1 e retornar a Retornar a log-verossimilhança de log p(d T ψ) = N log ˆp(y t D t 1 ) t=1 84

97 5.3 Modelo de Volatilidade com alavancagem Uma característica importante que apresentam muitas séries financeiras é o chamado efeito de alavancagem, o qual relaciona mudanças na volatilidade, em sinal e grandeza, a mudanças nos retornos de maneira assimétrica. Isto significa que choques negativos (positivos) na média são associados com o incremento (diminuição) da volatilidade. O efeito de alavancagem foi estudado nos trabalhos de Black (1976), Christie (1982) e Engle e Ng (1982). Também foi tratado no modelo EGARCH por Nelson (1991) e o modelo GARCH modificado de Glosten, Jagannathan e Runkle (1993). Motivados pela evidência empírica, Harvey e Shepard (1996) propuseram o modelo de volatilidade estocástica com alavancagem, usando a aproximação de Euler do equivalente contínuo. Motivados pela mesma evidência empírica Jacquier et al. (2004) generalizaram o modelo VEN, para incorporar esta característica de assimetria. Na literatura de precificação de opções, o modelo de volatilidade estocástica com alavancagem VE-a é formulado em termos de equações diferenciais estocásticas, isto é: ds(t) = σ(t)db 1 (t), (5.14) d log σ 2 (t) = α + β log σ 2 (t 1) + σ η db 2 (t), (5.15) onde B 1 (t) e B 2 (t) são movimentos Brownianos, corr(db 1, db 2 ) = ρ, s(t) = ln S(t) e S(t) é o preço do ativo. Quando ρ < 0, temos o efeito de alavancagem. Na literatura empírica, o modelo anterior é discretizado para facilitar a estimação. Por exemplo, a aproximação de Euler -Maruyama, do modelo dado 85

98 pelas equações (5.14) e (5.15), leva a versão discreta y t = exp(h t /2)ɛ t (5.16) h t+1 = α + φh t + σ η η t+1 (5.17) onde y t é o retorno composto, φ = 1 β e ση 2 é a variância da log-volatilidade. Nesta representação, ɛ t = B 1 (t + 1) B 1 (t), η t+1 = B 2 (t + 1) B 2 (t). Logo ɛ t e η t são variáveis independentes e identicamente distribuídos com uma normal padrão e corr(ɛ t, η t+1 ) = ρ. Yu (2005) observou uma importante diferença ao assumir corr(ɛ t, η t ) = ρ como em Jacquier et al. (2004), o processo resultante não é uma diferença martingale. Desde que a especificação de Jacquier et al. (2004) faz o efeito alavancagem ambíguo, usaremos a proposta de Yu (2005) Estimação via MCMC A fim de facilitar o processo de simulação usando MCMC, consideremos a seguinte transformação: τ = 1 ρ 2 σ η, (5.18) ϕ = ρσ η. (5.19) Define-se u t+1 = ρɛ t + 1 ρ 2, (5.20) onde u t+1 N (0, 1) e não correlacionado com ɛ t. Substituindo (5.20) em (5.17), obtemos que a seguinte representação para a equação das log-volatilidades. h t+1 = α + φh t + ϕ exp{ h t 2 }y t + τu t+1. (5.21) É evidente que o incremento de uma unidade no retorno no tempo t resulta numa variação de ϕ exp{ ht } unidades no log-volatilidade no tempo t Seja ψ = (α, φ, τ 2, ϕ), o vetor de parâmetros do modelo VE-a e H T o vetor de 86

99 log-volatilidades, então a distribuição a posteriori conjunta de ψ e H T condicional em toda a informação disponível D T é dada por p(ψ, H T ) = p(α, φ, τ 2, ϕ) T 1 t=1 p(y t h t, ψ)p(y T h T, ψ) T 1 p(h 1 ψ) p(h t+1 h t, ψ) (5.22) t=1 O algoritmo de Gibbs será usado para gerar amostras da distribuição a posteriori (5.22). Isto é, gera-se iterativamente primeiro ψ p(ψ, H T, D T ) e logo H T p(h T ψ, D T ). De forma algorítmica o procedimento pode ser representado por: 1. Fazer i=0. 2. Inicializar parâmetros ψ (i), H (i) T 3. Amostrar ψ (i+1) p(ψ, H (i) T, Y T ) 4. Amostrar H (i+1) T p(h T ψ (i+1), Y T ) 6. Fazer i=i Retornar a 3. A distribuição a posteriori (5.22) é determinada completamente com a especificação das distribuições a priori para os parâmetros. Assumimos que φ N T ( 1,1) (φ 0, s 2 φ ), τ 2 GI(a τ /2, S τ /2). As distribuições a priori dos outros parâmetros são especificadas por ϕ τ 2 N (ϕ 0, τ 2 /p 0 ), α τ 2 N (α 0, τ 2 /q 0 ), onde φ 0, s 2 φ, a τ, S τ, ϕ 0, α 0, p 0 e q 0 são os hiper-parâmetros. A condicional completa de α a menos da constante de integração é dada por { p(α.) exp 1 [ q 2τ 2 0 (α α 0 ) 2 + (1 φ 2 )(h 1 α T 1 1 φ )2 + (k t+1 α) ]}; 2 t=1 87

100 após algumas simplificações temos que { p(α.) exp B [ α α 2 2 A ]} α 2τ 2 B α onde k t+1 = h t+1 φh t ϕy t exp{ ht 2 }, A α = α 0 q 0 + (1 + φ)h 1 + T 1 t=1 k t+1 e B α = q φ + T 1. Logo, a distribuição condicional completa de α é dada 1 φ por A condicional completa de φ tem a forma α. N ( A α B α, τ 2 B α ) (5.23) { p(φ.) Q(φ) exp 1 [ τ 2 (φ φ 0 ) 2 T 1 + (r 2τ 2 s 2 t+1 φh t ) ]}; 2 φ desenvolvendo os quadrados da exponencial temos que { p(φ.) Q(φ) exp B [ φ φ 2 2 A ]} φ, 2τ 2 B φ onde Q(φ) = 1 φ 2 exp{ 1 φ2 2τ 2 (h 1 α 1 φ )2 }, r t+1 = h t+1 α ϕy t exp{ ht 2 }, A φ = τ 2 φ 0 + T 1 s 2 t=1 r t+1 e B φ = τ 2 + T 1 φ s 2 t=1 r2 t+1. Ignorando Q(.) como em Chib φ e Greenberg (1994) e Albert e Chib (1993), temos que a distribuição condicional completa de φ é dada por φ. N T ( 1,1) ( A φ B φ, τ 2 B φ ). (5.24) A condicional completa de ϕ pode ser expressa por { p(ϕ.) exp 1 [ T 1 p 2τ 2 0 (ϕ ϕ 0 ) 2 + (c t+1 ϕy t exp{ h ]} t 2 })2 e após de efetuar algumas operações algébricas temos que { p(ϕ.) exp B [ ϕ α 2 2 A ]} ϕ, 2τ 2 B ϕ t=1 t=1 88

101 onde k t+1 = h t+1 α φh t, A ϕ = ϕ 0 p 0 + T 1 t=1 c t+1y t exp{ ht } e B 2 ϕ = ϕ 0 + T 1 t=1 y2 t exp{ h t }. Logo, a distribuição condicional de ϕ é dada por ϕ. N ( A ϕ B ϕ, τ 2 B ϕ ). (5.25) Finalmente, a condicional completa de τ 2 a menos da constante de integração é dada por onde p(τ 2.) ( 1 τ 2 ) (T +aτ +2)/2+1 { exp κ }, 2τ 2 κ = (1 φ 2 )(h 1 α T 1 1 φ )2 + (h t+1 α φh t ϕy t exp{ h t 2 })2 t=1 + p 0 (ϕ ϕ 0 ) 2 + q 0 (α α 0 ) 2 + S τ logo, a condicional completa de τ 2 é ( T + τ 2 aτ + 2. GI, κ ). (5.26) 2 2 Note que uma vez obtidas as amostras de ϕ e τ podem-se obter amostras de ρ e σ 2 η usando as transformações definidas nas equações (5.18) e (5.19). A geração de H T será feita aplicando o algoritmo de simulação por blocos aleatórios descritos no Capítulo 3. Então, considere-se o problema da geração do bloco de log-volatilidades, h s+1..., h s+m, condicional em h s e h s+m+1. A distribuição condicional de y t dados H T é uma distribuição normal com média µ t e variância V t, onde µ t = V t = ρ ht exp{ σ 2 t+1 α φh t ) se t < T 0 se t = T (5.27) (1 ρ 2 ) exp{ ht 2 exp{ ht 2 (5.28) 89

102 Logo, dado h s e h s+m+1, (h s, quando s + m = n), o logaritmo da distribuição condicional para η t (t = s, s + 1,..., s + m 1) é const + L s+m 1 t=s s+m t=s L = l s (h s+m+1 α φh s+m ) 2, s + m < n, 2ση 2 s+m t=s l s, s + m = n e l t = ht (yt µt)2 vt η 2 t 2, onde (5.29) Sejam M t t = s + 2,..., t = s + m. Assim e = E[ 2 L ] para t = s + 1,..., m + n e N h 2 t = E[ 2 L t h th t 1 ] para [ ] E 2 L h 2 t = [ E [ E 2 l t 1 h 2 t 2 l t 1 h 2 t 2 l t h 2 t 2 l t h 2 t ] ] φ2 σ 2 η Após algumas simplificações temos que [ ] E 2 l t 1 2 l t = 1 h 2 t h 2 t 2 + ρ 2 ση(1 2 ρ 2 ) + t < s + m t = s + m < T ( µt h t µ t = ρ exp{ h t h t 2σ η 2 }(h t+1 α φh t ) (5.30) ) 2 V 1 t (5.31) ρφ exp{ h t }. (5.32) σ η 2 Da mesma forma [ ] N t = E 2 l t 1, h t h 1 = µ t 1 h t 1 µ t 1 h t, t m + n (5.33) onde µ t 1 = ρ exp{ h t }. (5.34) h t σ η 2 90

103 Da mesma maneira pode-se obter d t = L h t, isto é L l t 1 h = t + lt h t h t onde l t 1 h t t < s + m + lt h t φ σ 2 η (h t+1 α φh t ) t = s + m < T (5.35) e l t 1 = (y t 1 µ t 1 ) µ t 1 Vt 1 1 (5.36) h t h t l t = 1 h t 2 + (y t µ t ) µ t Vt h t 2 (y t µ t ) 2 Vt 1 (5.37) Seja D t = M t N 2 t D 1 t 1 para t = s + 2,..., s + m, D s+1 = M s+1 e H t = D t. Logo, define-se a variável auxiliar ŷ t = ˆδ t + b t D 1 t 1, (5.38) onde ˆδ t = ĥ t + Ht 1 J t+1 ĥ t+1, t = s + 1,..., s + m 1 ĥ s+m, t = s + m, b t = d t J t H 1 t 1b t 1, t = s + 2,..., s + m, b s+1 = d s+1, J t = H 1 t 1N t, t = s + 2,..., s + m, J s+1 = 0. Então considere-se o MLD dado por: onde Z t = 1 + H 1 t ŷ t = Z t h t + ζ t, t = s + 1,..., s + m, (5.39) h t+1 = G t+1 h t + S t+1 η t+1, t = s,..., s + m, (5.40) J t+1 G t+1 e ζ t = Ht 1 J t+1 S t+1 η t+1 + Ht 1 ɛ t. Logo, é possível simular da densidade η s+1:s+m h s 1, h s+m+1, ŷ s+1:s+m usando o algoritmo de simulação de perturbações suavizadas (de Jong e Shepard, 91

104 1995). A proposta gerada é aceita usando o algoritmo de Aceitação Rejeição e Metropolis-Hastings (AR-MH). Detalhes deste algoritmo podem ser encontrados em Tierney (1994), Watanabe (2003), Omori e Watanabe (2003) Estimação via SMC Para implementar o filtro de partículas define-se o estado como sendo θ t = (h t+1, h t ). Logo, o modelo VE-a pode ser expresso como um modelo dinâmico não linear e não gaussiano com densidade das observações dada por f(y t θ t ) = N (µ t, V t ), (5.41) onde µ t e V t são dadas pelas equações (5.27) e (5.28), respectivamente, e evolução h t+2 = h t+1 α + φ 0 + h t+1 + η t+2 (5.42) Algoritmo filtro de partículas-ve-a 1. Posterior em t 1: {(θ (1) t 1, 1/N),..., (θ (i) t 1, 1/N),..., (θ (N) t 1, 1/N)} a p(θ t 1 D t 1 ) 2. Para i = 1,..., N, amostrar θ (i,j) t θ (i) t 1 j = 1,..., M 3. Pesos: calcular os w t da seguinte forma e reamostrar θ (i,j) t w (i,j) t N (y t µ (i,j) t, V (i,j) t ) com probabilidades proporcionais a w i,j para produzir uma amostra de tamanho N, a qual é denotada por θ (1) t 92,..., θ (i),..., θ (N) t t.

105 4. Posteriori em t: {(θ (1) t, 1/N),..., (θ (i) t, 1/N),..., (θ (N) t, 1/N)} a p(θ t D t ) Avaliação da verosimilhança Algoritmo: Verossimilhança do modelo VE-a 1. Fazer t=1, inicializar ψ e obter uma amostra de θ (i) t Para cada θ (i) t 1 amostrar θ (i,j) t θ (i) t 1 j = 1,..., M 3. Estimar ˆp(y t D t 1 ) = 1 N 1 M N i=1 M i=j N (y t µ (i,j) t, V (i,j) t ) 4. Aplicar o algoritmo filtro de partículas-ve-a para obter uma amostra θ (1) t,..., θ (N) t de p(θ t D t ). 5. Fazer t=t+1 e retornar a Retornar a log-verossimilhança log p(d T ψ) = N log ˆp(y t D t 1 ) t=1 5.4 Modelo de Volatilidade com mudança de regime Alta persistência na variância condicional implica que o impacto de choques externos na variância condicional decai lentamente e que a informação atual demora em ser esquecida. Lamoreoux e Lastrapes (1990) e Hamilton e Susmel (1994) mostraram que a alta persistência na volatilidade pode ser causada por 93

106 mudanças estruturais e que o processo da variância pode exibir uma alta persistência de forma espúria. So, Lam e Li (1998) e Kalimipalli e Susmel (2004) combinaram a especificação do modelo volatilidade estocástica com um processo Markoviano de primeira ordem. Este modelo foi denominado por volatilidade estocástica com mudança de regime (VE-MR). No modelo VE-MR, o parâmetro de escala da log-volatilidade muda de acordo com um processo Markoviano de primeira ordem. O modelo VE- -MR, captura simultaneamente as mudanças de comportamente da volatilidade devido à forças economicas, como também à mudanças súbitas devido a eventos inesperados. A especificação do modelo VE-MR adotada nesta seção é a usada por So et al. (1998), isto é: y t = exp{h t /2}ɛ t, h t = α st + φh t 1 + σ η η t, (5.43) onde ɛ t and η t são variáveis aleatórias independentes com distribuição normal com média zero e variância 1, h 0 N ( αs 0 1 φ, σ 2 η 1 φ 2 ) e α st = γ 1 + K γ i I it (5.44) i=1 onde γ i < 0, para i = 2,..., K e I it é uma variável indicadora que assume valor 1 quando s t é maior ou igual que i. A dinâmica da mudança de regime é governada por um processo Markoviano de primeira ordem com K estados onde p ij = P r(s t = j s t 1 = i), com K j=1 p ij = 1, indica a probabilidade de transição de um regime a outro e s t é uma variável indicadora que define um particular regime. 94

107 5.4.1 Estimação via MCMC Seja θ = (φ, ση, 2 {γ i } i=1,...,k, {p ij } i,j=1,...,k ) o vetor de parâmetros do modelo VE- MR, H T = (h 0, h 1,..., h T ), é o vetor de log-volatilidades e S T = (s 0, s 1,..., s T ) o vetor de estados do processo Markoviano que define um particular regime. O interesse é obter, usando o princípio de aumento de dados, a densidade a posteriori: p(θ, H T, S T D T ). Pelo teorema de Bayes, a densidade conjunta é obtida por p(h T, S T, θ D T ) p(d T H T, θ)p(h T S T, θ)p(s T θ)p(θ), (5.45) onde p(d T H T ) T exp { h t /2} exp{ exp { h t }yt 2 /2}, (5.46) t=1 T p(h T S T, θ) p(h 0 s 0, θ) p(h t H t 1, S t, Θ), (5.47) t=1 T p(s T θ) π s0 p st 1 s t (5.48) t=1 π i = P (s 0 = i), i = 1,..., k. (5.49) Para os parâmetros do modelo VE-MR, assume-se as seguintes distribuições a priori: φ N T ( 1,1) (φ 0, s 2 φ ), σ2 η GI(T 0 /2, M 0 /2), p i. = (p i1,..., p ik ) D(λ i1,..., λ ik ), γ = (γ 1,..., γ K ) N K(γi <0,i=2,...,K)(γ 0, B 0 ). Como a distribuição a posteriori p(θ, H T, S T Y T, V T ) é analiticamente intratável, amostraremos os parâmetros e as variáveis latentes S T,H T das condicionais completas usando MCMC. A seguir descreve-se o algoritmo de Gibbs de forma algorítmica: 1. Fazer i=0. 95

108 2. Inicializar os parâmetros θ (i), os estados S (i) T e H(i) T 3. Amostrar θ (i+1) p(θ H (i) T, S(i) T, D T ) 4. Amostrar S (i+1) T 5. Amostrar H (i+1) T 6. Fazer i=i Retornar a 3. p(s T θ (i+1), H (i) T, D T ) p(h T θ (i+1), S (i+1) T, D T ) É relativamente simples obter as distribuições condicionais completas dos parâmetros. Assim, γ. N K(γi <0,i=2,...,K)(b 1, B 1 ), φ. N T ( 1,1) ( b φ a φ, σ2 η a φ ), ση 2. GI( T 1 2, M 1 2 ), p i j,..., p i j. D(d i 1,..., d i k). A definição destas quantidades podem ser encontradas em Abanto-Valle et al. (2004). Amostras de S T são obtidas usando o procedimento descrito por So et al. (1998). H T será amostrado usando o amostrador por blocos de Shephard e Pitt (1997) e a versão corrigida de Watanabe e Omori (2004). Logo, a distribuição condicional do bloco de perturbações {η} t+k r=t dado h t 1 e h t+1 é expressado por log f({η r } t+k r=t.) = const + 1 2σ 2 η t+k t+k ηr 2 + log f(y r h r ) r=t r=t 1 (h 2ση 2 t+k+1 α st φh t+k ) 2, (5.50) onde log f(y r h r ) é dada pela equação (4.18), a qual será denotada por l(h r ). Sejam l e l a primeira e segunda derivadas com relação a h r. De maneira 96

109 similar ao modelo VEN, define-se as variáveis auxiliares ŷ r e d r e como segue. Para r = t,..., t + k 1, para r = t + k < T e se t + k = T, d t+k = σ 2 η φ σ 2 ηl (ĥt+k), d r = 1 l (ĥr), ŷ r = ĥr + d r l (ĥr; ) (5.51) ŷ t+k = d t+k [ l (ĥt+k) l (ĥt+k)ĥt+k + φ σ 2 η (h t+k+1 α st ) Conside-se agora o MLD gaussiano: d t+k = 1 l (ĥt+k), ], (5.52) ŷ t+k = ĥt+k + d t+k l (ĥt+k). (5.53) ŷ r = h r + ɛ r, ɛ r N (0, d r ), h r = α + φh r 1 + η r, η r N (0, σ 2 η). (5.54) Assim, o simulador de de Jong e Shepard (1995) pode ser aplicado neste modelo para amostrar {η r } t+k r=t. A proposta gerada é aceita usando o algoritmo de Aceitação Rejeição e Metropolis-Hastings (AR-MH). Detalhes deste algoritmo podem ser encontrados em Tierney (1994), Watanabe (2003), Omori e Watanabe (2003) Estimação via SMC Os métodos SMC foram usados por Carvalho e Lopes (2002) para estimar os parâmetros e log-volatilidades do modelo VE-MR, usando uma adaptação dos métodos propostos por Pitt e Shephard (1999) e Liu e West (2001). A seguir 97

110 apresenta-se o algoritmo APF-VE-MR considerando que os parâmetros do modelo são conhecidos. Algoritmo APF-VE-MR 1. Posteriori em t 1: {(h (1) t 1, s (1) t 1, w (1) t 1),..., (h (N) t 1, s (N) t 1, w (N) t 1)} a p(h t 1 D t 1 ) 2. Para i = 1,..., N, calcular s (i) t = arg max l 1,...,K P (s t = j s t 1 = s (i) t 1) µ t = α s (i) t + φh (i) t 1 3. Amostrar (k, h t, s t ): para i = 1,..., N Indicador: k i tal que P (k i = k) N (y t 0, e µ(i) t )w (i) t 1 Evolução: s (i) t com probabilidades P r(s t = j s t 1 = s (ki ) t 1) h (i) t N (h t 0, α s (i) t Pesos: calcular w t da seguinte forma + φh (i) t 1, σ 2 η) w t N (y t 0, e h(i) t )/N (y t 0, e µki t ) 4. Posteriori em t: {(h (1) t, s (1) t, w (1) t ),..., (h (N) t, s (N) t, w (N) t )} a p(h t D t ) Avaliação da verossimilhança Algoritmo: Verossimilhança do modelo VE-MR 1. Fazer t=1, inicializar ψ e obter uma amostra de (h (i) t 1, s (i) t 1) p(h t 1, s t 1 D t 1 ). 98

111 2. Para cada h (i) t 1, s (i) t 1 amostrar s (i) t usando a matriz de transição P, 3. Estimar h (i) t N (h t α s (i) t + φh (i) t 1, σ 2 η) ˆp(y t D t 1 ) = 1 N N i=1 N (y t 0, e h(i) t ) 4. Aplicar o algoritmo APF-VE-MR para obter uma amostra (h (1) t, s (1) t ),..., (h (N) t, s (N) t ) de p(h t, s t D t ). 5. Fazer t=t+1 e retornar a Retornar a log-verossimilhança log p(d T ψ) = N log ˆp(y t D t 1 ) t=1 5.5 Aplicação Agora apresenta-se uma aplicação empírica aos modelos descritos nas seções previas deste capítulo, os modelos VE-t, VE-a e o VE-MR. O conjunto de dados correspondem aos retornos do IVOBESPA que foram previamente analisados no Capítulo 4. A seguir, com fins ilustrativos, a análise Bayesiana dos modelos de volatilidade determinística comumente usados na literatura financeira é apresentada. A análise inclui: o modelo GARCH(1,1) com erros normais (GARCH(1,1)-N), erros t-student (GARCH(1,1)-t) e o modelo EGARCH(1,1) com erros normais (EGARCH(1,1)-N). A implementação destes modelos é feita usando o algoritmo M-H (para a definição dos modelos é o algoritmo M-H ver apêndice A). 99

112 A escolha das prioris para os parâmetros para o modelo GARCH(1,1): p(α 0 ) = α 1 0, p(α 1, β 1 ) = 2I(α 1 0; β 1 0; α 1 + β 1 < 1). A restrição de α 1 e β 1 nesta região é equivalente a assumir que o processo é estacionário. Seja δ = log(h 2 0). Então, δ será considerado como um parâmetro desconhecido com distribuição a priori δ N(δ 0, 100). O valor de δ 0 = log( T t=1 (y t ȳ) 2 /T ). Para o modelo GARCH(1,1)-t, assumiu-se que a priori é dada por: π(ν) = (ν 2) 1 como em Vrontos et al. (2000). Tabela 5.1: Dados IBOVESPA, média a posteriori dos parâmetros para os modelos GARCH(1,1)-N,GARCH(1,1)-t e EGARCH(1,1)-N. () indica o erro padrão. Modelo Parâmetro GARCH(1,1)-N GARCH(1,1)-t EGARCH(1,1)-N α (0.1245) (0.0427) (0.0194) α (0.0305) (0.0148) (0.0162) β (0.0493) (0.0202) (0.0126) ϕ (0.0288) ν (1.6334) δ (0.6629) (0.4486) (0.6303) Persistência (0.0249) (0.0095) (0.0126) Para o modelo EGARCH(1,1)-N assumiram-se a seguintes distribuições a pri- 100

113 ori: α 0 N(ᾱ 0, s 2 α 0 ), β 1 N( β 1, s 2 β ), α N(ᾱ 1, s 2 α 1 ), γ 1 N( γ 1, s 2 γ 1 ). A escolha das médias destas distribuições foi feita centradas nas estimativas de máxima verossimilhança e as variâncias multiplicadas por 100. Desta forma as prioris tornam-se praticamente não informativas, porque seu range é maior que o resultante da distribuição a posteriori, para δ = log(h 2 0) a distribuição a priori foi escolhida como nas outras duas especificações. Para os modelos GARCH/EGARCH considerados, uma cadeia de iterações foi rodada, descartando-se 2000 iterações como período de aquecimento. As restantes 8000 foram usadas para fazer inferências. As implementações foram feitas usando nosso próprio código usando o pacote Ox 1. O tempo computacional gasto em cada um dos modelos foi próximo de 5 minutos. A tabela 5.1 mostra as médias a posteriori para os parâmetros de cada modelo e o erro padrão entre parênteses. Embora, os resultados indiquem a presença de alta persistência na série de retornos diários do IBOVESPA, o coeficiente de persistência, α 1 +β 1, dos modelos GARCH(1,1)-N e GARCH(1,1)-t, pertencem à região estacionária. Entretanto, no modelo EGARCH(1,1)-N a probabilidade P r(α 1 < 0) = 0, indicando a presença do efeito de alavancagem. Este fato será verificado também no modelo VE-a. Agora trataremos da implementação Bayesiana dos Modelos de VE-t,VE-a e VE-MR usando o amostrador por blocos desenvolvido para cada um destes modelos. No Capítulo 4, o modelo VEN foi estimado aplicando os amostradores SMGS e MSGS, então nesta aplicação também sera estimado o modelo VEN usando o amostrador por blocos para estimar as log-volatilidades. En todos os modelos a quantidade de nós usados foi de 30. Para os modelos VEN e VE-t assumiram-se as seguintes prioris: α N (0, 1), 1 Nestes modelos usou-se a versão console do pacote Ox 3.3, disponível livremente em 101

114 Tabela 5.2: Dados IBOVESPA, média a posteriori dos parâmetros para os modelos VEN, VE-t, VE-MR e VE-a. () indica o erro padrão Modelo Parâmetro VEN VE-t VE-MR VE-a α (0.0194) (0.0098) (0.0315) φ (0.0133) (0.0065) (0.0414) (0.0226) ση (0.0104) (0.0033) (0.0217) (0.0157) ν ( ) α (0.1269) α (0.0537) p (0.0153) p (0.0014) ρ (0.0937) 102

115 φ N T ( 1,1) (0.95, 1) e ση 2 GT (10, 0.05). Para o modelo VE-a: α N (0, τ 2 /0.2), φ N T ( 1,1) (0.95, 1), ση 2 GT (10, 0.05) ϕ N (0, τ 2 /0.5), τ 2 GI(1, 0.05). O modelo VE-MR foi implementado usando somente dois regimes s t = 1 alta volatilidade e s t = 2 regime de baixa volatilidade. As distribuições a priori adotadas foram: γ N 2(γ2 <0)(γ 0, B 0 ), onde γ 0 = 1, B 0 = 1 0, φ N ( 1,1) (0.7, 1), p 11 B(3, 1) e p 21 B(1, 5). Em todos os modelos,uma cadeia de iterações foi rodada, descartandose como período de aquecimento. As restante iterações foram usadas para fazer as inferências. A tabela 5.2 reporta a média a posteriori para cada um dos parâmetros dos modelos estudados e entre parênteses o erro padrão. A média a posteriori do parâmetro de persistência φ no modelo VEN foi de Este resultado indica uma alta persistência nos choques da volatilidade, de acordo com os resultados existentes na literatura para séries diárias. A média a posteriori do parâmetro de persistência φ no modelo VE-t foi de , sendo maior do que o modelo VEN, mas o valor da variância, ση 2 foi menor, A média a posteriori dos graus de liberdade foi de Este valor foi maior que o obtido no modelo GARCH(1,1)-t. A persistência do VE-MR foi de Este valor foi menor que os obtidos nas duas especificações anteriores e de acordo com o documentado na literatura. Isto sugere que a causa da persistência nos dados pode ser explicada pela mudança de um regime de alta para um de baixa volatilidade, e não necessariamente por um valor alto de φ. A média a posteriori de ση 2 foi de , maior que os valores obtido nos modelos VEN e VE-t. As estimativas das probabilidades de transição p 11 e p 22 estão próximas de 1, indicando que a probabilidade de mudar de um regime de volatilidade alta para um de baixa e viceversa é pequena. As figuras 5.1a e 5.1b mostram as probabilidades de estar num regime de alta e baixa volatilidade respectivamente, isto é P r(s t = 1 D T ) e P r(s t = 2 D T ). 103

116 Estes valores foram calculadas das saídas do algoritmo MCMC. Observe que o período de alta volatilidade abrange o período entre 22/09/98 até 26/01/99, isto é o período posterior à crise Russa e vai até a crise cambial Brasileira. As observações posteriores a 26/01/99, constituem o período de baixa volatilidade. Os dois regimes não conseguem identificar as outras crises que aconteceram nesse período: a do Nasdaq e a do período pre-eleitoral em Este fato poderia indicar a presença de mais de dois regimes. Para testar esta possibilidade um outro exercício é feito. Retira-se da amostra analisada as primeiros 76 observações, isto é até o inicio da crise Brasileira. Com as restantes 1227 observações, rodou-se novamente o modelo com dois regimes. Os resultados para os parâmetros do modelo são bastante similares aos obtidos com as 1303 observações e portanto não são reportados. No entanto as estimativas das probabilidades P r(s t = 1 D T ) e P r(s t = 2 D T ), ver figuras 5.2a e 5.2b, indicam a presença de dois regimes de volatilidade identificando os períodos de alta volatilidade antes mencionados. Logo, isto indicaria que seria necessário a inclusão de três regimes: alta, média e baixa volatilidade para a modelagem dos retornos diários do IBOVESPA mediante um modelo VE-MR. No modelo VE-a a persistência foi indicando novamente alta persistência no IBOVESPA. A média a posteriori de ρ, o coeficiente de correlação entre os choques da médias dos retornos no tempo t e os choques da volatilidade no tempo t + 1 é O intervalo de credibilidade de 95% é [ , ] contendo unicamente valores negativos. Este fato indica uma forte é significante evidência da presença do efeito de alvancagem no IBOVESPA, confirmando o resultado obtido no modelo EGARCH(1,1)-N. ρ e σ η conjuntamente com o valor atual da volatilidade, determinam o efeito das mudanças nos choques dos retornos na volatilidade. Logo o mesmo nível de volatilidade dos retornos resulta em variações diferentes no desvio padrão (como medida de volatilidade). Por 104

117 exemplo, para o IBOVESPA ρ =.3850, σ η =.1761, assumido exp{h t /2} = 1. Se o IBOVESPA cai 5%, se produzirá um incremento de aproximadamente 18.5% (e (1/2)( )(0.1761)( 5)) = ) no retorno esperado para o seguinte períodos. (a) alta volatilidade (b) baixa volatilidade Figura 5.1: (a) P r(s t = 1 D T ) (b) P r(s t = 2 D T ) 105

118 (a) (b) Figura 5.2: (a) P r(s t = 1 D T ) (b) P r(s t = 2 D T ) Na figura 5.3 painel superior se apresentam os valores absolutos da série de retornos do IBOVESPA. No painel inferior o gráfico das médias suavizadas de exp(h t /2) para o modelo VEN e o modelo VE-t. Observe que existem diferenças significativas especialmente no período próximo a crise cambial Brasileira. No painel superior da figura 5.4 mostra-se as médias suavizadas de exp(h t /2) para os modelos VEN e VE-MR. Note que as estimativas para o modelo VE-MR apre- 106

119 sentam um comportamento mais volatil. Finalmente no painel inferior temos a comparação das volatilidades dos modelos VE-a e VEN. As diferenças maiores se apresentam no período inicial. Figura 5.3: Painel superior: retornos absolutos da série de retornos do IBOVESPA. Painel inferior: média suavizada de exp(h t /2). Linha azul modelo VE-t e linha vermelha modelo VEN 107

120 Figura 5.4: Painel superior: média suavizada de exp(h t /2). Linha azul modelo VE- MR e linha vermelha modelo VEN. Painel inferior: média suavizada de exp(h t /2). Linha azul modelo VE-a e linha vermelha modelo VEN 108

121 5.6 Comparação de Modelos A comparação de modelos de volatilidade é todo um desafío. Na literatura Miazhynskaia, Frühwirth Schanatter e Doffner (2003) apresentaram uma ampla revisão dos métodos para calcular o Fator de Bayes usado na seleção Bayesiana de modelos e os aplicaram aos modelos GARCH(1,1)-N e GARCH(1,1)-t. Vrontos et al. (2000) usaram reversible jumping para comparar diferentes especificações dos modelos GARCH/EGARCH. Berg, Meyer e Yu (2004) usaram o critério DIC para comparar modelos de volatilidade estocástica. Abanto-Valle e Migon (2004) usaram o fator de Bayes e o DIC para comparar os modelos comumente usados na literatura financeira: os modelos GARCH(1,1)-N e GARCH(1,1)-t, VEN e VE-t. Para todos os modelos implementados na seção anterior o DIC é calculado. Além disso log da verossimilhança marginal é determinado pelos métodos da média harmônica e pelo estimador de Chib. Os resultados aparecem nas tabelas 5.3 e 5.4. Segundo o critério DIC, vemos que o modelo mais adequado para descrever os retornos diários do IBOVESPA foi o modelo VE-a seguido pelo modelo VE-MR e o modelo VE-t, cujos valores são muito próximos. Considerando unicamente a classe dos modelos GARCH/EGARCH o modelo GARCH(1,1)-t seria escolhido como melhor modelo. Usando o log da verossimilhança marginal calculado pelos métodos da média harmonica e estimador de Chib, tem-se que o modelo VE-t seria escolhido como o melhor modelo, seguido pelo modelos VE-MR e VE-a. Ambos métodos de estimação mantém a ordem em que os modelos são classificados, mas diferem do critério DIC na ordem na qual são classificados. 109

122 Tabela 5.3: DIC para os dados IBOVESPA MODELO DIC D pd Valor Classificação GARCH(1,1)-N GARCH(1,1)-t EGARCH(1,1)-N VEN VE-t VE-MR VE-a Tabela 5.4: Verossimilhança Marginal para os dados IBOVESPA MODELO log p h log p CE Valor Classificação Valor Classificação GARCH(1,1)-N GARCH(1,1)-t EGARCH(1,1)-N VEN VE-t VE-MR VE-a

123 Capítulo 6 Volatilidade Estocástica e Volume de Negócios 6.1 Introdução A relação entre a volatilidade dos retornos e o volume de negócios tem sido o foco das pesquisas empíricas e teóricas desde algum tempo atrás. Clark (1973) iniciou a discussão apresentando a Hipótese de Mistura de Distribuições (MDH). De acordo com a MDH, os retornos e o volume de negócios estão conjuntamente subordinados a mesmo processo latente não observável que representa o fluxo de informação, isto quer dizer que movimentos nos preços e mudanças no volume de negócios são causados principalmente pela chegada de nova informação e a volatilidade incorpora esta informação no mercado. Na literatura de finanças numerosos estudos empíricos têm documentado a existência de uma forte correlação positiva entre o volume de negócios e a volatilidade (ver por exemplo Karpoff, 1987 para uma boa discussão desta literatura). Embora muitas destas pesquisas sustentam a correlação positiva entre o volume e a volatilidade, a evidência se a relação observada pode ser conciliada com as 111

124 previsões da teoria da micro-estrutura do mercado é mista (ver por exemplo, Tauchen e Pitts, 1983; Richardson e Thompson, 1994; e Foster e Wiswanathan, 1995). Existem algumas variantes da MDH na literatura. Estas incluem por exemplo os modelos de Clark (1973), Tauchen e Pitts (1983), Harris (1987). A primeira aproximação que junta as principais características da MDH com os de teoria da micro-estrutura do mercado num modelo empírico, para os retornos diários, foi desenvolvida por Andersen (1996), o modelo resultante foi denominado modelo de misturas modificado (MMM). As contribuições à literatura dos modelos de volatilidade e volume introduzidas neste Capítulo incluem a estimação seqüencial de parâmetros e logvolatilidades no modelo proposto por Andersen (1996) e a especificação de mudanças de regime nas log-volatilidades. A organização do capítulo é a seguinte. A seção 6.2 considera medidas de volume de negócios usadas na literatura financeira. A seção 6.3 apresenta o MMM e trata da estimação Bayesiana usando os métodos MCMC e SMC para a estimação conjunta de parâmetros e log-volatilidades. A seção 6.4 introduz uma modificação na especificação do MMM permitindo mudanças de regime nas log-volatilidades. Os parâmetros do modelo resultante são estimados via MCMC. Finalmente, na seção 6.5são apresentadas aplicações em dados simulados e reais. 6.2 O Volume de Negócios A literatura relacionada à atividade de negócios nos mercados financeiros é ampla e diversas medidas de volume têm sido propostas. Assim, por exemplo na literatura da atividade de negócios agregada o número total de ações negociadas foi usado como uma medida de volume (Ying, 1966; Epps e Epps, 1976; e Gal- 112

125 lant, Rossi e Tauchen, 1992). O total de ações negociadas dividido pelo número total de ações pendentes de pago é denominada aggregate turnover (Smidt, 1990; LeBaron, 1992; Campbell, Grossman e Wang, 1993). O volume individual das ações é usado na análise das relações do preço/volume e volatilidade/volume (Epps e Epps, 1976; Lamoreoux e Lastrapes, 1994; Andersen, 1996; Mahieu e Bauer, 1998; Watanabe, 2000). Estudos focados no impacto de eventos na atividade de negócios usam o turnover individual ( Morse, 1980; Bamber, 1987; Lakonishok e Smidt, 1986; Richardson e Smith, 1994; Stickel e Verrecchia, 1994). Alternativamente, Tkac (1996) considerou o volume individual em dólares normalizado pelo volume agregado do mercado em dólares. Igualmente o número total de negócios (Conrad, Hameed e Niden, 1994) e o número total de negócios por dia ou por ano (James e Edmister, 1983) foram usados como medidas da atividade de negócios. Definição 6.1 Suponha que existem I investidores indexados por i = 1,..., I e J estoques indexados por j = 1,..., J. Assuma que todos os estoques são arriscados e não redundantes. Para cada estoque j, seja N jt o número total de ações pendentes de pago. Suponha também que o número total de ações pendentes de pago é fixo no tempo para cada estoque, isto é: N jt = N j, j = 1..., J. Para cada investidor i, Sjt i denota o número de ações do estoque j que possui no tempo t. Denote por V jt o número total de ações do estoque j negociada no tempo t. Logo o volume negociado é definido por V jt = 1 I Sjt i S i 2 j,t 1, (6.1) i=1 onde 1 é um fator de correção para evitar a dupla contagem quando a soma é 2 feita em todos os investidores. No que resta desta tese esta será a medida de volume a ser usada. 113

126 6.3 Modelo de Volatilidade e Volume Andersen (1996) assumiu que existem dois tipos de investidores: aqueles que possuem informação do mercado e os que têm liquidez. O investidor com informação reage à chegada de nova informação, porém a informação que recebe é assimétrica. De outro lado a demanda do investidor com liquidez é independente da chegada de nova informação. Uma versão empírica do modelo de mistura modificado (MMM) proposto por Mahieu e Bauer (1998) é dada por y t = exp(h t /2)ɛ t (6.2) v t h t P(m o + m 1 exp(h t )) (6.3) h t = α + φh t 1 + σ η η t (6.4) onde y t é o retorno composto e v t é o volume sem tendência no dia t, m 0 reflete a componente de ruído do volume de negócios referida aos investidores com liquidez, e m 1 é o fator de proporcionalidade da componente com informação do volume de negócios, a qual é proporcional a e ht. ɛ t e η t são variáveis aleatórias normais com média zero e variância 1 e h 0 N (α/(1 φ), ση/(1 2 φ 2 )). O modelo definido pelas equações (6.2)-(6.4) será denotado por VEN-VOL O modelo definido pelas equações (6.2)-(6.4) pode ser escrito como um MD não linear. Seja z t = (y t, v t ) o vetor bivariado de observações e Θ = (θ, ψ) o vetor de parâmetros, onde ψ = (α, φ, ση), 2 θ = (m 0, m 1 ). Então, p(z t h t, Θ) N (0, e ht/2 )P(m 0 + m 1 e ht ) (6.5) p(h t h t 1, Θ) N (α + φh t 1, ση) 2 (6.6) Estimação via MCMC Mahieu e Bauer (1998) e Watanabe (2000, 2003) proporcionaram algoritmos MCMC semelhantes para resumir a distribuição posterior conjunta do vetor de 114

127 parâmetros Θ e H T = (h 0, h 1,..., h T ). Para amostrar (Θ, H T ) da densidade posterior se usa o amostrador de Gibbs. O procedimento pode ser representado de maneira algorítmica, e é mostrado a seguir: 1. Fazer i=0. 2. Inicializar parâmetros Θ (i) e H (i) T 3. Amostrar Θ (i+1) p(θ H (i) T, D T ) 4. Amostrar H (i+1) T p(h T ψ (i+1), θ (i+1), D T ) 5. Fazer i=i Retornar a 3. Assumindo que as distribuições a priori para os parâmetros são dadas por: α N (ᾱ, s 2 α), φ N T ( 1,1) ( φ, σ 2 φ ), σ2 η GI( T 0 2, M 0 2 ), m 0 G(a 0, b 0 ) e m 1 G(a 1, b 1 ) então as condicionais completas destes parâmetros tem a forma α. N ( b a, σ2 η a ), φ. N T ( 1,1) ( d c, σ2 η c ), σ 2 η. GI( T 1 2, M 1 2 ). As definições destas quantidades podem ser encontradas em Abanto-Valle et al. (2005). A condicional completa de m 0 é dada por p(m 0.) exp{ (b 0 + T )m 0 } T exp{ log[m a 0 1/T 0 (m 0 + m 1 exp(h t )) vt ]} t=1 (6.7) 115

128 Esta distribuição é analiticamente não fechada, então pode-se simular m 0 usando o algoritmo de M-H. A proposta de densidade é obtida a partir da expansão de segunda ordem em série de Taylor do logaritmo da distribuição condicional (Geweke e Tanizaki, 2001). Denote-se por q(.) a log-densidade, então a proposta é uma N(µ m0, τ 2 m 0 ), onde µ m0 = x q (x) q (x) e τ 2 m 0 = ( q (x)) 1, x é o valor da iteração anterior, q (.) e q (.) são a primeira e segunda derivada respectivamente. A condicional completa de m 1 é dada por p(m 1.) exp{ m 1 (b 1 + exp{ T t=1 T exp h t )} t=1 a qual, também, é analiticamente não fechada. log[m a 1 1/T 1 (m 0 + m 1 exp(h t )) vt ]} algoritmo M-H pode ser aplicado para obter amostras de m 1. (6.8) Logo, analogamente a m 0, o H T será amostrado usando o amostrador por blocos de Shephard e Pitt (1997) e a versão corrigida de Watanabe (2003). Logo, a distribuição condicional do bloco de perturbações {η} t+k r=t dado h t 1 e h t+1 é expressado por onde log f({η r } t+k r=t.) = const + 1 2σ 2 η t+k t+k ηr 2 + log f(y r, v r h r ) r=t r=t 1 (h 2ση 2 t+k+1 α φh t+k ) 2. (6.9) log f(y r, v r h r ) = const h r 2 y2 r exp( h r ) (m 0 + m 1 exp(h r )) 2 + v r log(m 0 + m 1 exp(h r )). (6.10) Denote log f(y r, v r h r ) por l(h r ) e sejam l e l a primeira e segunda derivadas com relação a h r. O valor da segunda derivada l = 1 2 y2 r exp( h r ) m 1 exp(h r ) + v r m 0 m 1 exp(h r ) [m 0 + m 1 exp(h r )] 2, 116

129 l não é necessariamente negativa. Watanabe (2000) usou uma expressão alternativa l F = min{l,.0001}. A nossa proposta é usar l F = E(l ) = 1 2 m2 1 exp(2h r ) m 0 + m 1 exp(h r ) (6.11) com o qual garante-se que l F < 0, e esta expressão é usada na definição das variáveis auxiliares. O valor esperado em (6.11) é tomado em relação a y t e v t. Então, definem-se d r e ŷ r como segue. Para r = t,..., t + k 1, para r = t + k < T e se t + k = T, d t+k = σ 2 η φ σ 2 ηl (ĥt+k), d r = 1 l F (ĥr), ŷ r = ĥr + d r l (ĥr; ) (6.12) ŷ t+k = d t+k [ l (ĥt+k) l F (ĥt+k)ĥt+k + φ σ 2 η (h t+k+1 α) 1 d t+k = l F (ĥt+k), ], (6.13) ŷ t+k = ĥt+k + d t+k.l (ĥt+k) (6.14) Logo o MLD gaussiano resultante é dado por: ŷ r = h r + ɛ r, ɛ r N(0, d r ), h r = α + φh r 1 + η r, η r N(0, σ 2 η). (6.15) Assim, o simulador de de Jong e Shepard (1995) pode ser aplicado neste modelo para amostrar {η r } t+k r=t. A proposta gerada é aceita usando o algoritmo de A-R e M-H (AR-MH) como nos Capítulos 4 e

130 6.3.2 Estimação via SMC Nesta seção descrevem-se três algoritmos seqüenciais aplicados ao modelo VEN- VOL: o algoritmo APF assumindo que os parâmetros são fixos, a versão APF com estimação de parâmetros e finalmente o practical filtering with parameter learning que também permite a estimação simultânea dos parâmetros e das quantidades latentes para o modelo VEN-VOL. Sejam z t = (y t, v t ) e z 1:t = (z 1,..., z t ). Logo, o algoritmo APF será apresentado de forma algoritmica para facilitar a exposição. Algorimto APF modelo VEN-VOL 1. Posteriori em t 1: {(h (1) t 1, w (1) t 1),..., (h (i) t 1, w (i) t 1),..., (h (N) t 1, w (N) t 1)} a p(h t 1 z 1:t 1 ) 2. Para i = 1,..., N, calcular µ t = α + φh (i) t 1 3. Amostrar (k, h t ): Para i = 1,..., N Indicador: k i tal que P (k i = k) N (y t 0, e µ(i) t )P(v t m 0 + m 1 e µ(i) t )w t 1 Evolução: h (i) t N (h t µ ki t, σ 2 η ki) Pesos: calcular w t da seguinte forma w t N (y t 0, e h (i) t )P(v t m 0 + m 1 e h(i) t ) N (y t 0, e µki t )P(v t m 0 + m 1 e µ(ki ) t ) 118

131 4. Posteriori em t: {(h (1) t, w (1) t ),..., (h (i) t, w (i) t ),..., (h (N) t, w (N) t )} a p(h t z 1:t ) APF com estimação de parâmetros Esta seção mostra uma extensão do algoritmo APF com estimação de parâmetros introduzido no Capítulo 4, para a estimação conjunta das log-volatilidades e os parâmetros do modelo VEN. Nesta extensão se inclui os parâmetros do volume de negócios do modelo VEN-VOL. Infelizmente, isto traz uma complicação adicional, pois não é possível obter uma estatística suficiente para estes parâmetros, por conseguinte a história h 0:t 1 tem de ser armazenada para cada partícula. O procedimento assume que um conjunto de N partículas (h 0:t 1, θ, ψ) p(h 0:t 1, Θ z 1:t 1 ). Seja s t 1 a estatística suficiente para os parâmetros das log-volatilidades que são atualizados a cada instante t, o algoritmo então extrai amostras de θ p(ψ s t 1 ), θ p(θ h 0:t 1 ) e h t p(h t h 0:t 1, Θ) e pondera (h 0:t 1, θ, ψ) proporcional à verossimilhança p(z t θ t, ψ). A estatística suficiente s t é atualizada da mesma forma que no modelo VEN. Algoritmo APF com estimação de parâmetros modelo VEN-VOL 1. Para i = 1,..., N: Amostrar h (i) 0 p(h 0 ), e fazer s 0 = s 0 Inicializar w (i) 0 = N 1 2. Posteriori em t 1: {( h (1) t 1, w (1) t 1),..., ( h (i) t 1, w (i) t 1),..., ( h (N) t 1, w (N) t 1)} a p(ψ, h t 1 D t 1 ) 119

132 3. Para i = 1,..., N, calcular µ t = α + φh (i) t 1 4. Amostrar (k, h t ): Para i = 1,..., N Indicador: k i tal que P (k i = k) N (y t 0, e µ(i) t )P(v t m 0 + m 1 e µ(i) t )w t 1 Evolução: ψ (i) p(ψ s (ki ) t 1) atualizar s (i) t h (i) t θ (i) p(θ h ki 0:t 1) N (h t µ ki t, ψ (i) ) = S(h t, H t 1 ), e fazer h t = (ψ (i), h (i) t, s (i) t ). Pesos: calcular w t da seguinte forma 4. Posteriori em t: {( h (1) t, w (1) t ),..., ( h (i) t w t N (y t 0, e h (i) t )P(v t m 0 + m 1 e h(i) t ) N (y t 0, e µki t )P(v t m 0 + m 1 e µ(ki ) t ), w (i) t ),..., ( h (N), w (N) t )} a p(ψ, h t D t ) t Amostrar de p(θ h ki 0:t 1) é a tarefa mais complicada, pois esta distribuição não tem forma fechada. Na aplicação θ (i) é gerada a partir de uma distribuição normal com média µ θ e variância V θ, e onde µ θ é a média das partículas da iteração anterior e V θ é o negativo da inversa da matriz Hessiana avaliada em µ θ. Esta proposta têm mostrado resultados razoáveis nas aplicações. Algoritmo Practical Filter Este método é baseado em Stroud et al. (2004). A idéia básica é expressar a distribuição filtrada p(h t, Θ z 1:t ) por uma mistura das fixed lag-distribuições 120

133 suavizadas. Isto é, p(h t, Θ z 1:t ) pode ser representada por p(h t, Θ z 1:t ) = p(h t, Θ h 0:t k, z 1:t )p(h 0:t k z 1:t )dh 0:t k (6.16) nesta equação p(h t, Θ h 0:t k, z 1:t ) é a distribuição do estado e do vetor de parâmetros dados h 0:t k e z 1:t. O método procede em duas etapas. Primeiro, devido a natureza seqüencial do problema, temos disponível uma amostra dos estados h g 0:t k p(h 0:t k z 1:t ). Depois, obtemos amostras de p(h t, Θ z 1:t ), simulando de p(h t k+1:t, Θ h (g) 0:t k, z 1:t) (6.17) A seguir, amostras desta distribuição podem ser obtidas simulando de forma iterativa de p(h t k+1:t, Θ h (g) t k, z 1:t) (6.18) p(θ h t k+1:t, h (g) 0:t k, z 1:t) (6.19) Observe-se que devido a propriedade Markoviana dos estados, (6.18) depende unicamente de h (g) t k. Logo, só é necessário armazenar o último valor de h(g) t k, para simular desta distribuição. Porém, o mesmo não acontece com o vetor de parâmetros. Logo precisa-se de todo o vetor h (g) 0:t k para amostrar de (6.19). Para garantir a eficiência do algoritmo de filtragem, é preciso simular eficientemente de (6.18). No modelo VEN-VOL amostras de p(h t k+1:t, Θ h (g) t k, z 1:t) podem ser obtidas aplicando a proposta de Shephard e Pitt (1997). Isto significa usar as variáveis auxiliares como nas equações (6.12) e (6.14). Depois, no modelo linear dinâmico resultante o simulador de de Jong e Shepard (1995) pode ser aplicado. 121

134 Algoritmo Practical Filter modelo VEN-VOL Inicializar: Fazer Θ (i) = Θ 0, i = 1,..., M, usar por exemplo a média a priori. Aquecimento: Para t = 1,..., k: Para i = 1,..., M : inicializar Θ = Θ (i) Para g = 1,..., G Gerar h 0,t p(h 0,t Θ, z 1,t ) Simular Θ p(θ h 0,t, z 1,t ) Atualização seqüencial: Para k = t + 1,..., T : deixar Para i = 1,..., M : inicilizar Θ = Θ (i) Para g = 1,..., G (i) Amostrar h t k+1,t p(h t k+1,t h t k, Θ, z t k+1,t ) (i) Gerar Θ p(θ h 0,t k, h t k+1,t z 1,t ) Fazer ( h (i) t k+1, Θ (i) ) igual ao o último valor ingressado (h t k+1, Θ) e (i) h 0,t k sem alterações. A velocidade e acurácia do algoritmo depende da escolha de (G, M, k). Nas aplicações serão usados G = 250, M = 50 e k = O Modelo de volatilidade com mudança de regime e volume de negócios O modelo de volatilidade estocástica com mudança de regime e volume de negócios (VE-MR-VOL) é uma das contribuições que o presente trabalho introduz na literatura. O modelo VE-MR-VOL, resulta da modificação da especificação da log-volatilidade do modelo VEN-VOL, pela especificação usada no modelo VE- 122

135 MR, dada pela equação (5.43). Assim, o modelo VE-MR-VOL é definido por y t = exp(h t /2)ɛ t (6.20) v t h t P(m o + m 1 exp(h t )) (6.21) h t = α st + φh t 1 + σ η η t (6.22) onde ɛ t e η t são variáveis independentes com distribuição normal com média zero e variância unitária, h 0 N( αs 0 1 φ, σ 2 η 1 φ 2 ) and ɛ t, η t N(0, 1), α st no modelo VE-MR. é definido como A dinâmica da mudança de regime é governada por um processo Markoviano de primeira ordem com K estados onde p ij = P r(s t = j s t 1 = i) com K j=1 p ij = 1, indica a probabilidade de transição de um regime a outro e s t é uma variável indicadora que define um particular regime Estimação via MCMC Seja o vetor de parâmetros θ = (φ, ση, 2 m 0, m 1, {γ i } i=1,...,k, {p ij } i,j=1,...,k ) do modelo VE-MR-VOL (os γ i são definidos como na equação 5.44), H T = (h 0, h 1,..., h T ), S T = (s o,..., s T ), Y T = (y 1,..., y T ), e V T = (v 1,..., v T ) são o vector de log-volatilidades, os estados do processo Markoviano de primeira ordem, o vetor de retornos e o vetor de volume de negócios respectivamente. Seja, D T = ((y 1, v 1 ),..., (y T, v T ) toda a informação disponível até o tempo tempo T. A distribuição posterior p(θ, H T, S T D T ) é obtida pela aplicação do teorema de Bayes, isto é p(h T, S T, θ D T ) p(y T H T, θ)p(v T H T, θ)p(h T S T, θ)p(s T θ)p(θ) (6.23) onde p(y T H T ) T exp { h t /2} exp{ exp { h t }yt 2 /2}, (6.24) t=1 123

136 p(v T H T, θ) T [m o + m 1 exp{h t }] vt exp{ m o m 1 exp{h t }}, (6.25) t=1 T p(h T S T, θ) p(h 0 s 0, θ) p(h t H t 1, S t, Θ), (6.26) t=1 T p(s T θ) π s0 p st 1 s t (6.27) t=1 π i = P (s 0 = i) i = 1,..., k. (6.28) As distribuições a priori para o modelo VE-MR-VOL são as mesmas que foram usadas no modelo VE-MR e incluindo as distribuições a priori para m 0 G(a 0, b 0 ) e m 1 G(a 1, b 1 ), como especificadas no modelo VEN-VOL. A densidade a posteriori p(θ, H T, S T Y T, V T ) é intratável analiticamente, então o algoritmo de Gibbs será usado para amostrar dela. O algoritmo de Gibbs para o modelo VE-MR-VOL pode ser representado da seguinte forma: 1. Fazer i=0. 2. Inicializar os parâmetros θ (i), os estados S (i) T e H(i) T por 3. Amostrar θ (i+1) p(θ H (i) T, S(i) T, D T ) 4. Amostrar S (i+1) T 5. Amostrar H (i+1) T 6. Fazer i=i Voltar a 3. p(s T θ (i+1), H (i) T, D T ) p(h T θ (i+1), S (i+1) T, D T ) As condicionais completas dos parâmetros do modelo VE-MR-VOL são dadas 124

137 γ. N K(γi <0,i=2,...,K)(b 1, B 1 ), φ. N T ( 1,1) ( b φ a φ, σ2 η a φ ), ση 2. GI( T 1 2, M 1 2 ), p i j,..., p i j. D(d i 1,..., d i k). A definição destas quantidades podem ser encontradas em Abanto-Valle et al. (2004). As condicionais completas de m 0 e m 1 não tem forma fechadas, então o mesmo procedimento descrito na seção anterior para o model VEN-VOL será usado. Amostras de S T são obtidas usando o procedimento descrito por So et al. (1998). H T pode ser amostrado pelo mesmo procedimento procedimento determinado na seção 5.4, modificando logf(y r h r ) por log f(y r, v r h r ) como no modelo VEN- VOL. Logo, definem-se d r e ŷ r como segue. Para r = t,..., t + k 1, para r = t + k < T d t+k = e se t + k = T, σ 2 η φ σ 2 ηl (ĥt+k), d r = 1 l F (ĥr), ŷ r = ĥr + d r l (ĥr); (6.29) ŷ t+k = d t+k [ l (ĥt+k) l F (ĥt+k)ĥt+k + φ σ 2 η (h t+k+1 α st+k+1 ) d t+k = 1 l F (ĥt+k) ], (6.30) ŷ t+k = ĥt+k + d t+k l (ĥt+k) (6.31) 125

138 Então, no modelo MLD gaussiano: ŷ r = h r + ɛ r, ɛ r N(0, d r ), h r = α sr + φh r 1 + η r, η r N(0, σ 2 η) (6.32) Assim, o simulador de de Jong e Shepard (1995) pode ser aplicado neste modelo para amostrar {η r } t+k r=t. A proposta gerada é aceita usando o algoritmo de A-R e M-H (AR-MH) como nos Capítulos 4 e 5. Tabela 6.1: média posterior, erro padrão, percentis 2.5 e 97.5 para o conjunto simulado. Modelo VEN Parâmetro V.V. Média E.P. 2.5% 97.5 α φ ση Modelo VEN-VOL Parâmetro V.V. Mean S.E. 2.5% 97.5 α φ ση m m

139 (a) Retornos simulados (b) Volume simulado (c) h t simulados Figura 6.1: Conjunto de dados simulados com α = 0.008, φ = 0.98, σ 2 η =.04, m 0 = 0.9, m 1 =

140 6.5 Aplicações Dados Simulados Para ilustrar os métodos descritos na seção 6.2, um conjunto de dados artificiais com 500 observações usando α = 0.008, φ = 0.98, ση 2 =.02, m 0 = 0.82, m 1 = 0.18 foi gerado. Estes valores correspondem a valores típicos encontrados em séries de retornos diárias. As figuras 6.1a, 6.1b e 6.1c mostram os gráficos da série de retornos, o volume e as log-volatilidades. Assume-se as seguintes distribuições a priori para os parâmetros α N (0, 1), φ N ( 1,1) (0.95, 1) e ση 2 GI(2.5,.02), m 0 G(0.8, 1) e m 1 G(0.18, 1). Neste conjunto de dados o modelo VEN e o modelo VEN-VOL são implementados usando o amostrador por blocos com 20 nós para amostrar das logvolatilidades. O algoritmo de Gibbs é rodado por iterações. Descartaram-se como aquecimento. As restantes foram usadas para fazer inferências. Todos os parâmetros passaram o critério de convergência de Heidelbelger e Welch (1983). A tabela 6.1 mostra a média a posteriori, o erro padrão, os quantis 2.5 e Observe-se que as estimativas dos parâmetros obtidas por ambos modelos estão próximas dos valores gerados. A figura 6.2 mostra o gráfico das médias das log-volatilidades suavizadas obtidas pelos modelos VEN e VEN-VOL e as verdadeiras log-volatilidades. A seguir um outro exercício é realizado. O algoritmo APF e o practical filtering nas versões com estimação de parâmetros serão aplicados aos modelos VEN e VEN-VOL. No algoritmo APF o número de partículas usadas foi de Os valores G = 250, M = 50 e k = 50 no practical filtering.as figuras 6.3a, 6.3b, 6.3c e 6.3d mostram os percentis 2.5, 50 e 97.5 para os parâmetros e as logvolatilidades estimadas seqüencialmente usando o algoritmo APF para o modelo VEN, enquanto que as figuras 6.4a, 6.4b, 6.4c e 6.4d mostram os correspondentes 128

141 Figura 6.2: média suavizadas das log-volatilidades (linhas pontilhadas), logvolatilidades verdadeiras (linha cheia),conjunto de dados simulados com α = 0.008, φ = 0.98, σ 2 η =.02, m 0 = 0.9, m 1 = 0.2 percentis para o practical filtering. As diferenças entre ambos métodos se da principalmente na estimação do parâmetro ση, 2 na amplitude dos limites de confiança, embora todos os resultados sejam consistentes com os verdadeiros valores. As figuras 6.5a, 6.5b, 6.5c, 6.6a e 6.6b mostram os resultados da aplicação do algoritmo APF com estimação de parâmetros aplicado ao modelo VEN-VOL. Novamente os resultados obtidos incluem o verdadeiro valor, a exceção de ση. 2 Isto é provavelmente pela degeneração das partículas sendo necessário incrementar o número delas. O algoritmo practical filtering apresenta resultados similares, coerentes com os valores dos parâmetros usados na geração dos dados, ver figuras 6.7a,6.7b, 6.7c, 6.8a e 6.8b. 129

142 (a) α (b) φ (c) σ 2 η (d) h t Figura 6.3: modelo VEN, dados simulados. Percentis 2.5, 50 and 97.5 da distribuição filtrada baseado na versão do algoritmo APF com estimação de parâmetros 130

143 (a) α (b) φ (c) σ 2 η (d) h t Figura 6.4: modelo VEN, dados simulados. Percentis 2.5, 50 and 97.5 da distribuição filtrada baseado no practical filtering com estimação de parâmetros 131

144 (a) α (b) φ (c) σ 2 η (d) h t Figura 6.5: modelo VEN-VOL, dados simulados. Percentis 2.5, 50 and 97.5 da distribuição filtrada baseado na versão do algoritmo APF com estimação de parâmetros 132

145 (a) m 0 (b) m 1 Figura 6.6: modelo VEN-VOL, dados simulados. Percentis 2.5, 50 and 97.5 da distribuição filtrada baseado na versão do algoritmo APF com estimação de parâmetros Agora faremos um outro exercício de simulação. Cosideremos o modelo VE- MR-VOL com dois regimes: alta e baixa volatilidades, isto é y t = exp(h t /2)ɛ t, v t P( exp(h t )), h t = α st + 0.6h t η t ; onde ɛ t N (0, 1) e η t N (0, 1) α st = 1, if s t = 1, 1.5, if s t = 2 Esta formulação implica que γ 1 = 1, γ 2 = 0.5. As variáveis de estado s 0,..., s T são gerados por um processo Markoviano de primeira ordem com matriz de transição P =

146 (a) α (b) φ (c) σ 2 η (d) h t Figura 6.7: modelo VEN-VOL, dados simulados. Percentis 2.5, 50 and 97.5 da distribuição filtrada baseado no practical filtering com estimação de parâmetros 134

147 (a) m 0 (b) m 1 Figura 6.8: modelo VEN-VOL, dados simulados. Percentis 2.5, 50 and 97.5 da distribuição filtrada baseado na versão do practical filtering com estimação de parâmetros Os valores da diagonal da matriz de transição implicam uma alta persistência em cada regime. A medida de persistência φ é 0.6, m 0 = 0.82 e m 1 = 0.1. Estes valores são comuns em séries reais. Um conjunto de 1000 observações foi gerado. Para os resultados reportados na tabela 6.2, as distribuições a priori foram escolhidas da seguinte forma φ N T ( 1,1) (0.6, 1), (γ 1, γ 2 ) N 2(γ2 <0)(γ 0, B 0 ), γ 0 = 1, B 0 = 1 0, ση 2 GI(7.5, 0.45), m 0 G(4, 5), m 1 G(2, 20) and p 11 B(3, 1), p 22 B(1, 5). Uma cadeia de iterações foi rodada. Descartaram-se como período de aquecimento. As restantes constituem uma amostra das distribuição posterior conjunta de parâmetros e variáveis latentes, s t s and h t s. O número de nós usados para amostrar das log-volatilidades foi 30. Os resultados são apresentados na Tabela 6.2, onde a média a posteriori, erro padrão, e os percentis 2.5 e 97.5 são dados. Como estimadores pontuais todas as médias a posteriori estão próximas dos correspondentes valores. E os intervalos de confiança a posteriori 135

148 Figura 6.9: modelo VE-MR-VOL, conjunto de dados simulados, verdadeiras logvolatilidades (linha pontilhada preta) e as correspondente estimativas das médias suavizadas (linha rouxa) de 95% contém o verdadeiro parâmetro, a exceção de ση. 2 A figura 6.9 mostra a média suavizada de h t (linha rouxa) e as compara com os valores verdadeiros. As Figuras 6.10 e 6.11 mostram as saídas do MCMC, os histogramas e as funções de autocorrelação de todos os parâmeros do modelo. Nos histogramas a linha verde indica o verdadeiro valor e a linha vermelha o média a posteriori obtida das saídas do algoritmo MCMC. Todos os parâmetros passaram o critério de convergência de Heidelbelger e Welch (1983). 136

149 Tabela 6.2: modelo VE-MR-VOL. Parâmetros estimados para o conjunto dados simulados Modelo VE-MR-VOL Parâmetro V.V. média E.P. 2.5% 97.5% φ ] ση ] γ γ p p m m

150 (a) φ (b) σ 2 η (c) γ 1 (d) γ 2 Figura 6.10: Modelo VE-MR-VOL, dados simulados: saída do MCMC (esquerda), histograma da saída do MCMC (meio) e funcões de autocorrelação (direita). 138

151 (a) m 0 (b) m 1 (c) p 11 (d) p 22 Figura 6.11: Modelo VE-MR-VOL, dados simulados: saída do MCMC (esquerda), histograma da saída do MCMC (meio) e funcões de autocorrelação (direita). 139

152 6.5.2 Análise Empírica Considere agora a série de preços de fechamento corrigido por stock-splits e o número de ações negociadas da International Business Machines Corp (IBM). O período considerado foi do 4 de janeiro de 1999 até 30 de abril de 2004, o que dá 1338 dias de negócios. A partir deles calcula-se os retornos corrigidos pela equação (4.25) do Capítulo 4. Estes dados forem obtidos do sitio finance.yahoo.com. A tabela 6.3 apresenta estatísticas resumo para estes dados. Os retornos exibem um excesso de curtose e são levemente assimétricos. Para fazer a série de volume estacionária, os volumes são ajustados por uma regressão de log v t sob uma constante e o tempo t = 1,..., T. A função exponencial dos residuais é linearmente transformada tal que os dados sem tendência e os dados originais tenham a mesma média e variância. O volume sem tendência e multiplicado por Este mesmo procedimento foi usado por Liesenfeld (1998) e Watanabe (2000). Para os modelos VEN e VEN-VOL, assume-se as seguintes distribuições a priori para os parâmetros α N (0, 1), φ N ( 1,1) (0.95, 1) e ση 2 GI(2.5,.02), m 0 G(0.8, 1) e m 1 G(0.18, 1). Os h t s são simulados usando o amostrador por blocos com nós estocásticos baseados em Shephard e Pitt (1997) e Watanabe e Omori (2004). Em ambos os modelos uma cadeia de iterações é rodada. As primeiras iterações são usadas como período de aquecimento e as restantes são usadas para calcular a média posterior, desvio padrão, percentis 2.5% e 97.5%. Todos os parâmetros passaram o teste de convergência de Heidelbelger e Welch (1983). 140

153 Tabela 6.3: Estatísticas resumo para as séries de dados da IBM média E.P. Max Min assimetria curtose Retorno e Volume (a) α (b) φ Figura 6.12: (a) Retornos corrigidos da IBM (b) Volume de negócios da IBM Da Tabela 6.4, temos que a média posterior de φ no modelo VEN é indicando uma alta persistência na volatilidade dos retornos diários da IBM. No entanto, que o valor de φ no modelo VEN-VOL é , ligeramente diferente que a estimativa do modelo VEN. Esta diferença na persistência estimada, foi encontrada também por Andersen (1996) e Liesenfeld (1998), usando os métodos dos momentos generalizados e máxima verossimilhança simulada, e indica que o modelo MMM tem problemas para captar a alta persistência na volatilidade dos retornos. 141

154 Tabela 6.4: Média posterior, desvio padrão, percentis 2.5 and 97.5, para a série da IBM. Modelo VEN Parâmetro Mean E.P. 2.5% 97.5% α φ ση Modelo VEN-VOL Parâmetro Média E.P. 2.5% 97.5% α φ ση m m Tabela 6.5: modelo VE-MR-VOL. Parâmetros estimados para o conjunto de dados IBM Modelo VE-MR-VOL Parâmetro média E.P. 2.5% 97.5% φ ση α α p p m m

155 (a) α (b) φ (c) σ 2 η (d) h t Figura 6.13: modelo VEN-VOL, conjunto de dados IBM. Percentis 2.5, 50 and 97.5 da distribuição filtrada baseado no practical filtering com estimação de parâmetros 143

Exibir mais