ões652conclusões e trabalhos futuroschapter.6 (Gamerman, 1999)

Tamanho: px
Começar a partir da página:

Download "ões652conclusões e trabalhos futuroschapter.6 (Gamerman, 1999)"

Transcrição

1 ões652conclusões e trabalhos futuroschapter.6 (Gamerman, 1999) i

2 ii

3 Métodos computacionais para realização de inferência bayesiana em modelos dinâmicos lineares generalizados por Carlos Tadeu Pagani Zanini Mariana Raniere Neves Universidade Federal do Rio de Janeiro Instituto de Matemática Departamento de Métodos Estatísticos 2013

4 Métodos computacionais para realização de inferência bayesiana em modelos dinâmicos lineares generalizados Carlos Tadeu Pagani Zanini e Mariana Raniere Neves Projeto final submetido ao Corpo Docente do Instituto de Matemática - Departamento de Métodos Estatísticos da Universidade Federal do Rio de Janeiro - UFRJ, como parte dos requisitos necessários à obtenção do grau de Bacharel em Estatística. Aprovada por: Prof. Mariane B. Alves. Doutora - UFRJ - Orientadora. Prof. Dani Gamerman PhD - UFRJ. Prof. Alexandra M. Schmidt PhD - UFRJ. Rio de Janeiro, RJ - Brasil 2010 ii

5 Agradecimentos Carlos Tadeu Dedico esse trabalho, em primeiro lugar, à minha família, principalmente meus pais Márcia Tadéa Pagani Zanini e Antonio Carlos Zanini e meu irmão Gabriel. Pai, mãe, muito obrigado por todo amor e carinho com que sempre me trataram e pela confiança que depositam nas minhas escolhas. Vocês são meus maiores exemplos. Ao meu irmão, agradeço por estar sempre presente, sendo o cara mais companheiro (e sem papas na língua) que esse mundo já viu. Seu bom humor, carisma e perseverança foram exemplos que me inspiraram a dar sempre o melhor de mim, transformando as muitas adversidades que surgiram nesses longos 4 anos de graduação nas histórias mais hilárias e estapafúrdias. Aos meus amigos, agradeço pelos momentos de descontração que foram fundamentais pra que eu pudesse relaxar depois de uma semana bastante puxada de aulas, projetos de iniciação científica e afins. Agradeço também ao apoio que me deram diante das dificuldades por que passei. Sem vocês minha vida seria sem graça e muito mais difícil de levar, sobretudo esses anos de faculdade. A gente vai ficando mais velho, os problemas vão ficando mais sérios, mas a amizade continua lá, firme e forte; cada vez mais. Aos amigos de faculdade, agradeço por tornar os momentos de estudo mais leves e agradáveis. Ao pessoal da iniciação científica: Mariana, Arthur, Ingrid, Rafaéis, Jéssicas, Dani, Raquel e também à galera mais recente que eu não tive o prazer de ter um convívio maior, digo a todos muito obrigado pela troca de conhecimento, pelos iii

6 almoços no bandejão, pelas piadas, pela parceria, pelos congressos e por tudo mais. Em especial, agradeço à Mariana, minha amiga, dupla de projeto final, iniciações científicas, carona pras aulas e ouvinte pras minhas reclamações infinitas. Muito obrigado por ter me aturado durante esses dois últimos anos. Trabalhar com alguém com características tão complementares às minhas me fez aprender e evoluir muito. Agradeço também aos amigos do mestrado e do doutorado. Em especial, Mariana, Teresa, William, Aniel, Cristian, Pâmela, Rafael e Eduardo; obrigado pela convivência e pela paciência que tiveram tirando minhas dúvidas com relação a todo tipo de conteúdo nas mais variadas matérias. Também ao pessoal da matemática (companheiros de estudos, trilha e churrasco) Vinícius, Carol, Walter, Henrique e Luise, muito obrigado. Agradeço à Mariane, minha orientadora e praticamente minha segunda mãe na faculdade. Obrigado pela dedicação que você tem por todos nós alunos da estatística, sempre disponível pra ouvir nossas queixas e tirar nossas dúvidas, aos valiosos conselhos que levarei para minha vida acadêmica e, principalmente, pela confiança que você depositou em mim no momento em que me ofereceu a oportunidade de trabalhar no projeto de iniciação científica que se ramificou neste trabalho de conclusão de curso. Tenho que agradecer, sobretudo, pelo fato da experiência em trabalhar nesse projeto final e na iniciação científica ter sido um fator que pesou muito para que eu decidisse seguir a carreira acadêmica. Agradeço a todos os professores que fizeram parte da minha formação aqui na UFRJ, na ENCE e na época do colégio. Vocês foram responsáveis pelo meu crescente interesse pelo conhecimento e estando hoje preparado pra exercer minha profissão, com certeza devo isso a vocês. Gostaria de sair um pouco do padrão e dedicar esse trabalho a dois professores que tive na época do colégio: Gláucio Pitanga e Vera Saraiva, que me fizeram descobrir o amor pela matemática e foram os maiores responsáveis pela base sólida que me permitiu ingressar na faculdade com o conhecimento e a gana necessários para que iv

7 eu chegasse onde estou. Talvez quebrando mais um protocolo, deixo meus agradecimentos à Deise, que a cada semestre me socorria com meus problemas burocráticos abrindo meia dúzia de processos pra mim no DME. Eu sempre te dou trabalho, Deise, então nada mais justo do que dedicar esse a você também. Agradeço a Alexandra e Dani por aceitarem fazer parte da banca. A todos vocês, muito obrigado. v

8 Mariana Raniere Primeiramente, gostaria de dizer que o término deste trabalho é uma grande conquista pessoal, não só pelo título que recebo ao finalizar este ciclo, mas principalmente pelas barreiras que tive que superar para chegar até aqui. É claro que nada disso seria possível sem a ajuda de algumas pessoas que me deram todo o apoio para que eu conseguisse chegar ao fim desta trajetória. Gostaria de agradecer aos meus irmãos, Filipe, Gustavo, Miguel e Pedro, afinal família é a base de tudo. Agradeço à Juliana, minha melhor companhia, que me deu toda força para que eu pudesse seguir em frente, ainda que as coisas tenham sido difíceis. Agradeço por todo amor, carinho e paciência. Sem ela, este caminho teria sido muito mais difícil. Agradeço também à minha dupla de IC e monografia, Carlos Tadeu, que além de companheiro de horas e horas de estudo, é também meu amigo, companheiro para todas as outras coisas da vida. Sem ele, este trabalho não teria ficado tão bom e as horas de estudo não teriam nenhuma graça. Gostaria de agradecer à minha amiga Ingrid, por toda força e pela ótima companhia. Agradeço à Mariane, que além de ótima orientadora, é também um exemplo de pessoa. Agradeço a oportunidade que me deu de fazer este trabalho, pela paciência de explicar tudo centenas de vezes, pela preocupação em fazer com que tudo fosse entendido e por toda paixão ao ensinar e falar de Estatística, isso é contagioso. Gostaria de agradecer imensamente à Alexandra, que me abriu as portas do mundo acadêmico, que acreditou em mim e que me deu a oportunidade de participar de um projeto de Iniciação Científica que acabou resultando nesta monografia. A ela, serei vi

9 eternamente grata pela ajuda, apoio e pelas ótimas aulas de Inferência que mais tarde me fizeram ter interesse em fazer mestrado na UFRJ. Agradeço a todas as pessoas da UFRJ que de alguma forma contribuíram para a elaboração deste trabalho. Obrigada, mais uma vez, Alexandra e Dani por aceitarem fazer parte da banca. vii

10 Resumo A concentração de Poluentes na atmosfera tem sido apontada, por vários estudos, como um fator que influencia na saúde e na qualidade de vida das pessoas. Quantificar o efeito de poluentes sobre desfechos epidemiológicos, bem como seu comportamento ao longo do tempo são questões de grande relevância, não apenas para o estatístico, mas também para os órgãos públicos que administram a área de saúde. Neste âmbito, o presente trabalho se propõe a estudar o efeito da concentração de monóxido de carbono, conjuntamente com fatores climáticos, sobre óbitos diários de crianças com menos de 5 anos por doença respiratória na cidade de São Paulo decorridas entre o dia 1º de Janeiro de 1994 até Dezembro de Para isso, utilizou-se a abordagem paramétrica bayesiana. Os modelos propostos pertencem à classe dos Modelos Dinâmicos Lineares Generalizados (MLDG), onde para a variável resposta por se tratar de uma contagem, é assumida ter distribuição Poisson. Dada a falta de solução anlítica para estimação dos parâmetros destes modelos, é necessário utilizar-se de métodos para inferência aproximada. Nesse sentido, escolheu-se utilizar os Métodos de Monte Carlo via Cadeias de Markov e o método Linear Bayes. Os resultados obtidos segundo as duas abordagens são comparados, ressaltando as vantagens e desvantagens decorrentes do uso de ambas. Palavras-chave: Monte Carlo; Linear Bayes; Modelos Lineares Generalizados; Desfechos epidemiológicos. viii

11 Sumário 1 Introdução Estrutura da Dissertação Considerações sobre métodos de inferência bayesiana Teorema de Bayes e distribuição preditiva Inferência na família exponencial Modelos Dinâmicos Métodos computacionais em inferência bayesiana Descrição do conjunto de Dados Descrição do conjunto de dados Análise exploratória e proposição de modelos Procedimento de inferência via MCMC Introdução Metropolis-Hastings Amostrador de Gibbs Resumo das etapas para implementação dos métodos MCMC Aplicação aos dados reais Escolha do melhor modelo segundo critério de ajuste DIC Resultados para o melhor modelo Implementação via Linear Bayes Introdução ix

12 5.2 Procedimento geral para inferência na classe dos Modelos Dinâmicos Lineares Generalizados Inferência em Modelos Dinâmicos Lineares Generalizados com resposta Poisson Aplicação aos dados reais Resultados para o melhor modelo Conclusões e trabalhos futuros 52 x

13 Lista de Tabelas 4.1 Especificações para obtenção de amostra final aproximada para a posteriori de cada um dos modelos com efeito propagado Comparação dos DICs de cada um dos modelos Média e limites de credibilidade de 95% a posteriori para os parâmetros estáticos do modelo com nível da série variando no tempo. Os asteriscos ( ) indicam os coeficientes significativamente distintos de zero ao nível de 5% de credibilidade Resultados para os coeficientes estáticos do melhor modelo. Os limites que constam na tabela são dados pela média à posteriori ± 2 desvios-padrões. A coluna Efeito contém os valores exponenciais das médias estimadas. Os asteriscos ( ) indicam os parâmetros significativos xi

14 Lista de Figuras 3.1 Séries temporais da variável resposta e de cada uma das covariáveis do conjunto de dados Média à posteriori e intervalos de credibilidade de 95% para a taxa de óbitos vs Série observada Média à posteriori e intervalos de credibilidade de 95% para o nível da série Intervalos de credibilidade de 95% e média estimados para o simétrico dos coeficientes da temperatura segundo defasagens Intervalo de credibilidade e média a posteriori da distribuição preditiva Intervalos de credibilidade de 95% e média a posteriori para os parâmetros estáticos Histograma da amostra a posteriori para o coeficiente do monóxido de carbono Histograma do efeito do acréscimo de 1 desvio padrão com respeito à média da concentração de monóxido de carbono na taxa de óbitos e intervalo de credibilidade de 95% Médias e intervalos de credibilidade à posteriori de 2 desvios para o nível da série Média à posteriori da taxa de óbitos vs Contagens de óbitos observadas Média e intervalos de credibilidade à posteriori de 95% para a taxa de óbitos Média e intervalos de credibilidade à posteriori de 95% para a predição um passo à frente vs Série observada Intervalos de credibilidade à posteriori iguais a média +- 2 desvios para os parâmetros estáticos xii

15 Capítulo 1 Introdução No contexto de Inferência Bayesiana, é usual, para modelos razoavelmente complexos, que a distribuição a posteriori do vetor paramétrico não esteja disponível analiticamente, sendo necessário o uso de métodos computacionais para sua aproximação. Em particular, é esta a situação na classe dos modelos dinâmicos lineares generalizados (West e Harrison, 1997), da qual fazem parte os modelos adotados neste trabalho. A abordagem mais frequentemente utilizada para aproximação da distribuição a posteriori em modelos dinâmicos não normais e/ou não lineares tem sido os métodos de Monte Carlo via Cadeias de Markov (MCMC ). Tais métodos revolucionaram a Inferência Bayesiana ao possibilitarem a realização de inferência bayesiana de forma completa: dada uma amostra da distribuição a posteriori para o vetor de estados, obtém-se diretamente, utilizando-se método de Monte Carlo, amostras de funções dos estados ou sumários, tais como médias, medianas e intervalos de credibilidade a posteriori (Gamerman e Lopes, 2006). Entretanto, na medida em que novas observações tornam-se disponíveis, é desejável que haja um mecanismo prático de atualização das distribuições a posteriori e preditiva. Tal atualização não ocorre de maneira sequencial nos algoritmos usuais MCMC, demandando tempos computacionais que podem ser extremamente elevados. 1

16 No presente trabalho, aplica-se, além dos métodos MCMC, o método linear bayes (West et al, 1985) para obtenção de sumários da distribuição a posteriori do vetor de estados em regressões Poisson dinâmicas. Aproxima-se, então, a distribuição a posteriori desses parâmetros em termos de primeiro e segundo momentos e, portanto, tem-se informação menos detalhada sobre sua posteriori que aquela obtida via MCMC. Em contrapartida, preserva-se o espírito sequencial de inferência, presente em modelos dinâmicos normais lineares, agilizando-se computacionalmente a atualização de informação e predição. 1.1 Estrutura da Dissertação No capítulo 2 é feita uma breve introdução à inferência bayesiana em modelos na família exponencial e nos Modelos Dinâmicos Lineares (MLD), onde consegue-se solução analítica para as posterioris por meio de conjugação. Em seguida, cita-se algumas alternativas que vem sendo usadas nas últimas décadas para realizar inferência quando não se tem forma analítica fechada para a posteriori. Dentre elas, estão os dois métodos aplicados neste trabalho: MCMC e Linear Bayes No capítulo 3, apresenta-se o conjunto de dados reais utilizados no trabalho e o modelo base utilizado. No capítulo 4, apresenta-se os Métodos de Monte Carlo via Cadeias de Markov, em seguida, descreve-se os modelos propostos a partir do modelo-base apresentado no capítulo 3. Por fim, exibe-se os resultados obtidos através da aplicação dos métodos MCMC ao melhor modelo segundo o critério de ajuste DIC. O capítulo 5 introduz os Modelos Dinâmicos Lineares Generalizados, descrevendo em seguida a aplicação do método Linear Bayes para o caso em que a variável resposta tem distribuição Poisson. Descreve-se em seguida os modelos aos quais será aplicado o 2

17 método Linear Bayes, bem como os resultados obtidos. O capítulo 6 trata das conclusões sobre o uso dos métodos MCMC e Linear Bayes aplicados à classe MLDG. 3

18 Capítulo 2 Considerações sobre métodos de inferência bayesiana 2.1 Teorema de Bayes e distribuição preditiva Em problemas de inferência paramétrica, tem-se interesse na estimação ou tomada de decisão sobre quantidades não observáveis θ, ditas parâmetros, que indexam um modelo probabilístico p(y θ) subjacente ao comportamento de uma variável aleatória Y sob observação. Os procedimentos bayesianos de inferência paramétrica caracterizam-se por utilizar, como fonte de informação para estimação ou tomada de decisão sobre θ, não somente observações y 1,..., y n de Y θ ( como nos métodos cássicos de inferência), mas também informação externa ao conjunto de dados observados, referentes a crenças subjetivas sobre θ e refletindo a incerteza inicial do tomador de decisão. A informação proveniente dos dados é traduzida pela função de verossimilhança, denotada por l(θ; y), em que y representa os dados observados e θ os parâmetros a serem estimados. A função de verossimilhança tem a mesma expressão que define o modelo probabilístico p(y θ), porém trata-se de objetos matemáticos distintos. Do ponto de vista de estimação ou tomada de decisões sobre θ, sob o enfoque bayesiano, 4

19 passa-se a considerar p(y θ) como função de θ, desconhecido, condicional a um vetor de observações y e essa função, cujo argumento agora é o vetor paramétrico, é denominada verossimilhança. A notação l(θ; y) inclusive evidencia ser domínio: o espaço paramétrico ou suporte (conjunto de todos os valores possíveis para o vetor paramétrico θ). A informação subjetiva, por sua vez, é incorporada ao modelo supondo uma distribuição (ou densidade) de probabilidade π(θ) à priori para o vetor de parâmetros θ. O grau de incerteza sobre cada parâmetro está relacionado à variabilidade da respectiva priori: quanto maior a variabilidade, maior é a incerteza à priori (e consequentemente, menor o grau de subjetividade incorporado ao modelo). O Teorema de Bayes, enunciado a seguir, estabelece a relação entre priori e verossimilhança na composição da incerteza acerca dos parâmetros. Essa incerteza se traduz em termos probabilísticos através da distribuição à posteriori, denotada por π(θ y). A partir da posteriori são calculadas as estimativas dos parâmetros, as medidas de incerteza, etc. Teorema 2.1 (Teorema de Bayes): Sejam θ o vetor de parâmetros com suporte Θ e distribuição a priori π(θ), e y o vetor de observações com verossimilhança p(y θ). Então a distribuição à posteriori é dada por π(θ y) = p(y θ)π(θ) p(y θ)π(θ), (2.1) p(y θ)π(θ)dθ em que o produto p(y θ)π(θ) é chamado núcleo da distribuição a posteriori. Na verdade, qualquer função obtida de p(y θ)π(θ) por multiplicação de uma constante que não dependa de θ, mas que pode depender do vetor de dados y, pode 5

20 ser chamada de núcleo da posteriori. Vale ressaltar que, sob o enfoque bayesiano na atualização da incerteza associada ao parâmetro θ via Teorema de Bayes, as observações y são consideradas valores numéricos constantes. O Teorema de Bayes pode também ser visto sob o aspecto sequencial, segundo o qual cada observação é incorporada em sequência à informação a priori para compor a incerteza a posteriori. Mais especificamente, denotando o vetor de observações por y = (y 1, y 2,..., y n ), temos no instante zero a distribuição à priori π(θ). Incorporada a primeira observação y 1 à informação a priori, atualiza-se a incerteza a respeito de θ através do Teorema de Bayes, obtendo assim a distribuição a posteriori no tempo 1: π(θ y 1 ) p(y 1 θ)π(θ) Agora, no instante 2, toda a informação prévia a respeito de θ (traduzida pela posteriori no instante 1: π(θ y 1 )) é considerada informação à priori e, ao ser combinada com a observação no tempo corrente, resulta na posteriori no instante 2: π(θ y 1, y 2 ) p(y 2 θ, y 1 )π(θ y 1 ) = p(y 2 θ)π(θ y 1 ), onde a igualdade ocorre quando se supõe independência entre as observações dado o conhecimento do vetor paramétrico, o que significa assumir que o vetor paramétrico sintetiza toda a informação necessária para determinação do comportamento probabilístico do vetor y antes de se observar os dados. Prosseguindo com o mesmo raciocínio, temos no tempo n a relação de recorrência π(θ y 1,..., y n ) p(y n θ)π(θ y n 1,..., y 1 ) que nos permite chegar à fórmula enunciada no Teorema de Bayes: π(θ y 1,..., y n ) p(y n θ)p(y n 1 θ)...p(y 1 θ)π(θ) = p(y θ)π(θ) (2.2) 6

21 onde a igualdade novamente ocorre quando se supõe independêcia entre as observações condicionadas ao vetor paramétrico e que toda informação subjetiva sobre θ esteja resumida em π(θ) no instante 0. Portanto, se admitirmos ausência de informação externa aos dados além da priori inicial, a distribuição a posteriori obtida sequencialmente é a mesma que se obtém com uma única aplicação do Teorema de Bayes considerando o vetor completo y = (y 1,..., y n ). É interessante notar, porém, que o processo sequencial está intimamente ligado à distribuição preditiva, a partir da qual são realizadas as previsões sob o enfoque inferencial bayesiano, no caso em que os dados constinuem uma série temporal. A distribuição preditiva é de grande importância não só pela sua capacidade de fazer previsões como também para a avaliação da adequação do modelo teórico formulado pelo estatístico aos dados reais. A distribuição preditiva para uma observação futura y n+k, k N a partir do conjunto de observações y 1,..., y n é a distribuição de probabilidade (ou função densidade) dada por p(y n+k y n,..., y 1 ) = l(θ; y n+k )π(θ y n,..., y 1 )dθ = E θ y1,...,y n (l(θ; y n+k )). Θ Assim, o inverso da constante de proporcionalidade em (2.2) é justamente p(y n y 1,..., y n 1 ), isto é, a distribuição preditiva 1 passo à frente, condicional a (y 1,..., y n 1 )., é o inverso da constante multiplicativa que iguala o lado direito de (2.2) ao lado esquerdo. A distribuição preditiva para y n+k pode ser interpretada como uma média dos valores de l(θ; y n+k ) ponderados pela posteriori de θ (y n,..., y 1 ). Neste ponto, é importante observar que a predição sob o enfoque Bayesiano é condicionada apenas à observação do 7

22 vetor de observações, sem nenhuma dependência do vetor paramétrico. 2.2 Inferência na família exponencial Para ter a distribuição a posteriori completamente especificada, é necessário obter a constante multiplicativa k tal que π(θ y) = k l(θ; y)π(θ) dada por k = 1 l(θ;y)π(θ)dθ. Nos casos em que isso é possível do ponto de vista prático (por exemplo, quando se consegue resolver a integral ou identificar o produto l(θ; y)π(θ) com o núcleo de alguma distribuição conhecida) diz-se que a distribuição a posteriori tem forma analítica fechada. Exemplo 2.2.1: Seja y = (y 1,..., y n ) vetor de observações independentes e identicamente distribuídas condicionalmente ao parâmetro λ, com y 1 λ P oisson(λ). Se utilizarmos a distribuição a priori λ Gama(a, b), com a > 0 e b > 0: p(y i λ) = e λ λ y i y i e λ λ y i, y! i = 0, 1, 2,... l(λ; y) = p(y λ) = n n p(y i λ) e nλ y i λi=1, λ > 0 i=1 π(λ) = ba Γ(a) e bλ λ a 1 e bλ λ a 1, λ > 0 O núcleo da distribuição a posteriori π(λ y) será dado por n l(λ; y)π(λ) e nλ y i λi=1 e bλ λ a 1 = e (b+n)λ y i +a 1 λi=1, λ > 0 que, visto como função de λ, é o núcleo da distribuição Gama( y i + a, b + n). Portanto, λ y Gama( y i +a, b+n), a constante multiplicativa k(a, b, y) é conhecida: k = (b+n) y i +a Γ( y i +a) e a posteriori tem forma analítica fechada. n Note-se que neste exemplo, tanto a distribuição a priori quanto a posteriori para λ são da mesma classe de distribuições, no caso a Gama. De modo geral, quando se tem priori e posteriori pertencentes à mesma classe de distribuições para uma dada 8

23 verossimilhança l(θ; y) diz-se que a priori e a verossimilhança conjugam. Formalmente, tem-se a seguinte definição, extraída de Migon e Gamerman(1999): Definição Seja F = {p( θ), θ Θ} uma família de distribuições referentes ao vetor de dados y. A classe P de distribuições é dita ser uma família conjugada com respeito a F se para todo p(y θ) F e p(θ) P, então p(θ y) P. O Exemplo é um caso particular de conjugação quando a verossimilhança é uma distribuição pertencente à família exponencial. Definição: Uma família de distribuições com função de probabilidade (ou densidade) p(y θ) pertence à família exponencial com r parâmetros se p(y θ) puder ser escrito como r p(y θ) = a(y)exp{ U j (y)ψ j (θ) + b(θ)}, y X R, onde X nao depende de θ. j=1 A Família Exponencial engloba várias distribuições muito conhecidas, como por exemplo a Binomial, Normal, Poisson, Exponencial entre outras e é de grande importância no contexto inferencial bayesiano. Por exemplo, se p(y θ) é da família exponencial, obtém-se prioris que formam conjugação e, além disso, fornecem distribuição preditiva completamente especificada sem a necessidade do cálculo da integral em (2.1) como pode ser visto em Migon e Gamerman(1999). Ainda, a conjugação é bastante desejável no contexto de séries temporais pois permite atualização automática das posterioris conforme se tem acesso a novas observações pois basta atualizar os parâmetros da distribuição conjugada segundo a relação de recorrência obtida a partir de (2.2). 9

24 2.3 Modelos Dinâmicos A classe de Modelos Lineares Dinâmicos (MLD) se aplica nos casos em que a variável resposta tem distribuição normal. Esses modelos permitem relacionar de forma dinâmica as covariáveis e a variável resposta, por exemplo, quando se acredita que essa relação muda com o passar do tempo. O MLD em sua forma geral é descrito por duas equações: a equação de observação, que descreve a relação entre covariáveis e a variável resposta, e a equação de evolução, que descreve a forma com que os parâmetros do modelo evoluem conforme o tempo: y t = F t µ t + v t, v t N(0, V t ) µ t = G t µ t 1 + w t, w t N(0, W t ) com (v t ) t N e (w t ) t N sequências de variáveis aleatórias tais que v t v s, w t w s e v t w s, s, t. v t é chamado erro de observação e w s erro de evolução. Um MLD é, portanto, caracterizado pela quádrupla (F t, G t, V t, W t ), onde: ˆ F t é o vetor de covariáveis no tempo t: F t = (x 1t,..., (x pt ); ˆ y t é a observação no tempo t; ˆ θ t é o vetor paramétrico no tempo t: θ t = (θ 1t,..., θ pt ) T ; ˆ G t é a matriz de evolução no tempo t (dimensão p p). As variâncias V t e W t controlam os erros de observação e de evolução. Quanto maiores os valores de W t, mais volátil é a trajetória do vetor de médias (µ t ) ao longo do tempo, e quanto maiores os valores de V t, maior é o percentual de variabilidade que não está sendo explicado pelas covariáveis. 10

25 A classe MLD abrange vários tipos de modelos importantes, como os modelos lineares (F t, G t = I, V t = σ 2, W t =0) e os modelos de séries temporais (F t = F, G t = G, V t, W t ). Sob o enfoque Bayesiano é necessário especificar as prioris. Adotando prioris normais para µ 0 e conhecidos V t e W t, tem-se forma analítica fechada para as posterioris µ t y t,..., y 1 conforme descrito pelas equações do filtro de Kalman (West e Harrison, 1989) pp. 118 e 119. O exemplo a seguir trata de mais um caso onde se tem forma analítica fechada para as posterioris e preditivas. Exemplo 2.3.1: Considera-se um Modelo Linear Dinâmico de 1 a Ordem: y t = µ t + v t, v t N(0, V t ) µ t = µ t 1 + w t, w t N(0, W t ) onde (v t ) t N é sequência de variáveis aleatórias independentes, bem como (w t ) t N, com v t e w s independentes para quaisquer t,s N. Sendo, v t : Erro observacional w t : Erro de evolução. V t e W t são números reais positivos conhecidos denotando as respectivas variâncias dos erros observacionais e de evolução. Segundo este modelo, os valores observados do vetor de dados (y t ) t N provêm de um nível µ t, que evolui temporalmente segundo um passeio aleatório, e de uma flutuação aleatória v t, relacionada apenas à observação y t em particular. Para o caso particular em que as variâncias dos erros são constantes, ou seja, V t = V e W t = W t N e conhecidas consegue-se solução analítica para a posteriori e 11

26 preditiva. Por exemplo, se especificarmos uma priori normal para µ t no tempo t=0, a poteriori e a preditiva também terão distribuição normal. Nesta classe de modelos é comum que a atualização seja feita sequencialmente, tal esquema de atualização pode ser visto em West e Harrison (1989). Em muitos casos, a distribuição à posteriori pode não ter forma análitica conhecida, o que ocorre quando não se consegue obter a constante normalizadora p(y θ)π(θ)dθ através da resolução da integral, ou do reconhecimento do núcleo da distribuição à posteriori. Nesses casos, é preciso utilizar métodos computacionais para obtenção da posteriori. 2.4 Métodos computacionais em inferência bayesiana Durante a década de 80, desenvolveu-se, entre outros, o método Linear Bayes (West et al., 1985) para estimação de parâmetros em modelos lineares generalizados dinâmicos, que admitem que a variável resposta tenha qualquer distribuição pertencente à família exponencial, e por isso se aplicam a diversas situações práticas. O método exige pouquíssimo esforço computacional e permite atualização de informação em tempo real, possibilitando que o tomador de decisão incorpore novas observações ao modelo assim que se tenha acesso a elas, o que torna possível realizar previsões com bastante rapidez. Em contrapartida, tem-se informação apenas parcial com respeito aos estados (parâmetros que governam o impacto de cada covariável sobre o preditor), pois sao fornecidas apenas estimativas de suas médias e variâncias. Já na década seguinte, com o avanço da informática e o desenvolvimento dos métodos de Monte Carlo via Cadeias de Markov (MCMC) (Gamerman e Lopes, 2006), a inferência Bayesiana ganhou grande impulso. Simulando longas cadeias de markov 12

27 contruídas de forma a garantir a convergência em distribuição da cadeia para qualquer distribuição objetivo cujo núcleo fosse conhecido, era possível obter uma amostra da posteriori e realizar inferência de forma completa para qualquer função dos parâmetros. Contudo, em alguns casos, o custo computacional decorrente da implementação de esquemas MCMC pode ser bastante elevado. Por fim, recentemente desenvolveu-se o método INLA (Integreted Nested Laplace Aproximation)(Rue et al., 2009), que se aplica aos modelos latentes gaussianos markovianos e fornece aproximações determinísticas para as curvas de densidade a posteriori do campo latente e dos hiperparâmetros. A estimação via INLA para casos em que é baixa a dimensão do vetor de hiperparâmetros é feita muito rapidamente, com a restrição de que não se obtêm estimativas da posteriori para funções não-lineares dos parâmetros. Nesse contexto, propõe-se a aplicar dois diferentes métodos computacionais para aproximação da posteriori, a saber: Linear Bayes e MCMC. Os métodos são adotados em uma aplicação a dados reais em que não se consegue obter forma analítica fechada, ressaltando vantagens e desvantagens de cada método. Os casos reais tratados aqui se referem a contagens de desfechos epidemiológicos, especificamente óbitos de crianças em São Paulo causados por doença respiratória, buscando por exemplo quantificar relações entre os óbitos e condições atmosféricas de temperatura, umidade e concentração de poluente. 13

28 Capítulo 3 Descrição do conjunto de Dados 3.1 Descrição do conjunto de dados A variável de interesse para o presente trabalho é a contagem diária de óbitos de crianças com menos de 5 anos na cidade de São Paulo em decorrência de doenças respiratórias durante os anos de 1994 até Para explicar a série de óbitos, dispõe-se das covariáveis: temperatura mínima (ºC), umidade relativa do ar média (%) e nível médio de Monóxido de Carbono (ppm), também medidas diariamente. Pode-se ver na Figura (3.1) as séries temporais de cada uma das varíaveis citadas. Note-se que as covaríaveis umidade, temperatura e concentração de CO foram padronizadas (subtraídas das suas respectivas médias e divididas pelo desvio padrão considerando toda a série temporal) para eliminar o influência das escalas de medida. A série de óbitos observada apresenta claro comportamento sazonal com período anual e picos nos meses de Julho, além de uma leve tendência de queda no número de óbitos ao longo dos anos. 14

29 Figura 3.1: Séries temporais da variável resposta e de cada uma das covariáveis do conjunto de dados 3.2 Análise exploratória e proposição de modelos Nesta seção, descreve-se a metodologia utilizada para propor os modelos que foram tratados via inferência bayesiana. A variável resposta é uma contagem (portanto assume valores em N {0} ) e, no contexto epidemiológico, é usual adotar o modelo Poisson para descrever o comportamento probabilístico desta variável. Também é de interesse relacionar a variável resposta com as medidas de temperatura, umidade e concentração de monóxido de carbono (entre outras covariáveis) a fim de dimensionar a associação de cada uma com o número de óbitos. No caso em que y t P oisson(µ t ), isso é feito expressando o logaritmo da taxa média de óbitos µ t como uma combinação linear de cada uma das covariáveis. 15

30 Além da utilização das covariáveis temperatura, concentração de CO e umidade, foram construídas covariáveis indicadoras de dia da semana (exceto para o domingo, tomado como base para os demais dias da semana), um intercepto e um par de harmônicos sen( 2πt 2πt ) e cos( ) para descrever a sazonalidade anual observada na série de óbitos. Assim, o modelo base é representado em sua forma inicial por: y t µ t P oisson(µ t ) log(µ t ) = β 0 + β 1 CO t + β 2 T emp t + β 3 Umid t + δ 2 I seg (t) + + δ 7 I sab (t) + α 1 sen ( ) 2πt α2 sen ( ) 2πt 365 Porém, os óbitos causados por doenças respiratórias não devem ter relação apenas com as condições atmosféricas no dia em que ocorreram, mas principalmente ao longo dos dias anteriores. Portanto, com a finalidade de propor modelos mais próximos da realidade e que se ajustem mais adequadamente aos dados, optou-se por considerar efeitos propagados das covariáveis desde um determinado dia anterior até o dia corrente. As correlações observadas entre o número de óbitos e cada uma das covariáveis em diversas defasagens mostraram que poluição, umidade e temperatura medidos até duas semanas antes dos desfechos ainda exerciciam influência estaticamente significativa sobre o logaritmo dos óbitos. Foram propostos modelos base considerando inicialmente diversas combinações de propagação dos efeitos por 7 e 14 dias, para as covariáveis temperatura, umidade e concentração de monóxido. Além disso, a alta correlação observada entre as covariáveis defasadas poderia resultar em problemas de identificação do modelo se os parâmetros das defasagens da mesma covariável fossem estimados sem nenhuma restrição. Para contornar esse problema, optou-se por restringir o conportamento do efeito de cada covariável em função das defasagens como polinômios de baixo grau (2, 3 e 4) para temperatura, 16

31 umidade e poluente (Almon, 1965) e (Schartz, 2000). Realizou-se uma análise exploratória para determinação do número de defasagens relevantes em cada uma das covariáveis, bem como do grau de aproximação do polinômio suavizador das curvas de defasagens distribuídas. Tal análise baseou-se no ajuste clássico de modelos aditivos generalizados, com combinações de diferentes estruturas de defasagens para cada uma das regressoras. Especificamente, foram ajustadas diversas combinações entre propagações de 0, 7 e 14 dias, e graus 2, 3 e 4 para as restrições polinomiais aos coeficientes de defasagem, em cada uma das covariáveis temperatura umidade e poluente. Como o objetivo seria a inserção de tais regressoras em modelos com preditores dinâmicos, mimetizamos a presença de um nível dinâmico por meio da inclusão, no preditor, de uma função suave do tempo. Assim, os modelos foram ajustados à luz de nível variando no tempo. Para definir a melhor especificação da estrutura de defasagens, utilizou-se o critério AIC, que levou ao melhor modelo de base: y t P oisson(λ t ), t = 1,..., 1447 (3.1) log(λ t ) =α + δ 1 sen((2πt)/365) + δ 2 cos((2πt)/365) + γco t 2 + β 0 T emp t + β 1 T emp t β 14 T emp t µ 0 Umd t + µ 1 Umd t µ 14 Umd t δ 2 I seg δ 7 I sab (3.2) com retrição polinomial de grau dois para as defasagens de temperatura e umidade: ˆ β x = η 0 + η 1 x + η 2 x 2 ˆ µ x = ξ 0 + ξ 1 x + ξ 2 x 2 17

32 O modelo escolhido foi ajustado, então, sob o paradigma bayesiano, utilizando-se os métodos MCMC e Linear Bayes, como descrito nos capítulos seguintes. 18

33 Capítulo 4 Procedimento de inferência via MCMC 4.1 Introdução Os métodos de Monte Carlo via Cadeias de Markov consistem em criar uma cadeia de Markov irredutível e aperiódica cujo espaço de estados Θ seja o suporte do vetor paramétrico θ, de modo que esta cadeia convirja em distribuição para a densidade à posteriori π(θ y), dado qualquer estado inicial em Θ da cadeia. O que se faz, então, é simular uma ou mais realizações dessa cadeia e tomar os valores observados após um determinado número de iterações m a partir do qual seja possível assumir que a distribuição estacionária, ou seja, a densidade à posteriori, tenha sido alcançada. Dessa forma, os algoritmos MCMC fornecem uma amostra simulada da distribuição à posteriori e, a partir dela, pode-se estimar quaisquer medidas resumo (média, variância, quantis,...) da posteriori através das respectivas medidas observadas na amostra. 19

34 Uma forma empírica de analisar a convergência consiste em simular duas cadeias independentemente, cada uma delas inicializada num ponto distinto no espaço paramétrico. Como a convergência é garantida para qualquer estado inicial, a partir do momento em que as duas cadeias se encontram e passam a apresentar um mesmo comportamento ao longo do tempo, tem-se um forte indício de que a distribuição estacionária foi alcançada. Denomina-se período de aquecimento da cadeia o intervalo de tempo discreto transcorrido até observar indícios da convergência. Por fim, recomenda-se que o tamanho da amostra final seja grande para que se possa ter boas estimativas das características de interesse à posteriori. Porém, também é desejável que os valores simulados não apresentem redundância, ou seja, que não sejam muito autocorrelacionados. Do contrário, uma análise precipitada levando em conta apenas o tamanho da amostra simulada pode fazer parecer que as estimativas foram obtidas com uma precisão maior do que na realidade. O que se costuma fazer é, após o período de aquecimento, tomar apenas os valores espaçados de k unidades no tempo, de forma que as autocorrelações sejam próximas de zero. A seguir são descritos os dois métodos MCMC que foram implementados neste trabalho: Metropolis-Hastings e o Amostrador de Gibbs. 4.2 Metropolis-Hastings Sejam Θ o suporte do vetor paramétrico θ e (X t ) uma C.M. irredutível e aperiódica com função de transição q : Θ Θ. Costuma-se fazer referência à função de transição q como densidade proposta. Considere a distribuição a posteriori π (θ) = π(θ y) com núcleo n (θ) e a C.M. com função de transição p : Θ Θ dada por: 20

35 p(θ 1, θ 2 ) = q(θ 1, θ 2 )α(θ 1, θ 2 ), } = min { α(θ 1, θ 2 ) = min 1, π (θ 2 )q(θ 2, θ 1 ) π (θ 1 )q(θ 1, θ 2 ) { 1, n (θ 2 )q(θ 2, θ 1 ) n (θ 1 )q(θ 1, θ 2 ) }. A função α garante que p e π satisfaçam a condição de reversibilidade π (θ 1 )p(θ 1, θ 2 ) = π (θ 2 )p(θ 2, θ 1 ), θ 1, θ 2 Θ. Essa condição implica π transição p. ser distribuição invariante da cadeia com função de Portanto, fornecida a densidade proposta q, prossegue-se com a simulação da cadeia com função de transição p da seguinte da forma: 1. Escolhe-se um valor inicial θ (0) Θ (i=0); 2. Dado θ (i), amostra-se um valor θ de q(θ (i), ); 3. Com probabilidade α(θ (i), θ ), fazemos θ (i+1) = θ e com probabilidade 1 α(θ (i), θ ) fazemos θ (i+1) = θ (i). 4. Atualiza-se o contador i para i+1 e repete-se os passos 2 e 3. A teoria subjacente garante que a cadeia de Markov com função de transição p converge para a distribuição π(θ y) para qualquer densidade proposta q escolhida e qualquer valor inicial θ (0). Cabe ressaltar, porém, que a escolha de q afeta bastante o tempo de convergência da cadeia e, portanto, deve-se estudar boas propostas antes da implementação dos métodos MCMC. (Gamerman, 1998) (citar artigo do CUBS), por exemplo, tratam de duas formas de especificar a proposta q visando justamente diminuir o tempo computacional necessário à convergência das cadeias. 21

36 4.3 Amostrador de Gibbs O amostrador de Gibbs é um caso particular do algoritmo de Metropolis-Hastings em que a probabilidade de aceitação de cada valor gerado é sempre 1. Portanto, os argumentos que justificam a convergência do método são os mesmos exibidos na seção anterior. Seja θ = (θ 1,..., θ n ) o vetor de parâmetros e, inicialmente, suponha conhecidas as n condicionais completas (θ 1 θ 2,..., θ n, y),..., (θ n θ 1,..., θ n 1, y). A seguir, descreve-se as etapas do algoritmo do amostrador de Gibbs: 1. Escolha n valores iniciais θ (0) 1,..., θ n (0) (i=0) 2. Sorteia-se um valor θ (i+1) 1 de θ 1 θ (i) 2,..., θ (i) n ; Sorteia-se um valor θ (i+1) 2 de θ 2 θ (i+1) 1, θ (i) 3,..., θ (i) n ;. Sorteia-se um valor θ (i+1) n de θ n θ (i+1) 1,..., θ (i+1) n 1 ; 3. Repete-se a etapa anterior para as iterações seguintes (i=1,2,3,..). A suposição inicial de que as condicionais completas são conhecidas não é estritamente necessária. Uma vez que o núcelo dessas distibuições é sempre conhecido, pode-se utilizar um passo de Metropolis-Hastings para gerar valores de cada condicional completa cuja forma analítica seja desconhecida durante a etapa 2 do algoritmo. 22

37 4.4 Resumo das etapas para implementação dos métodos MCMC 1. Estipula-se a função de verossimilhança p(y θ) e especifica-se distribuição à priori para o vetor de parâmetros θ; 2. Obtém-se o núcleo da posteriori π(θ y) através do teorema de Bayes; 3. Obtida a densidade conjunta a posteriori, deve-se encontrar o núcleo de cada uma das condicionais completas e identificar quais correspondem a distribuições conhecidas; 4. Escolhe-se os valores iniciais no suporte do vetor paramétrico e a proposta q; 5. Aplica-se o algoritmo do amostrador de Gibbs, lembrando que, a cada vez que se fizer necessário amostrar de uma distribuição condicional completa cuja forma analítica seja desconhecida, deve-se utilizar um passo do algoritmo geral de Metropolis-Hastings; 6. Após diagnosticar indícios de que a convergência da cadeia foi alcançada, considera-se os valores obtidos posteriormente pelo algoritmo como amostra da distribuição à posteriori; 7. através da amostra final obtida após escolher um espaçamento adequado conforme descrito na seção 2.1, estima-se as características de interesse referentes à distribuição à posteriori. 23

38 4.5 Aplicação aos dados reais A implementação dos métodos MCMC ao conjunto de dados descrito na seção 3.1 foi feita utilizando o software WinBugs, que utiliza um conjunto de rotinas próprias em que o usuário não especifica as propostas q(θ, θ ) que irão gerar os novos valores θ da cadeia, dado o último valor gerado θ. A partir do modelo base discutido no final da seção 3.2, construiu-se 4 novos modelos, cada um deles incorporando dinâmica em uma única covariável: intercepto (nível da série), concentração de poluente, temperatura e umidade. A evolução temporal dos parâmetros é descrita por um passeio aleatório simétrico e foi implementada com o objetivo de flexibilizar o modelo base, permitindo que os efeitos de uma mesma covariável na taxa de óbitos se diferenciem ao longo do tempo. Modelo com nível dinâmico: y t P oisson(λ t ), t = 1,..., 1447 (4.1) log(λ t ) =α t + δ 1 sen((2πt)/365) + δ 2 cos((2πt)/365) + γco t 2 + β 0 T emp t + β 1 T emp t β 14 T emp t µ 0 Umd t + µ 1 Umd t µ 14 Umd t δ 2 I seg δ 7 I sab (4.2) ˆ β x = η 0 + η 1 x + η 2 x 2 ˆ µ x = ξ 0 + ξ 1 x + ξ 2 x 2 ˆ α t = α t 1 + ω t, ω t N(0, σ 2 ) Distribuições à priori: ˆ α 1 N(b, σ 2 ), ˆ b N(0.7, 0.2) σ 2 GamaInv(0.01, 0.01) ˆ η 0, η 1, η 2, ξ 0, ξ 1, ξ 2, δ 1,..., δ 8, γ iid N(0, 100) Modelo com dinâmica no coeficiente da concentração de monóxido de carbono: 24

39 y t P oisson(λ t ), t = 1,..., 1447 (4.3) log(λ t ) =α + δ 1 sen((2πt)/365) + δ 2 cos((2πt)/365) + γ t CO t 2 + β 0 T emp t + β 1 T emp t β 14 T emp t µ 0 Umd t + µ 1 Umd t µ 14 Umd t δ 2 I seg δ 7 I sab (4.4) ˆ β x = η 0 + η 1 x + η 2 x 2 ˆ µ x = ξ 0 + ξ 1 x + ξ 2 x 2 ˆ γ t = γ t 1 + ω t, ω t N(0, σ 2 ) Distribuições à priori: ˆ γ 1 N(b, σ 2 ), ˆ b N(0.7, 0.2) σ 2 GamaInv(0.01, 0.01) ˆ α, η 0, η 1, η 2, ξ 0, ξ 1, ξ 2, δ 1,..., δ 8 iid N(0, 100) Modelo com dinâmica nos coeficientes da temperatura: y t P oisson(λ t ), t = 1,..., 1447 (4.5) log(λ t ) =α + δ 1 sen((2πt)/365) + δ 2 cos((2πt)/365) + γco t 2 + β 0,t T emp t + β 1,t T emp t β 14,t T emp t µ 0 Umd t + µ 1 Umd t µ 14 Umd t δ 2 I seg δ 7 I sab (4.6) 25

40 ˆ β x,t = η 0,t + η 1 x + η 2 x 2 ˆ µ x = ξ 0 + ξ 1 x + ξ 2 x 2 ˆ η 0,t = η 0,t 1 + ω t, ω t N(0, σ 2 ) Distribuições à priori: ˆ η 0,1 N(b, σ 2 ), ˆ b N(0.7, 0.2) σ 2 GamaInv(0.01, 0.01) ˆ α, η 1, η 2, ξ 0, ξ 1, ξ 2, δ 1,..., δ 8, γ iid N(0, 100) Modelo com dinâmica nos coeficientes da umidade: y t P oisson(λ t ), t = 1,..., 1447 (4.7) log(λ t ) =α + δ 1 sen((2πt)/365) + δ 2 cos((2πt)/365) + γco t 2 + β 0 T emp t + β 1 T emp t β 14 T emp t µ 0,t Umd t + µ 1,t Umd t µ 14,t Umd t δ 2 I seg δ 7 I sab (4.8) ˆ β x = η 0 + η 1 x + η 2 x 2 ˆ µ x,t = ξ 0,t + ξ 1 x + ξ 2 x 2 ˆ ξ 0,t = ξ 0,t 1 + ω t, ω t N(0, σ 2 ) Distribuições à priori: ˆ ξ 0,1 N(b, σ 2 ), ˆ b N(0.7, 0.2) σ 2 GamaInv(0.01, 0.01) ˆ η 0, η 1, η 2, ξ 1, ξ 2, δ 1,..., δ 8, γ iid N(0, 100) Também foram propostos e estimados modelos considerando o efeito das covariáveis apenas defasado num dia específico anterior à observação do número de óbitos. Para determinar a defasagem em cada covariável, observou-se a correlação cruzada entre cada par (covariável vs logaritmo da variável resposta) para várias defasagens diferentes e escolheu-se a que forneceu o maior valor. A dinâmica nos coeficientes foi feita exatamente como descrito nesta seção. Conforme consta na próxima seção, os modelos com efeito apenas defasado não se ajustaram tão bem quanto aqueles que consideram os efeitos 26

41 propagados Escolha do melhor modelo segundo critério de ajuste DIC O critério DIC é bastante utilizado nos casos de aplicação de métodos MCMC. Ele é menor para modelos que apresentam melhor ajuste aos dados além de penalizar cada modelo pela quantidade de parâmetros, incorporando assim o princípio estatístico da parcimônia (deve-se evitar modelos com muitos parâmetros caso haja outros outros modelos quase tão bons mas que utilizam menos parâmetros). Cada um dos modelos apresentou mais de uma cadeia com autocorrelação bastante elevada, por isso foi necessário especificar espaçamento grande entre os valores simulados, o que aumentou muito o tempo computacional para simulação das cadeias, dado que foi preciso grande número de iterações de modo a garantir uma amostra final de tamanho grande e com pouca informação redundante. Nesse ponto, suspeita-se que a escolha de outras propostas mais adequadas do que aquelas escolhidas pelo software WinBugs, adotado para impementação dos esquemas MCMC neste trabalho, poderia gerar cadeias menos autocorrelacionadas e diminuir assim o número de iterações necessárias e o tempo computacional. Tabela 4.1: Especificações para obtenção de amostra final aproximada para a posteriori de cada um dos modelos com efeito propagado Total de iterações Aquecimento Espaçamento 800 A seguir, podemos ver que os modelos com efeito apenas defasado não se ajustaram tão bem quanto aqueles que consideram os efeitos propagados. 27

42 Tabela 4.2: Comparação dos DICs de cada um dos modelos Dinâmica Nível Poluente Temperatura Umidade DIC Efeitos Defasados DIC Efeitos Propagados O melhor modelo segundo o critério DIC é aquele que apresenta dinâmica no nível da série com efeito de covariáveis propagado ao longo do tempo. 4.6 Resultados para o melhor modelo A evolução temporal das taxas de óbitos estimadas acompanha bem a série, como é possível notar no gráfico abaixo: Figura 4.1: Média à posteriori e intervalos de credibilidade de 95% para a taxa de óbitos vs Série observada O nível da série capta a tendência de queda no número de óbitos com o passar dos anos, como foi observado na seção 3.1: 28

43 Ano Figura 4.2: Média à posteriori e intervalos de credibilidade de 95% para o nível da série A seguir, tem-se o gráfico que mostra o comportamento do simétrico dos coeficientes da temperatura segundo as defasagens onde e possivel perceber que as defasagens de 2 e 3 dias são isoladamente significativas para o ajuste. Ressalta-se a importância de manter as demais, uma vez que considerar efeitos propagados levou a modelos mais bem ajustados do que os modelos com apenas uma defasagem para cada covariável. Figura 4.3: Intervalos de credibilidade de 95% e média estimados para o simétrico dos coeficientes da temperatura segundo defasagens A distribuição preditiva é parte muito importante da inferência bayesiana, pois é a partir dela que se faz as previsões para horizontes futuros. Percebe-se que os intervalos não se diferenciam muito no tempo e preveem sempre valores baixos, contendo o 29

44 verdadeiro número de óbitos bservado em todos os 46 dias finais. Figura 4.4: Intervalo de credibilidade e média a posteriori da distribuição preditiva A Figura 4.5 e a Tabela 4.3 mostram os valores estimados para os parâmetros estáticos, bem como a incerteza a posteriori de cada um deles (representada pela amplitude dos intervalos de credibilidade de 95%), para o melhor modelo cuja especificação é dada a seguir. Figura 4.5: Intervalos de credibilidade de 95% e média a posteriori para os parâmetros estáticos 30

45 Modelo com nível dinâmico: y t P oisson(λ t ), t = 1,..., 1447 (4.9) log(λ t ) =α t + δ 1 sen((2πt)/365) + δ 2 cos((2πt)/365) + γco t 2 + β 0 T emp t + β 1 T emp t β 14 T emp t µ 0 Umd t + µ 1 Umd t µ 14 Umd t δ 3 I seg δ 8 I sab (4.10) ˆ β x = η 0 + η 1 x + η 2 x 2 ˆ µ x = ξ 0 + ξ 1 x + ξ 2 x 2 ˆ α t = α t 1 + ω t, ω t N(0, σ 2 ) Distribuições à priori: ˆ α 1 N(b, σ 2 ), ˆ b N(0.7, 0.2) σ 2 GamaInv(0.01, 0.01) ˆ η 0, η 1, η 2, ξ 0, ξ 1, ξ 2, δ 1,..., δ 8, γ iid N(0, 100) Percebe-se, por exemplo, que segunda-feira, terça e sexta apresentam número esperado de óbitos significativamente menor que o domingo. 31

46 Tabela 4.3: Média e limites de credibilidade de 95% a posteriori para os parâmetros estáticos do modelo com nível da série variando no tempo. Os asteriscos ( ) indicam os coeficientes significativamente distintos de zero ao nível de 5% de credibilidade. Nível variando no tempo Quantil 2.5% Média Quantil 97.5% γ δ δ δ δ δ δ η η η ξ ξ ξ δ δ σ b Apesar do coeficiente do monóxido de carbono não ter sido significativamente diferente de zero ao nível de 5%, através da amostra obtida da posteriori por meio do MCMC, observou-se probabilidade de aproximadamente 88,1% do efeito do poluente sobre a taxa de óbitos ser positivo. Isso indica que incrementos no nível deste poluente estão associados a uma elevação no número esperado de óbitos. Ainda que de pequena magnitude, tal efeito é significativo e, cumulativamente, pode ser relevante. A amostra a posteriori para o coeficiente do monóxido de carbono pode ser vista na Figura

47 Figura 4.6: carbono Histograma da amostra a posteriori para o coeficiente do monóxido de Pode-se interpretar a estimativa obtida para o coeficiente do nível de monóxido de carbono padronizado como um acréscimo na taxa de óbitos. A média e o desvio padrão em ppm foram respectivamente, 4,52 e 2,1198, e a estimativa para o coeficiente desta variável padronizada foi de 0,0238. Segue que e = 1, 024, portanto estima-se que um aumento de 1 desvio padrão em relação à média do nível de monóxido de carbono, acarrete em um acréscimo de 2, 4% na taxa de óbitos de dois dias à frente. Neste caso, utilizando a inferência Bayesiana, pode-se associar uma medida de incerteza ao efeito do monóxido de carbono na taxa de óbitos dado por e γ. Para se obter a distribuição de e γ, basta exponenciar os valores da posteriori para γ obtidos pelo método MCMC. A figura 4.7 mostra o histograma obtido através da aplicação deste raciocínio, bem como o intervalo de credibilidade de 95%, IC(95%, γ) = [0.985; 1.065]. 33

48 Figura 4.7: Histograma do efeito do acréscimo de 1 desvio padrão com respeito à média da concentração de monóxido de carbono na taxa de óbitos e intervalo de credibilidade de 95% 34

49 Capítulo 5 Implementação via Linear Bayes 5.1 Introdução O método Linear Bayes se aplica a classe dos modelos lineares dinâmicos generalizados(mdlg). Essa classe é uma extensão dos Modelos Lineares Dinâmicos (MLD) caracterizada também pela quárdrupla {F t, G t, V t, W t }, porém com a variável resposta pertence à família exponencial e os erros de evolução não necessariamente seguindo uma distribuição normal. Uma v.a. Y possui distribuição pertencente à familia exponencial se sua função densidade (ou função de probabilidade) p Y pode ser escrita na forma p Y (y η, φ) = exp{φ[f(y)η a(η)]}b(y, φ) onde ˆ η é o parâmetro natural; 35

50 ˆ φ > 0 é o parâmetro de precisão; ˆ a, f e b são funções, sendo a duas vezes derivável; Obs.: Se f for a função identidade, então µ = E[Y ] = a (η) e V ar[y ] = a (η). p(y µ) = yµ e µ y!, y N é da família exponencial, sendo η = lnµ, φ = 1, a(η) = e η, b(η, υ) = 1 y! Observa-se que a definição aqui explicitada encontrada em (West e Harrison, 1989), é diferente mas equivalente àquela apresentada no capítulo 1. Escolheu-se trabalhar com esta definição com o objetivo de manter a mesma notação utilizada pelo autor. Devido à normalidade à priori do vetor paramétrico e a conjugação no caso MLD, basta calcular média e variância a priori do vetor de estados para ter suas distribuições completamente especificadas, o que não acontece no caso MDLG. 5.2 Procedimento geral para inferência na classe dos Modelos Dinâmicos Lineares Generalizados Seja y t (t = 1, 2,... ) o vetor de observações com p(y t exponencial; η t ) pertencente à família 1. Preditor linear: g(η t ) = λ t = F t θ t 36

51 2. Equação de evolução: θ t = G t θ t 1 + ω t com ω t [0, W t ] Sendo: ˆ θ t o vetor paramétrico ˆ F t matriz de covariáveis ˆ G t matriz de evolução ˆ W t matriz de covariâncias O esquema de atualização se dá da seguinte maneira ˆ Inicia-se com uma priori referente ao vetor de estados no instante inicial da série utilizando a informação subjetiva representada por D 0 ; ˆ Incorpora-se o primeiro dado observado para compor a posteriori no tempo 1 e a informação disponível passa a ser D 1 = D 0 U{y 1 } ; ˆ No tempo seguinte, a informação a priori é D 1 = D 0 U{y 1 e incorpora-se a nova observação y 2 para compor a posteriori no tempo 2 e a informação disponível passa a ser D 2 = D 1 U{y 2 } 37

52 e assim por diante, onde denota-se priori e posteriori no tempo t respectivamente por θ t D t 1 e θ t D t. Note-se que a atualização da informação é on-line no sentido de que, dada toda a informação disponível no passado, atualiza-se a incerteza associada aos parâmetros assim que se dispõe dos dados no tempo corrente. Tendo em mente que não há forma analítica fechada para a posteriori do vetor de estados, o método linear bayes propõe especificar essas prioris apenas através do vetor de médias e matriz de covariância. O esquema de atualização em termos de primeiro e segundo momentos ocorre da seguinte forma: Prioris 1. θ t D t 1 [m t 1, R t ] λ t=f t {}}{ θt 2. λ t D t 1 [f t, q t ] f t = F tm t 1, q t = F tr t F t Posterioris 1. θ t D t [m t, C t ] m t = m t 1 + R t F t (f t f t )/q t, C t = R t R t F t F t(1 q /q t )/q t, 2. λ t D t [F tm t, F tc t F t ] Dada a posteriori em t: θ t D t [m t, C t ], a priori em t + 1 é dada por: θ t+1 D t [m t, R t+1 ], R t+1 = C t + W t+1, 38

53 em que podemos especificar a matriz dos erros de evolução W t pela matriz B de fatores de desconto δ 1,..., δ n (0, 1]: B = 1 δ δ δn. Escrevendo a matriz de covariâncias de θ t D t 1 como o produto BC t 1 B, tem-se W t especificada: R t = C t 1 + W t = BC t 1 B W t = BC t 1 B C t 1. A multiplicação BC t 1 B é responsável por inflar a variância das posterioris dos estados no tempo t em comparação com a das prioris no tempo t 1, o que condiz com a intuição de que a incerteza dispondo-se de informação até o tempo t 1 é maior para avaliar os estados no tempo t, do que no tempo corrente t 1. Note-se que quanto mais próximo de 1 for o fator de desconto δ i, menor é o acréscimo na variância de θ i,t com o passar do tempo e mais suave é a evolução do estado i. No caso extremo em que δ i = 1, temos o estado θ i fixo no tempo. Para valores de δ i próximos de zero, mais abrupta será a evolução de θ i,t Inferência em Modelos Dinâmicos Lineares Generalizados com resposta Poisson Nesta seção será mostrado como o método Linear Bayes, aplicado ao caso específico de resposta Poisson, fornece distribuição preditiva com forma analítica fechada, além de conjugação para média da variável resposta, mesmo especificando as prioris do vetor de estado apenas parcialmente atraves de primeiro e segundo momentos. Inicialmente, da estrutura do modelo, temos 39

54 λ t = F tθ t E(λ t D t 1 ) = F te(λ t D t 1 ) = F tm t 1 V ar(λ t D t 1 ) = F tv ar(λ t D t 1 )F t = F tr t F t, (5.1) para qualquer que seja a distribuição a priori π(θ t D t 1 ). Por outro lado, se especificarmos para µ t a priori Gama(r t, s t ), teremos completamente especificada a priori para λ t, que dverá ter média f t = F tm t 1 variância q t = F tr t F t. e De µ t D t 1 Gama(r t, s t ), temos π(µ t D t 1 ) = srt t Γ(r t ) µrt 1 t e stµt exp{r t T 1 (µ t ) + s t T 2 (µ t ) b(r r, s t )}, com T 1 (µ t ) = log µ t, T 2 (µ t ) = µ t, b(r t, s t ) = r t log s t log Γ(r t ). Da teoria associada à família exponencial,e(t 1 ) = d b d r t, donde E(T 1 ) = log s t + Γ (r t) Γ(r t) = log s t + ψ(r t ), sendo ψ(r t ) = Γ (r t) Γ(r t). Como T 1 = log µ t = λ t, segue que E(T 1 D t 1 ) = E(λ t D t 1 ) = log s t + ψ(r t ). Portanto, devemos ter f t = log s t + ψ(r t ). Também se sabe que V ar(t 1 ) = 2 b, donde, V ar(t rt 2 1 ) = ψ (r t ). Sendo T 1 = λ t, segue que E(λ t D t 1 ) = ψ (r t ), donde devemos ter ψ (r r ) = q t. 40

55 Logo, é preciso encontrar r t e s t de modo a satisfazer o sistema não-linear: log s t + ψ(r t ) = f t ψ (r t ) = q t Ao invés de resolver o sistema através do uso, por exemplo, de métodos numéricos, o Linear Bayes utiliza aproximações para ψ(r t ) e ψ (r t ), dadas em Abramowitz (1972), de modo que possa obter solução analítica aproximadamente: ψ(z) = log(z), ψ (z) = z 1 f t = log s t + ψ(r t ) = log q t = 1 q t ( ) r t s t r t = 1 q t Assim, e ft = r t s t r t = e ft s t s t = r t e ft r t = 1 q t s t = e f t q t = e ft q t µ t D t 1 Gamma(r t, s t ) r t = 1 q t, s t = e ft q t. A adoção de priori Gama para µ t garante conjugação, ou seja, µ t D t também tem distribuição Gama. Para a obtenção da preditiva um passo à frente, deve-se resolver a integral π(y t D t 1 ) = π(y t, µ t D t 1 )dµ t = π(y t µ t, D t 1 )π(µ t D t 1 )dµ t, 41

56 e, do fato de que µ D t 1 Gama(r t, s t ), a integral resulta na densidade da BinNeg(r t, 1 s t+1 ). Segue o esquema completo de atualização (incluindo preditiva, preditor linear, média da Poisson e vetor de estados) do Linear Bayes: Prioris 1. θ t D t 1 [m t 1, R t ] λ t=f t {}}{ θt 2. λ t D t 1 [f t, q t ] f t = F tm t 1, q t = F tr t F t 3. µ t D t 1 Gama(r t, s t ), Preditiva: y t D t 1 BinomNeg(r t, 1/(s t + 1)) Posterioris ( ) 1. λ t D t [ft, qt ], ft r = log t+y t s t ; 2(r q t+y t) t = 2(rt+yt) 1 2(r t+y t) 2 2. µ t D t Gama(y t + r t, s t + 1), 3. θ t D t [m t, C t ] m t = m t 1 + R t F t (f t f t )/q t, C t = R t R t F t F t(1 q /q t )/q t, 42

57 5.3 Aplicação aos dados reais O conjunto de dados e os modelos utilizados para ajustá-los são os mesmos descritos anteriormente no capítulo 4. Apenas o tratamento dado à dinâmica dos estados foi diferente, uma vez que aqui optou-se por especificar diferentes fatores de desconto para os erros de evolução dos parâmetros de estado. Aproveitando-se do fato de que a estimação de cada modelo via Linear Bayes era feita em pouquíssimo tempo (menos de um segundo), avaliou-se diversas combinações para a dinâmica do nível e dos coeficientes associados a temperatura, umidade, e concentração de monóxido, tanto para os modelos com efeitos propagados no tempo quanto para aqueles que consideram efeito apenas defasado. Utilizou-se primeiramente apenas o nível com evolução temporal, testando para ele os fatores de desconto: 0.88, 0.89, 0.90,..., 0.99, 1. Escolheu-se então a configuração que apresentou menor Erro Quadrático Médio de Previsão (EQMP) um passo à frente. Em seguida, mantido o fator de desconto ótimo para o nível, ajustou-se mais 27 modelos, um para cada combinação possível dos fatores de desconto 1, 0.98 e 0.95 para as 3 covariáveis citadas. Essa metodologia foi aplicada tanto nos modelos considerando efeitos apenas defasados quanto efeitos propagados e o melhor modelo segundo o critério preditivo de minimização do EQMP foi o de efeitos apenas defasados com dinâmica apenas no nível e respectivo fator de desconto igual a O EQMP para esse modelo foi de 3,1095. A especificação das prioris para os modelos só é feita em termos de 1º e 2º momentos para o vetor de estados, daí tem-se determinadas as prioris para a taxa de óbitos µ t e para o preditor linear λ t, conforme descrito na seção 4.2. Todos os modelos foram estimados com a seguinte priori para o vetor de estados: 43

58 θ 1 D 0 [m 0, BC 0 B], m 0 = (0, 0,..., 0) T C 0 = diag(2) 5.4 Resultados para o melhor modelo Conforme relatado, o melhor modelo segundo o critério preditivo de minimizaçao do EQMP foi: y t µ t P oisson(µ t ) log(µ t ) = β 0,t +β 1 CO t 2 +β 2 T emp t 3 +β 3 Umid t 2 +δ 2 I seg + +δ 7 I sab +α 1 cos ( ) 2πt +α2 sen ( ) 2πt Equação de evolução (fator de desconto 0.91): β 0,t = β 0,t 1 + ω 0 ω 0 [0, W 0,t ] e, a seguir, tem-se os resultados obtidos para este modelo. 44

59 Evolução temporal do nível da série Figura 5.1: da série Médias e intervalos de credibilidade à posteriori de 2 desvios para o nível Percebe-se leve tendência de queda no nível base da série ao longo dos anos conforme observado na seção 3.1. Os primeiros intervalos de credibilidade são bastante amplos pois no início temos poucos dados observados e a incerteza descrita pela priori não informativa supera a informação proveniente dos dados através da verossimilhança. Os intervalos de credibilidade foram tomados a distância de ± 2 desvios padrões da média estimada. Não é possível saber o grau de incerteza associado a esses intervalos em termos probabilísticos, um vez que o nível pertence ao vetor de estados especificado apenas parcialmente em termos do primeiro e segundo momentos. 45

60 Taxas de óbitos estimadas e contagens observadas Figura 5.2: Média à posteriori da taxa de óbitos vs Contagens de óbitos observadas A taxa de óbitos estimada acompanha bem a série de dados, apresentando picos e quedas que condizem com o observado. 46

61 Evolução temporal das taxas de óbito Figura 5.3: Média e intervalos de credibilidade à posteriori de 95% para a taxa de óbitos Os intervalos de credibilidade de 95% parecem conter a devida proporcão de valores observados da variável resposta. Note-se que µ t D t tem distribuição Gama especificada de forma completa. A variação no início é mais brusca tanto para as estimativas quanto para os intervalos, pela mesma razão já mencionada para os outros gráficos. 47

62 Distribuição preditiva um passo à frente Figura 5.4: Média e intervalos de credibilidade à posteriori de 95% para a predição um passo à frente vs Série observada As predições captam bem o número de óbitos observados, com oscilações que acompanham a série. Novamente, as previsões para os primeiros dias são mais imprecisas do que para os últimos, pois consideram um número menor de observações. 48

Influencia de Distribuições a priori na Analise Bayesiana em dados de contagem

Influencia de Distribuições a priori na Analise Bayesiana em dados de contagem Influencia de Distribuições a priori na Analise Bayesiana em dados de contagem Olinda Fátima dos Santos 1 Carla Regina Guimarães Brighenti 1 1-Introdução A utilização de informação a priori em inferência

Leia mais

Técnicas computacionais em probabilidade e estatística II

Técnicas computacionais em probabilidade e estatística II Técnicas computacionais em probabilidade e estatística II Universidade de São Paulo Instituto de Matemática e Estatística http:www.ime.usp.br/ mbranco AULA 1: Problemas Computacionais em Inferência Estatística.

Leia mais

Técnicas computacionais em probabilidade e estatística II

Técnicas computacionais em probabilidade e estatística II Técnicas computacionais em probabilidade e estatística II Universidade de São Paulo Instituto de Matemática e Estatística http:www.ime.usp.br/ mbranco Métodos de Monte Carlo baseados em Cadeias de Markov:

Leia mais

Cap. 4 - Estimação por Intervalo

Cap. 4 - Estimação por Intervalo Cap. 4 - Estimação por Intervalo Amostragem e inferência estatística População: consiste na totalidade das observações em que estamos interessados. Nº de observações na população é denominado tamanho=n.

Leia mais

CC-226 Aula 07 - Estimação de Parâmetros

CC-226 Aula 07 - Estimação de Parâmetros CC-226 Aula 07 - Estimação de Parâmetros Carlos Henrique Q. Forster - Instituto Tecnológico de Aeronáutica 2008 Estimação de Parâmetros Para construir o classificador bayesiano, assumimos as distribuições

Leia mais

Metodologia de inversão

Metodologia de inversão 6 Metodologia de inversão Nesta tese, a transformação de velocidades em pressão de poros é encarada como um problema de inversão. Pela natureza do problema, essa transformação apresenta caráter não único

Leia mais

Econometria em Finanças e Atuária

Econometria em Finanças e Atuária Ralph S. Silva http://www.im.ufrj.br/ralph/especializacao.html Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Maio-Junho/2013 Modelos condicionalmente

Leia mais

Inferência Bayesiana

Inferência Bayesiana Inferência Bayesiana Joaquim Neto joaquim.neto@ufjf.edu.br www.ufjf.br/joaquim_neto Departamento de Estatística - ICE Universidade Federal de Juiz de Fora (UFJF) Versão 3.0 Joaquim Neto (UFJF) ICE - UFJF

Leia mais

Econometria em Finanças e Atuária

Econometria em Finanças e Atuária Ralph S. Silva http://www.im.ufrj.br/ralph/especializacao.html Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Maio-Junho/2013 Motivação Motivação Por

Leia mais

ESTATÍSTICA BAYESIANA

ESTATÍSTICA BAYESIANA UNIVERSIDADE FEDERAL DE MINAS GERAIS INSTITUTO DE CIÊNCIAS EXATAS PET MATEMÁTICA Orientadora: Rosângela Helena Loschi ESTATÍSTICA BAYESIANA Marina Muniz de Queiroz INTRODUÇÃO A estatística clássica associa

Leia mais

3 Filtro de Kalman Discreto

3 Filtro de Kalman Discreto 3 Filtro de Kalman Discreto As medidas realizadas por sensores estão sujeitas a erros, como pode ser visto no Capítulo 2. Os filtros são aplicados aos sinais medidos pelos sensores para reduzir os erros,

Leia mais

A análise de séries temporais é uma área da estatística dedicada ao estudo de dados orientados no tempo (MONTGOMERY, 2004).

A análise de séries temporais é uma área da estatística dedicada ao estudo de dados orientados no tempo (MONTGOMERY, 2004). 3 Séries temporais A análise de séries temporais é uma área da estatística dedicada ao estudo de dados orientados no tempo (MONTGOMERY, 2004). 3.1. Princípios fundamentais Conforme Box et al. (1994), uma

Leia mais

ESTATÍSTICA COMPUTACIONAL

ESTATÍSTICA COMPUTACIONAL ESTATÍSTICA COMPUTACIONAL Ralph dos Santos Silva Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Sumário Inferência com dimensão variável Modelos com

Leia mais

Gibbs Sampler para ANOVA e Misturas

Gibbs Sampler para ANOVA e Misturas Gibbs Sampler para ANOVA e Misturas Renato Assunção - DCC, UFMG Outubro de 014 1 Modelo ANOVA: componentes de variância Suponha que temos K grupos ou classes. Em cada grupo, temos um certo número de dados

Leia mais

Inferência Bayesiana - Aula 1 -

Inferência Bayesiana - Aula 1 - Inferência Bayesiana - Aula 1 - Márcia D Elia Branco Universidade de São Paulo Instituto de Matemática e Estatística www.ime.usp.br/ mbranco - sala 295-A - Paradigmas Bayesiano Introdução Fazer inferência

Leia mais

p(x) Note que 1/p(x), que não depende de θ, funciona como uma constante normalizadora

p(x) Note que 1/p(x), que não depende de θ, funciona como uma constante normalizadora Capítulo 1 Introdução A informação que se tem sobre uma quantidade de interesse θ é fundamental na Estatística. O verdadeiro valor de θ é desconhecido e a idéia é tentar reduzir este desconhecimento. Além

Leia mais

Inferência Estatistica

Inferência Estatistica Inferência Estatistica Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matemática Aplicada e Estatística Universidade de São Paulo Modelos e Inferência Um modelo é uma simplificação da realidade (e alguns

Leia mais

Análise Bayesiana de Dados - Aula 1 -

Análise Bayesiana de Dados - Aula 1 - Análise Bayesiana de Dados - Aula 1 - Márcia D Elia Branco Universidade de São Paulo Instituto de Matemática e Estatística www.ime.usp.br/ mbranco - sala 295-A - Paradigmas Bayesiano Introdução Fazer inferência

Leia mais

Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação

Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação Francisco A. Rodrigues Departamento de Matemática Aplicada e Estatística - SME Objetivo Dada M classes ω 1, ω 2,..., ω M e um

Leia mais

Séries Temporais e Modelos Dinâmicos. Econometria. Marcelo C. Medeiros. Aula 9

Séries Temporais e Modelos Dinâmicos. Econometria. Marcelo C. Medeiros. Aula 9 em Econometria Departamento de Economia Pontifícia Universidade Católica do Rio de Janeiro Aula 9 Data Mining Equação básica: Amostras finitas + muitos modelos = modelo equivocado. Lovell (1983, Review

Leia mais

Aula 2 Uma breve revisão sobre modelos lineares

Aula 2 Uma breve revisão sobre modelos lineares Aula Uma breve revisão sobre modelos lineares Processo de ajuste de um modelo de regressão O ajuste de modelos de regressão tem como principais objetivos descrever relações entre variáveis, estimar e testar

Leia mais

ESTATÍSTICA COMPUTACIONAL

ESTATÍSTICA COMPUTACIONAL ESTATÍSTICA COMPUTACIONAL Ralph dos Santos Silva Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Sumário Motivação Por exemplo, queremos analisar a série

Leia mais

1 Que é Estatística?, 1. 2 Séries Estatísticas, 9. 3 Medidas Descritivas, 27

1 Que é Estatística?, 1. 2 Séries Estatísticas, 9. 3 Medidas Descritivas, 27 Prefácio, xiii 1 Que é Estatística?, 1 1.1 Introdução, 1 1.2 Desenvolvimento da estatística, 1 1.2.1 Estatística descritiva, 2 1.2.2 Estatística inferencial, 2 1.3 Sobre os softwares estatísticos, 2 1.4

Leia mais

Inferência Bayesiana Exata para Processos de Cox Level-Set

Inferência Bayesiana Exata para Processos de Cox Level-Set Inferência Bayesiana Exata para Processos de Cox Level-Set Bárbara da Costa Campos Dias 1 Flávio Bambirra Gonçalves 2 Resumo Este trabalho propõe uma metodologia de inferência exata para processos de Cox

Leia mais

Métodos Computacionais para inferência estatística

Métodos Computacionais para inferência estatística Métodos Computacionais para inferência estatística Wagner Hugo Bonat LEG: Laboratório de Estatística e Geoinformação Universidade Federal do Paraná 30 de julho de 2012 Bonat et. al (LEG/UFPR) MCIE 30 de

Leia mais

Definição. Os valores assumidos pelos estimadores denomina-se estimativas pontuais ou simplesmente estimativas.

Definição. Os valores assumidos pelos estimadores denomina-se estimativas pontuais ou simplesmente estimativas. 1. Inferência Estatística Inferência Estatística é o uso da informção (ou experiência ou história) para a redução da incerteza sobre o objeto em estudo. A informação pode ou não ser proveniente de um experimento

Leia mais

AGA Análise de Dados em Astronomia I 8. Inferência Bayesiana e MCMC

AGA Análise de Dados em Astronomia I 8. Inferência Bayesiana e MCMC 1 / 1 AGA 0505- Análise de Dados em Astronomia I 8. Inferência Bayesiana e MCMC Laerte Sodré Jr. 1o. semestre, 2018 2 / 1 Inferência Bayesiana inferência bayesiana consideremos um conjunto de dados D que

Leia mais

FAMÍLIA EXPONENCIAL DE DISTRIBUIÇÕES

FAMÍLIA EXPONENCIAL DE DISTRIBUIÇÕES FAMÍLIA EXPONENCIAL DE DISTRIBUIÇÕES 1 Os modelos lineares generalizados, propostos originalmente em Nelder e Wedderburn (1972), configuram etensões dos modelos lineares clássicos e permitem analisar a

Leia mais

CONHECIMENTOS ESPECÍFICOS

CONHECIMENTOS ESPECÍFICOS fonte de graus de soma de quadrado variação liberdade quadrados médio teste F regressão 1 1,4 1,4 46,2 resíduo 28 0,8 0,03 total 2,2 A tabela de análise de variância (ANOVA) ilustrada acima resulta de

Leia mais

Modelos Bayesianos. Ernesto F. L. Amaral Magna M. Inácio

Modelos Bayesianos. Ernesto F. L. Amaral Magna M. Inácio 1 Modelos Bayesianos Ernesto F. L. Amaral Magna M. Inácio 09 de dezembro de 2010 Tópicos Especiais em Teoria e Análise Política: Problema de Desenho e Análise Empírica (DCP 859B4) Objetivos 2 Apresentar

Leia mais

4 Modelos de Regressão Dinâmica

4 Modelos de Regressão Dinâmica 4 Modelos de Regressão Dinâmica Nos modelos de regressão linear (Johnston e Dinardo, 1998) estudados comumente na literatura, supõe-se que os erros gerados pelo modelo possuem algumas características como:

Leia mais

Cap. 8 - Intervalos Estatísticos para uma Única Amostra

Cap. 8 - Intervalos Estatísticos para uma Única Amostra Intervalos Estatísticos para ESQUEMA DO CAPÍTULO 8.1 INTRODUÇÃO 8.2 INTERVALO DE CONFIANÇA PARA A MÉDIA DE UMA DISTRIBUIÇÃO NORMAL, VARIÂNCIA CONHECIDA 8.3 INTERVALO DE CONFIANÇA PARA A MÉDIA DE UMA DISTRIBUIÇÃO

Leia mais

Ajuste do modelo de regressão linear: Inferência Bayesiana, aspectos computacionais e seleção de variáveis.

Ajuste do modelo de regressão linear: Inferência Bayesiana, aspectos computacionais e seleção de variáveis. Ajuste do modelo de regressão linear: Inferência Bayesiana, aspectos computacionais e seleção de variáveis. João Daniel Nunes Duarte a, Vinícius Diniz Mayrink b a Estudante de Graduação, e-mail: joaodaniel@ufmg.br

Leia mais

Introdução a Inferência Bayesiana

Introdução a Inferência Bayesiana Introdução a Inferência Bayesiana Helio S. Migon IM and COPPE - UFRJ migon@im.ufrj.br 2006 Conteúdo 1. Conceitos Básicos da Inferência 2. Distribuição a Priori 3. Sumariazação 4. Inferência Preditiva 1

Leia mais

Nessa situação, a média dessa distribuição Normal (X ) é igual à média populacional, ou seja:

Nessa situação, a média dessa distribuição Normal (X ) é igual à média populacional, ou seja: Pessoal, trago a vocês a resolução da prova de Estatística do concurso para Auditor Fiscal aplicada pela FCC. Foram 10 questões de estatística! Não identifiquei possibilidade para recursos. Considero a

Leia mais

Caros Alunos, segue a resolução das questões de Estatística aplicadas na prova para o cargo de Auditor Fiscal da Receita Municipal de Teresina.

Caros Alunos, segue a resolução das questões de Estatística aplicadas na prova para o cargo de Auditor Fiscal da Receita Municipal de Teresina. Caros Alunos, segue a resolução das questões de Estatística aplicadas na prova para o cargo de Auditor Fiscal da Receita Municipal de Teresina. De forma geral, a prova manteve o padrão das questões da

Leia mais

( ) Estimação do valor em risco (VaR) de uma carteira de ativos através de método bayesiano. α, é definido como:

( ) Estimação do valor em risco (VaR) de uma carteira de ativos através de método bayesiano. α, é definido como: Estimação do valor em risco (VaR) de uma carteira de ativos através de método bayesiano Orlando V. Sampaio Jr. (POLI-USP) orlando.sampaio@gmail.com Celma de Oliveira Ribeiro (POLI-USP) celma@usp.br André

Leia mais

RESOLUÇÃO Nº 01/2016

RESOLUÇÃO Nº 01/2016 Legislações Complementares: Resolução Nº 02/2016 Colegiado DEst Resolução Nº 03/2016 Colegiado DEst Resolução Nº 01/2017 Colegiado DEst RESOLUÇÃO Nº 01/2016 O Departamento de Estatística, tendo em vista

Leia mais

IND 1115 Inferência Estatística Aula 6

IND 1115 Inferência Estatística Aula 6 Conteúdo IND 5 Inferência Estatística Aula 6 Setembro de 004 A distribuição Lognormal A distribuição Beta e sua relação com a Uniforme(0,) Mônica Barros mbarros.com mbarros.com A distribuição Lognormal

Leia mais

Ralph S. Silva

Ralph S. Silva ANÁLISE ESTATÍSTICA MULTIVARIADA Ralph S Silva http://wwwimufrjbr/ralph/multivariadahtml Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Sumário Revisão:

Leia mais

MAE 5882 aula 02. O log-retorno de período k (agregação temporal dos retornos)

MAE 5882 aula 02. O log-retorno de período k (agregação temporal dos retornos) Agregação de Retornos MAE 5882 aula 02 O log-retorno de período k (agregação temporal dos retornos) Agregação cross-section (transversal), para diversos ativos de uma carteira de investimentos, c: Suponha

Leia mais

Aplicações de inferência bayesiana aproximada para modelos gaussianos latentes espaço temporais

Aplicações de inferência bayesiana aproximada para modelos gaussianos latentes espaço temporais Aplicações de inferência bayesiana aproximada para modelos gaussianos latentes espaço temporais Orientador: Paulo Justiniano Ribeiro Jr Universidade Federal do Paraná Programa de Pós-Graduação em Métodos

Leia mais

4 APLICAÇÃO DO MODELO E RESULTADOS

4 APLICAÇÃO DO MODELO E RESULTADOS 4 APLICAÇÃO DO MODELO E RESULTADOS Neste capítulo, será aplicado o modelo proposto (Holt-Winters com múltiplos ciclos mais a correção devido à ocorrência de feriado e temperatura) e apresentados os resultados

Leia mais

4 Modelos Lineares Generalizados

4 Modelos Lineares Generalizados 4 Modelos Lineares Generalizados Neste capítulo, serão apresentados arcabouços teóricos dos modelos lineares generalizados (MLGs) e como casos particulares desses modelos são aplicáveis ao problema da

Leia mais

MAE 5882 aula 02. O log-retorno de período k (agregação temporal dos retornos)

MAE 5882 aula 02. O log-retorno de período k (agregação temporal dos retornos) Agregação de Retornos MAE 5882 aula 02 O log-retorno de período k (agregação temporal dos retornos) Agregação cross-section (transversal), para diversos ativos de uma carteira de investimentos, c: Suponha

Leia mais

3 Dados e metodologia

3 Dados e metodologia 3 Dados e metodologia 3.1 Apresentação de Dados Para a realização dessa pesquisa foram utilizados os dados da série histórica dos preços da soja (em grão) do Estado do Paraná, obtidos da base de dados

Leia mais

Aplicação dos modelos lineares generalizados na análise do número de estômatos em coentro (Coriandrum sativum L.): estimação bayesiana utilizando INLA

Aplicação dos modelos lineares generalizados na análise do número de estômatos em coentro (Coriandrum sativum L.): estimação bayesiana utilizando INLA Aplicação dos modelos lineares generalizados na análise do número de estômatos em coentro (Coriandrum sativum L.): estimação bayesiana utilizando INLA Everton Batista da Rocha 12 Roseli Aparecida Leandro

Leia mais

Exercícios de programação

Exercícios de programação Exercícios de programação Estes exercícios serão propostos durante as aulas sobre o Mathematica. Caso você use outra linguagem para os exercícios e problemas do curso de estatística, resolva estes problemas,

Leia mais

ESTATÍSTICA COMPUTACIONAL

ESTATÍSTICA COMPUTACIONAL ESTATÍSTICA COMPUTACIONAL Ralph dos Santos Silva Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Sumário Se a integração analítica não é possível ou

Leia mais

Universidade Federal do Rio de Janeiro

Universidade Federal do Rio de Janeiro Universidade Federal do Rio de Janeiro Uma Comparação entre Métodos de Aproximações Determinísticas e Estocástica para Inferência Bayesiana em Modelos Dinâmicos Lineares Generalizados Teresa Villanueva

Leia mais

7 Conclusões e desenvolvimentos futuros

7 Conclusões e desenvolvimentos futuros 7 Conclusões e desenvolvimentos futuros 7.1 Conclusões Este trabalho apresentou novas soluções para a determinação da posição de terminais de comunicações móveis com base em medidas de ToA. Nos métodos

Leia mais

A Metodologia de Box & Jenkins

A Metodologia de Box & Jenkins A Metodologia de Box & Jenins Aula 03 Bueno, 0, Capítulo 3 Enders, 009, Capítulo Morettin e Toloi, 006, Capítulos 6 a 8 A Metodologia Box & Jenins Uma abordagem bastante utilizada para a construção de

Leia mais

ESTATÍSTICA COMPUTACIONAL

ESTATÍSTICA COMPUTACIONAL ESTATÍSTICA COMPUTACIONAL Ralph dos Santos Silva Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Sumário Escolha de modelos Até aqui assumimos que z

Leia mais

CONHECIMENTOS ESPECÍFICOS

CONHECIMENTOS ESPECÍFICOS CONHECIMENTOS ESPECÍFICOS 2003 2004 2005 2006 2007 2008 2009 2010 X 39,0 39,5 39,5 39,0 39,5 41,5 42,0 42,0 Y 46,5 65,5 86,0 100,0 121,0 150,5 174,0 203,0 A tabela acima mostra as quantidades, em milhões

Leia mais

MOQ-13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel

MOQ-13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel MOQ-13 PROBABILIDADE E ESTATÍSTICA Professor: Rodrigo A. Scarpel rodrigo@ita.br www.mec.ita.br/~rodrigo Programa do curso: Semanas 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 e 16 Introdução à probabilidade (eventos,

Leia mais

Modelos Lineares Generalizados - Estimação em Modelos Lineares Generalizados

Modelos Lineares Generalizados - Estimação em Modelos Lineares Generalizados Modelos Lineares Generalizados - Estimação em Modelos Lineares Generalizados Erica Castilho Rodrigues 23 de Maio de 207 Introdução 2 3 Vimos como encontrar o EMV usando algoritmos numéricos. Duas possibilidades:

Leia mais

Multicolinariedade e Autocorrelação

Multicolinariedade e Autocorrelação Multicolinariedade e Autocorrelação Introdução Em regressão múltipla, se não existe relação linear entre as variáveis preditoras, as variáveis são ortogonais. Na maioria das aplicações os regressores não

Leia mais

A Importância da Estatística na Pesquisa Científica e na Tomada de Decisão

A Importância da Estatística na Pesquisa Científica e na Tomada de Decisão A Importância da Estatística na Pesquisa Científica e na Tomada de Decisão Ricardo Alves de Olinda Universidade Estadual da Paraíba - UEPB Centro de Ciências e Tecnologia - CCT Departamento de Estatística

Leia mais

Introdução à Teoria de Resposta ao Item

Introdução à Teoria de Resposta ao Item Caio L. N. Azevedo, IMECC/Unicamp Dani Gamerman, DME/UFRJ I CONBRATRI, Florianópolis 9 de dezembro de 2009 Parte II Parte 2: Implementação computacional. Análise de dados 1. Modelo de 3 parâmetros via

Leia mais

Modelos bayesianos estáticos globais na construção de tábuas de mortalidade para a macrorregião do sul de Minas Gerais

Modelos bayesianos estáticos globais na construção de tábuas de mortalidade para a macrorregião do sul de Minas Gerais UNIVERSIDADE FEDERAL DE ALFENAS LARISSA DE ALCÂNTARA MONTEIRO Modelos bayesianos estáticos globais na construção de tábuas de mortalidade para a macrorregião do sul de Minas Gerais Varginha-MG 2016 RESUMO

Leia mais

Análise Bayesiana de Dados - Aplicações 1 -

Análise Bayesiana de Dados - Aplicações 1 - Análise Bayesiana de Dados - Aplicações 1 - Márcia D Elia Branco Universidade de São Paulo Instituto de Matemática e Estatística www.ime.usp.br/ mbranco - sala 295-A - Aplicações da IB : Pressão sistólica

Leia mais

3 Modelo Matemático Definições Iniciais. Denote-se, em geral, o desvio-padrão do processo por σ = γσ 0, sendo σ 0 o

3 Modelo Matemático Definições Iniciais. Denote-se, em geral, o desvio-padrão do processo por σ = γσ 0, sendo σ 0 o Modelo Matemático 57 3 Modelo Matemático Este trabalho analisa o efeito da imprecisão na estimativa do desvio-padrão do processo sobre o desempenho do gráfico de S e sobre os índices de capacidade do processo.

Leia mais

Capítulo 2. Distribuições de Probabilidade Estimativas de parâmetros e tempos-atéfalha. Flávio Fogliatto

Capítulo 2. Distribuições de Probabilidade Estimativas de parâmetros e tempos-atéfalha. Flávio Fogliatto Capítulo 2 Distribuições de Probabilidade Estimativas de parâmetros e tempos-atéfalha Flávio Fogliatto 1 Ajustes de distribuições Em estudos de confiabilidade, dados são amostrados a partir de uma população

Leia mais

2 Modelos de sintetização de séries temporais de atenuação por chuva

2 Modelos de sintetização de séries temporais de atenuação por chuva 2 Modelos de sintetização de séries temporais de atenuação por chuva Alguns modelos estocásticos de sintetização de séries temporais de atenuação por chuva são baseados no modelo proposto por Maseng &

Leia mais

Modelos com Coeficientes Dinâmicos Variando no Espaço para Dados da Família Exponencial

Modelos com Coeficientes Dinâmicos Variando no Espaço para Dados da Família Exponencial Modelos com Coeficientes Dinâmicos Variando no Espaço para Dados da Família Exponencial por Nícia Custódio Hansen DME - IM - UFRJ 2009 Modelos com Coeficientes Dinâmicos Variando no Espaço para Dados da

Leia mais

5 Filtro de Kalman Aplicado ao Modelo de Schwartz e Smith (2000)

5 Filtro de Kalman Aplicado ao Modelo de Schwartz e Smith (2000) 5 Filtro de Kalman Aplicado ao Modelo de Schwartz e Smith (2000) A primeira parte deste capítulo, referente à passagem dos modelos estocásticos para as equações do Filtro de Kalman, já foi previamente

Leia mais

Análise e Previsão de Séries Temporais Aula 1: Introdução às séries temporais. Eraylson Galdino

Análise e Previsão de Séries Temporais Aula 1: Introdução às séries temporais. Eraylson Galdino Análise e Previsão de Séries Temporais Aula 1: Introdução às séries temporais egs@cin.ufpe.br Agenda Séries Temporais: Definições Exemplos Modelos simples com média zero: Ruído I.I.D Processo Binário Random

Leia mais

CONHECIMENTOS ESPECÍFICOS

CONHECIMENTOS ESPECÍFICOS CONHECIMENTOS ESPECÍFICOS As variáveis aleatórias X e Y seguem uma distribuição de Bernoulli com probabilidade de sucesso igual a 0,4. Considerando S = X + Y e que os eventos aleatórios A = [X = 1] e B

Leia mais

Tópicos Especiais em Qualidade

Tópicos Especiais em Qualidade Tópicos Especiais em Qualidade Processos estocásticos, Distribuições de probabilidade e Ajustamento de dados Qualquer sistema real opera sempre em ambientes onde a incerteza impera, principalmente quando

Leia mais

UNIVERSIDADE FEDERAL DO PARANÁ CURSO ESTATÍSTICA DENNIS LEÃO GRR LUAN FIORENTIN GRR

UNIVERSIDADE FEDERAL DO PARANÁ CURSO ESTATÍSTICA DENNIS LEÃO GRR LUAN FIORENTIN GRR UNIVERSIDADE FEDERAL DO PARANÁ CURSO ESTATÍSTICA DENNIS LEÃO GRR - 20160239 LUAN FIORENTIN GRR - 20160219 MODELAGEM DE DADOS DE ÓBITOS POR AGRESSÕES NO ESTADO DE SÃO PAULO NO ANO DE 2016 CURITIBA Novembro

Leia mais

Testes de Hipóteses para. uma Única Amostra. Objetivos de Aprendizagem. 9.1 Teste de Hipóteses. UFMG-ICEx-EST-027/031 07/06/ :07

Testes de Hipóteses para. uma Única Amostra. Objetivos de Aprendizagem. 9.1 Teste de Hipóteses. UFMG-ICEx-EST-027/031 07/06/ :07 -027/031 07/06/2018 10:07 9 ESQUEMA DO CAPÍTULO 9.1 TESTE DE HIPÓTESES 9.2 TESTES PARA A MÉDIA DE UMA DISTRIBUIÇÃO NORMAL, VARIÂNCIA CONHECIDA 9.3 TESTES PARA A MÉDIA DE UMA DISTRIBUIÇÃO NORMAL, VARIÂNCIA

Leia mais

Novembro/2018. Ajuste Automático ao Histórico em Simulação de Reservatórios

Novembro/2018. Ajuste Automático ao Histórico em Simulação de Reservatórios Ajuste Automático ao Histórico Simulação de Reservatórios Flavio Dickstein Paulo Goldfeld Renan V. Pinto IM/UFRJ IM/UFRJ LabMAPetro/UFRJ Novembro/2018 Simulação sob incerteza (i) O reservatório é inacessível

Leia mais

Distribuições Amostrais e Estimação Pontual de Parâmetros

Distribuições Amostrais e Estimação Pontual de Parâmetros Distribuições Amostrais e Estimação Pontual de Parâmetros - parte I 2012/02 1 Introdução 2 3 4 5 Objetivos Ao final deste capítulo você deve ser capaz de: Entender estimação de parâmetros de uma distribuição

Leia mais

Classificadores. André Tavares da Silva.

Classificadores. André Tavares da Silva. Classificadores André Tavares da Silva andre.silva@udesc.br Reconhecimento de padrões (etapas) Obtenção dos dados (imagens, vídeos, sinais) Pré-processamento Segmentação Extração de características Obs.:

Leia mais

Análise de Regressão Linear Simples e

Análise de Regressão Linear Simples e Análise de Regressão Linear Simples e Múltipla Carla Henriques Departamento de Matemática Escola Superior de Tecnologia de Viseu Introdução A análise de regressão estuda o relacionamento entre uma variável

Leia mais

Distribuições Amostrais e Estimação Pontual de Parâmetros

Distribuições Amostrais e Estimação Pontual de Parâmetros Distribuições Amostrais e Estimação Pontual de Parâmetros OBJETIVOS DE APRENDIZAGEM Depois de um cuidadoso estudo deste capítulo, você deve ser capaz de: 1.Explicar os conceitos gerais de estimação de

Leia mais

4 Conceitos Básicos de Estatística Bayesiana e Simulação Estocástica

4 Conceitos Básicos de Estatística Bayesiana e Simulação Estocástica 4 Conceitos Básicos de Estatística Bayesiana e Simulação Estocástica 4. Elementos de inferência Bayesiana Gamerman [34] define que tanto o modelo Bayesiano quanto o freqüentista trabalham na presença de

Leia mais

Introdução à Probabilidade e à Estatística II

Introdução à Probabilidade e à Estatística II Introdução à Probabilidade e à Estatística II Introdução à Inferência Estatística Capítulo 10, Estatística Básica (Bussab&Morettin, 7a Edição) Lígia Henriques-Rodrigues MAE0229 1º semestre 2018 1 / 36

Leia mais

Teoria das Filas aplicadas a Sistemas Computacionais. Aula 08

Teoria das Filas aplicadas a Sistemas Computacionais. Aula 08 Teoria das Filas aplicadas a Sistemas Computacionais Aula 08 Universidade Federal do Espírito Santo - Departamento de Informática - DI Laboratório de Pesquisas em Redes Multimidia - LPRM Teoria das Filas

Leia mais

Séries Temporais e Modelos Dinâmicos. Econometria. Marcelo C. Medeiros. Aula 12

Séries Temporais e Modelos Dinâmicos. Econometria. Marcelo C. Medeiros. Aula 12 em Econometria Departamento de Economia Pontifícia Universidade Católica do Rio de Janeiro Aula 12 Regressão com Variáveis Não-Estacionárias Considere três processos estocásticos definidos pelas seguintes

Leia mais

Comparação entre intervalos de confiança calculados com métodos bootstrap e intervalos assintóticos

Comparação entre intervalos de confiança calculados com métodos bootstrap e intervalos assintóticos Comparação entre intervalos de confiança calculados com métodos strap e intervalos assintóticos Selene Loibel Depto. de Estatística, Matemática Aplicada e Computação, IGCE, UNESP, Rio Claro, SP E-mail:sloibel@rc.unesp.br,

Leia mais

Análise de Dados e Simulação

Análise de Dados e Simulação Universidade de São Paulo Instituto de Matemática e Estatística http:www.ime.usp.br/ mbranco Simulação de Variáveis Aleatórias Contínuas. O método da Transformada Inversa Teorema Seja U U (0,1). Para qualquer

Leia mais

5 Modelos de previsão

5 Modelos de previsão 5 Modelos de previsão 5.1 Previsão de séries temporais Um método comum para escrever o problema de previsão de séries temporais em uma estrutura de estimação por regressão é considerar as séries temporais

Leia mais

Minera c ao de Dados Aula 6: Finaliza c ao de Regress ao e Classifica c ao Rafael Izbicki 1 / 33

Minera c ao de Dados Aula 6: Finaliza c ao de Regress ao e Classifica c ao Rafael Izbicki 1 / 33 Mineração de Dados Aula 6: Finalização de Regressão e Classificação Rafael Izbicki 1 / 33 Como fazer um IC para o risco estimado? Vamos assumir que ( X 1, Ỹ1),..., ( X s, Ỹs) são elementos de um conjunto

Leia mais

Funções Geradoras de Variáveis Aleatórias. Simulação Discreta de Sistemas - Prof. Paulo Freitas - UFSC/CTC/INE

Funções Geradoras de Variáveis Aleatórias. Simulação Discreta de Sistemas - Prof. Paulo Freitas - UFSC/CTC/INE Funções Geradoras de Variáveis Aleatórias 1 Funções Geradoras de Variáveis Aleatórias Nos programas de simulação existe um GNA e inúmeras outras funções matemáticas descritas como Funções Geradoras de

Leia mais

Teoria das Filas aplicadas a Sistemas Computacionais. Aula 09

Teoria das Filas aplicadas a Sistemas Computacionais. Aula 09 Teoria das Filas aplicadas a Sistemas Computacionais Aula 09 Universidade Federal do Espírito Santo - Departamento de Informática - DI Laboratório de Pesquisas em Redes Multimidia - LPRM Teoria das Filas

Leia mais

Métodos Quantitativos para Avaliação de Políticas Públicas

Métodos Quantitativos para Avaliação de Políticas Públicas ACH3657 Métodos Quantitativos para Avaliação de Políticas Públicas Aula 11 Análise de Resíduos Alexandre Ribeiro Leichsenring alexandre.leichsenring@usp.br Alexandre Leichsenring ACH3657 Aula 11 1 / 26

Leia mais

Sexta Lista: Geração de Números Pseudo-Aleatórios e Método de Monte Carlo

Sexta Lista: Geração de Números Pseudo-Aleatórios e Método de Monte Carlo Sexta Lista: Geração de Números Pseudo-Aleatórios e Método de Monte Carlo Antônio Carlos Roque da Silva Filho e Cristiano R. F. Granzotti 26 de junho de 2017 Os exercícios desta lista devem ser resolvidos

Leia mais

SUMÁRIO. 1.1 Introdução, Conceitos Fundamentais, 2

SUMÁRIO. 1.1 Introdução, Conceitos Fundamentais, 2 SUMÁRIO 1 CONCEITOS BÁSICOS, 1 1.1 Introdução, 1 1.2 Conceitos Fundamentais, 2 1.2.1 Objetivo, 2 1.2.2 População e amostra, 2 1.3 Processos estatísticos de abordagem, 2 1.4 Dados estatísticos, 3 1.5 Estatística

Leia mais

Modelos para Séries Temporais Aula 1. Morettin e Toloi, 2006, Capítulo 2 Morettin, 2011, Capítulo 2 Bueno, 2011, Capítulo 2

Modelos para Séries Temporais Aula 1. Morettin e Toloi, 2006, Capítulo 2 Morettin, 2011, Capítulo 2 Bueno, 2011, Capítulo 2 Modelos para Séries Temporais Aula 1 Morettin e Toloi, 2006, Capítulo 2 Morettin, 2011, Capítulo 2 Bueno, 2011, Capítulo 2 Modelos para Séries Temporais Os modelos utilizados para descrever séries temporais

Leia mais

Modelos Lineares Distribuições de Probabilidades Distribuição Normal Teorema Central do Limite. Professora Ariane Ferreira

Modelos Lineares Distribuições de Probabilidades Distribuição Normal Teorema Central do Limite. Professora Ariane Ferreira Distribuições de Probabilidades Distribuição Normal Teorema Central do Limite Professora Ariane Ferreira Modelos Probabilísticos de v.a. continuas Distribuição de Probabilidades 2 IPRJ UERJ Ariane Ferreira

Leia mais

Análise Multivariada Aplicada à Contabilidade

Análise Multivariada Aplicada à Contabilidade Mestrado e Doutorado em Controladoria e Contabilidade Análise Multivariada Aplicada à Contabilidade Prof. Dr. Marcelo Botelho da Costa Moraes www.marcelobotelho.com mbotelho@usp.br Turma: 2º / 2016 1 Agenda

Leia mais

Distribuições Amostrais e Estimação Pontual de Parâmetros

Distribuições Amostrais e Estimação Pontual de Parâmetros Distribuições Amostrais e Estimação Pontual de Parâmetros - parte I 19 de Maio de 2011 Introdução Objetivos Ao final deste capítulo você deve ser capaz de: Entender estimação de parâmetros de uma distribuição

Leia mais

Análise de séries temporais. Prof. Thaís C O Fonseca DME - UFRJ

Análise de séries temporais. Prof. Thaís C O Fonseca DME - UFRJ Análise de séries temporais Prof. Thaís C O Fonseca DME - UFRJ Conteúdo do curso Parte 1: Problemas e objetivos, conceitos básicos, processos estocásticos, estacionariedade, autocorrelação e correlação

Leia mais

Métodos Não Paramétricos

Métodos Não Paramétricos Modelação, Identificação e Controlo Digital Métodos Não Paramétricos 1 Métodos Não Paramétricos Estimação da resposta impulsiva e da resposta em frequência Análise espectral e métodos de correlação J.

Leia mais

Testes de Hipóteses. Ricardo Ehlers Departamento de Matemática Aplicada e Estatística Universidade de São Paulo

Testes de Hipóteses. Ricardo Ehlers Departamento de Matemática Aplicada e Estatística Universidade de São Paulo Testes de Hipóteses Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matemática Aplicada e Estatística Universidade de São Paulo Introdução e notação Em geral, intervalos de confiança são a forma mais

Leia mais

DISTRIBUIÇÃO AMOSTRAL E ESTIMAÇÃO PONTUAL INTRODUÇÃO ROTEIRO POPULAÇÃO E AMOSTRA. Estatística Aplicada à Engenharia

DISTRIBUIÇÃO AMOSTRAL E ESTIMAÇÃO PONTUAL INTRODUÇÃO ROTEIRO POPULAÇÃO E AMOSTRA. Estatística Aplicada à Engenharia ROTEIRO 1. Introdução; DISTRIBUIÇÃO AMOSTRAL E ESTIMAÇÃO PONTUAL. Teorema Central do Limite; 3. Conceitos de estimação pontual; 4. Métodos de estimação pontual; 5. Referências. 1 POPULAÇÃO E AMOSTRA População:

Leia mais

Prof. Lorí Viali, Dr.

Prof. Lorí Viali, Dr. Prof. Lorí Viali, Dr. viali@mat.ufrgs.br http://www.mat.ufrgs.br/~viali/ Uma variável aleatória X tem uma distribuição normal se sua fdp for do tipo: f(x) 1.e 1 2. x µ σ 2, x R 2π. σ com - < µ < e σ >

Leia mais