ESTATÍSTICA COMPUTACIONAL

Documentos relacionados
ESTATÍSTICA COMPUTACIONAL

Geração de Variáveis Aleatórias Contínuas. Mat02274 Estatística Computacional. A Normal. A Normal. Normal Log-Normal Gama Erlang Beta.

Análise de Dados e Simulação

= 2 sen(x) (cos(x) (b) (7 pontos) Pelo item anterior, temos as k desigualdades. sen 2 (2x) sen(4x) ( 3/2) 3

ESTATÍSTICA COMPUTACIONAL

Noções de Simulação. Ciências Contábeis - FEA - Noturno. 2 o Semestre MAE0219 (IME-USP) Noções de Simulação 2 o Semestre / 23

Aula 19 06/2014. Integração Numérica

Tiago Viana Flor de Santana

CONHECIMENTOS ESPECÍFICOS

Probabilidade e Estatística. stica. Prof. Dr. Narciso Gonçalves da Silva pessoal.utfpr.edu.

UNIVERSIDADE FEDERAL DO ABC. 1 Existência e unicidade de zeros; Métodos da bissecção e falsa posição

Distribuições de probabilidade de variáveis aleatórias contínuas

Análise Bayesiana de Dados - Aula 1 -

Distribuição Amostral e Estimação Pontual de Parâmetros

Neste capítulo estamos interessados em resolver numericamente a equação

Lista de Exercicios 1. Medidas Resumo. Estimação. Distribuições Amostrais

Distribuição Normal. Prof. Eduardo Bezerra. (CEFET/RJ) - BCC - Inferência Estatística. 25 de agosto de 2017

Capítulo 6 - Integração e Diferenciação Numérica

x exp( t 2 )dt f(x) =

Distribuições Amostrais e Estimação Pontual de Parâmetros

Modelagem e Avaliação de Desempenho. Pós Graduação em Engenharia Elétrica - PPGEE Prof. Carlos Marcelo Pedroso 2016

Aula 3 11/12/2013. Integração Numérica

Modelagem e Avaliação de Desempenho. Pós Graduação em Engenharia Elétrica - PPGEE Prof. Carlos Marcelo Pedroso 2014

Universidade Federal de Lavras

Exercícios de MATEMÁTICA COMPUTACIONAL Capítulo V

Modelagem Computacional. Parte 3 2

MAE Introdução à Probabilidade e Estatística II Resolução Lista 5

SUMÁRIOS DE VARIÁVEIS ALEATÓRIAS CONTINUAS

Distribuições derivadas da distribuição Normal. Distribuição Normal., x real.

Exercícios de programação

ESTATÍSTICA COMPUTACIONAL

Inferência Bayesiana - Aula 1 -

Teoria da Estimação. Fabricio Goecking Avelar. junho Universidade Federal de Alfenas - Instituto de Ciências Exatas

INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA

Exercícios de ANÁLISE E SIMULAÇÃO NUMÉRICA

Amostragem e distribuições por amostragem

Funções Geradoras de Variáveis Aleatórias. Simulação Discreta de Sistemas - Prof. Paulo Freitas - UFSC/CTC/INE

Cálculo Numérico BCC760 Integração Numérica

Modelos Lineares Generalizados - Métodos de Estimação

Sexta Lista: Geração de Números Pseudo-Aleatórios e Método de Monte Carlo

Seja (X,Y) uma v.a. bidimensional contínua ou discreta. Define-se valor esperado condicionado de X para um dado Y igual a y da seguinte forma:

Sumário. 2 Índice Remissivo 11

Estimação: (A) Propriedades e Distribuições Amostrais

Séries Temporais e Modelos Dinâmicos. Econometria. Marcelo C. Medeiros. Aula 12

Unidade IV Inferência estatística

Disciplina: Cálculo Numérico IPRJ/UERJ. Sílvia Mara da Costa Campos Victer. Integração numérica: Fórmulas de Newton-Cotes.

Capítulo 6 - Integração e Diferenciação Numérica

ANÁLISE DE SÉRIES TEMPORAIS

ALGUMAS DISTRIBUIÇÕES CONTÍNUAS DE PROBABILIDADE

Inferências sobre o vetor de Média. (Johnson & Wichern, Cap. 5) Considere o problema univariado no qual temse uma amostra aleatória de tamanho n da

DCC008 - Cálculo Numérico

Cap. 8 - Intervalos Estatísticos para uma Única Amostra

Ref: H.Gould e J. Tobochnik. Para integrais em uma dimensão as regras do trapezóide e de Simpson são

4 de outubro de MAT140 - Cálculo I - Método de integração: Frações Parciais

Modelos Lineares Generalizados - Verificação do Ajuste do Modelo

Matemática Computacional - Exercícios

Cap. 4 - Estimação por Intervalo

Cálculo Numérico. Santos Alberto Enriquez-Remigio FAMAT-UFU 2015

SME306 - Métodos Numéricos e Computacionais II Prof. Murilo F. Tomé. (α 1)z + 88 ]

MAP CÁLCULO NUMÉRICO (POLI) Lista de Exercícios sobre Interpolação e Integração. φ(x k ) ψ(x k ).

Distribuições Amostrais e Estimação Pontual de Parâmetros

Lista 1 - Cálculo Numérico - Zeros de funções

Lista de exercícios de MAT / II

Introdução à probabilidade e à estatística II. Prof. Alexandre G Patriota Sala: 298A Site:

Capítulo 19. Fórmulas de Integração Numérica

Lista de exercícios de MAT / I

LEEC Probabilidades e Estatística 1 a Chamada 13/06/2005. Parte Prática C (C) M 1% 9% 10% (M) 4% 86% 90% 5% 95% 100%

Transcrição:

ESTATÍSTICA COMPUTACIONAL Ralph dos Santos Silva Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro

Sumário

Se a integração analítica não é possível ou é complicada, podemos aproximá-la usando métodos numéricos. A integração numérica muitas vezes é associada a quadratura - que se refere a encontrar quadrados cuja área seja a mesma sob a curva de interesse. No caso multivariado, o problema é conhecido como integração múltipla ou cubatura. É importante no uso de métodos bayesianos e bayesianos empíricos, no cálculo da função de verossimilhança e no cálculo de distribuições a posteriori (momentos, quantis, etc).

Métodos de integração numérica Exemplo Métodos determinísticos: Regra do trapézio; Regra de Simpson; e Newton-Cotes. Métodos de simulação: Método de Monte Carlo simples; e Método de Monte Carlo via função de importância. Métodos assintóticos: Aproximação Normal; e Laplace. Tentaremos utilizar a função abaixo para os diversos métodos a serem apresentados. Suponha X χ 2 ν e desejamos E(X), isto é, E(X) = 0 xf (x)dx = 0 (1/2) ν/2 Γ(ν/2) x ν/2 exp{ x/2}dx.

Métodos determinísticos: regra do trapézio Considere o problema de resolver a integral b a f (x)dx. Ideia da regra do trapézio: aproximar a integral sob a curva pela área do trapézio formado por (a, 0), (b, 0), (a, f (a)) e (b, f (b)). A integral pode ser aproximada por b f (x)dx b a [f (a) + f (b)]. a 2 Note que se o intervalo for grande é possível que essa aproximação seja muito ruim. Uma opção é usar vários subintervalos da região de interesse. f(x) 0 1 2 3 4 5 0.0 1.0 2.0 3.0 4.0 5.0 6.0 7.0 Figura: Integral de uma função pela regra do trapézio. x

Métodos determinísticos: regra de Simpson Ideia da regra de Simpson: aproximar a integral sob a curva pela área sob o polinômio de segunda ordem nos pontos a, (a + b)/2 e b. A integral pode ser aproximada por b a f (x)dx b a 6 [ f (a) + 4f ( a + b 2 ) ] + f (b). Novamente usamos o método para vários subintervalos da região de interesse. (Mostrar exemplo no R: exemplo_25.r)

Métodos de Monte Carlo Considere o seguinte experimento de Monte Carlo. Seja (X 1,..., X n) variáveis aleatórias independentes e identicamente distribuídas de X N (µ, σ 2 ) e seja Qual é a distribuição de T? T = n(x n µ) S x. (1) Mais de 100 anos atrás Gossett usou um experimento de Monte Carlo antes de provar analiticamente que essa estatística tem distribuição t n 1. Passos do experimento: 1. Entrar com os valores de µ, σ 2, n e m (este último é o número de replicações do experimento); 2. Para j = 1,..., m: gerar uma amostra (x 1,..., x n) de N (µ, σ 2 ) e calcular t j utilizando a equação 1; e 3. Estimar a densidade de interesse usando a amostra (t 1,..., t m). (Mostrar exemplo no R: exemplo_26.r)

Integração de Monte Carlo O método originalmente foi desenvolvido por físicos para resolver integrais. Queremos integrar a função h(x) no intervalo (a, b). Podemos escrever a integral de interesse: I = b a h(x)dx = b a h(x) f (x) f (x)dx. Dessa forma, o integrando pode ser visto como o valor esperado de h(x)/f (x) sob a densidade f (x) com suporte no intervalo (a, b). A integração de Monte Carlo é dada por: I = b a h(x)dx = b com (x 1,..., x n) uma amostra de f (x). a h(x) f (x) f (x)dx 1 n n h(x i ) f (x i ),

Seja Î = 1 n n h(x i ) f (x i ). Pela Lei Forte dos Grandes números temos que Î converge quase certamente para I. Podemos estimar a variância dessa aproximação por v n = 1 n 2 n [ ] 2 h(xi ) f (x i ) Î. Temos que v n é conhecido como erro de Monte Carlo. Além disso, temos que para n grande Î I vn N (0, 1).

Exemplo Queremos integrar h(x) = [cos(50x) + sen(20x)] 2 no intervalo (0, 1). Nesse caso, poderíamos resolver analiticamente. O valor exato dessa integral é 0,965. Utilizando Monte Carlo: 1. Gerar uma amostra (u 1,..., u n) de U(0, 1). 2. Calcular 1 n h(u i ). n (Mostrar exemplo no R: exemplo_27.r)

Exemplo Queremos calcular Pr(Z 1, 96) para Z N (0, 1): 1,96 } 1 Pr(Z 1, 96) = exp { z2 dz = E(I(Z 1, 96)). 2π 2 Sabemos que essa integral não pode ser resolvida analiticamente. Utilizando Monte Carlo: 1. Gerar uma amostra (z 1,..., z n) de N (0, 1). 2. Calcular 1 n I(z i 1, 96). n (Mostrar exemplo no R: exemplo_28.r)

Exemplo E se o objetivo é o contrário? Calcular o quantil de 97,5%? Queremos calcular q tal que q } 1 0, 975 = exp { z2 dz = E(I(Z q)). 2π 2 Sabemos que essa integral não pode ser resolvida analiticamente. Utilizando Monte Carlo: 1. Gerar uma amostra (z 1,..., z n) de N (0, 1). 2. Calcular F e(q) = 1 n I(z i q) (vários valores de q). n 3. Escolher q tal que F e(q) = 0, 975. (Mostrar exemplo no R: exemplo_28.r)

Exemplo: Monte Carlo para aproximar a preditiva Suponha que queremos calcular a distribuição preditiva no ponto y. Então, f (y) = f (y θ)f (θ)dθ = E θ (f (y θ)), pode ser aproximada por ˆf (y) 1 n n f (y θ i ) com θ i gerado da distribuição a priori f (θ). Algum problema nessa abordagem (para este exemplo)? E se a priori for vaga (variância grande)?

Exemplo: Monte Carlo para aproximar a preditiva Suponha (Y θ) N (θ, 1) e θ N (0, 4). Passos do método: 1. Gerar uma amostra (θ 1,..., θ n) de N (0, 4); 2. Avaliar a função de verossimilhança em y dado cada θ i, i = 1,..., n. 3. Tomar a média amostral destes valores. (Mostrar exemplo no R: exemplo_29.r)

Integração usando função de importância O objetivo é calcular: I = h(x)f (x)dx. Suponha que existe uma função de densidade de probabilidade g(x) que aproxime bem a f (x). Então, I = h(x)f (x)dx = I = h(x) f (x) ( g(x) g(x)dx = E g(x) h(x) f (X) ) g(x) Assim, a integração Monte Carlo nos leva a Î = 1 n n sendo (x 1,..., x n) uma amostra de g(x). h(x i ) f (x i) g(x i ), Se definirmos ω i = f (x i) para i = 1,..., n, então g(x i ) Î = 1 n n h(x i )ω i.

Exemplo: calculando probabilidades pequenas Suponha que queremos calcular Pr(Z 4, 5) sendo Z N (0, 1). Sabemos que esta probabilidade é muito pequena. Monte Carlo simples: gerar z i de Z N (0, 1) e aproximar Pr(Z 4, 5) = I(z 4, 5)φ(z)dz 1 n I(z i 4, 5). n Problema: como Pr(Z 4, 5) é muito pequena, se n é pequeno teremos uma frequência 0 de z i 4, 5, i.é., n I(z i 4, 5) = 0 tal que Pr(Z 4, 5) 0. Solução: utilizar uma função de importância g(z) com maior probabilidade na cauda. Pr(Z 4, 5) = = I(z 4, 5)φ(z)dz I(z 4, 5) φ(z) g(z) g(z)dz 1 n 1 n (Mostrar exemplo no R: exemplo_30.r) 1 I(z i 4, 5) φ(z i) g(z i ).

A densidade de importância A densidade g pode ser qualquer (desde que g(x) > 0 no suporte de X) para o estimador Î da integral I convergir. Porém, algumas escolhas são melhores que outras. Podemos comparar as variâncias desse estimador para diferentes escolhas de g. Temos que Var(Î) = E(Î2 ) E(Î) = E(Î2 ) I 2 com ( ) h(x) 2 f (x) 2 E g(î2 ) = E g g(x) 2 = E f ( h(x) 2 f (x) g(x) Logo, Var(Î) é finita se Eg(Î2 ) for finita, mas isto ocorre somente se a razão f (x)/g(x) for limitada para todo x. Duas condições suficientes para termos Var(Î) finita: f (x)/g(x) < c (limitada) para todo x D x; e D x compacto, f (x) < a e g(x) > ε para todo x D x. Essas condições são muito restritivas. No primeiro caso, temos as mesmas condições do algoritmo de rejeição. ).

Iremos considerar um estimador alternativo com variância finita: n Î 2 = h(x i)ω i n ω com ω i = f (x i), i = 1,..., n. i g(x i ) Note que neste caso estamos substituindo n por n ω i. Como (1/n) n ω i 1 quando n, o estimador Î2 I pela Lei Forte dos Grandes Números. Uma outra abordagem para diminuir a variância do estimador para I é baseada na relação (Rao-Blackwell) Var(E(δ(X) Y )) V (δ(x)). Definamos l(x) = h(x)f (x)/g(x). Podemos utilizar a relação I = l(x)g(x)dx com g(x) = g(x, y)dy, tal que I = [ l(x)g(x, y)dxdy = ] l(x)g(x y)dx g(y)dy.

Temos duas opções: Gerar a amostra (x 1,..., x n) de g(x) e estimar por Î 1 = 1 n n l(x i ). Gerar a amostra (y 1,..., y n) de g(y) e estimar I por Î 3 = 1 n n E(l(x i ) y i ). A variância do segundo estimador é menor que do primeiro.

Exemplo Considere o problema de calcular o valor esperado de h(x) = exp{ x 2 } para X t ν(0, 1). Vamos considerar: gerar uma amostra (x 1,..., x n) de t ν(0, 1) e calcular Î 1 = 1 n n exp{ x 2 i } Gerar uma amostra (y 1,..., y n) de G(ν/2, ν/2) e calcular Î 2 = 1 n n E(exp{ x 2 i } y i ) = 1 n n (2/y i + 1) 1/2. Lembre-se que (X Y = y) N (0, 1/y) tal que X t ν(0, 1). (Mostrar exemplo no R: exemplo_31.r)

Aproximação assintótica de integrais Em inferência bayesiana estamos interessados em informações da distribuição a posteriori: f (y θ)f (θ) f (θ y) = com f (y) = f (y θ)f (θ)dθ, f (y) sendo y = (y 1,..., y n) uma amostra de (Y θ). Estamos interessados, por exemplo, em E(g(θ) y) para diferentes funções g. Média a posteriori: g(x) = x. Segundo momento ordinário a posteriori: g(x) = x 2. Mediana a posteriori: g(x) = I(x c) tal que E(g(θ) y) = 0, 5. Diversos métodos de integração determinísticos e de Monte Carlo podem ser usados nesse contexto. Veremos a seguir aproximações baseados em teoria assintótica.

Aproximação Normal Ideia do método: usar a aproximação por séries de Taylor para o log de f (θ y) em torno de sua moda. Lembrando f (x) = k=0 Considere uma aproximação de ordem 2: f (k) (x 0 ) (x x 0). k! f (x) f (x 0 ) + f (x 0 )(x x 0 ) + f (x 0 ) (x x 0) 2. 2 Para a expansão em torno da moda θ de log f (θ y) temos que f (θ y) = 0, então [ log f (θ y) log f (θ 2 ] y) + θ log f (θ y) θ=θ (θ θ ) 2. 2 2

Assim, { f (θ y) exp 1 } 2ψ (θ 2 θ ) 2 com [ ψ 2 2 ] 1 = θ log f (θ y) θ=θ. 2 Isto é, (θ y) N (θ, ψ 2 ). O caso multivariado é análogo com (θ y) N d (θ, Ψ). e [ 2 ] 1 Ψ = θ θ log f (θ y) θ=θ. Uma outra aproximação substitui θ pela estimativa de máxima verossimilhança e Ψ pelo inverso da matriz de informação de Fisher.

Exemplo Considere (y λ) Poi(λ) e λ G(α, β). Sabemos que nesse caso, a posteriori é conjugada e dada por: Então, E(λ y) = α + y β + 1 (λ y) G(α + y, β + 1). e Var(λ y) = α + y (β + 1) 2. Vamos considerar a aproximação normal para f (λ y). Suponha que α + y 1. Então, o ponto de máximo λ = α + y 1 β + 1. Também temos [ ψ 2 2 ] 1 [ = λ log f (λ y) λ=λ (α + y 1) = 2 λ 2 ( α + y 1 Logo, (λ y) N β + 1, α + y 1 ). (β + 1) 2 λ=λ (Mostrar exemplo no R: exemplo_32.r) ] 1 = α + y 1 (β + 1) 2.

Mas note que nesse exemplo λ > 0 e a distribuição Normal utilizada na aproximação está definida nos reais. Uma solução é melhorar a aproximação usando uma transformação de λ, Considere ξ = log(λ). Então, λ = exp{ξ}. Como f (λ y) λ α+y+1 exp{ (β + 1)λ} podemos obter Daí, podemos mostrar que Portanto, Consequentemente, f (ξ y) exp{ξ(α + y) (β + 1) exp{ξ}}. (ξ y) N ( log ( (λ y) LN log E(λ y) ( ) α + y, β + 1 ( ) α + y, β + 1 ) 1. α + y ) 1. α + y ( ) α + y exp{(α + y) 1 }. β + 1 Exercício: Demonstre a aproximação acima.

Método de Laplace Usado para aproximar a razão de duas integrais. Em particular, muito útil em inferência bayesiana. Suponha que estejamos interessados em E(h(θ) y) sob a distribuição a posteriori para θ. Sabemos que f (y θ)f (θ) f (θ y) = sendo f (y) = f (y θ)f (θ)dθ f (y) a preditiva de y. Então, E(h(θ) y) = h(θ)f (y θ)f (θ)dθ. f (y θ)f (θ)dθ Podemos utilizar o método de Laplace para aproximar E(h(θ) y).

Esse método é bastante usado porque a preditiva f (y) também é usualmente difícil de ser obtida analiticamente. Usamos a mesma aproximação anterior, porém agora temos numerador e denominador para serem aproximados. Isso leva a uma aproximação melhor pois parte dos erros se cancelam. Suponha que h(θ) > 0, e defina L 1 (θ) = log(f (y θ)) + log(f (θ)) L 2 (θ) = log(f (y θ)) + log(f (θ)) + log(h(θ)). tal que E(h(θ) y) = h(θ)f (y θ)f (θ)dθ f (y θ)f (θ)dθ = exp{l 2 (θ)}dθ. exp{l 1 (θ)}dθ Utilizaremos expansão de segunda ordem para calcular uma aproximação para a integral acima.

Seja θ i o valor que maximiza L i (θ). Seja ψ 2 i = (L (θ i ) 1, para i = 1, 2. Podemos mostrar que No caso multivariado, ( ) E(h(θ) y) exp{l 2 (θ2 ) L 1 (θ1 ψ 2 1/2 )} 2. E(h(θ) y) exp{l 2 (θ 2) L 1 (θ 1)} ψ 2 1 ( ) 1/2 Ψ2 Ψ 1 sendo Ψ i = [ 2 ] 1 log L i (θ) θ=θ θ θ, i = 1, 2.

Exemplo O total de n animais são categorizados em 3 categorias y = (y 1, y 2, y 3 ) com probabilidades (0, 25(2 + θ), 0, 5(1 θ), 0, 25θ). Temos a verossimilhança Considere priori θ U(0, 1). Observou-se y = (125, 38, 34). f (y θ) (2 + θ) y 1 (1 θ) y 2 θ y 3, θ (0, 1). Como encontrar a média e o desvio padrão a posteriori de θ? Devemos encontrar dl 1(θ) dθ, d 2 L 1 (θ), dl 2(θ) e d 2 L 2 (θ). dθ 2 dθ dθ 2 (Mostrar exemplo no R: exemplo_33.r)