ESTATÍSTICA COMPUTACIONAL Ralph dos Santos Silva Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro
Sumário
Escolha de modelos Até aqui assumimos que z 1,..., z n seguem uma distribuição paramétrica conhecida. Por exemplo, z 1,..., z n N (µ, σ 2 ). Neste caso, a inferência está completa quando temos a distribuição a posteriori dos parâmetros desconhecidos. Mas, esse é o modelo mais adequado?
Introdução Considere um modelo para um conjunto de dados z. Podemos calcular a densidade preditiva dada por: f (z M) = f (z θ, M)f (θ M)dθ. Θ Note que f (z M) é a constante de normalização da densidade a posteriori de θ. A densidade preditiva pode ser vista como a verossimilhança do modelo M. Portanto, pode ser usada para fazer inferência sobre a escolha de um modelo.
Inferência para o modelo Considere o problema geral de escolher entre J modelos para um conjunto de dados observados z. Atribua probabilidades a priori para cada modelo possível: tal que J j=1 f (M j) = 1. f (M 1 ),..., f (M J ), Uma abordagem direta é estimar a probabilidade a posteriori dos modelo. Nesse caso, f (z M j )f (M j ) f (M j z) = J i=1 f (z M i)f (M i ), sendo f (z M j ) a verossimilhança marginal para os dados sob o modelo M j.
Cálculo da preditiva Para o modelo M j, nosso principal interesse é calcular f (z M j ) = f (z θ, M j )f (θ M j )dθ. Em muitos casos, a expressão da preditiva não pode ser obtida analiticamente devido a complexidade da integral acima. Θ Nestes casos, usamos métodos aproximados para obter a preditiva do modelo M j. Aproximando a preditiva Iremos considerar o método de Monte Carlo para aproximar a preditiva de interesse. Em alguns casos, iremos usar amostras da posteriori de θ obtidas usando Monte Carlo via cadeias de Markov para obter aproximações da preditiva de z.
Aproximação usando a distribuição a priori Considere um modelo M. Temos que a preditiva ée dada por f (z M) = f (z θ, M)f (θ M)dθ. Note que podemos escrever f (z M) = E (f (z θ, M)), Θ sob a distribuição a priori de θ. Aproximação baseada na distribuição a priori: ˆf1 (z M) = 1 N N f (z θ (i), M), i=1 sendo θ (1),..., θ (N) são gerados da distribuição a priori f (θ M).
Exemplo Considere z 1,..., z n com distribuição exponencial com parâmetro θ, f (z i θ) = θ exp{ θz i }, para z i > 0. Para a distribuição a priori θ G(a, b) temos que a preditiva é dada por f (z) = Γ(n + a) Γ(a) b a (b + nz) n+a. Podemos usar a aproximação baseada em gerações da distribuição a priori: Gerar θ (1),..., θ (N) da G(a, b). Calcular L(θ (k) z) = (θ (k) ) n exp{ θ (k) nz}, para k = 1,..., N. Calcular ˆf 1 (z) = 1 N L(θ (k) z). N k=1 (Mostrar exemplo no R: exemplo_55.r)
Estimador média harmônica Outra opção: usar uma densidade de importância. Estimador de média harmônica: [ ] 1 1 N 1 ˆf2 (z) =, N f (z θ (i) ) i=1 sendo θ (1),..., θ (i) gerados da posteriori de θ. Note que um valor de verossimilhança muito pequeno tem grande efeito sobre o estimador, tornando-o muito instável. (Mostrar exemplo no R: exemplo_55.r)
Amostragem por importância Estimador de Monte Carlo para I: Î = 1 N N i=1 h(x i ) f (x i) g(x i ), Iremos considerar uma alternativa que garante variância finita dos estimador Î. Considere o estimador N i=1 Î 2 = h(x i)f (x i )/g(x i ) N i=1 f (x. i)/g(x i ) Note que neste caso estamos substituindo N por N i=1 f (x i)/g(x i ), que é a soma dos pesos. Como N i=1 f (x i)/g(x i ) 1 quando N o estimador Î2 I pela Lei Forte dos Grandes Números.
Outro estimador Os problemas de f 1 e f 2 são opostos, de forma que uma solução é considerar uma mistura das duas propostas. ˆf3 (z) = sendo N i=1 f (z θ(i) )ω(θ (i) ) N i=1 ω(θ(i) ) ω(θ (i) ) = = N i=1 f (z θ(i) )[δf (z) + (1 δ)f (z θ (i) )] 1 N i=1 [δf (z) + (1 δ)f (z θ(i) )] 1, f (θ (i) ) δf (θ (i) ) + (1 δ)f (θ (i) z), δ é o peso da mistura e deve ser pequeno e θ (1),..., θ (N) são gerados da mistura δf (θ) + (1 δ)f (θ (i) z). Note que o estimador depende de f (z) que é desconhecido. Solução?
Algoritmo iterativo (0) 1. Inicializar ˆf 3. 2. Gerar δn valores da distribuição a priori e gerar (1 δ)n valores da distribuição a posteriori. 3. Para j de 1 até J faça ˆf (j) N 3 (z) = i=1 f (z θ(i) )[δf (j 1) 3 (z) + (1 δ)f (z θ (i) )] 1. (j 1) [δf 3 (z) + (1 δ)f (z θ (i) )] 1 N i=1 O algoritmo termina para um número máximo de iterações J. Note que precisamos gerar amostras da priori e também da posteriori. Solução? Usar somente as amostras da posteriori. (Mostrar exemplo no R: exemplo_55.r)
Amostragem ponte (bridge sampling) Considere uma função α(θ), chamada ponte. Temos a relação: f (z θ)f (θ) α(θ)g(θ) dθ = α(θ)g(θ)f (θ z)dθ. f (z) Então, f (z) = α(θ)f (θ)f (z θ)g(θ)dθ. α(θ)g(θ)f (θ z)dθ Considere (θ (1),..., θ (N 1) ) uma amostra da posteriori e ( θ (1),..., θ (N 2) ) uma amostra de g(θ). O estimador ponte proposto por Meng e Wong (1996) é dado por N2 j=1 ˆf α( θ (j) )f ( θ (j) )f (z θ (j) ) (z) = N1. j=1 α(θ(j) )g(θ (j) )
Estimador ótimo O estimador que minimiza o erro quadrático médio (EQM) tem α(θ) = N 2 N 1 f (θ z) + N 2 g(θ). Defina s 1 = N 1 /(N 1 + N 2 ) e s 2 = N 2 /(N 1 + N 2 ). Defina ω j = f (θ(j) )f (z θ (j) ) g(θ (j) ) e ω j = f ( θ (j) )f (z θ (j) ). g( θ (j) ) O estimador com erro quadrático médio mínimo é dado por e estima f (z). 1 N2 N ˆf (z) = 2 j=1 ω j[s 1 ω j + s 2ˆf (z)] 1 1 N1 N 1 j=1 [s 1ω j + s, 2ˆf (z)] 1 (Mostrar exemplo no R: exemplo_55.r)
Estimador gama deslocado Outra proposta é conhecida como estimador gama deslocada proposto por Raftery et al. (2007). Nessa proposta, as saídas de Monte Carlo (via cadeias de Markov) são utilizadas para calcular a sequência de valores da log-verossimilhança {l k : k = 1,..., n} e a distribuição a posteriori das log-verossimilhanças é dada por l max l k G(α, λ), sendo l max o máximo da log-verossimilhança, α = d/2 com d o número de parâmetros do modelo e λ < 1. Na prática, λ é próximo de 1.
Combinando a identidade da média harmônica ( ) 1 1 f (y) = E, f (y θ) com a distribuição gama para l max l k temos ln f (y) = l max + α ln(1 λ). Em geral, l max não é conhecido, então ˆl max = máx{ l + s 2 l, l k } é usado, sendo l + s 2 l o estimador de momentos de l max, l e s 2 l a média e variância amostrais de l k s, respectivamente. (Mostrar exemplo no R: exemplo_56.r)
Fator de Bayes O problema de escolher modelos também pode ser visto como um problema de testar hipóteses. Por exemplo, podemos usar o Fator de Bayes (Kass and Raftery, 1995) para medir a probabilidade a posteriori relativa dos modelos de interesse. Se consideramos dois modelos M 1 e M 0, então o Fator de Bayes é definido por B 10 = f (y M 1) f (y M 0 ). Resume a evidência fornecida pelos dados em favor de um modelo contra o outro. É usual considerar 2 vezes o log do Fator de Bayes pois nesse caso temos a mesma escala da Estatística do teste da razão de verossimilhança.
Fator de Bayes na prática Um guia foi fornecido no artigo Kass and Raftery (1995) para interpretação do Fator de Bayes B 10 que é a evidência em favor do modelo M 1 contra o modelo M 0. 2 ln(b 10 ) B 10 Evidência contra H 0 0 a 2 1 a 3 Não merece ser muito comentada 2 a 6 3 a 20 Positiva 6 a 10 20 a 150 Forte >10 >150 Muito forte
Exemplo: fator de Bayes Suponha que queremos comparar 2 modelos: M 0 : y LN (µ, σ 2 ) M 1 : y E(θ). Podemos calcular a preditiva f (y) para cada modelo e obter o fator de Bayes. (Mostrar exemplo no R: exemplo_57.r)
Referências Newton and Raftery (1994), Approximate Bayesian inference with the weighted likelihood bootstrap, Journal of the Royal Statistical Society, Series B. Verdinelli and Wasserman (1995), Computing Bayes factors using a generalization of the Savage-Dickey density ratio, Journal of the American Statistical Association, Jun 1995, Vol. 90, No. 430. Chib (1995), Marginal Likelihood from the Gibbs Output, Journal of the American Statistical Association, Vol. 90, No. 432. Green (1995), Reversible Jump Markov Chain Monte Carlo Computation and Bayesian Model Determination, Biometrika, Vol. 82, No. 4. Meng and Wong (1996), Simulating ratios of normalizing constants via a simple identity: a theoretical exploration, Statist. Sinica, 6.. Gneiting and Raftery (2007), Strictly Proper Scoring Rules, Prediction, and Estimation, Journal of the American Statistical Association, March 2007, Vol. 102, No. 477.