ESTATÍSTICA COMPUTACIONAL Ralph dos Santos Silva Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro
Sumário Inferência com dimensão variável
Modelos com dimensão variável Definição: modelo onde uma das quantidades desconhecidas é o número de quantidades desconhecidas. Em outras palavras, a dimensão do espaço de parâmetros não é fixa. Isso está relacionado com o problema de seleção de modelos. Exemplo: considere K covariáveis que possivelmente estão relacionadas com a variável y, sendo K grande. y i = β 1 x i1 + + β K x ik + ε i, Neste caso, temos 2 K modelos possíveis. Como selecionar modelos nesse contexto?
Seleção ou estimação? Considere o problema geral de escolher entre K modelos para um conjunto de dados observados z, M k = {p(z θ k ) : θ k Θ k }. Note que o espaço paramétrico em um problema com K modelos é Θ = k [{k} Θ k ]. Estimação nesse contexto não é um problema trivial. Por exemplo, ao considerarmos esse espaço paramétrico há uma tendência a super-estimar o número de parâmetros levando a um super-ajuste dos dados. Por outro lado, se consideramos esse uma problema puramente de decisão, escolheremos um modelo mais provável, que pode levar a grandes erros.
Seleção bayesiana de modelos Atribua probabilidades a priori para cada modelo possível: Pr(M 1 ),..., Pr(M J ), tal que J j=1 Pr(M j) = 1. E também uma distribuição a priori para os parâmetros de cada modelo: f (θ M j ),, j = 1,..., J. Abordagem direta: estimar a probabilidade a posteriori de cada modelo. Nesse caso, f (z M j ) Pr(M j ) Pr(M j z) = J k=1 f (z M k) Pr(M k ), sendo f (z M j ) a preditiva do modelo M j.
Reescrevendo temos Pr(M j ) f (z θ j, M j )f (θ j M j )dθ j Θ j Pr(M j z) =, J k=1 Pr(M k) f (z θ k, M k )f (θ k M k )dθ k Θ k a probabilidade a posteriori do modelo M j. Decisão: escolher o modelo com a maior probabilidade Pr(M j z) ou uma combinação de modelos, isto é, seja y a observação a ser predita, f (y M j, z) = f (y θ j, z)f (θ j z)dθ j, Θ j e, portanto, f (y z) = J f (y M j, z) Pr(M j z). j=1 Veja Hoeting, Madigan, Raftery and Volinsky (1999), bayesian model averaging, Statistical Science, 14, pp. 382-401.
Medidas para seleção de modelos Vimos que o fator de Bayes pode ser usado para comparar vários modelo, B 10 = f (z M 1) f (z M 0 ). Reescrevendo, temos que a chance a posteriori é dada por f (M 1 z) f (M 0 z) = Pr(M 1)f (z M 1 ) Pr(M 0 )f (z M 0 ) = Pr(M 1) Pr(M 0 ) B 10.
Critério preditivo a posteriori Gelfand e Gosh (1998), Model choice: A minimum posterior predictive loss approach, Biometrika, 85, 1-11. Introduziram o critério preditivo a posteriori. Sob perda quadrática, devemos escolher o modelo que minimiza E((y z) (y z) z, M j ) = n n Var(y i z i, M j ) + [z i E(y i z, M j )] 2, i=1 i=1 sendo y 1,..., y n previsões ou réplicas de z 1,..., z n. Definimos D = P + G (penalidade+ajuste) com n P = Var(y i z i, M j ) G = i=1 n [z i E(y i z, M j )] 2. i=1
Critério de informação do desvio Spiegelhalter, Best, Carlin e Van der Linde (2002), Bayesian measures of model complexity and fit, Journal of the Royal Statistical Society, Series B, 64, pp. 583-616. Seja θ = E(θ z) e D(θ) = 2 ln f (z θ). Então, DIC = D + p d (bondade de ajuste+penalização), sendo D = E(D(θ) z) e p d = D D(θ ). O menor DIC indica o melhor ajuste do modelo.
O DIC é computacionalmente atrativo pois pode ser facilmente calculado das saídas de um Monte Carlo via cadeias de Markov. Sejam θ (1),...,θ(M) valores gerados utilizando Monte Carlo via cadeias de Markov. Então, D = E(D(θ) z) 1 M D(θ (k) ). M E também k=1 D(θ ) D(θ), com θ = 1 M M θ (k). (Ver exemplo no OpenBUGS: Regressao.odc e dados_regressao.txt) k=1
Inferência com dimensão variável Monte Carlo via cadeias de Markov com saltos reversíveis Exemplo: considere o problema de fazer inferência para dois modelos e seus parâmetros simultaneamente; Considere que M 1 tem um parâmetro θ e M 2 tem dois parâmetros {θ 1, θ 2 }; O algoritmo de Monte Carlo via cadeias de Markov com saltos reversíveis faz inferência para θ, θ 1 e θ 2, e para o modelo {M 1, M 2 }; Em um único algoritmo iremos mover a cadeia do modelo M 1 para o M 2 e do modelo M 2 para o M 1 ; O movimento de M 2 para M 1 é determinístico; Por exemplo, θ = θ 1 + θ 2 ; e 2 E o movimento de M 1 para M 2?
Inferência com dimensão variável Uma maneira interessante de simular ambos parâmetros e modelos é utilizando Monte Carlo via cadeias de Markov com saltos reversíveis. O algoritmo é construído de forma a manter a condição de balanceada detalhada. Green (1995) e capítulo 7 do livro de Gamerman e Lopes. Por exemplo, considere dim(θ 1 ) > dim(θ 2 ). Então o movimento de Θ 1 para Θ 2 pode ser representado por uma transformação determinística de θ 1, θ 2 = T (θ 1 ). Green (1995) impõe uma condição de igualdade de dimensões que diz que o movimento oposto de Θ 2 para Θ 1 é concentrado em {θ 1 : θ 2 = T (θ 1 )}. No caso geral, se θ 1 é completado por simulação u 1 g 1 (u 1 ) em (θ 1, u 1 ) e θ 2 por u 2 g 2 (u 2 ) em (θ 2, u 2 ) tal que o mapeamento entre (θ 1, u 1 ) e (θ 2, u 2 ) é uma bijeção, (θ 2, u 2 ) = T (θ 1, u 1 ).
Inferência com dimensão variável O algortimo se basea na seguinte identidade: f (θ k, k y) = f (y θ k, k)f k (θ k k)f (k). f (y) A probabilidade de aceitar um movimento de M 1 para M 2 é dada por { mín 1, f (2, θ 2 y)π 21 φ 21 (u 2 ) T } 12(θ 1, u 1 ), f (1, θ 1 y)π 12 φ 12 (u 1 ) (θ 1, u 1 ) sendo f (j, θ j y) ée a distribuição a posteriori de θ j sob o modelo M j ; π ij é a probabilidade de escolher um movimento para o modelo M j enquanto estamos no modelo M i ; e T 12(θ 1, u 1 ) é o Jacobiano da tranformação. (θ 1, u 1 )
Inferência com dimensão variável Algoritmo Na iteração k, temos (m, θ (k) m ) 1. Selecione o modelo M n com probabilidade π mn; 2. Gere u mn φ mn(u); 3. Defina (θ n, v nm) = T mn(θ (k) m, u mn); 4. Tome θ (k+1) n = θ n com probabilidade { f (n, θ n y)π nmφ nm(v nm) mín 1, f (m, θ (k) m y)π mnφ mn(u mn) e tome θ (k+1) m = θ (k) m caso contrário. Tmn(θ(k) (θ (k) } m, u nm), m, u nm)
Inferência com dimensão variável Escolha da proposta A escolha das densidades propostas φ ij deve ser feita com cautela. Em especial em altas dimensões. Amostrador independente: se todos os parâmetros são amostrados de sua distribuição proposta, então T ij é identidade e o jacobiano é igual a 1. (Nenhuma transformação é feita nesse caso.) Se o modelo proposto é igual ao corrente, M m = M n, então o passo de aceitação corresponde a um passo usual de Metropolis.
Inferência com dimensão variável Proposta independente com momentos baseados na posteriori Considere que estimativas de média e variância a posteriori estejam disponíveis para os parâmetros de cada modelo; Nesse caso, uma proposta independente pode ser usada. Por exemplo, θ N (Ê(θ y), Var(θ y)). O movimento de um modelo M m para outro M n terá jacobiano 1; A probabilidade de aceitação será dada por { } mín 1, ln(θ n y)f n(θ n)φ m(θ m) l m(θ m y)f m(θ m)φ n(θ. n)
Inferência com dimensão variável Exemplo Falha de ar condicionados de aviões (Berger e Pericchi, 1996). Para cada avião sugere-se usar os modelos abaixo: M 0 : (y i µ, σ 2 ) LN (µ, σ 2 ), µ R, σ 2 > 0 M 1 : (y i γ, δ) Weibull(γ, δ), γ > 0, δ > 0. Berger e Pericchi (1996), Intrinsic Bayes factor for model selection and prediction, Journal of the American Statistical Association, 91, 109-122. Utilizaremos um Monte Carlo via cadeias de Markov com saltos reversiveis com proposta de transição independente θ = (θ 1, θ 2 ) tal que θ N 2 (µ θ, Σ θ ). (Mostrar exemplo no R: exemplo_58.r)