ESTATÍSTICA COMPUTACIONAL

ESTATÍSTICA COMPUTACIONAL Ralph dos Santos Silva Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro

Sumário Inferência com dimensão variável

Modelos com dimensão variável Definição: modelo onde uma das quantidades desconhecidas é o número de quantidades desconhecidas. Em outras palavras, a dimensão do espaço de parâmetros não é fixa. Isso está relacionado com o problema de seleção de modelos. Exemplo: considere K covariáveis que possivelmente estão relacionadas com a variável y, sendo K grande. y i = β 1 x i1 + + β K x ik + ε i, Neste caso, temos 2 K modelos possíveis. Como selecionar modelos nesse contexto?

Seleção ou estimação? Considere o problema geral de escolher entre K modelos para um conjunto de dados observados z, M k = {p(z θ k ) : θ k Θ k }. Note que o espaço paramétrico em um problema com K modelos é Θ = k [{k} Θ k ]. Estimação nesse contexto não é um problema trivial. Por exemplo, ao considerarmos esse espaço paramétrico há uma tendência a super-estimar o número de parâmetros levando a um super-ajuste dos dados. Por outro lado, se consideramos esse uma problema puramente de decisão, escolheremos um modelo mais provável, que pode levar a grandes erros.

Seleção bayesiana de modelos Atribua probabilidades a priori para cada modelo possível: Pr(M 1 ),..., Pr(M J ), tal que J j=1 Pr(M j) = 1. E também uma distribuição a priori para os parâmetros de cada modelo: f (θ M j ),, j = 1,..., J. Abordagem direta: estimar a probabilidade a posteriori de cada modelo. Nesse caso, f (z M j ) Pr(M j ) Pr(M j z) = J k=1 f (z M k) Pr(M k ), sendo f (z M j ) a preditiva do modelo M j.

Reescrevendo temos Pr(M j ) f (z θ j, M j )f (θ j M j )dθ j Θ j Pr(M j z) =, J k=1 Pr(M k) f (z θ k, M k )f (θ k M k )dθ k Θ k a probabilidade a posteriori do modelo M j. Decisão: escolher o modelo com a maior probabilidade Pr(M j z) ou uma combinação de modelos, isto é, seja y a observação a ser predita, f (y M j, z) = f (y θ j, z)f (θ j z)dθ j, Θ j e, portanto, f (y z) = J f (y M j, z) Pr(M j z). j=1 Veja Hoeting, Madigan, Raftery and Volinsky (1999), bayesian model averaging, Statistical Science, 14, pp. 382-401.

Medidas para seleção de modelos Vimos que o fator de Bayes pode ser usado para comparar vários modelo, B 10 = f (z M 1) f (z M 0 ). Reescrevendo, temos que a chance a posteriori é dada por f (M 1 z) f (M 0 z) = Pr(M 1)f (z M 1 ) Pr(M 0 )f (z M 0 ) = Pr(M 1) Pr(M 0 ) B 10.

Critério preditivo a posteriori Gelfand e Gosh (1998), Model choice: A minimum posterior predictive loss approach, Biometrika, 85, 1-11. Introduziram o critério preditivo a posteriori. Sob perda quadrática, devemos escolher o modelo que minimiza E((y z) (y z) z, M j ) = n n Var(y i z i, M j ) + [z i E(y i z, M j )] 2, i=1 i=1 sendo y 1,..., y n previsões ou réplicas de z 1,..., z n. Definimos D = P + G (penalidade+ajuste) com n P = Var(y i z i, M j ) G = i=1 n [z i E(y i z, M j )] 2. i=1

Critério de informação do desvio Spiegelhalter, Best, Carlin e Van der Linde (2002), Bayesian measures of model complexity and fit, Journal of the Royal Statistical Society, Series B, 64, pp. 583-616. Seja θ = E(θ z) e D(θ) = 2 ln f (z θ). Então, DIC = D + p d (bondade de ajuste+penalização), sendo D = E(D(θ) z) e p d = D D(θ ). O menor DIC indica o melhor ajuste do modelo.

O DIC é computacionalmente atrativo pois pode ser facilmente calculado das saídas de um Monte Carlo via cadeias de Markov. Sejam θ (1),...,θ(M) valores gerados utilizando Monte Carlo via cadeias de Markov. Então, D = E(D(θ) z) 1 M D(θ (k) ). M E também k=1 D(θ ) D(θ), com θ = 1 M M θ (k). (Ver exemplo no OpenBUGS: Regressao.odc e dados_regressao.txt) k=1

Inferência com dimensão variável Monte Carlo via cadeias de Markov com saltos reversíveis Exemplo: considere o problema de fazer inferência para dois modelos e seus parâmetros simultaneamente; Considere que M 1 tem um parâmetro θ e M 2 tem dois parâmetros {θ 1, θ 2 }; O algoritmo de Monte Carlo via cadeias de Markov com saltos reversíveis faz inferência para θ, θ 1 e θ 2, e para o modelo {M 1, M 2 }; Em um único algoritmo iremos mover a cadeia do modelo M 1 para o M 2 e do modelo M 2 para o M 1 ; O movimento de M 2 para M 1 é determinístico; Por exemplo, θ = θ 1 + θ 2 ; e 2 E o movimento de M 1 para M 2?

Inferência com dimensão variável Uma maneira interessante de simular ambos parâmetros e modelos é utilizando Monte Carlo via cadeias de Markov com saltos reversíveis. O algoritmo é construído de forma a manter a condição de balanceada detalhada. Green (1995) e capítulo 7 do livro de Gamerman e Lopes. Por exemplo, considere dim(θ 1 ) > dim(θ 2 ). Então o movimento de Θ 1 para Θ 2 pode ser representado por uma transformação determinística de θ 1, θ 2 = T (θ 1 ). Green (1995) impõe uma condição de igualdade de dimensões que diz que o movimento oposto de Θ 2 para Θ 1 é concentrado em {θ 1 : θ 2 = T (θ 1 )}. No caso geral, se θ 1 é completado por simulação u 1 g 1 (u 1 ) em (θ 1, u 1 ) e θ 2 por u 2 g 2 (u 2 ) em (θ 2, u 2 ) tal que o mapeamento entre (θ 1, u 1 ) e (θ 2, u 2 ) é uma bijeção, (θ 2, u 2 ) = T (θ 1, u 1 ).

Inferência com dimensão variável O algortimo se basea na seguinte identidade: f (θ k, k y) = f (y θ k, k)f k (θ k k)f (k). f (y) A probabilidade de aceitar um movimento de M 1 para M 2 é dada por { mín 1, f (2, θ 2 y)π 21 φ 21 (u 2 ) T } 12(θ 1, u 1 ), f (1, θ 1 y)π 12 φ 12 (u 1 ) (θ 1, u 1 ) sendo f (j, θ j y) ée a distribuição a posteriori de θ j sob o modelo M j ; π ij é a probabilidade de escolher um movimento para o modelo M j enquanto estamos no modelo M i ; e T 12(θ 1, u 1 ) é o Jacobiano da tranformação. (θ 1, u 1 )

Inferência com dimensão variável Algoritmo Na iteração k, temos (m, θ (k) m ) 1. Selecione o modelo M n com probabilidade π mn; 2. Gere u mn φ mn(u); 3. Defina (θ n, v nm) = T mn(θ (k) m, u mn); 4. Tome θ (k+1) n = θ n com probabilidade { f (n, θ n y)π nmφ nm(v nm) mín 1, f (m, θ (k) m y)π mnφ mn(u mn) e tome θ (k+1) m = θ (k) m caso contrário. Tmn(θ(k) (θ (k) } m, u nm), m, u nm)

Inferência com dimensão variável Escolha da proposta A escolha das densidades propostas φ ij deve ser feita com cautela. Em especial em altas dimensões. Amostrador independente: se todos os parâmetros são amostrados de sua distribuição proposta, então T ij é identidade e o jacobiano é igual a 1. (Nenhuma transformação é feita nesse caso.) Se o modelo proposto é igual ao corrente, M m = M n, então o passo de aceitação corresponde a um passo usual de Metropolis.

Inferência com dimensão variável Proposta independente com momentos baseados na posteriori Considere que estimativas de média e variância a posteriori estejam disponíveis para os parâmetros de cada modelo; Nesse caso, uma proposta independente pode ser usada. Por exemplo, θ N (Ê(θ y), Var(θ y)). O movimento de um modelo M m para outro M n terá jacobiano 1; A probabilidade de aceitação será dada por { } mín 1, ln(θ n y)f n(θ n)φ m(θ m) l m(θ m y)f m(θ m)φ n(θ. n)

Inferência com dimensão variável Exemplo Falha de ar condicionados de aviões (Berger e Pericchi, 1996). Para cada avião sugere-se usar os modelos abaixo: M 0 : (y i µ, σ 2 ) LN (µ, σ 2 ), µ R, σ 2 > 0 M 1 : (y i γ, δ) Weibull(γ, δ), γ > 0, δ > 0. Berger e Pericchi (1996), Intrinsic Bayes factor for model selection and prediction, Journal of the American Statistical Association, 91, 109-122. Utilizaremos um Monte Carlo via cadeias de Markov com saltos reversiveis com proposta de transição independente θ = (θ 1, θ 2 ) tal que θ N 2 (µ θ, Σ θ ). (Mostrar exemplo no R: exemplo_58.r)