Inferência Bayesiana - Aula 1 - Márcia D Elia Branco Universidade de São Paulo Instituto de Matemática e Estatística www.ime.usp.br/ mbranco - sala 295-A -
Paradigmas Bayesiano Introdução Fazer inferência é usar a informação para reduzir a incerteza sobre um objeto em estudo. Eiste duas fontes de informação: amostral (associado ao eperimento) e conhecimentos prévios (sua eperiência de vida) A incerteza a respeito de tudo o que é desconhecido deve ser traduzida por uma medida de probabilidade. Interpretações subjetiva ou lógica de probabilidade. Probabilidade como uma medida pessoal de incerteza, não como o limite da frequência relativa (postura clássica).
Comparação com a inferência clássica Na escola Bayesiana cada observação é única. A escola Clássica é baseada na possibilidade de repetir eperimentos sob as mesmas condições. Eemplo 1: Interpretação da medida de probabilidade. EC: Se lançamos n vezes a mesma moeda sob as mesmas condições e calculamos a frequência relativa do número de caras, este valor se estabilizará em 1/2 (limite da frequência relativa). EB: Para você a credibilidade na ocorrência de cara é a mesma que na não ocorrência. Se você tiver que apostar contra um oponente no resultado da moeda (cara) deverá apostar 1 contra 1. Então P rob(cara) = 1/2.
Comparação com a inferência clássica Eemplo 2: Faz sentido utilizar toda a informação disponível ou somente a amostral é relevante? Você deseja inferir sobre a capacidade de uma pessoa acertar resultados. Apresentam-se para o teste um especialista em música que diz ser capaz de diferir as músicas de Haydn e Mozart. um bêbado que diz ser capaz de acertar os resultados no lançamento de uma moeda. Se ambos são submetidos a dez provas e acertam todas elas, então sua inferência baseada nos dados é a mesma. Será razoável?
Motivação: Estudo da maturidade seual do peie-galo. Em estudos de população de peies os cientistas estão interessados na relação entre o tamanho e a maturidade seual da fêmea de uma determinada espécie de peie. O interesse é determinar o tamanho em que cerca de 50 % das fêmeas alcançam a maturidade seual, denominado tamanho de maturação. Os dados na Tabela 1 representam o tamanho e a maturidade seual de 17 fêmeas capturadas na costa sul do Brasil. Considere y i o número de fêmeas maduras e n i o número total de fêmeas. p i é a probabilidade de que uma fêmea na classe i esteja madura.
Motivação: Estudo da maturidade seual do peie-galo. Tabela 1: Número de fêmeas maduras por tamanho. Comprimento (cm) Total Maduras 10-20 3 0 20-30 5 1 30-40 4 3 40-70 5 5 Suponha y i uma Binomial(n i, p i ) com p i a probabilidade de que uma fêmea na classe i esteja madura. i é o ponto médio da classe i. O modelo logístico é dado por ( ) pi log = β 0 + β 1 ( i ) 1 p i
Motivação: Estudo da maturidade seual do peie-galo. A quantidade principal de interesse é LT 50 = β 0 β 1 +, obtida quando substitui-se p i por 0.5. A análise Bayesiana resulta na obtenção da distribuição de probabilidade associada a LT 50. Esta distribuição de probabilidade representa a incerteza a posterior sobre a quantidade de interesse. A partir da distribuição a posterior, pode-se obter uma estimação pontual igual a 28 cm e um intervalo, de probabilidade 0.95, igual a (22.65 ; 35.25).
Motivação: Estudo da maturidade seual do peie-galo. LT 50 depende de dois parâmetros desconhecidos β 0 e β 1, os quais também possuem uma distribuição de probabilidade a posterior. Iniciamos com uma medida de probabilidade a priori f(β 0, β 1 ), por eemplo, normal bivariada. Para obter a medida a posterior utilizamos a fórmula de Bayes f(β 0, β 1 y) = f(y β 0, β 1 )f(β 0, β 1 ), f(y) onde f(y β 0, β 1 ) é a probabilidade conjunta de y 1, y 2,..., y k supondo os parâmetros conhecidos. No nosso caso, esta probabilidade é o produto de binomias. A quantidade f(y) é a distribuição marginal e é obtida pela integração do numerador. Não eiste solução anaĺıtica e algoritmos numéricos são necessários.
Motivação: Estudo da maturidade seual do peie-galo. Sob a abordagem clássica os parâmetros podem ser estimados utilizando-se os estimadores de máima verossimilhança e a teoria assintótica normal. As estimativas pontuais, e por intervalo, de máima verossimilhança de β 1 são 0.266 e (-00188 ; 0.5526), com confiança de 95 %. Sob a abordagem Bayesiana, o intervalo de credibilidade é (0.112 ; 0.795), com probabilidade 95 %. Esta diferença justifica-se pela assimetria observada na distribuição a posteriori. Enquanto que o intervalo clássico indica que β 1 pode ser zero, a distribuição a posteriori indica claramente um valor positivo.
O modelo paramétrico probabiĺıstico. Uma medida de probabilidade P é definida em um espaço (X, A), onde A é uma sigma álgebra de elementos mensuráveis. Um espaço paramétrico estatístico é um conjunto (família) de medidas de probabilidade, associadas a um vetor aleatório X, indeadas por um parâmetro θ, (X, A, P θ ), θ Sob o ponto de vista Bayesiano é preciso definir uma medida de probabilidade a prior para θ, (Θ, B, π)
O modelo paramétrico binomial. Sob certas suposições, é possível definir uma medida de probabilidade conjunta para X e θ. Usa-se a fórmula de Bayes para obter a medida de probabilidade condicional de θ dado o resultado da amostra X = P (X = θ)f(θ) f(θ ) = P (X = θ)f(θ) Θ f( θ)f(θ) f(θ ) = f( θ)f(θ) dθ Θ
O modelo paramétrico binomial Eemplo 1: O modelo binomial. X θ, n Bin(n, θ), 0 < θ < 1 e n inteiro. Suponha n conhecido, é preciso definir uma medida de probabilidade para θ. Prior 1: θ 0.25 0.50 0.75 f(θ) 0.25 0.50 0.25 Para n = 2 a posterior é θ 0.25 0.50 0.75 f(θ = 0) 0.500 0.440 0.060 f(θ = 1) 0.214 0.572 0.214 f(θ = 2) 0.060 0.440 0.500
O modelo paramétrico binomial. Prior 2: θ Beta(a, b). Então sua função de é f(θ) = Γ(a + b) Γ(a)Γ(b) θa 1 (1 θ) b 1, a > 0 b > 0. Para obter a marginal f() integra-se em θ f() = 1 0 f(θ)c n, (θ) (1 θ) n dθ. Observe que não há necessidade de preocupar-se com a quantidade C n, (constante) pois f(θ ) = 1 0 θa+ 1 (1 θ) b+n 1 (θ) a+ (1 θ) b+n 1 dθ
O modelo paramétrico binomial. Podemos mostrar que a distribuição a posteriori é θ Beta(a +, b + n ). Se as distribuições a priori e a posteriori estão na mesma classe de distribuições, dizemos que são conjugadas em relação ao modelo estatístico X θ. Como escolher a e b? Se a = b temos uma distribuição simétrica. Se a = b = 1 temos uma uniforme. A média e a variância a priori são E[θ] = a a+b V ar[θ] = ab (a+b) 2 (a+b+1).
Gráficos da Beta Densidades Beta simetricas 0.0 0.5 1.0 1.5 2.0
Gráficos da Beta Densidades Beta assimetricas a < b 0.0 0.5 1.0 1.5 2.0 2.5
O modelo paramétrico binomial. Usando o seu conhecimento para construir sua a priori. Qual o significado de θ? Informações a priori θ (0.00-0.25) (0.25-0.50) (0.50-0.75) (0.75-1.00) Prob. 0.10 0.40 0.40 0.10 Densidade a priori : θ Beta(3, 3) θ (0.00-0.25) (0.25-0.50) (0.50-0.75) (0.75-1.00) Pbeta. 0.1035 0.3965 0.3965 0.1035
Gráficos das s a posteriori com n=2 e priori Beta(3,3) Priori e Posteriori, n=2, =0 0.0 1.0 2.0 Priori e Posteriori, n=2, =1 0.0 1.0 2.0 Priori e Posteriori, n=2, =2 0.0 1.0 2.0
Gráficos das s a posteriori com n=50 e priori Beta(3,3) Priori e Posteriori, n=50, =0 0 5 10 15 Priori e Posteriori, n=50, =25 0 2 4 6 Priori e Posteriori, n=50, =50 0 5 10 15
Gráficos das s a posteriori com n=50 e priori Beta(50,50) Priori e Posteriori, n=50, =0 (Priori II) 0 2 4 6 8 Priori e Posteriori, n=50, =25 (Priori II) 0 2 4 6 8 10 Priori e Posteriori, n=50, =50 (Priori II) 0 2 4 6 8