UNIVERSIDADE FEDERAL DE MINAS GERAIS INSTITUTO DE CIÊNCIAS EXATAS PET MATEMÁTICA Orientadora: Rosângela Helena Loschi ESTATÍSTICA BAYESIANA Marina Muniz de Queiroz
INTRODUÇÃO A estatística clássica associa probabilidades apenas a variáveis aleatórias, enquanto a bayesiana permite a associação de probabilidade a qualquer grau de crença ou incerteza sobre uma quantidade aleatória, evento ou hipótese. Essa nova abordagem leva à definição de probabilidades à priori e à posteriori. A primeira advém das informações que cada indivíduo traz consigo de experiências passadas. Já a outra é obtida à medida que experimentos são realizados e novos dados coletados. Assim, as probabilidades associadas a um evento são definidas previamente e atualizadas na medida em que se recebem novas informações. Quando os dados são mais informativos que as suposições iniciais, ou seja, quando a amostra aumenta, as probabilidades convergem independentes das distribuições iniciais.
FUNÇÃO DE VEROSSIMILHANÇA E TEOREMA DE BAYES Definição 1. A probabilidade de A condicionada por B é definida por PA B= P( A B) P( B) O Teorema de Bayes relaciona as probabilidades de A e B com suas respectivas probabilidades condicionadas. Este teorema afirma que PB A= PA B). P( B) P( A) Definição 2. A função de verossimilhança de θ é a função que associa a cada θ o valor PX θ ), uma vez conhecido X. Exemplo 1. Suponha Xi θ ~ Bernoulli(θ) i variáveis aleatórias independentes e identicamente distribuídas. Então PXi= 1= θ e PXi= 0= 1-θ. Essa informação pode ser resumida em PXi= xi θ)= θ xi ( 1- θ) 1- xi, xi= 0, 1. A função de verossimilhança é dada por PXx1,, xnθ= Pxi( xi θ ) = θxi( 1- θ) 1-xi = θxi ( 1- θ) n-xi Assim, toda a informação proveniente do experimento está contida a função de
verossimilhança. Seja X=( x1, x2,, xn ) um vetor de variáveis aleatórias independentes e θ o parâmetro de interesse. Chamamos Pθ de distribuição à priori para θ e Pθ X de distribuição à posteriori para θ. Usando o teorema de Bayes, temos, para a primeira observação que Pθ x1=px1 θ). P( θ) P( x1) Ao se prosseguir com o experimento, toma-se a posteriori obtida acima como a nova priori, e então Pθ x1, x2,, xn= P x1, x2,, xn θ). P( θ) P ( x1, x2,, xn) Logo, a distribuição a posteriori de θ é proporcional à função de verossimilhança de θ vezes a sua distribuição à priori. Exemplo 2. Dado θ~ Beta (a,b) e X θ ~ Bernoulli ( θ ), queremos calcular a distribuição à posteriori Pθ X. Pθ X=PX θ). P( θ) P( X) Pθ X= θxi ( 1- θ) n- xi Γa+ bγaγbθa- 1( 1- θ) b- 1θxi ( 1- θ) n- xi Γa+ bγaγbθa- 1( 1- θ) b-1dθ Pθ X= θxi+ a- 1 ( 1- θ) n- xi+ b- 1 θxi+ a- 1 ( 1- θ) n- xi+ b-1dθ Como a integral do denominador é o núcleo de uma Beta com parâmetros a+ xi e b+ n-xi, basta multiplicar por constantes para que o resultado seja um.
Pθ X= Γa+ b+ nγ a + xiγb+ n- xi θxi+ a- 1 1-θn- xi+ b- 1 Γa+ b+ nγ a + xiγb+ n-xi θxi+ a- 1 1-θn- xi+ b-1dθ= = Γa+ b+ nγ a + xiγb+ n- xi θxi+ a- 1 1-θn- xi+ b-1 Então Pθ X ~ Beta ( a+ xi, b+ n-xi). DISTRIBUIÇÃO À PRIORI Seja θ o parâmetro do qual se deseja fazer uma inferência. A informação já disponível sobre θ permite associar a ele uma distribuição de probabilidade que descreverá as incertezas e crenças de um pesquisador, chamada distribuição à priori. Tome como exemplo no lançamento de uma moeda a probabilidade θ de tirar cara. Qual é a porcentagem de caras em certa quantidade de lançamentos? Se a moeda for honesta, espera-se que esta probabilidade esteja centrada em 0,5. Porém, suponha que isso não aconteça. Que informação prévia o dono da moeda possui?
Pode-se começar pensando em uma priori não informativa, ou seja, aquela que associa igual chance a todas as porcentagens. Essa distribuição seria uma Uniforme ou uma Beta (1,1) Mas se ele já possui algum indício de que θ tende a tomar determinados valores, pode-se modificar a distribuição à priori para uma Beta (2,2), que concentra mais massa na região em torno do valor 0,5.
Levando em consideração que o dono do dado já observou outros lançamentos e nos informou que o número de caras é sempre maior que o de coroas, novamente modifica-se a distribuição para uma Beta (45,5), que concentra massa em torno de 0,9. Assim, escolhe-se a melhor distribuição que se adapta às informações prévias sobre o lançamento da moeda. COMPARAÇÃO ENTRE DISTRIBUIÇÕES À PRIORI E À POSTERIORI
Vamos analisar o impacto que a escolha da distribuição à priori tem nas distribuições à posteriori. Suponha que dez lançamentos de moeda foram simulados, associando 1 a caras e 0 a coroas. A seguir, foram escolhidas algumas distribuições Beta (a,b) que podem ser representar distribuições à priori. TABELA 1. Distribuições à priori a b Esperanç a Variância 1,0 1,0 0,5 0,083333 3 2,0 2,0 0,5 0,050000 0 50,0 50,0 0,5 0,002475 2 0,1 0,9 0,1 0,045000 0 5,0 45,0 0,1 0,001764 7 0,9 0,1 0,9 0,045000 0 45,0 5,0 0,9 0,001764 7 Moda 1 0,500000 0,500000 0,900000 0,083333 0,100000 0,916667 Após os dez lançamentos foram obtidas 6 caras e 4 coroas e os valores mostrados acima são atualizados pelo Teorema de Bayes. TABELA 2. Distribuições à posteriori para dez lançamentos a b Esperança Variância Moda 7,0 5,0 0,583333 0,018696 0,600000 6 8,0 6,0 0,571429 0,016326 0,583333 5 56,0 54,0 0,509091 0,002251 0,509259 5 6,1 4,9 0,554545 0,020585 0,566667 4 11,0 49,0 0,183333 0,002454 0,172414 5 6,9 4,1 0,627273 0,019483 0,655556 5 51,0 9,0 0,850000 0,002090 2 0,862069
Se o número de lançamentos simulados aumenta para mil, com 507 caras e 493 coroas, teremos os seguintes valores: TABELA 3. Distribuições à posteriori para mil lançamentos a b Esperança Variância Moda 508,0 494,0 0,506986 0,000249 0,507000 2 509,0 495,0 0,506972 0,000248 0,506986 7 557,0 543,0 0,506364 0,000227 0,506375 0 507,1 493,9 0,506593 0,000249 0,506607 5 512,0 538,0 0,487619 0,000237 0,487595 7 507,9 493,1 0,507393 0,000249 0,507407 4 552,0 498,0 0,525714 0,000237 2 0,525763 Quando se trabalha com a distribuição Beta em que os parâmetros a e b são iguais ou bem próximos, tem-se uma distribuição de probabilidade centrada em 0,5. Portanto, essa seria uma função de densidade de probabilidade que poderia ser usada para descrever a situação de um lançamento de uma moeda em que acreditamos com alguma certeza que a razão entre caras e coroas é 0,5. Se comparadas as distribuições à priori e à posteriori, no caso a=b, percebe-se que o valor esperado do parâmetro continua centrado em um valor aproximado de 0,5, porém com uma variância menor, ou seja, mais certeza. No caso descrito acima, como o número de sucessos dos dez lançamentos foi seis, a esperança tem uma tendência a ser maior que 0,5. O mesmo pode ser observado quando foram feitos 1000 lançamentos, com 507 sucessos. Já para os casos em que a distribuição é assimétrica, é fácil perceber que o valor esperado está afastado de 0,5, e, portanto, não é uma distribuição que mais se adapta às informações prévias do fenômeno. Com isso, quando o número de lançamentos é muito grande, esses dados têm mais peso do que a própria distribuição a priori, e como a razão entre fracassos e sucessos tende a meio, a esperança da nova distribuição também, com variância muito pequena, tentando corrigir a informação obtida previamente.
FAMÍLIAS CONJUGADAS A construção da distribuição à priori é importante pois usualmente não é fácil obter a distribuição à posteriori de forma fechada como já foi feito na seção anterior com a Beta e Binomial. Observando o Teorema de Bayes e seu aspecto seqüencial, percebe-se que a posteriori se origina da multiplicação da função de verossimilhança com uma priori. Procura-se, então, misturar as duas para que a distribuição à posteriori esteja na mesma família da distribuição à priori. Para isso, é necessário que l( θ ) e P( θ ) tenham o mesmo núcleo. É importante também que tais famílias sejam suficientemente amplas para acomodar várias opiniões sobre θ. Continua...
BIBLIOGRAFIA