Conteúdo IND 5 Inferência Estatística Aula 8 Setembro 4 Mônica Barros O - aproximação da Binomial pela Este teorema é apenas um caso particular do teorema central do limite, pois uma variável aleatória com distribuição Binomial pode ser encarada como a soma de n variáveis Bernoulli(p) independentes. Na verdade, o teorema de DeMoivre e foi formulado muito antes do teorema central do limite. 3 Sabemos que a distribuição Binomial com parâmetros n e p pode ser aproximada pela distribuição Poisson quando n é grande e p é pequeno. A aproximação da Binomial pela ( ) "funciona" quando n é grande e p não é necessariamente pequeno (por exemplo, p próximo de /). 4
O fato da distribuição Binomial ser discreta e da ser contínua cria a necessidade de corrigir os valores das probabilidades encontrados via DeMoivre e. Esta correção será chamada de correção de continuidade. A correção de continuidade permite uma melhora significativa na aproximação dada pelo teorema de DeMoivre e. Teorema Seja Y ~ Bin(n, p) onde n é "grande" e p não está próximo de zero. Então: Y E( Y ) Y np Z = = VAR( Y ) np( p) tem aproximadamente uma distribuição N(,). 5 6 Em particular, podemos calcular probabilidades de valores específicos da variável Y usando a tabela da distribuição padrão. Este resultado segue diretamente do teorema central do limite, pois Y pode ser encarado como a soma de n variáveis aleatórias iid, cada uma com distribuição Bernoulli(p). 7 Nota A aproximação fornecida pelo Teorema de DeMoivre e funciona bem se n > e p está próximo de /. Para outros valores de p é necessário aumentar o valor de n. Em geral o teorema de DeMoivre e produz resultados aceitáveis se n.p > 5 quando p < / e se n.(-p) > 5 quando p > /. 8
Exemplo Suponha que desejamos calcular Pr(Y y), onde Y ~ Bin(n, p). Como poderemos fazê-lo usando o teorema de DeMoivre e? Y np y np y np y np Pr( Y y) = Pr = Φ Pr Z npq npq npq npq O resultado desta aproximação pode ser sensivelmente melhorado com a correção de continuidade indicada a seguir. Correção de Continuidade Quantidade desejada na distribuição Binomial Quantidade Calculada através da correção de continuidade Expressão aproximada usando a densidade Pr(Y = y) Pr( y -.5 Y y +.5) y+ 5. np y 5. np Φ Φ npq npq Pr(Y y) Pr( Y y +.5) Φ y + 5. np npq Pr(Y < y) = Pr( Y y-) Pr( Y y - +.5) y + 5. np y 5. np Φ = Φ npq npq Pr( Y y) Pr( Y y -.5) 5 Φ y. np npq Pr( Y > y) = Pr( Y y + -.5) + 5 Φ y. np Pr( Y y + ) npq Pr( a Y b) Pr( a -.5 Y b +.5) b+ 5. np a 5. np Φ Φ npq npq 9 Exemplo Uma fábrica produz amortecedores para carros, dos quais % são defeituosos. Uma amostra de amortecedores é selecionada diariamente. Seja X o número de amortecedores defeituosos na amostra. Calcule a probabilidade de X ser menor ou igual a 5 usando a aproximação com correção de continuidade. Solução Neste caso X ~ Bin(,.) e então E(X) = np =, VAR(X) = npq = (.8) = 6. Usando a correção de continuidade: Pr ( X 5) = Φ 5.5 + np 5.5 4.5 Φ = Φ = Φ = npq 6 4 (.5) =. 9 A aproximação sem a correção de continuidade seria: 5 5 Pr ( X 5) Φ = Φ = Φ(.5) =. 56 6 4
O valor exato desta probabilidade seria calculado através da fórmula: Pr 5 x x x ( X 5) =. (.).(.8) =. 85 x= O resultado com a correção de continuidade é muito mais próximo do exato do que o cálculo sem a correção. A correção de continuidade serve para melhorar a "performance" da aproximação da Binomial pela. 3 Além disso, se desejamos aproximar através de DeMoivre e a probabilidade da variável Binomial ser igual a um número qualquer, isto só pode ser feito usando a correção de continuidade. Por que? A distribuição é contínua, e portanto a probabilidade de qualquer valor é zero, e assim precisamos encontrar a probabilidade de um intervalo em torno do ponto desejado. 4 Exemplo Seja X ~ Bin(, /). Calcule a probabilidade dos valores 5, 6,... diretamente (usando a própria distribuição Binomial) e usando a aproximação com correção de continuidade. Compare os resultados. Solução O cálculo exato é dado pela fórmula: Pr ( X = x) x =.. x x =. x 5 O cálculo aproximado com correção de continuidade é: ( ) x +.5 np x.5 np Pr X = x Φ Φ = npq x +.5 x.5 = Φ Φ 5 5 A próxima tabela compara os resultados exato e aproximado: npq x Pr(X =x) exata Pr(X =x) aproximada 5.479.53 6.3696.3668 7.7393.73 8.3.939 9.68.636.76.7694 6
Exemplo No exemplo anterior calcule Pr( 5 X 9) de 3 maneiras: Exatamente, Aproximadamente com correção de continuidade, Aproximadamente sem correção de continuidade. Solução Cálculo exato ( 5 X 9) = Pr( X = 5) + Pr( X = 6) +... + Pr( X = 9). 4599 Pr = Aproximação com correção de continuidade Pr ( 5 X 9) Pr( 4.5 X 9.5) 9.5 4.5 np np = Φ Φ = npq npq 9.5 4.5 = Φ Φ =.453.695 =.4458 5 5 Aproximação sem correção de continuidade Pr ( 5 X 9) 9 5 np np Φ Φ = npq npq 9 5 = Φ Φ =.3736.67 =.3469 5 5 Que é um resultado bem pior que a aproximação com correção de continuidade. 7 8 (para casa) A probabilidade de uma pessoa com mais de 65 anos pegar uma gripe no outono é 75%. Toma-se uma amostra de 6 pessoas na "3a. idade" e seja X o número destas pessoas com gripe na amostra. Calcule as seguintes probabilidades: Pr{X 4} aproximadamente pelo teorema de DeMoivre e com correção de continuidade. Pr{X 4} exatamente (só se você tiver acesso a um computador, pois do contrário será bastante trabalhoso!) Pr{45 X 5} aproximadamente pelo teorema de DeMoivre e com correção de continuidade. (para casa) Seja Y ~ Bin(, /). Calcule Pr(Y 9) exatamente. Calcule Pr(Y 9) aproximadamente pelo teorema de DeMoivre e com correção de continuidade. Calcule Pr(Y = 7) exatamente. Calcule Pr(Y= 7) aproximadamente pelo teorema de DeMoivre e com correção de continuidade. 9
Densidade Qui-quadrado com k graus de liberdade Seja X uma variável aleatória contínua e positiva com densidade dada por: f ( x) = k /. x k. Γ k. e x / onde x > A densidade Qui-quadrado com k graus de liberdade é apenas um caso particular da densidade Gama. χ k = Gama(α = k/, β = /) Então X tem densidade Qui-quadrado com k graus de liberdade, e escrevemos: X ~ χ k Gráficos densidades Qui-Quadrado Densidades Qui-Quadrado.476.5 Gráficos densidades Qui-Quadrado Densidades Qui-Quadrado...4. quiquad( x, ) quiquad( x, 5) quiquad( x, 7).3. quiquad( x, 8).8 quiquad( x, ).6 quiquad( x, ).4.. 5 5 5. x 5 3 5 5 5 3 35 4. x 4 39.7
Teorema Se X tem densidade Qui-quadrado com k graus de liberdade então sua média e variância são: E(X) = k VAR(X) =.k Demonstração Segue direto dos resultados correspondentes para a densidade Gama. A densidade Qui-quadrado é tabelada. As tabelas desta densidade fornecem os pontos tais que a probabilidade da variável estar ACIMA deles é especificada. Uma pequena porção de uma tabela da densidade Qui-quadrado é mostrada a seguir. graus de.99.95.5. liberdade.. 5.99 9. 6.87.64.59 6.8 3.57 5.3.3 6. O EXCEL também fornece uma tabela da distribuição Quiquadrado contendo Pr(X > x). 5 6 Valor de x para o qual desejamos Pr(X > x) Da figura segue que, a Pr(X > 5) quando X é uma Qui-quadrado com graus de liberdade é.44 Graus de liberdade da Quiquadrado 7 8
Por exemplo: Supondo que X seja uma variável aleatória com densidade qui-quadrado com 6 graus de liberdade, a probabilidade de X exceder.87 é 99%. Analogamente, a probabilidade de X exceder.59 é 5% e a probabilidade de X estar acima de 6.8 é apenas %. Podemos estar interessados na pergunta ao contrário. Dada uma Qui-Quadrado com k graus de liberdade e uma probabilidade α, qual é o ponto tal que a probabilidade de estar ACIMA dele é α? O Excel também nos dá esta resposta, através da função CHIINV. 9 3 Da figura segue que, a Pr(X > 3.44) quando X é uma Qui-quadrado com graus de liberdade é.5 Uma propriedade muito importante da densidade Qui-quadrado é a preservação da mesma família de densidades quando somamos variáveis independentes. Ou seja, se X, X,..., X n são variáveis independentes, cada uma com distribuição Quiquadrado, a soma de X, X,..., X n também é uma variável aleatória qui-quadrado. 3 3
Teorema (aditividade da densidade Qui-quadrado) Sejam X, X,..., X n v.a. aleatórias independentes, e suponha que X i tem densidade qui-quadrado com k i graus de liberdade. Seja Y = X + X +... + X n. Então Y tem também uma densidade Qui-quadrado, mas com k = k + k +... + k n graus de liberdade. O próximo teorema exibe a relação existente entre as densidades N(,) e Qui-quadrado. 33 Teorema Seja Z ~ N(,). Então V = Z tem densidade Quiquadrado com grau de liberdade. A combinação dos dois últimos teoremas leva a um resultado importante. Sejam Z, Z,..., Z n v.a. independentes e identicamente distribuídas com densidade N(,). Então: 34 V = n i= Z = Z + Z +... + i Z n tem densidade Qui-quadrado com n graus de liberdade. Este resultado segue trivialmente dos dois últimos, se lembrarmos que cada Z i tem densidade qui-quadrado com grau de liberdade (e são todos independentes). Por que a densidade Qui-quadrado é importante? Porque está relacionada com a distribuição da variância amostral de uma amostra aleatória, como indicado no próximo teorema. Por exemplo, se desejarmos encontrar um intervalo baseado na variância amostral que contenha, com alta probabilidade, a variância (desconhecida) da distribuição, este intervalo será construído a partir da distribuição Qui-quadrado. 35 36
Teorema Sejam X, X,..., X n uma amostra aleatória da distribuição N(µ, σ ). Seja S a variância amostral: Então: S = n ( n ) S σ n ( X i X ) i= = n ( X i X ) i= tem distribuição Qui-quadrado com (n-) graus de liberdade. σ 37 A partir deste teorema podemos deduzir facilmente a média e variância de S. Teorema (prove-o!) Sejam X, X,..., X n uma amostra aleatória da distribuição N(µ, σ ). Seja S a variância amostral. Então: E( S ) = σ 4 σ VAR( S ) = n 38 A distribuição t de Student Tem apenas um parâmetro k, o número de graus de liberdade, e é definida como: Z T = V / k Onde Z é N(,) e V é Qui-Quadrado com k graus de liberdade, e ambos são independentes. Esta distribuição é simétrica em torno de zero, também tem forma de sino e, à medida que o número de graus de liberdade cresce, se aproxima da N(,). 39 Quando n (número de graus de liberdade) cresce, a densidade t de Student se torna cada vez mais parecida com uma N(,).5.4.4.3.3.... - -.5 -. -.9 -.6 -.3 - -.7 Densidades t de Student e N(,) -.4 -...5.8..4.7 4.3 N(,) t() t(5) t()
Exemplo (uso de uma tabela t) graus de.9.95.975.99.995 liberdade 3.78 6.34.76 3.8 63.657 5.476.5.57 3.365 4.3.37.8.8.764 3.69 5.34.753.3.6.947.35.75.86.58.845 Por exemplo, se T tem graus de liberdade, a probabilidade de T ser menor que.37 é 9%. Se o número de graus de liberdade passa a 5, o valor tal que a probabilidade de T ser menor que ele é 9% passa a ser.34. 4 Função do Excel para a distribuição t Função invt(p; gl) Descrição Para a distribuição t de Student, calcula o valor t para p =.α, com gl graus de liberdade Por exemplo, INVT(.5, ) =.86 é o valor da distribuição t com graus de liberdade tal que Pr(T >.86) =.5/ =.5. CUIDADO com a especificação da probabilidade para esta função, a função INVT fornece as probabilidades bi-laterais. 4 Refazemos a seguir o exemplo anterior com a função INVT do Excel. Note a especificação da probabilidade como. =.α, enquanto na nossa tabela as colunas referem-se a - α. Resultado da função = valor tabelado 43 Por que a densidade t é importante? Ela é essencial no contexto de intervalos de confiança e testes de hipóteses, como veremos posteriormente. A justificativa vem, em parte, do próximo resultado. Teorema Sejam X, X,..., X n uma amostra aleatória da distribuição N(µ, σ ). Sejam X e S a média e variância amostrais. Então: T X µ S / n n ( X µ ) = = ~ tn S 44
A distribuição F Sejam V e W variáveis aleatórias independentes com densidades Qui-quadrado com p e q graus de liberdade respectivamente. Construa uma nova variável aleatória X como: V / p qv X = = W / q pw Então X tem densidade F com p graus de liberdade no numerador e q graus de liberdade no denominador, e escrevemos: X ~ F(p, q)...9.8.7.6.5.4.3....4.8. De nsidade s F(,), F(,4) e F(,8).6.4.8 3. 3.6 4 4.4 4.8 F(,) F(,4) F(,8) 45 46.7.6 De nsidade s F(4,), F(4,4) e F(4,8) O primeiro parâmetro da densidade F indica o número de graus de liberdade do numerador, enquanto o segundo parâmetro refere-se aos graus de liberdade do denominador..5.4.3... F(4,) F(4,4) F(4,8) A densidade F não é simétrica em torno de qualquer ponto, e dependendo do número de graus de liberdade no numerador, ela pode ter um comportamento "exponencial" ou então pode ter um máximo global..4.8..6.4.8 3. 3.6 4 4.4 4.8 47 48
Resultado importante Se X ~ F(p,q) então /X ~ F(q, p). A demonstração disso é trivial se você sabe como uma distribuição F é criada. A importância da distribuição F ficará evidente quando estudarmos intervalos de confiança para a variância da. Por enquanto, iremos apenas enunciar o próximo resultado, que é importante para demonstrações futuras. Teorema Considere duas amostras independentes de tamanhos n e n obtidas a partir de duas populações Normais com variâncias σ e σ. Sejam S e S as variâncias amostrais. Então: S F = S / σ / σ tem densidade F com n - graus no numerador e n - graus no denominador. 49 5 Funções do Excel para a distribuição F Funções do Excel para a distribuição F Valor cuja prob. de estar ABAIXO dele queremos encontrar Graus no numerador Graus no denominador Da figura segue que Pr(X > 9.) =.5 quando X é uma variável F(5,3) 5 5