Distribuições Amostrais Prof. Eduardo Bezerra Inferência Estatística 15 de setembro de 2017 Eduardo Bezerra (CEFET/RJ) Distribuições Amostrais 1 / 28
Roteiro Distribuições amostrais 1 Distribuições amostrais 2 3 4 Eduardo Bezerra (CEFET/RJ) Distribuições Amostrais 2 / 28
Roteiro Distribuições amostrais 1 Distribuições amostrais 2 3 4 Eduardo Bezerra (CEFET/RJ) Distribuições Amostrais 3 / 28
Distribuições amostrais Considere uma AAS de uma população para produzir uma amostra de n elementos. Uma afirmação eventualmente feita sobre essa população será baseada em alguma estatística T, que é uma função da amostra (X 1, X 2,..., X n ). Colhida essa amostra, teremos observado um valor particular de T. A validade dessa afirmação seria melhor compreendida se soubéssemos o que acontece quando produzimos todas as amostras da população. Isto é, qual é a distribuição de T quando (X 1, X 2,..., X n ) assume todos os valores possíveis. Eduardo Bezerra (CEFET/RJ) Distribuições Amostrais 4 / 28
Distribuições amostrais (cont.) A distribuição obtida considerando todas as possíveis amostras de uma população é denominada distribuição amostral (sampling distribution) da estatística T. O procedimento geral para obtenção dessa distribuição envolve os seguintes componentes: (a) uma população X, com determinado parâmetro de interesse θ; (b) todas as amostras retiradas da população, de acordo com certo plano amostral; Para cada amostra, calculamos o valor t da estatística T. Os valores t formam uma nova população, cuja distribuição recebe o nome de distribuição amostral de T. Eduardo Bezerra (CEFET/RJ) Distribuições Amostrais 5 / 28
Distribuições amostrais - exemplo 01 Para estudar a proporção de eleitores que votariam em um candidato, são recolhidas amostras, cada uma de 300 eleitores. Na primeira, 175 responderam sim, o que gera uma estimativa pontual de 0,58 para a proporção. Na segunda, suponha que o valor obtido tenha sido 181, o que corresponde ao valor 0,60 para a estimativa da estatística. A repetição desse processo n vezes resulta em n valores para a estatística em questão, a proporção amostral), cada um deles é uma estimativa do valor do parâmetro sob estudo (i.e., a proporção populacional). Esses n valores definem a distribuição amostral da proporção. Eduardo Bezerra (CEFET/RJ) Distribuições Amostrais 6 / 28
Distribuições amostrais - exemplo 01 Para estudar a proporção de eleitores que votariam em um candidato, são recolhidas amostras, cada uma de 300 eleitores. Na primeira, 175 responderam sim, o que gera uma estimativa pontual de 0,58 para a proporção. Na segunda, suponha que o valor obtido tenha sido 181, o que corresponde ao valor 0,60 para a estimativa da estatística. A repetição desse processo n vezes resulta em n valores para a estatística em questão, a proporção amostral), cada um deles é uma estimativa do valor do parâmetro sob estudo (i.e., a proporção populacional). Esses n valores definem a distribuição amostral da proporção. Eduardo Bezerra (CEFET/RJ) Distribuições Amostrais 6 / 28
Distribuições amostrais - exemplo 01 Para estudar a proporção de eleitores que votariam em um candidato, são recolhidas amostras, cada uma de 300 eleitores. Na primeira, 175 responderam sim, o que gera uma estimativa pontual de 0,58 para a proporção. Na segunda, suponha que o valor obtido tenha sido 181, o que corresponde ao valor 0,60 para a estimativa da estatística. A repetição desse processo n vezes resulta em n valores para a estatística em questão, a proporção amostral), cada um deles é uma estimativa do valor do parâmetro sob estudo (i.e., a proporção populacional). Esses n valores definem a distribuição amostral da proporção. Eduardo Bezerra (CEFET/RJ) Distribuições Amostrais 6 / 28
Roteiro Distribuições amostrais 1 Distribuições amostrais 2 3 4 Eduardo Bezerra (CEFET/RJ) Distribuições Amostrais 7 / 28
Teorema do limite central Para amostras aleatórias simples (X 1, X 2,..., X n ), retiradas de uma população com média µ e variância σ 2 finita, a distribuição amostral da média, X, aproxima-se, conforme n cresce, de uma distribuição normal, com média µ e variância σ 2 /n. Eduardo Bezerra (CEFET/RJ) Distribuições Amostrais 8 / 28
Teorema do limite central (TLC) Se a amostra for extraída de uma população cuja distribuição é bastante assimétrica, será necessário um n relativamente grande. aproximadamente simétrica, a aproximação do TLC pode ser boa até para valores pequenos de n. Evidências empíricas mostram que, para a maioria das populações, se o tamanho da amostra for maior do que 30, a aproximação do TLC é boa. Eduardo Bezerra (CEFET/RJ) Distribuições Amostrais 9 / 28
Teorema do limite central (TLC) O TLC afirma que a distribuição de X aproxima-se de uma normal quando n tende a infinito, e a rapidez dessa convergência depende da distribuição da qual a amostra é retirada. Nas ilustrações a seguir, mais à esquerda, temos uma função de distribuição de uma v.a. que representa alguma população; as duas figuras à direita de cada ilustração são as distribuições amostrais (linha sólida) para amostras de tamanhos 5 e 30, respectivamente, com a curva normal (linha tracejada) sobreposta; note-se que duas das distribuições originais são contínuas, e uma é discreta. O TLC vale para distribuições contínuas e discretas. Eduardo Bezerra (CEFET/RJ) Distribuições Amostrais 10 / 28
Teorema do limite central (TLC) - ilustração (a) Uma vez que a distribuição da população é quase simétrica, a aproximação normal é boa, mesmo para um tamanho de amostra tão pequeno como 5. Fonte da figura: Navidi, página 292 Eduardo Bezerra (CEFET/RJ) Distribuições Amostrais 11 / 28
Teorema do limite central (TLC) - ilustração (b) Aqui, a distribuição da população é um pouco distorcida. Mesmo assim, a aproximação normal está razoavelmente aproximada, mesmo para n = 5; a aproximação é muito boa para n = 30. Fonte da figura: Navidi, página 292 Eduardo Bezerra (CEFET/RJ) Distribuições Amostrais 12 / 28
Teorema do limite central (TLC) - ilustração (c) Aqui, a distribuição da população é altamente assimétrica. A aproximação normal não é boa para n = 5, e razoavelmente boa para n = 30. Fonte da figura: Navidi, página 292 Eduardo Bezerra (CEFET/RJ) Distribuições Amostrais 13 / 28
Teorema do limite central (TLC) - corolários Há dois corolários importantes do TCL, enunciados a seguir. Corolário 1 Se (X 1, X 2,..., X n ) for uma AAS de uma população com média µ e variância finita σ 2, e X =(X 1 + X 2 +... + X n )/n, então Z = X µ σ/ n N(0,1). Nesse corolário, note que se fez a transformação de X para a normal padrão. Observe também que a expressão acima pode ser escrita como n(x µ) Z = N(0,1). σ Eduardo Bezerra (CEFET/RJ) Distribuições Amostrais 14 / 28
Teorema do limite central (TLC) - corolários (cont.) Chamemos de e a v.a. que mede a diferença entre a estatística X e o parâmetro µ, i.e., e = X µ; e é o chamado erro amostral da média. O segundo corolário faz menção a essa variável. Corolário 2 A distribuição de e aproxima-se de uma distribuição normal com média 0 e variância σ 2 /n, isto é, e n σ N(0,1). Eduardo Bezerra (CEFET/RJ) Distribuições Amostrais 15 / 28
Roteiro Distribuições amostrais 1 Distribuições amostrais 2 3 4 Eduardo Bezerra (CEFET/RJ) Distribuições Amostrais 16 / 28
Suponha que uma amostra aleatória de tamanho n seja retirada de uma população normal com média µ e variância σ 2. Cada observação X i da amostra aleatória terá, portanto, a mesma distribuição normal sendo amostrada. Pela propriedade reprodutiva da distribuição normal, a média amostral X = 1 n (X 1 + X 2 +... + X n ) tem uma distribuição normal com média e variância µ X = 1 (µ + µ +... + µ) = µ n σ 2 X = 1 n 2 (σ2 + σ 2 +... + σ 2 ) = σ2 n. Eduardo Bezerra (CEFET/RJ) Distribuições Amostrais 17 / 28
Surpreendentemente, o que foi declarado na página anterior é verdadeira não somente para população de distribuição normal: Se a amostragem for feita de uma população de distribuição desconhecida qualquer, finita ou infinita, a distribuição amostral de X ainda será aproximadamente normal, com média µ e variância σ 2 /n, se o tamanho da amostra for grande. Eduardo Bezerra (CEFET/RJ) Distribuições Amostrais 18 / 28
Roteiro Distribuições amostrais 1 Distribuições amostrais 2 3 4 Eduardo Bezerra (CEFET/RJ) Distribuições Amostrais 19 / 28
Exemplo 01 Distribuições amostrais Uma indústria elétrica fabrica lâmpadas que têm vida útil que segue N(800, 40 2 ). Determine a probabilidade de que uma amostra aleatória de 16 lâmpadas terá vida útil média menor que 775. Eduardo Bezerra (CEFET/RJ) Distribuições Amostrais 20 / 28
Exemplo 01 (cont.) Solução. De acordo com o TLC, a distribuição amostral de X, a v.a. que representa a vida útil média, será aproximadamente normal, com µ X = 800 e σ X = 40/ 16 = 10. Para x = 775, descobrimos que e, portanto, z = 775 800 10 = 2,5 Pr(X < 775) = Pr(Z < 2,5) = 0,0062. Possível interpretação: se a máquina produziu as lâmpadas dessa amostra, é provável que esteja desregulada. Eduardo Bezerra (CEFET/RJ) Distribuições Amostrais 21 / 28
Exemplo 02 Distribuições amostrais Considere uma máquina de preencher pacotes cujos pesos em gramas seguem a distribuição N(500,100). Colhe-se uma amostra de tamanho n = 100 pacotes. Qual a probabilidade de que a média desses pacotes da amostra difira mais de 2 gramas da média populacional? Eduardo Bezerra (CEFET/RJ) Distribuições Amostrais 22 / 28
Exemplo 02 (cont.) Solução. De acordo com o TLC, X terá uma distribuição normal com µ X = 500 e σ X 2 = 100/100 = 1. Logo, a probabilidade de a média dos 100 pacotes da amostra diferir de menos de 2g será Pr( X 500 < 2) = Pr(498 < X < 502) = Pr( 2 < Z < 2) 95% Possível interpretação: dificilmente 100 pacotes terão média fora do intervalo [498, 502]. Caso isso ocorra, seria razoável supor que a máquina está desregulada. Eduardo Bezerra (CEFET/RJ) Distribuições Amostrais 23 / 28
Exemplo 03 Distribuições amostrais Seja X a v.a. que representa o número de falhas no comprimento de 1 pol. de um condutor de cobre, e cuja fmp de X é apresentada a seguir. Foi colhida uma amostra de 100 condutores dessa população. Qual a probabilidade de o número médio de falhas por condutor ser menor do que 0,5? Eduardo Bezerra (CEFET/RJ) Distribuições Amostrais 24 / 28
Exemplo 03 (cont.) Solução. O número médio de falhas na população é µ = 0,66 e a variância populacional é σ 2 = 0,5244. Sejam X 1, X 2,... X 100 as quantidades de falhas em cada uma das 100 observações da amostra. O que precisamos determinar é Pr(X < 0,5). Segue do TLC que X N(0,66; 0,005244). Portanto, Pr(X < 0,5) = Pr(Z < (0,5 0,66)/ 0,005244) = Pr(Z < 2,21) = 0,0136 Interpretação do resultado: apenas 1,36% das amostras de tamanho 100 tem menos do que 0,5 falhas por condutor. Eduardo Bezerra (CEFET/RJ) Distribuições Amostrais 25 / 28
Exemplo 04 Distribuições amostrais Em uma universidade, a média da idade dos estudantes é 22,3 anos, e o desvio padrão é 4 anos. Uma amostra aleatória de 64 estudantes é extraída. Qual a probabilidade de a média da idade desses estudantes ser maior do que 23 anos? Eduardo Bezerra (CEFET/RJ) Distribuições Amostrais 26 / 28
Exemplo 04 (cont.) Solução. Sejam X 1, X 2,... X 64 as idades dos 64 estudantes da amostra. Queremos determinar Pr(X > 23). A população tem média µ = 22,3 e variância σ 2 = 16. O tamanho da amostra é n = 64. Segue do TLC que X N(22,3; 0,25). Logo, Pr(X > 23) = Pr(Z > (23 22,3)/ 0,25) = Pr(Z > 1,40) = 0,0808. Portanto Pr(X > 23) = 0,0808. Eduardo Bezerra (CEFET/RJ) Distribuições Amostrais 27 / 28
Exercício Distribuições amostrais Suponha que se saiba que para uma grande população de pessoas o comprimento craniano seja distribuído de uma forma aproximadamente normal com média igual a 185,6 mm e desvio padrão igual a 12,7 mm. Qual a probabilidade de que uma amostra aleatória de 10 pessoas da população tenha comprimento craniano médio acima de 190 mm? Eduardo Bezerra (CEFET/RJ) Distribuições Amostrais 28 / 28