Estatística II Antonio Roque Aula Distribuições Amostrais O problema central da inferência estatística é como fazer afirmações sobre os parâmetros de uma população a partir de estatísticas obtidas de amostras da população. Digamos, por eemplo, que queremos tem uma idéia sobre o valor médio µ do preço de terrenos de 500 a 1000 m em Ribeirão Preto. A população formada por esses terrenos é bastante grande. Como não temos condições de medir todos os elementos da população, decidimos tomar amostras aleatórias da população. Vamos supor que cada amostra é formada por n elementos (terrenos). Cada amostra i terá uma média i. Os valores da média e do desvio padrão dos preços de uma amostra de n terrenos, i e s i, dificilmente serão iguais aos valores da média µ e do desvio padrão dos preços de todos os terrenos (a população). Entretanto, se selecionarmos aleatoriamente várias amostras de tamanho n da população de terrenos, os valores da média e do desvio padrão calculados para elas estarão distribuídos em torno dos valores verdadeiros para a população. Pode-se, portanto, construir distribuições de freqüências para elas. 1
Estatística II Antonio Roque Aula Quando tomamos todas as amostras possíveis de mesmo tamanho de uma população e calculamos uma estatística qualquer ( ou s) para as amostras, podemos construir a distribuição de probabilidades dessa estatística. Essa distribuição é chamada de Distribuição Amostral da Estatística. Procedimento para construção de uma distribuição amostral: 1. A partir de uma população finita de tamanho N, obtenha todas as amostras possíveis de tamanho n;. Calcule a estatística de interesse para cada amostra (p. e,, a média ou o desvio padrão); 3. Liste numa coluna os diferentes valores obtidos para a estatística, e numa outra coluna as freqüências de ocorrência correspondentes a cada valor da estatística obtida; 4. A partir dessa listagem, construa um histograma, que dará a distribuição amostral da estatística. Para uma população muito grande, é impraticável eecutar a tarefa acima na íntegra. O que se faz então é aproimar a distribuição amostral por uma construída a partir de um grande número de amostras de tamanho n. No caso de uma distribuição amostral de médias, o procedimento para montá-la é o seguinte:
Estatística II Antonio Roque Aula 1. Obtenha uma amostra de n elementos selecionados ao acaso da população. Determine a sua média e reponha os elementos na população.. Obtenha outra amostra aleatória de n elementos da população, determine a sua média e, novamente, reponha os elementos na população. 3. Repita os processos 1 e até que um grande número de amostras tenha sido escolhido. 4. O resultado será uma série de valores de médias para amostras de tamanho n. Tratando cada média como uma observação individual, pode-se construir uma distribuição de freqüências, chamada de distribuição amostral de médias de tamanho n. A figura a seguir ilustra este procedimento: 3
Estatística II Antonio Roque Aula Em geral, há três coisas que se quer saber sobre uma distribuição amostral: Sua média; Sua variância; Sua forma funcional (como ela se parece num gráfico). Na prática, não é necessário repetir os procedimentos de 1 a 4 para obter estas informações. Isso seria muito custoso e trabalhoso. Felizmente, elas podem ser obtidas com o auílio da matemática. 4
Estatística II Antonio Roque Aula Distribuição Amostral da Média Eemplo: Suponhamos que temos uma população de tamanho N 5, consistindo de idades de 5 crianças que saíram de um hospital: 6; 1 8 ; 10 3 ; 1 4 ; 5 14. i 1 50 Média µ da População µ 10 5 5 5 i Variância da população N ( i µ ) 40 5 8 Vejamos agora todas as possíveis amostras de tamanho n dessa população. Todas as possíveis amostras de tamanho n da população de N 5 idades estão mostradas na tabela abaio. As amostras acima e abaio da diagonal principal ocorrem para a amostragem sem reposição. As médias das amostras estão entre parênteses. Segunda Retirada (º sorteio) 6 8 10 1 14 Primeira Retirada (1º sorteio) 6 8 10 1 14 6,6 8,6 10,6 1,6 14,6 (6) (7) (8) (9) (10) 6,8 8,8 10,8 1,8 14,8 (7) (8) (9) (10) (11) 6,10 8,10 10,10 1,10 14,10 (8) (9) (10) (11) (1) 6,1 8,1 10,1 1,1 14,1 (9) (10) (11) (1) (13) 6,14 8,14 10,14 1,14 14,14 (10) (11) (1) (13) (14) 5
Estatística II Antonio Roque Aula Vemos da tabela acima que quando a amostragem é com reposição eistem n N 5 5 possíveis amostras. A distribuição amostral de para os dados da tabela é dada a seguir: Freqüência Freqüência Relativa 6 1 1/5 7 /5 8 3 3/5 9 4 4/5 10 5 5/5 11 4 4/5 1 3 3/5 13 /5 14 1 1/5 Total 5 5/51 Note que essa distribuição satisfaz os requisitos para ser uma distribuição de probabilidades: as probabilidades individuais estão entre 0 e 1 e sua soma vale 1. O histograma para a distribuição amostral de ( f ( ) ) é mostrado abaio: 6
Estatística II Antonio Roque Aula 6 5 4 3 1 0 6 7 8 9 10 11 1 13 14 Considerando os 5 valores médios como uma população, podemos calcular sua média e variância: µ 5 5 6+ 7+ 7+ 8+... + 14 50 5 5 i i 1 10 5 100 4 5 ( µ ) ( 6 10) + ( 7 10) + ( 7 10) + ( 8 10) +... + ( 14 10) i 5 Note que a média da distribuição amostral de tem o mesmo valor que a média da população original: µ µ Note que a variância da distribuição amostral de é igual à variância da população original dividida pelo tamanho da amostra utilizada para se obter a distribuição amostral: 8 4. n 7
Estatística II Antonio Roque Aula O desvio padrão da distribuição amostral (a raiz quadrada da variância da distribuição amostral) é chamado de erro padrão: ERRO PADRÃO. n Os resultados obtidos para este eemplo não são uma coincidência, mas uma propriedade geral das distribuições amostrais de médias, quando a amostragem é feita com reposição. As propriedades matemáticas de uma distribuição amostral de médias são dadas a seguir (essas 3 propriedades podem ser provadas matematicamente, mas isto está além dos objetivos deste curso): 1. A média µ da distribuição amostral de é igual a µ, a média da população de onde as amostras foram retiradas.. O desvio padrão da distribuição amostral de é igual a, o n desvio padrão da população de onde se retiraram as amostras dividido pela raiz quadrada do número de elementos em cada amostra. 3. A forma da distribuição amostral de médias é aproimadamente a de uma curva normal, qualquer que seja a forma da distribuição populacional, desde que n seja suficientemente grande. Quando a população original for normalmente distribuída, a distribuição amostral de será eatamente normal. 8
Estatística II Antonio Roque Aula Esta terceira propriedade da distribuição de amostras Y é chamada de Teorema Central do Limite e é de grande importância em estatística. É em cima desta propriedade de normalidade da distribuição amostral de para n grande que se constrói muito da teoria da inferência estatística. Para relembrar: Desvio padrão de uma amostra: s N i 1 ( ) i N 1 Desvio padrão de uma população: N i 1 ( ) i N Primeira Pergunta: Quão grande tem que ser a amostra n para que o teorema central do limite seja válido? Não há resposta. Quanto menos a distribuição original for parecida com a normal, maior terá que ser o tamanho de n. Na maioria das situações práticas, n 30. Segunda Pergunta: E quando a amostragem for feita sem reposição, como na prática se faz? Para responder a esta pergunta, voltemos ao eemplo anterior. Para uma amostragem sem reposição, ignorando a ordem de sorteio dos dados, temos apenas 10 possíveis amostras de tamanho. As 10 acima ou abaio da diagonal principal. 9
Estatística II Antonio Roque Aula Quando se tiram amostras de tamanho n de uma população de tamanho N sem reposição e ignorando-se a ordem retirada, o número possível de amostras é dado por C N n N! n!( N n)!. No caso em que N 5 e n este 5! número vale: 10, como esperado.! 3! A média das 10 amostras sem reposição é: 7+ 8+ 9+... + 13 100 µ i 10. 10 10 10 Note que a média da distribuição amostral continua igual à média da população. A variância da distribuição amostral sem reposição é: ( µ ) 30 i 3. 10 10 Note que a variância da distribuição amostral obtida sem reposição é diferente de n 8 4. Porém, se multiplicarmos n por ( N n) ( N 1) teremos: n N N n 1 8 5 4 3. 10
Estatística II Antonio Roque Aula Portanto, quando a amostragem é feita sem reposição, a distribuição amostral de terá média e variância µ µ N n. n N 1 Além disso, também para uma amostragem sem reposição quando o tamanho das amostras for grande o Teorema Central do Limite vale e a distribuição amostral de será aproimadamente normalmente distribuída. O fator ( N n) ( N 1) é chamado de correção para população de tamanho finito. Ele pode ser ignorado mesmo em amostragens sem reposição quando o tamanho n da amostra for pequeno em comparação a N, o que ocorre na maioria dos casos de interesse prático. Quando N >> n, a diferença entre [ ] é desprezível. n e ( n) ( N n) ( N 1) Na prática, desconsidera-se o fator de correção para população finita a menos que o tamanho da amostra seja maior que 5% do tamanho da população ( n N >0,05). 11
Estatística II Antonio Roque Aula RESUMO: População de variáveis com média µ e desvio padrão. A distribuição amostral de médias de amostras de tamanho n dessa população é montada. A média da distribuição amostral de médias é µ e o desvio padrão (ou erro padrão) é 1. µ µ ;. n ;. 3. Para n 30, a distribuição amostral de pode ser aproimada por uma distribuição normal (quanto maior n, mais próima ela fica de uma normal). Se a distribuição de for normal, a distribuição amostral de será normal para qualquer tamanho de amostra n. Se a amostragem for feita sem reposição os resultados acima são válidos, apenas com uma eceção para o caso em que n/n > 0,05. Portanto: n quando n N 0, 05 ; ( n ) N n quando n N >0, 05. N 1 1