Teorema do Limite Central, distribuição amostral, estimação por ponto e intervalo de confiança Prof. Marcos Pó Métodos Quantitativos para Ciências Sociais
Distribuição amostral Duas amostragens iguais oriundas da mesma população quase certamente terão estatísticas diferentes. Diferentes amostragens produzirão amostras com estatísticas distintas. Amostragens são probabilísticas, portanto, estatísticas baseadas nas amostragens também o são. Se as características da amostragem da população são conhecidas, a probabilidade de cada resultado pode ser determinada, ou seja, podemos determinar a probabilidade de que uma estatística amostral esteja dentro de determinado intervalo em relação ao parâmetro populacional. 2
POPULAÇÃO Amostras variadas, ainda que da mesma população, geram estatísticas diferentes. 3
Pressupostos As amostras são aleatórias, ou seja, todos os elementos da população possuem a mesma probabilidade de serem sorteados. Isso se chama seleção randômica. Amostras diferentes, ainda que do mesmo tamanho e da mesma população, geram estatísticas diferentes. 4
Simulação Utilizando a planilha Simulação alturas, determinar a média e o desvio-padrão de cada uma das 30 amostras para as os seguintes tamanhos amostrais: n = 15; n = 60 e n = 150. Depois, utilizando as médias obtidas em cada uma das observações amostrais, determinar média, desvio-padrão e amplitude (mínimo e máimo) e compará-los em um quadro. n médias Amplitude das amostras desvios-padrão Das médias mín má mín má média dpad 15 60 150 5
Simulação Parece haver alguma relação entre o desvio-padrão das médias e o tamanho da amostra (n)? População = X~N(1,67; 0,15 2 ) n Amplitude das amostras Das médias médias desvios-padrão mín má mín má média dpad 15 1,550 1,751 0,085 0,208 1,668 0,041 60 1,638 1,720 0,114 0,181 1,669 0,020 150 1,643 1,703 0,132 0,161 1,668 0,013 6
Teorema do Limite Central (TLC) Quando o tamanho da amostra (n) aumenta, independente da f.d.p. da população, a distribuição amostral da média da amostra () converge para uma distribuição normal. Histogramas de distribuição da média para amostras de algumas populações 7
Por que o TLC é importante para nós? Se a média de uma amostra for um estimador razoável não será necessário conhecer a f.d.p. da população, pois a distribuição de probabilidades da média das amostras será aproimadamente uma normal. Dessa forma conseguimos fazer inferências a respeito da amostra, tais como estimar se está dentro dos nossos critérios de aceitação. A média das distribuições amostrais será igual à da população (μ) e a sua variância será dada por σ 2 /n: E = μ Var = 2 n = n 8
Distribuição amostral da média Seja X uma variável aleatória (v.a.) com média μ e variância σ 2, e seja (X 1, X 2,..., X n ) uma Amostra Aleatória Simples (AAS) de X, de tamanho n, então: E( X) = 2 = 2 X X n = n Ou seja, quanto maior a amostra, menor o desvio padrão da distribuição amostral. 9
Eemplo: uso da curva normal e do TLC Uma v.a. tem distribuição normal, com média 100 e desvio-padrão 10 X~N(100; 10 2 ). a. Qual a P(90<X<110)? b. Se X for a média de uma amostra de 16 elementos tirados dessa população, calcule P(90<X<110)? c. Que tamanho deveria ter a amostra para que P(90<X<110) = 0,95? 10
Estimação de parâmetros Problemas: Estimar parâmetros de uma população a partir de amostras Testar hipótese sobre os parâmetros Estimador: estatística usada para aferir parâmetro da população. Genericamente: T estimador de Há vários estimadores possíveis. E. para média populacional : Erro entre a estimativa e o alvo: erro absoluto: T- erro quadrático: (T-)² erro 11
Características de um bom estimador Precisão: proimidade da média de todas as observações. Acurácia: proimidade do valor alvo. Ausência de viés: distância das observações em relação ao alvo. (a) (b) (c) 12
Estimador de ponto Fornece um número único como estimativa de um parâmetro da população. Nossa preocupação é em minimizar o erro: ˆ ˆ 2 2 2 E ˆ Ou seja, que nossa estimativa amostral seja o mais próima possível do parâmetro da população. Pequena questão crucial: como saber se estamos perto se não temos noção dos parâmetros da população? 13
Estimação de intervalos Quando determinamos uma estimativa T de uma amostra, não temos nenhuma indicação de sua proimidade em relação ao parâmetro θ da população. Diferente da estimação pontual, a estimação por intervalo nos permite julgar a magnitude do erro que estamos cometendo. A sua determinação é baseada na distribuição amostral do estimador pontual. 14
Ilustrativamente Fonte: Bussab; Morettin, 2002: 304 P X 1,96 X 1,96 = 0, 95 15
Intervalo de confiança (IC) IC = Probabilidade de que um intervalo estimado de valores contenha o parâmetro populacional que queremos determinar. Também definido como coeficiente (ou nível) de confiança (γ), cujos valores mais comuns são 95% e 99%. Fonte: Bussab; Morettin, 2002: 305 16
Metaforicamente 1,96 1,96 1,96 1,96 1,96 1,96 Estimador pontual Estimador intervalar 17
É o intervalo que contém o parâmetro da população que queremos estimar com um determinado grau de certeza, indicado pelo coeficiente de confiança γ. O uso de intervalo permite estabelecer um julgamento do erro que estamos cometendo, que é determinado com base na distribuição amostral do estimador pontual. 18 Intervalo de confiança: resumo γ α/2 α/2 = X X n z n z P IC ; n p p z p p n p p z p P IC p ) (1 ˆ ˆ ) (1 ˆ ; ˆ
Intervalo de confiança: outra interpretação É um intervalo que contém o parâmetro populacional que queremos estimar, com um grau de confiança indicado pelo coeficiente γ (gama). γ Ele permite estabelecer um julgamento do erro que podemos estar cometendo e a probabilidade de que nossa amostra tenha gerado resultados além desse erro. α/2 α/2 IC ; Z n p(1 p) IC p pˆ ˆ; Z n Erro que podemos estar cometendo γ (gama) é a confiança que temos de estar, no máimo, cometendo esse erro com nossa amostra. 19
Eemplos 1. Do público que frequenta um posto de saúde é retirada uma amostra de 100 pessoas, obtendo-se uma renda média de R$2.500 e desviopadrão de R$1.000. a. Qual o intervalo de confiança de 95% para a renda média dos usuários do posto? b. Com que grau de confiança pode-se dizer que a renda média dos usuários é R$2.500±R$100? 2. Calcule o intervalo de confiança para a média de altura de uma população normal em cada uma das amostras abaio: n σ γ 170 cm 25 15 cm 95% 170 cm 225 15 cm 95% 170 cm 225 15 cm 99% 3. Uma amostra aleatória de 484 donas de casa revela que 60% viram os comunicados de vacinação veiculados no intervalo da programação matinal de televisão. Construa um intervalo de confiança de 90% para a proporção das donas de casa que viram os comunicados. 20
E se a variância da população não for conhecida? Nesse caso temos que usar o s da amostra para determinar o intervalo de confiança. Podemos ter duas situações: Amostras grandes: nesse caso pode-se considerar que a amostra aproima-se da normal. Amostras pequenas: usar a distribuição t de Student. Costuma-se tomar arbitrariamente 30 (ou 60) como referência para definir se uma amostra é grande ou pequena, mas deve-se analisar o problema e a variância antes de decidir. 21
Distribuição t de Student Desenvolvida por Willian S. Gosset em 1908, que publicou suas descobertas sob o pseudônimo Student. Ele desenvolveu essa distribuição enquanto trabalhava nas cervejarias Guinness, na Irlanda, visando resolver problemas relacionados às pequenas amostragens que não se comportavam como predito pela distribuição normal. 22
Distribuição t de Student A distribuição t é semelhante à normal, porém com caudas mais largas. O parâmetro que a define é o número de graus de liberdade (ν). Quanto mais graus de liberdade, mais próima da normal será sua curva. Graus de liberdade são o número de escolhas livres depois que uma estatística como a média é calculada. No caso de intervalos de confiança e teste de hipótese sobre médias: gl = ν = n-1. Fonte: http://en.wikipedia.org/wiki/file:student_t_pdf.svg 23
24
Distribuição amostral de uma proporção Consideramos X uma v.a. onde: X 1, se portador da característica 0, se não for portador da característica E.: doador de órgãos, profissão, preferência futebolística, eleitor do candidato tal... Uma proporção é a freqüência de ocorrência da característica, podendo ser descrita como uma porcentagem. 25
Proporção Proporção populacional de uma categoria é a frequência relativa com que el se observa na população. p X N X = total de vezes que a categoria ocorre na população N = tamanho da população Proporção amostral é a frequência relativa com que a categoria se observa em uma amostra. pˆ = total de vezes que a categoria ocorre na amostra n n = tamanho da amostra 26
Distribuição amostral de uma proporção Podemos aproimar a distribuição binomial para uma normal, onde a média e a variância são definidos como: μ= E(X) = p σ 2 = Var(X) = p(1-p) Assim, distribuição amostral da proporção é: pˆ ~ p(1 p) N p; n 27
Intervalo de confiança para proporção O procedimento para o caso de proporção é o mesmo que para valores contínuos, com variância p(1-p). pˆ z p(1 n p) p pˆ p(1 n Se não tivermos ideia sobre o valor de p, há duas alternativas: Buscar uma estimativa de p por meio de uma pesquisa piloto Usar p(1-p) = 0,25 (valor máimo), de forma a obter uma estimativa conservadora do IC. z p) 28
Eemplo: binomial como normal 1. Uma pesquisa de boca-de-urna com 400 eleitores aleatoriamente selecionados mostra que um candidato tem 51% das preferências dos votos válidos. Com base nisso, calcule: a. A probabilidade de que o candidato não vença a eleição, ficando com menos de 50% dos votos. b. A probabilidade anterior se a amostra fosse de 1024 eleitores. 2. Aceita-se que no preenchimento de cadastros de um departamento haja 5% de erros. A cada semana sorteia-se uma amostra de 25 cadastros e, se houver mais de 8% de erros, o serviço é interrompido para conferência de todos os cadastros feitos no período. Calcule a probabilidade de uma interrupção desnecessária. 29
Eercício em grupo para entrega na próima aula 4. Alunos da UFXYZ, tentando salvar o que resta de humanidade nas redes sociais, tiveram a ideia de lançar uma campanha onde fariam demonstrações de afeto aos que fazem comentários retrógrados, desinformados ou preconceituosos. Para testar a adesão à campanha, fazem uma amostra aleatória de 80 estudantes, obtendo os seguintes resultados: Resposta n % Apoio com certeza: menos mimimi, mais amor! 42 52,5% Agora não dá, meu CR está perigando... 20 25% Tomou água da samabaia? Abraçar ancap/comuna? Nunquinha! 18 22,5% Determine: a. Um intervalo de confiança de 95% de alunos que apoiariam a campanha. b. O tamanho da amostra necessário para que os proponentes da campanha pudessem confiar, com 95% de certeza de que a maioria dos alunos a apoia. 30