Fundamentos de Estatística Aplicada. Módulo IV: Introdução à Inferência Estatística

Documentos relacionados
Fundamentos de Estatística Aplicada. Módulo IV: Introdução à Inferência Estatística

INFERÊNCIA ESTATÍSTICA

Cap. 4 - Estimação por Intervalo

Distribuições Amostrais

Obtemos, então, uma amostra aleatória de tamanho n de X, que representamos por X 1, X 2,..., X n.

6.1 Estimativa de uma média populacional: grandes amostras. Definição: Um estimador é uma característica amostral (como a média amostral

Estimação da média populacional

Teorema do limite central e es/mação da proporção populacional p

Intervalos de Confiança

Estimação da média populacional

Capítulo 5- Introdução à Inferência estatística. (Versão: para o manual a partir de 2016/17)

n ) uma amostra aleatória da variável aleatória X.

Capítulo 5- Introdução à Inferência estatística.

Sumário. 2 Índice Remissivo 17

Distribuições de Estatísticas Amostrais e Teorema Central do Limite

DISTRIBUIÇÃO AMOSTRAL E ESTIMAÇÃO PONTUAL INTRODUÇÃO ROTEIRO POPULAÇÃO E AMOSTRA. Estatística Aplicada à Engenharia

Estimadores de Momentos

Stela Adami Vayego DEST/UFPR

Lista de Exercícios #6 Assunto: Propriedade dos Estimadores e Métodos de Estimação

Distribuições Amostrais

Objetivo. Estimar a média µ de uma variável aleatória X, que representa uma característica de interesse de uma população, a partir de uma amostra.

CAPÍTULO 6 - ESTIMAÇÃO E TESTES DE HIPÓTESES

Amostras Aleatórias e Distribuições Amostrais. Probabilidade e Estatística: afinal, qual é a diferença?

Distribuições Amostrais

ESTIMAÇÃO DA PROPORÇÃO POPULACIONAL p

Estatística. Estatística II - Administração. Prof. Dr. Marcelo Tavares. Distribuições de amostragem. Estatística Descritiva X Estatística Inferencial

Estimar uma proporção p (desconhecida) de elementos em uma população, apresentando certa característica de interesse, a partir da informação

Objetivo. Estimar a média de uma variável aleatória X, que representa uma característica de interesse de uma população, a partir de uma amostra.

MAE Introdução à Probabilidade e Estatística II Resolução Lista 1

MAE 116 Estimação para a média FEA - 2º Semestre de 2018

A Inferência Estatística é um conjunto de técnicas que objetiva estudar a população através de evidências fornecidas por uma amostra.

Comparação entre duas populações

Universidade Federal de Mato Grosso Probabilidade e Estatística - Curso: Engenharia Civil Introdução à Inferência Estatística - Prof a Eveliny

Revisando... Distribuição Amostral da Média

DESIGUALDADES, LEIS LIMITE E TEOREMA DO LIMITE CENTRAL. todas as repetições). Então, para todo o número positivo ξ, teremos:

ESTIMAÇÃO POR INTERVALO (INTERVALOS DE CONFIANÇA)

Stela Adami Vayego Estatística II CE003/DEST/UFPR

Cap. VI Histogramas e Curvas de Distribuição

Estimação por Intervalo (Intervalos de Confiança):

Probabilidade II Aula 12

Estimativa de Parâmetros

Estimação de Parâmetros. 1. Introdução

Exame MACS- Inferência-Intervalos.

MAE Introdução à Probabilidade e Estatística II Resolução Lista 2

Avaliação de Desempenho de Sistemas Discretos

Estatística Aplicada I DISTRIBUIÇÃO AMOSTRAL MÉDIA ERRO AMOSTRAL

Teoria da Estimação 1

1 Estimação de Parâmetros

10 - Medidas de Variabilidade ou de Dispersão

Pedro Alberto Barbetta / Marcelo Menezes Reis / Antonio Cezar Bornia São Paulo: Atlas, 2004

1 Distribuições Amostrais

Lista 9 - Introdução à Probabilidade e Estatística

Aula 5. Aula de hoje. Aula passada. Limitante da união Método do primeiro momento Lei dos grandes números (fraca e forte) Erro e confiança

Instruções gerais sobre a Prova:

Variáveis Aleatórias e Distribuições de Probabilidade

CAPÍTULO 6 ESTIMATIVA DE PARÂMETROS PPGEP. Introdução. Introdução. Estimativa de Parâmetros UFRGS

AMOSTRAGEM ALEATÓRIA DISTRIBUIÇÕES POR AMOSTRAGEM

CONHECIMENTOS ESPECÍFICOS

Métodos Numéricos e Estatísticos Parte II-Métodos Estatísticos Estimação pontual e intervalar

binomial seria quase simétrica. Nestas condições será também melhor a aproximação pela distribuição normal.

NOTAS DE AULA: DISTRIBUIÇÃO AMOSTRAL E INTERVALOS DE CONFIANÇA

A DESIGUALDADE DE CHEBYCHEV

Lista de Exercícios #4 Assunto: Variáveis Aleatórias Contínuas

Prof. Fabrício Maciel Gomes Departamento de Engenharia Química Escola de Engenharia de Lorena EEL

Teorema do Limite Central, distribuição amostral, estimação por ponto e intervalo de confiança

INFERÊNCIA. Fazer inferência (ou inferir) = tirar conclusões

Probabilidade II Aula 9

ESTIMAÇÃO PARA A MÉDIA

e, respectivamente. Os valores tabelados para a distribuição t-student dependem do número de graus de liberdade ( n 1 e

ESTIMAÇÃO DE PARÂMETROS

Teorema do Limite Central, distribuição amostral, estimação por ponto e intervalo de confiança

Intervalos Estatísticos para uma única Amostra - parte II

Estatística: Aplicação ao Sensoriamento Remoto SER ANO Teste de Hipótese

CONCEITOS BÁSICOS E PRINCÍPIOS DE ESTATÍSTICA

DERIVADAS DE FUNÇÕES11

Testes de Hipóteses sobre uma Proporção Populacional

d) A partir do item c) encontre um estimador não viciado para σ 2.

3 Introdução à inferência estatística

Sumário. 2 Índice Remissivo 19

Sumário. 2 Índice Remissivo 11

Séquências e Séries Infinitas de Termos Constantes

PROVA 1 27/10/ Os dados apresentados na seqüência mostram os resultados de colesterol

Virgílio A. F. Almeida DCC-UFMG 1/2005

7. INTERVALOS DE CONFIANÇA

A finalidade dos testes de hipóteses paramétrico é avaliar afirmações sobre os valores dos parâmetros populacionais.

Mestrado Integrado em Engenharia Civil. Disciplina: TRANSPORTES. Sessão Prática 4: Amostragem

MQI 2003 ESTATÍSTICA PARA METROLOGIA - SEMESTRE Teste 2 07/07/2008 Nome: PROBLEMA 1 Sejam X e Y v.a. contínuas com densidade conjunta:

MATEMÁTICA II. Profa. Dra. Amanda Liz Pacífico Manfrim Perticarrari

ESTATÍSTICA. PROF. RANILDO LOPES U.E PROF EDGAR TITO

Uma amostra aleatória simples de n elementos é selecionada a partir da população. Calcula-se o valor da média a partir da amostra

Stela Adami Vayego DEST/UFPR

Métodos Estatísticos Aplicados à Economia I (GET00117) Variáveis Aleatórias Discretas

MOQ 13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel

Distribuição Amostral da Média: Exemplos

lim Px ( ) 35 x 5 ), teremos Px ( ) cada vez mais próximo de 35 (denotaremos isso da forma Px ( ) 35 ). UNIVERSIDADE FEDERAL DA PARAÍBA CAMPUS IV-CCAE

Estatística: Aplicação ao Sensoriamento Remoto SER ANO Teoria da amostragem

CONHECIMENTOS ESPECÍFICOS

1 a Lista de PE Solução

ESTATÍSTICA EXPLORATÓRIA

UNIVERSIDADE FEDERAL DO PARANÁ SETOR DE CIÊNCIAS EXATAS DEPTO. DE ESTATÍSTICA LISTA 4 PROBABILIDADE A (CE068) Prof. Benito Olivares Aguilera

Transcrição:

Uiversidade Federal Flumiese Istituto de Matemática e Estatística Fudametos de Estatística Aplicada Módulo IV: Itrodução à Iferêcia Estatística Aa Maria Lima de Farias Departameto de Estatística

Coteúdo 1 Iferêcia Estatística Coceitos Básicos 1 1.1 Itrodução.............................................. 1 1.2 População.............................................. 2 1.3 Amostra Aleatória Simples.................................... 3 1.4 Estatísticas e Parâmetros.................................... 4 1.5 Distribuições Amostrais..................................... 5 1.6 Propriedades de Estimadores.................................. 8 2 Distribuição amostral da média 11 2.1 Itrodução.............................................. 11 2.2 Média e Variâcia da Distribuição Amostral da Média................... 11 2.3 Distribuição Amostral da Média Para Populações Normais................ 12 2.4 Teorema Limite Cetral...................................... 18 2.5 Distribuição amostral da proporção.............................. 20 3 Itervalos de cofiaça baseados a distribuição ormal 23 3.1 Ideias básicas sobre itervalos de cofiaça......................... 23 3.1.1 Valores críticos da distribuição ormal padrão................... 25 3.2 Itervalo de cofiaça para a média de uma população ormal com base em grades amostras............................................... 25 3.2.1 Margem de erro...................................... 28 3.3 Itervalo de cofiaça para uma proporção......................... 31 3.3.1 Margem de erro...................................... 33 3.4 Determiação do tamaho da amostra............................ 33 i

CONTEÚDO 3.5 Resumo............................................... 34 4 Testes de Hipóteses: Coceitos básicos 37 4.1 Itrodução.............................................. 37 4.2 Coceitos básicos......................................... 42 4.2.1 Hipóteses ula e alterativa.............................. 42 4.2.2 Estatística de Teste, Erros e Regra de Decisão................... 44 4.2.3 Região crítica e ível de sigificâcia........................ 44 5 Testes de hipóteses baseados a distribuição ormal 45 5.1 Itrodução.............................................. 45 5.2 Teste de hipótese sobre a média de uma N(µ; σ 2 ): procedimeto geral para grades amostras............................................... 50 5.3 Teste de hipótese sobre uma proporção populacioal: procedimeto geral para grades amostras............................................ 51 5.4 Valor P............................................... 53 5.4.1 Procedimeto geral para obteção do valor P................... 55 5.4.2 Valor P e ível de sigificâcia............................ 56 A Tabelas 59 ii

Capítulo 1 Iferêcia Estatística Coceitos Básicos 1.1 Itrodução No estudo da estatística descritiva a primeira parte do curso, vimos que população é o cojuto de elemetos para os quais se deseja estudar determiada(s) característica(s). Vimos também que uma amostra é um subcojuto da população. No estudo da iferêcia estatística, o objetivo pricipal é obter iformações sobre uma população a partir das iformações de uma amostra e aqui vamos precisar de defiições mais formais de população e amostra. Para facilitar a compreesão desses coceitos, iremos apresetar algus exemplos a título de ilustração. EXEMPLO 1.1 Em um estudo atropométrico em ível acioal, uma amostra de 5000 adultos é selecioada detre os adultos brasileiros e uma das variáveis de estudo é a altura. Neste exemplo, a população é o cojuto de todos os brasileiros adultos. No etato, o iteresse (um deles, pelo meos) está a altura dos brasileiros. Assim, esse estudo, a cada sujeito da população associamos um úmero correspodete à sua altura. Se determiado sujeito é sorteado para etrar a amostra, o que os iteressa é esse úmero, ou seja, sua altura. Como vimos, essa é a defiição de variável aleatória: uma fução que associa a cada poto do espaço amostral um úmero real. Dessa forma, a ossa população pode ser represetada pela variável aleatória X = altura do adulto brasileiro. Como essa é uma variável aleatória cotíua, a ela está associada uma fução desidade de probabilidade f e da literatura, sabemos que é razoável supor que essa desidade seja a desidade ormal. Assim, ossa população, esse caso, é represetada por uma variável aleatória X N ( µ; σ 2). Cohecedo os valores de µ e σ, teremos iformações completas sobre a ossa população. Uma forma de obtermos os valores de µ e σ é medido as alturas de todos os brasileiros adultos. Mas esse seria um procedimeto caro e demorado. Uma solução, etão, é estimar esses parâmetros a partir de uma amostra (subcojuto) da população. Supohamos que essa amostra seja retirada com reposição e que os sorteios sejam feitos

CAPÍTULO 1. INFERÊNCIA ESTATÍSTICA CONCEITOS BÁSICOS de forma idepedete, isto é, o resultado de cada extração ão altera o resultado das demais extrações. Ao sortearmos o primeiro elemeto, estamos realizado um experimeto que dá origem à variável aleatória X 1 = altura do primeiro elemeto ; o segudo elemeto dá origem à variável aleatória X 2 = altura do segudo elemeto e assim por diate. Como as extrações são feitas com reposição, todas as variáveis aleatórias X 1, X 2,... têm a mesma distribuição, que reflete a distribuição da altura de todos os brasileiros adultos. Para uma amostra específica, temos os valores observados x 1, x 2,... dessas variáveis aleatórias. EXEMPLO 1.2 Cosideremos, agora, um exemplo baseado em pesquisas eleitorais, em que estamos iteressados o resultado do segudo turo de uma eleição presidecial brasileira. Mais uma vez, ossos sujeitos de pesquisa são pessoas com 16 aos ou mais, aptas a votar. O iteresse fial é saber a proporção de votos de um e outro cadidato. Vamos cosiderar uma situação simplificada em que ão estamos cosiderado votos ulos, idecisos etc. Etão, cada sujeito de pesquisa dá origem a uma variável aleatória biária, isto é, uma variável aleatória que assume apeas dois valores. Como visto, podemos represetar esses valores por 1 (cadidato A) e 0 (cadidato B), o que defie uma variável aleatória de Beroulli, ou seja, essa população pode ser represetada pela variável aleatória X Ber(p). O parâmetro p represeta a probabilidade de um sujeito dessa população votar o cadidato A. Uma outra iterpretação é que p represeta a proporção populacioal de votates o cadidato A. Para obtermos iformação sobre p, retira-se uma amostra da população e, como ates, vamos supor que essa amostra seja retirada com reposição. Ao sortearmos o primeiro elemeto, estamos realizado um experimeto que dá origem à variável aleatória X 1 = voto do primeiro elemeto ; o segudo elemeto dá origem à variável aleatória X 2 = voto do segudo elemeto e assim por diate. Como as extrações são feitas com reposição, todas as variável aleatória X 1, X 2,... têm a mesma distribuição de Beroulli populacioal, isto é, X i Ber(p), i = 1, 2,.... 1.2 População A iferêcia estatística trata do problema de se obter iformação sobre uma população a partir de uma amostra. Embora a população real possa ser costituída de pessoas, empresas, aimais etc. as pesquisas estatísticas buscam iformações sobre determiadas características dos sujeitos, características essas que podem ser represetadas por úmeros. Sedo assim, a cada sujeito da população está associado um úmero, o que os permite apresetar a seguite defiição. DEFINIÇÃO População A população de uma pesquisa estatística pode ser represetada por uma variável aleatória X que descreve a característica de iteresse. Os métodos de iferêcia os permitirão obter estimativas dos parâmetros da distribuição de tal variável aleatória, que pode ser cotíua ou discreta. 2

CAPÍTULO 1. INFERÊNCIA ESTATÍSTICA CONCEITOS BÁSICOS 1.3 Amostra Aleatória Simples Como já dito, é bastate comum o emprego da amostragem em pesquisas estatísticas. Nas pesquisas por amostragem, uma amostra é selecioada da população de iteresse e todas as coclusões serão baseadas apeas essa amostra. Para que seja possível iferir resultados para a população a partir da amostra, é ecessário que esta seja represetativa da população. Embora existam vários métodos de seleção de amostras, vamos os cocetrar, aqui, o caso mais simples, que é a amostragem aleatória simples. Segudo tal método, toda amostra de mesmo tamaho tem igual chace (probabilidade) de ser sorteada. é possível extrair amostras aleatórias simples com e sem reposição. No etato, para populações grades ou ifiitas extrações com e sem reposição levam a resultados muito semelhates. Assim, o estudo da Iferêcia Estatística, vamos sempre lidar com amostragem aleatória simples com reposição. Esse método de seleção atribui a cada elemeto da população a mesma probabilidade de ser selecioado e esta probabilidade se matém costate ao logo do processo de seleção da amostra (se as extrações fossem sem reposição isso ão acoteceria). No restate desse curso, vamos omitir a expressão com reposição, ou seja, o termo amostragem (ou amostra) aleatória simples sempre se referirá à amostragem com reposição. Por simplicidade, muitas vezes abreviaremos o termo amostra aleatória simples por a.a.s.. Uma forma de se obter uma amostra aleatória simples é escrever os úmeros ou omes dos elemetos da população em cartões iguais, colocar esses cartões em uma ura misturado-os bem e fazer os sorteios ecessários, tedo o cuidado de colocar cada cartão sorteado a ura ates do próximo sorteio. Na prática, em geral, são usados programas de computador, uma vez que as populações tedem a ser muito grades. Agora vamos formalizar o processo de seleção de uma amostra aleatória simples, de forma a relacioá-lo com os problemas de iferêcia estatística que você vai estudar. Seja uma população represetada por uma variável aleatória X. De tal população será sorteada uma amostra aleatória simples com reposição de tamaho. Como visto os exemplos ateriores, cada sorteio dá origem a uma variável aleatória X i e, como os sorteios são com reposição, todas essas variáveis têm a mesma distribuição de X. Isso os leva à seguite defiição. DEFINIÇÃO Amostra Aleatória Simples Uma amostra aleatória simples (a.a.s.) de tamaho de uma variável aleatória X (população) é um cojuto de variável aleatória X 1, X 2,..., X idepedetes e ideticamete distribuídas (i.i.d.). é iteressate otar a coveção usual: o valor observado de uma variável aleatória X é represetado pela letra miúscula correspodete. Assim, depois do sorteio de uma amostra aleatória simples de tamaho, temos valores observados x 1, x 2,..., x das respectivas variáveis aleatórias. 3

CAPÍTULO 1. INFERÊNCIA ESTATÍSTICA CONCEITOS BÁSICOS 1.4 Estatísticas e Parâmetros Obtida uma amostra aleatória simples, é possível calcular diversas características desta amostra, como, por exemplo, a média, a mediaa, a variâcia etc. Qualquer uma destas características é uma fução de X 1, X 2,..., X e, portato, o seu valor depede da amostra sorteada. Sedo assim, cada uma dessas características ou fuções é também uma variável aleatória. Por exemplo, a média amostral é a variável aleatória defiida por Isso os leva à seguite defiição. X = X 1 + X 2 + + X DEFINIÇÃO Estimador Uma estatística amostral ou estimador T é qualquer fução da amostra X 1, X 2,..., X, isto é, T = g(x 1, X 2,..., X ) ode g é uma fução qualquer. As estatísticas amostrais que cosideraremos este curso são: média amostral variâcia amostral X = X 1 + X 2 + + X S 2 = 1 1 ( Xi X ) 2 i=1 (1.1) (1.2) Outras estatísticas possíveis são o míimo amostral, o máximo amostral, a amplitude amostral etc. Para uma amostra específica, o valor obtido para o estimador será deomiado estimativa e essas estimativas, em geral, serão represetadas por letras miúsculas. Por exemplo, temos as seguites otações correspodetes à média e à variâcia amostrais: x e s 2. De forma aáloga, temos as características de iteresse da população. No etato, para difereciar as duas situações (população e amostra), atribuímos omes diferetes. DEFINIÇÃO Parâmetro Parâmetro é uma característica da população. Assim, se a população é represetada pela variável aleatória X, algus parâmetros são a esperaça E(X) e a variâcia V ar(x) de X. 4

CAPÍTULO 1. INFERÊNCIA ESTATÍSTICA CONCEITOS BÁSICOS Com relação às características mais usuais, vamos usar a seguite otação: Característica População Amostra Média µ X Variâcia σ 2 S 2 Número de elemetos N 1.5 Distribuições Amostrais Nos problemas de iferêcia, estamos iteressados em estimar um parâmetro θ da população por meio de uma amostra aleatória simples X 1, X 2,..., X. Para isso, usamos uma estatística T (por exemplo, a média amostral) e, com base o valor obtido para T, a partir de uma amostra particular, iremos tomar as decisões que o problema exige. Já foi dito que T é uma variável aleatória, uma vez que depede da amostra sorteada; amostras diferetes forecerão diferetes valores para T. EXEMPLO 1.3 Cosideremos a população {1, 3, 6, 8}, isto é, este é o cojuto dos valores da característica de iteresse da população em estudo. Assim, para esta população, ou seja, para essa variável aleatória X, temos E(X) = µ = 1 (1 + 3 + 6 + 8) = 4, 5 4 V ar(x) = σ 2 = 1 [ (1 4, 5) 2 + (3 4, 5) 2 + (6 4, 5) 2 + (8 4, 5) 2] = 7, 25 4 Supoha que o objetivo do estudo seja estimar a média populacioal µ a partir de uma amostra aleatória simples de tamaho dois. Para isso, usaremos a estatística média amostral X. Algumas possibilidades de amostra são {1,1}, {1,3}, {6,8}, para as quais os valores da média amostral são 1, 2 e 7, respectivamete. Podemos ver, etão, que há uma variabilidade os valores da estatística e, assim, seria iteressate que cohecêssemos tal variabilidade. Cohecedo tal variabilidade, teremos codições de saber quão ifelizes podemos ser o sorteio da amostra. No exemplo acima, as amostras {1,1} e {8,8} são as que têm média amostral mais afastada da verdadeira média populacioal. Se esses valores tiverem chace muito mais alta do que os valores mais próximos de E(X), podemos ter sérios problemas. Para cohecer o comportameto da média amostral, teríamos que cohecer todos os possíveis valores de X, o que equivaleria a cohecer todas as possíveis amostras de tamaho dois de tal população. Nesse exemplo, como só temos quatro elemetos a população, a obteção de todas as amostra aleatória simples de tamaho dois ão é difícil. Como o sorteio é feito com reposição, em cada um dos sorteios temos quatro possibilidades. Logo, o úmero total de amostras aleatórias simples é 4 4 = 16. Por outro lado, em cada sorteio, cada elemeto da população tem a mesma chace de ser sorteado; como são quatro elemetos, cada elemeto tem probabilidade 1/4 de ser sorteado. Fialmete, como os sorteios são idepedetes, para obter a probabilidade de um par de elemetos pertecer à amostra, basta multiplicar as probabilidades (lembre-se que P(A B) = P(A) P(B) quado A e B são idepedetes). Na tabela a seguir, listamos todas as possíveis amostras, com suas respectivas probabilidades e para cada uma delas, apresetamos o valor da média amostral. 5

CAPÍTULO 1. INFERÊNCIA ESTATÍSTICA CONCEITOS BÁSICOS Amostra Probabilidade Média amostral x (1, 1) (1/4) (1/4) = 1/16 (1 + 1)/2 = 1 (1, 3) (1/4) (1/4) = 1/16 (1 + 3)/2 = 2 (1, 6) (1/4) (1/4) = 1/16 (1 + 6)/2 = 3, 5 (1, 8) (1/4) (1/4) = 1/16 (1 + 8)/2 = 4, 5 (3, 1) (1/4) (1/4) = 1/16 (3 + 1)/2 = 2 (3, 3) (1/4) (1/4) = 1/16 (3 + 3)/2 = 3 (3, 6) (1/4) (1/4) = 1/16 (3 + 6)/2 = 4, 5 (3, 8) (1/4) (1/4) = 1/16 (3 + 8)/2 = 5, 5 (6, 1) (1/4) (1/4) = 1/16 (6 + 1)/2 = 3, 5 (6, 3) (1/4) (1/4) = 1/16 (6 + 3)/2 = 4, 5 (6, 6) (1/4) (1/4) = 1/16 (6 + 6)/2 = 6 (6, 8) (1/4) (1/4) = 1/16 (6 + 8)/2 = 7 (8, 1) (1/4) (1/4) = 1/16 (8 + 1)/2 = 4, 5 (8, 3) (1/4) (1/4) = 1/16 (8 + 3)/2 = 5, 5 (8, 6) (1/4) (1/4) = 1/16 (8 + 6)/2 = 7 (8, 8) (1/4) (1/4) = 1/16 (8 + 8)/2 = 8 Aalisado esta tabela, podemos ver que os possíveis valores de X são 1; 2; 3; 3,5; 4,5; 5,5; 6; 7; 8 e podemos costruir a sua distribuição de probabilidade, otado, por exemplo, que o valor 2 pode ser obtido por meio de duas amostras: (1,3) ou (3,1). Como essas amostras correspodem a evetos mutuamete exclusivos, a probabilidade de se obter uma média amostral igual a 2 é P(X = 2) = P({1, 3} {3, 1}) = P({1, 3}) + P({3, 1}) = 1 16 + 1 16 = 2 16 Com o mesmo raciocíio, obtemos a seguite distribuição de probabilidade para X : x 1 2 3 3, 5 4, 5 5, 5 6 7 8 P(X = x) 1/16 2/16 1/16 2/16 4/16 2/16 1/16 2/16 1/16 Note que a variável aleatória de iteresse aqui é X! Daí segue que E(X) = 1 1 16 + 2 2 16 + 3 1 16 + 3, 5 2 16 + +4, 5 5 16 + 5, 5 2 16 + 6 1 16 + 7 2 16 + 8 1 16 = 4, 5 = µ Var(X) = (1 4, 5) 2 1 16 + (2 4, 5)2 2 16 + (3 4, 5)2 1 16 + +(3, 5 4, 5) 2 2 16 + (4, 5 4, 5)2 5 16 + (5, 5 4, 5)2 2 16 + +(6 4, 5) 2 1 16 + (7 4, 5)2 2 16 + (8 4, 5)2 1 16 = 3, 625 = 7, 25 2 = σ 2 2 = σ 2 6

CAPÍTULO 1. INFERÊNCIA ESTATÍSTICA CONCEITOS BÁSICOS Neste exemplo, podemos ver que E(X) = µ e Var(X) = σ 2 2, ode 2 é o tamaho da amostra. Esses resultados estão os dizedo que a média (esperaça) da estatística X é igual à média da população e que sua variâcia é igual à variâcia da população dividida pelo tamaho da amostra. Nas Figura 1.1 e 1.2, temos os gráficos da fução de distribuição de probabilidade de X (população) e de X (amostra), respectivamete. Podemos ver que a média de ambas é 4,5 (ambas são simétricas em toro de 4,5) e que a distribuição de X tem meor dispersão em toro dessa média. Note que essa média e essa variâcia são calculadas ao logo de todas as possíveis amostra aleatória simples de tamaho 2. Figura 1.1 População {1, 3, 6, 8} - Distribuição de X Figura 1.2 População {1, 3, 6, 8} - Distribuição de X EXEMPLO 1.4 Cosideremos, agora, a situação em que se deseja estimar a variâcia populacioal, uma medida de dispersão. Como já visto, a variâcia populacioal é V ar(x) = 7, 25. Vamos cosiderar dois estimadores: σ 2 = 1 ( Xi X ) 2 (1.3) S 2 = 1 1 i=1 ( Xi X ) 2 i=1 Da mesma forma que fizemos para a média amostral, mostra-se que E(S 2 ) = σ 2 = V ar(x), mas E( σ 2 ) σ 2, ou seja, a média de S 2 é igual à variâcia populacioal, o que ão ocorre com σ 2. Estes dois exemplos ilustram o fato de que qualquer estatística amostral T é uma variável aleatória, que assume diferetes valores para cada uma das diferetes amostras. Tais valores os foreceriam, jutamete com a probabilidade de cada amostra, a fução de distribuição de probabilidades de T, caso fosse possível obter todas as amostra aleatória simples de tamaho da população. Isso os leva à seguite defiição, que é um coceito cetral a Iferêcia Estatística. (1.4) DEFINIÇÃO Distribuição amostral de um estimador A distribuição amostral de um estimador T é a distribuição de probabilidades de T ao logo de todas as possíveis amostras de tamaho. 7

CAPÍTULO 1. INFERÊNCIA ESTATÍSTICA CONCEITOS BÁSICOS Podemos ver que a obteção da distribuição amostral de qualquer estatística T é um processo tão ou mais complicado do que se trabalhar com a população iteira. Na prática, o que temos é uma úica amostra e é com esse resultado que temos de tomar as decisões pertietes ao problema em estudo. Esta tomada de decisão, o etato, será facilitada se cohecermos resultados teóricos sobre o comportameto da distribuição amostral. 1.6 Propriedades de Estimadores No exemplo aterior, relativo à variâcia amostral, vimos que E(S 2 ) = σ 2 e E( σ 2 ) σ 2. Aalogamete, vimos também que E(X) = µ. Vamos eteder direito o que esses resultados sigificam, ates de passar à defiição formal da propriedade evolvida. Dada uma população, existem várias amostra aleatória simples de tamaho que podem ser sorteadas. Cada uma dessas amostras resulta em um valor diferete da estatística de iteresse (X e S 2, por exemplo). O que esses resultados estão mostrado é como esses diferetes valores se comportam em relação ao verdadeiro (mas descohecido) valor do parâmetro. Cosidere a Figura 1.3, em que o alvo represeta o valor do parâmetro e os tiros, idicados pelo símbolo x, represetam os diferetes valores amostrais da estatística de iteresse. (a) (b) (c) (d) Figura 1.3 Propriedades de estimadores Nas partes (a) e (b) da figura, os tiros estão distribuídas em toro do alvo, equato as partes (c) e (d) isso ão acotece. Comparado as partes (a) e (b), podemos ver que a parte (b), os tiros estão mais cocetrados em toro do alvo, isto é, têm meor dispersão. Isso reflete uma potaria mais certeira do atirador em (b). 8

CAPÍTULO 1. INFERÊNCIA ESTATÍSTICA CONCEITOS BÁSICOS Aalogamete, as partes (c) e (d), embora ambos os atiradores estejam com a mira deslocada, os tiros do atirador (d) estão mais cocetrados em toro de um alvo; o deslocameto poderia até ser resultado de um desalihameto da arma. Já o atirador (c), além de estar com o alvo deslocado, ele tem os tiros mais espalhados, o que reflete meor precisão. Traduzido esta situação para o cotexto de estimadores e suas propriedades, temos o seguite: Nas partes (a) e (b), temos dois estimadores que forecem estimativas cetradas em toro do verdadeiro valor do parâmetro, ou seja, as diferetes amostras forecem valores distribuídos em toro do verdadeiro valor do parâmetro. A difereça é que em (a) esses valores estão mais dispersos e, assim, temos mais chace de obter uma amostra ifeliz, ou seja, uma amostra que foreça um resultado muito afastado do valor do parâmetro. Essas duas propriedades estão associadas à esperaça e à variâcia do estimador, que são medidas de cetro e dispersão, respectivamete. Um exemplo dessa situação ocorre com a média amostral: X está sempre cetrada a média populacioal µ, mas amostras maiores resultam em meor dispersão. Nas partes (c) e (d), as estimativas estão cetradas em toro de um valor diferete do parâmetro de iteresse e, a parte (c), a dispersão é maior. Essa situação equivale ao estimador σ 2. Temos, assim, ilustrados os seguites coceitos. DEFINIÇÃO Estimador ão-viesado Um estimador T é dito um estimador ão-viesado do parâmetro θ, se E(T ) = θ. Como os exemplos vistos, essa esperaça é calculada ao logo de todas as possíveis amostras, ou seja, é a esperaça da distribuição amostral de T. Nas partes (a) e (b) da Figura 1.3 os estimadores são ão-viesados e as partes (c) e (d), os estimadores são viesados. Com relação aos estimadores X, S 2 e σ 2, temos que os dois primeiros são ão-viesados para estimar a média e a variâcia populacioais, respectivamete, equato σ 2 é viesado para estimar a variâcia populacioal. Essa é a razão para se usar S 2, e ão σ 2. DEFINIÇÃO Eficiêcia de um estimador Se T 1 e T 2 são dois estimadores ão-viesados do parâmetro θ, diz-se que T 1 é mais eficiete que T 2, se Var(T 1 ) < Var(T 2 ). Na Figura 1.3, o estimador da parte (b) é mais eficiete que o estimador da parte (a). 9

CAPÍTULO 1. INFERÊNCIA ESTATÍSTICA CONCEITOS BÁSICOS 10

Capítulo 2 Distribuição amostral da média 2.1 Itrodução Na Iferêcia Estatística, o objetivo é obter iformação sobre uma população a partir de uma amostra. Vimos, o capítulo aterior, que uma população estatística é represetada por uma variável aleatória X e, assim, um dos parâmetros de iteresse é a média (ou esperaça) dessa variável. Neste capítulo estudaremos as propriedades da média amostral X como estimador da média populacioal µ. Como visto ateriormete, tais propriedades são defiidas a partir da distribuição amostral de X, que é a distribuição de probabilidade ao logo de todas as possíveis amostras aleatórias simples de tamaho. 2.2 Média e Variâcia da Distribuição Amostral da Média No capítulo aterior, vimos, por meio de exemplos, que a média amostral X é um estimador ãoviesado da média populacioal µ. Na verdade, temos o seguite resultado geral.! Média e Variâcia de X Seja X 1, X 2,..., X uma amostra aleatória simples de tamaho de uma população represetada pela variável aleatória X com média µ e variâcia σ 2. Etão, E(X) = µ (2.1) Var(X) = σ 2 (2.2) É importate otar que esse resultado se refere a qualquer população X. O que ele estabelece é que as médias amostrais das diferetes amostras aleatórias simples de tamaho tedem a acertar o alvo da média populacioal µ; lembre-se da Figura 1.3, partes (a) e (b). Além disso,

CAPÍTULO 2. DISTRIBUIÇÃO AMOSTRAL DA MÉDIA à medida que o tamaho amostral aumeta, a dispersão em toro do alvo, medida por V ar(x), vai dimiuido e tede a zero quado. O desvio-padrão da distribuição amostral de qualquer estatística é usualmete chamado de erro-padrão. Etão, o erro-padrão da média amostral é EP(X) = σ. 2.3 Distribuição Amostral da Média Para Populações Normais Na prática estatística, várias populações podem ser descritas, aproximadamete, por uma distribuição ormal. Obviamete, o teorema aterior cotiua valedo o caso de uma população ormal, mas temos uma característica a mais da distribuição amostral da média: ela é também ormal.! Distribuição amostral de X para populações ormais Seja X 1, X 2,..., X uma amostra aleatória simples de tamaho de uma população ormal, isto é, uma população represetada por uma variável aleatória ormal X com média µ e variâcia σ 2. Etão, a distribuição amostral da média amostral X é ormal com média µ e variâcia σ 2 /, ou seja, X N ( µ; σ 2) = X N (µ; σ 2 ) (2.3) Na Figura 2.1 ilustra-se o comportameto da distribuição amostral de X com base em amostras de tamaho = 4 retiradas de uma população X N(2; 3 2 ). A título de comparação, apreseta-se também a distribuição populacioal. Podemos ver que ela é mais dispersa que a distribuição amostral de X, mas ambas estão cetradas o verdadeiro valor populacioal µ = 2. Figura 2.1 Distribuição amostral de X com base em aas de tamaho = 2 de uma população N(2; 9). EXEMPLO 2.1 Carga de elevador 12

CAPÍTULO 2. DISTRIBUIÇÃO AMOSTRAL DA MÉDIA A capacidade máxima de um elevador é de 500kg. Se a distribuição dos pesos dos usuários é N(70; 100), qual é a probabilidade de que sete pessoas ultrapassem este limite? E de seis pessoas? Solução Podemos cosiderar os sete passageiros como uma amostra aleatória simples da população de todos os usuários, represetada pela v.a. X N(70; 100). Seja, etão, X 1,..., X 7 uma aas de tamaho = 7. Se o peso máximo é 500kg, para que sete pessoas ultrapassem o limite de seguraça temos de ter 7 X i > 500 1 7 i=1 Mas, por (2.3), sabemos que Logo, 7 i=1 P(X > 71, 729) = P X i > 500 7 ( X N 70; 100 ) 7 X 70 100 7 > X > 71, 729 71, 729 70 100 7 = P(Z > 0, 46) = 0, 5 tab(0, 46) = 0, 5 0, 17724 = 0, 32276 Com seis pessoas teríamos de ter ( P X > 500 ) 6 = P Z > 83, 333 70 100 7 = P(Z > 3, 53) = 0, 5 tab(3, 53) = 0, 5 0, 49979 = 0, 00021 Podemos ver que existe uma probabilidade alta (0,32 ou 32% de chace) de sete pessoas ultrapassarem o limite de seguraça. Já com seis pessoas, essa probabilidade é bastate pequea. Assim, o úmero máximo de pessoas o elevador deve ser estabelecido como seis ou meos. EXEMPLO 2.2 Cosidere uma população represetada por X N(100, 10 2 ). (a) Calcule P(90 < X < 110). (b) Se X é a média de uma amostra aleatória simples de 16 elemetos retirados dessa população, calcule P(90 < X < 110). (c) Costrua, em um úico sistema de coordeadas, os gráficos das distribuições de X e X. (d) Que tamaho deveria ter a amostra para que P(90 < X < 110) = 0, 95? Solução 13

CAPÍTULO 2. DISTRIBUIÇÃO AMOSTRAL DA MÉDIA (a) P(90 < X < 110) = ( ) 90 100 110 100 P < Z < = P( 1 < Z < 1) 10 10 = 2 P(0 < Z < 1) = 2 tab(1, 0) = 0, 68268 (b) Com = 16, resulta que X N ( ) 100; 100 16 P(90 < X < 110) = P 90 100 100 16 < Z < 110 100 100 16 = P( 4 < Z < 4) = 2 P(0 < Z < 4) = 2 tab(4, 0) 1, 00 (c) Veja a Figura 2.2. Como visto, a distribuição amostral com = 16 é meos dispersa que a distribuição populacioal e, etão, podemos ver que, etre 90 e 110, temos cocetrada praticamete toda a distribuição de X. Figura 2.2 Distribuição amostral de X com base em aas de tamaho = 16 de uma população N(100; 100). (d) P 90 100 100 P(90 < X < 110) = 0, 95 110 100 < Z < = 0, 95 100 P( < Z < ) = 0, 95 2 P(0 < Z < ) = 0, 95 2 tab( ) = 0, 95 tab( ) = 0, 475Leftrightarrow = 1, 96 4 A título de ilustração, apresetam-se a Figura 2.3 as distribuições amostrais de X para = 16 e = 4, jutamete com a distribuição populacioal. EXEMPLO 2.3 Regulagem de máquias 14

CAPÍTULO 2. DISTRIBUIÇÃO AMOSTRAL DA MÉDIA Figura 2.3 Distribuição amostral de X com base em aas de tamaho = 16 e = 4 de uma população N(100; 100). A máquia de empacotar um determiado produto o faz segudo uma distribuição ormal, com média µ e desvio padrão 10g. (a) Em quato deve ser regulado o peso médio µ para que apeas 10% dos pacotes teham meos do que 500g? (b) Com a máquia assim regulada, qual é a probabilidade de que o peso total de quatro pacotes escolhidos ao acaso seja iferior a 2kg? Solução (a) Seja X a variável aleatória que represeta o peso dos pacotes. Sabemos, etão, que X N(µ; 100). Queremos que ( X µ P 10 P P(X < 500) = 0, 10 < 500 µ ) = 0, 10 10 ) = 0, 10 ( Z < 500 µ 10 Etão, a desidade ormal padrão, à esquerda da abscissa 500 µ 10 temos que ter uma área (probabilidade) de 0,10. Logo, essa abscissa tem que ser egativa. Usado a simetria da desidade ormal, temos as seguites equivalêcias: 15

CAPÍTULO 2. DISTRIBUIÇÃO AMOSTRAL DA MÉDIA ( P Z < 500 µ 10 ) ( P Z > 500 µ ) 10 ( P Z > µ 500 ) 10 ( P 0 Z µ 500 ) 10 ( ) µ 500 tab 10 µ 500 10 = 0, 10 = 0, 10 = 0, 10 = 0, 40 = 0, 40 = 1, 28 µ = 512, 8 g Veja a Figura 2.4 ode são ilustradas essas equivalêcias. Figura 2.4 Solução do Exemplo 2.3 (b) Sejam X 1, X 2, X 3, X 4 os pesos dos 4 pacotes da amostra. Queremos que 4 X i < 2000g. Isso é equivalete a X < 500. Logo, P(X < 500) = P X 512, 8 100 4 < 500 512, 8 100 4 = P(Z < 2, 56) = P(Z > 2, 56) = 0, 5 P(0 Z 2, 56) = 0, 5 tab(2, 56) = 0, 5 0, 49477 = 0, 00523 Com a máquia regulada para 512,8g, há uma probabilidade de 0,00523 de que uma amostra de 4 pacotes apresete peso médio iferior a 500g. Note que com um pacote apeas, essa probabilidade é de 10%. Por isso, as ispeções de cotrole de qualidade são sempre feitas com base em amostras de tamaho > 1. 16 i=1

CAPÍTULO 2. DISTRIBUIÇÃO AMOSTRAL DA MÉDIA EXEMPLO 2.4 Regulagem de máquias cotiuação Volte ao Exemplo 2.3. Depois de regulada a máquia, prepara-se uma carta de cotrole de qualidade. Uma amostra de 4 pacotes será sorteada a cada hora. Se a média da amostra for iferior a 497g ou superior a 520g, a produção deve ser iterrompida para ajuste da máquia, isto é, ajuste do peso médio. (a) Qual é a probabilidade de uma parada desecessária? (b) Se a máquia se desregulou para µ = 500g, qual é a probabilidade de se cotiuar a produção fora dos padrões desejados? Solução Com a máquia regulada, temos que X N(512, 8; 100) (a) Parada desecessária: amostra idica que o processo está fora de cotrole (X < 497 ou X > 520), quado, a verdade, o processo está ajustado (µ = 512, 8). Neste caso, podemos usar a otação de probabilidade codicioal para auxiliar a solução do exercício. Queremos calcular P [( X < 497 ) ( X > 520 ) X N ( )] 512, 8; 100 4 = P [ X < 497 X N (512, 8; 25) ] + P [ X > 520 X N (512, 8; 25) ] ( ) 497 512, 8 = P Z < + P 5 = P(Z < 3, 16) + P(Z > 1, 44) = P(Z > 3, 16) + P(Z > 1, 44) ( Z > = [0, 5 tab(3, 16)] + [0, 5 tab(1, 44)] = 1, 0 0, 49921 0, 42507 = 0, 07572 520 512, 8 5 ) (b) Agora queremos P [ 497 X 520 X N(500; 25) ] ( ) 497 500 520 500 = P Z 5 5 = P( 0, 6 Z 4) = P( 0, 6 Z < 0) + P(0 Z 4) = P(0 Z 0, 6) + P(0 Z 4) = tab(0, 6) + tab(4, 0) = 0, 72572 Note que a probabilidade de uma parada desecessária é pequea, à custa de uma alta probabilidade de se operar fora de cotrole. 17

CAPÍTULO 2. DISTRIBUIÇÃO AMOSTRAL DA MÉDIA 2.4 Teorema Limite Cetral Os resultados vistos ateriormete são válidos para populações ormais, isto é, se uma população é ormal com média µ e variâcia σ 2, etão a distribuição amostral de X é também ormal com média µ e variâcia σ 2 /, ode é o tamaho da amostra. O Teorema Limite Cetral, que veremos a seguir, os forece um resultado aálogo para qualquer distribuição populacioal, desde que o tamaho da amostra seja suficietemete grade.! Teorema Limite Cetral Seja X 1, X 2,..., X uma amostra aleatória simples de uma população X tal que E(X) = µ e Var(X) = σ 2. Etão, a distribuição de X coverge para a distribuição ormal com média µ e variâcia σ 2 / quado. Equivaletemete, X µ σ N(0, 1) (2.4) A iterpretação prática do Teorema Limite Cetral é a seguite: para amostras grades de qualquer população, podemos aproximar a distribuição amostral de X por uma distribuição ormal com a mesma média populacioal e variâcia igual à variâcia populacioal dividida pelo tamaho da amostra. Quão grade deve ser a amostra para se obter uma boa aproximação depede das características da distribuição populacioal. Se a distribuição populacioal ão se afastar muito de uma distribuição ormal, a aproximação será boa, mesmo para tamahos pequeos de amostra. Na Figura 2.5 ilustra-se esse teorema para uma distribuição expoecial com parâmetro λ = 1 (essa distribuição faz parte de uma outra família de distribuições cotíuas). O gráfico superior represeta a distribuição populacioal e os histogramas represetam a distribuição amostral de X ao logo de 5.000 amostras de tamahos 10, 50, 100 e 5000. Assim, podemos ver que, embora a população seja completamete diferete da ormal, a distribuição amostral de X vai se torado cada vez mais próxima da ormal à medida que aumeta. Em termos práticos, esse teorema é de extrema importâcia, por isso é chamado teorema cetral e, em geral, amostras de tamaho > 30 já forecem uma aproximação razoável. EXEMPLO 2.5 Hoestidade de uma moeda Uma moeda é laçada 50 vezes, com o objetivo de se verificar sua hoestidade. Se ocorrem 36 caras os 50 laçametos, o que podemos cocluir? Solução Neste caso, a população pode ser represetada por uma variável de Beroulli X com parâmetro p, isto é, X assume o valor 1 com probabilidade p a ocorrêcia de cara e assume o valor 0 com probabilidade 1 p a ocorrêcia de coroa. Para uma variável de Beroulli, temos que E(X) = p e Var(X) = p(1 p). Como são feitos 50 laçametos, o tamaho da amostra é 50 ( grade!) e, pelo Teorema Limite Cetral, X é aproximadamete ormal com média E(X) = p e variâcia Var(X) = p(1 p) 50. 18

CAPÍTULO 2. DISTRIBUIÇÃO AMOSTRAL DA MÉDIA Figura 2.5 Ilustração do Teorema Limite Cetral para uma população X exp(1) Supohamos que a moeda seja hoesta, isto é, que p = 1/2. Nessas codições, qual é a probabilidade de obtermos 36 caras em 50 laçametos? Com a hipótese de hoestidade da moeda, o Teorema Limite Cetral os diz que ( 1 1 X N 2 ; 2 ) 1 2 50 A probabilidade de se obter 36 ou mais caras em 50 laçametos é equivalete à probabilidade de X ser maior ou igual a 36 50 = 0, 72 e essa probabilidade é P(X 0, 72) = P X 0, 5 0, 72 0, 5 1 200 1 200 = P(Z 3, 11) = 0, 5 P(0 Z < 3, 11) = = 0, 5 tab(3, 11) = 0, 5 0, 49906 = 0, 00094 Note que essa probabilidade é bastate pequea, ou seja, há uma pequea probabilidade de obtermos 36 ou mais caras em 50 laçametos de uma moeda hoesta. Isso pode os levar a suspeitar sobre a hoestidade da moeda! EXEMPLO 2.6 Garrafas de refrigerate A divisão de ispeção do Departameto de Pesos e Medidas de uma determiada cidade está iteressada em calcular a real quatidade de refrigerate que é colocada em garrafas de dois litros, o setor de egarrafameto de uma grade empresa de refrigerates. O gerete do setor de egarrafameto iformou à divisão de ispeção que o desvio padrão para garrafas de dois litros é de 0,05 litro. Uma amostra aleatória de 100 garrafas de dois litros, obtida deste setor de 19

CAPÍTULO 2. DISTRIBUIÇÃO AMOSTRAL DA MÉDIA egarrafameto, idica uma média de 1,985 litro. Qual é a probabilidade de se obter uma média amostral de 1,985 ou meos, caso a afirmativa do gerete esteja certa? O que se pode cocluir? Solução Afirmativa do gerete: µ ) = 2 e σ = 0, 05. Como = 100, podemos usar o Teorema Limite 0, 052 Cetral. Logo, X N (2;. 100 ( ) P(X 1, 985) = P 1, 985 2 Z 0,05 10 = P(Z 3, 0) = P(Z 3, 0) = 0, 5 tab(3, 0) = 0, 5 0, 49865 = 0, 00135 A probabilidade de se obter esse valor as codições dadas pelo gerete é muito pequea, o que pode os fazer suspeitar da veracidade das afirmativas. é provável que ou a média ão seja 2 (e, sim, meor que 2), ou o desvio-padrão ão seja 0,05 (e, sim, maior que 0,05). Um resultado importate que será utilizado os próximos capítulos trata da média amostral de amostras aleatórias simples retiradas de uma população ormal X (N(µ; σ 2 ). Vimos que, se a população é ormal, etão X tem distribuição ormal com média µ e variâcia σ 2. Se ão cohecemos σ, é válido o seguite resultado.! Distribuição da média amostral de populações ormais Seja X 1,..., X uma amostra aleatória simples de uma população X N(µ; σ 2 ). Etão X µ S N(0, 1) (2.5) Esse resultado será útil para fazer iferêcia sobre a média de uma população ormal com base em grades amostras. 2.5 Distribuição amostral da proporção Cosideremos, agora, uma população em que cada elemeto é classificado de acordo com a preseça ou ausêcia de determiada característica. Por exemplo, podemos pesar em eleitores escolhedo etre dois cadidatos, pessoas classificadas de acordo com o sexo, trabalhadores classificados como trabalhador com carteira assiada ou ão, e assim por diate. Em termos de variável aleatória, essa população é represetada por uma variável de Beroulli, isto é: X = { 1, se elemeto possui a característica de iteresse 0, se elemeto ão possui a caracaterística de iteresse 20

CAPÍTULO 2. DISTRIBUIÇÃO AMOSTRAL DA MÉDIA Vamos deotar por p a proporção de elemetos da população que possuem a característica de iteresse. Etão, P(X = 1) = p E(X) = p Var(X) = p(1 p) Em geral, o parâmetro p é descohecido e precisamos estimá-lo a partir de uma amostra, da mesma forma como fizemos o caso da média de uma população ormal. Etão, seja X 1, X 2,..., X uma amostra aleatória simples de uma população X Ber(p). Sabemos que E(X) = E(X) = p Var(X) = Var(X) = p(1 p) Mas, ote que X ada mais é que a proporção dos elemetos da amostra que possuem a característica de iteresse, ou seja, X é a proporção amostral, que deotaremos por P. Resulta, etão, que P é um estimador ão-viesado para a proporção populacioal p. Pelo Teorema Limite Cetral, se for suficietemete grade, etão ( X N p; ) p(1 p) A aproximação dada pelo Teorema Limite Cetral será melhor para valores grades de. Existe uma seguite regra empírica para os ajudar a decidir o que é grade, coforme explicado a seguir.! Distribuição amostral da proporção amostral Seja X 1, X 2,, X uma amostra aleatória simples de uma população X Ber(p). Para suficietemete grade, a distribuição da proporção amostral pode ser aproximada pela distribuição ormal com média µ = p e variâcia σ 2 p(1 p) =, isto é, ( P N p; ) p(1 p) (2.6) Essa aproximação pode ser usada se as seguites codições forem satisfeitas: 1. 30; 2. p 10; 3. (1 p) 10 EXEMPLO 2.7 Ites defeituosos um lote De um grade lote de produtos maufaturados, extrai-se uma amostra aleatória simples de 200 ites. Se 10% dos ites do lote são defeituosos, calcule a probabilidade de serem sorteados o máximo 24 ites defeituosos. 21

CAPÍTULO 2. DISTRIBUIÇÃO AMOSTRAL DA MÉDIA Solução As codições para utilização da aproximação ormal são válidas, pois com = 200 e p = 0, 1 temos que: 200 0, 1 = 20 > 10 200 0, 9 = 180 > 10 Ter o máximo 24 ites defeituosos a amostra equivale a ter uma proporção amostral de, o máximo, 0,12. Etão, o problema pede P( P 0, 12) = P P 0, 1 0, 12 0, 1 0, 1 0, 9 0, 1 0, 9 200 200 P(Z 0, 9428) = 0, 5 + tab(0, 94) = 0, 8264 O valor exato é P(X 24) = 0, 855106. 22

Capítulo 3 Itervalos de cofiaça baseados a distribuição ormal 3.1 Ideias básicas sobre itervalos de cofiaça O objetivo cetral da Iferêcia Estatística é obter iformações para uma população a partir do cohecimeto de uma úica amostra. Em geral, a população é represetada por uma variável aleatória X, com fução de distribuição ou desidade de probabilidade f X. Dessa população, etão, extrai-se uma amostra aleatória simples com reposição, que dá origem a um cojuto X 1, X 2,..., X de variáveis aleatórias idepedetes e ideticamete distribuídas, todas com a mesma distribuição f X. Se f X depede de um ou mais parâmetros, temos de usar a iformação obtida a partir da amostra para estimar esses parâmetros, de forma a cohecermos a distribuição. Nos capítulos ateriores, por exemplo, vimos que a média amostral X é um bom estimador da média populacioal µ, o setido de que ela tede a acertar o alvo da verdadeira média populacioal. Mas vimos, também, que existe uma variabilidade os valores de X, ou seja, cada possível amostra dá origem a um valor diferete do estimador. Na prática, temos apeas uma amostra e, assim, é importate que se dê alguma iformação sobre essa possível variabilidade do estimador. Ou seja, é importate iformar o valor do estimador θ obtido com uma amostra específica, mas é importate iformar também que o verdadeiro valor do parâmetro θ poderia estar em um determiado itervalo, digamos, o itervalo [ θ ε, θ + ε]. Dessa forma, iformamos a ossa margem de erro o processo de estimação; essa margem de erro é cosequêcia do processo de seleção aleatória da amostra. O que vamos estudar agora é como obter esse itervalo, de modo a acertar a maioria das vezes, isto é, queremos um procedimeto que garata que, a maioria das vezes (ou das amostras possíveis), o itervalo obtido coterá o verdadeiro valor do parâmetro. A expressão a maioria das vezes será traduzida como probabilidade alta. Veja a Figura 3.1: aí os itervalos são represetados pelas lihas horizotais e podemos ver que 2 deles ão acertam o alvo, o setido de ão coterem o verdadeiro valor do parâmetro θ, represetado pela liha vertical.

CAPÍTULO 3. INTERVALOS DE CONFIANÇA BASEADOS NA DISTRIBUIÇÃO NORMAL θ Figura 3.1 Iterpretação dos itervalos de cofiaça! Itervalo de cofiaça Com probabilidade alta (em geral, idicada por 1 α ), o itervalo [ θ erro; θ + erro ] coterá o verdadeiro valor do parâmetro θ, ou seja, o procedimeto de costrução garate uma alta probabilidade (1 α) de se obter um itervalo que coteha o verdadeiro valor do parâmetro. 1 α é chamado ível de cofiaça, equato o valor ] α é cohecido como ível de sigificâcia. O itervalo [ θ erro; θ + erro é chamado de itervalo de cofiaça de ível 1 α. Tedo clara a iterpretação do itervalo de cofiaça, podemos resumir a frase acima da seguite forma: ( ]) P θ [ θ ε; θ + ε = 1 α (3.1) Mais uma vez, a probabilidade se refere à probabilidade detre as diversas possíveis amostras, ou seja, a probabilidade está associada à distribuição amostral de θ. Note que os limites do itervalo depedem de θ, que depede da amostra sorteada, ou seja, os limites do itervalo de cofiaça são variáveis aleatórias. Cada amostra dá origem a um itervalo diferete, mas o procedimeto de obteção dos itervalos garate probabilidade 1 α de acerto. 24

CAPÍTULO 3. INTERVALOS DE CONFIANÇA BASEADOS NA DISTRIBUIÇÃO NORMAL EXEMPLO 3.1 Iterpretado um itervalo de cofiaça Em um estudo sobre o Ídice de Massa Corporal (IMC), foi reportado o seguite itervalo de cofiaça de 95% para o IMC médio µ de determiada população, com base em uma amostra de 650 mulheres: [26, 8 0, 6; 26, 8 + 0, 6]. O que podemos dizer e o que ão podemos dizer com base esse itervalo? Solução O que defiitivamete ão podemos dizer é que há uma probabilidade de 0,95 de µ, o verdadeiro IMC médio populacioal, estar o itervalo dado. Note que o itervalo dado é um úico itervalo ou µ está o itervalo ou µ ão está o itervalo e ão temos como saber qual é verdade. O que iteressa é que apeas uma dessas afirmativas é verdadeira com probabilidade 1 e a outra, portato, ão pode acotecer. O que podemos dizer sobre o itervalo dado é que ele foi gerado a partir de uma amostra específica com um método que tem 95% de chace de gerar itervalos aálogos, baseados em outras amostras, que coterão o parâmetro populacioal µ. 3.1.1 Valores críticos da distribuição ormal padrão No estudo da Iferêcia Estatística, é comum a utilização de abscissas de distribuições de probabilidade que delimitam evetos com pequea probabilidade de ocorrêcia. Tais abscissas recebem o ome especial de valor crítico, cuja defiição para o caso da distribuição ormal, ilustrada a Figura 3.2, é dada a seguir. DEFINIÇÃO Valor crítico da distribuição ormal O valor crítico da distribuição ormal referete ao ível de sigificâcia α é a abscissa z α que deixa probabilidade (área) α acima dela, isto é: P(Z > z α ) = α (3.2) 3.2 Itervalo de cofiaça para a média de uma população ormal com base em grades amostras Vamos agora, itroduzir os métodos para obteção do itervalo de cofiaça para a média de uma população. Como visto, a média populacioal é um parâmetro importate, que pode ser muito bem estimado pela média amostral X. Além disso, pelo resultado (2.4), sabemos que, para grades amostras, Z = X µ S N(0; 1) (3.3) 25

CAPÍTULO 3. INTERVALOS DE CONFIANÇA BASEADOS NA DISTRIBUIÇÃO NORMAL Figura 3.2 Valor crítico z α da N(0; 1) Cosideremos, agora, o valor crítico z α/2, coforme ilustrado a Figura 3.3. Daí podemos ver que, se Z N(0; 1), etão P ( z α/2 Z z α/2 ) = 1 α (3.4) Figura 3.3 Valor crítico z α/2 da N(0; 1) Note que isso vale para a distribuição ormal padrão, em geral. Etão, usado os resultados das Equações 3.3 e 3.4 e supodo que seja suficietemete grade para garatir uma boa aproximação, obtemos que ( P z α/2 X µ ) z α/2 = 1 α S Mas isso é equivalete a ) S S P ( z α/2 X µ z α/2 ) S S P ( X z α/2 µ X + z α/2 ) S S P (X z α/2 µ X + z α/2 = 1 α = 1 α = 1 α (3.5) Note a última expressão; ela os diz que ( ]) S S P µ [X z α/2 ; X + z α/2 = 1 α Mas essa é exatamete a forma geral de um itervalo de cofiaça, coforme explicitado a Equação 3.1. Temos, etão, a seguite coclusão: 26

CAPÍTULO 3. INTERVALOS DE CONFIANÇA BASEADOS NA DISTRIBUIÇÃO NORMAL DEFINIÇÃO Itervalo de cofiaça para a média de uma população ormal com base em grades amostras Seja X N(µ; σ 2 ) uma população. Se X 1,..., X é uma amostra aleatória simples dessa população, etão o itervalo de cofiaça de ível de cofiaça 1 α para a média populacioal µ é dado por ] S S [X z α/2 ; X + z α/2 (3.6) O itervalo de cofiaça para µ pode ser escrito a forma [X ε; X + ε] ode ε = z α/2 σ é a margem de erro. Como visto, essa margem de erro está associada ao fato de que diferetes amostras forecem diferetes valores de X cuja média é igual a µ. As diferetes amostras forecem diferetes itervalos de cofiaça, mas uma proporção de 100 (1 α)% desses itervalos irá coter o verdadeiro valor de µ. Note que aqui é fudametal a iterpretação de probabilidade como frequêcia relativa: estamos cosiderado os diferetes itervalos que seriam obtidos, caso sorteássemos todas as possíveis amostras. Assim, o ível de cofiaça está associado à cofiabilidade do processo de obteção do itervalo: esse processo é tal que acertamos (isto é, o itervalo cotém µ) em 100 (1 α)% das vezes. Na prática, temos apeas uma amostra e o itervalo obtido com essa amostra específica, ou cotém ou ão cotém o verdadeiro valor de µ. A afirmativa ( ]) σ σ P µ [X z α/2 ; X + z α/2 = 1 α é válida porque ela evolve a variável aleatória X, que tem diferetes valores para as diferetes amostras. Quado substituímos o estimador X por uma estimativa específica x obtida a partir de uma amostra particular, temos apeas um itervalo e ão faz mais setido falar em probabilidade. É iteressate observar que, se a variâcia σ 2 da população ormal for cohecida, etão a distribuição de Z = overliex µ é exatamete ormal e o itervalo terá ível de cofiaça σ obtido σ o lugar de S terá ível de cofiaça exatamete igual a 1 α. EXEMPLO 3.2 Pesos de homes adultos Em determiada população, o peso dos homes adultos é distribuído ormalmete com um desvio-padrão de 16kg. Uma amostra aleatória simples de 36 homes adultos é sorteada desta população, obtedo-se um peso médio de 78,2kg. Costrua um itervalo de cofiaça de ível de cofiaça 0,95 para o peso médio de todos os homes adultos dessa população. Solução Vamos iicialmete determiar o valor crítico associado ao ível de cofiaça de 0,95. Como 1 α = 0, 95, resulta que α = 0, 05 e α/2 = 0, 025. Aalisado a Figura 3.3, vemos que as duas caudas da distribuição ormal padrão temos de ter 5% da área; logo, em cada cauda temos de ter 2,5% da área total. Em termos da Tabela 1 da distribuição ormal padrão, isso sigifica que etre 0 e z 0,025 temos de ter (50 2, 5)% = 47, 5% 27

CAPÍTULO 3. INTERVALOS DE CONFIANÇA BASEADOS NA DISTRIBUIÇÃO NORMAL Figura 3.4 Valor crítico z 0,025 da N(0; 1) e, assim, temos de procurar o corpo da tabela o valor de 0,475 para determiar a abscissa z 0,025. Veja a Figura 3.4. Procurado o corpo da tabela da distribuição ormal padrão, vemos que o valor 0,475 correspode à abscissa z 0,025 = 1, 96. Como o desvio padrão populacioal é cohecido, o itervalo de cofiaça é [ 78, 2 1, 96 16 ; 78, 2 + 1, 96 16 ] = [72, 9733 ; 83, 4267] 36 36 Esse itervalo cotém ou ão o verdadeiro valor de µ, mas o procedimeto utilizado para sua obteção os garate que há 95% de chace de estarmos certos. 3.2.1 Margem de erro Vamos, agora, aalisar a margem de erro do itervalo de cofiaça para a média de uma população ormal com variâcia cohecida. Ela é dada por ε = z α/2 σ (3.7) Lembrado que o erro-padrão é o desvio-padrão do estimador, podemos escrever ε = z α/2 EP X (3.8) Aalisado a equação (3.7), vemos que a margem de erro depede diretamete do valor crítico e do desvio-padrão populacioal e é iversamete proporcioal à raiz quadrada do tamaho da amostra. Na Figura 3.5 ilustra-se a relação de depedêcia da margem de erro com o desvio-padrão populacioal σ. Temos duas distribuições amostrais cetradas a mesma média e baseadas em amostras de mesmo tamaho. Nas duas distribuições, a área total das caudas sombreadas é α, de modo que o itervalo limitado pelas lihas verticais é o itervalo de cofiaça de ível 1 α, ou seja, a área cetral em ambas distribuições é 1 α. Para a distribuição mais dispersa, isto é, com σ maior, o comprimeto do itervalo é maior. Esse resultado deve ser ituitivo: se há mais variabilidade a população, a ossa margem de erro tem de ser maior, matidas fixas as outras codições (tamaho de amostra e ível de cofiaça). 28

CAPÍTULO 3. INTERVALOS DE CONFIANÇA BASEADOS NA DISTRIBUIÇÃO NORMAL Figura 3.5 Margem de erro versus dispersão populacioal: σ 1 < σ 2 ε 1 < ε 2 Por outro lado, se mativermos fixos o tamaho da amostra e o desvio-padrão populacioal, é razoável, também, que a margem de erro seja maior para um ível de cofiaça maior. Ou seja, se queremos aumetar a probabilidade de acerto, é razoável que o itervalo seja maior. Aumetar a probabilidade de acerto sigifica aumetar o ível de cofiaça, o que acarreta em um valor crítico z α/2 maior. Veja a Figura 3.6, ode ilustra-se o itervalo de cofiaça para dois íveis de cofiaça diferetes: 1 α 1 > 1 α 2. O primeiro itervalo é maior, refletido o maior grau de cofiaça. Figura 3.6 Margem de erro versus ível de cofiaça: α 1 < α 2 (1 α 1 ) > (1 α 2 ) ε 1 > ε 2 Fialmete, matidos o mesmo desvio-padrão populacioal e o mesmo ível de cofiaça, quato maior o tamaho da amostra, meor será a margem de erro, mas a redução da margem de erro depede de ; assim, para reduzir a margem de erro pela metade, teremos que quadruplicar 29