7 Teste de Hipóteses

7 Teste de Hipóteses 7-1 Aspectos Gerais 7-2 Fundamentos do Teste de Hipóteses 7-3 Teste de uma Afirmação sobre a Média: Grandes Amostras 7-4 Teste de uma Afirmação sobre a Média : Pequenas Amostras 7-5 Teste de uma Afirmação sobre uma Proporção 1

7-1 Aspectos Gerais Definição Hipótese Em Estatística, é uma alegação ou afirmação sobre uma propriedade de uma população 2

Regra do Evento Raro para Inferência Estatística Analisar uma amostra para distinguir entre resultados que podem ocorrer facilmente e os que dificilmente ocorrem. A ocorrência de resultados altamente improváveis pode ser explicada pela ocorrência efetiva de um evento raro, ou de que nossa suposição não está correta. 3

7-2 Fundamentos do Teste de Hipóteses 4

Figura 7-1 Teorema Central do Limite Distribuição Esperada de Médias Amostrais Supondo µ = 98,6 Dados amostrais: z = - 6,64 ou x = 98,20 Médias amostrais prováveis µ x = 98,6 z = - 1,96 ou x = 98,48 z = 1,96 ou x = 98,72 5

Componentes de um Teste de Hipóteses Formal 6

Hipótese Nula: H 0 Afirmação sobre valor de parâmetro populacional Deve conter a condição de igualdade =,, ou Testar a Hipótese Nula diretamente Rejeitar H 0 ou não rejeitar H 0 7

Hipótese Alternativa: H 1 Deve ser verdadeira se H 0 é falsa, <, > oposto da Hipótese Nula. 8

Nota sobre a Indicação de suas Próprias Afirmações (Hipóteses) Se você está fazendo uma pesquisa e deseja usar um teste de hipótese para apoiar sua afirmação, esta afirmação deve ser formulada de maneira que se torne a hipótese alternativa (hipótese de pesquisa). 9

Nota sobre o Teste de Validade de uma Afirmação Alheia A afirmação original às vezes se torna a hipótese nula (porque contém a igualdade) e por vezes passa a ser a hipótese alternativa (porque não contém a desigualdade). 10

Estatística de Teste um valor baseado nos dados amostras que é usado para tomar uma decisão sobre a rejeição da hipótese nula. para grandes amostras, testando afirmações sobre médias populacionais z = x - µ x σ n 11

Região Crítica Conjunto de todos os valores da estatística de teste que levam à rejeição da hipótese nula Região Crítica 12

Nível de Significância denotado por α é a probabilidade de rejeitar a Hipótese Nula quando ela é verdadeira. são comuns as escolhas 0,05; 0,01 e 0,10. (É tipicamente predeterminado) 13

Valores Críticos Valor, ou valores, que separa(m) a região crítica dos valores da estatística de teste que não levam à rejeição da hipótese nula. Rejeita H 0 Não rejeita H 0 Valor Crítico (escore z ) 14

Teste Bilateral, Unilateral Esquerdo, Unilateral Direito As caudas em uma distribuição são as regiões extremas delimitadas por valores críticos. 15

Teste Bilateral H 0 : µ = 100 H 1 : µ 100 α é dividido igualmente entre as duas caudas da região crítica Significa menor ou maior que Rejeita H 0 Não Rejeita H 0 Rejeita H 0 100 Valores que são significativamente distantes de 100 16

Teste Unilateral Direito H 0 : µ 100 H 1 : µ > 100 Pontos à direita Não rejeita H 0 Rejeita H 0 100 Valores que são significativamente distantes de 100 17

Teste Unilateral Esquerdo Pontos à Esquerda H 0 : µ 100 H 1 : µ < 100 Rejeita H 0 Não rejeita H 0 Valores que são significativamente distantes de 100 100 18

Conclusões no Teste de Hipóteses Testar sempre a hipótese nula 1. Rejeitar a hipótese nula H 0 2. Não rejeitar a hipótese nula H 0 É necessário formular corretamente a conclusão final. Veja Figura 7-4 19

FIGURA 7-4 Terminologia das Conclusões Finais Início A afirmação original contém a condição de igualdade? Sim (A afirmação original contém a igualdade e se torna H 0 ) Não (A afirmação original não contém a igualdade e se torna H 1 ) Rejeitar H 0? Sim (Rejeitar H 0 ) Não (Não rejeitar H 0 ) Rejeitar H 0? Sim (Rejeitar H 0 ) Não (Não rejeitar H 0 ) Há evidência suficiente para garantir a rejeição da afirmação de que... (afirmação original). Não há evidência suficiente para garantir a rejeição da afirmação de que... (afirmação original). Os dados amostrais apóiam a afirmação de que...(afirmação original). Não há evidência amostral para apoiar a afirmação de que... (afirmação original). (Único caso em que a afirmação original é rejeitada). (Único caso em que a afirmação original é apoiada 20

Aceitar versus Não Rejeitar alguns textos usam aceitar a hipótese nula devemos reconhecer que não estamos provando a hipótese nula estamos dizendo que a evidência amostral não é forte o suficiente para recomendar a rejeição da hipótese nula (tal como um júri decidir que não há evidência suficiente para condenar um acusado) 21

Erro Tipo I O erro de rejeitar a hipótese nula quando ela é verdadeira. α (alfa) é usado para representar a probabilidade de um erro tipo I. Exemplo: Rejeitar a afirmação de que a temperatura do corpo é 37ºC, quando aquela média é, de fato, 37ºC. 22

Erro Tipo II Erro de não rejeitar a hipótese nula quando ela é falsa. ß (beta) é usado para representar a probabilidade de um erro tipo II. Exemplo: Não rejeitar a afirmação de que a temperatura do corpo é 37ºC, quando aquela é, de fato, falsa (a média não é 37ºC). 23

Tabela 7-2 Erros Tipo I e Tipo II Verdadeiro Estado da Natureza A hipótese nula é verdadeira A hipótese nula é falsa Erro tipo I Decisão Decidimos rejeitar a hipótese nula Não rejeitamos a hipótese nula (rejeição de uma H 0 verdadeira) α Decisão correta Decisão correta Erro tipo II (não rejeição de uma H o falsa) β 24

Controle dos Erros Tipo I e Tipo II Para α fixo, um aumento do tamanho n da amostra ocasiona uma redução de β. Para um tamanho n, fixo, de amostra, uma diminuição de α acarreta um aumento de β. Reciprocamente, um aumento de α acarreta a diminuição de β. Para reduzir α e β, deve-se aumentar o tamanho da amostra. 25

Definição Poder de um Teste de Hipóteses é a probabilidade (1 - β ) de rejeitar um hipótese nula falsa, que é calculada através de um particular nível de significância α e um particular valor de média que é uma alternativa para o valor suposto verdadeiro na hipótese nula. 26

7-3 Teste de uma Afirmação sobre uma Média: Grandes Amostras 27

Três Métodos Discutidos 1) Método tradicional 2) Método do valor P 3) Intervalos de confiança 28

Hipóteses para testar afirmações sobre média populacional 1) A amostra é uma amostra aleatória simples. 2) A amostra é grande (n > 30). a) Aplica-se o Teorema Central do Limite b) Pode-se usar a distribuição normal 3) Se σ é desconhecido, podemos utilizar o desvio-padrão amostral s como uma estimativa para σ. 29

Estatística de Teste para Afirmações sobre µ quando n > 30 x - µ x z = σ n O método tradicional (ou clássico) do teste de hipóteses converte uma estatística amostral importante, em uma estatística de teste que é comparada com um valor crítico. 30

Método Tradicional (ou Clássico) de Teste de Hipóteses Figura 7-5 1. Identificar a afirmação ou hipótese específica a ser testada e colocá-la em forma simbólica. 2. Dar a forma simbólica que deve ser verdadeira quando a afirmação original é falsa. 3. Das 2 expressões simbólicas obtidas até agora, a hipótese nula H0 é a que contém a condição de igualdade. H1 é a outra afirmação. 4. Escolher o nível de significância α com base na gravidade de um erro tipo I. Tomar α pequeno se as conseqüências da rejeição de uma H0 verdadeira são sérias. São muito comuns os valores de 0,05 e 0,01. 5. Identificar a estatística relevante para este teste e determinar sua distribuição amostral. 6. Determinar a estatística de teste, os valores críticos e a região crítica. Esboçar um gráfico e incluir a estatística de teste, o(s) valor(es) crítico(s) e a região crítica. 7. Rejeitar H0 se a estatística de teste está na região crítica. Não rejeitar H0 se a estatística de teste não está na região crítica. 8. Reformular a decisão precedente em termos simples, não-técnicos. (Ver Figura 7-4) 31

Critério de Decisão (Passo 7) Rejeitar a hipótese nula se a estatística de teste está na região crítica Não rejeitar a hipótese nula se a estatística de teste não está na região crítica. 32

Método do Valor P para o Teste de Hipóteses Similar ao método tradicional a principal diferença é a maneira pela qual é tomada a decisão para rejeitar a hipótese nula. o procedimento encontra a probabilidade (Valor P) de obter um resultado e rejeita-se a hipótese nula se esta probabilidade é muito baixa. 33

Método do Valor P para o Teste de Hipóteses Definição Valor P (ou valor de probabilidade) é a probabilidade de obter um valor da estatística amostral de teste no mínimo tão extremo como o que resulta dos dados amostrais, na suposição de a hipótese nula ser verdadeira. 34

Valor P Valores P pequenos (tais como 0,05 ou menor) Interpretação Resultados amostrais incomuns. Diferença significante da hipótese nula. Valores P grandes (acima de 0,05 ) Os resultados amostrais não são incomuns. Não é uma diferença significante da hipótese nula. 35

Figura 7-8 Determinação dos Valores P Início Unilateral esquerdo Que tipo de teste? Bilateral Unilateral direito Valor P = área à esquerda da estatística de teste À esquerda Valor P = 2 vezes a área à esquerda da estatística de teste A estatística de teste está à direita ou à esquerda do centro? À direita Valor P = 2 vezes a área à direita da estatística de teste Valor P = área à direita da estatística de teste Valor P Valor P é duas vezes esta área Valor P é duas vezes esta área Valor P µ µ Estatística de teste Estatística de teste µ Estatística de teste µ Estatística de teste 36

Procedimento é o mesmo, exceto para os passos 6 e 7 Passo 6: Achar o valor P (como mostrado na Figura 7-8) Passo 7: Reportar o valor P. Rejeitar a hipótese nula se o valor P é no máximo igual ao nível de significância α. Não rejeitar a hipótese nula se o valor P é maior do que o nível de significância α. 37

Teste de Afirmações com Intervalos de Confiança Uma estimativa intervalar de um parâmetro populacional contém os valores prováveis daquele parâmetro. Devemos, por conseguinte, rejeitar uma afirmação de que o parâmetro populacional tenha um valor que não está compreendido no intervalo de confiança. 38

Razão Subjacente do Teste de Hipóteses Se, sob uma dada suposição observada, a probabilidade de obtermos a amostra é excepcionalmente pequena, concluímos que a suposição provavelmente não é correta. Ao testarmos uma afirmação, fazemos uma suposição (hipótese nula) que contém a igualdade. Comparamos então a suposição com os dados amostrais, e formulamos uma das conclusões seguintes: 39

Razão Subjacente do Teste de Hipóteses Se os resultados amostrais podem ocorrer facilmente quando a suposição (hipótese nula) é verdadeira, atribuímos ao acaso a discrepância relativamente pequena entre a suposição e os resultados amostrais. Se os resultados amostrais não são susceptíveis de ocorrer com facilidade quando a suposição (hipótese nula) é verdadeira, explicamos a discrepância relativamente grande entre a suposição e os resultados amostrais concluindo que a suposição não é verdadeira. 40

7-4 Teste de uma Afirmação sobre uma Média: Pequenas Amostras 41

Hipóteses para testar afirmação sobre média populacional 1) A amostra é uma amostra aleatória simples. 2) A amostra é pequena (n 30). 3) O valor do desvio-padrão populacional σ é desconhecido. 4) A população original tem distribuição essencialmente normal. 42

Estatística de Teste para uma Distribuição t- Student t = x -µ x s n Valores tabelados Valores Críticos Graus de liberdade = n -1 Valores t críticos à esquerda da média são negativos. 43

Propriedades Importantes da Distribuição t de Student 1. A distribuição t de Student é diferente para cada tamanho de amostra. 2. A distribuição t de Student tem a mesma forma geral de sino da distribuição normal. Sua forma mais aberta reflete a maior variabilidade esperada em pequenas amostras. 3. A distribuição t de Student tem média t = 0 (tal como a distribuição normal padronizada que tem média z = 0). 4. O desvio-padrão da distribuição t de Student varia com o tamanho da amostra, e é maior do que 1 (ao contrário da distribuição normal padronizada, em que σ = 1). 5. À medida que o tamanho n da amostra aumenta, a distribuição t de Student se aproxima da distribuição normal. Para valores de n > 30, as diferenças são tão pequenas que podemos usar os valores críticos z em lugar de elaborar uma tabela muito maior de valores críticos de t. (Os valores na base da Tabela A-3 são iguais aos valores críticos z correspondentes da distribuição normal padronizada.) 44

Figura 7-11 Escolha entre a Distribuição Normal e a Distribuição t ao Testar uma Afirmação sobre a Média Populacional µ Início Use a distribuição normal com n > 30? Não Sim x - µ Z = x σ/ n (Se σ é desconhecido, use s.) A distribuição da população é essencialmente normal? (Trace um histograma.) Não Use métodos não-paramétricos, que não exijam uma distribuição normal. Sim σ é conhecido? Não Use a distribuição t de Student com x - µ t x = s/ n Use a distribuição normal com x - µ Z = x σ/ n (Este caso é raro.) 45

7-5 Teste de uma Afirmação sobre uma Proporção 46

Hipóteses para testar afirmação sobre proporção populacional 1) A amostra é uma amostra aleatória simples. 2) São verificadas as condições para um experimento binomial. 3) As condições np 5 e n(1-p) 5 são ambas satisfeitas, de modo que a distribuição binomial das proporções amostrais pode ser aproximada por uma distribuição normal com µ = np e σ = np(1-p) 47

Notação n = número de provas p = x/n (proporção amostral) p = proporção populacional (usada na hipótese nula) q = 1 - p 48

Estatística para Teste de uma Afirmação sobre uma Proporção p - p z = pq n 49

Método do Valor P Conforme descrito anteriormente Rejeitar a hipótese nula se o valor P é menor ou igual ao nível de significância α. 50

p algumas vezes é dado diretamente 10% dos carros esportes observados são vermelhos está expresso como p = 0,10 p algumas vezes deve ser calculado 96 das donas de casa pesquisadas tem TV à cabo e 54 não, é calculado usando x n 96 (96+54) p = = = 0,64 51

Estatística para Teste de uma Afirmação sobre uma Proporção z = p - p pq n x np x - µ x - np z = = = n n = p - p σ npq npq pq n n 52

8 Inferências com Base em Duas Amostras 8-1 Aspectos Gerais 8-2 Inferências sobre Duas Médias: Amostras Independentes e Grandes 8-3 Inferências sobre Duas Médias: Amostras Dependentes 53

8-1 Aspectos Gerais Há muitas situações importantes em que se faz necessário comparar dois conjuntos de dados amostrais. 54

8-2 Inferências sobre Duas Médias: Amostras Independentes e Grandes 55

Definições Duas Amostras: Independentes Os valores amostrais escolhidos de uma população não tem qualquer relação com os valores amostrais extraídos da outra população. Se os valores de uma amostra estão relacionados com os valores de outra amostra, as amostras são dependentes. Estas amostras são freqüentemente chamadas amostras ligadas ou amostras emparelhadas. 56

Suposições 1. As duas amostras são independentes. 2. Os tamanhos das duas amostras são grandes. Ou seja, n 1 > 30 e n 2 > 30. 3. Ambas as amostras são amostras aleatórias simples. 57

Teste de Hipóteses Estatística de Teste para Duas Médias: Amostras Independentes e Grandes z = (x 1 - x 2 ) - (µ 1 -µ 2 ) σ2. σ 2 1 + 2 n n 1 2 58

Teste de Hipóteses Estatística de Teste para Duas Médias: Amostras Independentes e Grandes σ 1 e σ 2 : P-valor: Se σ 1 e σ 2 não são conhecidos, utilizar em seu seu lugar s 1 e s 2 desde que ambas as amostras sejam grandes. Usar o valor calculado da estatística de teste z, e determinar o P-valor através do mesmo procedimento resumido na Figura 7-8. Valores críticos: Baseado no nível de significância α, determinar os valores críticos através do processo apresentado na Seção 7-2. 59

Coca versus Pepsi Conjunto de dados fornece pesos (em libras) de amostras de Coca e Pepsi (regulares). As estatísticas amostrais estão mostradas abaixo. Use o nível de significância de 0,01 para testar a afirmação que o peso médio da Coca regular é diferente do peso médio da Pepsi regular. Coca Pepsi n 36 36 x 0,81682 0,82410 s 0,007507 0,005701 60

Coca Versus Pepsi 61

Afirmação: µ 1 µ 2 H o : µ 1 = µ 2 H 1 : µ 1 µ 2 Coca Versus Pepsi α = 0,01 Rejeitar H 0 Não rejeitar H 0 Rejeitar H 0 Z = - 2,575 Z = 2,575 µ 1 - µ 2 = 0 ou Z = 0 62

Coca Versus Pepsi Estatística de Teste para Duas Médias: Amostras Independentes e Grandes z = (0,81682 0,82410) - 0 0,0075707 2 0,005701 + 2 36 36 = - 4,63 63

Afirmação: µ 1 µ 2 Coca Versus Pepsi H o : µ 1 = µ 2 H 1 : µ 1 µ 2 α = 0,01 Há evidência significativa para apoiar a afirmação que há uma diferença entre os pesos médios da Coca e da Pepsi. Rejeita H 0 Não rejeita H 0 Rejeita H 0 Rejeita-se a Hipótese Nula Dados amostrais: z = - 4,63 Z = - 2,575 Z = 2,575 µ 1 - µ 2 = 0 ou Z = 0 64

Intervalos de Confiança (x 1 - x 2 ) - E < (µ 1 -µ 2 ) < (x 1 - x 2 ) + E onde E = z α/ 2 σ2 σ 2 1 + 2 n n 1 2 65

8-3 Inferências sobre Duas Médias: Amostras Dependentes 66

Suposições 1. Os dados amostrais consistem de amostras emparelhadas (amostras dependentes de duas populações). 2. As amostras são amostras aleatórias simples. 3. Se o número de pares de dados amostrais é pequeno (n 30), então a população de diferenças dos valores pareados deve ser aproximadamente normalmente distribuídas. 67

Notação para Amostras Dependentes µ d = média das diferenças d para a população de dados emparelhados d s d n = valor médio das diferenças d para os dados amostrais emparelhados (igual à média dos valores de x - y ) = desvio-padrão das diferenças d para os dados amostrais emparelhados. = número de pares de dados. 68

Estatística de Teste para Dados Amostrais EmparelhadosTest Statistic for Matched Pairs of Sample Data t = d - µ d s d n onde graus de liberdade = n - 1 69

Valores Críticos Se n 30, os valores críticos são determinados através da Tabela A-3 (distribuição t de student). Se n > 30, os valores críticos são determinados através da Tabela A- 2 (distribuição normal). 70

Intervalos de Confiança d - E < µ d < d + E onde E = t α/ 2 s d n graus de liberdade = n -1 71

Quanto Estudantes de Estatística (homens) Exageram sua Altura? Usando os dados amostrais da Tabela 8-1 (com o outlier excluído), construir uma estimativa de um intervalo de 95% de confiança de µ d, que é a média das diferenças entre as alturas relatadas pelos alunos(homens) e suas alturas medidas. 72

Tabela 8-1 Alturas Relatadas e Medidas (em polegadas) de Estudantes de Estatística Estudante A B C D E F G H I J K L Altura 68 74 82,25 66,5 69 68 71 70 70 67 68 70 Relatada Altura 66,8 73,9 74,3 66,1 67,2 67,9 69,4 69,9 68,6 67,9 67,6 68,8 Medida Diferença 1,2 0,1 7,95 0,4 1,8 0,1 1,6 0,1 1,4-0,9 0,4 1,2 outlier 73

Quanto Estudantes de Estatística (homens) Exageram em sua Altura? d = 0,672727 s = 0,825943 n = 11 t α/2 = 2,228 (determinado através da Tabela A-3 com 10 graus de liberdade e 0,05 bilateral) 74

Quanto Estudantes de Estatística (homens) Exageram sua Altura? E = t α/ 2 s d n 0,825943 (2,228)( ) E = 11 = 0,554841 75

Quanto Estudantes de Estatística (homens) Exageram sua Altura? 0,12 < µ d < 1,23 A longo prazo, 95% de tais amostras levarão a limites do intervalo de confiança que contêm efetivamente a verdadeira média populacional das diferenças. Note que os limites do intervalo de confiança não contém 0, o que indica que o verdadeiro valor de µ d é significativamente diferente de. Há evidência suficiente para apoiar a afirmação de que há diferença entre as alturas relatadas e as alturas medidas de estudantes do sexo masculino. 76