Bioestatística (MAD125) Turma: ENA Período: 2015/2 Testes de Hipóteses: noções básicas: 17/02/2016 1
Testes de Hipóteses: Na aula de hoje veremos a terminologia usada em testes de hipóteses (hipóteses nula e alternativa, erros tipo I e tipo II, hipóteses unilaterais e bilaterais, etc); como construir um teste de hipóteses; testes de hipóteses sobre a média e a proporção populacionais. Referências Principais: Bussab e Morettin. Estatística Básica. Editora Saraiva. Quinta edição. (Cap. 12). Triola. Introdução à Estatística. LTC. Nona edição. (Cap. 7). 2
Resultados da pesquisa fotopolicial : que eles revelam? o Uma pesquisa em Minnesota foi realizada com o objetivo de revelar opiniões sobre o fotopolicial que usa câmeras posicionadas de modo a flagrarem motoristas que desrespeitam o sinal vermelho. As câmeras fotografam as placas dos carros que avançam o sinal vermelho. Um jornal local patrocinou uma pesquisa devido à legislação de Minnesota, ainda pendente, que aprovaria o uso de câmeras por violações de trânsito. Os pesquisadores entrevistaram 829 adultos de Minnesota e verificaram que 51% se o- punham à legislação sobre o fotopolicial. 3
A maioria de nós ultrapassa um sinal vermelho? Em uma pesquisa, de nível nacional, com 880 motoristas selecionados aleatoriamente, 56% admitiram que avançavam um sinal vermelho. Ao escrever um artigo distribuído pela Associated Press, a repórter Sonja Barisic escreveu: Praticamente todos os americanos admitem que avançar um sinal vermelho é perigoso, mas mais da metade admitiu que já o fez, em geral porque estava com muita pressa. Essa frase inclui a maioria (mais de 50%) de todos os motoristas americanos ultrapassa um sinal vermelho. Os resultados da pesquisa realmente confirmam essa alternativa? 4
Na aula de hoje apresentaremos os métodos padrões para testes de afirmativas tais como as dadas a seguir, baseadas nos dois exemplos anteriores. Há evidência amostral suficiente para apoiar a afirmativa de que a proporção de todos os adultos de Minnesota que se opõem à legislação do foto-policial é maior que 0,5? Há evidência amostral suficiente para apoiar que a afirmação de que a proporção dos motoristas americanos que ultrapassa um sinal vermelho é maior do que 0,5? 5
Conceitos Básicos Em estatística, uma hipótese é uma afirmativa sobre um parâmetro, ou seja, sobre uma característica da população. Um teste de hipótese é um procedimento para testar uma hipótese baseado numa amostra da população. A seguir vamos enunciar uma regra importante na Inferência Estatística chamada Regra do Evento Raro. Se, sob uma dada suposição, a probabilidade de um evento particular observado é excepcionalmente pequena, concluímos que a suposição provavelmente não está correta. A seguir veremos um exemplo sobre o uso dessa regra. 6
Exemplo: Escolha de sexo. As Indústrias ProCare comercializaram um produto chamado Gender Choice que, de acordo com a propaganda, permitia aos casais aumentar suas chances de ter um menino em até 85%, e uma menina, em até 80%. O produto estava disponível em embalagens azuis para casais que quisessem um menino e, (adivinhe) em embalagens rosas, para casais que queriam uma menina. Suponha que façamos o seguinte experimento com 100 casais que querem meninas e usam o produto Gender Choice, um sistema fácil de usar em casa, descrito na embalagem cor-de-rosa. Com o propósito de testar a afirmativa de um aumento na probabilidade de nascer uma menina, suporemos que o produto não tenha qualquer efeito. 7
Usando o bom senso e nenhum método formal de estatística, o que poderíamos concluir sobre a suposição de nenhum efeito do Gender Choice, se 100 casais que querem uma menina e usam o produto têm 100 bebês, sendo (a) cinquenta e duas (52) meninas; (b) noventa e sete (97) meninas. Solução (a) Em geral, esperamos cerca de 50 meninas em 100 nascimentos. O resultado 52 meninas é próximo de 50 de modo que não podemos concluir que o Gender Choice seja eficaz. Se os 100 casais não tivessem usado qualquer método especial de escolha de sexo, o resultado de 52 meninas poderia facilmente ocorrer ao acaso. 8
A suposição de nenhum efeito do Gender Choice parece ser adequada. Não há evidência suficiente para dizer que o produto seja eficaz. (b) O resultado 97 meninas em 100 nascimentos é extremamente improvável de ocorrer por acaso. Poderíamos explicar a ocorrência de 97 meninas de uma de duas maneiras: ou um evento extremamente raro ocorreu por acaso, ou o Gender Choice é eficaz. A probabilidade extremamente baixa de 97 meninas em 100 nascimentos é evidência forte contra a hipótese de que o Gender Choice não tenha qualquer efeito. Logo, o produto parece ser eficaz. 9
O ponto-chave nesse exemplo é o de que devemos concluir que o produto é eficaz apenas se obtivermos significativamente mais meninas do que em geral esperaríamos. Embora os resultados de 52 meninas e 97 meninas estejam ambos acima da média (50), o resultado 52 não é significativo, enquanto que o de 97 é um resultado significativo. Esse exemplo ilustra a abordagem básica u- sada em testes de hipóteses. O método formal envolve uma variedade de termos e condições padrões, incorporados em um procedimento organizado. 10
Fundamentos do Teste de Hipótese 1. Hipóteses Nula (H 0 ) e Alternativa (H 1 ) A hipótese nula, denotada por H 0, é uma afirmativa sobre um parâmetro. Por exemplo: µ = 90, p = 0, 10, σ 2, etc. A hipótese alternativa, denotada por H 1, é uma afirmativa complementar à hipótese nula tal que não exista interseção entre as duas hipóteses. Por exemplo: µ > 90, p 0, 10, σ < 2, etc. Temos que decidir por uma das duas hipóteses baseando-nos numa amostra da população. Logo, estamos sujeitos a dois erros diferentes. Decisão H 0 é verdadeira H 0 não é verdadeira Rejeitar H 0 Erro tipo I sem erro Não rejeitar H 0 sem erro Erro tipo II 11
2. Estatística de Teste: é uma função que produz um valor real com base nos dados amostrais. Uma regra de decisão ou procedimento de teste consiste em especificar um conjunto de valores da estatística de teste para os quais rejeitaremos a hipótese nula (H 0 ). Chamamos esse conjunto de valores, para os quais rejeitaremos H 0, de Região Crítica do teste. Como escolher a estatística de teste? Isso dependerá das hipóteses que serão testadas. Para cada teste, há uma escolha natural. Por exemplo, num teste sobre a média populacional usamos a média amostral ou o seu valor padronizado de acordo com a hipótese nula. 12
Como especificar a região crítica do teste? 4. Nível de Significância (α) do teste: é a probabilidade de se cometer o erro tipo I, ou seja, é a probabilidade de rejeitar uma hipótese nula verdadeira. No procedimento clássico de testes de hipóteses, fixa-se o valor do nível de significância, geralmente em 1%, 5% ou 10%, e, usando a distribuição amostral da estatística de teste, é possível determinar a Região Crítica do teste. Esse procedimento baseia-se na suposição de que o erro tipo I é o mais grave. 13
5. Erro tipo II: usamos a letra grega β para representar a probabilidade de cometer o erro tipo II: não rejeitar uma hipótese nula falsa. Para fins práticos, a hipótese nula a ser fixada aqui será sempre uma hipótese simples, isto é, admitirá um único valor para o parâmetro. Desse modo, calcular a probabilidade de se cometer o erro I, é trivial, pois se H 0 é verdadeira, o valor do parâmetro está determinado. No entanto, a hipótese alternativa será composta, ou seja, admitirá mais de um valor possível para o parâmetro. Na maioria das vezes, admitirá infinitos valores para o parâmetro. Nesse caso, ao condicionar a probabilidade sob a suposição de que H 0 é falsa, existirão diversas possibilidades de tal forma que o erro tipo II será olhado como uma função dos valores admitidos sob essa condição. 14
Exemplo: Especificação da hipótese nula sob o procedimento clássico. Nas situações a seguir, escolha como hipótese nula, aquela que para você leva a um erro tipo I mais grave. Descreva quais são os dois erros em cada caso. a. O trabalho de um operador de radar é detectar aeronaves inimigas. Quando surge alguma coisa estranha na tela, ele deve decidir entre as hipóteses 1. está começando um ataque; 2. tudo bem, apenas uma leve interferência. b. Num júri, um indivíduo está sendo julgado por um crime. As hipóteses sujeitas ao júri são: 1. o acusado é inocente; 2. o acusado é culpado. c. Um pesquisador acredita que descobriu uma vacina contra resfriado. Ele irá conduzir uma pesquisa de laboratório para verificar a veracidade da afirmação. As hipóteses que pode testar são: 1. a vacina é eficaz; 2. a vacina não é eficaz. 15
6. Testes Bilaterais e Unilaterais: estão associados à forma da hipótese alternativa e, consequentemente, da região crítica. Suponha um teste sobre a média populacional e que a média amostral é usada como estatística de teste. Suponha também que H 0 : µ = µ 0. Se a hipótese alternativa é do tipo µ µ 0, rejeitaremos H 0 para valores da média amostral significativamente afastados de µ 0, à esquerda ou à direita de µ 0. Nesse caso, temos um teste bicaudal/bilateral. Se a hipótese alternativa é do tipo µ > µ 0, rejeitaremos H 0 para valores da média amostral significativamente afastados de µ 0, à direita de µ 0. Nesse caso, temos um teste unicaudal/unilateral. Se a hipótese alternativa é do tipo µ < µ 0, rejeitaremos H 0 para valores da média amostral significativamente afastados de µ 0, à esquerda de µ 0. Nesse caso, temos um teste unicaudal/unilateral. 17
7. Procedimento Clássico de Testes de Hipóteses: Passo 1: Fixe a hpótese nula a ser testada e qual é a forma da hipótese alternativa. Passo 2: Use a teoria estatística e as informações disponíveis para decidir qual estatística será usada no teste. Obtenha a distribuição amostral da estatística de teste. Passo 3: Fixe o nível de significância α do teste, isto é, a probabilidade de rejeitar uma hipótese nula verdadeira e determine a região crítica do teste. Passo 4: Use a amostra para calcular o valor amostral da estatística de teste. Passo 5: Se o valor amostral cair na região crítica, rejeite H 0, caso contrário, não rejeite H 0. 18
Vejamos como ficam esses passos no exemplo dos motoristas que avançam o sinal vermelho. Lembre que n = 880 e ˆp = 0, 56, a proporção amostral dos motoristas que avançam um sinal vermelho. Seja p, a proporção populacional dos motoristas que avançam um sinal vermelho. Podemos fixar como hipóteses { H0 : p = 0, 50 H 1 : p > 0, 50. H 1 representa a afirmação da repórter de que a maioria dos motoristas americanos avança um sinal vermelho (p > 0, 50). Como estatística de teste vamos usar a proporção amostral ˆp. 19
Vimos na aula anterior que para n grande ˆp p p(1 p)/n a N(0, 1). Fixemos a probabilidade de rejeitar H 0, quando ela é verdadeira em 5%: α = 0, 05. Como o teste é unilateral, a forma da região crítica será unicaudal à direita (H 1 : p > 0, 50). Dizer que H 0 é verdadeira nesse exemplo equivale a ter p = 0, 50 tal que ˆp 0, 5 0, 25/880 a N(0, 1) sob H 0. 20
Como φ(1, 64) 0, 95, conforme a figura a seguir, segue que a região crítica será do tipo Z 0 = ˆp 0, 5 0, 25/880 > 1, 64 ou, equivalentemente, ˆp > 0, 5 + 1, 64 0,25 800 0, 528. Como o valor amostral é z 0 3, 56 (ˆp = 0, 56), ao nível de significância de 5%, rejeitamos a hipótese nula de que p = 0, 50 em favor da hipótese alternativa de que p > 0, 50. 21
8. Terminologia: Aceitar/Não Rejeitar Alguns textos dizem aceitar H 0 em vez de não rejeitar H 0. Qualquer que seja a expressão usada: aceitar ou não rejeitar, devese reconhecer que não estamos provando a hipótese nula; estamos apenas dizendo que a evidência amostral não é forte o bastante para garantir a sua rejeição. É como um júri dizendo que não há evidência suficiente para condenar um suspeito. O termo aceitar é, de alguma forma enganoso, pois parece implicar que a hipótese nula foi comprovada. A sentença não rejeitar H 0 diz mais corretamente que a evidência não é forte para garantir a rejeição de H 0. 22
9. Valor-P ou p-valor ou Nível Descritivo ou Probabilidade de Significância O procedimento clássico de testes de hipóteses parte da fixação do valor do nível de significância α. Outra maneira de proceder consiste em apresentar o p-valor do teste. De maneira informal, o p-valor caracteriza o grau de adesão dos dados amostrais à hipótese nula. É calculado usando-se uma probabilidade condicional, supondo que H 0 é verdadeira. Portanto, o p- valor está entre 0 e 1. Na prática, rejeitaremos H 0 para p-valores muito pequenos. A diferença é que aqui não se constrói uma região crítica. Nesse procedimento, calculamos o valor amostral da estatística de teste e verificamos como esse valor se apresenta com relação à distribuição amostral sob a suposição de H 0 ser verdadeira. 23
Se o valor amostral da estatística de teste estiver muito na cauda dessa distribuição, concluiremos que os dados não estão trazendo evidência a favor de H 0. Caso contrário, não teremos evidência contra H 0. O cálculo do p-valor dependerá se o teste é uni ou bilateral. Vejamos como fica o p-valor no exemplo dos motoristas que avançam o sinal vermelho. Sob H 0, vimos que ˆp 0, 5 0, 25/880 a N(0, 1). O valor amostral da estatística de teste é z 0 = 0,56 0,50 3, 56 tal que 0,25/880 p-valor = P (Z 0 3, 56 H 0 ) 0, 0002. Sob H 0 a distribuição de Z 0 é N(0, 1). 24
Ou seja, se H 0 é de fato verdadeira, a probabilidade de termos obtido uma proporção amostral tão grande ou maior que 0,56 é de apenas um para cada 5000. Portanto, concluímos que os dados não trazem evidência a favor de H 0 e devemos rejeitá-la. Observe que apesar de usarmos um procedimento diferente, chegamos a mesma conclusão quando adotamos o procedimento clássico com nível de significância de 5%. 25
De fato, o p-valor corresponde ao maior nível de significância para o qual aceitaremos H 0. Para qualquer nível de significância α p-valor, aceitamos H 0. Fisher (1954) sugeriu uma escala de evidência com base no p-valor p-valor Natureza da evidência contra H 0 0,10 marginal 0,05 moderada 0,025 substancial 0,01 forte 0,005 muito forte 0,001 fortíssima 26
Se o teste for bilateral, deveremos calcular a área das duas caudas correspondentes ao valor amostral padronizado supondo H 0 verdadeira. A maioria dos softwares estatísticos retornam o p-valor dos testes executados. Por isso é fundamental saber interpretá-los. Assim, lembre-se de em todo teste ter clareza de quem é a hipótese nula e quem é a hipótese alternativa. Além disso, lembre que o p-valor fornece um grau de evidência amostral contra H 0, no sentido de quanto menor ele é, mais forte é a evidência contra a hipótese nula. Lembre: podemos pensar no p-valor como uma medida de adesão dos dados amostrais à hipótese nula. Se ele não é muito pequeno é porque é razoável que eles tenham sido gerados pela distribuição proposta por H 0. 27
Vimos como realizar testes de uma afirmativa sobre a proporção da população no exemplo dos motoristas. A seguir apresenta-se um resumo do procedimento para testes sobre proporções populacionais (p). Hipótese nula H 0 : p = p 0, p 0 é uma proporção fixada. Nível de significância α (probabilidade de cometer o erro I). Em geral é fixado em 1%, 5% ou 10%. Estatística de teste: Z 0 = ˆp p 0 p0 (1 p 0 ) n, em que ˆp é a proporção amostral e n é o tamanho da amostra observada. 28
A seguir, três formas possíveis para a hipótese alternativa e as respectivas regiões críticas em função do nível de significância são apresentadas. Lembre que a região crítica do teste é o conjunto de valores amostrais da estatística de teste para os quais rejeitaremos H 0. H 1 Região Crítica p p 0 Z 0 > z (1 α) p > p 0 Z 0 > z (1 2α) p < p 0 Z 0 < z (1 2α) Lembre também que z (1 α) é um quantil da distribuição normal padrão tal que P ( z (1 α) < Z < z (1 α) ) = 1 α ou, equivalentemente, φ ( z (1 α) ) = 1 α 2, em que φ(.) representa a distribuição acumulada da normal padrão. 29
Teste sobre a média (µ) da população, quando o desvio-padrão populacional (σ) é conhecido Exemplo: Circunferência da cabeça dos bebês ao nascerem. Uma amostra aleatória de 100 bebês revelou uma circunferência média da cabeça de 40,6cm. Supondo que o desvio padrão da população é de 1,6 cm, teste{ ao nível de significância de H0 : µ = 40 5% as hipóteses H 1 : µ 40. Observe que aqui a estatística de teste será a média amostral X. Sob H 0, X N ( 40, (1,6)2 100 ) tal que X 40 1, 6/10 N(0, 1). 30
Observe também que trata-se de um teste bilateral, pois a hipótese alternativa é do tipo µ µ 0 e H 0 deverá ser rejeitada para valores da média amostral muito afastados de µ 0 à esquerda e à direita. Como o nível de significância é 5%, observe que na distribuição normal padrão precisamos encontrar o quantil z (0,95) que corresponde a P ( z (0,95) < Z < z (0,95) ) = 0, 95 ou, equivalentemente, φ ( z (0,95) ) = 0, 975 (Pq?) Logo, z (0.95) = 1, 96, tal que rejeitaremos H 0 se X 40 1,6/10 > 1, 96. Como x = 40, 6, segue que X 40 1,6/10 = 3, 75. Como 3,75 pertence à região crítica do teste, segue que ao nível de significância de 5%, H 0 deve ser rejeitada. 31
A seguir, apresenta-se um resumo para os testes de H 0 : µ = µ 0 quando σ é conhecido ou quando se dispõe de amostras suficientemente grandes (n 30) e usamos uma estimativa s de σ. Estatística de teste: Z 0 = X µ 0 σ/ n Nível de significância: α H 1 região crítica µ µ 0 Z 0 > z (1 α) µ > µ 0 Z 0 > z (1 2α) µ < µ 0 Z 0 < z (1 2α) 32
Vejamos agora o caso em que σ, o desvio padrão da população é desconhecido. Se n 30 usamos o procedimento já descrito, substituindo em Z 0 o valor de σ por uma estimativa. Para amostras de tamanho moderado n < 30 vamos apresentar uma solução que é adequada para populações normais. Se X 1, X 2,..., X n é uma amostra aleatória simples de uma população normal com média µ e variância σ 2 ambos desconhecidos, vimos, na aula anterior que T = X µ S/ n t (n 1) com S 2 = 1 n n 1 i=1 (X i X) 2, a variância amostral. 33
Portanto, esse caso fica similar ao anterior com as seguintes substituições: Usa-se T 0 = X µ 0 S/ n no lugar de Z 0 = X µ 0 σ/ n e, os quantis da distribuição t com n 1 graus de liberdade em vez dos quantis da normal padrão. 34
Se H 0 : µ = µ 0, α é o nível de significância e T 0 = X µ 0 S/ n, temos H 1 região crítica µ µ 0 T 0 > t (1 α,n 1) µ > µ 0 T 0 > t (1 2α,n 1) µ < µ 0 T 0 < t (1 2α,n 1) P ( t (1 α,n 1) < T < t (1 α,n 1) ) = 1 α, T t n 1. 35
Exemplo: Tempo de execução de tarefas. O tempo médio, por operário, para executar uma tarefa, tem sido 100 minutos, com desvio padrão de 15 minutos. Introduziu-se uma modificação para reduzir este tempo, e, após certo período de tempo, sorteou-se uma amostra aleatória de 16 operários, medindo-se o tempo de execução de cada um. O tempo médio da amostra foi de 85 minutos com um desvio padrão amostral de 12 minutos. Estes resultados trazem evidências estatísticas da melhora desejada? Em caso afirmativo, estime o novo tempo médio de execução. Apresente as suposições teóricas usadas para resolver este problema. 36
H 0 : µ = 100 versus H 1 : µ < 100 x = 85, s = 12, n = 16 Podemos usar o teste t se os tempos tiverem distribuição normal. Fixando o nível de significância em 5%, obtemos como região crítica T 0 < 1, 753 Os dados amostrais resultam em t 0 = 85 100 12/ 16 = 5. Como t 0 cai na região crítica, segue que, ao nível de significância de 5%, devemos rejeitar a hipótese nula, em favor da hipótese alternativa, que nesse caso representa a hipótese de que há de fato uma melhora no tempo médio de execução da tarefa. 37