Inferência Estatística:

Universidade Federal de Minas Gerais Instituto de Ciências Exatas Departamento de Estatística Inferência Estatística: Princípios de Bioestatística decidindo na presença de incerteza Aula 9: Testes de Hipóteses - Conceitos Básicos e Testes para Média e Proporção

Um pesquisador levantou as seguintes hipóteses sobre os estudantes de uma certa universidade: a média da renda familiar per capita é maior que 1500 reais; a proporção deles que trabalha é menor que 0.20 (20%). O pesquisador não tem acesso às informações de renda e ocupação de todos os (30 mil) estudantes da universidade (da população) para saber qual é o valor desta média e desta proporção e, assim, poder verificar, sem erro, se suas hipóteses são verdadeiras ou não. Vamos chamar estes valores desconhecidos de média e proporção na população (todos os estudantes da universidade) de: µ = valor da média da renda familiar per capita na população; p = valor da proporção de estudantes que trabalha na população.

Ele selecionou aleatoriamente 100 estudantes e perguntou, para cada estudante desta amostra, sua renda familar per capita e o se estudante trabalha ou não. Ele pretende usar os valores da média de renda dos estudantes da amostra ( x) e da proporção de estudantes da amostra que trabalham ( pˆ ) para verificar suas hipóteses sobre toda a população de estudantes.

Vamos considerar uma hipótese do pesquisador sobre os estudantes da universidade: a proporção deles que trabalha é menor que 0.20 (20%). ou seja, p < 0.20. Vamos chamar esta hipótese de hipótese alternativa (H 1 ): ou seja, H 1 : p < 0.20. O oposto da hipótese do pesquisador é que p 0.20. Vamos chamar esta hipótese de hipótese nula ( ): ou seja, : p 0.20. Sem perda de generalidade, apenas para facilitar o raciocínio, vamos simplificar a hipótese nula para : p = 0.20.

Temos, então, as duas hipóteses: Hipótese nula: : p = 0.20 Hipótese alternativa: H 1 : p < 0.20 Toda a informação que temos sobre a proporção populacional p está na amostra, através do valor da proporção amostral : pˆ Se for próxima (ou maior) de 0.20, acreditamos mais em ; pˆ Se for menor que 0.20, acreditamos mais em H 1. pˆ Mas quanto pˆ tem que ser menor que 0.20 para rejeitarmos, ou seja, para acreditarmos na hipótese do pesquisador? E se o pesquisador estiver errado, ou seja, se p = 0.20, qual a probabilidade de errarmos ao rejeitar?

Se a hipótese : p = 0.20 é verdadeira:

Histograma dos valores da proporção em 1000 amostras aleatórias de tamanho 100 retiradas da população com p =0.20 (ou seja, sob )

Critério de Rejeição 1: rejeita-se : p = 0.20 se pˆ 0. 16 17.8% das amostras levariam à rejeição incorreta de

Critério de Rejeição 2: rejeita-se : p = 0.20 se pˆ 0. 12 3.0% das amostras levariam à rejeição incorreta de

A teoria da probabilidade diz que, sob : p = 0.20 os valores da proporção em amostras aleatórias de tamanho 100 têm, aproximadamente, (0.2)(1 0.2) 100 distribuição Normal com média = 0.20 e d.p.= = 0.04

Critério de Rejeição 3: rejeita-se : p = 0.20 se? tal que 5% das amostras levariam à rejeição incorreta de. pˆ Rejeita-se : p = 0.20 se pˆ 0.13.

% das amostras que levariam à rejeição incorreta de 17.8 5.0 Critério de Rejeição: Rejeitar : p = 0.20 se ˆ 0.16 p ˆ 0.13 p 3.0 pˆ 0. 12 Quanto menor o risco que toleramos correr de rejeitar incorretamente......mais distante de 0.20 (para baixo) deve estar a proporção amostral (mais forte deve ser a evidência amostral contra ). O valor tolerado para a probabilidade de rejeitar incorretamente é chamado de nível de significância do teste (denotado por α). Rejeitar incorretamente é chamado de Erro Tipo I.

Critério de Rejeição: rejeita-se : p = 0.20 (em favor de : p = 0.20 ) tal que P(rejeição incorreta de ) = α, se se? pˆ Rejeita-se : p = 0.20 (em favor de : p = 0.20) se

Universidade Federal de Minas Gerais Instituto de Ciências Exatas Departamento de Estatística Princípios de Bioestatística Aula 9: Testes de Hipóteses - Conceitos Básicos e Testes para Média e Proporção

Exemplo Inicial 2 (adaptado*) A ProCare Industries LTDA lançou, certa vez, um produto chamado Gender Choice. De acordo com a propaganda, este produto permitiria, aos casais que desejam ter um filho, aumentar sua chance de terem uma menina. Probabilidade natural de ter uma menina: 50% * "Gender Choice a 'gross deception.'". FDA Consumer. FindArticles.com. 22 Sep, 2009. http://findarticles.com/p/articles/mi_m1370/is_v21/ai_4790727/

Em um experimento para verificar a eficácia deste produto, suponha que 100 casais que querem uma menina façam uso do produto. X: número de meninas em 100 nascimentos usando o produto. Se o produto não funciona (p=0.50), o número esperado de meninas em 100 nascimentos seria 100(0.50)=50. Utilizando somente o bom senso, o que você pensararia se, das 100 crianças nascidas...

Situação (a): 52 meninas em 100 nascimentos. O número de 52 meninas é muito próximo daquele que esperamos sem o uso de nenhum método (50) e poderia ter ocorrido por mero acaso. p: probabilidade de uma menina em um nascimento Neste caso, não há evidências suficientes para concluir que o Gender Choice tenha eficácia.

Situação (b): 90 meninas em 100 nascimentos. ou ocorreu um evento extremamente raro (probabilidade< 0.0001), ou o Gender Choice é realmente eficaz (p>0.50). p: probabilidade de uma menina em um nascimento. Diante da probabilidade extremamente baixa de ocorrer 90 meninas em 100 nascimentos de maneira natural, a explicação mais sensata é a de que o produto é eficaz.

90 meninas são mais prováveis quando p > 0.50. p = 0.90 p = 0.50

Temos que nos decidir por uma de duas hipóteses H1: Gender Choice não funciona (p = 0.50) H2: Gender Choice funciona (p > 0.50) a partir das informações contidas em uma única amostra da população, levando em conta a incerteza nestas informações. Teste de Hipóteses

Teste de Hipóteses: Hipótese é uma afirmação sobre o valor desconhecido de um parâmetro da população, por exemplo: Média de uma variável quantitativa: µ Proporção de uma variável qualitativa dicotômica*: p * Tem apenas duas categorias (masc/fem, doente/sadio, vota/não vota) Teste de Hipóteses é a técnica estatística para escolha entre as duas hipóteses sobre o parâmetro. - Hipótese Nula ( ): ponto de partida - Hipótese Alternativa (H A ): hipótese do pesquisador

Teste de Hipóteses: Vamos utilizar as informações sobre o parâmetro contidas na amostra para testar versus H A. Exemplo Inicial 2: p = proporção de nascimentos de meninas com uso do Gender Choice. Hipótese do pesquisador: o método funciona (p > 0.5) Hipótese nula: o método não funciona (p = 0.5) Usando as informações da amostra de 100 casais que usaram o método (e, destes, quantos tiveram menina), decide-se entre : p =0.5 versus H A : p >0.5

Erros associados a um Teste de Hipóteses Decisão do teste baseada na amostra Rejeitar Não rejeitar Situação real na população (desconhecida) é verdadeira Decisão incorreta (Erro Tipo I) Decisão correta é falsa Decisão correta Decisão incorreta (Erro Tipo II) Erro Tipo I: Erro Tipo II: Rejeitar quando é verdadeira. Não rejeitar quando é falsa.

Erros associados a um Teste de Hipóteses Exemplo Inicial 2: p = proporção de nascimentos de meninas com o uso do produto. : p =0.5 (o produto não funciona) H A : p >0.5 (o produto funciona) Erro tipo I: rejeitar, quando é verdadeira Concluir que o produto funciona, quando ele não funciona. Erro tipo II: não rejeitar, quando é falsa Concluir que o produto não funciona, quando ele funciona.

Nível de Significância do Teste de Hipóteses O Erro Tipo I geralmente é o mais grave. Assim pretende-se controlá-lo, pré-fixando sua probabilidade de ocorrência em um valor pequeno α : P(Erro tipo I) = P(Rejeitar quando é verdadeira) = α. Usualmente tem-se: α = 0.10 ou α = 0.05 ou α = 0.01. Este valor pré-fixado para a probabilidade do Erro Tipo I é chamado nível de significância do teste. Se, por exemplo. for escolhido o valor de α = 0.05, diz-se que é um teste de hipóteses ao nível de significância de 5%.

A escolha do nível de significância (α) está diretamente ligada à escolha do ponto de corte para decisão do teste: No exemplo do Gender Choice: : o produto não funciona x = número de meninas em 100 nascimentos Com α = 0.10, será rejeitada se x 57 meninas; Com α = 0.05, será rejeitada se x 59 meninas; Com α = 0.01, será rejeitada se x 62 meninas. Quanto menor o nível de significância escolhido (menor probababilidade de rejeitar incorretamente ), mais difícil fica rejeitar, pois maior será o número exigido de meninas.

Erro Tipo II e Poder do Teste de Hipóteses P(Erro tipo II) = P(Não rejeitar quando é falsa) = β. β não pode ser fixado, mas pode ser calculado. β é reduzido aumentando-se o tamanho da amostra Poder do teste = P(Rejeitar quando é falsa) = 1 - β. 0 0 Um teste de hipótese com um poder de 90%, por exemplo, rejeitará corretamente com 90% de probabilidade*. * Para uma dada distância de )

Componentes de um Teste de Hipóteses Hipótese nula: é a afirmação sobre o valor de um parâmetro populacional (média µ ou proporção p) Usualmente, expressa a condição de igualdade a um valor préestabelecido: : µ = µ 0 : p = p 0 Hipótese alternativa: é a afirmação contrária à hipótese nula. Assume uma de três formas: H A : µ < µ 0 ou H A : µ > µ 0 ou H A : µ µ 0 H A : p < p 0 ou H A : p > p 0 ou H A : p p 0 Nível de significância do teste (α): valor máximo tolerado para a probabilidade do Erro Tipo I (rejeitar quando é verdadeira).

Componentes de um Teste de Hipóteses Estatística de teste: mede a distância entre o que foi observado na amostra e o que seria esperado se a hipótese nula fosse verdadeira. Teste sobre uma média µ: (Teste T) : µ = µ 0 T obs = x s µ o / n Teste sobre uma proporção p: : p = p 0 Zobs = p pˆ 0 p (1 n 0 p 0 )

Distribuição de Referência do teste: De acordo com o tipo de teste de hipóteses feito, uma distribuição de probabilidades é associada à estatística de teste. Teste sobre uma média µ: µ: : µ = µ 0 T obs = x s µ o / n T-Student com (n-1) g.l. Teste sobre uma proporção p: : p = p 0 Zobs = p pˆ ˆ 0 p (1 n 0 p 0 ) Normal Padrão (Z) Quando é verdadeira, a estatística de teste segue a distribuição de referência, ou seja, se é verdadeira, então o valor da estatística de teste deve ser um valor típico (não extremo) da distribuição de referência.

Exemplo 1: Uma indústria farmacêutica especifica que em certo analgésico a quantidade média de ácido acetilsalicílico deve ser 5.5 mg por comprimido. A indústria suspeita que houve problemas na produção de um determinado lote e que, nesse lote, a quantidade média dessa substância está diferente da especificada. Para verificar essa suspeita, a indústria selecionou uma amostra aleatória de 50 comprimidos desse lote, observando uma quantidade média de ácido acetilsalicílico igual a 5.8 mg e um desvio-padrão de 0.85 mg. Os dados da amostra confirmam a suspeita da indústria, ao nível de 2% de significância?

Exemplo 1: Teste de Hipóteses sobre uma Média Parâmetro: µ = quantidade média de ácido acetilsalicílico (em mg) de certo analgésico no lote supeito da indústria farmacêutica. Valor de comparação: µ 0 = 5.5 Hipóteses : µ= 5.5 H a : µ 5.5 α = 0.02 Erro Tipo I: Dizer que o lote tem problema, quando na verdade, o lote não tem problema Erro Tipo II: Dizer que o lote não tem problema, quando na verdade, o lote tem problema Dados amostrais: n=50, x = 5.8, s=0.85. Estatística de teste: T obs = x s µ o / n

O valor observado para a estatística de teste pode ser considerado grande (extremo/atípico)? NÃO SIM Conclusão: a amostra não contém evidências suficientes para a rejeição da afirmação da hipótese nula. Conclusão: a amostra contém evidências suficientes para a rejeição da hipótese nula. O valor da estatística de teste é alto comparado aos valores da distribuição de referência. Distribuição t com n-1 g.l. Se estiver entre os α% mais extremos, será considerado alto.

Nível de significância: α = 0.02 Estatística de teste: t obs = 2.50 T 49 T 40 0.01 0.01-2.423 Resultado do teste: Rejeitar a hipótese nula de que µ = 5.5 (em favor da hipótese alternativa µ 5.5). 2.423 2.50 t obs não é típico Conclusão em termos do problema: Ao nível de significância de 2%, há evidências estatísticas suficientes nesta amostra para se dizer que a quantidade média de ácido acetil salicílico por comprimido é diferente de 5.5 mg.

Nível de significância: α = 0.01 Estatística de teste: t obs = 2.50 Resultado do teste: Não rejeitar a hipótese nula de que µ = 5.5. 2.50 t obs é típico Conclusão em termos do problema: Ao nível de significância de 1%, não há evidências estatísticas suficientes nesta amostra para se dizer que a quantidade média de ácido acetil salicílico por comprimido é diferente de 5.5 mg.

Teste T para uma Média (µ) Hipóteses: : µ = µ 0 H A : µ< µ 0 : µ = µ 0 H A : µ > µ 0 : µ = µ 0 H A : µ µ 0 Estatística de teste: Distribuição de T obs T obs = x s µ o / n sob : T com n-1 graus de liberdade. Região de Rejeição da para o nível de significância α:

Exemplo Inicial 2: Teste de Hipóteses sobre uma Proporção Parâmetro: p = proporção de meninas em nascimentos usando o produto. Valor de comparação: p 0 = 0.5 Hipóteses : p= 0.5 H a : p > 0.5 Dados amostrais: n=100, pˆ = 61/100 = 0.61 Estatística de teste: Z obs = p pˆ 0 p (1 n 0 ) 0.61 0.50 0.5(1 0.5) 100 0.11 0. 05 0 = = = p 2.2

O valor da estatística de teste Z obs é comparado aos valores da distribuição de referência, a Normal Padrão (Z): Se Z obs estiver entre os α% maiores, será considerado alto. Como Z obs = 2.2 é maior que 1.64, rejeita-se ao n.s. de 5%, Assim, ao n.s. de 5%, 61 meninas em 100 nascimentos é evidência suficiente para dizer que o produto funciona.

Para α=0.01: Como Z obs = 2.2 não é maior que 2.33, não se rejeita ao n.s. 1%. Assim, ao n.s. de 1%, 61 meninas em 100 nascimentos não é evidência suficiente para dizer que o produto funciona.

A escolha do nível de significância está diretamente ligada à escolha do ponto de corte para decisão do teste. No exemplo do Gender Choice (100 nascimentos): Z obs = pˆ 0.50 pˆ 0.50 = > Zα 0.5(1 0.5) 0. 05 pˆ > (0. 05)( Zα ) + 0.50 100 Com α=0.10 rejeita-se se Z obs >1.28 pˆ > 0.564 x 57 meninas. Com α=0.05 rejeita-se se Z obs >1.64 pˆ > 0.582 x 59 meninas. Com α=0.01 rejeita-se se Z obs >2.33 pˆ > 0.616 x 62 meninas. Quanto menor o nível de significância escolhido, mais difícil fica a rejeição de, (concluir que o método funciona) pois um maior número de meninas deverão nascer.

Hipóteses: Teste Z para uma Proporção (p) : p = p 0 H A : p < p 0 : p = p 0 H A : p > p 0 : p = p 0 H A : p p 0 Estatística de teste: Distribuição de Z obs pˆ p 0 Z obs = p (1 p ) 0 n sob : Normal Padrão (tabela Z). Região de Rejeição da para o nível de significância α: 0

Valor-p: é a probabilidade da estatística de teste ter valores tão ou mais extremos que o valor calculado na amostra, quando verdadeira. Se o valor-p é alto => pode ser verdadeira => não rejeito Se o valor-p é baixo => não deve ser verdadeira => rejeito Mas alto ou baixo em relação a quê? Ao nível de significância α. O valor-p < α? NÃO SIM Não rejeita : a amostra não contém evidências suficientes para a rejeitar a hipótese nula. Rejeita : a amostra contém evidências suficientes para a rejeitar a hipótese nula. É calculado na distribuição de referência da estatística de teste.

Exemplo 2 (cálculo do valor-p): Hipóteses : p= 0.5 H a : p > 0.5 Z obs = 3.4 Valor p = P[Z > 3.4] << P[Z > 3] = 0.0013 0

No Teste Z para uma Proporção (p) : pˆ p 0 Z obs = p (1 p ) Hipóteses Valor-p Desenho 0 n 0 : p = p 0 H 1 : p < p 0 P( Z < Z obs ) : p = p 0 H 1 : p > p 0 P( Z > Z obs ) : p = p 0 H 1 : p p 0 2 P( Z > Z obs )

No Teste T para uma Média (µ) : T obs = x s µ n o Hipóteses Valor-p Desenho : µ = µ 0 H 1 : µ < µ 0 P( T (n-1) < T obs ) : µ = µ 0 H 1 : µ > µ 0 P( T (n-1) > T obs ) : µ = µ 0 H 1 : µ µ 0 2 P(T (n-1) > T obs )

Exemplo 1 (cálculo do valor-p): : µ= 5.5 H a : µ 5.5 α = 0.02 T obs = 2.50 Valores mais extremos do que T obs -2.50 2.50 menores maiores Valor P = 2P(t 49 > 2.50) = 2 (0.008) = 0.016 De um programa de computador Como o valor p é menor do que o nível de significância adotado (0.016 < 0.02), então rejeita-se ao nível de 2% de significância.

Passos para Teste de Hipóteses 1) Definir o parâmetro (média ou proporção) a ser testado; 2) Definir as hipóteses nula ( ) e hipótese alternativa (H A ); 3) Escolher um valor α para o nível de significância do teste; 4) Definir a estatística de teste (depende do parâmetro); Calcular a estatística de teste na amostra; 5) Comparar o valor observado da estatística de teste com a região de rejeição de para o α escolhido; ou 5) Calcular o valor p da estatística de teste e compará-lo com o α escolhido; 6) Concluir o teste.