Conceitos Básicos Teste t Teste F. Teste de Hipóteses. Joel M. Corrêa da Rosa

O 1. Formular duas hipóteses sobre um valor que é desconhecido na população. 2. Fixar um nível de significância 3. Escolher a Estatística do Teste 4. Calcular o p-valor 5. Tomar a decisão mediante o nível de significância fixado.

Erros de Decisão Ao tomar uma decisão no teste de hipóteses, uma das situações do quadro abaixo irá ocorrer: Rejeita H 0 Não Rejeita H 0 H 0 verdadeira Erro Tipo I Figura: Erros de Decisão H a verdadeira Erro Tipo II

O nível de significância α Definição O nível de significância α é a probabilidade de ocorrer um erro do tipo I. Esta probabilidade, assim como o nível de confiança na construção de um intervalo, é fixada. Os valores usuais para o nível de significância são: α = 0, 01 α = 0, 05 α = 0, 10

Estatística do Teste A estatística do teste é a função da amostra que levará a decisão a respeito das hipóteses formuladas. No teste de hipóteses sobre a média populacional, a estatística do teste será X que é o melhor estimador para µ. Para aplicar o teste de hipóteses devemos conhecer a distribuição de probabilidades da estatística do teste.

Valor-p : O nível descritivo do teste A forma tradicional de tomar a decisão a respeito das hipóteses de um teste de hipótese é pelo cálculo do p-valor(ou valor-p), também conhecido como nível descritivo do teste. Definição: O valor-p é a probabilidade de ocorrer, na estatística do teste, valores mais extremos do que o ocorrido na amostra,assumindo que a hipótese nula é verdadeira.

para 1 amostra para 2 amostras pareadas para 2 amostras independentes para duas variâncias conhecidas para duas variâncias desconhecidas e iguais para duas variâncias desconhecidas e desiguais

O teste t para 1 Amostra O teste t para uma amostra é aplicado quando se deseja testar a hipótese de que a média da população (µ) é igual a um hipotético valor µ 0. H 0 : µ = µ 0 H 1 : µ µ 0 ou µ < µ 0 ou µ > µ 0

teste t para 1 amostra - Estatística do teste t n 1 = X µ 0 S n O termo S n é chamado de erro padrão amostral. Ele mostra o quanto a variabilidade na amostra de tamanho n pode trazer de incerteza para a distância ( X µ 0 ).

Exemplo do teste t para 1 Amostra Os dados a seguir representam uma amostra de tamanho 15 da variável X : circunferência da cabeça de um recém-nascido. Nesta situação, o desejo é fazer inferência sobre µ, a circunferência média de uma população de recém nascidos. 33,38 32,15 33,99 34,10 33,97 34,34 33,95 33,85 34,23 32,73 33,46 34,13 34,45 34,19 34,05 Um estudo afirma que esta circunferência é igual a 34,5 mm. Em função dela, desejamos testar o par de hipóteses: H 0 : µ = 34, 5. H 1 : µ 34, 5

Exemplo do teste t para 1 Amostra 33,38 32,15 33,99 34,10 33,97 34,34 33,95 33,85 34,23 32,73 33,46 34,13 34,45 34,19 34,05 O resumo necessário para a aplicação do teste é constituído pela média amostral x, a variância amostral S 2 e o tamanho da amostra n.

Exemplo do teste t para 1 Amostra 33,38 32,15 33,99 34,10 33,97 34,34 33,95 33,85 34,23 32,73 33,46 34,13 34,45 34,19 34,05 x = 33, 798 S 2 = 0, 3973 n = 15

Exemplo do teste t para 1 Amostra 33,38 32,15 33,99 34,10 33,97 34,34 33,95 33,85 34,23 32,73 33,46 34,13 34,45 34,19 34,05 Cálculo da estatística do teste para a amostra observada: t 14 = X µ 0 S n = 33, 798 34, 5 0,6303 15 t 14 obs = 4, 3136

O teste t para 2 Amostras Pareadas O teste t para duas amostras é aplicado quando se deseja testar a hipótese de que a diferença média entre os pares na população (µ d ) é igual a um hipotético valor µ 0. Repare que esta é uma situação similar ao teste para uma amostra, entretanto a variável que está sendo analisada é resultado da diferença entre duas variáveis aleatórias. Ou seja, nosso interesse é fazer inferência sobre a média(µ d ) da quantidade d = X 1 X 2 H 0 : µ d = µ 0 H 1 : µ d µ 0 ou µ d < µ 0 ou µ d > µ 0

O teste t para 2 Amostras Pareadas O teste t para duas amostras pareadas é aplicado quando se deseja testar a hipótese de que a diferença média entre os pares na população (µ d ) é igual a um hipotético valor µ 0. Repare que esta é uma situação similar ao teste para uma amostra, entretanto a variável que está sendo analisada é função da diferença entre duas variáveis aleatórias. Ou seja, nosso interesse é fazer inferência sobre a média(µ d ) da quantidade D = X 1 X 2. H 0 : µ d = µ 0 H 1 : µ d µ 0 ou µ d < µ 0 ou µ d > µ 0

O teste t para 2 Amostras Pareadas - Estatística do Teste t n 1 = D µ 0 S D n D: média amostral das diferenças S D = n i=1 (D i D) 2 :desvio padrão amostral das diferenças n 1

O para 2 amostras pareadas Exemplo: Um grupo de de n = 9 pessoas registram seus pesos em kilogramas, antes e depois de uma dieta. Dieta Antes Depois Depois - Antes 77 80 3 62 58-4 61 61 0 80 76-4 90 79-11 72 69-3 86 90 4 59 51-8 88 81-7

Cálculo da Estatística do Teste A estatística do teste é o valor que vai nos levar à decisão. t 8 = D µ 0 = 3.333 0 n S D 5 t 8 obs = 2 O valor observado da estatística deve ser comparado com valores críticos( pouco prováveis sob H 0 ) em uma tabela t de Student com n 1 = 8 graus de liberdade. 9

Cálculo do p-valor do teste O p-valor é a probabilidade de obter uma valor tão ou mais extremo (em direção aos valores da hipótese alternativa H 1 ) do que o observado na amostra. Suponha que no exemplo anterior H 1 : µ D < 0. O p-valor será calculado como P(t 8 < 2). Caso a hipótese alternativa seja bilateral H 1 : µ D 0, o p-valor será a probabilidade de P( t 8 > 2) = 1 P( 2 < t 8 < 2).

O teste t para duas amostras independentes O teste t para duas amostras independentes vai verificar a hipótese de que a diferença entre as médias de duas populações é igual a µ 0. As hipóteses são estabelecidas da seguinte maneira: H 0 : µ 1 µ 2 = µ 0 H 1 : µ 1 µ 2 µ 0 ou µ 1 µ 2 < µ 0 ou µ 1 µ 2 > µ 0

O teste t para duas amostras independentes A estatística de teste neste caso segue a distribuição t de Student, entretanto a quantidade de graus de liberdade vai depender da relação entre as variâncias das duas populações, repare que estas também são desconhecidas. t n1+n2 2 = X 1 X 2 µ 0 Erro Padrão de ( X 1 X 2 )

Erro padrão de X 1 X 2 Caso 1 - Variâncias Desconhecidas e Iguais S p 1 n 1 + 1 n 2 S 2 p = (n 1 1)S 2 1 + (n 2 1)S 2 2 (n 1 + n 2 ) Caso 2 - Variâncias Desconhecidas e Desiguais S 2 1 n 1 + S 2 2 n 2

Graus de Liberdade Para o caso de variâncias iguais, o número de graus de liberdade da estatística t de Student é igual a n 1 + n 2 2. Para variâncias desiguais, existe um cálculo especial para o número de graus de liberdade, que não será apresentado neste material. Quando ambos n 1 e n 2 são maiores que 15, não há grande prejuízo em buscar valores críticos na distribuição normal padrão (z).

Exemplo Foram comparados tempos de resolução, nos casos de óbito intra-uterino ocorridos no segundo trimestre de gestação, para gestantes submetidas ao misoprostol administrado por vias diferentes. Via Oral Vaginal 30 24 9 11 22 20 10 22 20 27 16 6 10 23

Exemplo Via Oral Vaginal 30 24 9 11 22 20 10 22 20 27 16 6 10 23 Grupo Média Variância Amostra Oral (1) x 1 =17,333 S1 2 = 52,5667 n 1 =6 Vaginal(2) x 2 =17,875 S2 2 =59,839 n 2 =8

Calculando da estatística do teste, supondo as variâncias diferentes Grupo Média Variância Amostra Oral (1) x 1 =17,333 S 2 1 = 52,5667 n 1 =6 Vaginal(2) x 2 =17,875 S 2 2 =59,839 n 2 =8 t n1+n2 2 = x 1 x 2 S1 2 + S 2 2 n 1 n 2 17, 333 17, 875 t n1+n2 2 obs = = 0, 00984 52, 5667 59, 839 + 6 8 Comparando o valor observado da estatística t com valores tabelados para n 1 + n 2 2 = 12 graus de liberdade, chegamos à conclusão de que não há evidência de diferença entre os dois tratamentos.

Análise de Variância Uma extensão do teste de comparação de duas médias ocorre quando há 3 ou mais grupos de interesse. Nestes casos, o procedimento utilizado é o da Análise de Variância que é utilizado para testar o par de hipóteses : H 0 : µ 1 = µ 2 =... = µ g H 1 : há pelo menos uma diferença entre as médias

Decomposição da Variância Variação Total = Variação explicada pelos Tratamentos + Variação não explicada SQT = SQTr + SQR SQT : Soma dos Quadrados Totais SQTr : Soma dos Quadrados dos Tratamentos SQR : Soma dos Quadrados dos Resíduos

Componentes da Variância g r SQT = (Y ij Ȳ ) 2 j =1 i=1 g SQTr = (Ȳ j Ȳ ) 2 j =1 g r SQR = (Y ij Ȳ j ) 2 j =1 i=1 g : número de grupos r : número de replicações (observações dentro de cada grupo) O tamanho de amostra total é n = r g.

Estimadores das Variâncias Quadrado Médio Total (Variância de Y ) S 2 = SQT n 1 Quadrado Médio de Tratamentos Quadrado Médio de Resíduos QMTr = SQTr g 1 QMR = SQR n g

Estatística F A estatística do teste na Análise de Variância segue a distribuição F de Snedecor. F (g 1,n g) = QMTr QMR Valores altos desta estatística fornecem evidências a favor da hipótese H 1, ou seja, as médias diferem conforme os tratamentos.

Exemplo - Análise de Variância (Bussab e Morettin,2004) Num experimento sobre a eficácia de regimes para emagrecer, homens, todos pesando cerca de 100kg e de biotipos semelhantes, são submetidos a 3 regimes. Após um mês, verifica-se a perda de peso de cada indivíduo obtendo-se os valores na tabela abaixo. Regime Tipo 1 Tipo 2 Tipo 3 11,8 7,4 10,5 10,5 9,7 11,2 12,5 8,2 11,8 12,3 7,2 13,1 15,5 8,6 14,0 11,4 7,1 9,8

perda de peso 8 10 12 14 1 2 3 regime

Componentes da Variância SQT = 97.3 SQTr = 65.08 SQR = 32.22 g = 3 r = 6 n = 18.

Estimadores das Variâncias Quadrado Médio Total (Variância de Y ) S 2 = 5.7235 Quadrado Médio de Tratamentos QMTr = 32.54 Quadrado Médio de Resíduos QMR = 2.148 F 2,15 = 15.149 pvalor = 0.00025 Decisão: Há evidências a favor de H 1

R 2 O valor da estatística F está diretamente ligado com o coeficiente de determinação amostral R 2. R 2 = 1 SQTr SQT = 0.3311