Testes de Hipóteses: Duas Amostras

Testes de Hipóteses: Duas Amostras Na aula de hoje veremos como comparar duas populações P 1 e P 2, baseados em dados fornecidos por amostras dessas populações. Grande parte das técnicas usadas em Estatística supõe que as variáveis aleatórias envolvidas tenham distribuição normal. Alguns testes que trataremos envolverão a normal. Contudo, se a suposição de normalidade for violada, exsitem outros testes conhecidos como testes não paramétricos que poderão ser usados. Estudaremos duas situações diferentes: o caso em que temos duas amostras independentes e o caso em que temos duas amostras pareadas (relacionadas, emparelhadas). 1

Em ambos os casos, veremos um teste paramétrico que resulta num teste t e supõe normalidade e, veremos também, um teste nãoparamétrico, que não supõe normalidade. Uma questão que aparece com frequência é: O método A é melhor do que o método B? Em termos estatísticos, ela equivale a comparar dois conjuntos de informações, resultantes das medidas obtidas da aplicação dos dois métodos a dois conjuntos de objetos ou indivíduos. Mas como caracterizar adequadamente a igualdade ou equivalência das duas populações? 2

No caso da suposição de normalidade ser válida e, se também for possível supor que as variâncias das duas populações são iguais, observe que poderíamos caracterizar a hipótese de equivalência na forma H 0 : µ 1 = µ 2. Porém, no caso em que não é adequado supor a normalidade, de fato, a hipótese de equivalência seria H 0 : P 1 = P 2, que chamaremos hipótese de homogeneidade das duas populações. O significado de H 0 : P 1 = P 2 dependerá muito do interesse do pesquisador em considerar qual tipo de igualdade implicará a coincidência das duas distribuições. Os testes t e de Wilcoxon-Mann-Whitney, que serão descritos a seguir são apropriados para esse tipo de situação. O teste t é aplicável quando P 1 e P 2 são supostas normais com variâncias iguais. 3

Veremos na próxima aula como realizar um teste para verificar se, de fato, a suposição de variâncias iguais é adequada. O teste de Wilcoxon-Mann-Whitney aplica-se para P 1 e P 2 quaisquer. Começaremos estudando o caso em que dispomos de duas amostras independentes para então apresentar os dois testes. Em seguida trataremos do caso de amostras pareadas. 4

Exemplo 1: Suspeita-se que o barulho afeta a memória de cuto prazo. Para verificar essa suspeita, um experimento foi conduzido da seguinte forma: 24 pessoas foram aleatoriamente distribuídas em dois grupos de 12. Cada grupo recebeu uma lista de 20 palavras para memorizar em 2 minutos. Os participantes na condição barulho tentaram memorizar a lista de 20 palavras, enquanto escutavam, com fones de ouvido, um barulho prégravado. Os outros participantes também utilizaram fones de ouvido, mas sem o barulho, enquanto memorizavam as palavras no mesmo período de tempo. O número de palavras memorizadas por cada pessoa foi registrado e é apresentado na tabela a seguir. 5

barulho (1) sem barulho (2) 5 15 10 9 6 16 6 15 7 16 3 18 6 17 9 13 5 11 10 12 11 13 9 11 x 1 = 7, 3 x 2 = 13, 8 s 1 = 2, 5 s 2 = 2, 8 Se µ 1 representa o número médio de palavras memorizadas em 2 minutos entre 20 palavras na condição barulho e µ 2, a mesma média na condição sem barulho, para verificar a suspeita enunciada, poderíamos realizar o teste das seguintes hipóteses: { H0 : µ 1 = µ 2 H 1 : µ 1 < µ 2. 6

Este é um exemplo da situação em que temos duas amostras independentes, observe que são pessoas diferentes em cada grupo de 12, e queremos comparar as duas médias populacionais. Em Dancey e Reidy eles classificam esse experimento como um experimento interparticipantes. Antes de resolver o problema apresentado, vamos apresentar um breve resumo teórico do teste usado nesse contexto. Sejam X 1, X 2,..., X n e Y 1, Y 2,..., Y m duas amostras independentes sorteadas de duas populações normais N(µ 1, σ 2 ) e N(µ 2, σ 2 ). Observe que as amostras podem ter tamanhos diferentes n e m, mas estamos supondo que as amostras provêm de populações normais com variâncias iguais. O teste a seguir foi construído baseando-se nessas suposições. 7

Testes para verificar a dequação das suposições de normalidade dos dados e de homogeneidade das variâncias serão apresentados na próxima aula. Nesse contexto temos como hipótese nula a condição µ 1 = µ 2 e as hipóteses alternativas poderão ser µ 1 µ 2 (bilateral), µ 1 < µ 2 (unilateral à esquerda) e µ 1 > µ 2 (unilateral à direita). Da teoria estatística é possível mostrar que se as suposições são verdadeiras, então a estatística T = X 1 X 2 (µ 1 µ 2 ) S 1n + m 1 tem uma distribuição t com n + m 2 graus de liberdade. 8

Na expressão da estatística T, T = X 1 X 2 (µ 1 µ 2 ) S 1n + 1 m X 1 representa a média amostral referente à amostra 1 e X 2 representa a média amostral referente à amostra 2. Além disso S 2 é uma estimativa combinada da variância populacional σ 2 que é suposta ser a mesma em ambas as populações, a saber, S 2 = (n 1)S2 1 + (m 1)S2 2 n + m 2 em que S1 2 é a variância amostral na amostra 1 e S2 2 é a variância amostral na amostra 2. 9

Assim, se H 0 é verdadeira segue que T 0 = X 1 X 2 S 1n + 1 m tem uma distribuição t com n + m 2 graus de liberdade. Fixado um nível de significância α, basta obter a(s) cauda(s) correspondente(s) à região crítica do teste, usando a distribuição t com n+m 2 graus de liberdade. No problema da memória de curto prazo, temos que o número de graus de liberdade da distribuição amostral t da estatística de teste é 12 + 12 2 = 22. Fixando α em 5%, temos como região crítica T 0 < 1, 72, pois trata-se de um teste unilateral à esquerda. (A cauda à esquerda de -1,72 na distribuição t com 22 graus de liberdade corresponde a 5% da distribuição.) 10

Vimos que x 1 = 7, 3, x 2 = 13, 8, s 2 1 = 2, 52 e s 2 2 = 2, 82. Além disso, n = m = 12. Logo, s 2 = 11 2,52 +11 2,8 2 22 7, 05 tal que t 0 = 7,3 13,8 5, 99 7,05/6 Como o valor amostral de T 0 está na região crítica, segue que H 0 deve ser rejeitada. Portanto, ao nível de significância de 5%, os dados trazem evidência a favor da suposição de que a memória de curto prazo é, em média, menor na condição barulho do que na condição sem barulho. 11

Como fica o p-valor desse teste? Basta encontrar a área da cauda à esquerda de t 0 = 5, 99 na dsitribuição t com 22 graus de liberdade. É possível ver que o p-valor é bem menor que 0,0001 indicando fortíssima evidência contra H 0. Portanto, usando o p-valor, chegamos a mesma conclusão obtida via procedimento clássico com nível de significância 5%. Agora vamos ver como resolver esse problema usando o Bioestat. 12

Clique na opção Estatísticas, seguida de Duas Amostras Independentes, seguida de Teste t: Resumo amostral Entre com as informações amostrais 13

Depois é só clicar em executar para obter a saída 14

Quadro de procedimentos no caso de duas a- mostras independentes de populações normais com variâncias iguais. Sejam H 0 : µ 1 = µ 2 a hipótese nula, T 0 = X 1 X 2 S 1n + 1 m a estatística de teste e α o nível de significância do teste. H 1 Região crítica µ 1 µ 2 T 0 > t (1 α,n+m 2) µ 1 > µ 2 T 0 > t (1 2α,n+m 2) µ 1 < µ 2 T 0 < t (1 2α,n+m 2) 15

Intervalo de Confiança para a diferença entre as médias µ 1 e µ 2 : Suposição: populações normais com variâncias iguais. IC(µ 1 µ 2, γ) : X 1 X 2 ± t (γ,n+m 2) S 1n + 1 m em que X i é a média da i-ésima amostra. i = 1, 2 S 2 = (n 1)S2 1 +(m 1)S2 2 n+m 2 e S 2 i é a variância da i-ésima amostra, i = 1, 2 n é o tamanho da amostra 1 e m é o tamanho da amostra 2 t (γ,n+m 2) é um quantil da distribuição t com n + m 2 graus de liberdade tal que P ( t (γ,n+m 2) < T < t (γ,n+m 2) ) = γ, com T t (n+m 2). O Bioestat fornece os IC s da diferença das duas médias de 95% e 99% de confiança. 16

Observe que não verificamos se é razoável a suposição de normalidade para os dados observados nesse exemplo. E se a normalidade não for razoável? Apresentaremos aqui o teste de Wilcoxon, também conhecido como teste de Mann-Whitney e que daqui em diante chamaremos de teste W MW nessas notas. Tem-se duas amostras independentes de duas populações P 1 e P 2. A variável observada deve ter uma escala pelo menos ordinal. Queremos testar H 0 : P 1 = P 2 contra a hipótese alternativa de que as distribuições diferem em localização: estaremos interessados em saber se uma população tende a ter valores maiores que a outra; ou se elas têm a mesma mediana ou a mesma média. 17

O teste W MW é baseado nos postos dos valores obtidos combinando-se as duas amostras. Como isso é feito? As duas amostras são combinadas como se fossem uma só e todos os valores observados são colocados em ordem crescente. Atenção: É importante não perder a informação da origem de cada valor observado, ou seja, ao combinar as amostras, é importante saber qual valor veio da amostra 1 e qual valor veio da amostra 2. 18

A tabela a seguir mostra as duas amostras combinadas antes de ordenar. 19

A tabela a seguir mostra as duas amostras combinadas depois de ordenar e com atribuição de postos (posição no ranking). 20

A estatística de teste é a soma dos postos associados aos valores amostrados de uma população, P 1, por exemplo. Se essa soma for grande, isso é uma indicação de que os valores dessa população tendem a ser maiores do que os valores da população P 2, e, então rejeitamos H 0. Se há ao todo n+m observações, então a soma de todos os postos será (n+m) (n+m+1)/2. Nesse exemplo a soma de todos os postos é 300. Podemos verificar que a soma dos postos associados à condição barulho é 83, enquanto que esta soma associada à condição sem barulho é 217. Logo, temos evidências amostrais para rejeitar H 0. 21

Como especificar regiões críticas ou calcular p-valores no teste W MW? Para isso trabalha-se com a estatística de Mann- Whitney dada por U 1 = W 1 1 2n(n+1) em que W 1 é a soma dos postos da amostra 1 e n é o tamanho amostral correspondente. Existem tabelas de quantis associados à estatística U 1 sob a hipótese de homogeneidade. Para tamanhos amostrais grandes, também podemos usar uma aproximação para a distribuição normal, padronizando a estatística U 1 com uma média dada por µ = n(n + m + 1)/2 e variância dada por σ 2 = nm(n + m + 1)/12. No entanto, não precisaremos nos preocupar com estes detalhes técnicos. Usarmos o Bioestat para realizar o teste MW M. 22

Escolha a opção Estatísticas, Duas Amostras independentes, Mann-Whitney (Wilcoxon Rank- Sum test). Os dados devem ser digitados nas colunas 1 e 2. 23

Marque as colunas 1 e 2 e depois clique em executar para obter a seguinte saída do teste W MW Como p-valor é muito pequeno, rejeitamos a hipótese nula em favor da hipótese de que na condição sem barulho tende-se a memorizar um número maior de palavras do que na condição barulho. 24

Observe que aplicamos os dois testes ao mesmo conjunto de dados e em ambos os casos obtivemos a mesma conclusão. Porém, nem sempre essa concordância irá ocorrer. Que teste eu devo escolher? O teste t é mais poderoso do que os testes nãoparamétricos. Desse modo, se a suposição de normalidade for adequada, recomenda-se usar o teste t. Use o teste W M W somente se a suposição de normalidade não for adequada. Na próxima aula veremos como verificar a normalidade de um conjunto de dados. 25

Exemplo 2: A professora Yob está interessada em estudar a violência de massa durante as partidas de futebol. Ela acha que a violência do grupo é resultado dos assentos desconfortáveis do estádio. Assim, Yob modifica dois estádios diferentes na Inglaterra. Em um estádio coloca assentos bem apertados e desconfortáveis. No outro, instala assentos confortáveis com muito espaço para as pernas e entre os assentos adjacentes. A professora organiza uma competição de modo que um clube jogue apenas a metade das partidas em um estádio e a outra metade no outro estádio. Ela acompanha um grupo de 12 fãs adolescentes agressivos e grosseiros desse clube e registra o número de vezes em que cada um é preso ou expulso do estádio. Ela prevê que o número médio de prisões/expulsões seja maior no estádio menos confortável do que no estádio mais confortável. 26

A tabela a seguir apresenta os resultados obtidos no experimento. adolescente desconfortável confortável 1 8 3 2 5 2 3 4 4 4 6 6 5 4 2 6 8 1 7 9 6 8 10 3 9 7 4 10 8 1 11 6 4 12 7 3 27

Este é um exemplo da situação em que temos amostras pareadas, observe que são as mesmas pessoas observadas sob diferentes condições, e queremos comparar as médias populacionais sob as diferentes condições. Em Dancey e Reidy eles classificam esse experimento como um experimento intraparticipantes. Observe que nesse caso, faz sentido definir as diferenças, pois as observações em dada linha da coluna de dados estão relacionadas a uma mesma pessoa. 28

Antes de resolver o problema apresentado, vamos apresentar um breve resumo teórico do teste usado nesse contexto. Suponha que (X 1, Y 1 ), (X 2, Y 2 ),..., (X n, Y n ) seja uma amostra aleatória bivariada de tamanho n de uma população. Por exemplo, medidas antes e depois de um tratamento, contagens sob duas condições diferentes, etc. Defina as diferenças D i = X i Y i, i = 1, 2,..., n. Se a população das diferenças tiver uma distribuição normal, então é possível construir um teste t para a média das diferenças. Suponha que a distribuição de D seja N(µ D, σ 2 D ). 29

Como estamos comparando o mesmo grupo sob diferentes condições, aqui a hipótese nula, será da forma µ D = 0, ou seja, não há efeito de tratamento. As hipóteses alternativas podem ser µ D 0 (bilateral), µ D > 0 (unilateral à direita) ou µ D < 0 (unilateral à esquerda). Em geral o desvio padrão da população de diferenças é desconhecido e também deverá ser estimado por S D com S 2 D = 1 n n 1 i=1 (D i D) 2, com D a média amostral das diferenças D 1, D 2,..., D n. De fato, podemos notar que esse caso reduzse ao teste t, com H 0 : µ D = 0 para uma amostra aleatória simples de uma população normal dada por D 1, D 2,..., D n. 30

Observe que a suposição de normalidade das populações não é crucial. As diferenças é que devem ter um comportamento normal. A estatística de teste a ser usada é T 0 = D S D / n. Sob H 0, T 0 tem uma distribuição t com n 1 graus de liberdade. Fixando α o nível de significância, basta identificar a(s) cauda(s) da distribuição t com n 1 graus de liberdade adequada(s) à hipótese alternativa sob consideração. Depois é só verificar se o valor amostral da estatística caiu ou não na região crítica para concluir o teste. 31

No caso dos dados do exemplo 2 temos o seguinte teste H 0 : µ D = 0 versus H 1 : µ D > 0. Logo, como o valor amostral caiu na região crítica devemos rejeitar a hipótese nula de que não há diferença nos números médios de prisões/ expulsões em favor da hipótese alternativa de que no estádio desconfortável a média é maior do que no estádio confortável. 32

Como fica o p-valor desse teste? Basta encontrar a área da cauda à direita t 0 = 4, 96 na dsitribuição t com 11 graus de liberdade. É possível ver que o p-valor é aproximadamente 0.0002, indicando fortíssima evidência contra H 0. Portanto, usando o p-valor, chegamos a mesma conclusão obtida via procedimento clássico com nível de significância 5%. Agora vamos ver como resolver esse problema usando o Bioestat. 33

Clique na opção Estatísticas, seguida e Duas Amostras Relacionadas, seguida de Teste t: Dados Amostrais Entre com os dados amostrais que estão nas colunas 2 e 3 e clique em executar para obter 34

Quadro de procedimentos no caso de duas a- mostras pareadas cujas diferenças são supostas normais. Sejam H 0 : µ D = 0 a hipótese nula, T 0 = D S D / n a estatística de teste e α o nível de significância do teste. H 1 Região crítica µ D 0 T 0 > t (1 α,n 1) µ D > 0 T 0 > t (1 2α,n 1) µ D < 0 T 0 < t (1 2α,n 1) 36

Intervalo de Confiança para µ D = µ 1 µ 2 : Suposição: as diferenças D i s são normalmente distribuídas. em que S IC(µ D, γ) : D ± t D (γ,n 1) n D é a média amostral das diferenças S 2 D = 1 n n 1 i=1 (D i D) 2 n é o tamanho da amostra t (γ,n 1) é um quantil da distribuição t com n 1 graus de liberdade tal que P ( t (γ,n 1) < T < t (γ,n 1) ) = γ, com T t (n 1). O Bioestat fornece os IC s da diferença das duas médias de 95% e 99% de confiança. 37

E se as diferenças não forem normais? Nesse caso podemos usar um teste não paramétrico também baseado em postos. Para amostras emparelhadas, um teste apropriado é o teste dos postos sinalizados de Wilcoxon. Para esse teste supomos que a escala das diferenças seja pelo menos intervalar e que os pares (X i, Y i ) constituam uma amostra aleatória simples da população. Isso implica, em particular, que os D i s são independentes com a mesma mediana. Suponha ainda que cada D i tenha uma distribuição simétrica. Ou seja, as médias e medianas coincidem. No exemplo 2, queremos testar { H0 : µ D = 0 H 1 : µ D > 0. 38

Teste dos postos sinalizados de Wilcoxon Passo 1: Calcule as diferenças D i, e os respectivos valores absolutos, D i, i = 1, 2,..., n Passo 2: Ordene D 1, D 2,..., D n os valores absolutos dos D i s e atribua postos de 1 a n. Em caso de empate faça o ajuste adequado. Se houver diferenças nulas, despreze-as e passe a usar como o número de observações n, o número de casos em que D i 0. Passo 3: Para as diferenças cujo sinal foi negativo, troque o sinal dos postos correspondentes, ou seja atribua um sinal negativo para eles. Passo 4: Calcule T +, a soma dos postos com sinal positivo e T a soma, em valor absoluto, dos postos com sinal negativo. 39

Passo 5: Selecione como a estatística de teste T = min{t +, T }, o menor dos dois. Para prosseguir com o teste é necessário obter a distribuição amostral da estatística T sob H 0. Observe que se H 0 for verdadeira, espera-se que qualquer que seja a observação as probabilidades da diferença a ela associada receber um sinal positivo ou um sinal negativo devem ser iguais e, portanto, espera-se que os valores de T + e T sejam similares. Observe também que se n é o número total de diferenças não-nulas, então T + + T = n (n + 1)/2. 40

Logo, rejeitaremos H 0 para algum nível de significância α fixado, se o valor de T for muito pequeno relativamente a sua distribuição amostral sob H 0. Em alguns textos de estatística estão disponíveis tabelas da distribuição amostral da estatística T para tamanhos amostrais variados. Para tamanhos amostrais grandes também é possível trabalhar com uma aproximação normal da distribuição de T. O Bioestat realiza esse teste e produz como saída os p-valores no caso do teste ser unilateral ou bilateral. 41

No caso dos dados do exemplo 2, temos Como não há diferenças negativas o valor amostral de T será zero e, o que é um indício claro de que os dados trazem evidências fortes contra H 0, a hipótese de igualdade das duas populações, a saber, violência sob desconforto e violência sob conforto em favor da hipótese alternativa de que a violência é maior sob condições de desconforto. 42

Não iremos nos preocupar com detalhes técnicos de atribuição de postos nesse teste. U- saremos o Bioestat para realizar esse teste e, o programa, nos retornará o p-valor do teste. O importante é saber interpretar a saída do programa! Usando o Bioestat, clique em Estatísticas, seguida de Duas Amostras Relacionadas, seguida de Wilcoxon (signed-rank test). Depois de indicar as colunas que contêm os dados e clicar em executar, obtém-se O p-valor indica evidência muito forte contra H 0. 43

Comparação de proporções em duas populações Existem várias situações reais nas quais é importante comparar duas proporções populacionais. Suposições 1. Dispõe-se de duas amostras aleatórias simples que são independentes, o que significa que os valores amostrais selecionados de uma população não estão relacionados ou, de alguma forma, emparelhados com os valores amostrais selecionados da outra população. Ou seja, temos n 1 observações de uma amostra, resultando em X 1 sucessos e numa proporção amostral de ˆp 1 = X 1 n e n 1 2 observações da outra amostra, resultando em X 2 sucessos e numa proporção amostral de ˆp 2 = X 2 n. 2 44

2. Para ambas as amostras, deve-se ter n i p i 5 e n i (1 p i ) 5, tal que haja pelo menos cinco sucessos e cinco fracassos em cada amostra. A hipótese nula é a de que H 0 : p 1 = p 2, ou seja as proporções populacionais são iguais. Sob H 0, faremos uma estimativa combinada de p 1 e p 2, supostas iguais, dada por p = X 1+X 2 n 1 +n 2 = n 1ˆp 1 +n 2ˆp 2 n 1 +n 2. Vimos que para tamanhos amostrais grandes ˆp i a N ( pi, p i(1 p i ) n i ), i = 1, 2. Como as amostras são independentes, vale ( a ˆp 1 ˆp 2 N p 1 p 2, p 1(1 p 1 ) + p 2(1 p 2 ) n 1 n 2 ) 45

Sob H 0, p 1 = p 2 = p, tal que sob essa hipótese, a ˆp 1 ˆp 2 N (0, p(1 p) 1 n + 1 1 n ). 2 Nosso interesse será testar H 0 : p 1 = p 2 versus H 1 : p 1 p 2 (bilateral) ou H 1 : p 1 < p 2 (unilateral à esquerda) ou H 1 : p 1 > p 2 (unilateral à direita). A estatística de teste será Z 0 = ˆp 1 ˆp 2 p(1 p) ( 1n1 + 1n2 ), com p a estimativa combinada das proporções populacionais p 1 e p 2 sob a suposição de que são iguais. Fixado α o nível de significância, basta determinar a região crítica identificando a(s) cauda(s) apropriada(s) na distribuição normal padrão. 46

Se H 1 : p 1 p 2, a região crítica será Z 0 > z (1 α). Se H 1 : p 1 > p 2, a região crítica será Z 0 > z (1 2α). Se H 1 : p 1 < p 2, a região crítica será Z 0 < z (1 2α). Para calcular o p-valor do teste basta determinar a(s) área(s) da(s) cauda(s) correspondente(s) ao valor amostral da estatística Z 0. 47

Exemplo 3: Uma pesquisa com 436 trabalhadores mostrou que 192 deles disseram considerar seriamente não-ético o monitoramento dos e-mails dos empregados. Quando 121 chefes do nível sênior foram pesquisados, 40 disseram considerar seriamente nãoético o monitoramento dos e-mails dos empregados (com base em dados de uma pesquisa do Gallup). Use um nível de significância de 5% para testar a afirmativa de que, para aqueles que disseram ser seriamente não ético o monitoramento dos e-mails dos empregados, a proporção de empregados é maior do que a proporção de chefes. 48

Observe que neste exemplo as duas proporções populacionais, p 1 e p 2 são, respecitvamente a proporção de empregados que consideram seriamente não ético e a proporção de chefes que consideram seriamente não ético o monitoramento dos emails dos empregados. Observaram-se duas amostras independentes: amostra de empregados: n 1 = 436, X 1 = 192 e, ˆp 1 = 192 426 0, 44. amostra de chefes: n 2 = 121, X 2 = 40 e, ˆp 2 = 121 40 0, 33. Nesse problema queremos testar { H0 : p 1 = p 2 H 1 : p 1 > p 2, ao nível de significância α = 0, 05. 49

Vimos que se H 1 : p 1 > p 2, a região crítica será Z 0 > z (1 2α). Logo, usando uma tabela da distribuição normal padrão vemos que z (0,90) 1, 64 tal que a região crítica desse teste será Z 0 > 1, 64. Calculemos então o valor amostral de Z 0. Temos p = 192+40 436+121 0, 42 tal que z 0 0,44 0,33 0,42(1 0,42)( 1 436 + 1 121 ) 2, 17. Como o valor amostral caiu na região crítica, ao nível de significância de 5% rejeitamos a hipótese nula de que tais proporções são iguais em favor da suposição de que entre os empregados a proporção é maior. 50

Qual é o p-valor desse teste? Como é um teste unilateral à direita, devemos calcular a área à direita do quantil 2,17 numa normal padrão. O p-valor desse teste foi 1,5%, indicando forte evidência contra a hipótese nula. 51

Exemplo da Literatura Desempenho da memória de pessoas ansiosas e não ansiosas Um exemplo de um estudo no qual os pesquisadores podem ter cometido um erro tipo I é o de Mogg, Mathews e Weinman (1987). Neste estudo, foi medido o desempenho da memória para palavras negativas em indivíduos clinicamente ansiosos (pacientes com transtorno de ansiedade generalizada (TAG)) e indivíduos não ansiosos. Eles encontraram que pacientes com TAG lembraram menos palavras intimidativas do que não intimidativas, que foi o contrário do previsto. Eles concluíram, portanto, que essa diferença não foi devida ao erro amostral e que era de fato uma diferença genuína entre os pacientes com TAG e indivíduos não ansiosos. Estudos subsequentes dos mesmos autores e de outros têm, contudo, falhado na replicação dessa descoberta. O consenso geral agora é que não existe tal tendenciosidade de memória associada ao TAG (veja, por exemplo, Mitte, 2008). Os pesquisadores cometeram um erro tipo I. Eles concluíram que pacientes com TAG têm uma tendência de se lembrar mais de palavras não intimidativas comparada com as intimidativas. Pesquisas subsequentes contudo falharam na confirmação disso e agora parece mais palusível concluir que não existe esse efeito na população de pacientes com TAG. Isso não significa dizer que esta foi uma pesquisa ruim. Pelo contrário, ela foi um estudo excelente e serviu para mostrar que, como nosso julgamento está baseado em probabilidades, estamos algumas vezes a mercê do acaso. (Dancey e Reidy, pg 160/161). 52

Voltando ao exemplo apresentado no final da aula do dia 5 de setembro. O Dr. Doolittle finalmente desistiu da ideia de conversar com animais e decidiu tornar-se um psicólogo experimental de animais. Ele está particularmente interessado em descobrir se os gatos são ou não mais inteligentes que os cachorros. Para isso ele desenvolveu um teste de inteligência específico para esse estudo e testa amostras de gatos e cachorros. Ele foi cuidadoso para não introduzir qualquer tipo de vício no teste e acredita que criou um teste que não está associado às espécies, ou seja, pode ser u- sado em qualquer espécie. Dr, Dotlittle espera que exista uma diferença entre os escores de gatos e cachorros. No experimento ele trabalhou com duas amostras aleatórias de 10 gatos e 10 cachorros e, os resultados obtidos, estão na tabela a seguir. 53

gatos cachorros 95 116 100 112 104 102 78 96 130 89 111 124 89 131 114 117 102 107 97 110 Observe que temos uma situação de duas a- mostras independentes, gatos e cachorros. Podemos realizar um teste t bilateral de comparação das médias H 0 : µ g = µ c versus H 1 : µ g µ c, supondo que os escores de inteligência são normalmente distribuídos com variâncias iguais nas duas populações. Vejamos como fica a saída desse teste usando o Bioestat. 54

Depois de ler os dados que estão no arquivo gatosecachorros.bio, clique em Estatísticas, em seguida: Duas amostras independentes, e em seguida: Teste t:dados amostrais. Depois é só informar que os dados estão nas colunas e 1 e 2 e mandar executar. 55

Como saída obtemos Observe que o p-valor do teste bilateral é grande o suficiente para não rejeitarmos a hipótese nula de que os escores médios de inteligência são iguais entre gatos e cachorros. Ou seja, os dados da pesquisa não trazem evidência suficiente para a hipótese do Dr. Dootlittle de que os gatos são mais inteligentes. 56

Se a suposição de normalidade dos escores de inteligência for questionável, podemos realizar o teste de Wilcoxon-Mann-Whitney, menos poderoso do que o teste t, mas que não impõe a condição de normalidade dos dados. 57

Como saída obtemos O p-valor bilateral é maior do que 10%, levando novamente a não rejeição da hipótese nula. Na próxima aula trataremos de testes de normalidade e de homogeneidade das variâncias. 59

Referências bibliográficas: (1) Busssab e Morettin - Estatística Básica. Editora Saraiva (2) Triola. Introdução à Estatística. LTC. (3) Dancey e Reidy - Estatística sem Matemática para Psicologia - Penso 60