3. Experimentos a um único fator: Análise de Variância (ANOVA) 3.7 Comparações entre médias de tratamento Suponha que a hipótese nula, de médias de tratamento iguais, tenha sido rejeitada em favor da hipótese alternativa de que pelo menos uma média difere das demais. No entanto, o teste não indica como é a diferença existente. Existem inúmeras possibilidades para a hipótese alternativa. Será útil então realizar análises entre grupos de médias de tratamento. A média do i-ésimo tratamento é dada por µ i = µ + τ i, i = 1, 2,..., a e µ i é estimado pela média amostral correspondente. 1
Os procedimentos para fazer essas comparações são chamados métodos de comparações múltiplas e, alguns deles serão apresentados a seguir. 3.7.1 Comparações das médias: Contrastes Modelo de efeitos Y ij = µ + τ i + ɛ ij, { i = 1, 2,..., a j = 1, 2,..., n ɛ ij NID(0, σ 2 ) Muitos métodos de comparações múltiplas u- sam a idéia de contraste. Considere o experimento de gravação de plasma (exemplo 3.1). Como H 0 foi rejeitada, sabemos que para alguma potência, a média das velocidades de gravação resultante é diferente das outras médias, mas que potência de fato apresenta uma média diferente? 2
Poderíamos suspeitar, no início do experimento que as potências 200 e 220W produzem as mesmas taxas, implicando que gostaríamos de testar as hipóteses H 0 : µ 3 = µ 4 versus H 1 : µ 3 µ 4. Se suspeitássemos no início que a média dos níveis mais baixos não diferem da média dos níveis mais altos, então as hipóteses seriam H 0 : µ 1 +µ 2 = µ 3 +µ 4 versus µ 1 +µ 2 µ 3 +µ 4. Um CONTRASTE é uma combinação linear dos parâmetros da forma com a i=1 γ = a i=1 c i µ i c i = 0, para planos balanceados. 3
As hipóteses a serem testadas são H 0 : γ = 0 versus H 1 : γ 0. A estatística de teste neste caso será dada por ˆγ = a i=1 c i Ȳ i.. Se as suposições do modelo são válidas, temos, sob H 0, ˆγ N 0, σ2 n a c 2 i i=1. 4
Sabemos que σ 2 é desconhecido e, portanto, usaremos seu estimador não-viciado dado por QM Res. Como QM Res σ 2 χ 2 N a e ˆγ são independentemente distribuídos (por que?), podemos usar uma estatística T 0 dada por T o = QM Res n ˆγ a c 2 i i=1 que, sob H 0, tem distribuição t com N a graus de liberdade. 5
QM Res n Observe que também podemos usar a estatística F 0 = t 2 0 = ˆγ 2 que, sob H 0, tem distribuição F 1,N a. a c 2 i i=1 Ao nível de significância α rejeitamos H 0 se F 0 F (1 α),1,n a. Intervalo de confiança para γ: IC(γ, 1 α) : ˆγ ± t (1 α/2),n a a QM Res c 2 i i=1 n. 6
Observe que a estatística F 0 pode ser escrita como F 0 = QM C QM Res = SQ C /1 SQ Res /(N a) com SQ C = a c i ȳ i. i=1 a 1 n c 2 i i=1 2 = ˆγ2 a 1 n c 2 i i=1 7
3.7.1.1 Contraste padronizado Quando mais de um contraste é de interesse, pode ser útil avaliá-los na mesma escala. Uma forma de fazer isto é padronizar os contrastes de modo a que todos tenham variância σ 2. Se γ = dados por a i=1 c i µ i, os contrastes amostrais são ˆγ = a i=1 c i ȳ i. e, sob H 0, têm distribuição N 0, σ 2 a i=1 c 2 i n. 8
Logo, sob H 0, ˆγ c 2 i n N(0, σ 2 ). Podemos então, definir os contrastes padronizados com coeficientes c i = c i a c 2 j j=1 n, i = 1, 2,..., a 9
3.7.1.2 Amostras de tamanhos desiguais Neste caso algumas adaptações são necessárias. a i=1 n i c i = 0 t o = ˆγ QM Res a c 2 i i=1n i SQ C = a ˆγ2 ( c 2 i ) i=1 n i 10
3.7.2 Contrastes Ortogonais Um caso especial útil é o de contrastes ortogonais. Dois contrastes com coeficientes {c i } e {d i } são ditos ortogonais se ci d i = 0, no caso de amostras de tamanhos iguais ou, ni c i d i = 0, no caso de amostras de tamanhos desiguais. Para a tratamentos, o conjunto de a 1 contrastes dois a dois ortogonais particiona a soma de quadrados devida a tratamentos em a 1 componentes independentes com 1 grau de liberdade. Testes realizados sobre contrastes ortogonais são independentes! 11
Há diversas formas de escolher os coeficientes dos contrastes ortogonais para um dado conjunto de tratamentos. Algo na natureza do experimento deve sugerir que comparações são de interesse. Por exemplo, se a = 3, o experimento é balanceado e um dos tratamentos é de fato um controle (nível 1) e os demais são níveis de tratamento (2 e 3) de interesse, contrastes ortogonais usuais são dados por tratamento τ 1 τ 2 1-2 0 2 1-1 3 1 1 c 1 = 2, c 2 = c 3 = 1 e d 1 = 0, d 2 = 1, d 3 = 1 representando às hipóteses nulas µ 2 +µ 3 = 2µ 1 e µ2 = µ 3, respectivamente. 12
O método de contrastes (ou contrastes ortogonais) é útil para comparações pré-planejadas. Os contrastes são especificados antes de realizar o experimento e examinar os dados. A razão para isso é que se as comparações são selecionadas depois de examinar os dados, muitos experimentadores iriam construir testes que correspondem às grandes diferenças observadas nas médias. Essas grandes diferenças poderiam ser resultado da presença de efeitos reais ou poderiam ser resultado de erro aleatório. Se experimentadores pegam as maiores diferenças para comparar, eles irão inflacionar o erro tipo I do teste, pois é provável que, em uma porcentagem não usual alta da comparação selecionada, as diferenças observadas serão resultado de erro. 13
A estratégia de examinar os dados para selecionar comparações de interesse costuma ser chamada de data snooping ( investigação dos dados ). O método de Scheffé para todas as comparações, que apresentaremos adiante, permite data snooping. Exemplo 3.6: Considere o exemplo 3.1 e suponha que deseja-se testar 3 contrastes 2 a 2 ortogonais dados por γ 1 = µ 1 µ 2, γ 2 = µ 1 + µ 2 µ 3 µ 4 e γ 3 = µ 3 µ 4. Neste caso, os respectivos contrastes amostrais são dados por C 1 = ȳ 1. ȳ 2., C 2 = ȳ 1. + ȳ 2. ȳ 3. ȳ 4. e C 3 = ȳ 3. ȳ 4.. 14
As somas de quadrados devidas a cada um deles SQ Cj = C2 j i(c 2 i /n), a saber, SQ C1 = 3276, 10, SQ C2 = 46948, 05 e SQ C3 = 16646, 40. A soma destas três quantidades resulta na soma de quadrados devida a tratamentos. Os testes sobre tais contrastes ortogonais são geralmente incorporados na ANOVA, como mostra a tabela a seguir. 15
16
3.7.3 Método de Scheffé para comparar todos os contrastes Em muitas situações não se sabe a priori quais são os contrastes de interesse ou pode-se estar interessado em mais do que a 1 contrastes. Em experimentos exploratórios, as comparações são definidas somente após um exame preliminar dos dados. Scheffé (1953) propôs um método, que será descrito a seguir, para comparar todos os contrastes possíveis. 17
Considere m contrastes de interesse. γ l = a i=1 c il µ i, l = 1, 2,..., m Quantidades amostrais correspondentes C l = a i=1 c il ȳ i., l = 1, 2,..., m Var(C l ) = a i=1 c 2 σ 2 il n i EP (C l ) = QM Res a i=1 c 2 il n i 18
O valor crítico contra o qual o valor de C l deve ser comparado neste teste, ao nível de significância α é S α,l = EP (C l ) (a 1)F (1 α),a 1,N a. { H0 : γ l = 0 H 1 : γ l 0 H 0 é rejeitada se C l > S α,l. Este procedimento também pode ser usado para construir intervalos de confiança simultâneos IC(γ l, 1 α) : C l ± S α,l. O nível de confiança conjunto é de pelo menos 1 α. 19
Para ilustrar este método, vamos considerar os dados do exemplo 3.1 e supor que os contrastes de interesse são γ 1 = µ 1 + µ 2 µ 3 µ 4 e γ 2 = µ 1 µ 4. Os valores amostrais correspondentes são C 1 = 193, 80 e C 2 = 155, 80. Os respectivos erros-padrão são EP (C 1 ) 16, 34 e EP (C 2 ) 11, 55. S 0.01,1 = 16, 34 3(5, 29) 65, 09 S 0.01,2 = 11, 55 3(5, 29) 45, 97 20
Como C 1 > S 0.01,1, concluímos a hipótese nula referente ao contraste τ 1 deve ser rejeitada. Além disso, como C 2 > S 0.01,2, concluímos também que a hipótese nula correspondente deve ser rejeitada. 21
3.7.4 Comparações de pares de médias de tratamento O interesse está nos contrastes do tipo γ = µ i µ k, i k. Apesar do método de Scheffé ser facilmente aplicado a este caso, ele não é o procedimento mais sensível para tais comparações. Vamos ver a seguir alguns métodos designados para este tipo de comparação: { H0 : µ i = µ k, i k H 1 : pelo menos um par de médias é desigual. 22
3.7.4.1 Teste de Tukey (1953) - procedimento para o qual o nível de significância global é exatamente α, quando os tamanhos amostrais são iguais e no máximo α, quando os tamanhos são desiguais. Este procedimento também pode ser usado para construir intervalos de confiança sobre as diferenças de todos os pares de médias. Para estes intervalos, o nível de confiança simultâneo é 100(1 α)% para amostras de tamanhos iguais e pelo menos 100(1 α)% para amostras de tamanhos desiguais. O procedimento de Tukey controla a taxa de erro racional do experimento ao nível selecionado α. Quando o foco está nos pares de médias, este é um bom procedimento de data snooping. 23
O procedimento de Tukey usa a distribuição da estatística de variação studentizada q = ȳmax ȳ min QM Res /n, com ȳ max e ȳ min a maior e a menor entre as médias de tratamento. No apêndice do livro, a tabela VII contém valores de q α (p, f), o quantil superior da distribuição de q, com f o número de graus de liberdade associado a QM Res e p o número de tratamentos. Para tamanhos amostrais iguais, o teste de Tukey declara que duas médias são significativamente diferentes se o valor absoluto da diferença amostral excede T α = q α (a, f) QMRes n. 24
Equivalentemente, poderíamos construir um IC: QM IC(µ i µ j, 1 α) : ȳ i. ȳ j. ± q α (a, f) Res n, i j. Quando os tamanhos amostrais são desiguais, as expressões anteriores tornam-se: T α = q α(a, f) 2 QM Res ( 1 n i + 1 n j ). ( e IC(µ i µ j, 1 α) : ȳ i. ȳ j. ± q α(a,f) 1 2 QM Res n i + 1 n j ), i j Observação: É possível, apesar do teste F da ANOVA ter rejeitado a hipótese nula, que nas comparações de todos os pares de médias nenhuma diferença significativa seja encontrada. Esta situação tem uma explicação, pois o teste F é um teste simultâneo de todos os contrastes possíveis. Neste caso, o contraste significativo não será uma comparação simples de duas médias. 25
Exemplo 3.7: Para ilustrar o teste de Tukey, vamos novamente usar os dados do experimento de gravação de plasma. Com α = 0, 05 e f = 16 graus de liberdade para o erro, a tabela VII do Apêndice, fornece q 0,05 (4, 16) = 4, 05. Portanto, T 0,05 = q 0,05 (4, 16) QMRes n = 4, 05 333, 7 5 33, 09 Assim, quaisquer pares de médias de tratamento que diferirem em valor absoluto por mais de 33,09 implicarão que os pares de médias das populações correspondentes são significativamente diferentes. As médias amostrais dos quatro tratamentos são ȳ 1. = 551, 2, ȳ 2. = 587, 4, ȳ 3. = 625, 4 e ȳ 4. = 707, 0 e os pares de diferenças são 1-2 -36,2 1-3 -74,2 1-4 -155,8 2-3 -38,0 2-4 -119,6 3-4 -81,6 Podemos ver que todos os pares acusaram diferenças significativas. Logo, cada configuração de potência resulta em uma velocidade média de gravação que difere de qualquer outra configuração. 26
Tabela VII com valores de q α (p, f) 27
No R, está disponível a função T ukeyhsd(ajusteaov). TukeyHSD(ajuste) Tukey multiple comparisons of means 95% family-wise confidence level Fit: aov(formula = dados$velocidade as.factor(dados$potencia)) as.factor(dados$potencia) diff lwr upr p adj 180-160 36.2 3.1 69.2 0.0294279 200-160 74.2 41.1 107.3 0.0000455 220-160 155.8 122.7 188.8 0.0000000 200-180 38.0 4.9 71.1 0.0215995 220-180 119.6 86.5 152.6 0.0000001 220-200 81.6 48.5 114.6 0.0000146 Olhando a tabela acima, podemos ver que todas as diferenças são significativas. 28
3.7.4.2 Método de Fisher da diferença significante mínima Considera todos os pares de médias. Controla a taxa de erro α. Não controla a taxa de erro racional experminetwise error rate Usa a estatística T 0 para testar H 0 : µ i = µ k versus H 1 : µ i µ k T 0 = Ȳ i. Ȳ k. QM Res ( 1ni + 1 nk ). Ao nível de significância α, rejeitamos H 0 se T 0 t (1 α/2),n a 29
ou equivalentemente se ( Ȳ i. Ȳ k. t 1 (1 α/2),n a QM Res + 1 ) n i n k A quantidade ( DSM = t 1 (1 α/2),n a QM Res + 1 ) n i n k é chamada diferença significante mínima. Se o plano é balanceado (amostras de tamanhos iguais a n), tem-se 2QMRes DSM = t (1 α/2),n a. n 30
Este procedimento consiste em comparar as diferenças observadas entre cada par de médias com a DSM correspondente. Observe que o risco global pode ser bem inflacionado por este método. Especificamente, a medida que o número de tratamentos é maior, maior será a taxa de erro racional. Afinal, que método usar? Não existe uma resposta certa para esta questão! 31
Em um estudo, Cramer e Swanson (1973) u- saram simulação de Monte Carlo para comparar diferentes procedimentos de comparações múltiplas. Eles relataram que o método da DSM é bastante eficaz para detectar diferenças verdadeiras, se ele é aplicado somente após o teste F da ANOVA ter sido rejeitado a um nível de significância de 5%. Porém, este método não controla a taxa de erro racional. Como o teste de Tukey controla a taxa de erro global, este costuma ser mais usado. 32
No R está disponível um pacote DescT ools para o qual há a função P osthoct est que é uma ferramenta útil para realizar testes de comparações múltiplas depois de ter rodado a Análise de Variância. PostHocTest(ajuste, method = scheffe ) Posthoc multiple comparisons of means : Scheffe Test 95% familywise confidence level par diferença lim. inf. lim. sup. p-valor 180-160 36.2 0.1865 72.2135 0.04858 200-160 74.2 38.1865 110.2135 0.00011 220-160 155.8 119.7865 191.8135 5.9e-09 200-180 38.0 1.9865 74.0135 0.03666 220-180 119.6 83.5865 155.6135 2.5e-07 220-200 81.6 45.5865 117.6135 3.6e-05 33
PostHocTest(ajuste, method = lsd ) Posthoc multiple comparisons of means : Fisher LSD 95% family-wise confidence level par diferença lim. inf. lim. sup. p-valor 180-160 36.2 11.71 60.69 0.0064 200-160 74.2 49.71 98.69 8.4e-06 220-160 155.8 131.31 180.29 3.7e-10 200-180 38.0 13.51 62.49 0.0046 220-180 119.6 95.11 144.09 1.7e-08 220-200 81.6 57.11 106.09 2.7e-06 34
Comparações de médias de tratamento, quando um nível é de fato controle. Suponha que dos a níveis, um deles seja controle. Neste contexto, muitas vezes o interesse será comparar cada nível de tratamento com o controle. Supondo que o último nível é o controle, neste caso o interesse estará no teste de H 0 : µ i = µ a versus H 1 : µ i µ a, para i = 1, 2,..., a 1. O procedimento de Dunnett é uma modificação do teste t usual. Para cada hipótese, calculamos as diferenças observadas nas médias amostrais ȳ i. ȳ a., i = 1, 2,..., a 1. 35
H 0 é rejeitada ao nível de significância α se ( ȳ i. ȳ a. d α (a 1, f) 1 QM Res + 1 ) n i n a Os valores d α (a 1, f) encontram-se tabelados no Apêndice do livro texto, tabela VIII (ambos os testes uni e bilaterais são possíveis). α é o nível de significância conjunto associado aos a 1 testes. Exemplo 3.9 Para ilustrar o teste de Dunnett, considere o experimento do exemplo 3.1 com o nível 4 considerado como controle. Nesse exemplo, a = 4, a 1 = 3, f = 16 e n 1 = n 2 = n 2 = n 4 = n = 5. 36
Ao nível de significância de 5%, encontramos na tavela VIII do Apêndice do livro-texto que d 0,05 (3, 16) = 2, 59. Assim, a diferença crítica é d 0,05 (3, 16) 2QMRes n = 2, 59 2 (333, 7) 5 29, 92 Observe que nesse caos o experimento é balanceado. Logo, qualquer média de tratamento que difere da média do controle em valor absoluto por mais de 29,92 será declarada significativamente diferente. As diferenças observadas aqui são 1-4 -155,8 2-4 -119,6 3-4 -81,6 37
Observamos que todas as diferenças são significantes. Assim, concluímos que todas as configurações de potência são diferentes do controle. Observação: Quando comparam-se tratamentos a um controle, recomenda-se usar mais observações para o controle do que para os tratamentos, usando tamanhos iguais para os a 1 tratamentos. Segundo Montgomery (2009), a razão n a /n deve ser aproximadamente igual a a. 38