Medidas repetidas No.1 Fernando Lucambio Departamento de Estatística Universidade Federal do Paraná Curitiba/PR, 81531 990, Brasil email: lucambio@ufpr.br Agosto de 2008 1 Introdução Tempo de reação de 10 indivíduos submetidos a um estimulo na presença e ausência de ruídos ambientais e utilizando o estímulo inclinado a três diferentes ângulos. Dados do livro Designing Experiments and Analyzing Data: A model comparison perspective. S.E. Maxwell and H.D. Delaney (1990). Books/Cole, Pacific Grove, CA. Os dados são reproduzidos a seguir e podem ser encontrados digitando help(estvar). cond subj deg0na deg4na deg8na deg0np deg4np deg8np 1 420 420 480 480 600 780 2 420 480 480 360 480 600 3 480 480 540 660 780 780 4 420 540 540 480 780 900 5 540 660 540 480 660 720 6 360 420 360 360 480 540 7 480 480 600 540 720 840 8 480 600 660 540 720 900 9 540 600 540 480 720 780 10 480 420 540 540 660 780 A ausência de ruídos ambientais é codificada como NA e a presença como NP, subj indica o indivíduo e deg0, deg4 e deg8 os ângulos de inclinação do estímulo. Os dados podem ser visualizados na Figura 1. Vejamos alguns resultados descritivos. A média por columa pode ser calculada da seguinte maneira, lembrando que o resultados observados por linha devem ser dependentes e entre as linhas não, ou seja, é razovál supor independencia entre os indivíduos. > colmeans(reacttime) deg0na deg4na deg8na deg0np deg4np deg8np 462 510 528 492 660 762 As matrizes de varianças e covarianças e a matriz de correlações são obtidas sa seguinte maneira. 1
> mlmfit = lm(reacttime) > estvar(mlmfit) cond cond deg0na deg4na deg8na deg0np deg4np deg8np deg0na 3240 3400 2960 2640 3600 2840 deg4na 3400 7400 3600 800 4000 3400 deg8na 2960 3600 6240 4560 6400 7760 deg0np 2640 800 4560 7840 8000 7040 deg4np 3600 4000 6400 8000 12000 11200 deg8np 2840 3400 7760 7040 11200 13640 e > cor(reacttime) deg0na deg4na deg8na deg0np deg4np deg8np deg0na 1.0000000 0.6943694 0.6583046 0.5238095 0.5773503 0.4272073 deg4na 0.6943694 1.0000000 0.5297785 0.1050307 0.4244764 0.3384199 deg8na 0.6583046 0.5297785 1.0000000 0.6519503 0.7396003 0.8411283 deg0np 0.5238095 0.1050307 0.6519503 1.0000000 0.8247861 0.6807810 deg4np 0.5773503 0.4244764 0.7396003 0.8247861 1.0000000 0.8754276 deg8np 0.4272073 0.3384199 0.8411283 0.6807810 0.8754276 1.0000000 Ausência de estímulo Presença de estímulo tempo de reação 350 400 450 500 550 600 650 tempo de reação 400 500 600 700 800 900 deg0na deg4na deg8na deg0np deg4np deg8np Figura 1: Comportamento dos indíduos segundo a presença ou asência de ruídos ambientais e o ângulo do estímulo. 1.1 Considerações teóricas O modelo geral é da forma Y N(ΞB, I Σ), onde Y é uma matriz N p e Σ a matriz p p de variancias e covarianças. As linhas de Y são independentes com a mesma matriz Σ. Ξ é a matriz de planejamento ou das variáveis explicativas de dimensão N k e B a matriz de parâmetros da regressão de dimensão k p. Isto é, temos o mesmo modelo linear para as p colunas de Y com parâmetros possivelmente diferentes. 2
Por exemplo, no objeto mlmfit temos guardados os resultados: > summary(mlmfit) Response deg0na : (Intercept) 462 18 25.67 9.96e-10 *** Residual standard error: 56.92 on 9 degrees of freedom Response deg4na : (Intercept) 510.0 27.2 18.75 1.60e-08 *** Residual standard error: 86.02 on 9 degrees of freedom Response deg8na : (Intercept) 528.00 24.98 21.14 5.57e-09 *** Residual standard error: 78.99 on 9 degrees of freedom Response deg0np : (Intercept) 492 28 17.57 2.83e-08 *** Residual standard error: 88.54 on 9 degrees of freedom Response deg4np : (Intercept) 660.00 34.64 19.05 1.39e-08 *** Residual standard error: 109.5 on 9 degrees of freedom Response deg8np : (Intercept) 762.00 36.93 20.63 6.9e-09 *** Residual standard error: 116.8 on 9 degrees of freedom 3
1.1.1 Diferentes testes de hipóteses 1. Teste de hipóteses acerca da simplificação da estrutura de média. O objetivo é saber se podemos escolher um modelo mais simpäo es para todas as variáveis estudadas e substituindo Ξ por uma submatriz dela. O teste assume a forma R = MS 1 resms eff, com distribuição aproximada F. Nesta espressão M S refere-se às somas de quadrados da análise de varianças. Se os modelos comparados são fornecem médias semelhantes, R deve ser a matriz identidade, porém para calcular a estatística de teste efetiva, fazse necessário reduzir R num escalar. Quatro formas de fazer isso têm sido proposta na literatura conduzindo a quatro formas diferentes de realizar o mesmo teste, conhecidas como λ de Wilks, traço de Pillai, traço de Hotelling-Lawley e raiz quadrado superior de Roy. No exemplo: > mlmfit0=update(mlmfit, ~0) > anova(mlmfit,mlmfit0,x=,test="pillai") Analysis of Variance Table Model 1: reacttime ~ 1 Model 2: reacttime ~ 1-1 Res.Df Df Gen.var. Pillai approx F num Df den Df Pr(>F) 1 9 1249.57 2 10 1 2013.16 0.95 17.38 5 5 0.003534 ** Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 ou variantes dele escolhendo test igual a Wilks, Hotelling-Lawley ou Roy. Observemos que estamos comparando um modelo no qual as médias são iguais a uma constante (média geral) com um modelo no qual as médias das variáveis deg0na, deg4na, deg8na, deg0np, deg4np e deg8np são diferentes. Rejeitamos a hipótese de igualdade de modelos, concluimos então que as médias das variáveis são diferentes. Outra forma de realizar o teste acima, porém assumindo esferidade da matriz de covarianças é da forma > anova(mlmfit1,mlmfit0,x=,test= Spherical ) Analysis of Variance Table Model 1: reacttime ~ 1 Model 2: reacttime ~ 1-1 Greenhouse-Geisser epsilon: 0.4855 Huynh-Feldt epsilon: 0.6778 4
Res.Df Df Gen.var. F num Df den Df Pr(>F) G-G Pr H-F Pr 1 9 1249.6 2 10 1 2013.2 38.028 5 45 4.471e-15 2.532e-08 7.393e-11 Aqui, Greenhouse-Geisser epsilon e Huynh-Feldt epsilon são modificações do teste λ de Wilks para melhorar a aproximação à distribuição de referência desta estatística. 2. Verificar quando Σ é proporcional à alguma matriz conhecida, digamos Σ 0 (usualmente a matriz identidade). Este teste é conhecido como o teste Mauchly esférico. A idéia é comparar o determinante e o traço da matriz U = Σ 1 0 S, onde S é o estimador de Σ. Especificamente, a estatística de teste é W = det(u)/tr(u/p) p, se o valor desta estatística estiver perto de 1 significa que U está perto de ser a matriz identidade de dimensão p. A transformação f log W é aproximadamente uma variável aleatória χ 2 com p(p + 1)/2 1 graus de liberdade e f são os graus de liberdade da matriz de covarianças. No exemplo: > mauchly.test(mlmfit,x=) Mauchly s test of sphericity data: SSD matrix from lm(formula = reacttime ~ 1) W = 0.0311, p-value = 0.04765 De acordo com este teste rejeitamos a esfericidade da matriz de covarianças e, portanto, dos testes anteriores somente é válido aquele obtido digitando >anova(mlmfit,mlmfit0,x=,test="pillai") 1.2 Exercícios Faça e interprete o seguinte exemplo. Qual a vantagem de utilizar MANOVA? ## Example on producing plastic film from Krzanowski (1998, p. 381) > tear <- c(6.5, 6.2, 5.8, 6.5, 6.5, 6.9, 7.2, 6.9, 6.1, 6.3, 6.7, 6.6, 7.2, 7.1, 6.8, 7.1, 7.0, 7.2, 7.5, 7.6) > gloss <- c(9.5, 9.9, 9.6, 9.6, 9.2, 9.1, 10.0, 9.9, 9.5, 9.4, 9.1, 9.3, 8.3, 8.4, 8.5, 9.2, 8.8, 9.7, 10.1, 9.2) > opacity <- c(4.4, 6.4, 3.0, 4.1, 0.8, 5.7, 2.0, 3.9, 1.9, 5.7, 2.8, 4.1, 3.8, 1.6, 3.4, 8.4, 5.2, 6.9, 2.7, 1.9) > Y <- cbind(tear, gloss, opacity) > rate <- factor(gl(2,10), labels=c("low", "High")) > additive <- factor(gl(2, 5, length=20), labels=c("low", "High")) > > fit <- manova(y ~ rate * additive) > summary.aov(fit) # univariate ANOVA tables > summary(fit, test="wilks") # ANOVA table of Wilks lambda > summary(fit) # same F statistics as single-df terms 5