Planejamento de Experimentos 6. Os Modelos fatoriais 2 k Trataremos agora de um caso especial de experimentos fatoriais no qual todos os fatores têm apenas dois níveis. Tais níveis podem ser quantitativos tal como dois valores de pressão ou qualitativos tal como duas máquinas. Uma replicação completa deste plano com k fatores requer 2 k observações. Assumiremos que: 1 - os fatores são fixos; 2 - os planos são completamente aleatorizados; 3 - as suposições usuais de normalidade, variância constante e independência são satisfeitas. 1
Quando muitos fatores parecem ser importantes e merecem ser investigados, o plano 2 k é particularmente útil em estágios iniciais do trabalho experimental, fornecendo o menor número de observações com as quais k fatores podem ser estudados num plano fatorial completo. Estes planos são muito usados em problemas de seleção de fatores (factor screening). Como existem somente dois níveis de cada fator, assumimos que a resposta é aproximadamente linear sobre o campo de variação dos níveis escolhidos dos fatores, caso o fator seja quantitativo. Muitas vezes, na seleção de fatores, quando estamos apenas começando o processo, esta suposição é razoável. 2
6.2 O Plano 2 2 Sejam A e B os fatores a serem investigados com níveis baixo e alto cada um. Como um exemplo, considere uma investigação do efeito dos fatores concentração de reagente e quantidade de catalisador sobre a produção num processo químico. O objetivo deste experimento foi determinar se ajustes destes fatores aumentariam a produção. Fator A: 25% concentração do reagente 15% ou Fator B: catalisador alto (2 pounds) baixo (1 pound) Número de replicações do experimento: n = 3. 3
Desse modo, temos abn = 2 2 3 = 12 observações. A ordem na qual as combinações de tratamento foram observadas foi escolhida aleatoriamente. Trata-se de um experimento completamente aleatorizado (ECA). Os dados estão listados a seguir: A B I II III Total - - 28 25 27 80 + - 36 32 32 100 - + 18 19 23 60 + + 31 30 29 90 Na figura a seguir temos uma representação gráfica do plano. 4
5
O nível alto de cada fator é denotado pela letra minúscula correspondente à letra do fator, tal que a nível alto do fator A somente b nível alto do fator B somente ab nível alto de ambos os fatores (1) nenhum nível alto Esta é a notação usada nos planos 2 2 para as combinações de tratamento. Esta notação também é usada para representar o total em cada combinação de tratamento, como mostrou a figura anterior. 6
Em um plano fatorial 2 k, podemos definir o efeito médio de um fator como a variação na resposta produzida por uma variação no nível daquele fator levando-se em conta os níveis dos outros fatores. Efeito de A no nível baixo de B: a (1) n Efeito de A no nível alto de B: ab b n. Assim, o efeito principal de A é a média dos efeitos acima: A = 2n 1 [ab + a b (1)] 7
Similarmente, Efeito de B no nível baixo de A: b (1) n Efeito de B no nível alto de A: ab a n. Assim, o efeito principal de B é a média dos efeitos acima: B = 2n 1 [ab + b a (1)] Definimos o efeito de interação AB como a semi-diferença entre o efeito de A no nível alto de B e o efeito de A no nível baixo de B: AB = 1 2 [ ab b n a (1) ] n = 1 2n [ab + (1) a b] 8
Observe que dá no mesmo se definirmos AB como a semi-diferença entre o efeito de B no nível alto de A e o efeito de B no nível baixo de A. As fórmulas obtidas para os efeitos A, B e AB podem ser derivadas por outros métodos. O efeito de A pode ser encontrado como a diferença na resposta média das duas combinações de tratamento sobre o lado direito do quadrado (ȳ A+ ) e as duas combinações no lado esquerdo do quadrado (ȳ A ). Ou seja, A = ȳ A+ ȳ A = 2n 1 [ab + a b (1)] Similarmente, B = ȳ B+ ȳ B = 2n 1 [ab + b a (1)] 9
Finalmente, o efeito de interação AB é a diferença entre a média da diagonal principal (ab e (1)) e a média da diagonal secundária (a e b) tal que AB = 2n 1 [ab + (1) a b] Usando os dados do exemplo em questão, obtemos A = 190 140 6 8, 33, B = 150 180 6 = 5, 00 e AB = 170 160 6 1, 67. O efeito de A é positivo, o que sugere que aumentar a concentração de reagente de 15% para 25%, resultará num aumento da produção. 10
O efeito de B é negativo, o que sugere que aumentar a quantidade de catalisador de 1 pound para 2 pounds, resultará numa diminuição da produção. O efeito de interação AB parece ser relativamente pequeno olhando-se os efeitos principais. Em experimentos envolvendo planos 2 k é sempre importante examinar a magnitude e a direção dos efeitos do fator para determinar que variáveis são potencialmente importantes. A ANOVA pode ser usada para confirmar esta interpretação. Testes t também podem ser u- sados. 11
Magnitude e direção do efeito deveriam sempre ser consideradas juntamente com a ANOVA, pois a ANOVA isolada não contém tal informação. Tabela ANOVA do plano 2 2 FV gl SQ QM 1 A 1 yi.. 2 bn y2... QM A abn B 1 AB 1 1 n i j 1 an i j y 2.j. y2... abn y 2 ij. SQ A SQ B y2... abn QM B QM AB Erro abn-4 diferença QM Res Total abn 1 (y ijk ȳ... ) 2 i j k Existem métodos especiais que facilitam muito os cálculos das somas de quadrados nos planos 2 k. 12
Para estimar os efeitos dos fatores principais A e B e de interação AB, usamos contrastes, a saber, Contraste A = ab + a b (1) (Ef. Total de A) Contraste B = ab + b a (1) (Ef. Total de B) Contraste AB = ab + (1) a b (Ef. Total de AB) Estes contrastes são dois a dois ortogonais, pois as sequências de coeficientes que os definem são (1, 1, 1, 1), (1, 1, 1, 1) e (1, 1, 1, 1) tomados na ordem das combinações ab, a, b e (1). Lembre que (1), a, b e ab representam os totais em cada combinação de níveis de tratamento. 13
Vimos, no capítulo 3, que a soma de quadrados de qualquer contraste pode ser calculada por SQ C = 2 a y c i. i i=1 n i a c 2 i i=1n i Aqui estamos trabalhando com o caso n i = n para todo i tal que SQ C = 1 n a c i y i. i=1 a c 2 i i=1 2 com y i. representando o total no i-ésimo nível de tratamento e a o número de níveis de tratamento. 14
No plano 2 2 que estamos estudando, tem-se a = 4, y 1. = (1), y 2. = a, y 3. = b e y 4. = ab. Logo, para calcular as somas de quadrados devidas aos efeitos, tem-se SQ A = n 1 (ab+a b (1)) 2 4 = (Contraste A) 2 2 2 n(=n) Similarmente, SQ B = n 1 (ab a+b (1)) 2 4 = (Contraste B) 2 N SQ AB = n 1 (ab a b+(1)) 2 4 = (Contraste AB) 2 N Observe o quão simples ficou calcular as somas de quadrados no plano 2 2. 15
No exemplo em questão temos SQ A = (50)2 12 = 208, 33, SQ B = ( 30)2 12 = 75 e SQ AB = (10)2 12 = 8, 33. k = 2, n = 3 e N = 2 2 3 = 12. A seguir apresentamos a tabela ANOVA deste exemplo. 16
17
Concluímos que de fato os efeitos principais são significativos e que o efeito de interação pode ser desprezado. É conveniente escrever as combinações de tratamento na ordem (1), a, b e ab que é chamada ordem padrão (ou ordem de Yates). Comb. I A B AB (1) + - - + a + + - - b + - + - ab + + + + O plano é dito ortogonal, pois os fatores (sinais dos contrastes) são ortogonais 2 a 2. Observe que exceto pela coluna I da tabela, quando multiplicamos quaisquer duas colunas, os sinais resultantes reproduzem a coluna de fora. 18
Modelo de Regressão: Em um plano fatorial 2 k é fácil expressar os resultados do experimento em função de um modelo de regressão. No exemplo em questão, o modelo é y = β 0 + β 1 x 1 + β 2 x 2 + ɛ pois vimos que a interação pode ser desprezada. x 1 é a variável codificada que representa concentração de reagente e vale -1 para o nível baixo e +1 para o nível alto. Observe que os valores reais e x 1 estão relacionados pela equação x 1 = conc 20 5. x 2 é a variável codificada que representa quantidade de catalisador e vale -1 para o nível baixo e +1 para o nível alto. Observe que os valores reais e x 2 estão relacionados pela equação x 2 = cat 1,5 0,5. 19
O modelo de regressão ajustado é ( ) 8, 33 ŷ = 27, 5 + }{{} 2 média das obs. s }{{} metade do ef. A x 1 + {}} ){ metade do ef. B ( 5, 00 2 x 2 É interessante notar que as estimativas de mínimos quadrados obtidas, usando-se esta codificação, nos levam a estimativas que correspondem à média das observações para o intercepto e às metades dos efeitos relativos ao fatores correspondentes. É claro que após ajustar o modelo, antes de tirarmos as conclusões, é necessário realizar uma verificação de adequação. Os gráficos a seguir mostram que a suposição de normalidade é adequada (normal plot dos resíduos). O gráfico de resíduos versus valores ajustados mostra que o modelo é adequado, e a suposição de variância constante também. 20
21
O modelo de regressão ajustado pode ser u- sado para prever valores da resposta nos quatro pontos do quadrado que corresponde ao plano 2 2. Temos ŷ 11 = 27, 5 + 8,33 ( 5) 2 ( 1) + 2 ( 1) = 25, 835 (28, 25, 27) ŷ 12 = 27, 5+ 8,33 ( 5) 2 ( 1)+ 2 (1) = 20, 835 (18, 19, 23) ŷ 21 = 27, 5+ 8,33 ( 5) 2 (1)+ 2 ( 1) = 34, 165 (36, 32, 32) ŷ 22 = 27, 5 + 8,33 ( 5) 2 (1) + 2 (1) = 29, 165 (31, 30, 29) Entre parênteses estão os valores observados. 22
Observe que o modelo ajustado pode ser u- sado para construir gráficos de superfície de resposta. ŷ = 27, 5 + ( 8,33 2 ) x1 + ( 5,00 ) 2 x2 Em particular, neste exemplo, teremos um plano. Para que o gráfico fique mais informativo, é melhor construí-lo na escala original dos níveis dos fatores. Observe que para isto basta substituir as relações entre variáveis codificadas e originais na equação do modelo ajustado. Na escala original dos níveis dos fatores temos ŷ = 18, 33 + 0, 83Conc 5, 00Cat Observe também que a superfície de resposta deve ser considerada apenas em valores intermediários dos valores usados no experimento. 23
Assim, para concentração devemos usar valores entre 15 e 25 e para catalisador valores entre 1 e 2. No R a função persp pode ser usada para construir este gráfico. conc = seq(15, 25, length= 15) # conc recebe 15 valores igualmente espaçados entre 15 e 25 inclusive cat = seq(1, 2, length= 15) # cat recebe 15 valores igualmente espaçados entre 1 e 2 inclusive prod = outer(conc,cat, function(a,b) 18.33+0.83*a-5*b) # prod recebe uma grade de valores correspondentes à função considerando todos os pares (conc,cat) persp(conc,cat,prod,main= Superfície de resposta,theta=-45) # o gráfico 3D de conc x cat x prod é construído # theta é um parâmetro de escolha de inclinação dos eixos de conc e cat. 24
25
26
Examinando os contornos de resposta constante, vemos que a produção cresce a medida que a concentração de reagente cresce e a quantidade de catalisador decresce. É comum usar superfícies de resposta para encontrar uma direção de aperfeiçoamento potencial para o processo. Métodos de otimização são usados para isso. 27
Exercício 6.8: Uma bióloga está interessada nos efeitos médios de duas culturas e dois tempos diferentes sobre o crescimento de um vírus particular. Para isso ela usou um plano 2 2 com seis replicações. A ordem na qual as observações foram tomadas foi aleatorizada. Analise os dados de crescimento a seguir e tire conclusões apropriadas. Não se esqueça de analisar os resíduos e comentar sobre a a- dequação do modelo. tempo c1 c2 12h 21 22 25 26 23 28 24 25 20 26 29 27 18h 37 39 31 34 38 38 29 33 35 36 30 35 Os dados estão no arquivo culturabac.txt com A representando o fator tempo e B, o fator cultura. 28
dados=read.table( c://flavia//dox//culturabac.txt,header=t) tempo=as.factor(dados$a) cultura=as.factor(dados$b) fit=aov(cresc tempo*cultura,data=dados) summary(fit) FV Df Sum Sq Mean Sq F value P r(> F ) tempo 1 590.0 590.0 115.506 9.29e-10 * cultura 1 9.4 9.4 1.835 0.190617 tempo:cultura 1 92.0 92.0 18.018 0.000397 Residuals 20 102.2 5.1 Logo, os efeitos significativos são tempo e o efeito de interação tempo*cultura. 29
Ajustando-se um modelo de primeira ordem a estes dados, considerando apenas os efeitos significativos, obtém-se fit Reg=lm(cresc A+A:B,data=dados) summary(fit Reg) Coefficients Estimate Std. Error t value P r(> t ) (Intercept) 29.6250 0.4704 62.973 2e-16 *** A 4.9583 0.4704 10.540 7.66e-10 *** A:B -1.9583 0.4704-4.163 0.00044 *** Residual standard error: 2.305 on 21 d.f. Multiple R 2 : 0.8595, Adjusted R 2 : 0.8461 F : 64.21 on 2 and 21 DF, p-value: 1.128e-09 O gráfico a seguir apresenta o modelo de previsão para cada cultura. 30
As figuras a seguir mostram os gráficos de resíduos. A suposição de normalidade é adequada. É possível perceber um ligeiro desvio da suposição de variância constante, quando o- lhamos o gráfico de resíduos versus valores ajustados. 31
32
A tabela a seguir mostra o quadro de médias que será útil para avaliar magnitude e direção dos efeitos significativos. tempo Cult. 1 Cult. 2 Geral 12h 23.33 26.00 24.67 18h 37.17 32.00 34.58 Geral 30.25 29.00 29.625 Pela tabela fica evidente que quando olhamos o fator cutura isoladamente, de fato, a variação na média é desprezível. No entanto, este fator não deve ser descartado, pois ele interage com o fator tempo. O efeito principal de tempo produz um aumento na média de crescimento quando variamos o tempo de 12h para 18h. Já a interação temp:cultura é ilustrada no gráfico a seguir. 33
34
Exercício(s) do capítulo 5 para entregar na aula do dia 10/11. aluno nome exercícios 1 Aline 18 2 Andre 19 3 Carolina 21 4 Felipe 24 5 Fernanda 25 6 Igor 26 7 Laura 27 8 Mariana 30 9 Michele 28 10 Pedro 26 11 Sandra 25 12 Veronica 24 13 Priscila 21 14 Dimas 19 15 Thaís 18 35