INTRODUÇÃO A MODELOS MISTOS Delineamento experimental ou desenho experimental, de uma forma bastante simples, é a forma em que os tratamentos (níveis de um fator ou combinações de níveis de fatores) são atribuídos às unidades experimentais Os delineamentos experimentais envolvem um ou mais fatores, cada fator com n f níveis: Exemplos de fatores: Classe Social no peso das crianças (Fator: Classe Social, níveis: Alta, Média ou Baixa Três níveis qualitativos Dose do Adubo na produção de uma determinada cultura (Fator: Doses de adubo, níveis: 0, 0, 40, 60 e 80 kg/ha Cinco níveis quantitativos, crescentes e igualmente espaçados Idade (I1:10-15, I:15-0 e I3:5-30 meses) e Sexo (M e F) no peso dos animais Fatores: Idade e Sexo com três e dois níveis, respectivamente Os tratamentos são as combinações dos níveis dos fatores, que são seis, ou sejam: I1/M, I1/F, I/M, I/F, I3/M, I3/F Um fator pode ser de efeito fixo ou aleatório Fator de efeito fixo: Os níveis do fator são fixados (escolhidos) pelo pesquisador Exemplos: Os exemplos das Classes Sociais, Dose do Adubo, Idade e Sexo apresentados anteriormente são exemplos de fatores de efeitos fixos Fator de efeito aleatório: Os níveis do fator é uma amostra aleatória da população dos possíveis níveis Exemplo: Suponhamos que o Governo do Estado queira saber se a marca da vacina interfere no controle de uma determinada doença Como existem no mercado um grande número de marcas de vacinas (N) é inviável fazer o experimento com todas, o experimentador casualiza t marcas para o experimento O experimento trará informações sobre a população de vacinas, não apenas para os t tratamentos µ V σ V aa Tr 1 Tr Tr t População de Níveis (Vacinas) Amostra aleatória dos Níveis O teste F para Tratamentos na análise da Variância testa as hipóteses: a) Efeitos fixos de tratamentos (conclusões apenas para aos níveis estudados): H 0 : µ 1 =µ =µ 3 = µ t vs H 1 : µ i µ i', para algum i i' µ i = média populacional do grupo i
Neste caso, se a hipótese H 0 for rejeitada e tem-se mais que níveis do fator podese usar as ferramentas: Comparações Múltiplas - comparações das médias Geralmente usado quando não se tem qualquer informação a priori sobre os tratamentos e tem interesse em comparar as médias entre si Desdobramento por contrastes ortogonais Geralmente usado quando se tem informações a priori sobre os tratamentos e as comparações de interesse ficam evidentes b) Efeitos aleatórios de tratamentos (Conclusões permitem inferências para a população dos níveis): H 0 : σ v=0 vs H 1 : σ v 0 Testa se existe ou não variabilidade na população de níveis Neste caso, estimam-se os componentes da variância: σ e σ V MODELOS MISTOS são modelos que envolvem fatores de efeitos fixos e fatores aleatórios ou componentes de variância que não sejam o resíduo geral Veremos a análise de experimentos nos delineamentos em Blocos, Inteiramente Casualizado e Quadrado Latino 1 Delineamento em Blocos Casualizados DBC (two-way) Utilizado quando as parcelas não são considerados homogêneas e são agrupadas em blocos de parcelas homogêneas Este tipo de delineamento envolve o fator Tratamentos (níveis de um fator ou combinação de níveis dos fatores em estudo) com t níveis, e o fator blocos (fator para controle da homogeneidade das parcelas - chamado de Controle Local) com b níveis Os tratamentos são atribuídos de forma aleatória dentro de cada bloco O modelo matemático deste delineamento é: y ij = µ + t i + b j + e ij, Onde: y ij = valor observado na parcela que recebeu o tratamento i, no bloco j; µ = efeito geral da média; t i = efeito do tratamento i; b j = efeito do bloco j; e ij = erro aleatório da parcela que recebeu o tratamento i, no bloco j; O quadro da análise de variância é: FV GL SQ QM F p-valor Blocos b-1 SQ(Bl) QM(Bl) QM(Bl) / QM(Res) p 1 Tratamentos t-1 SQ(Tr) QM(Tr) QM(Tr) / QM(Res) p Resíduo (b-1)(t-1) SQ(Res) QM(Res) Total pb-1 SQ(Tot) FV - Fontes de Variação, ou seja, as partes da Variação Total; GL - número de graus de liberdade associados à FV; SQ - Soma de quadrados; QM - Quadrado médio Os p-valores são obtidos supondo que a estatística F tem uma distribuição F central com t-1 e (b-1)(t-1) graus de liberdade para Tratamentos e b-1 e (b-1)(t-1) graus de liberdade para Blocos Essas pressuposições são válidas se os erros forem independentes e identicamente distribuídos (iid), com distribuição normal N(0,σ )
Para ilustrar considere o exemplo: Exemplo Em um Delineamento em Blocos Casualizados com cinco tratamentos (T 1, T,, T 5 ) e quatro blocos Os resultados são apresentados a seguir Trat Bloco 1 3 4 T 1 1,36 117,77 116,07 16,36 T 144,78 144,44 144,11 153,49 T 3 180,00 170,61 170,88 175,00 T 4 138,88 135,00 18,00 138,00 T 5 14,00 134,06 140,00 145, Se os fatores Tratamentos e Blocos forem de efeitos fixos, o modelo pode ser escrito na forma matricial como: Y = Xβ + ε, Onde: X - matriz do delineamento (ou matriz de incidência), β - vetor dos parâmetros e ε - vetor de erros Para o exemplo tem-se: 136 1 1 0 0 0 0 1 0 0 0 e11 11777 1 1 0 0 0 0 0 1 0 0 e1 11607 1 1 0 0 0 0 0 0 1 0 e 13 1636 1 1 0 0 0 0 0 0 0 1 e14 14478 1 0 1 0 0 0 1 0 0 0 e 1 14444 1 0 1 0 0 0 0 1 0 0 µ e 14411 1 0 1 0 0 0 0 0 1 0 t 1 e 3 15349 1 0 1 0 0 0 0 0 0 1 t e4 18000 1 0 0 1 0 0 1 0 0 0 t3 e31 17061 1 0 0 1 0 0 0 1 0 0 t 4 e 3 = + 17088 1 0 0 1 0 0 0 0 1 0 t5 e33 17500 1 0 0 1 0 0 0 0 0 1 b 1 e 34 13888 1 0 0 0 1 0 1 0 0 0 b e41 13573 1 0 0 0 1 0 0 1 0 0 b 3 e 4 1800 1 0 0 0 1 0 0 0 1 0 b4 e 43 13800 1 0 0 0 1 0 0 0 0 1 e44 1400 1 0 0 0 0 1 1 0 0 0 e 51 13406 1 0 0 0 0 1 0 1 0 0 e5 14000 1 0 0 0 0 1 0 0 1 0 e 53 145 1 0 0 0 0 1 0 0 0 1 e54 Y X β ε Neste caso, o sistema de equações normais é (X X) β = X Y O vetor dos parâmetros estimados pelo método dos mínimos quadrados é: - - β =(X X) X Y, onde (X X) é uma inversa generalizada de X X
Se o fator Tratamentos for de efeitos fixos e o fator Blocos de efeitos aleatórios, o modelo pode ser escrito na forma matricial como: Y=Xβ+Zν+ε Onde: Y - o vetror das observações, X - matriz de incidência dos efeitos fixos, β - vetor dos parâmetros associados aos efeitos fixos, Z - matriz de incidência dos efeitos aleatórios, ν - vetor dos parâmetros associados aos efeitos aleatórios, ε - vetor de erros aleatórios, sendo ν e ε não correlacionados, com esperanças nulas e matrizes de covariâncias G e R, respectivamente, ou seja: 136 1 1 0 0 0 0 11777 1 0 1 0 0 0 11607 1 0 0 1 0 0 1636 1 0 0 0 1 0 14478 1 0 0 0 0 1 14444 1 1 0 0 0 0 14411 1 0 1 0 0 0 15349 1 0 0 1 0 0 µ 18000 1 0 0 0 1 0 t1 17061 1 0 0 0 0 1t = 17088 1 1 0 0 0 0t3 17500 1 0 1 0 0 0t 4 13888 1 0 0 1 0 0 t5 1073 1 0 0 0 1 0 13500 1 0 0 0 0 1 13800 1 1 0 0 0 0 1400 1 0 1 0 0 0 13406 1 0 0 1 0 0 14000 1 0 0 0 1 0 145 1 0 0 0 0 1 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 1 0 0 0 b1 0 1 0 0 b + + 0 0 1 0 b3 0 0 0 1 b4 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 1 0 0 0 0 1 0 0 0 0 1 0 0 0 0 1 e11 e1 e 13 e14 e 1 e e 3 e4 e31 e 3 e33 e 34 e41 e 4 e43 e44 e 51 e5 e 53 e54 Y Xβ Zν ε Neste caso, o vetor dos parâmetros de efeitos fixos, estimados pelo método dos mínimos quadrados é: - - β =(X V -1 X) X V -1 Y, onde (X V -1 X) é uma inversa generalizada de X V -1 X No SAS, o procedimento para a análise de Modelos Mistos é o PROC MIXED A sintaxe com os principais comandos deste procedimento é apresentada a seguir
PROC MIXED <opções>; CLASS <var de classif>; MODEL <var dep>=<mod com os efeitos fixos> / <opções>; RANDOM <fat de efeitos aleatórios> / <opções>; REPEATED <efeitos repetidos> / <opções>; ODS OUTPUT "Tabela"=SDS; LSMEANS <fat de efeitos fixos> / <opções>; CONTRAST <sintaxe>; ESTIMATE <sintaxe>; RUN; No PROC MIXED, algumas opções são: DATA=<SDS> - especifica o SAS-DATA-SET a ser usado Se não for especificado, o SAS usa o último SDS criado METHOD=<ML REML MIVQUE0> - especifica o método a ser usado para estimar os componentes da variância (Máxima Verossimilhança, Máxima Verossimilhança Restrita e Mínimos quadrados de Variância Mínima, respectivamente) Default - REML No CLASS devem ser especificadas as variáveis classificatórias (fatores), tanto os de efeitos fixos como os de efeitos aleatórios No MODEL apresenta-se a estrutura do modelo, apenas com os efeitos fixos Algumas opções são: HTYPE =<n> - especifica o tipo de soma de quadrados Soluction - apresenta detalhes de cálculos Se for trabalhar com as estatísticas de diagnósticos (resíduos, valores influentes etc), esta opção deve ser colocada No RANDOM apresentam-se os efeitos aleatórios do modelo Algumas opções são: Soluction - apresenta detalhes de cálculos O REPEATED é usado quando se tem medidas repetidas e/ou algum componente de variância que não seja o resíduo geral Suas opções permitem especificar o TYPE, SUBJECT e GROUP TYPE =<CS AR(1) SIMPLE UN > - especifica a estrutura da matriz de correlação entre os níveis do Fator correspondente à medida repetida, dentro de uma lista de opções SUB=<efeito> - especifica os componentes de variâncias, diferentes do resíduo geral, que serão utilizados no modelo GROUP=<fator> - especifica o fator que, para cada um de seus níveis, as variâncias são homogêneas O ODS - OUTPUT DELIVERY SYSTEM, permite criar um SAS-DATA-SET com variáveis calculadas pelo procedimento Se a Tabela for Fitstatistics, cria o SDS com as estatísticas utilizadas na comparação de modelos com AIC, BIC etc Se a Tabela for Influence Diagnostics, cria o SDS com as estatísticas utilizadas para diagnósticos: resíduos, valores preditos, estatísticas para valores influentes etc Os comandos e LSMEANS, CONTRAST e ESTIMATE são usados da mesma forma do PROC GLM
Diagnósticos para as análises de experimentos Os diagnósticos utilizados as análises de experimentos envolvem: Estudo das pressuposições para o resíduo Devem ser independentes e identicamente distribuídos (iid), com distribuição normal N(0,σ ) Além dos gráficos para diagnósticos, envolvem: Teste de normalidade dos erros Os testes mais usuais são: Shapiro-Wilk Teste de fácil aplicação sem o uso de software (manualmente) Possui a restrição de ser muito sensível à falta de simetria São permitidos valores perdidos e é recomendado para situações em que o número de valores variam de 3 a 5000 Kolmogorov-Smirnov Teste usado para grandes conjuntos de dados São permitidos valores perdidos e recomendado para situações com mais de 1500 valores Cramer-von Mises É um teste não factível sem o uso de softwares, e é um dos testes mais usados na literatura São permitidos valores perdidos e não tem restrições sobre o número de valores Anderson-Darlin Apresenta resultados muito parecidos com os do Cramer-von Mises São permitidos valores perdidos e não tem restrições sobre o número de valores - Teste de homogeneidade das variâncias (homocedasticidade) Os testes de homocedasticidade mais comuns na literatura são Bartlett, Levene, Brown Forsythe, BoxCox O teste de Bartlett é um teste fácil de ser feito manualmente por isso sempre encontrado em livros didáticos de estatística experimental Os testes de Levene e Brow Forsyte são disponíveis na maioria dos softwares de estatística O teste BoxCox determina um parâmetro λ e o intervalo de confiança para este parâmetro (α=5%) Se o intervalo de confiança inclui o valor 1, com 95% de confiança, não se rejeita a hipótese das variâncias serem homogêneas, caso contrário, a transformação indicada é: Y T = Y λ se λ 0 e Y T = log(y) se λ=0 Estudo da presença de pontos discrepantes (fora do padrão), que podem ser Outlier - valores menores que q1-1,5(q3-q1) ou maiores que q3+1,5(q3-q1) Valores influentes As variáveis utilizadas para diagnósticos são os resíduos e as estatísticas para detectar valores influentes a) Resíduos Encontram-se na literatura três tipos de resíduos que são: resíduo ordinário, resíduo padronizado e resíduo estudentizado a1) Resíduo ordinário: ri = Yi Yˆ i ( Y i valor observado e Yˆ i - valor estimado pelo modelo ou valor predito) Os resíduos ordinários (r 1, r, ) são apresentados na Figura a seguir
r r 1 No SAS é denominado residual a) Resíduo padronizado internamente (Studentized residual) rs = r V ( r ), onde V ˆ( ) é estimativa da variância residual i i / i r i No SAS é denominado student a3) Resíduo padronizado externamente (Jacknife residual, Rstudent) Rsi = ri / V( i) ( ri ), onde V ˆ(i i) ( ri ) é estimativa da variância residual sem a observação i Rs~t(N-p-1) onde N é o número de observações e p número de parâmetros No SAS é denominado rstudent b) Estatísticas para valores influentes Encontram-se na literatura algumas estatísticas usadas para diagnosticar pontos influentes, apresentadas na Tabela a seguir: Tabela Algumas Estatísticas utilizadas para diagnósticos de pontos influentes Estatística DFBetas (um por parâmetro) FDFitS Limite Crítico / N P N 1-COVRATIO 3P/N Distância de Cook 4/N Leverage H 3P/N P=número de parâmetros do modelo e N=número de observações A estatística Leverage é a mais indicada em análise de regressão e a distância de Cook é a mais indicada em análise da variância
EXEMPLOS DE APLICAÇÕES: Exemplo 1 Em um Delineamento em Blocos Casualizados com cinco tratamentos (T 1, T,, T 5 ) e quatro blocos Os resultados são apresentados a seguir Trat Bloco 1 3 4 T 1 1,36 117,77 116,07 16,36 T 144,78 144,44 144,11 153,49 T 3 180,00 170,61 170,88 175,00 T 4 138,88 135,00 18,00 138,00 T 5 14,00 134,06 140,00 145, a) Fazer a Análise da Variância, verificando as pressuposições dos testes b) Fazer comparações de médias dos tratamentos (teste de Tukey) c) Concluir Exemplo Em um Delineamento em Blocos Casualizados com cinco tratamentos (níveis equidistantes de lizina na ração) e quatro blocos Os resultados são apresentados a seguir Trat Bloco 1 3 4 T 1 19,91 15,3 13,6 3,91 T 36,43 3,55 9,10 35,55 T 3 39,55 31,61 37,55 4,77 T 4 4,33 41,99 41,66 51,04 T 5 47,50 6,50 68,43 7,55 a) Fazer a Análise da Variância, verificando as pressuposições dos testes b) Fazer desdobramento por contrastes (polinômios ortogonais) para tratamentos c) Concluir Exemplo 3 Em um Delineamento em Blocos Casualizados com quatro tratamentos (níveis 0,; 0,4; 0,8 e 1,6 de um determinado ingrediente na ração) e seis blocos Os resultados são apresentados a seguir Trat Bloco 1 3 4 5 6 T 1 35,81 39,08 9,51 4,00 5,00 30,33 T 3,71 17,9 5, 17,80,0 7,00 T 3 16,00 10,50 1,3 13,37 14,05 17,00 T 4 10,00 8,43 9,06 7,87 9,80 6,63 a) Fazer a Análise da Variância, verificando as pressuposições dos testes b) Fazer desdobramento por contrastes (polinômios ortogonais) para tratamentos c) Concluir
Exemplo 4 Em um Delineamento Inteiramente Casualizado com cinco tratamentos e seis repetições Os resultados são apresentados a seguir Trat Repetições 1 3 4 5 6 T 1 3,68,48,78,5,45 3,07 T 3,76 4,94 4,4 4,68 4,45 6,31 T 3 10,56 8,71 7,51 9,58 7,54 9,17 T 4 1,35 11,73 1,98 1,04 15,5 14,36 T 5 6,00 4,46,47 3,49 0,1,76 a) Fazer a Análise da Variância, verificando as pressuposições dos testes b) Fazer comparações múltiplas (comparar os tratamentos T, T3, T4 e T5 com o T1 - controle) c) Concluir Exemplo 5 Para avaliar o efeito de duas porcentagens de grãos (PG=0 ou 30%) com ausência ou presença de uma solução salina SS= (0 ou 1) na quantidade de ácido graxo livre no sangue em vacas, utilizou-se um DIC com 4 tratamentos (fatorial x), com número diferentes de repetições Os resultados são apresentados a seguir FA (PG) FB (SS) Repetições 1 3 4 5 6 7 8 9 10 11 1 0 0,71 3,07 3,36,80 3,49 3,0,94,78,36 30 0,90,95,05,49,83,59,84,98 3,1,95,4,76 0 1,49,67,58,35,63,43,41 30 1,30,15,7,31,18 a) Fazer a Análise da Variância, verificando as pressuposições dos testes b) Comparar as médias dos tratamentos c) Concluir