Modelos de Análise de Variância Delineamento Completamente Aleatorizado: k tratamentos, r réplicas (balanceado) yi iid ~ N ; i i Normalidade Variância constante ( homocedasticidade ) Independência Análise de Diagnóstico: Checar as suposições adotadas na formulação do modelo
Suposições N ( ; ) N ( ; ) N ( ; )... k População T T... Tk Amostra Y Y... Yk...... Yi... Yn Y n... Yk nk n n... nk y y s s...... yk s k Normalidade Variância constante Independência
Tabela de ANOVA H:... k F.V. g l SQ QM F p ENTRE k- n ( y y ) SQE / (k-) QME / QMR DENTRO n-k TOTAL n- i i ( y i y ( y i y) ) SQR / (n-k) QME F = F ( k-, n-k ) QMR As suposições adotadas no modelo garantem a validade da distribuição da estatística F!
ANOVA iid i ~ ( ; ); ; Y N H :...... k H : existe pelo menos uma diferença entre as médias k Construção da Tabela de ANOVA e Auste do Modelo de ANOVA Análise de Diagnóstico das premissas do Modelo Entender o Efeito de Tratamento: Comparações Múltiplas entre Médias
ANOVA Análises de Diagnóstico Análise dos Resíduos ˆ y yˆ y y y h y ( h ) y i i i i i ii i ii i ' h X X X X ii i i i ˆ i QM Re s Resíduo semi-studentizado r i ˆ i QM Re s h ii Resíduo studentizado
ANOVA Análises de Diagnóstico Análise Descritiva dos Resíduos Histogramas e box-plots dos resíduos Quantis dos resíduos contra quantis da normal Distribuição simétrica? Normalidade? ˆ ordem(obs) ˆ yˆ Uso dos Resíduos studentizados. erros independentes homocedasticidade tendências não modeladas
Residual Model Diagnostics Normal Plot of Residuals I Chart of Residuals 4 3 5 UCL=4,897 Residual - Residual Mean=7,77E-6 - -3 - - Normal Score -5 5 5 Observation Number 5 LCL=-4,897 Frequency 8 7 6 5 4 3-3 Histogram of Residuals - - Residual 3 4 Residual 4 3 - - -3 5 Residuals vs. Fits As suposições do modelo ANOVA parecem estar satisfeitas. E quando os dados não satisfazem as suposições impostas pelo modelo? Quais são as medidas remédio para tentar satisfazer as suposições? 6 7 8 Fit 9
ANOVA Análises de Diagnóstico Teste para a verificação da Normalidade H Y N i n K : i ~ ( ; );,,..., ;,,... Teste de Shapiro-Wilk, Teste de Kolmogorov-Smirnov Testes para a verificação da homocedasticidade (variâncias homogêneas) H K :,,... Teste de Hartley (H=max(s )/min(s ): assume dados balanceados Teste de Bartlet (supõe Normalidade) Teste de Levene (robusto, baseado nos desvios absolutos das observações em relação à mediana)
Medidas Remédio Fugas da Normalidade O modelo de ANOVA é robusto para fugas (moderadas) da Normalidade Caudas mais pesadas ou mais leves que a normal, assimetria, não são aceitas! Os testes sob o modelo ANOVA são baseados na distribuição amostral da Média. Logo, o Teorema Limite Central pode ser usado Aleatorização : Box, Hunter and Hunter (978) e Oehlert () mostram que sob aleatorização das unidades experimentais aos tratamentos é possível construir uma distribuição de referência para a estatística F, a qual equivale à distribuição teórica F(k-,n-k) Testar a normalidade (H : Y i ~ N( ; ) ): teste Qui-quadrado de aderência, teste de Kolmogorov-Smirnov, teste de Shapiro
Medidas Remédio - Fugas da Normalidade População... População k H... : k N, N, k Sob o modelo Normal homocedástico o efeito de... k tratamentos equivale (se reduz) a um teste de comparação entre médias. Deve ser discutido com o pesquisador se isso traduz o obetivo da pesquisa! Lembrar que quando utilizamos a Média como o parâmetro que resume o obetivo do estudo, mais importante que a suposição de Normalidade é a suposição de Simetria da distribuição dos dados.
Medidas Remédio - Fugas da Independência yi iid ; ~ N ; Alternativas para quando a hipótese de Independência entre as observações não estiver satisfeita: Auste de Modelos mais Gerais que estruturem a matriz de covariâncias de Y (Ex.: modelos lineares mistos) Situações Clássicas: i i Y nn Medidas Repetidas Dados Longitudinais Séries temporais Uso de testes de aleatorização para cálculo de p-valores (Exemplo: uso de dados externos de uma série industrial - ver Box, Hunter e Hunter, 978) Pode-se usar tranformação spectral das observações para atingir a independência V...
Medidas Remédio - Heterocedasticidade No caso da Reeição da hipótese de homogeneidade de variâncias (Bartlett, Levene), algumas alternativas são: Análises Parciais: considerando somente os grupos com variâncias homogêneas Transformação dos Dados Originais para atingir a homocedasticidade Realizar austes ponderados (equivale a transformar os dados) Utilização de Modelos mais Gerais: que atendam ao padrão de variâncias heterogêneas (Ex. Poisson, Binomial, Binomial Negativa) Lembrar que heterocedasticidade pode ser uma diferença importante entre os grupos (Ex. modelos de componentes de variância)
Transformação de Variáveis A hipótese de normalidade é válida mas as variâncias não são homogêneas: Y iid e ; e ~ N n X n p p en ; e i i ; Auste por mínimos quadrados ponderados: Y w X w e w ; Y w X w W W / Y / X W nn diag w / s e w W / e ˆ X WX X WY
Transformação de Variáveis i i proporcional a : Y Y Y Y Y ou i i proporcional a : i i proporcional a : Y logy Y Y Transformação (potência) de Box-Cox (Y ): obter os estimadores que minimizem i Y i X i
Exemplo Análises Parciais Dados: Arquivo Radon DCA com fator em 4 níveis Variable N Mean StDev Filter,55 3,663 Membrane 35,5 7, Open Cup 3,8 3,54 Badge 7,35,85 45 35 5 5 Filter Membrane OpenCup Badge Fator
Análise de Diagnóstico Residual Model Diagnostics Normal Plot of Residuals I Chart of Residuals 5 3,SL=,85 X=, - - 5 5-3,SL=-,85 -,5-,-,5-,-,5,,5,,5,,5 Normal Score Histogram of Residuals 3 4 5 6 7 8 Observation Number Residuals vs. Fits 5 5 - - 5 3 35 Residual Fit Heterocedasticidade (porém a variância não cresce com a Média)
Homogeneity of Variance Test for C5 95% Conf idence Interv als f or Sigmas Factor Lev els Bartlett's Test Test Statistic: 3,5 P-Value :, 3 Levene's Test Test Statistic: 8,77 P-Value :, 4 3 4 5 6 7 8 9 Qual a hipótese em teste? Qual a conclusão? Há evidência de pelo menos uma diferença entre as variâncias dos grupos (presença de heterocedasticidade)
Comparação dos Grupos: Filter, OpenCup e Badge One-way Analysis of Variance Excluindo o Grupo Membrane da análise! Analysis of Variance for C5 Source DF SS MS F P Grupos 686,7 343,3 33,59, Error 57 58,7, Total 59 69,4 Hipóteses? Concl.?
Outras Transformações Atribuição de Postos U.e. radiação grupos postos 6 6, 8, 3 6,5............ 9 7 3, 5 9,5 45 78,5 33 6,............ 4 39 74,5 4 36 3 69,5 4 34 3 65,5 59 3 3 56, 6 7 3 3,5 6 4 8, 6 3 4 3,............ 79 3 4 5,5 8 8 4 38,5 n=8 k=4 variável original variável transformada Neter et al. (996): esta alternativa de análise é equivalente ao teste não-paramétrico de Wruskal-Wallis
One-way Analysis of Variance Hipóteses? Analysis of Variance for postos Concl.? Source DF SS MS F P grupos 3 35 7837 3,36, Error 76 899 5 Total 79 45 Individual 95% CIs For Mean Based on Pooled StDev Level N Mean StDev -------+---------+---------+--------- 5,,85 (---*--) 6,3,78 (--*---) 3 5,8 3,6 (---*--) 4 35,6 5,4 (---*--) -------+---------+---------+--------- Pooled StDev = 5,8 4 6
Exemplo Dados: Tempo (h) até a primeira intervenção farmacológica de acordo com o método cirúrgico M M M3 4,4 8,4 6,9,65 8,6 33,83 4,45 7,35 78,88 47,3,9 34,8 85,,6 44,33 média dp 5,37,3, 4,9 33, 7,5
ANOVA Clássica Residual Model Diagnostics Normal Plot of Residuals I Chart of Residuals 3 3,SL=8,4 Observação atípica (outlier) X=, - - - - Normal Score - 5 5 Observation Number -3,SL=-8,4 Histogram of Residuals Residuals vs. Fits 6 5 4 3 - -5 5 5 Residual - 7 Fit Heterocedasticidade do tipo Variância crescendo com a Média
Exemplo Dados: Tempo (h) até a primeira intervenção farmacológica de acordo com o método cirúrgico Heterocedasticidade: qual transformação usar? Método s Y s Y s Y M 35,5.84.7 M 49,9,5,68 M3 33,4,5,9 A transformação logaritmica parece ser a mais indicada s á que a relação é a mais estável entre os grupos. Y
ANOVA Clássica ln(tempo) - - Normal Plot of Residuals - - Normal Score Residual Model Diagnostics 5 4 3 - - -3-4 -5 I Chart of Residuals 5 5 Observation Number 3,SL=4,34 X=, -3,SL=-4,34 Histogram of Residuals Residuals vs. Fits 4 3 - -, -,5-,-,5,,5,,5, Residual -,5 3,5 4,5 Fit
ANOVA Clássica ln(tempo) Analysis of Variance for ln(tempo) Source DF SS MS F P Metodo,45 5,76 3,79,53 Error 8,35,5 Total 4 9,587 Hipóteses? Concl.?
Exemplo Dados: Crescimento celular de acordo com a dose C5 C C5 C C5,7 4,3 8,6 4,55 3,36, 4,79 9,5 5,7 33,38,75 5,49,4 6,9 35,48,3 6,,37 8,8 37,5 média dp,5 5,575 9,97 6,3375 34,775,68445,95,8538,5637,67
,5,,5,,5, -,5 -, -,5 -, -,5 4 3 ANOVA Clássica Normal Plot of Residuals - - Normal Score Histogram of Residuals -,5-,-,5-,-,5,,5,,5,,5 Residual Residual Model Diagnostics 4 3 - - -3-4,5,,5,,5, -,5 -, -,5 -, -,5 I Chart of Residuals Observation Number Residuals vs. Fits 5 5 3 35 Fit 3,SL=3,7 X=, -3,SL=-3,7 Heterocedasticidade Variância cresce com a Média Há um padrão de dependência!
Transformação Log,5, Residual Model Diagnostics Normal Plot of Residuals I Chart of Residuals,,, 3,SL=,74 X=, -,5 - - Normal Score -, -, Observation Number -3,SL=-,74 Histogram of Residuals Residuals vs. Fits 5 4,5 3, -,6 -,4-,,,,4,6 Residual O padrão de dependência permanece -,5,5 3, 3,5 Fit modelar a possível correlação entre observações Além disso, o crescimento celular parece ser linear com o aumento da dose.
Gráfico de Dispersão O crescimento celular parece ser linear com o aumento da dose: 4 celular 3 5 5 5 Dose A inclusão do efeito linear de dose no modelo pode melhorar a análise dos resíduos.