UNIVERSIDADE FEDERAL DE RONDÔNIA CAMPUS DE JI-PARANÁ DEPARTAMENTO DE ENGENHARIA AMBIENTAL Estatística II Aula do dia 09.11.010 A análise de variância de um experimento inteiramente ao acaso exige que sejam feitas algumas pressuposições sobre os erros, sem as quais os resultados da análise não são válidos. Profa. Renata Goncalves Aguiar 1. Os erros são variáveis aleatórias. Normalmente não conhecemos os erros, porque eles são definidos em função das médias verdadeiras. Mas, uma vez que temos as estimativas dessas médias, podemos estimar os erros calculando a diferença entre cada dado e a média do tratamento a que ele pertence. e= X x 3 4 As estimativas dos erros recebem o nome de resíduos. É a análise de resíduos que ajuda verificar se a análise de variância é aceitável. Para verificar se os erros exibem um padrão aleatório convém construir um gráfico dos resíduos (eixo das ordenadas) de todos os tratamentos (eixo das abscissas) em estudo. 5 6 Profa. Renata Gonçalves Aguiar 1
6 4 Resíduos 0. Ocorrência de dados discrepantes. - -4-6 A B C D Dados discrepantes (outlier) é um valor muito maior ou menor do que o valor esperado. Figura 6 Resíduos de quatro tratamentos. 7 8 O que viria a ser um valor esperado? Para facilitar a observação de dados discrepantes convém fazer uma análise de resíduos com desvios padronizados. 9 Para padronizar os resíduos, devemos dividi-los pela raiz quadrada do quadrado médio do resíduo (QM dentro ) da análise de variância. z= e QM dentro 10 4 3 Resíduos Padronizados 1 0-1 - -3 Cerca de 68% dos resíduos padronizados devem estar no intervalo -1 e +1 e cerca de 95% devem estar no intervalo - e +. Valores fora do intervalo -3 e +3 são suspeitos. -4 A B C D Figura 7 Resíduos padronizados de quatro tratamentos. 11 1 Profa. Renata Gonçalves Aguiar
Todo valor suspeito deve ser discutido e, se houver erros de registro ou de medida, eles devem ser corrigidos. Mas não se pode descartar um valor discrepante com uma desculpa qualquer: é preciso discutir a causa da discrepância. 13 3. Os erros são independentes. Se os erros forem dependentes porque foram tomadas observações na mesma unidade ou em unidades observadas em sequência, o resultado da ANOVA fica totalmente comprometido. 14 A não-independência é o mais grave problema para a análise porque o nível de significância se torna muito maior do que informado. Para verificar se os erros são independentes desenha-se um gráfico dos resíduos padronizados contra a ordem em que as observações foram coletadas (no tempo ou no espaço). 15 16 Se a pressuposição de independência estiver satisfeita, os resíduos devem ficar dispersos em torno de zero, sem um padrão definido. Resíduos Padronizados 1 0-1 17-0 4 8 1 16 0 4 Ordem de coleta Figura 8 Resíduos padronizados versus ordem de coleta. 18 Profa. Renata Gonçalves Aguiar 3
1,0 0,5 Resíduos Padronizados 0,0-0,5-1,0-1,5 4. Variância constante. Uma regra prática para verificar se existe homocedasticidade sugere validar uma -,0 0 4 8 1 16 0 4 ANOVA desde que a maior variância não Ordem de coleta Figura 9 Resíduos padronizados versus ordem de coleta. 19 exceda em três vezes a menor. 0 Outra regra sugere pressupor variâncias iguais, desde que os tratamentos sejam similares e tenham o mesmo número de réplicas. Aliás, o uso de número igual de repetições é a melhor proteção contra os efeitos de variâncias desiguais. 1 Existem apenas duas situações em que essas regras práticas não se justificam: a. de assimetria. Se a distribuição for assimétrica, a variância tende a ser função da média (quando o desvio padrão cresce com a média).,75,70 Uma forma de observar se há correlação é por meio de um diagrama de dispersão dos desvios padrões contra as médias. Se não houver correlação é razoável aceitar a pressuposição de igualdade de variâncias. Desvios Padrões,65,60,55,50,45 4 6 8 30 3 3 Figura 10 Correlação entre médias e desvios padrões. 4 Profa. Renata Gonçalves Aguiar 4
0,65 0,60 Desvios Padrões 0,55 0,50 0,45 0,40 0,35,5 3,0 3,5 4,0 4,5 5,0 5,5 Figura 11 Correlação entre médias e desvios padrões. 5 b. de curtose positiva. Se a curtose for positiva, o teste F não tem poder, ou seja, o teste F não rejeita a hipótese de nulidade, mesmo que essa hipótese seja incorreta. Curtose positiva é o mesmo que curva leptocúrtica. 6 Para testar a igualdade de variâncias, foram propostos diversos testes. Os mais conhecidos são: a. teste de Cochran; c. teste de Bartlett; Figura 1 - Tipos de curvas. 7 8 Figura 1 b. teste de Hartley; d. teste de Levene; 5. Distribuição dos erros é normal. Percent 99 95 90 80 70 60 50 40 30 0 Mean 861,0 StDev 10,3 N 40 KS 0,074 P-Value >0,150 Para saber se é razoável pressupor que os erros têm distribuição normal, o pesquisador pode fazer um gráfico de probabilidades normais. 10 5 1 500 750 1000 Variável em estudo 150 1500 9 Figura 13 Teste de normalidade. 30 Profa. Renata Gonçalves Aguiar 5
De qualquer forma, o teste F é bastante robusto, ou seja, pequenas transgressões à pressuposição de que os erros têm distribuição normal são usuais e não afetam, substancialmente, os resultados da análise de variância. 31 Os testes mais conhecidos para testar a normalidade dos dados são: a. teste de X ; b. teste de Kolmogorov-Smirnov; c. teste de Shapiro-Wilks. 3 Considerações Considerações Em suma, uma ANOVA só deveria ser aplicada a um conjunto de observações se estiverem satisfeitas as pressuposições de independência, homocedasticidade e normalidade. Na prática, porém, dificilmente essas pressuposições estão todas satisfeitas. 33 34 É importante saber que: É importante saber que: 1. A não-independência, isto é, a correlação entre as observações é o problema mais grave. 3. A não-normalidade tem pouco efeito nas inferências sobre médias quando o modelo é de efeitos fixos.. Variâncias diferentes (heterocedasticidade) têm, usualmente, efeito apenas moderado nas inferências sobre médias, desde que o número de 4. A não-normalidade tem efeito sério nas inferências sobre as variâncias, isto é, no modelo de efeitos aleatórios, quando a curtose é diferente de repetições seja constante. 35 36 zero. Profa. Renata Gonçalves Aguiar 6
Importantíssimo Comparações Múltiplas entre As análises de variância podem ser aplicadas quando existem pequenos desvios das pressuposições básicas nunca, porém, quando nenhuma dessas pressuposições não é, sequer, aproximadamente válida. Um valor F significativo na ANOVA não indica quais são os tratamentos significativamente diferentes entre si quando comparados dois a dois, ele apenas mostra que existe uma diferença entre os grupos estudados. 37 38 Comparações Múltiplas entre Situação-problema 7 Para definir quais médias são diferentes, podemos utilizar um dos seguintes testes: Teste de Tukey; Verifique se é possível validar a ANOVA da atividade 3. Teste de Dunnett; Teste de Scheffé. 39 40 Situação-problema 8 Verifique se é possível validar a ANOVA da atividade 6. 41 Profa. Renata Gonçalves Aguiar 7