Um modelo para Y ij. Um modelo para Y ij (cont.) As variáveis indicatrizes. O modelo ANOVA como um Modelo Linear A equação geral

Documentos relacionados
II.3. Análise de Variância (ANOVA)

II.3. Análise de Variância (ANOVA)

II.3. Análise de Variância (ANOVA)

Análise de Variância (ANOVA)

II.3. Análise de Variância (ANOVA)

β 1 x β j 1 x j 1 + β j (x j +k) β j 1 x j 1 +

QMRE = n (p+1) R 2. 1 R 2 (p,n (p+1)), sob H 0.

INSTITUTO SUPERIOR DE AGRONOMIA ESTATÍSTICA E DELINEAMENTO 2015/16 Resoluções de (quase todos os) Exercícios de Análise de Variância

INSTITUTO SUPERIOR DE AGRONOMIA ESTATÍSTICA E DELINEAMENTO Resoluções dos Exercícios de Análise de Variância

INSTITUTO SUPERIOR DE AGRONOMIA ESTATÍSTICA E DELINEAMENTO Resoluções dos Exercícios de Análise de Variância

b χ 2 (a 1)(b 1), sob H 0,

b χ 2 (a 1)(b 1), sob H 0,

INSTITUTO SUPERIOR DE AGRONOMIA ESTATÍSTICA E DELINEAMENTO 23 de Janeiro, 2017 SEGUNDO EXAME Uma resolução possível

INSTITUTO SUPERIOR DE AGRONOMIA ESTATÍSTICA E DELINEAMENTO 28 de Janeiro, a CHAMADA de EXAME Uma resolução possível

DELINEAMENTO EM BLOCOS AO ACASO

= = Assim, o valor estimado de p será ˆp= x m =

1 R 2 (p,n (p+1)), sob H 0.

O modelo ANOVA a dois factores, hierarquizados

= < 5. O segundo menor valor esperado estimado corresponde à célula (3,3), com Ê33 = 29 30

Regression and Clinical prediction models

5.3 Experimentos fatoriais a dois fatores. Ambos os fatores são supostos fixos e os efeitos de tratamento são definidos como desvios da média tal que

Regression and Clinical prediction models

EXPERIMENTAÇÃO AGRÍCOLA. Profa. Dra. Amanda Liz Pacífico Manfrim Perticarrari

Delineamento e Análise Experimental Aula 3

Modelos de Regressão Linear Simples - parte III

UNIVERSIDADE FEDERAL DA FRONTEIRA SUL Campus CERRO LARGO. PROJETO DE EXTENSÃO Software R: de dados utilizando um software livre.

MINISTÉRIO DA EDUCAÇÃO UNIVERSIDADE FEDERAL DE CAMPINA GRANDE CENTRO DE CIENCIAS E TECNOLOGIA AGROALIMENTAR UNIDADE V

Análise Multivariada Aplicada à Contabilidade

3. Experimentos a um único fator: Análise de Variância (ANOVA) 3.7 Comparações entre médias de tratamento

i j i i Y X X X i j i i i

Variável dependente Variável independente Coeficiente de regressão Relação causa-efeito

Delineamento em Quadrado Latino (DQL)

Modelo de Regressão Múltipla

Delineamento e Análise Experimental Aula 4

Análise de Regressão Linear Simples e

Correlação e Regressão

Experimentos em parcelas subdivididas e procedimentos para a aplicação dos testes de comparação de médias

É dada uma tabela de contingências, sendo os factores de classificação as proveniências (a=3 níveis) e os terrenos (b=3 níveis).

ANOVA FACTORIAL EXEMPLO 1. ANOVA TWO-WAY COM O SPSS. a capacidade de reconhecimento do odor materno

Teste F-parcial 1 / 16

EXPERIMENTAÇÃO ZOOTÉCNICA. Profa. Dra. Amanda Liz Pacífico Manfrim Perticarrari

Lucas Santana da Cunha de outubro de 2018 Londrina

Estatística de Teste: Decisão: p α Rejeita-se H 0. Hipóteses: Ǝ i,j σ 1 σ 2 i,j=1,,k. Estatística de Teste: Decisão: p >α Não se rejeita H 0

Capacitação em R e RStudio PROJETO DE EXTENSÃO. Software R: capacitação em análise estatística de dados utilizando um software livre.

= Assim, toma-se ˆp= x m =

Experimentos Balanceados com Dois Fatores

Lucas Santana da Cunha de outubro de 2018 Londrina

Teste F-parcial 1 / 16

Associação entre duas variáveis

BIOESTATÍSTICA. Parte 5 Testes de Hipóteses

Escola Superior de Agricultura Luiz de Queiroz Universidade de São Paulo. Testes de Comparações Múltiplas

Tópicos Extras 1ª parte. Testes Não Paramétricos, Análise Multivariada, Outras Técnicas

EXPERIMENTAÇÃO AGRÁRIA

INSTITUTO SUPERIOR DE AGRONOMIA ESTATÍSTICA E DELINEAMENTO 2014/15 Algumas resoluções de exercícios de Regressão Linear Múltipla

Planejamento de Experimentos Suposições do Modelo e Comparações Múltiplas

ANOVA com modelos encaixados

II.2. Regressão Linear Múltipla

II.2. Regressão Linear Múltipla

MAE Planejamento e Pesquisa II

DELINEAMENTO EM QUADRADO LATINO (DQL)

i j i i Y X X X i j 1 i 2 i i

EXPERIMENTAÇÃO AGRÁRIA

DELINEAMENTO EM BLOCOS CASUALIZADOS (DBC)

Análise de Regressão EST036

Estatística Descritiva e Inferencial CE081. Prof. Dr. Jomar Camarinha

EXPERIMENTAÇÃO AGRÁRIA

Métodos Numéricos e Estatísticos Parte II-Métodos Estatísticos

Métodos Estatísticos Avançados em Epidemiologia

EXPERIMENTAÇÃO ZOOTÉCNICA. Profa. Dra. Amanda Liz Pacífico Manfrim Perticarrari

UNIDADE V EXPERIMENTOS FATORIAIS (RC)

MOQ-14 PROJETO e ANÁLISE de EXPERIMENTOS. Professor: Rodrigo A. Scarpel

INTRODUÇÃO. Exemplos. Comparar três lojas quanto ao volume médio de vendas. ... ANÁLISE DE VARIÂNCIA. Departamento de Matemática ESTV.

Inferência para várias populações normais análise de variância (ANOVA)

Testes de hipóteses Paramétricos

Capítulo 11 Análise da Variância. Statistics for Managers Using Microsoft Excel, 5e 2008 Prentice-Hall, Inc. Chap 11-1

Capítulo 9 - Regressão Linear Simples (RLS): Notas breves

EXPERIMENTAÇÃO AGRÍCOLA

MODELOS MATEMÁTICOS E APLICAÇÕES 2015/2016 EXERCÍCIOS DE MODELOS LINEARES MISTOS PARTE I

Capítulo 4 Inferência Estatística

AULA 8 - MQO em regressão múltipla:

Aula 2 Uma breve revisão sobre modelos lineares

Capítulo 9 - Regressão Linear Simples (RLS): Notas breves

Princípios em Planejamento e Análise de Dados Ecológicos. Regressão linear. Camila de Toledo Castanho

ANÁLISE DOS RESÍDUOS. Na análise de regressão linear, assumimos que os erros E 1, E 2,, E n satisfazem os seguintes pressupostos:

Projeto de Experimentos

AULA 10 - MQO em regressão múltipla: Propriedades Estatísticas (Variância)

Ralph S. Silva

Cap. 9 Comparação entre tratamentos

DELINEAMENTO EM BLOCOS CASUALIZADOS COM REPETIÇÕES. Profª. Sheila Regina Oro

AULA 10 - MQO em regressão múltipla: Propriedades Estatísticas (Variância)

Planejamento e Pesquisa 1. Dois Grupos

2 ou mais fatores são de interesse.

Análise de regressão linear simples. Diagrama de dispersão

TESTE DE COMPARAÇÃO MÚLTIPLA

Curso de Estatística Descritiva e Inferencial (Planejamento Experimental) Prof. Dr. Jomar Camarinha

EXPERIMENTAÇÃO ZOOTÉCNICA. Profa. Dra. Amanda Liz Pacífico Manfrim Perticarrari

EXPERIMENTAÇÃO ZOOTÉCNICA. Profa. Dra. Amanda Liz Pacífico Manfrim Perticarrari

EXPERIMENTAÇÃO AGRÍCOLA. Profa. Dra. Amanda Liz Pacífico Manfrim Perticarrari

Transcrição:

II3 Análise de Variância (ANOVA) Dois exemplos: os lírios por espécie Largura das pétalas de lírios, por espécie Largura das sépalas de lírios, por espécie A Regressão Linear visa modelar uma variável resposta numérica (quantitativa), à custa de uma ou mais variáveis preditoras, igualmente numéricas Mas uma variável resposta numérica pode depender de variáveis qualitativas (categóricas), ou seja, de um ou mais factores A Análise de Variância (ANOVA) é uma metodologia estatística para lidar com este tipo de situações PetalWidth 05 10 15 20 25 setosa versicolor virginica SepalWidth 20 25 30 35 40 setosa versicolor virginica A ANOVA foi desenvolvida nos anos 30 do Século XX, na Estação Experimental Agrícola de Rothamstead (Inglaterra), por RA Fisher J Cadima (ISA) Estatística e Delineamento 2014-15 305 / 467 Species As larguras das pétalas parecem diferir entre as espécies dos lírios As larguras das sépalas diferem menos Pode afirmar-se que as diferenças observadas reflectem verdadeiras diferenças nos valores médios populacionais de cada espécie? J Cadima (ISA) Estatística e Delineamento 2014-15 306 / 467 Species A ANOVA como caso particular do Modelo Linear Embora a Análise de Variância tenha surgido como método autónomo, quer a Análise de Variância, quer a Regressão Linear, são particularizações do Modelo Linear Introduzir a ANOVA através das suas semelhanças com a Regressão Linear permite aproveitar boa parte da teoria estudada até aqui Terminologia: Variável resposta Y : uma variável numérica (quantitativa), que se pretende estudar e modelar Factor : uma variável preditora categórica (qualitativa); Níveis do factor : as diferentes categorias ( valores ) do factor, ou seja, diferentes situações experimentais onde se efectuam observações de Y A ANOVA a um Factor Começamos por analisar o mais simples de todos os modelos ANOVA: a ANOVA a um Factor (totalmente casualizado), ou seja, um modelo para situações onde a modelação da variável resposta (numérica) se baseia numa única variável preditiva categórica Admitimos que o único factor preditor tem k níveis Para estudar os efeitos dum factor, com k níveis, sobre uma variável resposta Y, admitimos que temos n observações independentes de Y, sendo n i (i = 1,,k) correspondentes ao nível i do factor Logo, n 1 + n 2 + + n k = n J Cadima (ISA) Estatística e Delineamento 2014-15 307 / 467 J Cadima (ISA) Estatística e Delineamento 2014-15 308 / 467 Delineamentos equilibrados A dupla indexação de Y No caso de igual número de observações em cada nível, n 1 = n 2 = n 3 = = n k ( = n c ), diz-se que estamos perante um delineamento equilibrado Os delineamentos equilibrados são aconselháveis, por várias razões que mais adiante se discutem Na regressão indexam-se as n observações de Y com um único índice, variando de 1 a n Neste novo contexto, é preferível utilizar dois índices para indexar as observações de Y : um (i) indica o nível do factor a que a observação corresponde; outro (j) permite distinguir as observações num mesmo nível Assim, a j-ésima observação de Y, no i-ésimo nível do factor, é representada por Y ij, (com i =1,,k e j =1,,n i ) J Cadima (ISA) Estatística e Delineamento 2014-15 309 / 467 J Cadima (ISA) Estatística e Delineamento 2014-15 310 / 467

Um modelo para Y ij Admite-se que os valores de Y poderão variar por: corresponderem a níveis diferentes do factor; ou devido a flutuação aleatória A natureza mais pobre da nossa variável preditora estará associada a um modelo mais simples do que na regressão Em geral, admitimos que o valor esperado (médio) de Y pode diferir em cada uma das k situações (níveis do factor) em que é observado Uma primeira formulação do modelo é dada pela equação de base: Y ij = µ i + ε ij com E[ε ij ] = 0 Aqui, µ i representa o valor esperado das observações Y ij efectuadas no nível i do factor Um modelo para Y ij (cont) Para poder enquadrar a ANOVA na teoria do Modelo Linear já estudada, é conveniente re-escrever as médias de nível na forma: E[Y ij ] = µ i = µ + α i O parâmetro µ é comum a todas as observações, enquanto os parâmetros α i são específicos para cada nível (i) do factor Cada α i é designado o efeito do nível i Admite-se que Y ij oscila aleatoriamente em torno do seu valor médio: com E[ε ij ] = 0 Y ij = µ + α i + ε ij, J Cadima (ISA) Estatística e Delineamento 2014-15 311 / 467 J Cadima (ISA) Estatística e Delineamento 2014-15 312 / 467 O modelo ANOVA como um Modelo Linear A equação geral Y ij = µ + α i + ε ij, significa que as n 1 observações efectuadas no nível i = 1 ficam: Y 1j = µ + α 1 + ε 1j, as n 2 observações efectuadas no nível i = 2 ficam: Y 2j = µ + α 2 + ε 2j, e assim por diante Para encaixar este conjunto de equações no contexto do modelo linear, a equação geral pode ser vista como sendo da forma: Y ij = µ + α 1 I 1ij + α 2 I 2ij + + α k I kij + ε ij, onde I mij toma valor 1, se a observação é do nível i = m, ou 0, caso contrário São as variáveis indicatrizes de nível do factor J Cadima (ISA) Estatística e Delineamento 2014-15 313 / 467 O modelo ANOVA como um Modelo Linear (cont) A equação de base do modelo ANOVA a um factor pode ser escrito na forma vectorial/matricial, como no modelo de regressão linear Seja Y o vector n-dimensional com a totalidade das observações da variável resposta Admite-se que as n 1 primeiras correspondem ao nível 1 do factor, as n 2 seguintes ao nível 2, e assim de seguida 1 n o vector de n uns, já considerado na regressão I i a variável indicatriz de pertença ao nível i do factor Para cada observação, esta variável toma o valor 1 se a observação corresponde ao nível i do factor, e o valor 0 caso contrário (i = 1,, k) Numa ANOVA, as variáveis indicatrizes desempenham o papel dos preditores ε o vector dos n erros aleatórios As variáveis indicatrizes Por exemplo, se se fizerem n = 9 observações, com n 1 = 3 observações no primeiro nível do factor, n 2 = 4 no segundo nível e n 3 = 2 observações no terceiro nível, os vectores I 2 e I 3 serão: 0 0 0 1 I 2 = 1 1 1 0 0 0 0 0 0, I 3 = 0 0 0 1 1 J Cadima (ISA) Estatística e Delineamento 2014-15 314 / 467 A relação de base em notação vectorial Em notação matricial/vectorial, a equação de base que descreve as n observações de Y pode escrever-se como no Modelo Linear: Y = µ 1 n + α 1 I 1 + α 2 I 2 + α 3 I 3 + ε Y = Xβ + ε, sendo as colunas da matriz X constituidas pelo vector dos n uns e pelas variáveis indicatrizes; e o vector dos parâmetros β constituido por µ e os efeitos α i No exemplo com as n 1 = 3, n 2 = 4 e n 3 = 2 observações: Y 11 Y 12 Y 13 Y 21 Y 22 Y 23 Y 24 Y 31 Y 32 = 1 1 0 0 1 1 0 0 1 1 0 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 0 1 1 0 0 1 µ α 1 α 2 α 3 + ε 11 ε 12 ε 13 ε 21 ε 22 ε 23 ε 24 ε 31 ε 32 J Cadima (ISA) Estatística e Delineamento 2014-15 315 / 467 J Cadima (ISA) Estatística e Delineamento 2014-15 316 / 467

O problema do excesso de parâmetros Existe um problema técnico : as colunas desta matriz X são linearmente dependentes, pelo que a matriz X t X não é invertível Existe um excesso de parâmetros no modelo Soluções possíveis: 1 retirar o parâmetro µ do modelo corresponde a retirar a coluna de uns da matriz X; cada αi equivalerá a µ i, a média do nível; não se pode generalizar a situações mais complexas; mais difícil de encaixar na teoria já dada 2 tomar α 1 = 0: será a solução utilizada corresponde a excluir a 1a variável indicatriz do modelo (e de X); permite aproveitar a teoria do Modelo Linear e é generalizável 3 impor restrições aos parâmetros: eg, k α i = 0 Foi a solução clássica, ainda hoje frequente em livros de ANOVA; mais difícil de encaixar na teoria geral do Modelo Linear Cada solução tem implicações na forma de interpretar os parâmetros A relação de base para o nosso exemplo (cont) Admitindo α 1 = 0, re-escrevemos o modelo como: Y 11 1 0 0 ε 11 Y 12 1 0 0 ε 12 Y 13 1 0 0 ε 13 Y 21 1 1 0 µ 1 ε 21 Y 22 = 1 1 0 α 2 + ε 22 Y 23 1 1 0 α 3 ε 23 Y 24 1 1 0 ε 24 Y 31 1 0 1 ε 31 Y 32 1 0 1 ε 32 Agora µ 1 é o valor médio das observações do nível i = 1: E[Y 1j ] = µ 1, j = 1,,n 1 E[Y 2j ] = µ 2 = µ 1 + α 2, j = 1,,n 2 E[Y 3j ] = µ 3 = µ 1 + α 3, j = 1,,n 3 J Cadima (ISA) Estatística e Delineamento 2014-15 317 / 467 J Cadima (ISA) Estatística e Delineamento 2014-15 318 / 467 Os efeitos de nível α i No modelo para uma ANOVA a um factor (acetato 312), cada α i (i > 1) representa o acréscimo que transforma a média do primeiro nível na média do nível i: α 1 = 0 α 2 = µ 2 µ 1 α 3 = µ 3 µ 1 α k = µ k µ 1 A igualdade de todas as médias populacionais de nível µ i equivale a que todos os efeitos de nível sejam nulos: α i = 0, i A matriz X numa ANOVA a um factor Na ANOVA a um factor, a matriz X tem nas suas k colunas os vectores 1 n, I 2, I 3,, I k e indica quais as observações correspondentes a cada nível do factor A natureza especial da matriz X na ANOVA (os seus elementos só tomam valores 0 e 1) faz com que resultados gerais, válidos para qualquer Modelo Linear, produzam expressões específicas no contexto da ANOVA Exploraremos essas expressões específicas Consideremos agora os estimadores destes parâmetros J Cadima (ISA) Estatística e Delineamento 2014-15 319 / 467 J Cadima (ISA) Estatística e Delineamento 2014-15 320 / 467 Os parâmetros ajustados Os parâmetros ajustados (cont) Como a equação do modelo ANOVA é um caso particular da equação do Modelo Linear, a fórmula dos parâmetros ajustados pelo método dos mínimos quadrados é igualmente b = (X t X) 1 X t y Devido à natureza das colunas da matriz X, tem-se: n n 2 n 3 n 4 n k n 2 n 2 0 0 0 X t n 3 0 n 3 0 0 X = n 4 0 0 n 4 0 n k 0 0 0 n k Tem-se também: 1 1 1 1 1 n 1 1 +n 2 n 1 1 1 2 ( X t X ) n 1 1 1 1 1 +n 3 n 1 1 = 3 n n 1 1 1 1 +n 4 1 n 1 4 n 1 1 1 1 1 +n k n k k n i j=1 Y ij n 2 j=1 X t Y 2j Y = n 3 j=1 Y 3j n k j=1 Y kj J Cadima (ISA) Estatística e Delineamento 2014-15 321 / 467 J Cadima (ISA) Estatística e Delineamento 2014-15 322 / 467

Os parâmetros ajustados (cont) Sendo Y i = 1 n i tem-se: n i Y ij a média das n i observações de Y no nível i, j=1 ˆµ 1 = Y 1 ˆα 2 = Y 2 Y 1 ˆα 3 = Y 3 Y 1 ˆα k = Y k Y 1 Os estimadores das médias de nível Dados os estimadores referidos no acetato anterior, e uma vez que as médias de cada nível (além do primeiro) são dadas por µ i = µ 1 + α i, temos que os estimadores de cada média de nível são ˆµ 1 = Y 1 ˆµ 2 = ˆµ 1 + ˆα 2 = Y 2 ˆµ 3 = ˆµ 1 + ˆα 3 = Y 3 ˆµ k = ˆµ 1 + ˆα k = Y k Ou seja, os parâmetros populacionais são estimados pelas quantidades amostrais correspondentes sendo Y i a média das n i observações de Y no nível i do factor J Cadima (ISA) Estatística e Delineamento 2014-15 323 / 467 J Cadima (ISA) Estatística e Delineamento 2014-15 324 / 467 Os valores ajustados Ŷij Do que foi visto, decorre que qualquer observação tem valor ajustado: Ŷ ij = ˆµ i = ˆµ 1 + ˆα i = Y i Ou seja, os valores ajustados Ŷij são iguais para todas as observações num mesmo nível i do factor, e são dadas pela média amostral das observações nesse nível Tal como na Regressão, os valores ajustados de Y resultam de projectar ortogonalmente os valores observados da variável resposta Y sobre o subespaço de R n gerado pelas colunas da matriz X Numa ANOVA a um factor, o subespaço C (X) tem natureza especial O subespaço C (X) numa ANOVA a um factor Qualquer vector no subespaço C (X) tem de ter valores iguais para todas as observações dum mesmo nível do factor: a 1 a 1 a 1 + a 2 a 1 + a 2 a 1 1 n + a 2 I 2 + a 3 I 3 + + a k I k = a 1 + a 3 a 1 + a 3 () a 1 + a k a 1 + a k O vector Ŷ pertence a C (X), logo tem esta natureza J Cadima (ISA) Estatística e Delineamento 2014-15 325 / 467 J Cadima (ISA) Estatística e Delineamento 2014-15 326 / 467 O modelo ANOVA a 1 factor para efeitos inferenciais Para se poder fazer inferência no modelo ANOVA a um factor, admite-se não apenas que cada observação individual Y ij é da forma Y ij = µ 1 + α i + ε ij, i = 1,,k, j = 1,,n i, com E[ε ij ] = 0 e α 1 = 0 Admite-se ainda que os erros aleatórios ε ij têm as mesmas propriedades que no modelo de regressão linear: Normais, de variância constante e independentes O modelo ANOVA a um factor Modelo ANOVA a um factor, com k níveis Existem n observações, Y ij, n i das quais associadas ao nível i (i = 1,,k) do factor Tem-se: 1 Y ij = µ 1 + α i + ε ij,,,k, j=1,,n i (α 1 = 0) 2 ε ij N (0, σ 2 ), i,j 3 {ε ij } i,j vas independentes O modelo tem k parâmetros desconhecidos: a média de Y no primeiro nível do factor, µ 1, e os acréscimos α i (i > 1) que geram as médias de cada um dos k 1 restantes níveis do factor Ou seja, β = (µ 1, α 2, α 3,,α k ) t J Cadima (ISA) Estatística e Delineamento 2014-15 327 / 467 J Cadima (ISA) Estatística e Delineamento 2014-15 328 / 467

O modelo ANOVA a um factor - notação vectorial Versão vectorial/matricial do modelo a um factor De forma equivalente, em notação vectorial, Modelo ANOVA a um factor - notação vectorial O vector Y das n observações verifica: 1 Y = µ 1 1 n + α 2 I 2 + α 3 I 3 + + α k I k + ε, sendo 1 n o vector de n uns e I 2, I 3,, I k as variáveis indicatrizes dos níveis indicados 2 ε N n (0, σ 2 I n ), sendo I n a matriz identidade n n Trata-se de um modelo análogo a um modelo de Regressão Linear Múltipla, diferindo apenas na natureza das variáveis preditoras, que são aqui variáveis indicatrizes dos níveis 2 a k do factor Uma terceira forma equivalente de escrever o Modelo: Modelo ANOVA a um factor - notação vectorial/matricial O vector Y das n observações da variável resposta verifica: 1 Y = Xβ + ε, onde X = [ 1 n I 2 I 3 I k ] e β = (µ 1,α 2,α 3,,α k ) t, sendo 1 n o vector de n uns e I 2, I 3,, I k as variáveis indicatrizes dos níveis referidos 2 ε N n (0, σ 2 I n ), sendo I n a matriz identidade n n J Cadima (ISA) Estatística e Delineamento 2014-15 329 / 467 J Cadima (ISA) Estatística e Delineamento 2014-15 330 / 467 O teste aos efeitos do factor A hipótese de que nenhum dos níveis do factor afecte a média da variável resposta corresponde à hipótese α 2 = α 3 = = α k = 0 µ 1 = µ 2 = µ 3 = = µ k Dado o paralelismo com os modelos de Regressão Linear, esta hipótese corresponde a dizer que todos os coeficientes das variáveis preditoras (na ANOVA, as variáveis indicatrizes I i ) são nulos Logo, é possível testar esta hipótese, através dum teste F de ajustamento global do modelo (ver acetato 259) Tratando-se dum caso particular do modelo linear, neste contexto há fórmulas específicas J Cadima (ISA) Estatística e Delineamento 2014-15 331 / 467 Os graus de liberdade Numa ANOVA a um factor, o número de preditores do modelo (as variáveis indicatrizes dos níveis 2,3,,k) é p = k 1 e o número de parâmetros do modelo é p + 1 = k Logo, os graus de liberdade associados a cada Soma de Quadrados são: SQxx gl SQF k 1 SQRE n k No contexto da ANOVA a um factor, utiliza-se SQF em vez de SQR, para indicar a Soma de Quadrados relacionada com o Factor (embora a sua definição seja idêntica) Os Quadrados Médios continuam a ser os quocientes das Somas de Quadrados a dividir pelos respectivos graus de liberdade J Cadima (ISA) Estatística e Delineamento 2014-15 332 / 467 O Teste F aos efeitos do factor numa ANOVA Sendo válido o Modelo de ANOVA a um factor, tem-se então: Teste F aos efeitos do factor Hipóteses: H 0 : α i = 0 i=2,,k vs H 1 : i=2,,k tq α i 0 [FACTOR NÃO AFECTA] vs [FACTOR AFECTA Y ] Estatística do Teste: F = QMF QMRE F (k 1,n k) se H 0 Nível de significância do teste: α Região Crítica (Região de Rejeição): Unilateral direita Rej H 0 se F calc > f α(k 1,n k) df(x, 4, 16) 00 01 02 03 04 05 06 07 0 1 2 3 4 Também as Somas de Quadrados e Quadrados Médios têm fórmulas específicas neste contexto J Cadima (ISA) Estatística e Delineamento 2014-15 333 / 467 x Os resíduos e SQRE Viu-se antes (acetato 324) que Ŷij = ˆµ i = Y i, pelo que o resíduo da observação Y ij é dado por: E ij = Y ij Ŷij = Y ij Y i, Logo, a Soma de Quadrados dos Resíduos é dada por: SQRE = onde S 2 i = 1 k n i n i 1 j=1 n i j=1 E 2 ij = k n i j=1 ( k 2 Yij Y i ) = (n i 1)Si 2, (Y ij Y i ) 2 é a variância amostral das n i observações de Y no i-ésimo nível do factor SQRE mede variabilidade no seio dos k níveis J Cadima (ISA) Estatística e Delineamento 2014-15 334 / 467

Fórmulas para delineamentos equilibrados No caso de um delineamento equilibrado, ie, n 1 = n 2 = = n k (= n c ) tem-se: já que n = n c k SQRE = (n c 1) QMRE = n c 1 n k k Si 2 k S 2 i = 1 k k Si 2, Assim, em delineamentos equilibrados, o Quadrado Médio Residual QMRE é a média das k variâncias de nível, nos valores da variável resposta Y Em delineamentos não equilibrados, o QMRE é uma média ponderada dos S 2 i A Soma de Quadrados associada ao Factor A Soma de Quadrados associada à Regressão toma, neste contexto, a designação Soma de Quadrados associada ao Factor e será representada por SQF É dada por: SQF = SQF = sendo Y = 1 n k n i Y ij j=1 k n i j=1 (Ŷij Y ) 2 = k k ( 2 n i Y i Y ) n i j=1 ( Y i Y ) 2 a média da totalidade das n observações SQF mede variabilidade entre as médias amostrais de cada nível J Cadima (ISA) Estatística e Delineamento 2014-15 335 / 467 J Cadima (ISA) Estatística e Delineamento 2014-15 336 / 467 Fórmulas para delineamentos equilibrados No caso de um delineamento equilibrado n 1 = n 2 = = n k (= n c ), onde S 2 Y i = 1 SQF = k n c (Y i Y ) 2 = n c (k 1) S 2, Y i k k 1 médias de nível amostrais (Y i Y ) 2 indica a variância amostral das k QMF = SQF k 1 = n c S 2 Y i Assim, em delineamentos equilibrados, o Quadrado Médio associado aos efeitos do Factor, QMF, é um múltiplo da variância das k médias de nível da variável Y J Cadima (ISA) Estatística e Delineamento 2014-15 337 / 467 O quadro-resumo da ANOVA a 1 Factor Pode-se coleccionar esta informação numa tabela-resumo da ANOVA Fonte gl SQ QM f calc Factor k 1 SQF = k n i (y i y ) 2 QMF = SQF k 1 Resíduos n k SQRE = k (n i 1)si 2 QMRE = SQRE n k QMF QMRE Total n 1 SQT = (n 1)s 2 y A relação entre Somas de Quadrados A relação fundamental entre as três Somas de Quadrados (mesmo com delineamentos não equilibrados) tem um significado particular: onde: SQT = SQF + SQRE k n i (Y ij Y ) 2 = k n i (Y i Y ) 2 + k (n i 1)Si 2 j=1 SQT = (n 1)s 2 y mede a variabilidade total das n observações de Y ; SQF mede a variabilidade entre diferentes níveis do factor (variabilidade inter-níveis); SQRE mede a variabilidade no seio de cada nível - e que portanto não é explicada pelo factor (variabilidade intra-níveis) Esta é a origem histórica do nome Análise da Variância : a variância de Y é decomposta ( analisada ) em parcelas, associadas a diferentes causas Neste caso, as causas podem ser o efeito do factor ou outras não explicadas pelo modelo (residuais) J Cadima (ISA) Estatística e Delineamento 2014-15 338 / 467 Factores no O tem uma estrutura de dados específica para variáveis qualitativas (categóricas), designada factor Um factor é criado pelo comando factor, aplicado a um vector contendo os nomes dos vários níveis: > factor(c( Adubo 1, Adubo 1,, Adubo 5 )) NOTA: Explore o comando rep para instruções curtas que criam repetições de valores Eg, no objecto iris, a coluna Species é um factor Vejamos como a função summary lida com factores: > summary(iris) SepalLength SepalWidth PetalLength PetalWidth Species Min :4300 Min :2000 Min :1000 Min :0100 setosa :50 1st Qu:5100 1st Qu:2800 1st Qu:1600 1st Qu:0300 versicolor:50 Median :5800 Median :3000 Median :4350 Median :1300 virginica :50 Mean :5843 Mean :3057 Mean :3758 Mean :1199 3rd Qu:6400 3rd Qu:3300 3rd Qu:5100 3rd Qu:1800 Max :7900 Max :4400 Max :6900 Max :2500 J Cadima (ISA) Estatística e Delineamento 2014-15 339 / 467 J Cadima (ISA) Estatística e Delineamento 2014-15 340 / 467

ANOVAs a um Factor no Para efectuar uma ANOVA a um Factor no dados numa dataframe com duas colunas:, convém organizar os 1 uma para os valores (numéricos) da variável resposta; 2 outra para o factor (com a indicação dos seus níveis) As fórmulas usadas no R para especificar uma ANOVA a um factor são semelhantes às da regressão linear, indicando o factor como variável preditora Por exemplo, para efectuar uma ANOVA de larguras das pétalas sobre espécies, nos dados dos n = 150 lírios, a fórmula é: PetalWidth Species uma vez que a data frame iris contém uma coluna de nome Species que foi definida como factor ANOVAs a um factor no (cont) Embora seja possível usar o comando lm para efectuar uma ANOVA (a ANOVA é caso particular do Modelo Linear), existe outro comando que organiza a informação da forma mais tradicional numa ANOVA: aov Eg, a ANOVA da largura de pétalas sobre espécies para os lírios invoca-se da seguinte forma: > aov(petalwidth ~ Species, data=iris) É produzido o seguinte resultado (diferente do do comando lm): Call: aov(formula = PetalWidth ~ Species, data = iris) Terms: Species Residuals Sum of Squares 8041333 615660 Deg of Freedom 2 147 Residual standard error: 020465 J Cadima (ISA) Estatística e Delineamento 2014-15 341 / 467 J Cadima (ISA) Estatística e Delineamento 2014-15 342 / 467 ANOVAs a um factor no (cont) Os parâmetros estimados, no A função summary também pode ser aplicada ao resultado de uma ANOVA, produzindo o quadro-resumo completo da ANOVA Vejamos a ANOVA do primeiro dos dois exemplos que motivou esta discussão (acetato 306): > irisaov <- aov(petalwidth ~ Species, data=iris) > summary(irisaov) Df Sum Sq Mean Sq F value Pr(>F) Species 2 80413 40207 96001 < 22e-16 *** Residuals 147 6157 0042 --- Neste caso, rejeita-se claramente a hipótese de que os acréscimos de nível, α i, sejam todos nulos, pelo que se rejeita a hipótese de larguras médias de pétalas iguais em todas as espécies Conclusão: o factor afecta a variável resposta Para obter as estimativas dos parâmetros µ 1, α 2, α 3,, α k, pode aplicar-se a função coef ao resultado da ANOVA No exemplo dos lírios, temos: > coef(irisaov) (Intercept) Speciesversicolor Speciesvirginica 0246 1080 1780 Estes são os valores estimados dos parâmetros ˆµ 1 = 0246: média amostral de larguras de pétalas setosa; ˆα 2 = 1080: acréscimo que, somado à média amostral das setosa, dá a média amostral das larguras de pétalas versicolor; ˆα 3 = 1780: acréscimo que, somado à média amostral das setosa, dá a média amostral das larguras de pétalas virginica J Cadima (ISA) Estatística e Delineamento 2014-15 343 / 467 J Cadima (ISA) Estatística e Delineamento 2014-15 344 / 467 Parâmetros estimados no (cont) ANOVAs como modelo Linear no Para melhor interpretar os resultados, vejamos as médias por nível do factor da variável resposta, através da função modeltables, com o argumento type= means : > modeltables(irisaov, type="mean") Tables of means Grand mean 1199333 Species Species setosa versicolor virginica 0246 1326 2026 O ordena os níveis de um factor por ordem alfabética Também é possível estudar uma ANOVA através do comando lm, nomeadamente para fazer inferência sobre os parâmetros do modelo: > summary(lm(petalwidth ~ Species, data=iris)) Call: lm(formula = PetalWidth ~ Species, data = iris) () Coefficients: Estimate Std Error t value Pr(> t ) (Intercept) 024600 002894 850 196e-14 *** Speciesversicolor 108000 004093 2639 < 2e-16 *** Speciesvirginica 178000 004093 4349 < 2e-16 *** --- Residual standard error: 02047 on 147 degrees of freedom Multiple R-squared: 09289, Adjusted R-squared: 09279 F-statistic: 960 on 2 and 147 DF, p-value: < 22e-16 J Cadima (ISA) Estatística e Delineamento 2014-15 345 / 467 J Cadima (ISA) Estatística e Delineamento 2014-15 346 / 467

A exploração ulterior de H 1 A exploração ulterior de H 1 (cont) A Hipótese Nula, no teste F numa ANOVA a 1 Factor, afirma que todos os níveis do factor têm efeito nulo, isto é, que a média da variável resposta Y é igual nos k níveis do Factor: α 2 = α 3 = = α k = 0 µ 1 = µ 2 = µ 3 = = µ k A Hipótese Alternativa diz que pelo menos um dos níveis do factor tem uma média de Y diferente do primeiro nível: i tal que α i 0 (i > 1) i tal que µ 1 µ i (i > 1) Ou seja, nem todas as médias de nível de Y são iguais Caso se opte pela Hipótese Alternativa, fica em aberto (excepto quando k = 2) a questão de saber quais os níveis do factor cujas médias diferem entre si Mesmo com k = 3, a rejeição de H 0 pode dever-se a: µ 1 = µ 2 µ 3 ie, α 2 = 0 ; α 3 0 µ 1 = µ 3 µ 2 ie, α 3 = 0 ; α 2 0 µ 1 µ 2 = µ 3 ie, α 2 = α 3 0; µ i todos diferentes ie, α 2 α 3 e α 2,α 3 0 Como optar entre estas diferentes alternativas? J Cadima (ISA) Estatística e Delineamento 2014-15 347 / 467 J Cadima (ISA) Estatística e Delineamento 2014-15 348 / 467 A exploração ulterior de H 1 (cont) As comparações múltiplas Uma possibilidade consiste em efectuar testes aos α i s, com base na teoria já estudada anteriormente Mas quanto maior fôr k, mais sub-hipóteses alternativas existem, mais testes haverá para fazer Não se trata apenas de uma questão de serem necessários muitos testes A multiplicação do número de testes faz perder o controlo do nivel de significância α global para o conjunto de todos os testes É possível construir testes de hipóteses relativos a todas as diferenças µ i µ j, definidas pelas médias populacionais de Y nos níveis i, j de um factor (i,j = 1,,k, com i j), controlando o nível de significância global α do conjunto dos testes Tais testes chamam-se testes de comparações múltiplas de médias O nível de significância α nos testes de comparação múltipla é a probabilidade de rejeitar qualquer das hipóteses µ i = µ j, caso ela seja verdade, ou seja, é um nível de significância global Alternativamente, podem-se construir intervalos de confiança para cada diferença µ i µ j, com um nível (1 α) 100% de confiança de que os verdadeiros valores de µ i µ j pertencem a todos os intervalos J Cadima (ISA) Estatística e Delineamento 2014-15 349 / 467 J Cadima (ISA) Estatística e Delineamento 2014-15 350 / 467 Distribuição de Tukey para Amplitudes Studentizadas O mais usado teste de comparações múltiplas é o teste de Tukey, que se baseia no seguinte resultado Teorema (Distribuição de Tukey) Sejam {W i } k variáveis aleatórias independentes, com distribuição Normal, de iguais parâmetros: W i N (µ W,σW 2 ), i = 1,,k Seja R W = maxw i minw i a amplitude amostral i i Seja SW 2 um estimador da variância comum σ W 2, tal que ν S2 W σw 2 Sejam S w e R w independentes χ 2 ν Então, a amplitude Studentizada, R W SW, tem a distribuição de Tukey, que depende de dois parâmetros: k e ν A utilidade da distribuição de Tukey Numa ANOVA a um factor, tem-se Y i N (µ i, σ 2 ) n i Y i µ i N (0, σ 2 ) n i Se o delineamento é equilibrado, isto é, n 1 = n 2 = = n k (= n c ), as k diferenças Y i µ i terão a mesma distribuição N ( 0, σ 2 /n c ), e serão as variáveis W i do Teorema no acetato (351) Um estimador da variância comum σ 2 /n c é dado por QMRE/n c, e verificam-se as restantes condições do Teorema, pelo que: R S = max(y i µ i ) min(y i j j µ j ) QMRE n c tem a distribuição de Tukey, com parâmetros k e n k O quociente R S não pode ser negativo, por definição J Cadima (ISA) Estatística e Delineamento 2014-15 351 / 467 J Cadima (ISA) Estatística e Delineamento 2014-15 352 / 467

Intervalos de Confiança para µ i µ j Seja q α (k,n k) o valor que numa distribuição de Tukey com parâmetros k e n k, deixa à direita uma região de probabilidade α Então, por definição: [ ] R P S < q α (k,n k) = 1 α Logo, um intervalo de confiança a (1 α) 100% para a amplitude R é dado por: QMRE R < q α (k,n k) S = q α (k,n k) n c Mas R = max(y i µ i ) min(y j µ j ) é a maior de todas as i j diferenças do tipo (Y i µ i ) (Y j µ j ), para qualquer i,j = 1,,k J Cadima (ISA) Estatística e Delineamento 2014-15 353 / 467 Intervalos de Confiança para µ i µ j (cont) Logo, para todos os pares de níveis i e j, tem-se, com grau de confiança global (1 α) 100%, ( y i y j ) (µi µ j ) R < q α (k,n k) QMRE nc q α (k,n k) QMRE nc < (µ i µ j ) ( y i y j ) < q α (k,n k) QMRE nc isto é, tem-se (1 α) 100% de confiança em como todas as diferenças de médias de nível µ i µ j estão em intervalos da forma: ] ( y i y j ) qα (k,n k) QMRE nc, ( y i y j ) + qα (k,n k) QMRE nc Qualquer intervalo deste tipo que não contenha o valor zero corresponde a afirmar que µ i = µ j não é admissível J Cadima (ISA) Estatística e Delineamento 2014-15 354 / 467 [ Testes de Hipóteses para µ i µ j = 0, i,j Alternativamente, a partir do resultado do acetato (352) é possível testar a Hipótese Nula de que todas as diferenças de pares de médias de nível, µ i µ j, sejam nulas, em cujo caso Y i Y j < q α (k,n k) QMRE nc, com probabilidade (1 α) Qualquer diferença de médias amostrais de nível, Y i Y j, que exceda o limiar q α (k,n k) QMRE nc indica que, para esse par de níveis i,j, se deve considerar µ i µ j O nível (global) de significância de todas estas comparações é α, ou seja, a probabilidade de se concluir que µ i µ j (para algum par i,j), se em todos os casos µ i = µ j, é α J Cadima (ISA) Estatística e Delineamento 2014-15 355 / 467 Testes de Tukey na ANOVA a um factor Sintetizando o que foi dito acima, Teste de Tukey às diferenças de médias de nível Hipóteses: H 0 : µ i = µ j, i,j vs H 1 : i,j tq µ i µ j [FACTOR NÃO AFECTA] vs [FACTOR AFECTA Y ] Estatística do Teste: R S Tukey (k,n k) se H 0 Nível de significância do teste: α Região Crítica (Região de Rejeição): Para qualquer par (i, j) Rejeitar µ i = µ j se Y i Y j > qα (k,n k) QMRE nc A natureza da estatística R S permite não apenas rejeitar H 0 globalmente, como identificar o(s) par(es) (i, j) responsáveis pela rejeição (a diferença das correspondentes médias amostrais excede o termo de comparação), permitindo assim conclusões sobre diferenças significativas em cada par de médias J Cadima (ISA) Estatística e Delineamento 2014-15 356 / 467 Comparações Múltiplas de Médias no As comparações múltiplas de médias de nível, com base no resultado de Tukey, podem ser facilmente efectuadas no Os valores da função distribuição cumulativa e os quantis q α (k,n k) duma distribuição de Tukey são calculados no, através das funções ptukey e qtukey, respectivamente Para se obter o termo de comparação nos testes de hipóteses a que µ i µ j = 0, o quantil de ordem 1 α na distribuição de Tukey é obtido a partir do comando > qtukey(1-α, k, n k) O valor de QMRE é dado pelo comando aov, sob a designação Residual standard error J Cadima (ISA) Estatística e Delineamento 2014-15 357 / 467 Comparações Múltiplas de Médias no (cont) Os intervalos de Confiança a (1 α) 100% para as diferenças de médias são obtidos através do comando TukeyHSD Por exemplo, para o segundo exemplo relativo aos dados dos lírios (acetato 306): > TukeyHSD(aov(SepalWidth ~ Species, data=iris)) Tukey multiple comparisons of means 95% family-wise confidence level $Species diff lwr upr p adj versicolor-setosa -0658-081885528 -04971447 00000000 virginica-setosa -0454-061485528 -02931447 00000000 virginica-versicolor 0204 004314472 03648553 00087802 O intervalo a 95% de confiança para µ 2 µ 1 (versicolor-setosa) é ] 08189, 04971 [ Neste exemplo, nenhum dos intervalos inclui o valor zero, pelo que consideramos que µ i µ j, para qualquer i j, ou seja, todas as médias de espécie são diferentes J Cadima (ISA) Estatística e Delineamento 2014-15 358 / 467

Comparações Múltiplas de Médias no (cont) O valor de prova indicado (p adj) deve ser interpretado como o valor de α para o qual cada diferença de médias, y i y j, seria, pela primeira vez, considerado não significativo Representação gráfica das comparações múltiplas O disponibiliza ainda um auxiliar gráfico para visualizar as comparações das médias de nível, através da função plot, aplicada ao resultado da função TukeyHSD > TukeyHSD(aov(SepalWidth ~ Species, data=iris)) Tukey multiple comparisons of means 95% family-wise confidence level $Species diff lwr upr p adj versicolor-setosa -0658-081885528 -04971447 00000000 virginica-setosa -0454-061485528 -02931447 00000000 virginica-versicolor 0204 004314472 03648553 00087802 Assim, para α = 000878, a diferença de médias amostrais para as espécies virginica e versicolor já seria considerada não significativa Ou seja, um intervalo com mais de (1 α) 100% = 99122% de confiança para essa diferença de médias conteria o valor zero virginica versicolor virginica setosa versicolor setosa 95% family wise confidence level 08 06 04 02 00 02 04 Differences in mean levels of Species J Cadima (ISA) Estatística e Delineamento 2014-15 359 / 467 J Cadima (ISA) Estatística e Delineamento 2014-15 360 / 467 Delineamentos não equilibrados Quando o delineamento da ANOVA a um Factor não é equilibrado (isto é, existe diferente número de observações nos vários níveis do factor), os teste/ics de Tukey agora enunciados não são, em rigor, válidos Mas, para delineamentos em que o desequilíbrio no número de observações não seja muito acentuado, é possível um resultado aproximado, que a função TukeyHSD do incorpora Análise de Resíduos na ANOVA a 1 Factor A validade dos pressupostos do modelo estuda-se de forma idêntica ao que foi visto na Regressão Linear, tal como os diagnósticos para observações especiais Mas há algumas particularidades Numa ANOVA a um factor, os resíduos aparecem empilhados em k colunas nos gráficos de ŷ ij vs e ij, porque qualquer valor ajustado ŷ ij é igual para observações num mesmo nível do factor Este padrão não corresponde a qualquer violação dos pressupostos do modelo Analogamente, todas as observações dum mesmo nível do factor terão idêntico efeito alavanca, igual a h ii = 1 n i Sobretudo no caso de delineamentos equilibrados, isto torna os efeitos alavanca pouco úteis neste contexto J Cadima (ISA) Estatística e Delineamento 2014-15 361 / 467 J Cadima (ISA) Estatística e Delineamento 2014-15 362 / 467 Análise de Resíduos na ANOVA a 1 Factor (cont) Padrão de resíduos numa ANOVA a 1 Factor (o exemplo considerado é SepalWidth Species, nos lírios) Inspeccionando a homogeneidade de variâncias Outra particularidade da ANOVA, resultante do facto de haver n i repetições em cada um dos k níveis do factor: é possível testar formalmente se as variâncias dos erros aleatórios diferem entre os níveis do factor Residuals vs Fitted O Teste de Bartlett testa as hipóteses Residuals 10 05 00 05 10 118 16 42 vs H 0 : σ 2 1 = σ 2 2 = = σ 2 k H 1 : i,i tq σ 2 i σ 2 i, sendo σ 2 i a variância comum dos erros aleatórios ε ij do nível i 28 29 30 31 32 33 34 Fitted values aov(sepalwidth ~ Species) J Cadima (ISA) Estatística e Delineamento 2014-15 363 / 467 A estatística do teste baseia-se na comparação das médias aritmética e geométrica das k variâncias amostrais de nível dos valores de Y, Si 2 = 1 ( 2 n i 1 Yij Y i ) n i j=1 J Cadima (ISA) Estatística e Delineamento 2014-15 364 / 467

O Teste de Bartlett Teste de Bartlett à homogeneidade de variâncias Hipóteses: H 0 : σ1 2 = σ 2 2 = = σ k 2 vs H 1 : i,i tq σi 2 σi 2 [Variâncias homogéneas] [Var heterogéneas] Estatística do Teste: K 2 = (n k)lnqmre k (n i 1) lnsi 2 C onde C = 1 + 1 3(k 1) [ k Nível de significância do teste: α 1 n i 1 1 n k ] Região Crítica (Região de Rejeição): Unilateral direita Rejeitar H 0 se K 2 calc > χ2 α(k 1) χ 2 k 1 O Teste de Bartlett no No, o teste de Bartlett é invocado pelo comando bartletttest, tendo por argumento uma fórmula (análoga à usada no comando aov para indicar a variável resposta e o factor) Eg, > bartletttest(sepalwidth ~ Species, data=iris) Bartlett test of homogeneity of variances data: SepalWidth by Species Bartlett s K-squared = 20911, df = 2, p-value = 03515 Neste caso, o teste de Bartlett indica a não rejeição de H 0, ou seja, é admissível a hipótese de igualdade nas variâncias em cada nível do factor J Cadima (ISA) Estatística e Delineamento 2014-15 365 / 467 J Cadima (ISA) Estatística e Delineamento 2014-15 366 / 467 Precauções Violações aos pressupostos da ANOVA Duas precauções na utilização do teste de Bartlett: O teste de Bartlett é fortemente sensível à Normalidade das observações subjacentes A distribuição χ 2 é apenas assintótica Uma regra comum é considerar que o teste apenas deve ser usado caso n i 5, i = 1,,k Violações aos pressupostos do modelo não têm sempre igual gravidade Alguns comentários gerais: O teste F da ANOVA e as comparações múltiplas de Tukey são relativamente robustos a desvios à hipótese de normalidade As violações ao pressuposto de variâncias homogéneas são em geral menos graves no caso de delineamentos equilibrados, mas podem ser graves em delineamentos não equilibrados A falta de independência entre erros aleatórios é a violação mais grave dos pressupostos e deve ser evitada, o que é em geral possível com um delineamento experimental adequado J Cadima (ISA) Estatística e Delineamento 2014-15 367 / 467 J Cadima (ISA) Estatística e Delineamento 2014-15 368 / 467 Uma advertência Na formulação clássica do modelo ANOVA a um Factor, e a partir da equação-base Y ij = µ + α i + ε ij, em vez de impor a condição α 1 = 0, impõe-se a condição i α i = 0 Esta condição alternativa: muda a forma de interpretar os parâmetros (µ é agora uma espécie de média geral das observações e α i o desvio médio das observações do nível i em relação a essa média geral); Muda os estimadores dos parâmetros Não muda o resultado do teste F à existência de efeitos do factor, nem a qualidade global do ajustamento A nossa formulação (a restrição α 1 = 0), além de generalizável a modelos com mais factores, permite aproveitar directamente os resultados da Regressão Linear Múltipla Delineamentos e Unidades experimentais No delineamento das experiências para posterior análise através duma ANOVA (ou regressão linear), é frequente que as n observações da variável resposta correspondam a n diferentes unidades experimentais (indivíduos, parcelas de terreno, locais, etc) Qualquer variabilidade não controlada nas unidades experimentais (isto é, que não se pode atribuir aos preditores) será considerada, no modelo, como variação aleatória (ou seja, será contemplada nos erros aleatórios) Assim, variabilidade não controlada nas unidades experimentais contribui para aumentar o valor de SQRE e de QMRE J Cadima (ISA) Estatística e Delineamento 2014-15 369 / 467 J Cadima (ISA) Estatística e Delineamento 2014-15 370 / 467

Unidades experimentais (cont) Controlar a heterogeneidade Aumentar QMRE significa, no teste aos efeitos do factor, diminuir o valor calculado da estatística F, afastando-a da região crítica Assim, numa ANOVA heterogeneidade não controlada nas unidades experimentais contribui para esconder a presença de eventuais efeitos do(s) factor(es) numa Regressão Linear heterogeneidade não controlada nas unidades experimentais contribui para piorar a qualidade de ajustamento do modelo, diminuindo o seu Coeficiente de Determinação Na prática, é frequentemente impossível tornar as unidades experimentais totalmente homogéneas A natural variabilidade de plantas, animais, terrenos, localidades geográficas, células, etc significa que em muitas situações existirá variabilidade não controlável entre unidades experimentais Alguma protecção contra efeitos não controlados resulta dos princípios de: repetição; casualização Deve-se associar níveis do factor às unidades experimentais de forma aleatória (casualizada) J Cadima (ISA) Estatística e Delineamento 2014-15 371 / 467 J Cadima (ISA) Estatística e Delineamento 2014-15 372 / 467 Criar factores para controlar variabilidade Um exemplo Mesmo que seja possível utilizar unidades experimentais homogéneas, isso tem um efeito indesejável: restringir a validade dos resultados ao tipo de unidades experimentais com as características utilizadas na experiência Caso se saiba que existe um factor de variabilidade importante nas unidades experimentais, a melhor forma de controlar os seus efeitos consiste em contemplar a existência desse factor de variabilidade no delineamento e no modelo, de forma a filtrar os seus efeitos Pretende-se analisar o rendimento de 5 diferentes variedades de trigo Os rendimentos são também afectados pelos tipo de solos usados Nem sempre é possível ter terrenos homogéneos numa experiência Mesmo que seja possível, pode não ser desejável, por se limitar a validade dos resultados a um único tipo de solos Admita-se que estamos interessados em quatro terrenos com diferentes tipos de solos Cada terreno pode ser dividido em cinco parcelas viáveis para o trigo Em vez de repartir aleatoriamente as 5 variedades pelas 20 parcelas, é preferível forçar cada tipo de terreno a conter uma parcela com cada variedade Apenas dentro dos terrenos haverá casualização J Cadima (ISA) Estatística e Delineamento 2014-15 373 / 467 J Cadima (ISA) Estatística e Delineamento 2014-15 374 / 467 Um exemplo (cont) A situação descrita no acetato anterior é a seguinte: Terreno 1 Var1 Var3 Var4 Var5 Var2 Terreno 2 Var4 Var3 Var5 Var1 Var2 Terreno 3 Var2 Var4 Var1 Var3 Var5 Terreno 4 Var5 Var2 Var4 Var1 Var3 Houve uma restrição à casualização total: dentro de cada terreno há casualização, mas obriga-se cada terreno a ter uma parcela associada a cada nível do factor variedade Delineamentos factoriais a dois factores O delineamento agora exemplificado é um caso particular de um delineamento factorial a dois factores (two-way ANOVA), sendo um dos factores a variedade de trigo e o outro o tipo de solos Um delineamento factorial é um delineamento em que há observações para todas as possíveis combinações de níveis de cada factor Assim, a existência de mais do que um factor pode resultar de: pretender-se realmente estudar eventuais efeitos de mais do que um factor sobre a variável resposta; a tentativa de controlar a variabilidade experimental Historicamente, a segunda situação ficou associada à designação blocos, e na primeira fala-se apenas em factores Mas são situações análogas J Cadima (ISA) Estatística e Delineamento 2014-15 375 / 467 J Cadima (ISA) Estatística e Delineamento 2014-15 376 / 467

Modelo ANOVA a 2 Factores (sem interacção) Modelo ANOVA a 2 Factores (sem interacção) A um delineamento com 2 factores pode ser associado um modelo ANOVA que prevê a existência de dois diferentes tipos de efeitos: os efeitos associados aos níveis de cada um dos factores Admita-se a existência de: Uma variável resposta Y, da qual se efectuam n observações Um Factor A, com a níveis Um Factor B, com b níveis Notação: Cada observação da variável resposta será agora identificada com três índices, Y ijk, onde: i indica o nível i do Factor A j indica o nível j do Factor B k indica a repetição k no nível i do factor A e nível j do Factor B Cada situação experimental é dada pelo cruzamento dum nível dum Factor com um nível do outro Factor, cruzamento chamado célula J Cadima (ISA) Estatística e Delineamento 2014-15 377 / 467 J Cadima (ISA) Estatística e Delineamento 2014-15 378 / 467 Modelo ANOVA a 2 Factores (sem interacção) A modelação de Y O número de observações na célula (i,j) é representado por n ij Tem-se a b j=1 n ij = n Se o número de observações fôr igual em todas as células, n ij = n c, i,j, estamos perante um delineamento equilibrado Numa primeira abordagem, vamos admitir que o valor esperado de cada observação depende apenas do nível de cada Factor, sendo da forma: E[Y ijk ] = µ ij = µ + α i + β j, i,j,k O parâmetro µ é comum a todas as observações Cada parâmetro α i funciona como um acréscimo que pode diferir entre níveis do Factor A, e é designado o efeito do nível i do factor A Cada parâmetro β j funciona como um acréscimo que pode diferir entre níveis do Factor B, e é designado o efeito do nível j do factor B J Cadima (ISA) Estatística e Delineamento 2014-15 379 / 467 J Cadima (ISA) Estatística e Delineamento 2014-15 380 / 467 A modelação de Y (cont) A equação-base em notação vectorial Admite-se que a variação de Y ijk em torno do seu valor médio é aleatória: Y ijk = µ + α i + β j + ε ijk, com E[ε ijk ] = 0 Também neste caso, será necessário introduzir alguma restrição aos parâmetros, não podendo estimar-se parâmetros α i e β j para todos os níveis de cada Factor A equação de base do modelo ANOVA a dois factores (sem interacção) também pode ser escrita na forma vectorial Seja Y o vector n-dimensional com a totalidade das observações da variável resposta 1 n o vector de n uns I Ai a variável indicatriz de pertença ao nível i do Factor A I Bj a variável indicatriz de pertença ao nível j do Factor B ε o vector dos n erros aleatórios J Cadima (ISA) Estatística e Delineamento 2014-15 381 / 467 J Cadima (ISA) Estatística e Delineamento 2014-15 382 / 467

A equação-base em notação vectorial: primeira tentativa Se se admitem efeitos para todos os níveis de ambos os factores, temos a equação-base: Y = µ1 n + α 1 I A1 + α 2 I A2 + + α ai Aa + β 1 I B1 + β 2 I B2 + + β b I Bb +ε A matriz X definida com base neste modelo teria dependências lineares por duas diferentes razões: a soma das indicatrizes do Factor A daria a coluna dos uns, 1 n ; a soma das indicatrizes do Factor B daria a coluna dos uns, 1 n A matriz X na primeiro tentativa X = 1 1 0 0 1 0 0 1 1 0 0 1 0 0 1 1 0 0 0 1 0 1 1 0 0 0 0 1 1 1 0 0 0 0 1 1 0 1 0 1 0 0 1 0 1 0 1 0 0 1 0 1 0 1 0 0 1 0 1 0 0 0 1 1 0 1 0 0 0 1 1 0 0 1 1 0 0 1 0 0 1 0 0 1 1 0 0 1 0 0 1 1n I A1 I A2 I Aa I B1 I B2 I Bb Nem mesmo a exclusão da coluna 1 n resolve o problema J Cadima (ISA) Estatística e Delineamento 2014-15 383 / 467 J Cadima (ISA) Estatística e Delineamento 2014-15 384 / 467 Equação-base em notação vectorial: 2a tentativa Doravante, admitimos que foram excluídas do modelo as parcelas associadas ao primeiro nível de cada Factor, isto é: α 1 = 0 e β 1 = 0, o que corresponde a excluir as colunas I A1 e I B1 da matriz X A equação-base do modelo ANOVA a 2 Factores, sem interacção, fica: Y = µ1 n + α 2 I A2 + + α a I Aa + β 2 I B2 + + β b I Bb + ε A matriz do delineamento na ANOVA a 2 Factores (sem interacção) X = 1 0 0 0 0 1 0 0 0 0 1 0 0 1 0 1 0 0 0 1 1 0 0 0 1 1 1 0 0 0 1 1 0 0 0 1 1 0 0 0 1 1 0 0 1 1 1 0 0 1 1 0 1 0 0 1 0 1 0 1 1 0 1 0 1 1n I A2 I Aa I B2 I Bb J Cadima (ISA) Estatística e Delineamento 2014-15 385 / 467 J Cadima (ISA) Estatística e Delineamento 2014-15 386 / 467 O modelo ANOVA a dois factores, sem interacção Testando a existência de efeitos Juntando os pressupostos necessários à inferência, Modelo ANOVA a dois factores, sem interacção Existem n observações, Y ijk, n ij das quais associadas à célula (i,j) (i = 1,,a; j = 1,,b) Tem-se: 1 Y ijk = µ 11 +α i +β j +ε ijk,,,a; j=1,,b; k=1,,n ij (α 1 = 0;β 1 = 0) 2 ε ijk N (0, σ 2 ), i,j,k 3 {ε ijk } i,j,k vas independentes O modelo tem a + b 1 parâmetros desconhecidos: o parâmetro µ 11 ; os a 1 acréscimos α i (i > 1); e os b 1 acréscimos β j (j > 1) Um teste de ajustamento global do modelo teria como hipótese nula se todos os efeitos, quer do factor A, quer do Factor B são simultaneamente nulos, mas não distinguiria entre os efeitos de cada factor Mais útil será testar a existência dos efeitos de cada factor separadamente Seria útil dispôr de testes para as hipóteses: Teste I: H 0 : α i = 0, i = 2,,a ; Teste II: H 0 : β j = 0, j = 2,,b J Cadima (ISA) Estatística e Delineamento 2014-15 387 / 467 J Cadima (ISA) Estatística e Delineamento 2014-15 388 / 467

Teste aos efeitos do Factor B O modelo do Acetato ANOVA a 2 Factores, sem interacção (Acetato 387) tem equação de base, em notação vectorial, Y = µ1 n + α 2 I A2 + + α a I Aa + β 2 I B2 + + β b I Bb + ε O facto de ser um Modelo Linear permite aplicar a teoria já conhecida para este tipo de modelos, para testar as hipóteses H 0 : β j = 0, j = 2,,b vs H 1 : j tal que β j 0 Trata-se dum teste F parcial comparando o modelo (Modelo M A+B ) Y ijk = µ 11 + α i + β j + ε ijk, com o submodelo de equação de base (Modelo M A ) Y ijk = µ 11 + α i + ε ijk, que é um modelo ANOVA a 1 Factor (factor A) J Cadima (ISA) Estatística e Delineamento 2014-15 389 / 467 A construção do teste aos efeitos do Factor A Consideremos também um teste aos efeitos do Factor A Defina-se: SQA = SQF A, a Soma de Quadrados do Factor no Modelo M A ; SQRE A+B como no acetato anterior, É possível provar que a estatística F = SQA a 1 SQRE A+B n (a+b 1) = QMA QMRE tem distribuição F (a 1,n (a+b 1)), caso α i = 0, para qualquer i=2,,a, sendo QMA = SQA a 1 A construção do teste aos efeitos do Factor B Pode-se: construir as matrizes X do delineamento para o modelo (M A+B ) e o submodelo (M A ) Obter os estimadores de parâmetros ˆβ = (X t X) 1 X t Y, para a matriz X correspondente a cada modelo Obter as respectivas Somas de Quadrados Residuais, que designaremos SQRE A+B e SQRE A Efectuar o teste F parcial indicado, com a estatística de teste: (Efeitos Factor B) F = =SQB {}}{ SQRE A SQRE A+B b 1 SQRE A+B n (a+b 1) definindo QMB = SQB b 1 = SQRE A SQRE A+B b 1 = QMB QMRE J Cadima (ISA) Estatística e Delineamento 2014-15 390 / 467 O Teste F aos efeitos do factor A Sendo válido o Modelo de ANOVA a dois factores, sem interacção: Teste F aos efeitos do factor A Hipóteses: H 0 : α i = 0 i=2,,a vs H 1 : i=2,,a tq α i 0 [A NÃO AFECTA Y ] vs [A AFECTA Y ] Estatística do Teste: F = QMA QMRE F (a 1,n (a+b 1)) se H 0 Nível de significância do teste: α Região Crítica (Região de Rejeição): Unilateral direita Rejeitar H 0 se F calc > f α(a 1,n (a+b 1)) df(x, 4, 16) 00 01 02 03 04 05 06 07 0 1 2 3 4 x J Cadima (ISA) Estatística e Delineamento 2014-15 391 / 467 J Cadima (ISA) Estatística e Delineamento 2014-15 392 / 467 O Teste F aos efeitos do factor B Sendo válido o Modelo de ANOVA a dois factores, sem interacção: Teste F aos efeitos do factor B Hipóteses: H 0 : β j = 0 j=2,,b vs H 1 : j=2,,b tq β j 0 [B NÃO AFECTA Y ] vs [B AFECTA Y ] Estatística do Teste: F = QMB QMRE F (b 1,n (a+b 1)) se H 0 Nível de significância do teste: α Região Crítica (Região de Rejeição): Unilateral direita Rejeitar H 0 se F calc > f α(b 1,n (a+b 1)) df(x, 4, 16) 00 01 02 03 04 05 06 07 0 1 2 3 4 x A nova decomposição de SQT Tendo em conta as Somas de Quadrados antes definidas, tem-se: SQB = SQRE A SQRE A+B SQA = SQF A = SQT SQRE A Somando estas SQs a SQRE A+B, obtém-se: SQRE A+B + SQA + SQB = SQT que é uma nova decomposição de SQT, em três parcelas, associadas ao facto de haver agora dois factores com efeitos previstos no modelo, mais a variabilidade residual J Cadima (ISA) Estatística e Delineamento 2014-15 393 / 467 J Cadima (ISA) Estatística e Delineamento 2014-15 394 / 467

Trocando a ordem dos factores A troca do papel dos factores A e B levaria a definir as Somas de Quadrados de cada factor de forma diferente Designando por M B o modelo ANOVA a um factor, mas apenas com o factor que temos chamado B, ter-se-ia agora: SQB = SQF B = SQT SQRE B SQA = SQRE B SQRE A+B Continua a ser verdade que SQT se pode decompor na forma SQT = SQA + SQB + SQRE A+B Justificam-se testes análogos aos dos acetatos 392 e 393 Mas as duas formas alternativas de definir SQA e SQB apenas produzem resultados iguais no caso de delineamentos equilibrados, pelo que só nesse caso a ordem dos factores é arbitrária (Ver também o Ex9 das aulas práticas ANOVA) J Cadima (ISA) Estatística e Delineamento 2014-15 395 / 467 O quadro-resumo da ANOVA a 2 Factores (sem interacção; delineamento equilibrado) Fonte gl SQ QM f calc a Factor A a 1 SQA = b n c (y i y ) 2 QMA = SQA a 1 QMA QMRE SQA e SQB em delineamentos equilibrados A expressão para SQA obtida no acetato 391 é a Soma de Quadrados do Factor (SQF A ) do Modelo M A, apenas com o Factor A Nesse modelo, os valores ajustados são Ŷijk = Y i (acetato 325), onde Y i indica a média de todas as observações de Y associadas ao nível i do factor A Logo, e indicando por Y a média global das n observações de Y, tem-se: SQF A = a b n c j=1 k=1 (Ŷijk Y ) 2 = b n c a (Y i Y ) 2 = SQA Da mesma forma, num delineamento equilibrado, SQB é a Soma de Quadrados do Factor (SQF B ) do Modelo M B, apenas com o Factor B: Nesse modelo, os valores ajustados são Ŷijk = Y j (acetato 325), logo: SQF B = a b n c j=1 k=1 (Ŷijk Y ) 2 = an c b j=1 (Y j Y ) 2 = SQB J Cadima (ISA) Estatística e Delineamento 2014-15 396 / 467 ANOVA a dois Factores, sem interacção no Para efectuar uma ANOVA a dois Factores (sem interacção) no, convém organizar os dados numa dataframe com três colunas: 1 uma para os valores (numéricos) da variável resposta; 2 outra para o factor A (com a indicação dos seus níveis); 3 outra para o factor B (com a indicação dos seus níveis) b ( 2 Factor B b 1 SQB = a n c y j y ) QMB = SQB b 1 j=1 Resíduos n (a+b 1) SQRE= a b nc ) 2 QMRE= SQRE (yijk ŷijk n (a+b 1) j=1 k=1 QMB QMRE As fórmulas utilizadas no para indicar uma ANOVA a dois Factores, sem interacção, são semelhantes às usadas na Regressão Linear com dois preditores, devendo o nome dos dois factores ser separado pelo símbolo +: Total n 1 SQT = (n 1)s 2 y y fa + fb J Cadima (ISA) Estatística e Delineamento 2014-15 397 / 467 J Cadima (ISA) Estatística e Delineamento 2014-15 398 / 467 Um exemplo O rendimento de cinco variedades de aveia (manchuria, svansota,velvet, trebi e peatland) foi registado em seis diferentes localidades 1 Em cada localidade foi semeada uma e uma só parcela com cada variedade (havendo casualização em cada localidade) > summary(aov(y1 ~ Var + Loc, data=immer)) Df Sum Sq Mean Sq F value Pr(>F) Var 4 27566 6892 42309 001214 * Loc 5 178298 35660 218923 1751e-07 *** Residuals 20 32577 1629 Há alguma indicação de efeitos significativos entre variedades, e muita entre localidades E num modelo sem efeito de localidades (blocos)? > summary(aov(y1 ~ Var, data=immer)) Df Sum Sq Mean Sq F value Pr(>F) Var 4 27566 6892 0817 05264 Residuals 25 210876 8435 A interpretação do parâmetro µ A interpretação do significado dos parâmetros do modelo depende de qual a convenção usada para resolver o problema da multicolinearidade das colunas da matriz X Vejamos a interpretação dos parâmetros resultante da convenção α 1 = β 1 = 0 Uma observação de Y efectuada na célula (1, 1), correspondente ao cruzamento do primeiro nível de cada factor, será da forma: Y 11k = µ + ε 11k = E[Y 11k ] = µ O parâmetro µ corresponde ao valor esperado da variável resposta Y na célula cujas indicatrizes foram excluídas da matriz do delineamento Será doravante chamado µ 11 1 Dados em Immer, Hayes e LeRoy Powers, Statistical adaptation of barley varietal adaptation, Journal of the American Society for Agronomy, 26, 403-419, 1934 J Cadima (ISA) Estatística e Delineamento 2014-15 399 / 467 J Cadima (ISA) Estatística e Delineamento 2014-15 400 / 467