Análise de Variância (ANOVA) A Regressão Linear visa modelar uma variável resposta numérica (quantitativa), à custa de uma ou mais variáveis preditoras, igualmente numéricas. Mas uma variável resposta numérica pode depender de uma variável qualitativa (categórica), que iremos designar um factor. Por exemplo, podemos querer relacionar o rendimento de uma cultura com as marcas de adubo disponível no mercado. Este tipo de situação pode ser analisada através de Análises de Variância, uma metodologia estatística desenvolvida nos anos 30 na Estação experimental agrícola de Rothamstead (RU), por Fisher. J. Cadima/P. Silva (DM/ISA) Matemática e Estatística 2008-09 186 / 216
A ANOVA como caso particular do Modelo Linear É possível formular a Análise de Variância como uma técnica distinta da Regressão Linear. Mas ambas são particularizações do chamado Modelo Linear. E introduzir a ANOVA através das suas semelhanças com a Regressão Linear permite aproveitar boa parte da teoria estudada até aqui. Terminologia: Variável resposta Y : uma variável numérica (quantitativa), que se pretende estudar e modelar. Factor : uma variável preditora qualitativa (categórica); Níveis do factor : os valores (distintas categorias) do factor, ou seja, as diferentes situações onde se poderá fazer leituras do valor de Y. J. Cadima/P. Silva (DM/ISA) Matemática e Estatística 2008-09 187 / 216
As n observações Para estudar os efeitos de um factor, com k níveis, sobre uma variável resposta Y, partimos do pressuposto que temos n observações de Y, sendo n i (i = 1,...,k) correspondentes ao nível i do factor. Embora fosse possível continuar a indexar as n observações de Y com um único índice, variando de 1 a n (como se fez na Regressão), é preferível utilizar dois índices para indexar as observações de Y : um para indicar o nível do factor a que a observação corresponde; outro para distinguir cada observação dentro de um dado nível. Em geral, Y ij indica a j-ésima observação no i-ésimo nível do factor, com i = 1,...,k e j = 1,...,n i. J. Cadima/P. Silva (DM/ISA) Matemática e Estatística 2008-09 188 / 216
A modelação de Y A natureza mais pobre da nossa variável preditora estará associada a um modelo igualmente mais simples do que na regressão. Em geral, iremos admitir que o valor esperado (médio) de Y pode diferir em cada uma das k situações (níveis do factor) em que é observado. Uma primeira formulação do modelo pode assim ser dada pela equação de base: E[Y ij ] = µ i. J. Cadima/P. Silva (DM/ISA) Matemática e Estatística 2008-09 189 / 216
A modelação de Y (cont.) Para se poder fazer inferência neste modelo, admite-se que cada observação individual Y ij é da forma Y ij = µ + α i + ε ij, i = 1,...,k, j = 1,...,n i, com E[ε ij ] = 0. Assim, E[Y ij ] = µ + α i = µ i o parâmetro α i funciona como um acréscimo que pode diferir entre cada nível do factor. É designado o efeito de nível. Admite-se que os erros aleatórios ε ij têm as mesmas propriedades que no modelo de regressão linear: normais, de variância constante, e independentes. J. Cadima/P. Silva (DM/ISA) Matemática e Estatística 2008-09 190 / 216
O modelo ANOVA como um Modelo Linear O modelo ANOVA a um factor, agora esboçado, pode ser escrito na forma matricial, tal como o modelo de regressão linear. Seja Y o vector n-dimensional com a totalidade das observações da variável resposta. Admite-se que as n 1 primeiras correspondem ao nível 1 do facor, as n 2 seguintes ao nível 2, e assim de seguida. 1 n o vector de n uns, já considerado na regressão. I i a variável indicatriz de pertença ao nível i do factor. Para cada observação, esta variável toma o valor 1 se a observação corresponde ao nível i do factor, e o valor 0 caso contrário. J. Cadima/P. Silva (DM/ISA) Matemática e Estatística 2008-09 191 / 216
As variáveis indicatrizes Por exemplo, se se fizerem n = 9 observações, com n 1 = 3 observações no primeiro nível do factor, n 2 = 4 no segundo nível e n 3 = 2 observações no terceiro nível, as variáveis I 2 e I 3 serão: I 2 = 0 0 0 1 1 1 1 0 0, I 3 = 0 0 0 0 0 0 0 1 1 J. Cadima/P. Silva (DM/ISA) Matemática e Estatística 2008-09 192 / 216
A relação de base para o nosso exemplo A relação de base entre o vector Y das n observações da variável resposta, e os níveis do factor, pode escrever-se como: Y = µ 1 n + α 1 I 1 + α 2 I 2 + α 3 I 3. No exemplo com as n 1 = 3, n 2 = 4 e n 3 = 2 observações: Y 11 1 1 0 0 ε 11 Y 12 1 1 0 0 ε 12 Y 13 1 1 0 0 Y 21 1 0 1 0 µ ε 13 Y 22 = 1 0 1 0 α 1 Y 23 1 0 1 0 α 2 + ε 21 ε 22 Y 24 1 0 1 0 α 3 ε 23 ε 24 Y 31 1 0 0 1 ε 31 Y 32 1 0 0 1 ε 32 Y = X β + ε J. Cadima/P. Silva (DM/ISA) Matemática e Estatística 2008-09 193 / 216
O problema do excesso de parâmetros Existe um problema técnico : as colunas da matriz X são linearmente dependentes, pelo que a matriz X t X não é invertível. Existe um excesso de parâmetros no modelo. É possível resolver o problema de várias maneiras. uma possibilidade é retirar a coluna de uns da matriz X. Essa solução corresponde a retirar o parâmetro µ do modelo. Cada α i equivale então a µ i, a média do nível. Esta solução funciona bem para esta ANOVA a um factor, mas não se pode generalizar a situações mais complexas em que exista mais do que um factor. Uma solução alternativa, consiste em excluir a primeira variável indicatriz. Esta opção corresponde a excluir o parâmetro α 1. É a solução que será utilizada. J. Cadima/P. Silva (DM/ISA) Matemática e Estatística 2008-09 194 / 216
A relação de base para o nosso exemplo (cont.) Assim, re-escrevemos o modelo como: Y 11 1 0 0 Y 12 1 0 0 Y 13 1 0 0 Y 21 1 1 0 Y 22 = 1 1 0 Y 23 1 1 0 Y 24 1 1 0 Y 31 1 0 1 Y 32 1 0 1 µ 1 α 2 α 3 + ε 11 ε 12 ε 13 ε 21 ε 22 ε 23 ε 24 ε 31 ε 32 Agora, E[Y 1j ] = µ 1 j = 1,...,n 1 E[Y 2j ] = µ 1 + α 2 j = 1,...,n 2 E[Y 3j ] = µ 1 + α 3 j = 1,...,n 3 Cada α i (i > 1) representa um acréscimo à média do primeiro nível. J. Cadima/P. Silva (DM/ISA) Matemática e Estatística 2008-09 195 / 216
O modelo ANOVA a um factor Em geral, numa ANOVA a um factor com k níveis, Modelo ANOVA a um factor Existem n observações, Y ij, n i das quais associadas ao nível i (i = 1,...,k) do factor. Tem-se: 1 Y ij = µ 1 + α i + ε ij, i = 1,...,k, j = 1,...,n i (α 1 = 0). 2 ε ij N (0, σ 2 ) 3 {ε} n i=1 v.a.s independentes. O modelo tem k parâmetros: a média de Y no primeiro nível do factor, µ 1, e os acréscimos α i (i > 1) que geram as médias de cada um dos k 1 restantes níveis do factor. J. Cadima/P. Silva (DM/ISA) Matemática e Estatística 2008-09 196 / 216
O modelo ANOVA a um factor - notação vectorial Resumindo, Modelo ANOVA a um factor - notação vectorial O vector Y das n observações verifica: 1 Y = µ 1 1 n + α 2 I 2 + α 3 I 3 +...+α k I k + ε, sendo 1 n o vector de n uns e I 2, I 3,..., I k as variáveis indicatrizes dos níveis indicados. 2 ε N n (0, σ 2 I n n ), sendo I n n a matriz identidade n n. Repare-se que se trata de um modelo análogo a um modelo de Regressão Linear Múltipla, diferindo apenas na natureza das variáveis preditoras, que são aqui variáveis indicatrizes dos níveis 2 a k do factor. J. Cadima/P. Silva (DM/ISA) Matemática e Estatística 2008-09 197 / 216
O teste aos efeitos do factor A hipótese de que nenhum dos níveis do factor afecte a variável resposta corresponde à hipótese α 2 = α 3 =... = α k = 0. É possível testar esta hipótese, através dum teste F de ajustamento global do modelo. J. Cadima/P. Silva (DM/ISA) Matemática e Estatística 2008-09 198 / 216
A matrix X numa ANOVA a um factor Neste contexto, a matriz X tem por colunas os vectors 1 n, I 2, I 3,..., I k. Por vezes a matriz X em ANOVAs é chamada a matriz do delineamento, pois indica quais as observações que pertencem a cada nível do factor. Numa ANOVA a um factor, projecta-se ortogonalmente os valores da variável resposta Y sobre o subespaço de R n gerado pelas colunas da matriz X. Esse subespaço C (X) tem uma natureza especial. J. Cadima/P. Silva (DM/ISA) Matemática e Estatística 2008-09 199 / 216
O subespaço C (X) numa ANOVA a um factor Qualquer vector no subespaço C (X) tem de ter valores iguais para todas as observações dum mesmo nível do factor: a 1 1 n + a 2 I 2 + a 3 I 3 +...+a k I k = a 1... a 1 a 1 + a 2... a 1 + a 2 a 1 + a 3... a 1 + a 3 (...) a 1 + a k... a 1 + a k J. Cadima/P. Silva (DM/ISA) Matemática e Estatística 2008-09 200 / 216
O subespaço C (X) (cont.) O subespaço C (X) é também o subespaço gerado pelas k variáveis indicatrizes de nível, I 1, I 2, I 3,..., I k. De facto, qualquer vector que tenha o mesmo valor nos n 1 primeiros elementos, o mesmo valor nos n 2 elementos seguintes, e por aí fora, também pode ser gerado pelas variáveis indicatrizes dos k níveis do factor. J. Cadima/P. Silva (DM/ISA) Matemática e Estatística 2008-09 201 / 216
Os estimadores dos parâmetros Como o modelo ANOVA é um caso particular do Modelo Linear, a fórmula dos estimadores dos parâmetros é igualmente ˆβ = (X t X) 1 X t Y, mas, devido à natureza especial das colunas da matriz X, tem-se: ˆµ 1 = Y 1 ˆα 2 = Y 2 Y 1 ˆα 3 = Y 3 Y 1... ˆα k = Y k Y 1 onde Y i = 1 n i n i Y ij é a média das n i observações de Y no nível i. j=1 J. Cadima/P. Silva (DM/ISA) Matemática e Estatística 2008-09 202 / 216
Os estimadores das médias de nível Dados os estimadores referidos no acetato anterior, e uma vez que as médias de cada nível (além do primeiro) são dadas por µ i = µ 1 + α i, temos que os estimadores de cada média de nível são ˆµ 1 = Y 1 ˆµ 2 = Y 2 ˆµ 3 = Y 3... ˆµ k = Y k sendo Y i a média das n i observações de Y no nível i do factor. Qualquer observação no nível i tem por valor ajustado Ŷij = ˆµ i = Y i. J. Cadima/P. Silva (DM/ISA) Matemática e Estatística 2008-09 203 / 216
Os resíduos e SQRE Acabamos de ver que Ŷ ij = ˆµ i = Y i, pelo que o resíduo da observação Y ij é dado por: E ij = Y ij Ŷij = Y ij ˆµ i = Y ij Y i, Logo, a Soma de Quadrados dos Resíduos é dada por: SQRE = k n i i=1 j=1 ( Yij Y i ) 2 J. Cadima/P. Silva (DM/ISA) Matemática e Estatística 2008-09 204 / 216
A Soma de Quadrados associada ao Factor A Soma de Quadrados associada à regressão toma, neste contexto, a designação Soma de Quadrados associada ao Factor e será representada por SQF. É dada por: SQF = = = k n i i=1 j=1 k n i i=1 j=1 (Ŷij Y ) 2 ( Y i Y ) 2 k 2 n i (Y i Y ) i=1 sendo Y = 1 n k n i i=1 j=1 Y ij a média da totalidade das n observações. J. Cadima/P. Silva (DM/ISA) Matemática e Estatística 2008-09 205 / 216
Os graus de liberdade Neste contexto, o número de parâmetros do modelo é p + 1 = k. Logo, os graus de liberdade associados a cada Soma de Quadrados são: SQxx g.l. SQF k 1 SQRE n k Pode-se coleccionar esta informação numa tabela-resumo da ANOVA. J. Cadima/P. Silva (DM/ISA) Matemática e Estatística 2008-09 206 / 216
O quadro-resumo da ANOVA a 1 Factor Fonte g.l. SQ QM f calc Factor k 1 SQF = k n i (y i y ) 2 i=1 Resíduos n k SQRE = k Total n 1 SQT = k n i i=1 j=1 n i i=1 j=1 QMF = SQF k 1 ( yij y i ) 2 QMRE = SQRE n k QMF QMRE (y ij ȳ.. ) 2 J. Cadima/P. Silva (DM/ISA) Matemática e Estatística 2008-09 207 / 216
O Teste F aos efeitos do factor numa ANOVA Sendo válido o Modelo de ANOVA a um factor, tem-se então: Teste F aos efeitos do factor Hipóteses: H 0 : α i = 0 i=2,...,k vs. H 1 : i=2,..,k t.q. α i 0. [FACTOR NÃO AFECTA] vs. [FACTOR AFECTA Y ] Estatística do Teste: F = QMF QMRE F (k 1,n k) se H 0. Nível de significância do teste: γ Região Crítica (Região de Rejeição): Unilateral direita Rejeitar H 0 se F calc > f γ(k 1,n k) df(x, 4, 16) 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0 1 2 3 4 x J. Cadima/P. Silva (DM/ISA) Matemática e Estatística 2008-09 208 / 216
Factores no O tem uma estrutura de dados específica para variáveis qualitativas (categóricas), designada ØÓÖ. Um ØÓÖéum vector, cujos valores (níveis, ou em inglês, levels) são ÙÑÑ ÖÝ Ö µ categorias diferentes. Funções escritas a pensar em factores utilizam Å Òº º ¼¼Å Òº ¾º¼¼¼Å Òº ½º¼¼¼Å Òº ¼º½¼¼ ØÓ ¼ a informação de que observações associadas a uma mesma categoria são repetições de observações para esse nível do factor. Å Ò º Å Ò º¼ Å Ò º Å Ò ½º½ Ö ÉÙº º ¼¼ Ö ÉÙº º ¼¼ Ö ÉÙº º½¼¼ Ö ÉÙº ½º ¼¼ Å Ò º ¼¼Å Ò º¼¼¼Å Ò º ¼Å Ò ½º ¼¼Ú Ö Ò ¼ ½ ØÉÙº º½¼¼½ ØÉÙº ¾º ¼¼½ ØÉÙº ½º ¼¼½ ØÉÙº ¼º ¼¼Ú Ö ÓÐÓÖ ¼ E.g., Šܺ º ¼¼Å ܺ º ¼¼Å ܺ º ¼¼Å ܺ ¾º ¼¼ Ë Ô ÐºÄ Ò Ø Ë Ô ÐºÏ Ø È Ø ÐºÄ Ò Ø È Ø ÐºÏ Ø ËÔ no objecto Ö, a colunaëô éum factor. Vejamos como a função ÙÑÑ ÖÝlida com factores: J. Cadima/P. Silva (DM/ISA) Matemática e Estatística 2008-09 209 / 216
Fórmulas para ANOVA a um Factor no Para efectuar uma ANOVA a um Factor no, convém organizar os dados numa Ø º Ö Ñ com duas colunas: 1 uma para os valores (numéricos) da variável resposta; 2 outra para o factor (com a indicação dos seus níveis). As fórmulas utilizadas no para indicar as ANOVAs pretendidas são semelhantes às È Ø ÐºÄ Ò Ø usadas na regressão linear, ËÔ admitindo a indicação de nomes de factores. Por exemplo, se pretendessemos efectuar uma ANOVA de comprimentos das pétalas sobre espécies, nos dados relativos aos n = 150 lírios, a fórmula seria: J. Cadima/P. Silva (DM/ISA) Matemática e Estatística 2008-09 210 / 216
ANOVAs a um factor no Embora uma ANOVA seja um caso particular do Modelo Linear, e seja possível ÓÚ È Ø ÐºÄ Ò Ø ËÔ µ usar o comandoðñdo para efectuar uma ANOVA, o tem uma outra função que organiza a informação da forma mais tradicional ÐÐ numa ANOVA, a função ÓÚ. Ì ÖÑ ÓÚ ÓÖÑÙÐ È Ø ÐºÄ Ò Ø ËÔ µ E.g., a ANOVA de Comprimento de Pétalas sobre espécies para os ËÔ Ê Ù Ð lírios pede-se da seguinte forma (e produz o resultado indicado): ËÙÑÓ ËÕÙ Ö º½¼¾ ºÓ Ö ÓÑ ¾ ¾ º¾¾¾ ½ Ê Ù Ð Ø Ò Ö ÖÖÓÖ ¼º ¼ J. Cadima/P. Silva (DM/ISA) Matemática e Estatística 2008-09 211 / 216
ANOVAs a um factor no (cont.) ¹¹¹ ÙÑÑ ÖÝ ÓÚ È Ø ÐºÄ Ò Ø ËÔ µµ A função ÙÑÑ ÖÝtambém pode ser aplicada ao resultado de uma Ë Ò ºÓ ¼ ¼º¼¼½ ¼º¼½ ¼º¼ º ¼º½ ½ Ê Ù Ð ½ ¾ º¾¾ ËÙÑËÕÅ ÒËÕ Ú ÐÙ ¾ º½¼¾½ º ½½ ¼º¾ ¾º¾ ¹½ ¼º½ ÈÖ µ ANOVA, produzindo o quadro-resumo da ANOVA: J. Cadima/P. Silva (DM/ISA) Matemática e Estatística 2008-09 212 / 216
Ó ÓÚ È Ø ÐºÄ Ò Ø ËÔ µµ Os parâmetros ÁÒØ Ö ÔØµËÔ Ú Ö ÓÐÓÖËÔ Ú Ö Ò estimados, no Para obter as ½º ¾ estimativas dos parâmetros ¾º µ 1, α 2, α 3,..., º¼ ¼ α k, pode aplicar-se a funçãoó ao resultado da ANOVA. No exemplo dos lírios, temos: Estes são os valores estimados dos parâmetros ˆµ 1 : média estimada de comprimentos de pétalas na espécie setosa; ˆα 2 : acréscimo que, somado à média estimada da 1a. espécie, nos dá a média estimada dos comprimentos de pétala na espécie versicolor; ˆα 3 : acréscimo que, somado à média estimada da 1a. espécie, nos dá a média estimada dos comprimentos de pétala na espécie virginica. J. Cadima/P. Silva (DM/ISA) Matemática e Estatística 2008-09 213 / 216
Parâmetros ÑÓ ÐºØ Ð ÓÚ È Ø ÐºÄ Ò Ø ËÔ µ ØÝÔ Ñ Ò µ estimados no (cont.) Ì Ð Ó Ñ Ò º Ö Ò Ñ Ò factor da variável resposta, através da funçãoñó ÐºØ Ð, argumentoøýô Ñ Ò : ËÔ ØÓ Ú Ö ÓÐÓÖÚ Ö Ò ½º ¾ º¾ ¼ º ¾ Para melhor interpretar os resultados, vejamos as médias por nível do com o O ordena os níveis de um factor por ordem alfabética. J. Cadima/P. Silva (DM/ISA) Matemática e Estatística 2008-09 214 / 216
ANOVAs Ê Ù Ð ÐÐ ÐÑ ÓÖÑÙÐ È Ø ÐºÄ Ò Ø ËÔ µ ÙÑÑ ÖÝ ÐÑ È Ø ÐºÄ Ò Ø ËÔ µµ como modelo Linear no Ó ÒØ ¹½º¾ ¼¹¼º¾ ¼º¼ ¼º¾ ¼½º Å Ò ½ÉÅ Ò Ø Ñ Ø ËØ º ÖÖÓÖØÚ ÐÙ ÈÖ Ø µ É Å Ü ÁÒØ Ö ÔØµ ËÔ Ú Ö ÓÐÓÖ¾º ¼¼ ËÔ Ú Ö Ò º¼ ¼¼¼ ¹¹¹ Ê Ù Ð Ø Ò Ö ÖÖÓÖ ¼º ¼ ÓÒ½ Ö Ó Ö ÓÑ ½º ¾¼¼ ¼º¼ ¼ ¾ º¼¾ ¾ ¹½ ¼º¼ ¼ ¾º ½ ¾ ¹½ ¹ Ø Ø Ø ½½ ¼ÓÒ¾ Ò ½ Ô¹Ú ÐÙ ¾º¾ ¹½ ÅÙÐØ ÔРʹ ÕÙ Ö ¼º ½ Ù Ø Ê¹ ÕÙ Ö ¼º ¼ ¼º¼ ¼ º ¾ ¾ ¹½ Sendo um caso particular do Modelo Linear, também é possível estudar uma ANOVA através do comandoðñ: J. Cadima/P. Silva (DM/ISA) Matemática e Estatística 2008-09 215 / 216