Um exemplo de Análie de Covariância A Regreão Linear e a Análie de Variância etudada até aqui, ão cao particulare do Modelo Linear, que inclui também a Análie de Covariância Em qualquer deta trê ituaçõe e procura modelar uma variável repota quantitativa (numérica) Y O que ditingue a trê ituaçõe é a natureza da variávei preditora Numa Regreão Linear, a variávei preditora ão variávei igualmente quantitativa (numérica) Numa Análie de Variância, a variáve preditora ão factore (variávei qualitativa, ou categórica) Numa Análie de Covariância, entre a variávei preditora encontramo quer variávei numérica, quer factore Um exemplo de Análie de Covariância (cont) A Análie de Covariância erá apena vita no contexto dum problema epecífico de interee prático, aociado à Regreão Linear Admita que e verificou er válida uma regreão linear imple entre uma variável Y e um preditor x, num dado contexto Surge de forma natural a quetão de aber e a recta de regreão teórica é, ou não, idêntica, noutro contexto aparentado, ou eja, noutro nívei de um dado factor J Cadima (DM/ISA) Etatítica e Delineamento 29-367 / 426 J Cadima (DM/ISA) Etatítica e Delineamento 29-368 / 426 Um exemplo de Análie de Covariância (cont) No exemplo do lírio (já coniderado anteriormente), a relação entre Largura de Pétala e Comprimento de Pétala talvez (gráfico à equerda) eja comum para a trê epécie de lírio (etoa, vericolor e virginica) Já a relação entre Largura de Pétala e Largura de Sépala é claramente diferente para cada epécie (e até inexitente, enquanto relação linear, para o conjunto da trê epécie - gráfico à direita): Um exemplo de Análie de Covariância (cont) O problema em quetão pode er formulado como um problema de Análie de Covariância poi conite no etudo duma relação linear entre y e x, ma influenciada também por uma variável qualitativa: o factor epécie, que tem trê nívei, ou eja, trê diferente epécie PetalWidth 5 5 2 25 PetalWidth 5 5 2 25 O problema erá formulado de tal forma que admitir a exitência de uma única relação na trê epécie eja admitir a igualdade entre um modelo de regreão linear completo e um eu ubmodelo - permitindo aim uar a teoria de que já dipomo para ee efeito 2 3 4 5 6 7 PetalLength 2 25 3 35 4 SepalWidth J Cadima (DM/ISA) Etatítica e Delineamento 29-369 / 426 J Cadima (DM/ISA) Etatítica e Delineamento 29-37 / 426 Um exemplo de Análie de Covariância (cont) Conidere-e o exemplo de trê contexto aparentado (eg epécie, localidade, ano, etc), na quai a relação entre uma variável repota Y e uma preditora X eja dada, repectivamente, por: Contexto : Y = β + β x + ε Contexto 2: Contexto 3: Y = β + β x + ε Y = β + β x + ε Vamo coniderar que o primeiro contexto é o nível de referência e ecrever o parâmetro do contexto retante à cuta do primeiro: A hipótee de interee Com o parâmetro de cada recta ecrito deta forma, a hipótee de que a trê recta de regreão ejam iguai é a hipótee α :2 = α :3 = α :2 = α :3 = Vamo arranjar um modelo de regreão múltipla que contenha o parâmetro α i:j (i =, e j = 2,3), de forma a poder tirar proveito dete facto β = β + α :2 ; β = β + α :2 β = β + α :3 ; β = β + α :3 J Cadima (DM/ISA) Etatítica e Delineamento 29-37 / 426 J Cadima (DM/ISA) Etatítica e Delineamento 29-372 / 426
2 3 4 x A variávei aociada ao acrécimo Conidere que e fazem n obervaçõe para ajutar o modelo, endo n correpondente ao primeiro contexto; n 2 correpondente ao egundo contexto; n 3 correpondente ao terceiro contexto Definam-e a variávei indicatrize de pertença ao nívei (como na Análie de Variância) Definam-e também vectore com o valore da variável X num dado contexto i (i > ) e zero noutra poiçõe, que erão repreentado por x I i : x 4 I 2 =, x I 2 = x 5 x 6 x 7, I 3 =, x I 3 = x 8 x 9 A equação de bae no noo exemplo Podemo agora ecrever a relação de bae entre o vector Y da n obervaçõe da variável repota, e o preditor X, da eguinte forma: Y = β n + β x + α :2 I 2 + α :3 I 3 + α :2 x I 2 + α :3 x I 3 No exemplo com a n = 3, n 2 = 4 e n 3 = 2 obervaçõe: Y x ε Y 2 x 2 Y 3 x 3 β ε 2 Y 4 x 4 x 4 β ε 3 Y 5 = x 5 x 5 α :2 ε 4 Y 6 x 6 x 6 α :3 + ε 5 Y 7 x 7 x 7 α :2 ε 6 Y 8 x 8 x 8 α ε 7 :3 ε 8 Y 9 x 9 x 9 ε 9 J Cadima (DM/ISA) Etatítica e Delineamento 29-373 / 426 J Cadima (DM/ISA) Etatítica e Delineamento 29-374 / 426 A equação de bae no noo exemplo (cont) A relação de bae para comparar 3 recta Ito é, β + β x i + ε i, e i =,,3 Y i = (β + α :2 ) + (β + α :2 )x i + ε i, e i = 4,,7 (β + α :3 ) + (β + α :3 )x i + ε i, e i = 8,,9 (5) Temo aim uma equação do tipo modelo linear com 3 2 = 6 parâmetro (e variávei preditora x, I 2, I 3, x I 2, x I 3 ), que ajuta recta de regreão diferente para a obervaçõe de cada um do 3 contexto Cao α :2 = α :3 = α :2 = α :3 =, obtém-e o ubmodelo correpondente a ajutar uma única recta ao 3 contexto: O modelo do acetato 374 ajuta, à obervaçõe de cada um do trê contexto, uma recta de regreão ditinta Cao o parâmetro de acrécimo α i:j ejam todo iguai a zero, a recta de regreão é a mema, para o trê contexto Y = β n + β x + α :2 I 2 + α :3 I 3 + α :2 x I 2 + α :3 x I 3 + ε Y = β n + β x + ε Um tete F parcial permite tetar a admiibilidade duma recta única para o trê contexto coniderado J Cadima (DM/ISA) Etatítica e Delineamento 29-375 / 426 J Cadima (DM/ISA) Etatítica e Delineamento 29-376 / 426 O tete para 3 regreõe imple diferenciada Tete F a 3 recta diferente Tete F de comparação de um modelo com 3 recta de regreão linear diferente e o ubmodelo de recta única Hipótee: H : α i:j =, ( i=,;j=2,3) v H : (i,j) tq α i:j [RECTA ÚNICA] [RECTAS DIFERENTES] Etatítica do Tete: F = (SQRE S SQRE C )/4 SQRE C /(n 6) F (4,n 6), ob H Nível de ignificância do tete: γ Região Crítica (Região de Rejeição): Unilateral direita Rejeitar H e F calc > f γ(4,n 6) df(x, 4, 6) 2 3 4 5 6 7 Outra comparaçõe no exemplo É poível fazer outra comparaçõe, com bae no modelo Y = β n + β x + α :2 I 2 + α :3 I 3 + α :2 x I 2 + α :3 x I 3 + ε A hipótee de trê recta paralela (ie, com o memo declive), ma podendo ter diferente ordenada na origem, é a hipótee α :2 = α :3 = A hipótee de trê recta com igual ordenada na origem, ma declive diferente, é a hipótee α :2 = α :3 = A hipótee de a primeira e egunda recta terem o memo declive, é a hipótee α :2 = A hipótee de a egunda e terceira recta terem o memo declive, é a hipótee α :2 = α :3, ou eja, α :2 α :3 = Eta hipótee (ou outra análoga) podem er tetada atravé de tete já vito no etudo geral do modelo linear J Cadima (DM/ISA) Etatítica e Delineamento 29-377 / 426 J Cadima (DM/ISA) Etatítica e Delineamento 29-378 / 426
2 3 4 x A comparação de recta de regreão Generalizando, a comparação de modelo de regreão linear imple, cada um com n i (i =,,) obervaçõe (n + + n = n): β + β x i + ε i,,,n (β Y i = + α :2 ) + (β + α :2 )x i + ε i, i=n +,,n +n 2 (β + α : ) + (β + α : )x i + ε i, i=n ++n +,,n ++n +n, uando a notação β t = (β,β,α :2,,α :,α :2,,α : ) Admitir uma recta única na ituaçõe é admitir a hipótee H : α :2 = = α : = α :2 = = α : = Modelo com recta diferenciada notação vectorial Um modelo que prevê a poibilidade de exitirem recta de regreão linear imple diferente em cada um de contexto, tem a eguinte equação de bae: Y = β n + β x + α :2 I 2 + α :3 I 3 + + α : I + Ete modelo tem 2 parâmetro +α :2 x I 2 + α :3 x I 3 + + α : x I + ε Admitir uma recta única na ituaçõe é admitir que ete modelo equivale ao eu ubmodelo: O ubmodelo tem 2 parâmetro Y = β n + β x + ε J Cadima (DM/ISA) Etatítica e Delineamento 29-379 / 426 J Cadima (DM/ISA) Etatítica e Delineamento 29-38 / 426 Modelo com recta notação matricial O modelo diferenciado reulta de admitir, em notação matricial, Y = Y n = X n 2 β 2 + ε n Y Y 2 Y n Y n, β = β β α :2 α : α :2 α :, ε = ε ε 2 ε n ε n [ n x I X = 2 I I 2 x I x ] Recta única ou recta? A comparação do modelo faz-e pelo tete F parcial a ubmodelo: Y n = X n 2 β 2 + ε n (ubmodelo recta única) Y n = X n 2 β 2 + ε n (modelo recta), O ubmodelo é a recta (única) de regreão com bae na totalidade da n obervaçõe, endo Y x [ ] ε β Y =, X n 2 =, β 2 =, ε = β, Y n x n ε n J Cadima (DM/ISA) Etatítica e Delineamento 29-38 / 426 J Cadima (DM/ISA) Etatítica e Delineamento 29-382 / 426 O tete para regreõe imple diferenciada Tete F: recta diferente ou uma recta única? Tete F de comparação de um modelo com recta de regreão linear diferente (índice D) e o ubmodelo de recta única (índice U) Hipótee: H : α i:j =, (i=,;j=2,3,,) v H : (i,j) tq α i:j [RECTA ÚNICA] [RECTAS DIFERENTES] Etatítica do Tete: F = (SQRE U SQRE D )/(2 2) SQRE D /(n 2) F (2 2,n 2), ob H Nível de ignificância do tete: γ Região Crítica (Região de Rejeição): Unilateral direita recta paralela? Tal como no cao inicial, com apena 3 recta, também no cao geral e pode tetar a hipótee de a recta de regreão linear imple erem paralela, ito é, terem o memo declive (podendo, no entanto, ter diferente ordenada na origem) O modelo completo tem 2 parâmetro Y = β n + β x + α :2 I 2 + α :3 I 3 + + α : I + +α :2 x I 2 + α :3 x I 3 + + α : x I + ε Admitir recta paralela na ituaçõe é admitir que α :2 = α :3 = = α : = Rejeitar H e F calc > f γ(2 2,n 2) df(x, 4, 6) 2 3 4 5 6 7 logo, que o modelo equivale ao ubmodelo (com + parâmetro): Y = β n + β x + α :2 I 2 + α :3 I 3 + + α : I + ε J Cadima (DM/ISA) Etatítica e Delineamento 29-383 / 426 J Cadima (DM/ISA) Etatítica e Delineamento 29-384 / 426
2 3 4 x O tete para recta de regreão paralela Tete F: recta paralela ou recta diferente? Tete F de comparação do modelo com recta de regreão linear diferente (índice D) e o ubmodelo de recta paralela (índice P) Hipótee: H : α i:j =, ( ;j=2,3,,) v H : j tq α :j [RECTAS PARALELAS] [NÃO PARALELAS] Etatítica do Tete: F = (SQRE P SQRE D )/( ) SQRE D /(n 2) F (,n 2), ob H Nível de ignificância do tete: γ Região Crítica (Região de Rejeição): Unilateral direita Rejeitar H e F calc > f γ(,n 2) df(x, 4, 6) 2 3 4 5 6 7 Outra comparaçõe no exemplo É poível fazer outra comparaçõe, com bae no modelo Y = β n + β x + α :2 I 2 + α :3 I 3 + + α : I + +α :2 x I 2 + α :3 x I 3 + + α : x I + ε A hipótee de a recta terem igual ordenada na origem, ma declive diferente, é a hipótee α :2 = α :3 = = α : = A hipótee de a primeira e egunda recta terem o memo declive, é a hipótee α :2 = A hipótee de a egunda e terceira recta terem o memo declive, é a hipótee α :2 = α :3 Eta hipótee (ou outra análoga) podem er tetada atravé de tete já vito no etudo geral do modelo linear J Cadima (DM/ISA) Etatítica e Delineamento 29-385 / 426 J Cadima (DM/ISA) Etatítica e Delineamento 29-386 / 426 Cruzando factore com variávei numérica no No, um modelo de regreão de y obre x, admitindo recta diferente para cada nível do factor f, é indicado pela fórmula No exemplo do n = 5 lírio, y x f > modepecielm <- lm(petallength ~ SepalLength * Specie) > ummary(modepecielm) Coefficient: Etimate Std Error t value Pr(> t ) (Intercept) 83 53 52 33 SepalLength 36 58 244 26 Specievericolor -679 6837-94 368 Specievirginica -926 6578-293 77 SepalLength:Specievericolor 5548 28 433 278e-5 *** SepalLength:Specievirginica 684 2 5 e-6 *** --- Reidual tandard error: 26 on 44 degree of freedom Multiple R-quared: 9789, Adjuted R-quared: 978 F-tatitic: 333 on 5 and 44 DF, p-value: < 22e-6 Um exemplo no Recta única? De novo o exemplo do 5 lírio Pretende-e modelar Comprimento da Pétala, à cuta de Comprimento da Sépala Recta única ou recta diferenciada por epécie? > modunicolm <- lm(petallength ~ SepalLength) > modepecielm <- lm(petallength ~ SepalLength*Specie) > anova(modunicolm, modepecielm) Analyi of Variance Table Model : PetalLength ~ SepalLength Model 2: PetalLength ~ SepalLength * Specie ReDf RSS Df Sum of Sq F Pr(>F) 48 459 2 44 988 4 64 3727 < 22e-6 *** Rejeita-e a hipótee de uma recta única, em favor de recta diferente J Cadima (DM/ISA) Etatítica e Delineamento 29-387 / 426 J Cadima (DM/ISA) Etatítica e Delineamento 29-388 / 426 Um exemplo no Recta paralela? No, um modelo de regreão de y obre x, que admite recta paralela, ma com diferente ordenada na origem para cada nível de um factor f, pode er indicado na forma y x + f > modparalelalm <- lm(petallength ~ SepalLength + Specie) > ummary(modparalelalm) Coefficient: Etimate Std Error t value Pr(> t ) (Intercept) -7234 233-7397 e- *** SepalLength 632 4527 3962 < 2e-6 *** Specievericolor 224 747 3362 < 2e-6 *** Specievirginica 39 923 3387 < 2e-6 *** --- Reidual tandard error: 2826 on 46 degree of freedom Multiple R-quared: 9749, Adjuted R-quared: 9744 F-tatitic: 89 on 3 and 46 DF, p-value: < 22e-6 Um exemplo no Recta paralela? (cont) Ma é admiível que a trê recta ejam paralela? Vamo fazer um tete ao modelo encaixado que admitem recta paralela e recta diferente > modparalelalm <- lm(petallength ~ SepalLength + Specie) > modepecielm <- lm(petallength ~ SepalLength * Specie) > anova(modparalelalm,modepecielm) Analyi of Variance Table Model : PetalLength ~ SepalLength + Specie Model 2: PetalLength ~ SepalLength * Specie ReDf RSS Df Sum of Sq F Pr(>F) 46 657 2 44 9879 2 8393 3489 4272e-6 *** Rejeita-e a hipótee de recta paralela J Cadima (DM/ISA) Etatítica e Delineamento 29-389 / 426 J Cadima (DM/ISA) Etatítica e Delineamento 29-39 / 426
O preupoto Modelo com recta ou regreõe imple? O tete anteriormente referido ão válido cao e verifiquem o preupoto já admitido no Modelo Lineare, ie, que o erro aleatório da equação do modelo verificam: ε i N (,σ 2 ), i; erro aleatório independente Trata-e (quae) do memo preupoto que eria neceário upor para ajutar cada recta, de forma eparada, uando apena a n i obervaçõe correpondente ao eu contexto Ma há um preupoto adicional em relação ao ajutamento em eparado: a homogeneidade da variância do erro aleatório tem de er comum ao contexto Qual a relação entre a recta ajutada pelo modelo que admite recta diferenciada para o vário nívei de um factor (decrito no acetato 374); e pelo modelo de regreão linear imple em eparado (uando apena a obervaçõe de um dado nível do factor)? A etimativa do parâmetro da recta ão iguai na dua abordagen Ou eja, a recta ajutada atravé da Análie de Covariância ão a mema recta que e obteriam cao foem feita regreõe eparada, uando apena a obervaçõe de um dado contexto J Cadima (DM/ISA) Etatítica e Delineamento 29-39 / 426 J Cadima (DM/ISA) Etatítica e Delineamento 29-392 / 426 O modelo conjunto e regreõe individuai (cont) Modelo com recta ou regreõe imple? (cont) Portanto, o valore ajutado de y em cada recta ão iguai na dua abordagen; o reíduo ão iguai na dua abordagen; a oma de quadrado do reíduo na abordagem conjunta é a oma do SQRE de cada modelo eparado Ou eja, SQRE conjunto = SQRE + SQRE 2 + + SQRE o Quadrado Médio Reidual no modelo conjunto é uma média ponderada do QMRE de cada modelo eparado, endo o peo na média ponderada dado pelo grau de liberdade de cada QMRE eparado Ou eja, SQRE conjunto = SQRE + SQRE 2 + + SQRE SQRE conjunto = QMRE (n 2) + QMRE 2 (n 2 2) + + QMRE (n 2) QMRE conjunto = QMRE (n 2) + QMRE 2 (n 2 2) + + QMRE (n 2) n 2 que é uma média ponderada do QMRE, poi a oma da ponderaçõe é (n i 2) = n 2 J Cadima (DM/ISA) Etatítica e Delineamento 29-393 / 426 J Cadima (DM/ISA) Etatítica e Delineamento 29-394 / 426 Modelo com recta ou regreõe imple? (cont) O Coeficiente de Determinação, R 2, do modelo eparado e do modelo conjunto ão mai difícei de relacionar O R 2 do modelo conjunto mede a relação linear da nuvem de ponto obtida com a totalidade do n ponto Pode er maior ou menor do que qualquer do valore individuai de R 2 ó da obervaçõe de um dado nível do factor Um exemplo Exemplo do acetato 369, com a relaçõe entre Largura de Pétala e Comprimento de Pétala única, diferenciada e eparada, para a trê epécie de lírio (etoa, vericolor e virginica) Atenção ao R 2! PetalWidth 5 5 25 R2=9477 R2=927 2 3 4 5 6 7 PetalWidth[:5] 3 5 R2= 2 4 6 8 Não equecer que o valor do Coeficiente de Determinação é empre dado por R 2 = SQR SQT, em que o valore de SQR e SQT (e SQRE) e referem empre ao conjunto de ponto uado no ajutamento PetalWidth[5:] 4 8 PetalLength R2=688 PetalWidth[:5] 4 8 22 PetalLength[:5] R2=38 3 35 4 45 5 45 5 55 6 65 PetalLength[5:] PetalLength[:5] J Cadima (DM/ISA) Etatítica e Delineamento 29-395 / 426 J Cadima (DM/ISA) Etatítica e Delineamento 29-396 / 426
Comparando o SQT Comparando o SQR A relação entre o SQT do modelo conjunto da recta e o SQT i de cada um do modelo individuai, obtido ajutando apena o n i ponto de cada ituação, envolve a decompoição de SQT que reulta de efectuar a ANOVA a Factor, endo o factor dado pela ditinção da ituaçõe analiada Seja SQF a Soma do Quadrado do Factor nea ANOVA relacionando Y e o factor Tem-e: SQT = SQT i + SQF Tendo em conta a relação fundamental de qualquer regreão, SQT = SQR + SQRE, e tendo ainda em conta a relação entre o SQRE do modelo conjunto e o SQRE i de cada modelo, vito no Acetato 394, tem-e a eguinte relação entre o SQR do modelo conjunto e a Soma de Quadrado da Regreão, aociada à regreõe individuai: SQR = SQR i + SQF J Cadima (DM/ISA) Etatítica e Delineamento 29-397 / 426 J Cadima (DM/ISA) Etatítica e Delineamento 29-398 / 426 Comparando o Coeficiente de Determinação A relaçõe do acetato anteriore permitem agora relacionar o valor do Coeficiente de Determinação R 2 do modelo conjunto, com o Coeficiente de Determinação Ri 2 de cada modelo individual Tem-e: Note-e que: R 2 = SQR i + SQF SQT i + SQF = Ri 2 SQT i + SQF SQT i + SQF e SQF (ie, e o Factor não tem efeito ignificativo obre Y ), R 2 erá aproximadamente uma média ponderada do R 2 i (endo a ponderaçõe dada pelo SQT i ) Nete cao, R 2 ó pode er próximo de e a generalidade do R 2 i for próxima de para SQF grande (ie, efeito ignificativo do Factor obre Y ), R 2 erá próximo de : a eparação da média de Y em cada grupo vai predominar na expreão J Cadima (DM/ISA) Etatítica e Delineamento 29-399 / 426 Ainda o exemplo do Acetato 396 O valore de cada Soma de Quadrado, bem como do Coeficiente de Determinação, para cada um do modelo referido no exemplo do Acetato 396, ão: SQT SQR SQRE QMRE R2 etoa 5442 598529 4843497 962 99785 vericolor 962 85834 73366 52596 688467 virginica 36962 38349444 332756 6947 37537 conjunto 8656993 8242527 4527423 34443 947722 Reultado ANOVA a Factor: PetalWidth ~ Specie SQF=84333 SQRE=6566 É o valor elevado de SQF que gera um valor elevado do R 2 conjunto NOTA: o modelo único não urge neta comparação J Cadima (DM/ISA) Etatítica e Delineamento 29-4 / 426 Generalizando para qualquer número de preditore A ideia de fundo uada para comparar recta de regreão linear em contexto diferente pode er generalizada para etudar qualquer regreão linear múltipla em contexto diferente Para cada preditor, admite-e a poibilidade de haver acrécimo no repectivo coeficiente (em relação ao coeficiente do primeiro contexto), diferente em cada um do retante contexto J Cadima (DM/ISA) Etatítica e Delineamento 29-4 / 426