Regressão linear múltipla - Correlação parcial trigo Matriz de correlações: trigo % matéria orgânica 40 103 32 1 58 192 45 28 50 300 39 5 72 420 46 11 61 510 34 14 69 630 38 2 63 820 32 12 % matéria orgânica Prod. trigo 1 0,6732 1 0,4421-0,2942 1 % Mat. Org. 0,2397-0,0850 0,4812 1 Fazendo uma regressão de Y ( de trigo) com a variável com maior correlação ( X 1 ), subsistem os resíduos (parte de Y não explicada por X 1 ) 80 70 60 50 40 30 20 10 0 0 200 400 600 800 1000
Regressão linear múltipla Correlação parcial Fertili- Pluvio- Prodªº vs Fertiliz. trigo zante sidade Previsto Resíduos 40 103 32 49,5-9,5 58 192 45 52,1 5,9 50 300 39 55,3-5,3 72 420 46 58,9 13,1 61 510 34 61,5-0,5 69 630 38 65,1 3,9 63 820 32 70,7-7,7 Resíduos Prod. vs Fert. 15,0 10,0 5,0 0,0 30 35 40 45 50-5,0-10,0-15,0 Para retirar também da variável (X 2 ) o efeito da variável (X 1 ), faz-se uma regressão entre estas duas variáveis: Fertili- Pluvio- Pluvios. vs Fert. zante sidade Previsto Resíduos 103 32 40,2-8,2 192 45 39,6 5,4 300 39 38,8 0,2 420 46 38,0 8,0 510 34 37,4-3,4 630 38 36,6 1,4 820 32 35,3-3,3 50 45 40 35 30 25 20 15 10 5 0 50 150 250 350 450 550 650 750 850 Para obter o coeficiente de correlação parcial (Y, X 2 ), descontando efeito de X 1, calcula-se a correlação entre os resíduos das duas regressões anteriores: Resíduos Resíduos Prod. vs Fert. Pluv. vs Fert. -9,5-8,2 5,9 5,4-5,3 0,2 13,1 8,0-0,5-3,4 3,9 1,4-7,7-3,3 r Y, X 2 (X 1 ) = 0.906 Resíduos vs 15 10 5 0-10 -5 0 5 10-5 -10-15 Resíduos vs
Regressão linear múltipla Correlação parcial de trigo (Y) vs (X 1 ): Coeficiente de correlação: r Y, X 1 = 0.6732 (indicador da capacidade explicativa de X 1 ) Capacidade explicativa adicional resultante da introdução da variável (X 2 ): coeficiente de correlação parcial de Y com X 2, descontando efeito de X 1 Coeficiente de correlação parcial: r Y, X 2 (X 1 ) = 0.9058 Coeficiente de correlação múltipla: r 2 Y, X 1, X 2 = r 2 Y, X 1 + r 2 Y, X 2 (X 1 ) (1 - r 2 Y, X 1 ) Fracção da variação de Y explicada por X 1 e X 2 Fracção da variação de Y explicada por X 1 Fracção adicional da variação de Y explicada por X 2 Fracção da variação de Y não explicada por X 1 r 2 Y, X 1, X 2 = 0.6732 2 + 0.9058 2 (1-0.6732 2 ) = 0.9018 r Y, X 1, X 2 = 0.9496 (indicador da capacidade explicativa conjunta de X 1 e X 2 )
Regressão linear múltipla Modelo de regressão múltipla, com duas variáveis explicativas (output do EXCEL): Multiple R 0,9496 R Square 0,9018 Adjusted R Square 0,8527 Standard Error 4,2391 ANOVA df SS MS F Signifi cance F Regression 2 660,12 330,06 18,367 0,00964 Residual 4 71,88 17,97 Total 6 732 Coefficients Standard Error t Stat P-value Intercept -8,1228 13,189-0,616 0,5713 0,0387 0,00721 5,364 0,0058 1,3341 0,31208 4,275 0,0129 Desta regressão a 2 variáveis explicativas resultam resíduos que poderão (eventualmente) ser explicados pela 3ª variável (% de matéria orgânica no solo) Nota: ordenada na origem (α) não significativamente diferente de 0!
Regressão linear múltipla Correlação parcial Da regressão de Y ( de trigo) com X 1 () e X 2 () resultam resíduos que poderão (eventualmente) ser explicados pela variável X 3 (% de matéria orgânica no solo) A capacidade explicativa (adicional) de X 3 (% de matéria orgânica) é determinada pelo coeficiente de correlação parcial de Y com X 3, retirado o efeito de X 1 () e X 2 () Para retirar o efeito de X 1 () e X 2 () sobre X 3 (% de matéria orgânica) faz-se uma regressão de X 3 com X 1 e X 2 e consideram-se os resíduos respectivos (a parte de X 3 não explicada por X 1 e X 2 ) Prod. trigo vs Fert. e Pluv. Resíduos % Mat. Org. vs Fert. e Pluv. 1,45-3,92-1,33 12,53-5,50-5,94 2,52-5,79 4,05 6,56 2,08-8,90-3,26 5,45 Resíduos Prod vs Fert+Pluv 6,00 4,00 2,00 0,00-10,00-5,00 0,00-2,00 5,00 10,00 15,00-4,00-6,00 Resíduos % mat. Org. vs Fert+Pluv O coeficiente de correlação parcial de Y com X 3, retirado o efeito de X 1 e X 2 vem igual ao coeficiente de correlação entre os resíduos das duas regressões anteriores r Y, X 3 (X 1, X 2 ) = -0.083 Nota: correlação baixa, pelo que a capacidade explicativa (adicional) de X 3 (% de matéria orgânica) é certamente muito reduzida
Regressão linear múltipla Modelo de regressão múltipla, com as três variáveis explicativas (output do EXCEL): Multiple R 0,9500 R Square 0,9025 Adjusted R Square 0,8050 Standard Error 4,8780 ANOVA df SS MS F Significance F Regression 3 660,61 220,20 9,25 0,05016 Residual 3 71,39 23,80 Total 6 732 Coeffi cients Standard Error t Stat P-value Intercept -8,8611 16,0168-0,5532 0,6187 0,0387 0,0083 4,6606 0,0186 1,3624 0,4091 3,3301 0,0447 % Mat. Org. -0,0355 0,2461-0,1442 0,8945 Como expectável, a variável X 3 (% de matéria orgânica) não aportou capacidade explicativa (adicional) significativa Nota: pela estatística t, o coeficiente de regressão da variável X 3 (% de matéria orgânica) não é estatisticamente significativo (diferente de 0)!
Regressão linear múltipla Modelo de regressão múltipla, com duas variáveis explicativas, mas forçando ordenada na origem a ser nula (output do EXCEL): Multiple R 0,9447 R Square 0,8925 Adjusted R Square 0,6710 Standard Error 3,9673 ANOVA df SS MS F Signifi cance F Regression 2 653,304 326,6518 20,7539 0,00773 Residual 5 78,696 15,7393 Total 7 732 Coefficients Standard Error t Stat P-value Intercept 0 #N/A #N/A #N/A 0,0364471 0,00585 6,22733 0,00156 1,1481548 0,07389 15,53868 2E-05 80 70 60 50 40 30 20 10 0 Observado Previsto 0 100 200 300 400 500 600 700 800 900
Regressão linear múltipla (Nota: exemplo com alteração de dados sobre % de Matéria Orgânica) trigo % Matéria orgânica 40 103 32 3 58 192 45 1 50 300 39 10 72 420 46 14 61 510 34 24 69 630 38 25 63 820 32 32 Matriz de correlações: 0,6732 1 0,4421-0,2942 1 % Mat. Org. 0,5888 0,9726-0,4313 1 Modelo com e % de Matéria Orgânica como variáveis independentes tem maior capacidade explicativa que qualquer modelo que inclua a variável (apesar de esta ter o maior coeficiente de correlação!!!) Multiple R 0,9706 R Square 0,9420 Adjusted R Square 0,9130 Standard Error 3,2588 ANOVA df SS MS F Significance F Regression 2 689,52 344,76 32,46 0,003367741 Residual 4 42,48 10,62 Total 6 732 Coefficients Std Error t Stat P-value Intercept -16,8323 10,7148-1,5709 0,1913 1,6279 0,2541 6,4053 0,0031 % Mat. Org. 0,8974 0,1251 7,1732 0,0020 Nota: ordenada na origem (α) não significativamente diferente de 0!
Regressão linear múltipla - Multicolinearidade (Nota: exemplo com alteração de dados sobre % de Matéria Orgânica) trigo % matéria orgânica 40 103 32 26 58 192 45 31 50 300 39 26 72 420 46 27 61 510 34 19 69 630 38 18 63 820 32 12 Matriz de correlações: 0,6732 1 0,4421-0,2942 1 % Mat. Org. -0,3259-0,9012 0,6771 1 Modelo de regressão com as 3 variáveis explicativas (output do EXCEL): Multiple R 0,9654 R Square 0,9321 Adjusted R Square 0,8642 Standard Error 4,0707 ANOVA df SS MS F Significance F Regression 3 682,29 227,43 13,73 0,029424695 Residual 3 49,71 16,57 Total 6 732 Coefficients Std Error t Stat P-value Intercept 68,2943 67,2701 1,0152 0,3848-0,0911 0,1124-0,8107 0,4769 4,6327 2,8675 1,6156 0,2046 % Mat. Org. -6,4542 5,5801-1,1567 0,3312 Nenhum dos coeficientes de regressão é estatísticamente diferente de 0! (pela estatística t, fruto da elevada variância respectiva) Isto resulta de % Matéria Orgânica estar fortemente correlacionada com as outras duas variáveis independentes (coef. de correlação múltipla= 0.999), criando problemas de multicolinearidade