Regressão Lear - Itrodução Na aálse de regressão lear pretede-se estudar e modelar a relação (lear) etre duas ou mas varáves. Na regressão lear smples relacoam-se duas varáves, x e Y, através do modelo lear À varável Y chama-se varável depedete e à varável x varável depedete ou explcatva. Exemplos: º) O úmero de horas de estudo poderá está relacoado com a ota obtda pelo aluo. As horas de estudo é a varável depedete (x) e a ota obtda será a varável depedete (Y). º) A relação etre o º de fogos florestas (Y) e a temperatura máxma mesal (x).
Regressão Lear - Itrodução Na regressão lear múltpla pretede-se relacoar uma varável depedete Y com dversas varáves depedetes x, x,, x k através do modelo lear Y = β + β x + β x +... + β 0 k x k Exemplos: º) O peso de uma pessoa depede da sua altura, mas certamete também depederá da sua dade, desdade dos ossos e perímetro da ctura. º) O cosumo de eerga depederá da temperatura mas também depede do preço da electrcdade.
Regressão Lear Smples - Correlação O poto de partda da aálse da regressão lear deve ser o estudo da exstêca (ou ão) de uma relação lear etre as varáves. Para estudar a relação etre duas varáves exstem métodos: - gráfcos: dagramas de dspersão - umércos: coefcete de correlação de pearso Método gráfco: Os dagramas de dspersão cosstem a represetação gráfca dos pares ordeados (x ;Y ) um sstema de exos cartesaos, de modo a observamos uma uvem de potos correspodetes à amostra obtda. Quato mas os potos represetados se ajustarem a uma recta, melhor será a relação lear etre as varáves. 3
Regressão Lear Smples - Correlação Exemplo: Num estudo realzado a 0 pessoas regstaram-se as suas dades e os íves de colesterol, tedo-se obtdo: Idade Colesterol 30,60 60,50 40,0 0,40 50,70 30,80 40,0 0,50 70,80 60,60 Dagrama de dspersão: colesterol,80,40,00,60 0 30 40 50 60 70 dade De uma forma tutva podemos coclur que parece exstr uma relação lear etre as varáves, que matematcamete 4 se traduzrá através de uma recta.
Regressão Lear Smples - Correlação Através dos segutes gráfcos pode-se coclur que: Y Y Y x x x Há uma forte correlação lear postva. Há uma forte correlação lear egatva. Há uma fraca correlação lear. 5
Regressão Lear Smples - Correlação Método umérco: O coefcete de correlação (amostral), ou coefcete de correlação lear de Pearso, é uma medda habtual do grau de assocação lear das varáves: ( x x)( y y) = R = = ( x x) ( y y) YY = = Y ode Y, e YY também podem ser defdos por: Y = = = = x y x y = = = YY = = x y ( ) x ( ) y = 6
Regressão Lear Smples - Correlação Iterpretação do coefcete de correlação (amostral): Este coefcete vara etre - e : R Quato maor for o valor absoluto de R, mas forte será a assocação lear etre as varáves. Se R estver próxmo de zero etão as varáves serão ão correlacoadas. Se R for postvo etão a relação lear é postva (x e Y varam o mesmo setdo) e se R for egatvo a relação lear é egatva (x e Y varam em setdos opostos). Se R for gual a ou - a relação lear será perfeta! - -0,8 0 0,8 Forte correlação lear egatva Fraca correlação lear Forte correlação lear postva 7
Regressão Lear Smples O modelo Objectvo: Quado exste uma forte correlação etre as varáves em estudo qual é a melhor relação lear etre as elas? Yˆ = ˆ β + ˆ β x ; ˆ β, ˆ β R 0 0 Método dos mímos quadrados: Um dos métodos mas utlzados para estmar a recta que melhor se ajusta aos valores observados é o método dos mímos quadrados. Este método cosste em determar os valores de e que mmzam a soma do quadrado dos erros (desvos dos valores observados Y dos valores obtdos pelo modelo ). Yˆ ˆβ 0 ˆβ 8
Regressão Lear Smples O modelo Y Ŷ Y e Yˆ = ˆ β + ˆ β x 0 ˆβ ˆβ Os valores de 0e que mmzam a soma do quadrado dos erros E = e = ( Y ˆ β β x ) = ˆ 0 = x x são dados por: ˆ β = Y e ˆ β 0 = Y ˆ β x 9
Regressão Lear Smples O modelo Exemplo: Pegado ovamete o exemplo das varáves Idade/Colesterol, verfca-se que: Idade Colesterol 30,60 60,50 40,0 0,40 50,70 30,80 40,0 0,50 70,80 60,60 0 x = 0 = x Model = = 40; 0400; (Costat) Idade 0 = y 0 = a. Depedet Varable: Colesterol = y. = Coeffcets a 47.4; 969 Ustadardzed Stadardzed Coeffcets Coeffcets B Std. Error Beta t Sg.,94,4 6,56,000,08,003,955 9,07,000 0 x = y = ^ 0 =, β 0 94 ^ =, β 0 08 ordeada a orgem declve da recta 0
Regressão Lear Smples O modelo Sedo a recta de regressão dada por: Colesterol = 0, 94 + 0, 08 * Idade
Regressão Lear Smples Avalação do modelo Estado o modelo de regressão lear estabelecdo tora-se ecessáro avalar a sua qualdade. Para sso exstem város métodos, gráfcos e umércos: Coefcete de determação Aálse de resíduos Teste ao declve da recta
Regressão Lear Smples Avalação do modelo Coefcete de determação R : É uma medda da proporção da varabldade de Y explcada pelo modelo de regressão lear, já que cosste a razão etre a soma dos quadrados dos resíduos e a soma dos quadrados total. Por defção, o coefcete de determação é: Y R = = YY ode já foram defdos aterormete e se tem: Y, e YY R T R = ( Yˆ Y ) e = ( Y Y ) = T = 3
Regressão Lear Smples Avalação do modelo O coefcete de determação é smplesmete o quadrado do coefcete de correlação amostral. R só pode assumr valores etre 0 e : 0 R Em geral, se a relação etre x e Y for fortemete lear R deve assumr um valor próxmo de (superor a 0.9). No etato, se R estver próxmo de zero deve-se ter cudado com as coclusões a trar. Pode ão sgfcar que o modelo de regressão lear esteja desajustado. 4
Regressão Lear Smples Avalação do modelo Exemplo: Cosderado ovamete o exemplo das varáves Idade/Colesterol, verfca-se que : = YY Y 769 ; =.456; = R = 0.955 e R logo. = 0.9 78.6 Model Summary No SPSS: Model Adjusted Std. Error of R R Square R Square the Estmate,955 a,9,900,6493 a. Predctors: (Costat), Idade Coefcete de correlação Coefcete de determação 5
Regressão Lear Smples Avalação do modelo Aálse dos resíduos: Este método de aálse da qualdade do modelo de regressão cosste em represetar grafcamete os valores predtos versus resíduos, Y ˆ;. ( ) e Se ajustameto for bom, os potos represetados ão devem apresetar qualquer correlação ou padrão: devem ser ormas, com varâca costate e depedetes. O dagrama de resíduos deve apresetar uma macha de potos aleatóros e com a mesma dspersão em toro do exo dos xx. 6
Regressão Lear Smples Avalação do modelo x Exemplo: No exemplo que tem sdo cosderado, efectuado as prevsões e calculado os erros correspodetes obtém-se: Y Yˆ 30,6,76-0,6 60,5,60-0,0 40,,04 0,6 0,4,48-0,08 50,7,3 0,38 30,8,76 0,04 40,,04 0,06 0,5,48 0,0 70,8,88-0,08 60,6,60 0,00 e = Y Yˆ 7
Regressão Lear Smples Avalação do modelo Teste ao declve da recta: Esta aálse da qualdade de ajustameto do modelo de regressão lear é o fudo a resposta à questão: Será que Y depede mesmo de x? Para respoder a esta perguta realza-se o teste de hpóteses: H : β = 0 vs H : β 0 0 A forma mas smples de se tomar uma decsão é usado a estatístca MQ F = MQ R E e o p-value que resultam da tabela ANOVA. Deve-se rejetar a hpótese ula, e portato assumr que x flueca Y, se o p-value for baxo (meor do que 0.05). 8
Regressão Lear Smples ANOVA ANOVA Aalyss of Varace A aálse da varâca, um modelo de regressão lear, cosste em separar a varabldade das observações em duas parcelas: varabldade devda à regressão e a varabldade resdual. = ( Y Y ) = ( Yˆ Y ) + ( Y Y ) ˆ = = = + T R E O sgfcado da regressão é tato maor quato maor for R e meor for E. Usualmete esta formação é agrupada uma tabela: tabela ANOVA. 9
Regressão Lear Smples ANOVA Tabela ANOVA Fotes de varação Varações (Somas dos desvos quadrátcos) Graus de Lberdade (Nº de varáves depedetes) Desvos Quadrátcos Médos Regressão R MQ R = R Resdual E MQ E E = Total T 0
Regressão Lear Smples ANOVA Exemplo: A tabela ANOVA do exemplo das varáves Idade/Colesterol é dada (o SPSS) por: Model Regresso Resdual Total a. Predctors: (Costat), Idade b. Depedet Varable: Colesterol ANOVA b Sum of Squares df Mea Square F Sg.,38,38 8,9,000 a,8 8,07,456 9 Coclusão: ( ) A estatístca F toma o valor 8,9,38/ 0,07 e o p-value do teste é ulo. Por assumr um valor baxo, pode-se coclur que faz setdo utlzar um modelo de regressão lear etre estas varáves.
Regressão Lear Múltpla O modelo Um modelo de regressão lear múltpla descreve a relação (lear) etre um cojuto de varáves depedetes,,,, k, e uma varável depedete Y: Y = β + β x + β x +... + β 0 k x k Para estmar coefcetes do modelo,, pode-se aplcar ovamete o método dos mímos quadrados e mmzar a soma do quadrado dos erros: β 0, β,..., β k ( Y ˆ β ˆ β x +... ˆ β x ) E = + 0 = k k
3 Regressão Lear Múltpla O modelo Após a realzação dos cálculos adequados, os estmadores dos coefcetes são dados pelas soluções das gualdades: ode. k k Y k Y k x x Y k k k k k β β β β β β β ˆ... ˆ ˆ ˆ... ˆ... ˆ... ˆ 0 = = + + = + + ( ) = = q p q p q p q p
Regressão Lear Múltpla O modelo Exemplo: Supodo agora que o ível de colesterol uma pessoa depede da sua dade e também do seu peso, regstou-se o peso das 0 pessoas aalsadas aterormete. Idade Peso Colesterol 30 57,60 60 65,50 40 78,0 0 67,40 50 7,70 30 63,80 40 84,0 0 64,50 70 59,80 60 68,60 Model (Costat) dade peso Ustadardzed Coeffcets a. Depedet Varable: colesterol Coeffcets a Stadardzed Coeffcets B Std. Error Beta t Sg.,88,4,458,66,09,003,958 0,438,000,0,006,7,878,03 Cosderado x como sedo a varável Idade e x a varável Peso, o modelo é: Y ˆ = 0.88 + 0.09x + 0. 0x 4
Regressão Lear Múltpla Avalação do modelo Novamete exstem dversos métodos para aalsar a qualdade de ajustameto do modelo de regressão lear múltpla e a sua sgfcâca: Coefcete de determação (ajustado) Aálse gráfca das prevsões e dos resíduos Teste ao sgfcado da regressão 5
Regressão Lear Múltpla Avalação do modelo Coefcete de determação (ajustado): O coefcete de determação, para a regressão múltpla, é defdo de forma aáloga ao da regressão smples: Tal como aterormete se o ajustameto do modelo for bom, R estará próxmo de. R = R T No etato: Na regressão múltpla já ão se tem o quadrado de ehum coefcete de correlação. Ao troduzrmos ovas varáves depedetes o modelo o valor de R aumeta, o que pode duzr em erro uma vez que mutas varáves pode ão sgfcar um melhor modelo. Para cotorar o problema é usual cosderar o coefcete de determação ajustado. 6
Regressão Lear Múltpla Avalação do modelo O coefcete de determação ajustado defe-se pela expressão: R a = ( ) E ( k ) T ode k represeta o º de varáves depedetes o modelo. Exemplo: No exemplo ateror tem-se R = 0.94, o que represeta boas dcações quato à qualdade do modelo. Model Model Summary b Adjusted Std. Error of R R Square R Square the Estmate,970 a,94,94,4379 a. Predctors: (Costat), peso, dade b. Depedet Varable: colesterol 7
Regressão Lear Múltpla Avalação do modelo Aálse gráfca: Como o modelo de regressão múltpla é uma hpersuperfíce, em sempre é possível verfcar smultaeamete o comportameto de Y em fução das dversas varáves depedetes. Normalmete aalsa-se a relação etre Y e cada uma das varáves x dvdualmete, através dos respectvos dagramas de dspersão. Um outro método gráfco muto utlzado cosste em represetar grafcamete as observações versus os valores prevstos. Se o modelo for adequado, os valores prevstos devem estar próxmos dos observados e portato o dagrama de dspersão deve coter todos os Y = Y potos próxmos da recta. x Yˆ 8
Regressão Lear Múltpla Avalação do modelo Exemplo: No exemplo ateror verfca-se que os potos estão próxmos da recta, o que sugere que o modelo cosderado ão será desajustado. Y = x ( Y ; ˆ ) Y Colesterol Observado Prevsto Y Yˆ,60,66,50,6,0,7,40,48,70,40,80,73,0,4,50,45,80,83,60,64 9
Regressão Lear Múltpla Avalação do modelo A aálse dos resíduos é completamete aáloga à da regressão lear smples: quato mas aleatóra for a dsposção dos potos em toro do exo das abcssas melhor será a qualdade do modelo. ( Y ˆ; ) e Exemplo: Ao lado ecotra-se represetado o dagrama dos resíduos do exemplo ateror. 30
Regressão Lear Múltpla Avalação do modelo Teste ao sgfcado da regressão: Pretede-se com esta aálse testar se tem sgfcado cosderar o modelo de regressão todas as varáves depedetes x,,x k. As hpóteses a cosderar são: H : β =... = β = 0 vs H : Algumβ 0 k j 0 MQ F = MQ R Mas uma vez deve-se usar a estatístca e o p-value que decorre da tabela ANOVA para tomar uma decsão. Rejeta-se a hpótese ula, e assume-se que há varáves depedetes a fluecar Y, se o p-value for baxo ( 0.05). E 3
Regressão Lear Múltpla ANOVA A terpretação da tabela ANOVA é aáloga ao caso da regressão smples e o cotexto da regressão lear múltpla é dada por: Fotes de varação Regressão Resdual Varações (Somas dos desvos quadrátcos) R E Graus de Lberdade (Nº de varáves depedetes) k k Desvos Quadrátcos Médos MQ = R R k E MQ = E k Total T 3
Regressão Lear Múltpla ANOVA Exemplo: A tabela ANOVA do exemplo cosderado é dada por: Model Regresso Resdual Total ANOVA b Sum of Squares df Mea Square F Sg.,3,56 55,897,000 a,45 7,0,456 9 a. Predctors: (Costat), peso, dade b. Depedet Varable: colesterol Como o p-value do teste é zero, poderá fazer setdo utlzar um modelo de regressão lear com todas estas varáves depedetes. 33