Dscpla: 04 Relações etre varáves: Regressão Prof. a Dr. a Smoe Daela Sartoro de Mederos DTASeR-Ar
Itrodução Cosdere uma varável aleatóra Y de teresse. Já vmos que podemos escrever essa varável como sedo: Y ode é o valor esperado desta varável e é o erro. Esse modelo sugere que podemos utlzar a esperaça e a varâca de Y para descrever essa varável de forma resumda. No R: <- c(0,,5,3,6,,5) barra = mea(); barra var() e = - barra ; e roud(mea(e),4) var(e) cbd(, barra, e) Portato podemos dzer que o erro é também uma varável aleatóra que tem méda zero e varâca gual de a Y. Esse erro é geralmete chamado de resíduo e represeta os úmeros fatores que, cojutamete, fazem as observações de Y osclarem em toro de. No caso partcular de Y ter dstrbução Normal, teremos também que: ~ N(0, )
Modelo de Regressão Lear Smples Prof. a Dr. a Smoe Daela Sartoro de Mederos DTASeR-Ar 3
Uma varável aular Cosdere agora que esta uma outra varável X, com alguma relação com a varável Y. Isso sugere uma maera alteratva de estudar Y tedo como base formações sobre X. Portato, as quatdades que descrevem Y são agora esperaças e varâcas codcoadas a valores específcos de X, ou seja: ode é um valor cohecdo de X. E[ Y ] e Var[ Y ] Se estr uma certa assocação etre X e Y, talvez os valores de E[Y ] sgam um padrão e os valores de Var[Y ] sejam meores do que Var[Y] 4
Hstóra A teora de regressão teve orgem o século XIX com Galto. Em um de seus trabalhos ele estudou a relação etre a altura dos pas e dos flhos (X e Y ), procurado saber como a altura do pas fluecava a altura do flho. Notou que se os pas fossem muto alto ou muto bao, o flho tera uma altura tededo à méda. Fracs Galto fo um atropólogo, meteorologsta, matemátco e estatístco glês. Por sso, ele chamou de regressão, ou seja, este uma tedêca de os dados regredrem à méda. 5
Itrodução Frequetemete estamos teressados em avalar a relação etre duas, ou mas varáves, como por eemplo: Relação etre área folar e o peso para dversas varedades de platas; Relação estete etre pressão saguíea e dade; Relação produção de uma certa varedade e certos íves de adubação; A população de bactéras pode ser predta a partr da relação etre população e o tempo de armazeameto. Cocetrações de soluções de proteía de arroz tegral e absorbâcas médas corrgdas. Relação etre tetura e aparêca. Temperatura usada um processo de desodorzação de um produto e cor do produto fal. A porcetagem de acerto ou, etão, btes trasferdos, podem estar relacoados com o tamaho da cache (btes), para um determado tpo de pré-carregameto. Aálse de regressão é uma metodologa estatístca que utlza a relação etre duas ou mas varáves quattatvas (ou qualtatvas), de tal forma que uma varável pode ser predta a partr da outra (ou outras). 6
Quatfcado a assocação etre varáves quattatvas É muto útl quatfcar essa assocação. Estem mutos tpos de assocações possíves, remos apresetar o tpo de relação mas smples, que é a relação lear smples. Objetvos Modelo de Regressão Lear Smples ) Determar como duas varáves se relacoam; ) Estmar a fução que determa a relação etre as varáves; 3) Usar a equação ajustada para prever valores da varável depedete. 7
Esta medda avala o quato a uvem de potos do gráfco de dspersão se aproma de uma reta. Coefcete de Correlação de Pearso Esse mede o grau de assocação etre varáves quattatvas e também da promdade dos dados a uma reta. Defção: Dados pares de valores (, ), (, ),, (, ), chama-se de coefcete de correlação lear de Pearso etre as duas varáves X e Y a: r corr ( X, Y) ( mˆ X ( ) s )( s mˆ Y ) r ou seja, a méda dos produtos dos valores padrozados das varáves. No R: cor(,) 8
Classfcação da correlação r Não este assocação Ou seja, r = cor(x, Y) 0 A correlação é forte egatva se r = cor(x, Y) A correlação é forte postva se r = cor(x, Y) + 0 + Correlação egatva Correlação postva Este assocação Este assocação 9
CUIDADO Você já deve ter vsto úmeras vezes estudos correlacoado cosas. Mas sem saber tudo sobre os dos ou mas fatores, ou sem buscar saber, você pode acabar sedo egaado achado que uma cocdêca é causaldade. Pra provar sso, Tler Vge fez um ste mostrado cosas completamete aleatóras que se relacoam em gráfco, podedo ser uma relação dretamete proporcoal ou versamete. Veja: Ste: http://www.tlervge.com/spurous-correlatos 0
Assm, se pudermos descrever a E[Y ] como: E[ Y ] X A varável aleatóra Y será etão descrta como: Y E[ Y ] Y X Este modelo chama-se modelo de regressão lear smples
Modelo de Regressão Lear Smples O modelo de regressão lear smples é dado por: Ou = + +, =,,..., em que: Y é a varável depedete (varável resposta, ou varável edógea); X é a varável depedete (covarável, varável eplaatóra, varável regressora, ou varável eógea);, e são costates; = + + é o tercepto (ou coefcete lear), sto é, o valor de quado = 0; é a declvdade (ou coefcete agular): quado aumeta udade, aumeta udades. 3
Sgfcado dos parâmetros do modelo de regressão lear smples Y ^ = α ^ + ^ ^ = ta ta ˆ ˆ cat. oposto cat. adjacete ^α + X α (tercepto); quado a regão epermetal clu X=0, α é o valor da méda da dstrbução de Y em X = 0, caso cotráro, ão tem sgfcado prátco como um termo separado (solado) o modelo; (clação) epressa a taa de mudaça em Y, sto é, é a mudaça em Y quado ocorre a mudaça de uma udade em X. Ele dca a mudaça a méda da dstrbução de probabldade de Y por udade de acréscmo em X. 4
Pressuposções do modelo de regressão Para procedermos ao estudo da regressão lear smples, as segutes egêcas do modelo devem ser satsfetas: ) Os erros e são depedetes Cov(e, e j ) = 0, todo,j=,..., ; j. ) Os erros e têm méda ula E(e ) = 0; 3) Os erros e possuem varâca costate Var(e ) = ; 4) Os erros e possuem dstrbução ormal com méda zero e varâca costate e ~ N(0, ). Além destas, poderíamos acrescetar: a) Este uma relação lear etre X e Y. b) A varável X é pré-determada com precsão (fa), equato que Y é uma varável aleatóra. OBS: Se X for uma varável aleatóra, e, portato, sujeta a erros de determação, podemos admtr os valores de X pré-determados, sto é, fos, sem prejudcar a valdade dos resultados. 5
Y Estmação dos parâmetros Seja uma amostra de observações de tamaho, ode cada elemeto dessa amostra tem duas formações (varáves). Este alguma assocação etre essas varáves? Faz setdo? Como determar o melhor modelo para represetar esses dados? X 6
Y Estmação dos parâmetros 6,5 5,5 4,5 VALOR 3,5,5,5 6 0 4 8 X IDADE Assm, cosderado osso modelo orgal: = + + e 7
Estmação dos parâmetros 6,5 5,5 e 3 4,5 VALOR 3,5 e e,5,5 e 5 6 0 4 8 X IDADE Como determar a estmatva de e? Através do método de estmação dos mímos quadrados (MMQ). = + + e e = ( + ) e S(, ) [ ( )] 8
e S(, ) [ ( )] Deseja-se ecotrar os valores de α e β que mmzem a soma de quadrados dos desvos, S(,). Para ecotrar o mímo, basta dervar S(,) em relação a α e β e gualar a zero. OBS: Lembre-se de verfcar se este é mesmo um poto de mímo!!! 9
ˆ 0 e S )] ( [ ), ( 0 ) ( ), ( S 0 ) ( ), ( S (I) (II) (I) Para mmzar S(,) temos: 0 ˆ ˆ ˆ ˆ ˆ ˆ (II) 0 ˆ ˆ 0 ˆ ˆ 0 ˆ
Estmação dos parâmetros ˆ ˆ ˆ ˆ ˆ ˆ XX XY s s ˆ Assm, a curva estmada é dada por: Logo, ecotrado os valores estmados de α e β obtém etão os valores esperados de Y. Os estmadores e de mímos quadrados para e, respectvamete são: ˆ ˆ
Como obter a calculadora: Regressão lear: = + Modelo Casso f-8ms ) Lmpar a memóra: SHIFT Scl = ) Mudar para o módulo regressão (Reg) Lear (L): MODE 3 3) Etrar com os dados coord, coord... M+... coord, coord M+ 4) Pedr a fução: SHIFT = SHIFT = Somatóros Coefcete de correlação lear
Como obter a calculadora: Modelo Casso f-83wa Regressão = + ) Lmpar a memóra: SHIFT Scl = ) Mudar para o módulo regressão (Reg) Lear (L): MODE 3 3) Etrar com os dados coord, coord M+ 4) Fuções:... coord, coord M+ SHIFT = Somatóros SHIFT r = Coefcete de correlação lear 3
Eemplo Nove amostras de solo foram preparadas com dversas quatdades de fósforo orgâco (X). Platas de mlho, que foram cultvadas em ambos os solos, foram colhdas ao fal do 38º da e aalsadas para verfcar a quatdade de fósforo que elas cotham (Y). A partr daí fo estmada a quatdade de fósforo dspoível o solo. Os valores observados foram os que se seguem: P orgâco o solo () 4 5 9 3 3 3 8 P as platas () 64 7 54 8 76 93 77 95 09 Objetvo: É possível prever o P as platas utlzado apeas a formação de P orgâco o solo? Faça um gráfco de dspersão, verfque se as varáves possuem alguma relação. Se sm, ecotre a equação que possa represetar essa relação. 4
Eemplo No R: <- c(, 4, 5, 9,, 3, 3, 3, 8) <- c(64, 7, 54, 8, 76, 93, 77, 95, 09) # O gráfco de dspersão plot(,, pch=9) Pelo gráfco é possível verfcar que este um relação lear crescete (ou postva) etre as varáves X e Y. 60 70 80 90 00 0 No R: # Coefcete de correlação cor(,) 0.804989 O coefcete de correlação lear de Pearso cofrma e quatfca a estêca dessa relação, sedo uma relação fortemete postva. Ou seja, se a varável X cresce, Y cresce também. 0 5 0 5 0 5 5
Eemplo No R: RLS<- lm( ~ ); RLS coef(rls) (Itercept) 6.58038.46894 able(rls, col= red ) # Veja como o modelo estmado está eplcado os dados 60 70 80 90 00 0 ˆ ˆ ˆ ˆ 6,58038,46894 Tarefa : Obteha essa equação sem o uso do software. Faça as cotas a mão. 0 5 0 5 0 5 6
Aálse de Varâca Será que realmete este uma relação etre Y e X? Será que o coefcete de clação dferete de zero? ˆ da regressão lear é sgfcatvamete Respodemos essas questões através da costrução da aálse de varâca (ANOVA) para testar o modelo de regressão lear. A dvsão da varação a amostra dos valores de em uma varação que pode ser atrbuída à regressão lear (chamada de Soma de Quadrados de Regressão - SQReg) e uma varação resdual (varação dos potos acma e abao da reta de regressão - SQRes), ou seja: SQTotal = SQReg + SQRes 7
XX XY s s g SQ Re Em que: Aálse de Varâca SQTotal g SQ SQTotal s SQ Re Re 8 No R: sum(); sum(^) [] 7 [] 55 sum(); sum(^) [] 70 [] 59874 sum(*) [] 0400
Aálse de Varâca H 0 : β = 0 H 0 : β 0 Número de parâmetros do modelo = = FV gl. SQ QM F calc Regressão lear SQReg QMReg=SQReg/ QMReg/QMRes Resíduo SQRes QMRes=SQRes/( ) - Total SQTotal - - Coclusão: Rejetaremos H 0 a um ível de sgfcâca pré fado α se F calc > F (, -), cocludo que β 0 e portato, a regressão é sgfcatva. Caso cotraro, acetamos H 0. 9
Eemplo No R: aova(rls) Aalss of Varace Table Respose: Df Sum Sq Mea Sq F value Pr(>F) 473.57 473.57.887 0.008859 Resduals 7 800.43 4.35 Coclusão: Rejetaremos H 0 a um ível de sgfcâca de %, pos F calc > F (, 7, %), cocludo que β 0 e portato, a regressão é sgfcatva. 30
Verfcado as pressuposções do modelo shapro.test(rstudet(rls)) Shapro-Wlk ormalt test data: rstudet(rls) W = 0.8886, p-value = 0.683 # valores predtos versus resíduos estudetzados plot(predct(rls), rstudet(rls), lm=c(-5,5)) able(h=c(-3,3), lt=) 3
Itervalo de cofaça para os α e IC( ; %) : ˆ t ; / QM Re s ( ) =0,0 IC( ;99%) : 6,5809 t 9 69 734 7;0,495,% 4,35 [39,77;83,4447] IC ( ; %) : t ; / ˆ QM Re s ( ) IC( ;99%) :,469 t 495 coft(rls, level=.99) 0.5 % 99.5 % (Itercept) 39.768983 83.443933 0.0356557.7983 4,35 734 7;0, [0,0356;,798] 3
Predção Um dos usos mas comus de regressão é a estmatva (ou predção) de um valor de para um determado valor para (que ão fo cluído o estudo). Isso é obtdo pela substtução do valor partcular de a equação de regressão lear. Assm, por eemplo, se = 0 ppm de fósforo orgâco, teremos: 60 70 80 90 00 0 No R: plot(,, pch=9); able(rls, col="red") _chapeu<- fucto() {coef(rls)[] + coef(rls)[]*} _chapeu(0) 89.986 0 5 0 5 0 5 ˆ (0) 6,58 (,47).(0) 89,9 OBS: Só podemos fazer a predção detro do tervalo de estudado (o caso, de a 8). A utlzação de valores fora desse tervalo recebe o ome de etrapolação e, deve ser usada com muto cudado, pos o modelo adotado pode ão ser correto fora do tervalo estudado. 33
No R: cbd(, _chapeu()) _chapeu [,] 64 6.9973 [,] 7 67.480 [3,] 54 68.6649 [4,] 8 74.335 [5,] 76 77.663 [6,] 93 80.000 [7,] 77 94.69 [8,] 95 94.69 [9,] 09 0.536 34
Coefcete de Determação A quatdade R, ou r, é cohecda como coefcete de determação. Essa medda dca a proporção da varação a varável Y que é eplcada pela regressão em X, sedo dada por: R r corr( X, Y) SQRe g SQTotal Quato mas prómo de maor é a relação etre X e Y. 0 R Assm, o eemplo: R SQRe g SQTotal 474 74 0,64897 Iterpretação: 64,8% da varação em Y é eplcada pela relação lear com X. Portato, ada permaecem 35,% de varação devda ao acaso (eplcada). 35
Adequação do modelo Para verfcar se o modelo de regressão é adequado utlzamos o coefcete de determação R. Cotudo, como o R depede do úmero de observações da amostra, o coefcete de determação ajustado acaba sedo mas utlzado: R ajustado ( ) R k k Sedo: k o úmero de parâmetros fos descohecdos do modelo meos. Eemplo: Para a regressão lear smples k = ; o tamaho da amostra observada. OBS: Sua terpretação é a mesma do R Assm, o eemplo: R ajustado (9 )0,64 9 0,5977 36
Eemplo No R: summar(rls) Call: lm(formula = ~ ) Resduals: M Q Meda 3Q Ma -7.69 -.66.003 6.668 3.000 Coeffcets: Estmate Std. Error t value Pr(> t ) (Itercept) 6.5804 6.477 9.857.35e-05 ***.469 0.3947 3.590 0.00886 ** --- Sgf. codes: 0 *** 0.00 ** 0.0 * 0.05. 0. Resdual stadard error: 0.69 o 7 degrees of freedom Multple R-squared: 0.648, Adjusted R-squared: 0.5977 F-statstc:.89 o ad 7 DF, p-value: 0.008859 37
Cudado com algumas stuações: OBS: O R deve ser aalsado com cudado, pos R grade ão mplca ecessaramete que o modelo seja um bom predtor lear. 38
Cudado com algumas stuações: OBS: Dzer que ão este relação lear etre X e Y ão mplca que ão este relação. Pode estr outro tpo de relação etre varáves. 39
Iterpretações errôeas do R e r ) Um alto coefcete de correlação dca que predções útes podem ser fetas. Isto ão é ecessaramete correto. Observe se as ampltudes dos tervalos de cofaça são grades, sto é, ão são muto precsos. ) Um alto coefcete de correlação dca que a equação de regressão estmada está bem ajustada aos dados. Isto também ão é ecessaramete correto (veja Fgura ). 3) Um coefcete de correlação prómo de zero dca que X e Y ão são correlacoadas. Idem (veja Fgura ). Fgura. Tem um alto valor de r; o ajuste de uma equação de regressão lear ão é adequada Fgura. Tem um bao valor de r; porém este uma forte relação etre X e Y. 40
Calbração Calbração ou capacdade de predção de ovas observações, pode ser feta usado uma ova amostra e comparado os valores estmados com os observados. Ou seja, dado um valor de Y 0, para o qual o correspodete valor de X 0 é descohecdo, estmar o valor de X 0. 4
Tpos de modelos de regressão OBS: Cosdere que cada udade amostral pode ser escrta como: Regressão lear smples: quado há relação de um úca varável resposta (Y) com uma úca varável eplaatóra (X) = 0 + + Regressão lear múltpla: quado há relação de um úca varável resposta (Y) com duas ou mas varável eplaatóra (X, X,..., X p ) = 0 + + +... + p p + Regressão lear multvarada: quado há relação de um cojuto de duas ou mas varáves respostas (Y, Y,..., Y k ) com um cojuto de duas ou mas varável eplaatóra (X, X,..., X p ) sedo que este últmo cojuto pode ser dferete (ou gual) para cada uma das varáves. Regressão ão lear: ocorre quado pelo meos uma das prmeras dervadas parcas referetes aos parâmetros descohecdos ( 0,,,..., p ) depedem de algum parâmetro descohecdo. Eemplo: = 0 + [ ep( )] + 4