Regressão e Correlação Júlo Osóro Regressão & Correlação: geeraldades Em mutas stuações de pesqusa cetífca, dspomos de uma amostra aleatóra de pares de dados (x, ), resultates da medda cocomtate de duas varáves ( e ) supostamete com dstrbução ormal. Dos objectvos podem etão teressar: Averguar a exstêca (ou ão) de uma assocação etre e, e em caso afrmatvo, medr a força dessa assocação Aálse de Correlação. Estabelecer um modelo matemátco (equação) que permta descrever, predzer ou cotrolar (varável depedete ou de resposta) com base em (varável depedete ou predtora) Aálse de Regressão.
Regressão: Geeraldades Utlza-se a chamada Aálse de Regressão para aprecar a atureza da relação exstete etre duas ou mas varáves. Medate a sua aplcação, uma varável depedete ou de resposta () é relacoada com uma ou mas varáves depedetes ou predtoras ( s). O grade objectvo é estabelecer um modelo de regressão relacoado a varável depedete com uma ou mas de uma varáves depedetes. O modelo pode depos ser usado para descrever, fazer predções e cotrolar uma varável de teresse com base as varáves depedetes. A Aálse de Regressão exama a atureza e a tesdade da assocação etre varáves, mas ão pressupõe ou mplca a exstêca de qualquer relação de causaldade etre elas. Regressão: Tpos de Modelos Varável Predtora Modelos de Regressão ou Mas Varáves Predtoras Smples Múltpla Lear Não- Lear Lear Não- Lear Estudaremos apeas Modelos de Regressão Lear (Smples e Múltpla)
Regressão Lear Smples: Qual é o desafo? Como é que se pode traçar uma lha através desta uvem de potos? Como é que se pode achar a lha que melhor se ajusta aos dados? s O desafo a regressão é determar qual a lha que melhor se ajusta aos dados, sto é, uma lha de tal modo stuada a uvem de potos que mmze a dstâca de todos os potos à lha. Regressão Lear Smples: Recordado a Geometra... Qualquer lha recta pode ser descrta medate uma equação. A qualquer poto desta lha correspode um par de valores (x, ). e x estão relacoados pela equação a + b.x, sedo: b o declve da recta; a a tersecção a orgem (valor de quado 0). Declve varação em por varação utára em. Itersecção o exo dos s local ode lha cruza o exo das ordeadas (quado 0). 3
Regressão Lear Smples: Equações Leares a m + b + b b -tercept m Slope b Declve Varação Chage em a Itersecção o exo s Varação Chage em Regressão Lear Smples: Equações Leares Relação Lear Postva: cresce quado cresce. Lha de Regressão Itersecção a O declve b é postvo 4
Regressão Lear Smples: Equações Leares Relação Lear Negatva: decresce quado cresce. Itersecção a Lha de Regressão O declve b é egatvo Regressão Lear Smples: Equações Leares Relação Lear Iexstete: ão vara quado cresce. Itersecção a Lha de Regressão O declve é gual a 0 5
Regressão Lear Smples: O Modelo Itersecção os s Populacoal Varável Depedete (resposta) Declve Populacoal α + β. + ε Varável Idepedete (explcatva) Erro Aleatóro Regressão Lear Smples: O Processo de Estmatva Modelo de Regressão α + βx +ε ι Equação de Regressão E() α + βx Parametros Descohecdos α, β Dados da amostra: x.... x a ad b são estmatvas de α ad β Equação de Regressão Estmada a + b. x Estatístcos da Regressão a, b 6
Regressão Lear Smples: Crtéro dos Mímos Quadrados O Melhor Ajustameto da recta é atgdo quado o somatóro das dfereças etre o valor real de ( )e o valor predto pela regressão ( )for mímo. Mas como as dfereças postvas cotrabalaçam as egatvas, cosderam-se as dfereças elevadas ao quadrado: e erro O Crtéro dos Mímos Quadrados assume que o Melhor Ajustameto é cosegudo quado o Somatóro dos Quadrados das Dfereças ete o valor real e o valor predto ( erro ) é o mímo possível: m m e m erro Regressão Lear Smples: Crtéro dos Mímos Quadrados CMQ mmza e e + e + e +... + e 3 a + b. x + e e e4 e e3 a + bx 7
8 bx a x b a Declve Amostral Itercepção Amostral bx a + bx a + Equação de Predção ( )( ) x x x x b ( )( ) x x x x b Regressão Lear Smples: Cálculo dos Coefcetes Regressão Lear Smples: Iterpretação dos Coefcetes Declve (b) Valor médo da varação ocorrete a varável de resposta () por cada varação utára () em. Itercepção em (a) Valor médo de quado 0.
Regressão Lear Smples: Premssas do Modelo Premssas que o termo do erro ε deve satsfazer o Modelo de Regressão: O erro ε é uma varável aleatóra com méda gual a zero (µ ε 0). A varâca de ε, aotada por σ ε, é a mesma para todos os valores da varável depedete (σ ε costate). Os valores de ε são depedetes. O erro ε é uma varável com dstrbução ormal. Regressão Lear Smples: Premssas do Modelo f(e) 9
Regressão Lear Smples: Teste da Sgfcâca A sgfcâca de uma regressão (adequação do modelo de predção) é estabelecda medate a realzação de um teste de hpóteses para determar se o valor de β é zero: H 0 : β 0 H : β 0 Dos tpos de teste podem ser realzados: Teste t Teste F Ambos os testes requerem uma estmatva da varâca do erro o modelo de regressão (σ ε ). Regressão Lear Smples: Decomposção da Varação Total Varação Total Observada a Varável de Resposta () Varação Explcada pela Regressão de sobre TOTAL Regressão Varação Resdual, devda a outros factores, ão explcada pela Regressão Erro 0
Regressão Lear Smples: Decomposção da Varação Total Total Σ ( - ) ( ) Erro Σ ( - ) a+ bx Regressão Σ ( - ) Regressão Lear Smples: Teste da Sgfcâca Cálculo das Somas de Quadrados de Desvos: Compoete Total Regressão Erro Fórmula de Defção ( _ ) ( _ ) ( ) Fórmula de Trabalho ( SPD Total ) ( ) Re gressão
Regressão Lear Smples: Teste F (ANOVA) Apreseta-se sob a forma de Quadro ANOVA: Compoete GL QM F amostra Regressão ( SPD ) Re gressão QM Re gressão QM Erro Erro Total Re gressão - Erro ( ) - Total - - - Rejeta-se H 0 : β 0 se: Famostra > F α ( ) Regressão Lear Smples: Teste t de Studet Para se testar a sgfcâca com um teste t, calcula-se: t b, ode sb sb amostra QM Erro Rejeta-se H 0 : β 0 se: t amostra < t α ( ) ou t amostra > t α ( )
Regressão Lear Smples: Coefcete de Determação O coefcete de determação (r ) represeta a proporção de varação da varável de resposta () que é explcada pela sua regressão sobre : r Varação explcada Varação total Re gressão O coefcete de determação é gual ao quadrado do coefcete de correlação de Pearso: ( SPD) SPD Re gressão r Notar que 0 r. Regressão Lear Smples: Exemplo Ilustratvo Numa vestgação, medu-se a quatdade de Cálco radoactvo absorvdo através da parede de células vegetas suspeddas por um período varável de tempo uma solução de Cálco radoactvo. Regstaram-se os valores das duas varáves (tempo de permaêca a solução, quatdade de Ca radoactvo absorvda) em 7 repetções da experêca. Pretede-se: estabelecer a equação de predção do Ca absorvdo () a partr do tempo de permaêca a solução (); testar a sgfcâca do modelo (α 0,05); averguar a fracção de varação em que é explcada por. 3
Regressão Lear Smples: Exemplo Ilustratvo 3 4 5 6 7 8 9 0 3 4 5 6 7 8 9 0 3 4 5 6 7 tempo de suspesão Cálco da célula a solução absorvdo (m.) (moles/mg)..45.3470.45.00438.45.853.30.77967.30.95384.30.64080.40.7536.40.7497.40.733 4.00 3.73 4.00.60958 4.00.5749 6.0 3.788 6.0 3.0078 6.0.6706 8.05 3.05959 8.05 3.943 8.05 3.4376.5 4.80735.5 3.35583.5.78309 3.5 5.385 3.5 4.7074 3.5 4.570 5.00 3.60407 5.00 4.509 5.00 3.4484 Regressão Lear Smples: Exemplo Ilustratvo x. ( 84,80).( 7,5773). SPD x 66,4868 64,69866 7 x ( 84,80) 943,73000 678,87667 x 7 x x 84,80 7,5773 6,844 7 7, 688 Coefcetes: b SPD 64,69866 0,43 678,87667 a bx,688 ( 0,43).( 6,844), 07 Equação de predção:,07 + 0,43. x 4
Regressão Lear Smples: Exemplo Ilustratvo x. ( 84,80).( 7,5773). SPD x 66,4868 64,69866 7 s: Re gressão ( ) ( 64,69866) SPD 678,87667 39,95667 x ( 84,80) 943,73000 678,87667 x 7 ( 7,5773) 48,536 53,8655 7 Erro Re 53,8655 39,95667 3,988 gressão Quadro ANOVA: OV Regressão Erro Total 39,95667 3,988 53,8655 GL 5 6 QM 39,95667 0,599 F amostra 75,50 Coclusão: Como F amostra excede F 0,05 (/5) 4,4, rejeta-se H 0 : β 0, e coclu-se que o modelo de regressão ajustado é aproprado para fazer predções. Regressão Lear Smples: Exemplo Ilustratvo Teste t de Studet: t amostra b QM Erro 0,43 0,599 678,87667 8,689 Como t amostra se ecotra fora do tervalo de rejeção [-t 0,05 (5) -,06; + t 0,05 (5),06], rejetamos H 0 : β 0,e cocluímos que o modelo é adequado. Repare-se que (t amostra ) 75,50 F amostra,o que mostra a equvalêca dos dos processos de teste da sgfcâca da regressão. 5
Regressão Lear Smples: Exemplo Ilustratvo Coefcete de Determação: r Re gressão 39,95667 0, 75 53,8655 Isto sgfca que o tempo de permaêca a solução explca tato como 75% da varação que ocorre a quatdade de Ca radoactvo absorvdo pelas paredes das células vegetas. Regressão Lear Smples: Exemplo Ilustratvo Iterpretação dos coefcetes: b 0,43: Um acréscmo de muto o tempo de permaêca a solução provoca, em méda, um acréscmo de 0,43 moles/mg a quatdade de Ca radoactvo absorvdo. a,07: O valor médo da quatdade de Ca radoactvo presete as paredes das células ates de serem troduzdas a solução era da ordem dos,07 moles/mg. Realzação de predções: Qual é a quatdade de Ca radoactvo absorvdo predto para um tempo de permaêca de 9 mutos das paredes celulares a solução?,07 + 0,43. x,07 + ( 0,43)( 9) 3, moles / mg 6
Regressão Lear Smples: Exemplo Ilustratvo Correlação: geeraldades Respode à questão Quão forte é a relação etre as duas varáves e? Calcula-se o chamado Coefcete de Correlação, calmete proposto por Karl Pearso: Aota-se por r a ível da amostra e por ρ a ível da população. Toma valores do tervalo etre - e +. Mede o grau (força) da assocação. 7
Correlação: geeraldades Se represetarmos as duas varáves um referecal cartesao, a uvem de potos (dagrama de dspersão) reflecte a maor ou meor tedêca para os potos se dsporem sstemátcamete ao logo de uma lha recta (descedete ou ascedete). Perre Dagele (973): Theore et Méthodes Statstques, vol.. Les Presses Agroomques de Gembloux. Correlação: geeraldades Correlação Negatva Perfeta Ausêca de Correlação Correlação Postva Perfeta -.0 -.5 0 +.5 +.0 ρ egatvo: tede a decrescer à medda que cresce ρ postvo: tede a crescer à medda que cresce ρ 0: ão há qualquer relação etre a varação de e a varação de. 8
Correlação: Cálculo Para uma amostra de pares (x, ) de observações realzadas para as varáves e, o coefcete de correlação (do mometoproduto, de Pearso) vem dado por: r Cov Var (, ) ( ). Var( ) SPD ( ). ( ) ( ) SPD. r ( )(. ) ( ).( ) Nestas expressões: Cov (, ) covarâca de e ; Var, Var varâcas de e, respectvamete;, Somatóros dos Quadrados dos Desvos de e de, respectvamete; SPD Somatóro dos Produtos Cruzados de e. Correlação: Propredades Como tem uma ampltude de varação bem defda (- ρ ), é fácl de terpretar. É depedete do tamaho da amostra. É depedete das udades de medda de e de. É seramete afectado pela preseça de outlers ou valores extremos os dados. O coefcete de correlação ão dca que haja qualquer relação causa efeto etre as duas varáves. 9
Correlação: Teste da Sgfcâca O teste da sgfcâca do coefcete de correlação evolve duas hpóteses: H 0 : ρ 0 (ausêca de correlação) H : ρ 0 (preseça de correlação sgfcatva) O estatístco t de Studet calculado da forma segute é o crtéro do teste : t amostra A H 0 é rejetada quado: r. r t amostra t α ( ) Correlação: Exemplo Ilustratvo No decurso de um estudo sobre a qualdade do ar a zoa ode se ecotra um lago, fzeram-se medções do ph da água do lago (varável ), e avalou-se a qualdade do ar medate um ídce qualtatvo (varável ). O ídce vara de 0 a 00, sedo que valores mas elevados represetam íves mas graves de polução. Pretede-se aalsar o grau de assocação etre a duas varáves (α 0,05). 3 4 5 6 7 8 9 0 ph da água Ídce de qualdade do ar 4.5 40 4. 50 4.8 30 4.0 60 5.0 0 6.0 0 3.5 70 4.9 30 3. 85 6. 5 0
Correlação: Exemplo Ilustratvo x. ( 46,).( 40). SPD x 684,5 05,6 0 x ( 46,) 0,8 8,89 x 0 r SPD. 05,6 0,959 ( 8,89).( 5540) ( 40) 350 5540 0 t amostra ( r 0 0,959.. r ( 0, 959) 9,66 versus t 8) 860 0, 05, Decsão e Coclusão: Rejetar H 0 : ρ 0, e coclur que o ph da água do lago está egatva e sgfcatvamete correlacoada com o ídce de qualdade do ar.