Análse de Regressão método estatístco que utlza relação entre duas ou mas varáves de modo que uma varável pode ser estmada (ou predta) a partr da outra ou das outras Neter, J. et al. Appled Lnear Statstcal Models. McGraw Hll,
A presença ou ausênca de relação lnear pode ser nvestgada sob dos pontos de vsta: a) Quantfcando a força dessa relação: correlação. b) Explctando a forma dessa relação: regressão. Representação gráfca de duas varáves quanttatvas: Dagrama de dspersão
Relação funconal x Correlação As varáves podem possur dos tpos de relações: Funconal: a relação é expressa por uma fórmula matemátca: = f() Ex: relação entre o perímetro (P) e o lado de um quadrado (L) Perímetro 150 100 50 0 P = 4 L y = 4x 0 10 20 30 40 Lado do Quadrado Todos os pontos caem na curva da relação funconal
Correlação: não há uma relação perfeta como no caso da relação funconal. As observações em geral não caem exatamente na curva da relação. Ex: relação entre o peso (P) e a altura (A) de uma pessoa Peso (kg 100 95 90 85 80 75 70 65 60 55 50 150 160 170 180 190 Altura (cm) A exstênca de uma relação estatístca entre a varável dependente e a varável ndependente não mplca que dependa de, ou que exsta uma relação de causa-efeto entre e.
Exemplo 1: Um pscólogo está nvestgando a relação entre o tempo que um ndvíduo leva para reagr a um estímulo vsual () com o sexo (W), dade () e acudade vsual (Z, medda em porcentagem). 130 120 110 100 90 20 30 40 Correlação entre e = 0,768
Análse de regressão: metodologa estatístca que estuda (modela) a relação entre duas ou mas varáves 1. Tempo de reação varável dependente ou resposta dade varável ndependente modelo de regressão lnear smples 2. Tempo de reação varável dependente ou resposta sexo, dade, acudade vsual var. ndependentes modelo de regressão lnear múltpla
Medda de Assocação r = 0,9 r = 0,3 r = 0 Coefcente de Correlação (de Pearson) mede o grau de relação lnear entre e r = - 0,9
Coefcente de Correlação Interpretações errôneas dos coefcentes de correlação 1. Um alto coefcente de correlação nem sempre ndca que a equação de regressão estmada está bem ajustada aos dados.?? Σ Σ = 1 + y y ᄈ 0 = + x x ᄈ 0 1
Coefcente de Correlação Interpretações errôneas dos coefcentes de correlação 1. Um coefcente de correlação próxmo de zero nem sempre ndca que e não são relaconadas. A B
Análse de Regressão 1. Determnar como duas ou mas varáves se relaconam. 2. Estmar a função que determna a relação entre as varáves. 3. Usar a equação ajustada para prever valores da varável dependente. Regressão Lnear Smples = β 0 + β 1 + ξ ( ξ ) = ( ξ ) E 0 Var = σ ( ξ ξ j ) 2 COV, = 0 ᄈ j
Modelo de Regressão Lnear Smples ξ E() = β 0 + β 1 β 1 Coefcente angular β 0 Erro Aleatóro = β + β + ξ 0 1 Varável Dependente Varável Independente
Estmação dos parâmetros Em geral não se conhece os valores de β 0, β 1 e σ 2 Eles podem ser estmados através de dados obtdos por amostras. O método utlzado na estmação dos parâmetros é o método dos mínmos quadrados, o qual consdera os desvos dos de seu valor esperado: ξ = (β 0 + β 1 ) Em partcular, o método dos mínmos quadrados requer que consderemos a soma dos n desvos quadrados, denotado por Q: Q n [ β 0 β1 = 1 = ] 2
Estmação dos parâmetros Estmação dos parâmetros De acordo com o método dos mínmos quadrados, os estmadores de β 0 e β 1 são aqueles, denotados por b 0 e b 1, que tornam mínmo o valor de Q. Dervando ] [ 2 1 0 1 0 n Q β β β = = n Q ] [ 2 1 0 1 1 β β β = = 2 1 1 1 ) ( ) )( ( b n n = = = b b 1 0 = e b b E ˆ ˆ ) ( 1 0 1 0 = + = + = β β (resíduo) Igualando-se essas equações a zero obtém-se os valores b 0 e b 1 que mnmzam Q:
Propredades da equação de regressão 1) n = 1 e = 0 n 2) é mínma = 1 2 e 3) n = 1 n = ˆ = 1 4) A reta de regressão passa sempre pelo ponto (, )
No exemplo: n=20, Σy = 2150, Σx =600, Σx y =65400, Σx 2 =19000 ˆ 65400 20.30.107,5 β = = 0,90 2 11000 20.30 α ˆ = 107,50 0,90.30 = 80,50 ŷ = 80,50 + 0,90x Interpretação: Para um aumento de 1 ano na dade, o tempo médo de reação aumenta 0,90. Podemos prever, por exemplo, o tempo médo de reação para pessoas de 20 anos ŷ (20) = 80,50 + 0,90.20 = 98, 50
ŷ (25) = 103 ŷ(30) = 107,50 ŷ(35) = 112 ŷ(40) = 116,5 Vantagem: permte estmar o tempo médo de reação para dades não observadas ŷ (33) = 80,50 + 0,90.33 = 110,20 130 Regresson Plot = 80,5 + 0,9 R-Sq = 59,0 % 120 110 100 90 20 30 40
Dagrama de dspersão Podemos notar que, conforme aumenta a taxa de analfabetsmo (), a taxa de crmnaldade () tende a aumentar. Nota-se também uma tendênca lnear. Correlação entre e : 0,702
a reta ajustada é: ^ : : valor predto para a taxa de crmnaldade taxa de analfabetsmo Interpretação de b: Para um aumento de uma undade na taxa do analfabetsmo (), a taxa de crmnaldade () aumenta, em méda, 4,257 undades.
Grafcamente, temos Como desenhar a reta no gráfco?
Exemplo 3: expectatva de vda e analfabetsmo Consdere as duas varáves observadas em 50 estados norte-amercanos. : expectatva de vda : taxa de analfabetsmo
Dagrama de dspersão Podemos notar que, conforme aumenta a taxa de analfabetsmo (), a expectatva de vda () tende a dmnur. Nota-se também uma tendênca lnear. Correlação entre e :- 0,59
a reta ajustada é: ^ : : valor predto para a expectatva de vda taxa de analfabetsmo Interpretação de b: Para um aumento de uma undade na taxa do analfabetsmo (), a expectatva de vda () dmnu, em méda, 1,296 anos.
Grafcamente, temos
Resíduos Resíduo é a dferença entre o valor observado e o valor ajustado pela reta, sto é, - ^ Para verfcar a adequação do ajuste deve-se fazer uma análse dos resíduos.
Análse de Resíduos ˆ = 0,9983 R 2 = 0,9496 + 0,1306 10 8 = 0,9983 + 0,1306 R 2 = 0,9496 1.5 1.0 6 4 Resíduos 0.5 0.0-0.5 2-1.0 0 0 2 4 6 8 10-1.5 0 2 4 6 8 10 Resíduo = e = ˆ
Análse de Resíduos 10 8 6 4 2 ˆ = 0,9983 + 0,1306 R 2 = R0,9496 2 = 0,9496 Resíduos Padronzado 2.0 1.5 1.0 0.5 0.0-0.5-1.0-1.5 0 0 2 4 6 8 10-2.0 0 2 4 6 8 10 Resíduo Padronzado = e MQRes
Análse de Resíduos Resíduos Padronzados 2.0 1.5 1.0 0.5 0.0-0.5-1.0-1.5-2.0 deal Resíduos Padronzados -2.0 0 2 4 6 8 10 0 2 4 6 8 10 Resíduos Padronzados 2.0 1.5 1.0 0.5 0.0-0.5-1.0-1.5-2.0 2.0 1.5 1.0 0.5 0.0-0.5-1.0-1.5 outler 0 2 4 6 8 10 σ 2 não constante Resíduos Padronzados 2.0 1.5 1.0 0.5 0.0-0.5-1.0-1.5-2.0 Resíduos Padronzados 2.0 1.5 1.0 0.5 0.0-0.5-1.0-1.5-2.0 não ndependênca 0 2 4 6 8 10 tempo não lneardade 0 2 4 6 8 10