Regressão liear simples Maria Virgiia P Dutra Eloae G Ramos Vaia Matos Foseca Pós Graduação em Saúde da Mulher e da Criaça IFF FIOCRUZ Baseado as aulas de M. Pagao e Gravreau e Geraldo Marcelo da Cuha Estima a reta que melhor represeta a relação etre duas variáveis uméricas, ambas com distribuição ormal. variável idepedete, explicativa variável depedete, resposta Dado que a relação é liear Estima o quato varia quado aumeta em 1 uidade. Permite predizer (ou estimar) o valor de para um valor específico de. Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II Os dois cojutos de dados possuem coeficietes de correlação próximos, pois os potos possuem a mesma dispersão em relação a reta. Porém as retas que melhor se ajustam são completamete diferetes. A melhor reta é aproximadamete a mesma A correlação é diferete R² = 0,96 R² = 0,77 Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 3 Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 4
Correlação: represeta apeas a dispersão dos potos em relação à melhor reta. Regressão liear: método de estimação da reta de melhor ajuste. Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 5 Estima os parâmetros da reta de melhor ajuste Uma reta qualquer é sempre defiida por uma equação da forma y = a + bx Parâmetros da reta a (itercepto) b (icliação) 1 10 8 6 4 0 0 1 3 4 5 Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 8
Na figura, a reta possui equação y = 1 + x Parâmetros da reta Itercepto: a = 1 Icliação: b = 11 10 9 8 7 6 5 4 3 1 0 0 1 3 4 5 Itercepto: valor de y quado x=0 Icliação: quato y varia quado x aumeta 1 uidade Qual o efeito de aumetar ou dimiuir a? -3-3 - -1 0 1 3 4 5 Como seria a reta com equação y = 3 + 4x? Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 9 Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 10 1.5 1 0.5 0-0.5-1 -1.5 - -.5 a a Qual o efeito de aumetar ou dimiuir b? 1.5 1 0.5 0-0.5-1 -1.5 - -.5-3 -3 - -1 0 1 3 4 5 Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 11 b b
Como estimar os parâmetros a e b? Sabemos que a população (criaças com peso de ascimeto <1500g): y = circuferêcia da cabeça (CC) y é aprox. ormalmete distribuída CC aumeta cosistetemete quado IG aumeta O aumeto parece seguir um padrão liear (gráfico de dispersão) Gostaríamos de saber qual o valor esperado de CC (y), dado que IG (x) possui um valor específico: µ y x Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 13 Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 14 Uma forma de quatificar essa relação é ajustar aos dados um modelo da forma µ y x = α + βx α e β são os parâmetros ou coeficietes da reta/do modelo a população Modela a relação etre x e y, a população, por uma reta µ y x = α + βx a partir de uma amostra. Os coeficietes α e β são estimados por a e b. Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 15 Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 16
x e y são ormalmete distribuídos e dado um valor de x qualquer, y cotiua possuido distribuição ormal. Liearidade A relação etre y e x é liear. Homocedasticidade A variâcia de y é costate para todos os valores de x: σ y x = costate. Idepedêcia A amostra é composta por N pares (x i,y i ) escolhidos aleatoriamete e idepedetes. Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 17 Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 18 x Se ρ=0 Sempre σ y x σ y σ y x = σ y A B ão ajuda a explicar Se ρ = 1 ou ρ = -1 σ y x = 0 Se ρ > 0 (ou ρ < 0) σ y x < σ y Se ρ 0 σ y x σ y explica totalmete Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 19 Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 0
Como estimar a reta de regressão? Como ecotrar α e β tais que y = α + βx é a reta que melhor represeta a relação liear etre x e y? Na população: y = α + βx Na amostra, para cada x i e y i : =a bx i y i = e i y i =a bx e i Circuferêcia da cabeça 4 6 8 30 3 34 Liha reta qualquer ŷ i = a + bx i (x i, ) e i =resíduo (x i, y i ) 4 6 8 30 3 34 Idade Gestacioal Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 1 Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II Em todos os elemetos da amostra: y 1 = a + bx 1 + e 1 y = a + bx + e y N = a + bx N + e N y i = + e i a estimador de α b estimador de β e erro ou distâcia vertical etre uma observação particular e a reta de regressão. Também é chamado de resíduo. Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 3 Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 4
A regressão liear pelo método dos míimos quadrados estima a reta que miimiza a soma dos quadrados dos resíduos e 1 e e 3 e 4 e 5 e 6 e 7 = e i Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 5 Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 6 Queremos miimizar e i = = a bx i Gauss mostrou que esse somatório é míimo quado b= x i x y e a= y b x x i x Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 7 x idade gestacioal (semaas) y circuferêcia da cabeça (cm) = 100 x i x y b= e a= y b x x i x b = 0,78 e a = 3,91 A reta que melhor estima a relação liear etre IG e CC é y=3,91 0,78x ou CC=3,91 0,78IG Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 8
y= y=3,91 0,78x ou CC=3,91 0,78IG Para cada aumeto de 1 semaa a IG, espera-se que, a média, a CC aumete 0,78cm. Qual o valor esperado da CC quado IG=6 semaas? CC=3,91 0,78 6=4,19cm 4 6 8 30 3 34 36 Idade Gestacioal (sem.) Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 9 Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 30 S x variabilidade de x S y variabilidade de y S xy variabilidade cojuta etre x e y b= x i x y = x i x S xy S x r= x i x y = S x S y x i x y S xy Alta correlação etre x e y e Sy >> S x Maior a icliação da reta b=r S y S x b=r S y S x outra forma de calcular b Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 31 Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 3
a e b são estimadores de α e β, calculados a partir de uma amostra. Para calcularmos seus itervalos de cofiaça ou coduzirmos testes de hipótese, precisamos dos erros-padrão. σ y x desvio padrão de y, dado que x assume um valor particular. Por suposição é costate. EP b = y x e EP a = y x 1 x x i x x i x EP depede de σ y x Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 33 x Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 34 σ y x É a distâcia média etre os valores observados de y e os valores estimados de y (ŷ), também chamado desvio padrão residual ou erro padrão residual, estimado por: Queremos coduzir um teste de hipótese para afirmar que β é sigificativamete diferete de β 0. H 0 : β = β 0 H A : β β 0 α = 0,05 s y x = = e i e 1 e e 3 e 4 e 5 e 6 e 7 = e i Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 35 t= b 0 EP b EP b = segue distr. = t com - graus de liberdade, ode: e s i y x x i x x i x Quato meor s y x, meor o erro padrão de b. Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 36
Geralmete estamos iteressados em rejeitar H 0 : β = 0 ou seja, a hipótese de que ão há relação liear etre x e y. H 0 : β = 0 H 0 : ρ = 0 pois b=r S y S x = = s y x EP b = s y x x i x = 1,5904 x i x =0,0631 H 0 : β = 0 H A : β 0 α = 0,05 t = b 0 EP b =0,8701 0,0631 e i =1,36 p 0,001 Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 37 Rejeitamos a hipótese ula de icliação igual a 0. Na população de bebês com baixo peso, há uma relação liear sigificativa etre circuferêcia da cabeça e idade gestacioal. Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 38 Para uma distribuição t com 98 graus de liberdade, aprox. 95% das observações situam-se etre -1,98 e +1,98. IC-95%: [b 1,98EP b ;b 1,98 EP b ] [0,7801 1,98 0,0631 ;0,7801 1,98 0,0631 ] [0,6564; 0,9038] IC95% ão iclui o zero Aálise de resíduos Coeficiete de determiação Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 39 Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 40
ŷ i = a + bx i e i = y i ŷ i Gráfico de resíduos é um gráfico de dispersão de e versus ŷ. Detectar valores extremos. Verificar o pressuposto da homocedasticidade em s y x. Verificar o pressuposto da liearidade. ŷ i = a + bx i e i = y i ŷ i resíduo 8 6 4 0 - -4-6 0 4 6 8 30 3 y estimado GESTAGE HEADCIRC y estimado resíduo 9 7 6,54 0,46 31 9 8,1 0,9 33 30 9,66 0,34 31 8 8,1-0,1 30 9 7,3 1,68 5 3 3,4-0,4 7 4,98 -,98 9 6 6,54-0,54 8 7 5,76 1,4 9 5 6,54-1,54 6 3 4, -1, 30 6 7,3-1,3 9 7 6,54 0,46 9 7 6,54 0,46 9 6 6,54-0,54 9 7 6,54 0,46 9 6 6,54-0,54 33 9 9,66-0,66 33 8 9,66-1,66 Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 41 Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 4 Valores atípicos Heterocedasticidade O quato o modelo de regressão liear se ajusta bem aos dados? r : Proporção da variabilidade de y explicada pela regressão liear de y sobre x. Não liearidade Modelo adequado e N(0,σ) y x = 1 y s y x = 1 r s y r = s y s y x s y Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 43 Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 44
No exemplo: r = 0,78, logo r = 0,61 y = y O modelo de regressão liear explica 61% da variabilidade de y. A idade gestacioal explica liearmete 61% da variabilidade da circuferêcia da cabeça. Perímetro Cefálico 4 6 8 30 3 34 y i y y i y ss y =ss y x ss y SS total =SS residual SS regressão y i y 4 6 8 30 x i 3 34 Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 45 Idade Gestacioal Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 46 MS total = SS total 1 y = y ss y =ss y x ss y SS total =SS residual SS regressão MS residual = SS residual F 1, = MS regressão MS residual MS regressão = SS regressão 1 De fato, é possível provar que F 1,ν = t ν. No exemplo: MS residual = SS residual = 47,88 =,53 98 MS regressão = SS regressão =386,87 1 F 1, = MS regressão = 386,87 =15,9 p 0,001 MS residual,53 Pode ser usado para testar H 0 : MS regressão = MS residual. Equivale a testar H 0 : β = 0, utilizado o teste t com - graus de liberdade. Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 47 Ateriormete havíamos ecotrado t - = 1,37 que, elevado ao quadrado resulta em 153. Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 48
Comado Liear Regressio Liear Regressio Variable Coefficiet Std Error F-test P-Value gestage 0.780 0.063 15.9474 0.000000 CONSTANT 3.914 1.89 4.5793 0.034868 Correlatio Coefficiet: r^= 0.61 Source df Sum Squares Mea Square F-stat Regressio 1 386.867 386.867 15.947 Residuals 98 47.883.59 Total 99 634.750 Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 49 Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 50