Regressão. PRE-01 Probabilidade e Estatística Prof. Marcelo P. Corrêa IRN/Unifei

Regressão PRE-01 Probabilidade e Estatística Prof. Marcelo P. Corrêa IRN/Unifei

Regressão Introdução Analisar a relação entre duas variáveis (x,y) através da equação (equação de regressão) e do gráfico (gráfico de regressão) que representa tal relação. Equação de regressão Relação entre: x: variável independente (preditora, explanatória) í: variável dependente (resposta) Hipóteses: Estudos de relações lineares Cada valor de x: y é uma variável aleatória com distribuição normal todas as distribuições de y têm a mesma variância a média da distribuição dos valores de y se localiza sobre a reta de regressão

Equação de Regressão y = mx + b yˆ = b + b x o 1 inclinação intercepto de y bo = y b1x b 1 = n ( xy) ( y)( y) ( n x ) ( x) b o b 1 estatísticas amostrais β o β 1 estatísticas populacionais y = β +β o 1 x

Exemplo x y x y xy x² y² 4 4 8 4 16 3 3 3 3 9 9 9 3 4 3 4 1 9 16 6 8 6 8 48 36 64 Σ 14 19 77 58 105 ( ) ( )( ) ( n x ) ( x) n xy x y 4(77) (14)(19) b1 = = = 1,1666666 4(58) (14) bo = y b1x bo = 4, 75 1,166667.3,5 = 0, 667 ŷ = 0,667 + 1,167x Estimativa de y=β o + β 1 x

Exemplo x y 4 3 3 3 4 6 8 ŷ = 0, 667 + 1,167x y 9 8 7 6 5 4 3 1 0 0 1 3 4 5 6 7 x

EXEMPLO DE CÁLCULO USANDO STATDISK

Utilizando a equação de regressão Prevendo y com base em x Se existe correlação linear: usar a equação de regressão Cuidados com a predição! Manter o valor da previsão de acordo com valores reais (no alcance da amostra). Usar a equação para a população da amostra. Verificar se a previsão é viável (datas, intervalos de valores, etc.) Se não existe correlação linear entre x e y: y (previsto) = y No 1 exemplo, podemos, portanto, prever qual seria y para x = 5. y = 0,667+1,1667(5) = 6,5

Exemplo y = 3,865 +,168x Avaliar a quantidade de hemoglobina para um paciente que apresente 5,5 unidades de medidas de glóbulos vermelhos y = 3,865 +,168(5,5) y = 15,789 A média dos dados amostrais de hemoglobina é de 13,906

Resumindo, para prever uma variável, temos: Calcular o valor de r Testar a hipótese: ρ = 0 sim Há correlação linear significante? (ρ = 0 é rejeitada?) não Predição pela média amostral da variável a ser prevista Predição pela Equação de Regressão

Outras ferramentas para análise Mudança marginal (b 1 ) : variação de uma variável em relação a variação, em uma unidade, da outra variável emparelhada. No exemplo em que b 1 =,168, temos que a taxa de hemoglobina vai aumentar de,168 para cada aumento de uma unidade de glóbulos vermelhos. Outliers e pontos influentes: Pontos que afetam fortemente o gráfico da reta de regressão 1.80 1.60 1.40 1.0 1.00 0.80 0.60 0.40 0.0 0.00 0.00 1.00.00 3.00 4.00 5.00 6.00 7.00 8.00 9.00

Outras ferramentas para análise Resíduo: Diferença entre o valor amostral observado (y) e o valor previsto pela equação de regressão (í). Resíduo = y í Propriedade dos mínimos quadrados: Soma dos quadrados dos rezíduos deve ser mínima y 9 8 7 6 5 4 3 1 0 0 1 3 4 5 6 7 x x y y^ resíduo 4 3.0 1.0 3 3 4. -1. 3 4 4. -0. 6 8 7.7 0.3 Σ(res ) =,5

Outras ferramentas para análise Desvio total: Distância entre o ponto (x,y) e a reta horizontal que passa pela média amostral. Desvio explicado: Distância entre o valor predito e a reta horizontal que passa pela média amostral. Desvio não-explicado: Resíduo. Distância entre o ponto (x,y) e a reta de regressão. Desvio total = Desvio explicado + Desvio não-explicado (y y) = (yˆ y) + (y y) ˆ Variação total = Variação explicada + Variação não-explicada (y y) = (yˆ y) + (y y) ˆ

Exemplo No nosso primeiro exemplo, tínhamos: Admitiremos uma correlação linear significativa Equação da reta de regressão: í = 1.1667x + 0.6667 A média dos valores de y é 4,75 Um dos pares de dados amostrais é (3, 4) Substituindo x = 3 na equação, temos o ponto 4,1666... que é um dos pontos sobre a reta de regressão. Desvio total: (y y) = 4 4,75 = 0,750 Desvio explicado: (yˆ y) = 4,1667 4,75 = 0,583 Desvio não-explicado: (y y) ˆ = 4 4,1667 = 0,1667

y 9 8 7 6 5 4 3 1 0 Desvio explicado Desvio não-explicado 0 1 3 4 5 6 7 x

Exemplo No nosso primeiro exemplo, tínhamos: Admitiremos uma correlação linear significativa Equação da reta de regressão: í = 1.1667x + 0.6667 A média dos valores de y é 4,75 Um dos pares de dados amostrais é (3, 4) Substituindo x = 3 na equação, temos o ponto 4,1666... que é um dos pontos sobre a reta de regressão. Variação total: (y y) = 14,8 Variação explicada: (y y) 1,3 Variação não-explicada: (y y),5 ˆ = ˆ =

Continuando nossa análise... Coeficiente de determinação (r ): Quantidade de variação em y, explicada pela reta de regressão. (ŷ (y y) r = y) = Variação explicada Variação total r indica a % da variação total em y que pode ser explicada pela relação linear (x,y). No caso do exemplo: r = 1,3/14,8 = 0,831. 83,1% da variação total em y que pode ser explicada pela relação linear (x,y).

Continuando nossa análise... Erro padrão da estimativa (s e ): Medida de como os pontos amostrais se afastam da reta de regressão. s e maiores: pontos mais afastados da reta de regressão e vice-versa s e (y ŷ) y b o y b 1 xy = = n n No nosso exemplo: 105 0, 667(19) 1,1667(77) se = = 1,1180 = 1,1 4

E mais... Intervalo de predição n(x x) o yˆ E < y < yˆ + E com E = tα se 1+ + n n x x 1 ( ) ( ) n graus de liberdade No exemplo: Vimos que quando x = 5 a melhor predição para y é 6,50. No entanto, diz-se que ao se usar valores mais precisos de y, bo e b1, obtemos 6,47. Usando um NS de 95% determine o quão preciso é o valor 6,47. Se α = 0,05 t α/ = 4,303 1 4(6,5 3,5) E = 4,303(1,1) 1+ + = 4,303.1,1.1,5 = 7, 904 4 458 14 ( ) ( )

Continuando... yˆ E< y< yˆ + E 6, 47 7, 904 < y < 6, 47 + 7, 904 0,76 < y < 13,70 Para x = 5, estamos 95% certos de que o valor de y está entre 0,76 e 13,70. Vejam bem que, como o tamanho amostral é muito pequeno, o intervalo de predição é grande! Portanto, o valor de y pode variar muito em relação ao valor predito 6,47

Regressão múltipla Relação linear entre uma variável dependente y e duas ou mais variáveis independentes (x 1, x,..., x k ) ŷ = bo + b1x1+ bx +... + bkxk b 1, b,..., b k estimativas amostrais de β 1, β,..., β k β 1, β,..., β k coeficientes das variáveis independentes x 1, x,..., x k β o valor de y quando todas as variáveis são nulas (parâmetro populacional) b o estatística amostral e estimativa de β o Extremamente complicado. Exige o uso de pacotes estatísticos!

Regressão múltipla Coeficiente de determinação múltipla (R ): Avalia o ajuste da equação de regressão múltipla aos dados amostrais. Coeficiente de determinação múltipla ajustado: R modificado para levar em conta o número de variáveis e o tamanho amostral. R ajustado = 1 (n 1) (1 R [n (k + 1)] ) k = número de variáveis independentes (x 1, x,..., x k ) n = tamanho da amostra Valor P: Medida da significância da Eq. Reg. Múltipla

Exemplo: Regressão Múltipla Dados Colesterol Idade Altura Peso 5 58 180 76 17 168 65 740 3 18 81 49 31 174 79 30 8 17 69 316 46 176 75 590 41 169 61 466 56 171 91 11 0 173 79 578 54 167 63 78 17 160 70 65 73 173 84 50 5 186 86 65 5 17 68 73 9 173 94 7 17 180 107 97 41 156 80 75 5 194 99 138 3 168 75 139 0 177 6 Um estudo mostra os seguintes dados coletados no posto de saúde de um bairro da cidade. É possível predizer o nível de colesterol a partir da idade, altura e peso?

Exemplo: Regressão Múltipla y = 010,8 + 6,45*idade 11,67*altura + 1,5*peso Será que o uso de outras variáveis poderíamos melhorar a predição? Por exemplo, o uso de batimentos cardíacos (pulsação) ou o IMC.