Modelos de Regressão Linear e Não Linear Dr. Walmes Marques Zeviani walmes@ufpr.br Departamento de Estatística - UFPR Laboratório de Estatística e Geoinformação (LEG)
O que é regressão?
História Francis Galton (1822 1911) era primo de Charles Darwin e tinha competências em medicina e matemática. Galton era fascinado pela biometria humana e herdabilidade. Inventou a indentificação pela impressão digital. Estudou dados de altura dos pais e filhos adultos (1886). Law of universal regression. Altura do filhos regrediam para a média. Com ajuda de Karl Pearson, ajustou a reta. A técnica recebeu o nome regressão. Média da altura dos filhos Média da altura dos pais Regressão para a média observações reta 1:1 ajuste Figura 1: A regressão para a média de Galton.
Motivação Estudar a associação entre uma variável y e um conjunto de variáveis x i, i 1. Fazer a previsão de y. estímulos x 1 x 2 x 3. x k Sistema y resposta
Idade, Conservação, Acabamento Localização, Acessos, Segurança, Entornos Área (m 2 ), Quartos, Garagem, Piscina, Jardim Valor de um imóvel Índices econômicos, IGPM Figura 2: Representação das variáveis relacionadas com o valor de venda de um imóvel.
Horas de sono, Alimentação, Horas de recreação Tipo de escola, Método de ensino Horas de estudo, Esportes, Música Rendimento escolar Escolaridade, renda e participação dos pais Figura 3: Representação das variáveis relacionadas com o rendimento escolar de uma criança.
Mais exemplos Tempo de uma substância no sangue: Concentração aplicada; Paciente (idade, sexo, pressão, hábitos). Produtividade de um pomar: Fertilizante (dose, tipo, frequência); Preparo do solo; Manejo de pragas e doenças; Poda e tratos culturais; Irrigação; Clima. Desempenho de time de futebol: Quantidade, intensidade e qualidade de treino; Nutrição e preparo físico dos jogadores; Entrozamento entre jogadores; Estratégia de jogo; Experiência dos jogadores e equipe; Condição do gramado; Apoio da torcida.
Forma genérica Y η(x) [Y x] Figura 4: Representação esquemática genérica de um modelo de regressão. x
Organização do modelo de regressão [Y x] 1 Distribuição Normal, Beta, Poisson, Binomial, Tweedie, Simplex,... 2 4 Quantidade Média, quantil, variância, parâmetro,... Função Linear, não linear, polinômial, suavizadora,... 3 Q(Y x) = η(x, θ) 5 6 7 Parâmetros Empíricos, interpretáveis. Preditoras Qualitativas e quantitativas. Figura 5: Representação esquemática da construção de um modelo de regressão.
Regressão Linear Simples E(Y x) Q(Y x) = η(x, θ) [Y x] Normal(µ,σ) θ 0 + θ 1 x x
Regressão Não Linear Q(Y x) = η(x, θ) E(Y x) [Y x] Normal(µ,σ) θ a x θ v + x x
Regressão Binomial E(Y x) Q(Y x) = η(x, θ) [Y x] Binomial(p, n) n 1 + exp{ (θ 0 + θ 1 x)} x
Regressão Poisson Q(Y x) = η(x, θ) E(Y x) [Y x] Poisson(λ) exp{θ 0 + θ 1 x} x
Regressão Não Linear com Variância Não Constante Q(Y x) = η(x, θ) E(Y x) [Y x] Normal(µ, σ) V(Y x) θ a x θ v + x x
Regressão Linear com Efeito Aleatório Q(Y x, a i ) = η(x, θ, a i ) E(Y x, a i ) [Y x, a i ] Normal(µ, σ) β 0 + β 1 x (β 0 + a i ) + β 1 x [a i ] Normal(0,σ a ) x
Especificação Regressão linear simples Resposta ou variável dependente [y] Intercepto [y] Preditora ou variável independente [x] Y = β 0 + β 1 x + ɛ Taxa [yx 1 ] Erro aleatório [y] E(ɛ) = 0, V(ɛ) = σ 2 E(Y x) = β 0 + β 1 x. V(Y x) = V(ɛ) = σ 2.
y: resposta 40 20 Componente determinístico Componente aleatório (ɛ) η(x) = β 0 + β 1 x 0 0 2 4 6 8 10 12 14 x: preditora
Especificação Regressão linear múltipla Preditoras ou variáveis independentes Resposta ou variável dependente Intercepto Y = β 0 + β 1 x 1 + β 2 x 2 + + β k x k + ɛ Erro aleatório E(ɛ) = 0, V(ɛ) = σ 2 Taxas E(Y x i, i = 1,..., k) = β 0 + β 1 x 1 + β 2 x 2 + + β k x k. V(Y x i, i = 1,..., k) = V(ɛ) = σ 2.
Representação matricial Y = β 0 + β 1 x 1 + β 2 x 2 + + β k x k + ɛ Y 1 Y 2. Y n n 1 Y = Xβ + ɛ 1 x 11... x 1k β 0 1 x 21... x 2k β 1 =....... +. 1 x n1... x nk n p (p = k + 1) β k p 1 ɛ 1 ɛ 2. ɛ n n 1
Estimação Critério de mínimos quadrados (ordinários) SSE(β) = n (y i x i β) 2 i=1 = (y Xβ) (y Xβ) = y Xβ SSE(β0, β1) ˆβ min SSE Estimador ˆβ = arg min SSE(β) β R p = (X X) 1 X y β 1 Figura 6: A superfície e mínimos quadrados. β 0
Geometria dos mínimos quadrados Otimizar: SSE(β) = (y Xβ) (y Xβ) = y y 2β X y + β X Xβ. Resolver o sistema: SSE β = 0 2X y + 2X X ˆβ = 0 X X ˆβ = X y ˆβ = (X X) 1 X y. y ȳ ȳ y C(1) y X ˆβ ŷ = X ˆβ C(X) Figura 7: A interpretação geométrica do problema de mínimos quadrados. ˆβ está no mínimo de SSE pois 2 SSE β β = X X é uma matriz positiva definida.
Estimação baseada na verossimilhança E(Y) = Xβ densidade x: preditora y: resposta
Se Y Normal(µ = Xβ, σ 2 = σ 2 ), então a log-verossimilhança é ll(β, σ) = n 2 log(2π) n 2 log(σ2 ) (y Xβ) (y Xβ) 2σ 2. (1) Os estimadores correspondem ao máximo da ll(θ), θ = (β, σ 2 ), ll(θ) θ = 0, ˆβ = (X X) 1 X y, ˆσ 2 = SSE n. (2)
Medidas de ajuste R 2 = 1 SSE(β) y ŷ = 1 SSE(β 0 ) y ȳ. R 2 adj = 1 n 1 n p (1 R2 ). n PRESS = (y ŷ i( i) ) 2, menor é melhor; i 1 Log-verossimilhança (maior é melhor) ll = n 2 log(2π) n 2 log( ˆσ2 ) y X ˆβ 2 ˆσ 2 = n 2 log(2π) n 2 log(sse/n) n 2, ˆσ2 = SSE/n = y X ˆβ /n. AIC = 2(p + 1) 2ll, menor é melhor; BIC = log(n)(p + 1) 2ll, menor é melhor;
Medidas de diagnóstico e influência Matriz de projeção ŷ = Hy, H = X(X X) 1 X, H é simétrica e indepotente. O posto de H é tr(h) = p. Alavancagem (leverage) Resíduos ordinários, V(ê) = σ 2 (I H), h i = H ii h = diag(h). ê i = y i ŷ i ê = y ŷ ê = y X ˆβ.
Resíduos padronizados (ou internamente studentizados), r i = êi s(ê i ) = ê i ˆσ 1 h i. Resíduos studentizados (ou externamente studentizados), t i = ˆσ 2 i = ê i s(ê i( i) ) = ê i ˆσ i 1 hi (n p) ˆσ 2 ê2 i 1 h i. (n 1) p
Distância de Cook DFfits D i = (ŷ ŷ i( i)) (ŷ ŷ i( i) ) p ˆσ 2 = 1 p h i (1 h i ) ê 2 i ˆσ 2 (1 h i ). dffits i = ŷi ŷ i( i) ˆσ i hi = t i ( hi 1 h i ) 1/2. DFbetas dbetas i = ˆβ i = ˆβ ˆβ ˆβ i ˆσ i diag((x X) 1 ) êi 1 h i (X X) 1 x i.
O quarteto de Anscombe data(anscombe) anscombe ## x1 x2 x3 x4 y1 y2 y3 y4 ## 1 10 10 10 8 8.04 9.14 7.46 6.58 ## 2 8 8 8 8 6.95 8.14 6.77 5.76 ## 3 13 13 13 8 7.58 8.74 12.74 7.71 ## 4 9 9 9 8 8.81 8.77 7.11 8.84 ## 5 11 11 11 8 8.33 9.26 7.81 8.47 ## 6 14 14 14 8 9.96 8.10 8.84 7.04 ## 7 6 6 6 8 7.24 6.13 6.08 5.25 ## 8 4 4 4 19 4.26 3.10 5.39 12.50 ## 9 12 12 12 8 10.84 9.13 8.15 5.56 ## 10 7 7 7 8 4.82 7.26 6.42 7.91 ## 11 5 5 5 8 5.68 4.74 5.73 6.89
5 10 15 Linear Lack of fit y 12 10 8 6 4 Outlier b0: 3.00 b1: 0.50 R²: 0.67 b0: 3.00 b1: 0.50 R²: 0.67 Leverage b0: 3.00 b1: 0.50 R²: 0.67 b0: 3.00 b1: 0.50 R²: 0.67 12 10 8 6 4 5 10 15 x
IC(Y) y IC( ˆµ) Figura 8: Bandas de confiança para ˆµ e de predição para Y. x
RC 1 α (β 0, β 1 ) t RC 1 α (β 0, β 1 ) t ˆβ 1 IC1 α(β1) B (pf) 1 2 ˆβ 1 IC1 α(β1) (pf) 1 2 A C D IC 1 α (β 0 ) IC 1 α (β 0 ) ˆβ 0 ˆβ 0 Figura 9: Região e intervalos de confiança para β.
Modelos de regressão não lineares Benefícios Baseados em teoria ou princípios que dão uma relação funcional mais específica entre y e x; Parâmetros são interpretáveis; São parsimoniosos; Podem ser feitas predições fora do domínio observado de x; Custos Requerem procedimentos iterativos de estimação; Métodos de inferência são aproximados;
Definição Linear nos parâmetros η(x, θ) = θ 0 + θ 1 x + θ 2 x 2. η θ 0 = 1, η θ 1 = x, η θ 2 = x 2. Não linear nos parâmetros η(x, θ) = θ a (1 exp{ θ e (x θ c )}). η θ a = 1 exp{ θ e (x θ c )} η θ e = θ a (θ c x) exp{ θ b (x θ c )} η θ c = θ a θ b exp{ θ b (x θ c )}.
Pontos característicos e formas A C E ASS MC ASS MND-CON PC PI PS-PI-PF 0.5 PF 0.5 ASI PO PON POH-PZ-PD PON AAC B D F PO PD-PO PC-PS PI PF 0.5 PF 0.5 PO ASI MD ASI PZ MNC-CVX CON PZ Figura 10: Funções não lineares com destaque para os pontos característicos e formas.
Determinação das unidades de medida (dimensionalidade) Modelo Michaelis-Menten y Resposta [y] y = θ ax θ v + x Assíntota [y] θ a η(x) Meia vida [x] Preditora [x] lim x η(x) = θ a. η(x = θ v ) = θ a /2. θ v x
Regressão Local LOESS: LOcal regression. Ajuste em subconjuntos localizados no domínio de x. Para cada ponto x i no domínio de x, um polinômio de grau baixo é ajustado. Observações no entorno de x i tem pesos que decrescem com a distância. A função peso mais usada é a tri-cubo: (1 x 3 ) 3 I( x < 1). Se polinômio de grau 0, corresponde à médias móveis. Sujeito à outliers. Requer dados densos para evitar ajustes locais. Computacionalmente intensivo. Difícil transferir resultados escritos do ajuste.
Splines Polinômios ajustados em subconjuntos disjuntos do domínio. Um spline é uma função polinomial por partes definida sobre os nós (knots): ξ 1 < ξ 2 <... < ξ k. As funções se unem sobre os nós. Os nós são colocados nos quantis = mesmo n em cada parte. Nós podem ser distribuidos de acordo com a forma da função.
Um spline de grau D com K é definido por D K S(x) = β 0 + + γ k ((x ξ k ) D I(x ξ k )). Com um D-polinômio, tem-se: d=1 k=1 A função S(x) é contínua. A S(x) possui D 1 derivadas. A D-ésima derivada é contínua sobre os nós. Natural splines Nas caudas usa-se polinômio de grau 1 (reta). Melhor para previsão fora do domínio observado. Isso as restrições de contínuidade para os nós do interior.
Smooth Splines São splines com n nós sobre o domínio de x. Normalmente usa-se 3-polinômio. Controle da suavidade por meio de penalização PSS = n (y i S(x i )) 2 + λ (S (x)) 2 dx. i=1 Com λ fixo, otimiza-se a posição dos nós. A escolha do melhor λ pode ser por validação cruzada.
Resumo Modelos suaves são bastante flexíveis. São mais sensíveis aos outliers. Não possuem equação. Podem depender de calibração do usuário.
Agradecimentos Comissão organizadora do Mgest. Participantes do Mgest. Colegas do LEG pelo incentivo e colaboração.