Modelos de Regressão Linear e Não Linear

Documentos relacionados
Aula 2 Uma breve revisão sobre modelos lineares

CE062c - GAMLSS. Silva, J.P; Taconeli, C.A. 09 de outubro, Silva, J.P; Taconeli, C.A. CE062c - GAMLSS 09 de outubro, / 42

Regressão Linear Simples

Modelos de Regressão Não Linear

Análise de Regressão EST036

REGRESSÃO LINEAR Parte I. Flávia F. Feitosa

Escola Superior de Agricultura Luiz de Queiroz Universidade de São Paulo

Análise de Regressão Prof. MSc. Danilo Scorzoni Ré FMU Estatística Aplicada

Modelos de regressão para dados correlacionados. Cibele Russo

Capítulo 9 - Regressão Linear Simples (RLS): Notas breves

Aula inaugural do curso Análise de Regressão

Modelos de Regressão Múltipla - Parte VIII

Métodos Numéricos e Estatísticos Parte II-Métodos Estatísticos

Modelo de Regressão Múltipla

Correlação e Regressão

Introdução ao modelo de Regressão Linear

Modelo g.l. SQ Retas concorrentes ,46 Retas paralelas ,22 Retas com intercepto comum ,49 Retas coincidentes ,23

MAE Planejamento e Pesquisa II

Grupo I. (a) A função de probabilidade marginal de X, P (X = x), é dada por

Análise de Regressão Linear Simples e

Modelo de regressão Beta

Modelos Lineares Generalizados - Análise de Resíduos

Modelos Lineares Generalizados - Verificação do Ajuste do Modelo

Ralph S. Silva

Teoria da Estimação. Fabricio Goecking Avelar. junho Universidade Federal de Alfenas - Instituto de Ciências Exatas

UNIVERSIDADE FEDERAL DO PARANÁ CURSO DE ESTATÍSTICA. Jayme Gomes dos Santos Junior Luciana Helena Kowalski

Correlação e Regressão

Capítulo 9 - Regressão Linear Simples (RLS): Notas breves

4 Modelos Lineares Generalizados

1 z 1 1 z 2. Z =. 1 z n

Modelos de Regressão Linear Simples - parte III

p( y θ ) depende de um parâmetro desconhecido θ.

Modelos Lineares Generalizados - Análise de Resíduos

Métodos Quantitativos para Avaliação de Políticas Públicas

Econometria. Econometria MQO MQO. Resíduos. Resíduos MQO. 1. Exemplo da técnica MQO. 2. Hipóteses do Modelo de RLM. 3.

Lista Regressão múltipla Análise de Regressão Prof. Michel H. Montoril

Análise de Regressão EST036

Modelos de Regressão Linear Simples - parte II

Regressão. PRE-01 Probabilidade e Estatística Prof. Marcelo P. Corrêa IRN/Unifei

Regressão linear simples

UNIVERSIDADE DE SÃO PAULO ESCOLA SUPERIOR DE AGRICULTURA LUIZ DE QUEIROZ DEPARTAMENTO DE CIÊNCIAS EXATAS

CONHECIMENTOS ESPECÍFICOS

Econometria. Econometria ( ) O modelo de regressão linear múltipla. O modelo de regressão linear múltipla. Aula 2-26/8/2010

Análise Multivariada Aplicada à Contabilidade

Exemplos Regressão Dados de Contagem

Modelos Lineares Generalizados - Introdução

Modelos Lineares Generalizados - Introdução

Análise de Regressão

Planejamento e análise de experimentos

ANÁLISE DE REGRESSÃO

Modelo de regressão estável aplicado a econometria

Regressão Linear - Parte I

Modelos de Regressão Linear Simples - Análise de Resíduos

Coeficiente de determinação R 2 no modelo de regressão linear normal

Planejamento e análise de experimentos

MOQ-14 PROJETO e ANÁLISE de EXPERIMENTOS. Professor: Rodrigo A. Scarpel

Estudar a relação entre duas variáveis quantitativas.

Modelos Lineares Generalizados - Estimação em Modelos Lineares Generalizados

Procedimento Complementar para Validação de Métodos Analíticos e Bioanalíticos usando Análise de Regressão Linear

ESTATÍSTICA COMPUTACIONAL

Modelos de regressão para dados correlacionados. Cibele Russo

RESPOSTAS - PROVA ESTATÍSTICA AGENTE PF 2018

Modelos de Regressão Linear Simples - Análise de Resíduos

CONHECIMENTOS ESPECÍFICOS

MODELOS DE REGRESSÃO PARA DADOS CONTÍNUOS ASSIMÉTRICOS

PREVISÃO. Prever o que irá. acontecer. boas decisões com impacto no futuro. Informação disponível. -quantitativa: dados.

Análise de regressão linear simples. Diagrama de dispersão

Universidade Federal de Lavras

AULA 09 Regressão. Ernesto F. L. Amaral. 17 de setembro de 2012

ANÁLISE DE SÉRIES TEMPORAIS

MOQ 13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel

CONHECIMENTOS ESPECÍFICOS

Análise de dados em Geociências

Transformações e Ponderação para corrigir violações do modelo

Notas de Aula Modelos Lineares I - GET00138

Aula 3 - Revisão de Probabilidade e Estatística: Esclarecimento de Dúvidas

AULA 8 - MQO em regressão múltipla:

Revisão de Modelos de regressão. Prof. Thais C O Fonseca - DME, UFRJ

Probabilidades e Estatística MEEC, LEIC-A, LEGM

Aula 2 Tópicos em Econometria I. Porque estudar econometria? Causalidade! Modelo de RLM Hipóteses

MOQ-14 PROJETO e ANÁLISE de EXPERIMENTOS. Professor: Rodrigo A. Scarpel

Correlação e Regressão Linear

Séries Temporais e Modelos Dinâmicos. Econometria. Marcelo C. Medeiros. Aula 9

Análise de Dados Categóricos

INTRODUÇÃO A ECONOMETRIA

AJUSTES DE MODELOS NÃO LINEARES PARA ALTURA DE CLONES DE EUCALYPTUS ADJUSTMENTS OF NON-LINEAR MODELS FOR HEIGHT OF EUCALYPTUS CLONES

UNIVERSIDADE FEDERAL DE UBERLÂNDIA FACULDADE DE CIÊNCIAS CONTÁBEIS PROGRAMA DE PÓS GRADUAÇÃO EM CIÊNCIAS CONTÁBEIS - PPGCC FICHA DE DISCIPLINA

Inferência Estatistica

Universidade Federal do Ceará Pós-Graduação em Modelagem e Métodos Quantitativos Mestrado Acadêmico na Área Interdisciplinar

Introdução Regressão linear Regressão de dados independentes Regressão não linear. Regressão. Susana Barbosa

Prof. Lorí Viali, Dr.

Probabilidades e Estatística - LEIC + LERCI + LEE 2 o semestre 2004/05

UNIVERSIDADE FEDERAL DA FRONTEIRA SUL Campus CERRO LARGO. PROJETO DE EXTENSÃO Software R: de dados utilizando um software livre.

Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência

CC-226 Aula 03 - Análise de Regressão

Técnicas computacionais em probabilidade e estatística II

Modelos de Regressão Múltipla - Parte I

Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência

AULA 1 - Modelos determinísticos vs Probabiĺısticos

Transcrição:

Modelos de Regressão Linear e Não Linear Dr. Walmes Marques Zeviani walmes@ufpr.br Departamento de Estatística - UFPR Laboratório de Estatística e Geoinformação (LEG)

O que é regressão?

História Francis Galton (1822 1911) era primo de Charles Darwin e tinha competências em medicina e matemática. Galton era fascinado pela biometria humana e herdabilidade. Inventou a indentificação pela impressão digital. Estudou dados de altura dos pais e filhos adultos (1886). Law of universal regression. Altura do filhos regrediam para a média. Com ajuda de Karl Pearson, ajustou a reta. A técnica recebeu o nome regressão. Média da altura dos filhos Média da altura dos pais Regressão para a média observações reta 1:1 ajuste Figura 1: A regressão para a média de Galton.

Motivação Estudar a associação entre uma variável y e um conjunto de variáveis x i, i 1. Fazer a previsão de y. estímulos x 1 x 2 x 3. x k Sistema y resposta

Idade, Conservação, Acabamento Localização, Acessos, Segurança, Entornos Área (m 2 ), Quartos, Garagem, Piscina, Jardim Valor de um imóvel Índices econômicos, IGPM Figura 2: Representação das variáveis relacionadas com o valor de venda de um imóvel.

Horas de sono, Alimentação, Horas de recreação Tipo de escola, Método de ensino Horas de estudo, Esportes, Música Rendimento escolar Escolaridade, renda e participação dos pais Figura 3: Representação das variáveis relacionadas com o rendimento escolar de uma criança.

Mais exemplos Tempo de uma substância no sangue: Concentração aplicada; Paciente (idade, sexo, pressão, hábitos). Produtividade de um pomar: Fertilizante (dose, tipo, frequência); Preparo do solo; Manejo de pragas e doenças; Poda e tratos culturais; Irrigação; Clima. Desempenho de time de futebol: Quantidade, intensidade e qualidade de treino; Nutrição e preparo físico dos jogadores; Entrozamento entre jogadores; Estratégia de jogo; Experiência dos jogadores e equipe; Condição do gramado; Apoio da torcida.

Forma genérica Y η(x) [Y x] Figura 4: Representação esquemática genérica de um modelo de regressão. x

Organização do modelo de regressão [Y x] 1 Distribuição Normal, Beta, Poisson, Binomial, Tweedie, Simplex,... 2 4 Quantidade Média, quantil, variância, parâmetro,... Função Linear, não linear, polinômial, suavizadora,... 3 Q(Y x) = η(x, θ) 5 6 7 Parâmetros Empíricos, interpretáveis. Preditoras Qualitativas e quantitativas. Figura 5: Representação esquemática da construção de um modelo de regressão.

Regressão Linear Simples E(Y x) Q(Y x) = η(x, θ) [Y x] Normal(µ,σ) θ 0 + θ 1 x x

Regressão Não Linear Q(Y x) = η(x, θ) E(Y x) [Y x] Normal(µ,σ) θ a x θ v + x x

Regressão Binomial E(Y x) Q(Y x) = η(x, θ) [Y x] Binomial(p, n) n 1 + exp{ (θ 0 + θ 1 x)} x

Regressão Poisson Q(Y x) = η(x, θ) E(Y x) [Y x] Poisson(λ) exp{θ 0 + θ 1 x} x

Regressão Não Linear com Variância Não Constante Q(Y x) = η(x, θ) E(Y x) [Y x] Normal(µ, σ) V(Y x) θ a x θ v + x x

Regressão Linear com Efeito Aleatório Q(Y x, a i ) = η(x, θ, a i ) E(Y x, a i ) [Y x, a i ] Normal(µ, σ) β 0 + β 1 x (β 0 + a i ) + β 1 x [a i ] Normal(0,σ a ) x

Especificação Regressão linear simples Resposta ou variável dependente [y] Intercepto [y] Preditora ou variável independente [x] Y = β 0 + β 1 x + ɛ Taxa [yx 1 ] Erro aleatório [y] E(ɛ) = 0, V(ɛ) = σ 2 E(Y x) = β 0 + β 1 x. V(Y x) = V(ɛ) = σ 2.

y: resposta 40 20 Componente determinístico Componente aleatório (ɛ) η(x) = β 0 + β 1 x 0 0 2 4 6 8 10 12 14 x: preditora

Especificação Regressão linear múltipla Preditoras ou variáveis independentes Resposta ou variável dependente Intercepto Y = β 0 + β 1 x 1 + β 2 x 2 + + β k x k + ɛ Erro aleatório E(ɛ) = 0, V(ɛ) = σ 2 Taxas E(Y x i, i = 1,..., k) = β 0 + β 1 x 1 + β 2 x 2 + + β k x k. V(Y x i, i = 1,..., k) = V(ɛ) = σ 2.

Representação matricial Y = β 0 + β 1 x 1 + β 2 x 2 + + β k x k + ɛ Y 1 Y 2. Y n n 1 Y = Xβ + ɛ 1 x 11... x 1k β 0 1 x 21... x 2k β 1 =....... +. 1 x n1... x nk n p (p = k + 1) β k p 1 ɛ 1 ɛ 2. ɛ n n 1

Estimação Critério de mínimos quadrados (ordinários) SSE(β) = n (y i x i β) 2 i=1 = (y Xβ) (y Xβ) = y Xβ SSE(β0, β1) ˆβ min SSE Estimador ˆβ = arg min SSE(β) β R p = (X X) 1 X y β 1 Figura 6: A superfície e mínimos quadrados. β 0

Geometria dos mínimos quadrados Otimizar: SSE(β) = (y Xβ) (y Xβ) = y y 2β X y + β X Xβ. Resolver o sistema: SSE β = 0 2X y + 2X X ˆβ = 0 X X ˆβ = X y ˆβ = (X X) 1 X y. y ȳ ȳ y C(1) y X ˆβ ŷ = X ˆβ C(X) Figura 7: A interpretação geométrica do problema de mínimos quadrados. ˆβ está no mínimo de SSE pois 2 SSE β β = X X é uma matriz positiva definida.

Estimação baseada na verossimilhança E(Y) = Xβ densidade x: preditora y: resposta

Se Y Normal(µ = Xβ, σ 2 = σ 2 ), então a log-verossimilhança é ll(β, σ) = n 2 log(2π) n 2 log(σ2 ) (y Xβ) (y Xβ) 2σ 2. (1) Os estimadores correspondem ao máximo da ll(θ), θ = (β, σ 2 ), ll(θ) θ = 0, ˆβ = (X X) 1 X y, ˆσ 2 = SSE n. (2)

Medidas de ajuste R 2 = 1 SSE(β) y ŷ = 1 SSE(β 0 ) y ȳ. R 2 adj = 1 n 1 n p (1 R2 ). n PRESS = (y ŷ i( i) ) 2, menor é melhor; i 1 Log-verossimilhança (maior é melhor) ll = n 2 log(2π) n 2 log( ˆσ2 ) y X ˆβ 2 ˆσ 2 = n 2 log(2π) n 2 log(sse/n) n 2, ˆσ2 = SSE/n = y X ˆβ /n. AIC = 2(p + 1) 2ll, menor é melhor; BIC = log(n)(p + 1) 2ll, menor é melhor;

Medidas de diagnóstico e influência Matriz de projeção ŷ = Hy, H = X(X X) 1 X, H é simétrica e indepotente. O posto de H é tr(h) = p. Alavancagem (leverage) Resíduos ordinários, V(ê) = σ 2 (I H), h i = H ii h = diag(h). ê i = y i ŷ i ê = y ŷ ê = y X ˆβ.

Resíduos padronizados (ou internamente studentizados), r i = êi s(ê i ) = ê i ˆσ 1 h i. Resíduos studentizados (ou externamente studentizados), t i = ˆσ 2 i = ê i s(ê i( i) ) = ê i ˆσ i 1 hi (n p) ˆσ 2 ê2 i 1 h i. (n 1) p

Distância de Cook DFfits D i = (ŷ ŷ i( i)) (ŷ ŷ i( i) ) p ˆσ 2 = 1 p h i (1 h i ) ê 2 i ˆσ 2 (1 h i ). dffits i = ŷi ŷ i( i) ˆσ i hi = t i ( hi 1 h i ) 1/2. DFbetas dbetas i = ˆβ i = ˆβ ˆβ ˆβ i ˆσ i diag((x X) 1 ) êi 1 h i (X X) 1 x i.

O quarteto de Anscombe data(anscombe) anscombe ## x1 x2 x3 x4 y1 y2 y3 y4 ## 1 10 10 10 8 8.04 9.14 7.46 6.58 ## 2 8 8 8 8 6.95 8.14 6.77 5.76 ## 3 13 13 13 8 7.58 8.74 12.74 7.71 ## 4 9 9 9 8 8.81 8.77 7.11 8.84 ## 5 11 11 11 8 8.33 9.26 7.81 8.47 ## 6 14 14 14 8 9.96 8.10 8.84 7.04 ## 7 6 6 6 8 7.24 6.13 6.08 5.25 ## 8 4 4 4 19 4.26 3.10 5.39 12.50 ## 9 12 12 12 8 10.84 9.13 8.15 5.56 ## 10 7 7 7 8 4.82 7.26 6.42 7.91 ## 11 5 5 5 8 5.68 4.74 5.73 6.89

5 10 15 Linear Lack of fit y 12 10 8 6 4 Outlier b0: 3.00 b1: 0.50 R²: 0.67 b0: 3.00 b1: 0.50 R²: 0.67 Leverage b0: 3.00 b1: 0.50 R²: 0.67 b0: 3.00 b1: 0.50 R²: 0.67 12 10 8 6 4 5 10 15 x

IC(Y) y IC( ˆµ) Figura 8: Bandas de confiança para ˆµ e de predição para Y. x

RC 1 α (β 0, β 1 ) t RC 1 α (β 0, β 1 ) t ˆβ 1 IC1 α(β1) B (pf) 1 2 ˆβ 1 IC1 α(β1) (pf) 1 2 A C D IC 1 α (β 0 ) IC 1 α (β 0 ) ˆβ 0 ˆβ 0 Figura 9: Região e intervalos de confiança para β.

Modelos de regressão não lineares Benefícios Baseados em teoria ou princípios que dão uma relação funcional mais específica entre y e x; Parâmetros são interpretáveis; São parsimoniosos; Podem ser feitas predições fora do domínio observado de x; Custos Requerem procedimentos iterativos de estimação; Métodos de inferência são aproximados;

Definição Linear nos parâmetros η(x, θ) = θ 0 + θ 1 x + θ 2 x 2. η θ 0 = 1, η θ 1 = x, η θ 2 = x 2. Não linear nos parâmetros η(x, θ) = θ a (1 exp{ θ e (x θ c )}). η θ a = 1 exp{ θ e (x θ c )} η θ e = θ a (θ c x) exp{ θ b (x θ c )} η θ c = θ a θ b exp{ θ b (x θ c )}.

Pontos característicos e formas A C E ASS MC ASS MND-CON PC PI PS-PI-PF 0.5 PF 0.5 ASI PO PON POH-PZ-PD PON AAC B D F PO PD-PO PC-PS PI PF 0.5 PF 0.5 PO ASI MD ASI PZ MNC-CVX CON PZ Figura 10: Funções não lineares com destaque para os pontos característicos e formas.

Determinação das unidades de medida (dimensionalidade) Modelo Michaelis-Menten y Resposta [y] y = θ ax θ v + x Assíntota [y] θ a η(x) Meia vida [x] Preditora [x] lim x η(x) = θ a. η(x = θ v ) = θ a /2. θ v x

Regressão Local LOESS: LOcal regression. Ajuste em subconjuntos localizados no domínio de x. Para cada ponto x i no domínio de x, um polinômio de grau baixo é ajustado. Observações no entorno de x i tem pesos que decrescem com a distância. A função peso mais usada é a tri-cubo: (1 x 3 ) 3 I( x < 1). Se polinômio de grau 0, corresponde à médias móveis. Sujeito à outliers. Requer dados densos para evitar ajustes locais. Computacionalmente intensivo. Difícil transferir resultados escritos do ajuste.

Splines Polinômios ajustados em subconjuntos disjuntos do domínio. Um spline é uma função polinomial por partes definida sobre os nós (knots): ξ 1 < ξ 2 <... < ξ k. As funções se unem sobre os nós. Os nós são colocados nos quantis = mesmo n em cada parte. Nós podem ser distribuidos de acordo com a forma da função.

Um spline de grau D com K é definido por D K S(x) = β 0 + + γ k ((x ξ k ) D I(x ξ k )). Com um D-polinômio, tem-se: d=1 k=1 A função S(x) é contínua. A S(x) possui D 1 derivadas. A D-ésima derivada é contínua sobre os nós. Natural splines Nas caudas usa-se polinômio de grau 1 (reta). Melhor para previsão fora do domínio observado. Isso as restrições de contínuidade para os nós do interior.

Smooth Splines São splines com n nós sobre o domínio de x. Normalmente usa-se 3-polinômio. Controle da suavidade por meio de penalização PSS = n (y i S(x i )) 2 + λ (S (x)) 2 dx. i=1 Com λ fixo, otimiza-se a posição dos nós. A escolha do melhor λ pode ser por validação cruzada.

Resumo Modelos suaves são bastante flexíveis. São mais sensíveis aos outliers. Não possuem equação. Podem depender de calibração do usuário.

Agradecimentos Comissão organizadora do Mgest. Participantes do Mgest. Colegas do LEG pelo incentivo e colaboração.