Modelo de Regressão Múltipla

Documentos relacionados
Aula 2 Uma breve revisão sobre modelos lineares

Modelos de Regressão Linear Simples - parte III

Ralph S. Silva

Estatística - Análise de Regressão Linear Simples. Professor José Alberto - (11) sosestatistica.com.br

REGRESSÃO LINEAR Parte I. Flávia F. Feitosa

Análise de Regressão Linear Simples e

Análise de regressão linear simples. Diagrama de dispersão

PREVISÃO. Prever o que irá. acontecer. boas decisões com impacto no futuro. Informação disponível. -quantitativa: dados.

Correlação e Regressão

Capítulo 9 - Regressão Linear Simples (RLS): Notas breves

Prof. Lorí Viali, Dr.

Regressão linear simples

Análise Multivariada Aplicada à Contabilidade

ECONOMETRIA. Prof. Patricia Maria Bortolon, D. Sc.

AGOSTO 2017 INTERPRETAÇÃO DE RESULTADOS ESTATÍSTICOS EM MODELOS DE REGRESSÃO MÚLTIPLA

Capítulo 9 - Regressão Linear Simples (RLS): Notas breves

Regressão Linear Simples

Correlação e Regressão Linear

Análise de Regressão Linear Múltipla III

Modelos de Regressão Múltipla - Parte I

ECONOMETRIA. Prof. Danilo Monte-Mor

Esse material foi extraído de Barbetta (2007 cap 13)

Análise de Regressão Prof. MSc. Danilo Scorzoni Ré FMU Estatística Aplicada

Transformações e Ponderação para corrigir violações do modelo

Teste de hipótese de variância e Análise de Variância (ANOVA)

Métodos Numéricos e Estatísticos Parte II-Métodos Estatísticos

CORRELAÇÃO E REGRESSÃO

AULA 8 - MQO em regressão múltipla:

Econometria. Econometria MQO MQO. Resíduos. Resíduos MQO. 1. Exemplo da técnica MQO. 2. Hipóteses do Modelo de RLM. 3.

REGRESSÃO E CORRELAÇÃO

Análise de Regressão EST036

EPGE / FGV MFEE - ECONOMETRIA. Monitoria 01-18/04/2008 (GABARITO)

Aula 2 Tópicos em Econometria I. Porque estudar econometria? Causalidade! Modelo de RLM Hipóteses

Teste de hipótese de variância e Análise de Variância (ANOVA)

Mestrado Profissionalizante em Finanças as e Economia Empresarial FGV / EPGE Prof. Eduardo Ribeiro Julho Setembro 2007

ANÁLISE DE REGRESSÃO

Métodos Quantitativos Aplicados

UNIVERSIDADE FEDERAL DA FRONTEIRA SUL Campus CERRO LARGO. PROJETO DE EXTENSÃO Software R: de dados utilizando um software livre.

Regressão. PRE-01 Probabilidade e Estatística Prof. Marcelo P. Corrêa IRN/Unifei

Conceitos Básicos Teste t Teste F. Teste de Hipóteses. Joel M. Corrêa da Rosa

Capacitação em R e RStudio PROJETO DE EXTENSÃO. Software R: capacitação em análise estatística de dados utilizando um software livre.

Tratamento Estatístico de Dados em Física Experimental

Contabilometria. Aula 9 Regressão Linear Inferências e Grau de Ajustamento

Análise de Regressão Linear Múltipla. Wooldridge, 2011 Capítulo 3 tradução da 4ª ed.

Modelos de Regressão Linear Simples - parte II

AULA 7 - Inferência em MQO: ICs e Testes de

Econometria. Econometria ( ) O modelo de regressão linear múltipla. O modelo de regressão linear múltipla. Aula 2-26/8/2010

Cap. 8 - Intervalos Estatísticos para uma Única Amostra

ECONOMETRIA. Prof. Patricia Maria Bortolon, D. Sc.

Variável dependente Variável independente Coeficiente de regressão Relação causa-efeito

Regressões: Simples e MúltiplaM. Prof. Dr. Luiz Paulo Fávero 1

Econometria I Lista 4: Inferência

Estatística Aplicada II. } Regressão Linear

PROBABILIDADE E ESTATÍSTICA INFERÊNCIA ESTATÍSTICA. Prof.ª Sheila Regina Oro Projeto Recursos Educacionais Digitais

DELINEAMENTO EM BLOCOS AO ACASO

Disciplina de Modelos Lineares Professora Ariane Ferreira

Análise da Regressão. Prof. Dr. Alberto Franke (48)

Capítulo 4 Inferência Estatística

Notas de Aulas Econometria I ** Eduardo P. Ribeiro, 2010 PARTE II

Modelos Lineares Generalizados - Estimação em Modelos Lineares Generalizados

AULA 4 - MQO Simples: Propriedades algébricas e Estatísticas

AULA 12 - Normalidade e Inferência em Regressão Múltipla - Parte 2

AULAS 14 E 15 Modelo de regressão simples

1 Que é Estatística?, 1. 2 Séries Estatísticas, 9. 3 Medidas Descritivas, 27

AULA 10 - MQO em regressão múltipla: Propriedades Estatísticas (Variância)

Probabilidade e Estatística. Estimação de Parâmetros Intervalo de Confiança

Cap. 13 Correlação e Regressão

Análise da Regressão múltipla: Inferência. Aula 4 6 de maio de 2013

Modelos Lineares Generalizados - Verificação do Ajuste do Modelo

MOQ 13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel

Delineamento e Análise Experimental Aula 4

Disciplina de Modelos Lineares

9 Correlação e Regressão. 9-1 Aspectos Gerais 9-2 Correlação 9-3 Regressão 9-4 Intervalos de Variação e Predição 9-5 Regressão Múltipla

Multicolinariedade e Autocorrelação

AULA 05 Teste de Hipótese

Associação entre duas variáveis

CORRELAÇÃO E REGRESSÃO

Exercícios Selecionados de Econometria para Concursos Públicos

Análise da Regressão múltipla: MQO Assintótico y = β 0 + β 1 x 1 + β x +... β k x k + u 3. Propriedades assintóticas Antes, propriedades sobre amostra

MOQ-14 PROJETO e ANÁLISE de EXPERIMENTOS. Professor: Rodrigo A. Scarpel

AULAS 14 E 15 Modelo de regressão simples

3 Modelo Matemático Definições Iniciais. Denote-se, em geral, o desvio-padrão do processo por σ = γσ 0, sendo σ 0 o

Nessa situação, a média dessa distribuição Normal (X ) é igual à média populacional, ou seja:

AULA 12 - Normalidade e Inferência em Regressão Múltipla - Parte 2

Transcrição:

Modelo de Regressão Múltipla

Modelo de Regressão Linear Simples Última aula: Y = α + βx + i i ε i Y é a variável resposta; X é a variável independente; ε representa o erro. 2

Modelo Clássico de Regressão Múltipla Modelo clássico de regressão é definido por: (i) n respostas y i independentes, tendo cada y i uma distribuição especificada de média μ i = E(y i ) e variância σ 2 constante. (ii) a média μ i é expressa de forma linear por μ i = x it β, onde x it éum vetor xp com valores de p variáveis explicativas relacionadas a i-ésima resposta y i e β éum vetor px de parâmetros a serem estimados. 3 y L = μ + ε = β0 + βx + + β p x p 44 44 24444 3 μ + ε

Modelo Clássico de Regressão (MCR) Em geral adota-se a hipótese de aditividade entre y e μ, isto é, y = μ + ε, onde ε é um vetor de erros com E(ε) = 0 e Var(ε) = σ 2. A estimação de β pode ser feita pelo Método dos Mínimos Quadrados, que não requer qualquer hipótese sobre a distribuição das componentes do vetor y, e consiste em minimizar 4 n i= 2 2 ( yi μi ) = ( ε i ) = n i= SQE( β )

5 MCR - Estimação O modelo clássico de regressão é representado em nota notação matricial ão matricial por y (nx) = X (nxp) β (px) + ε (nx) () X = matriz modelo, suposta de posto p; = y n y y y M 2 = 0 β p β β β M = 2 2 np n p p x x x x x x X L M O M M L L = ε n ε ε ε M 2

MCR - Estimação Para estimar β minimiza-se SQE (β) em relação β. Solução de um sistema de p equações lineares dadas por 6 SQE( β ) β r = 0, r = 0,..., p. Em notação matricial o sistema é expresso por X T Xβ = X T y

MCR - Estimação Essas equações lineares são conhecidas como equações normais. Se a matriz X tem posto completo, então X T X é inversível e, portanto, a solução do sistema de equações normais é única. A solução corresponde ao estimador de mínimos m quadrados (EMQ) de β dado por ˆ T β = ( X X ) X T y (2) 7

MCR - Estimação O EMQ em (2), segundo o modelo (), tem as seguintes propriedades: (i) βˆ minimiza i ε i2, independente da distribuição proposta para os erros. (entretanto a normalidade ser (ii) βˆ (entretanto a normalidade será necessária para realizarmos inferência sobre os parâmetros β). βˆ as componentes do vetor são funções lineares das observações e são estimadores nãoviesados de menor variância dos parâmetros em β. 8

MCR - Estimação A soma de quadrados dos resíduos (SQR) mede a discrepância entre o vetor y e o vetor de valores ˆ μ = X ˆ β ajustados, sendo expresso por: SQR = T SQE( ˆ) β = ( y X ˆ) β ( y X ˆ) β Assim, o vetor de erros não observados ε = y - Xβ é estimado pelo vetor de resíduos r, dado por r = y ˆ μ = y X ˆ. β (3) 9

Propriedades do EMQ e dos Resíduos As propriedades abaixo são baseadas apenas nas duas hipóteses básicas atribuídas aos erros: E(ε)=0 e Cov(ε) = σ 2 I. (a) O EMQ é não-viesado. ( ); (b) βˆ E( ˆ) β = A covariância do EMQ é expressa por Cov( ˆ) β OBS: Os elementos da diagonal são as variâncias das EMQ de β e, portanto representam a precisão das estimativas. βˆ T = σ ( X X ) 2 β (4) 0

Propriedades do EMQ e dos Resíduos (c) Um estimador não-viesado de σ 2 édado por σ ˆ 2 = ( y T X ˆ) β ( y n p X ˆ) β (5) (d) Esperança e Covariância do vetor de Resíduos E(r) = 0; Cov(r) = σ 2 (I-H) => Cov(r i, r j ) = σ 2 (-h ij ). OBS: Assim, embora os erros aleatórios ε i sejam homocedásticos, o mesmo não ocorrem com os resíduos, cujas variâncias dependem dos elementos da diagonal da matriz de projeção H = X(X T X) - X T.

Modelo Normal Linear A especificação de uma distribuição para os erros aleatórios faz-se necessária para determinarmos a distribuição de probabilidade das EMQ. A suposição de normalidade dos erros é a mais adotada e considera que ε,..., ε n em () são independentes e tem distribuição normal N(0, σ 2 ). 2

Modelo Normal Linear Segundo a hipótese de normalidade dos erros, temos as seguintes propriedades: (i) y N n (Xβ, σ 2 I). (ii) N p (β, σ 2 (X T X) - ). βˆ A média e a estrutura de covariância de foram obtidas em (ii). A normalidade decorre do fato de ser uma função linear do vetor y, cuja distribuição énormal βˆ 3

Análise de Variância (ANOVA) Técnica mais usada para verificar a adequação do ajuste do modelo de regressão a um conjunto de dados. Baseia-se na seguinte identidade n i= n 2 2 ( y y) = ( ˆ μ y) + ( y ˆ μ ) i i= i n i= i i 2 Variabilidade Total (SQT) = Variabilidade Explicada (SQE) + Soma de Quadrados Residual (SQR) 4

ANOVA O coeficiente de correlação múltipla m de Pearson (ou coeficiente de determinação ão) R 2 expressa o quanto o modelo explica a variabilidade total da variável y. R 2 = SQE SQT = n i= n i= ( ˆ μ ( y i i y) y) 2 2 = Variabilidade Explicada (SQE) Variabilidade Total (SQT) 5

ANOVA R 2 ( ajustado) = SQE /( n SQT /( n p) ) 6

ANOVA CUIDADO: Alguns pesquisadores se baseiam erroneamente apenas no valor de R 2 para escolher o melhor modelo. Tão importante quanto ter um R 2 próximo a, é que a estimativa de σ 2 também seja pequena, pois os intervalos de confiança para os parâmetros de interesse são proporcionais a σ. 7

Tabela ANOVA A tabela da ANOVA é usada para testar a adequação global do modelo de regressão y (nx) = X (nxp) β (px) + ε (nx) Efeito Soma de Quadrados GL Média de Quadrados Estatística Regr. SQE p- MQE=SQE/(p-) F = MQE/MQR Residual SQR n-p MQR=SQR/(n-p) Total SQT n- 8

Teste F - Adequação Global Hipóteses: H 0 : β = β 2 =... = β p = 0 H : β 0 ou β 2 0 ou... ou β p 0. (pelo menos um) Estatística do Teste F = MQE/MQR Se F > F p-, n-p (α) rejeita H 0 => o efeito global de pelo menos algumas variáveis presentes na matriz X explica a variabilidade de y. 9

Teste F - Adequação Global A estatística do teste F representa o quociente entre SQE e SQR que têm distribuição χ 2, pelos respectivos g.l. Por isso, temos que F ~ F p-, n-p (α), que representa o valor de uma distribuição F-Snedecor com p- e n-p graus de liberdade, ao nível de significância α 20

Seleção das Variáveis Explicativas Teste t O Teste F permite apenas concluir que algumas variáveis explicativas são realmente importantes (mas não sabemos quais!! ). O Teste t permite selecionar as variáveis independentes (explicativas) que são significativas para o modelo. 2

Seleção das Variáveis Explicativas Teste t Eliminar variáveis que tem pouca ou nenhuma contribuição na variabilidade da variável dependente y. Hipóteses: H 0 : β r = 0 H : β r 0, r = 0,..., p 22

Seleção das Variáveis Explicativas Teste t Estatística do Teste T r = σˆ ˆ β r v rr Se T r > t n-p (α), rejeita H 0 => a variável independente x r é significativa para explicar a variabilidade da resposta y e deve permanecer no modelo. 23

Seleção das Variáveis Explicativas Teste t T r Note que = ˆ σ ˆ β r v rr ˆ β r 2 ˆ σ 2 ~ N( β, σ v ), onde v é o elemento (r,r) da diagonal de (X Note que a estatística do teste T r representa o quociente uma distribuição Normal-Padrão pela raiz quadrada de uma distribuição χ 2 pelo respectivo g.l. Por isso T r ~ t n-p (α), representa o valor de uma distribuição t-student com n-p graus de liberdade, ao nível de significância α. r ~ ( n p) rr χ 2 n p rr T X ) 24

Exemplo Objetivo: estimar o consumo de combustível nos estados americanos; Variável dependente (y): Cons = consumo de gasolina (c/gl) Variáveis independentes (X) Taxa = valor do imposto estadual; Rend = renda média em US$; Rodov = extensão da malha rodoviária estadual; Licen = % da população habilitada a dirigir. 25

Exemplo - BD Base de Dados Consumo de Combustível nos estados americanos 26

Exemplo: Ajuste (p) 27 Regra do p-value (p) Se p < α, rejeita H 0 ao nível de significância α%

Exemplo: Ajuste (p2) 28 Regra do p-value (p) Se p < α, rejeita H 0 ao nível de significância α%

Exemplo: Ajuste (p3) 29 Regra do p-value (p) Se p < α, rejeita H 0 ao nível de significância α%

Exemplo: Ajuste (p4) 30 Regra do p-value (p) Se p < α, rejeita H 0 ao nível de significância α%

Predição Um dos objetivos da análise de regressão Para um determinado vetor de valores x = (, x0, x02, K, x0 T 0 p de X, queremos prever o valor y 0 que deverá ser assumido pela variável resposta Y. ) ˆ ˆ ˆ ˆ T y0 = x0 β = β0 + βx0 + β2x02 + K+ β px0 p ˆ ˆ 3

Predição Um intervalo com 00(-α)% de confiança para o valor futuro y 0 édado por 2 T T IC[( α)%, y ] ˆ ˆ 0 = y0 ± tα / 2, n p σ ( + x0 ( X X ) x0 ) 32