Modelo de Regressão Múltipla
Modelo de Regressão Linear Simples Última aula: Y = α + βx + i i ε i Y é a variável resposta; X é a variável independente; ε representa o erro. 2
Modelo Clássico de Regressão Múltipla Modelo clássico de regressão é definido por: (i) n respostas y i independentes, tendo cada y i uma distribuição especificada de média μ i = E(y i ) e variância σ 2 constante. (ii) a média μ i é expressa de forma linear por μ i = x it β, onde x it éum vetor xp com valores de p variáveis explicativas relacionadas a i-ésima resposta y i e β éum vetor px de parâmetros a serem estimados. 3 y L = μ + ε = β0 + βx + + β p x p 44 44 24444 3 μ + ε
Modelo Clássico de Regressão (MCR) Em geral adota-se a hipótese de aditividade entre y e μ, isto é, y = μ + ε, onde ε é um vetor de erros com E(ε) = 0 e Var(ε) = σ 2. A estimação de β pode ser feita pelo Método dos Mínimos Quadrados, que não requer qualquer hipótese sobre a distribuição das componentes do vetor y, e consiste em minimizar 4 n i= 2 2 ( yi μi ) = ( ε i ) = n i= SQE( β )
5 MCR - Estimação O modelo clássico de regressão é representado em nota notação matricial ão matricial por y (nx) = X (nxp) β (px) + ε (nx) () X = matriz modelo, suposta de posto p; = y n y y y M 2 = 0 β p β β β M = 2 2 np n p p x x x x x x X L M O M M L L = ε n ε ε ε M 2
MCR - Estimação Para estimar β minimiza-se SQE (β) em relação β. Solução de um sistema de p equações lineares dadas por 6 SQE( β ) β r = 0, r = 0,..., p. Em notação matricial o sistema é expresso por X T Xβ = X T y
MCR - Estimação Essas equações lineares são conhecidas como equações normais. Se a matriz X tem posto completo, então X T X é inversível e, portanto, a solução do sistema de equações normais é única. A solução corresponde ao estimador de mínimos m quadrados (EMQ) de β dado por ˆ T β = ( X X ) X T y (2) 7
MCR - Estimação O EMQ em (2), segundo o modelo (), tem as seguintes propriedades: (i) βˆ minimiza i ε i2, independente da distribuição proposta para os erros. (entretanto a normalidade ser (ii) βˆ (entretanto a normalidade será necessária para realizarmos inferência sobre os parâmetros β). βˆ as componentes do vetor são funções lineares das observações e são estimadores nãoviesados de menor variância dos parâmetros em β. 8
MCR - Estimação A soma de quadrados dos resíduos (SQR) mede a discrepância entre o vetor y e o vetor de valores ˆ μ = X ˆ β ajustados, sendo expresso por: SQR = T SQE( ˆ) β = ( y X ˆ) β ( y X ˆ) β Assim, o vetor de erros não observados ε = y - Xβ é estimado pelo vetor de resíduos r, dado por r = y ˆ μ = y X ˆ. β (3) 9
Propriedades do EMQ e dos Resíduos As propriedades abaixo são baseadas apenas nas duas hipóteses básicas atribuídas aos erros: E(ε)=0 e Cov(ε) = σ 2 I. (a) O EMQ é não-viesado. ( ); (b) βˆ E( ˆ) β = A covariância do EMQ é expressa por Cov( ˆ) β OBS: Os elementos da diagonal são as variâncias das EMQ de β e, portanto representam a precisão das estimativas. βˆ T = σ ( X X ) 2 β (4) 0
Propriedades do EMQ e dos Resíduos (c) Um estimador não-viesado de σ 2 édado por σ ˆ 2 = ( y T X ˆ) β ( y n p X ˆ) β (5) (d) Esperança e Covariância do vetor de Resíduos E(r) = 0; Cov(r) = σ 2 (I-H) => Cov(r i, r j ) = σ 2 (-h ij ). OBS: Assim, embora os erros aleatórios ε i sejam homocedásticos, o mesmo não ocorrem com os resíduos, cujas variâncias dependem dos elementos da diagonal da matriz de projeção H = X(X T X) - X T.
Modelo Normal Linear A especificação de uma distribuição para os erros aleatórios faz-se necessária para determinarmos a distribuição de probabilidade das EMQ. A suposição de normalidade dos erros é a mais adotada e considera que ε,..., ε n em () são independentes e tem distribuição normal N(0, σ 2 ). 2
Modelo Normal Linear Segundo a hipótese de normalidade dos erros, temos as seguintes propriedades: (i) y N n (Xβ, σ 2 I). (ii) N p (β, σ 2 (X T X) - ). βˆ A média e a estrutura de covariância de foram obtidas em (ii). A normalidade decorre do fato de ser uma função linear do vetor y, cuja distribuição énormal βˆ 3
Análise de Variância (ANOVA) Técnica mais usada para verificar a adequação do ajuste do modelo de regressão a um conjunto de dados. Baseia-se na seguinte identidade n i= n 2 2 ( y y) = ( ˆ μ y) + ( y ˆ μ ) i i= i n i= i i 2 Variabilidade Total (SQT) = Variabilidade Explicada (SQE) + Soma de Quadrados Residual (SQR) 4
ANOVA O coeficiente de correlação múltipla m de Pearson (ou coeficiente de determinação ão) R 2 expressa o quanto o modelo explica a variabilidade total da variável y. R 2 = SQE SQT = n i= n i= ( ˆ μ ( y i i y) y) 2 2 = Variabilidade Explicada (SQE) Variabilidade Total (SQT) 5
ANOVA R 2 ( ajustado) = SQE /( n SQT /( n p) ) 6
ANOVA CUIDADO: Alguns pesquisadores se baseiam erroneamente apenas no valor de R 2 para escolher o melhor modelo. Tão importante quanto ter um R 2 próximo a, é que a estimativa de σ 2 também seja pequena, pois os intervalos de confiança para os parâmetros de interesse são proporcionais a σ. 7
Tabela ANOVA A tabela da ANOVA é usada para testar a adequação global do modelo de regressão y (nx) = X (nxp) β (px) + ε (nx) Efeito Soma de Quadrados GL Média de Quadrados Estatística Regr. SQE p- MQE=SQE/(p-) F = MQE/MQR Residual SQR n-p MQR=SQR/(n-p) Total SQT n- 8
Teste F - Adequação Global Hipóteses: H 0 : β = β 2 =... = β p = 0 H : β 0 ou β 2 0 ou... ou β p 0. (pelo menos um) Estatística do Teste F = MQE/MQR Se F > F p-, n-p (α) rejeita H 0 => o efeito global de pelo menos algumas variáveis presentes na matriz X explica a variabilidade de y. 9
Teste F - Adequação Global A estatística do teste F representa o quociente entre SQE e SQR que têm distribuição χ 2, pelos respectivos g.l. Por isso, temos que F ~ F p-, n-p (α), que representa o valor de uma distribuição F-Snedecor com p- e n-p graus de liberdade, ao nível de significância α 20
Seleção das Variáveis Explicativas Teste t O Teste F permite apenas concluir que algumas variáveis explicativas são realmente importantes (mas não sabemos quais!! ). O Teste t permite selecionar as variáveis independentes (explicativas) que são significativas para o modelo. 2
Seleção das Variáveis Explicativas Teste t Eliminar variáveis que tem pouca ou nenhuma contribuição na variabilidade da variável dependente y. Hipóteses: H 0 : β r = 0 H : β r 0, r = 0,..., p 22
Seleção das Variáveis Explicativas Teste t Estatística do Teste T r = σˆ ˆ β r v rr Se T r > t n-p (α), rejeita H 0 => a variável independente x r é significativa para explicar a variabilidade da resposta y e deve permanecer no modelo. 23
Seleção das Variáveis Explicativas Teste t T r Note que = ˆ σ ˆ β r v rr ˆ β r 2 ˆ σ 2 ~ N( β, σ v ), onde v é o elemento (r,r) da diagonal de (X Note que a estatística do teste T r representa o quociente uma distribuição Normal-Padrão pela raiz quadrada de uma distribuição χ 2 pelo respectivo g.l. Por isso T r ~ t n-p (α), representa o valor de uma distribuição t-student com n-p graus de liberdade, ao nível de significância α. r ~ ( n p) rr χ 2 n p rr T X ) 24
Exemplo Objetivo: estimar o consumo de combustível nos estados americanos; Variável dependente (y): Cons = consumo de gasolina (c/gl) Variáveis independentes (X) Taxa = valor do imposto estadual; Rend = renda média em US$; Rodov = extensão da malha rodoviária estadual; Licen = % da população habilitada a dirigir. 25
Exemplo - BD Base de Dados Consumo de Combustível nos estados americanos 26
Exemplo: Ajuste (p) 27 Regra do p-value (p) Se p < α, rejeita H 0 ao nível de significância α%
Exemplo: Ajuste (p2) 28 Regra do p-value (p) Se p < α, rejeita H 0 ao nível de significância α%
Exemplo: Ajuste (p3) 29 Regra do p-value (p) Se p < α, rejeita H 0 ao nível de significância α%
Exemplo: Ajuste (p4) 30 Regra do p-value (p) Se p < α, rejeita H 0 ao nível de significância α%
Predição Um dos objetivos da análise de regressão Para um determinado vetor de valores x = (, x0, x02, K, x0 T 0 p de X, queremos prever o valor y 0 que deverá ser assumido pela variável resposta Y. ) ˆ ˆ ˆ ˆ T y0 = x0 β = β0 + βx0 + β2x02 + K+ β px0 p ˆ ˆ 3
Predição Um intervalo com 00(-α)% de confiança para o valor futuro y 0 édado por 2 T T IC[( α)%, y ] ˆ ˆ 0 = y0 ± tα / 2, n p σ ( + x0 ( X X ) x0 ) 32