INTRODUÇÃO A ECONOMETRIA Análise de regressão e uso do Eviews
Introdução O modelo de regressão linear se utiliza para estudar a relação que existe entre uma variável dependente e uma ou várias variáveis independentes. A forma geral é y i = f(x i1, x i2,..., x ik ) + ɛ i = β 1 x i1 + β 2 x i2 +... + β k x ik + ɛ i, i = 1,..., n onde y é a variável dependente, x 1, x 2,..., x k são as variáveis independentes, k é o número de variáveis independentes no modelo e i denota as n observações da amostra.
Exemplo 01: Dados de Minutos Unidades 1, 2, 3, 4, 4, 5, 6, 6, 7, 8, 9, 9, 10, 10 Minutos 23,29,49,64,74,87,96,97,109,119,149,145,154,166 Fonte: Chatterjee e Price (1991).
Exemplo 01: Dados de Minutos y i = β 1 + β 2 x i + ɛ t ŷ i = 4.162 + 15.509x i
Exemplo 01: Dados de Minutos Dependent Variable: MINUTO Method: Least Squares Date: 11/21/03 Time: 09:10 Sample: 1 14 Included observations: 14 Variable Coefficient Std. Error t-statistic Prob. C 4.161654 3.355100 1.240396 0.2385 UNIDADE 15.50877 0.504981 30.71158 0.0000 R-squared 0.987437 Mean dependent var 97.21429 Adjusted R-squared 0.986390 S.D. dependent var 46.21718 S.E. of regression 5.391725 Akaike info criterion 6.339171 Sum squared resid 348.8484 Schwarz criterion 6.430465 Log likelihood -42.37420 F-statistic 943.2009 Durbin-Watson stat 2.051099 Prob(F-statistic) 0.000000
Coeficientes da Regressão Os coeficientes do modelo, β, são estimados usando o método de mínimos quadrados ordinários (OLS) através da fórmula ˆβ = (x x) 1 x y β j mede a contribuição marginal da variável independente x j na variação da variável dependente y, mantendo fixas todas as outras variáveis. No exemplo 01: ŷ i = 4.162 + 15.509x i Unidade Minuto Minuto Estimado Variação 1 23 19.670426 0.000000 2 29 35.179198 15.508772 3 49 50.687970 31.017544 4 64 66.196742 46.526316 4 74 66.196742 46.526316
Exemplo 02: Dados de Consumo Dados: Renda pessoal disponível e Gasto de consumo entre 1970-1979, em bilhões de dólares de 1972. Modelo: y t = β 1 + β 2 x t + ɛ t, onde: y = Consumo, e x = Renda t = 1970,..., 1979 Ano Renda Consumo 1970 751.6 672.1 1971 779.2 696.8 1972 810.3 737.1 1973 864.7 767.9 1974 857.5 762.8 1975 874.9 779.4 1976 906.8 823.1 1977 942.9 864.3 1978 988.8 903.2 1979 1015.7 927.6 Fonte: Greene 3 o ed - pag.195
Exemplo 02: Dados de Consumo Dados de Consumo, 1970-1979.
Exemplo 02: Dados de Consumo Dados de Consumo, 1970-1979. y t = β 1 + β 2 x t + ɛ t, ŷ t = 67.58 + 0.98x t
Exemplo 02: Dados de Consumo Dependent Variable: CONSUMO Method: Least Squares Date: 11/26/03 Time: 23:26 Sample: 1970 1979 Included observations: 10 Variable Coefficient Std. Error t-statistic Prob. C -67.58065 27.91071-2.421316 0.0418 RENDA 0.979267 0.031607 30.98253 0.0000 R-squared 0.991735 Mean dependent var 793.430 Adjusted R-squared 0.990702 S.D. dependent var 84.965 S.E. of regression 8.193028 Akaike info criterion 7.221 Sum squared resid 537.0056 Schwarz criterion 7.282 Log likelihood -34.1065 F-statistic 959.917 Durbin-Watson stat 1.566424 Prob(F-statistic) 0.000
Análise dos coeficientes: β 1,..., β k são todos iguais a 0? F-statistic β 1 é igual a 0? ou β 2 é igual a 0? t-statistic Qualidade do ajuste: Algumas questões Quanto sucesso tive com o modelo? R-squared Há problemas com os resíduos? (hipóteses do OLS) Durbin-Watson stat É melhor que outros modelos? Akaike information criterion, Schwarz criterion
Exemplo 03: Dados de Investimento Year NomGNP NomInv CPI Intrate 1968 873.4 133.3 82.5 5.2 1969 944.0 149.3 86.8 5.9 1970 992.7 144.2 91.5 6.0 1971 1077.6 166.4 96.0 4.9 1972 1185.9 195.0 100.0 4.5 1973 1326.4 229.8 105.8 6.4 1974 1434.2 228.7 115.1 7.8 1975 1549.2 206.1 125.8 6.3 1976 1718.0 257.9 132.3 5.5 1977 1918.3 324.1 140.1 5.5 1978 2163.9 386.6 150.4 7.5 1979 2417.8 423.0 163.4 10.3 1980 2633.1 402.3 178.6 11.8 1981 2937.7 471.5 195.5 13.4 1982 3057.5 421.9 207.2 11.0 Fonte: Greene (3 ed). First Prev Next Last Go Back Full Screen Close Quit
Exemplo 03: Dados de Investimento onde: RealInv = β 0 + β 1 Tend + β 2 RealGNP + β 3 IntRate + β 4 Inflat RealInv = NomInv CPI 10 Tend = {1, 2,..., 15} RealGNP = NomGNP CPI 10 IntRate = Taxa de juros Inflat = Percentagem de variação do CPI (sendo 4,40 para 1968).
Exemplo 03: Dados de Investimento Dependent Variable: REALINV Method: Least Squares Date: 11/27/03 Time: 13:47 Sample: 1968 1982 Included observations: 15 Variable Coefficient Std. Error t-statistic Prob. C -0.5091 0.05393-9.4389 0.0000 TEND -0.0166 0.00193-8.5983 0.0000 REALGNP 0.6703 0.05380 12.4592 0.0000 INTRATE -0.0024 0.00119-2.0340 0.0693 INFLAT 0.0001 0.00132 0.0484 0.9623 R-squared 0.9735 Mean dependent var 0.2034 Adjusted R-squared 0.9629 S.D. dependent var 0.0341 S.E. of regression 0.0066 Akaike info criterion -6.9510 Sum squared resid 0.0004 Schwarz criterion -6.7150 Log likelihood 57.1327 F-statistic 91.8296 Durbin-Watson stat 1.9636 Prob(F-statistic) 0.0000
Exemplo 03: Dados de Investimento RealInv i = 0, 5091 0, 0166 Tend + 0, 6703 RealGNP 0, 0024 IntRate + 0, 0001 Inflat (0, 054) (0, 002) (0, 054) (0, 001) (0, 001)
Exemplo 03: Dados de Investimento RealInv i = 0, 5091 0, 0166 Tend + 0, 6703 RealGNP 0, 0024 IntRate + 0, 0001 Inflat (0, 054) (0, 002) (0, 054) (0, 001) (0, 001)
Análise dos Coeficientes: Teste de Hipóteses Passo 01: Definimos uma Hipótese Nula: H 0 : β j = 0 Passo 02: Calculamos a estatística do teste: t-stat = Passo 03: Analisamos o p-valor e rejeitamos ou não H 0. ˆβ σ( ˆβ) No exemplo 02: Dados de Consumo Passo 01: H 0 : β 2 = 0, i.e. o coeficiente da RENDA é zero? 0, 979 Passo 02: t-stat = = 30, 983 0, 032 Passo 03: p-valor = 0.000 0.05, então, rejeitamos H 0, i.e. o coeficiente da RENDA é diferente de zero ou estatisticamente significativo.
Exemplo 01: Dados de Minutos ŷ i = 4.162 + 15.509x i (t-stat) (1.240) (30.711)
Análise dos Coeficientes: Teste de Hipóteses Na prática, o output do Eviews mostra os valores de ˆβ, ˆσ( ˆβ), t-stat e p-valor. Então, se o valor de Prob é pequeno (p.e., menor de 0.05), dizemos que o coeficiente é diferente de zero e que a variável x está relacionada com y. No exemplo 03: Dados de Investimento Variable Coefficient Std. Error t-statistic Prob. C -0.5091 0.05393-9.4389 0.0000 TEND -0.0166 0.00193-8.5983 0.0000 REALGNP 0.6703 0.05380 12.4592 0.0000 INTRATE -0.0024 0.00119-2.0340 0.0693 INFLAT 0.0001 0.00132 0.0484 0.9623
Análise dos Coeficientes: Teste de Hipóteses Quando o modelo tem mais de uma variável independente, devese testar a seguinte hipótese: H 0 : β 1 = β 2 =... = 0 H 1 : pelo menos um dos β j é diferente de zero. A estatística do teste é F-stat Usamos o p-valor (Prob), para rejeitar ou não H 0. No exemplo 03: Dados de Investimento F-statistic 91.8296 Prob(F-statistic) 0.0000
Coeficiente de Determinação: R 2 O R 2, mede o sucesso da regressão em prever os valores da variável dependente na amostra. R 2 é a fração da variância da variável dependente, y, explicada pelas variáveis independentes. 0 < R 2 < 1. O valor 1 indica um ajuste perfeito. Nos exemplos anteriores: R 2 Exemplo 01: 0.9874 Exemplo 02: 0.9917 Exemplo 03: 0.9735
Coeficiente de Determinação: R 2 ajustado R 2 sempre cresce com o aumento de variáveis independentes. No caso extremo, podemos obter R 2 = 1 incluindo tantas variáveis independentes quanto observações tem a amostra. O R 2 -ajustado penaliza o R 2 pela incorporação de variáveis independentes que não contribuem com o poder explicativo do modelo. O R 2 -ajustado é calculado por: R 2 = 1 ( 1 R 2) N 1 N k O R 2 -ajustado é sempre menor que o R 2 e pode diminuir com o aumento de variáveis independentes no modelo.
Outras medidas O desvio padrão da regressão (Standard Error of the Regression) é uma medida calculada a partir da variância estimada para os resíduos. É calculado por: ˆɛ ˆɛ s.e reg = N k, ˆɛ = y x ˆβ A soma dos resíduos ao quadrado (Sum of Squared Residuals) é dado por: ˆɛ ˆɛ = N ( 2 yi x i ˆβ) i=1
Outras medidas O log da verossimilhança (Log Likelihood) calculado pelo Eviews corresponde ao valor do log da verossimilhança (assumindo erros normais) avaliado nos coeficientes estimados. l = T [ (ˆɛ ˆɛ ) ] 1 + log(2π) + log 2 N Média e desvio padrão de y (Mean and Standard Deviation (S.D.) of the Dependent Variable) ȳ = N i=1 y i N σ 2 y = N i=1 (y i ȳ) 2 N 1
Critério de Informação O AIC (Akaike Information Criterion) é usado na seleção de modelos: AIC = 2l N + 2k N onde k é o número de parâmetros estimados, n é o número de observações e l é o valor do log da verossimilhança usando os k parâmetros estimados. O SC (Schwarz Criterion) é uma alternativa ao AIC. A penalidade pelo número de coeficientes adicionais é maior: SC = 2l N + k log N N O modelo com o menor AIC (SC) é considerado o melhor entre os modelos comparados.
Comparação de Modelos No exemplo 03: Dados de Investimento RealInv i = 0, 5091 0, 0166 Tend + 0, 6703 RealGNP 0, 0024 IntRate + 0, 0001 Inflat (0, 054) (0, 002) (0, 054) (0, 001) (0, 001) RealInv i = 0, 5089 0.0166 Tend + 0, 6704 RealGNP 0, 0024 IntRate (0, 051) (0, 002) (0, 051) (0, 001) Medida Modelo I Modelo II R-squared 0.973497 0.973491 Adjusted R-squared 0.962896 0.966261 Akaike info criterion -6.951019-7.084118 Schwarz criterion -6.715003-6.895305
Estatística Durbin-Watson A estatística DW (The Durbin-Watson statistic) mede a correlação serial nos resíduos. É dada por DW = N i=2(ˆɛi ˆɛ i 1 ) 2 N i=2 ˆɛ2 i Como regra de bolso, se o DW é menor que 2, existe evidencia de correlação serial positiva. Se o DW é proximo de 1, está indicando a presença de autocorrelação serial nos resíduos.