1 AULA 28 REGRESSÃO DESCONTÍNUA Ernesto F. L. Amaral 20 de junho de 2013 Técnicas Avançadas de Avaliação de Políticas Públicas (DCP 098) Fonte: Curso Técnicas Econométricas para Avaliação de Impacto do International Policy Centre for Inclusive Growth (IPC-IG) da United Nations Development Programme (UNDP) (http://www.ipc-undp.org/evaluation).
INTRODUÇÃO 2 Estamos interessados no efeito causal da variável de tratamento (V.T. = D) sobre uma variável dependente (V.D. = Y). D não é aleatoriamente distribuída. Porém, é conhecida uma variável X que, ao menos parcialmente, determina D. Regressão descontínua explora essa última relação. Por exemplo: Recebimento de bolsa de estudo em universidade pode depender de teste de conhecimento. Programa de transferência condicionada de renda (conditional cash transfer program, CCT) possui regras de elegibilidade (renda) e exige frequência à escola.
TIPOS DE REGRESSÃO DESCONTÍNUA 3 Relação entre variável de tratamento (D) e variáveis observadas (X) pode ocorrer de duas formas. 1) Determinística: D =1{X >= c}, sendo que o ponto de corte (c) é conhecido. Sharp Regression Discontinuity (SRD) Design. 2) Probabilístico: D é uma variável aleatória dado determinadas características (X). Probabilidade condicional é descontínua em c. f(x) = E[D X=x] = P(D=1 X=x). Fuzzy Regression Discontinuity (FRD) Design. Outras variáveis determinam o tratamento.
0.2.4.6.8 1 DETERMINÍSTICA (SHARP) Variável de tratamento: democrata venceu (eixo vertical) por Votação nos democratas menos 0,5 (eixo horizontal) 4 -.2 0.2.4.6 Dem vote share minus.5 Dem Won Race Dem Won Race
DETERMINÍSTICA (SHARP) Variável dependente: gasto no distrito (eixo vertical) por Votação nos democratas menos 0,5 (eixo horizontal) 20 21 22 23 5 -.2 0.2.4.6 Dem vote share minus.5 Log fed expenditure in district Log fed expenditure in district
DETERMINÍSTICA (SHARP) SUAVIZADA (LOWESS) Variável dependente: gasto no distrito (eixo vertical) por Votação nos democratas menos 0,5 (eixo horizontal) 21.1 21.2 21.3 21.4 21 6 -.2 0.2.4.6 Dem vote share minus.5 lowess lne d lowess lne d
PROBABILÍSTICA (FUZZY) V.T.: Percentual de domicílios com PBF (eixo vertical) por Corte de renda per capita de 60 reais (eixo horizontal).2.4.6.8 0 7 0 200 400 600 800 1000 renda
PROBABILÍSTICA (FUZZY) V.T.: Percentual de indivíduos com PBF (eixo vertical) por Corte de renda per capita de 60 reais (eixo horizontal).2.4.6.8 0 8 0 200 400 600 800 1000 renda
PROBABILÍSTICA (FUZZY) V.T.: Percentual de domicílios com PBF (eixo vertical) por Corte de renda per capita de 120 reais (eixo horizontal).2.4.6 0 9 0 200 400 600 800 1000 renda
PROBABILÍSTICA (FUZZY) V.T.: Percentual de indivíduos com PBF (eixo vertical) por Corte de renda per capita de 120 reais (eixo horizontal).2.4.6.8 0 10 0 200 400 600 800 1000 renda
PROBABILÍSTICA (FUZZY) V.T.: Percentual de domicílios com PBF (eixo vertical) por Corte de renda per capita de 149 reais (eixo horizontal).2.4.6 0 11 0 200 400 600 800 1000 renda
PROBABILÍSTICA (FUZZY) V.T.: Percentual de indivíduos com PBF (eixo vertical) por Corte de renda per capita de 149 reais (eixo horizontal).2.4.6.8 0 12 0 200 400 600 800 1000 renda
PROBABILÍSTICA (FUZZY) V.D.: Percentual de indivíduos na escola (eixo vertical) por Corte de renda per capita de 149 reais (eixo horizontal).0035.0025.003.002 13 0 200 400 600 800 1000 renda lowess pescola renda lowess pescola renda
PROBABILÍSTICA (FUZZY) V.D.: Percentual de indivíduos no trabalho (eixo vertical) por Corte de renda per capita de 149 reais (eixo horizontal).00025.00015.0003.0002.0001 14 0 200 400 600 800 1000 renda lowess ptrab renda lowess ptrab renda
PROBLEMA FUNDAMENTAL DA AVALIAÇÃO 15 Problema fundamental da avaliação é que não se observa Y(1) para indivíduos com X < c, assim como não se observa Y(0) para indivíduos com X >= c. O que temos é: E[Y X] = E[Y D=0, X=x] * P(D=0 X=x] + E[Y D=1, X=x] * P(D=1 X=x]
BANDWIDTH (h) 16 O método da regressão descontínua depende da escolha do bandwidth (h). Quanto maior h, maior variação captada pelo estimador. No entanto, quanto maior h, menor a variância do estimador. Assim, deve haver um bandwidth ótimo.
ESCOLHENDO O BANDWIDTH (h) 17 Não há consenso sobre como escolher h. Uma regra básica é utilizar h = N 1/5, em que N é o número de observações. Para SRD, Imbens e Lemiex (2007) propõem utilizar o valor de h que minimiza: 1/N Σ(Y μ(x)) 2 Para FRD, Imbens e Lemiex (2007) propõem o mesmo procedimento, calculando um h que minimiza o desvio em relação ao tratamento (D) e utilizando o valor mínimo dentre os dois mínimos.
EQUAÇÕES 18 Conforme aulas passadas: Y = Y 0 (1 D) + Y 1 D Y = Y 0 + (Y 1 Y 0 )D Y = α + βd Supondo um valor arbitrário de bandwidth pequeno (h): E[Y x = c + h] E[Y x = c h] = {E[α x = c + h] E[α x = c h]} + β * {E[D x = c + h] E[D x = c h]} Dois pressupostos: β é constante. E[α X = x] é contínuo em X no ponto c.
PRECAUÇÕES 19 Precauções ao utilizar a regressão descontínua. Origem de descontinuidade: Teste nas covariáveis. Teste de continuidade. Escolha do bandwidth: Teste de diferentes proporções do bandwidth escolhido.