Introdução aos Métodos Quase-Experimentais

Técnicas Econométricas para Avaliação de Impacto Introdção aos Métodos Qase-Experimentais Rafael Perez Ribas Centro Internacional de Pobreza Brasília, 23 de abril de 28

Introdção Breve descrição de métodos para estimar o efeito de m tratamento, qando este: o É derivado de ma ato-escolha. Exemplo: Trabalhador qe escolhe o setor de atividade; o É derivado da escolha de qem está provendo o tratamento. Exemplos: Bolsas de estdos destinados aos melhores alnos; Investimentos na infra-estrtra de áreas pobres. o O existem fatores omitidos por trás da relação. Exemplo: Retornos da escolaridade sobre o salário; iscriminação no mercado de trabalho.

A escolha pela metodologia não-experimental depende de três fatores: o O tipo de informação disponível; o O modelo casal; o O parâmetro de interesse. É necessário ainda saber sobre qais condições o parâmetro de interesse é identificado. A distinção entre resltados de ma mesma avaliação pode decorrer da imposição de falsas sposições sobre a distribição das variáveis. o Vantagem dos modelos não-paramétricos (Heckman, 99).

Modelo Casal Um modelo de efeito do tratamento pode ser descrito como m switching model regression: * i * i * i s S i () s Ziγ vi, E[ v] () s i () s () s < () s () s () s β () s () s, E[ () s ] i i i Para facilitar, sponha qe existem só dois estados (com e sem tratamento), {,} s.

Assim: [ ] [ ] [ ],,, * * * < E E E v v Z β β γ Além disso, sponha qe exista m conjnto de características observáveis comm a todas as eqações: ( ) [ ] ( ) [ ] ( ) [ ],,,,,, * E E E v v Z c c c β β γ

Relembrando, o problema da avaliação de impacto é não observamos a mesma nidade em ambos os estados. Só observamos: ( ), o ainda: ( ) [ ] ( ) [ ]( ) ( ) c c,, β β Para facilitar, assma qe não varia com : ( ) ( ) β α β α β c c, e, Assim: ( ) ( ) ( ) ( ), β τ α β α α α

Problema: apesar de [] E[ ] E[ ]( ) E, / O seja, é endógeno. Neste caso, ma diferença de médias o ma simples regressão gera o seginte resltado enviesado: E [ ] E[ ] ( α α ) [ E( ) E( ) ] os termos entre colchetes não necessariamente se anlam Mais especificamente, é endógeno porqe v /, B [ E( v (, Z ) γ ) E( v < ( Z ) γ )] c c,

Fatores não-observados, v, qe determinaram a seleção inflenciam o resltado,. Solção: fazer com qe v Como? o Incorporando mais variáveis, o sficiente para qe os termos não-observados sejam ortogonais. Três formas de fazer isso: o Mais variáveis em c para eliminar o viés de variáveis omitidas (seleção sobre observáveis); o Inclir ma variável Z na eqação de seleção (seleção sobre não-observáveis); o Inclir ma variável Z / na eqação de seleção (seleção sobre observáveis).

Importante: Mesmo qando é exógeno, se há heterogeneidade no impacto, τ i τ ξ i, os coeficientes de ma regressão podem não representar os parâmetros de interesse: E τ τ E ξ E τ τ E ξ [ ] [ ] [ ] [ ] Exemplos: o iferenças salariais entre homens e mlheres; o O entre negros e brancos; o O entre os anos de 26 e 27; o Não existe ma escolha por trás destas variáveis, mas é impossível tratá-las como aleatórias. Por maior qe seja o controle sobre observáveis, a composição dos grpos é distinta.

Parâmetros de Interesse O parâmetro de interesse mais comm é o ATE: [ ] [ ] [ ] [ ] [ ] ( ) α α τ β α β α β α β α E E E E E qe representa o impacto médio do tratamento na poplação como m todo (independente de qem foram os tratados). Otro parâmetro de interesse é o ATT o ATET: [ ] [ ] [ ] [ ] [ ] [ ] [ ] ( ) [ ] E E E E E E E E T α α τ β α β α o ATT mostra como o grpo qe recebe (o escolhe) o tratamento foi afetado.

e maneira eqivalente, o ATU é definido como: [ ] α E[ ] β E[ ] [ ] α E[ ] β E[ ] E[ ] ( α α ) E[ ] E E τ U isso representa o qanto o grpo qe não está sendo tratado seria afetado caso fosse tratado. o Não confndir com externalidades do programa O ATU é de interesse, por exemplo: o Estimação do impacto da expansão de m programa para além do grpo já tratado. Um caso onde ATU é geralmente estimado, porém ele não é de interesse: o ecomposições à la Oaxaca-Blinder.

Por definição: ATE τ τ Pr Pr ( ) ATT Pr( ) ATU ( ) E( ) Pr( ) E( ) Se, o E [ ], ATTATUATE o Idéia implícita de homogeneidade do impacto. Importante: para qe o ATU e, por conseqüência, o ATE sejam de interesse, é relevante qe a amostra de nãotratados represente ma poplação de interesse.

O estimador pode ainda ser representativo de m efeito local (LATE): E[ Z ] E[ Z] LATE, onde Z Z ε E Z E Z [ ( ) ] [ ( ) ] Se o impacto do tratamento é homogêneo, LATEATE. Contdo, é mito provável qe a escolha de Z inflencie o estimador. Correção para erros de medida pode ser m exemplo de qando o LATE é o parâmetro de interesse: o Renda de ma transferência predita pela composição domiciliar; o Renda permanente predita por bens dráveis.

Um exemplo de LATE o Efeito de Tratamento para Pessoas na Margem da Indiferença (o Eligibilidade), EOTM: EOTM ( s, s ) E ( s) ( s ) l ( () s ) R( ( s )) ( () s ) R( () l ) ( ( s )) R R R s, s

Modelo de Seleção sobre Observáveis Assme qe os fatores não-observados, e v, não estão correlacionados. Sposição de independência na média condicional: E,, Z E,, Z E, [ ] [ ] [ ], c c c Z o Se o parâmetro de interesse é de efeito médio. Se existem otros parâmetros de interesse (mediana, desvio-padrão, etc.): o evemos assmir ma condição mais restritiva (versão condicional da SUTVA):, c Z.

Modelo mais comm de seleção sobre observáveis: o Regressão mltivariada. o Se não é correlacionado com v, é porqe c explica a correlação de com. Exemplo típico: seleção amostral. Problema é qando c explica o efeito de sobre. Exemplos: o Resltados de testes de proficiência explicam escolaridade, mas também explicam a diferença entre salários das pessoas mais e menos escolaridade; o Renda domiciliar determina participação em programa social qe determina gastos com alimentação, qe também é determinada pela renda domiciliar.

Solção, incorporar interações para melhorar o controle (Rbin, 977): α τ β ω ( ) c c Contdo, se impacto é heterogêneo, τ E [ ] ˆ c Solção: α τ o β ( ) ω ( ) ω α τ T β T

Problema: v não ser ortogonal a e a condição de independência ser violada, mesmo inclindo o controle de c. o O então, ter qe inclir ma série de otras variáveis jnto com as respectivas interações (perda dos gras de liberdade). Solção: inclir ma variável Z /. o Tal qe esta variável expliqe em grande parte a correlação de v com. o O seja, retira de v a parte qe está correlacionada com. Problema: não há como inclir Z diretamente na eqação de interesse. o Pois é ma variável (fracamente) endógena e correlacionada com.

Solções: o Já conhecidas há mito tempo, porém não para corrigir o viés de seleção, mas para estimar m parâmetro de interesse (ATT o ATE) sobre ma variável exógena. o Matching (método não-paramétrico), τ E i W j { } (,, Z Z ) c, i c, j i, j j ;

o Inverse Probability Weighting (método semi-paramétrico), W o W (, Z ) c (, Z ) c Pr Pr (, Z ) Pr(, Z ) Pr( c ) (, Z ) c c ( ) Pr( c ) Pr(, Z ) Estas técnicas relaxam a imposição de formas fncionais. E possibilitam a estimação de parâmetros de interesse para sb-amostras. Exemplo: o No caso de diferenças salariais, m estimador de Matching o IPW pode fornecer resltados distintos de ma microssimlação contrafactal à la Oaxaca-Blinder (inardo; Firpo e Ñopo possem trabalhos sobre isso). c c

Importante: o Se, mesmo sando Matching o IPW, não for inclído no modelo Z /, os resltados tendem a não se distingir da regressão de Rbin (977). A não ser devido à mdança na formal fncional. o Portanto, se na regressão já havia ma problema de viés de seleção, matching o IPW não corrigirão este problema tilizando as mesmas variáveis c. Estimador de matching não é ma panacéia!

Regressão escontína Um método de seleção sobre observáveis por definição. O seja, assme a mesma condição de independência. Porém, só gera m estimador LATE. Existe ma variável Z / qe determina o tratamento, tal qe Z > z Z z o ainda E [ Z z ε ] > E[ Z z ε ], [ Z z ε ] E[ Z z ε ] E mas

Exemplos: o Bolsas de estdos distribídas de acordo com testes de proficiência; o Transferência de renda para pessoas abaixo da linha de pobreza. ois tipos de estimador: o Sharp E[ Z z ε ] E[ Z z ε ], se E Z > z e E Z z o Fzzy [ ] [ ] [ Z z ε ] E[ Z z ε ] [ Z z ε ] E[ Z z ε ] E E Formas de estimação: o Regressão paramétrica (naïve); o Regressão não-paramétrica (consistente);

Modelo de Seleção sobre Não-Observáveis Condição assmida: Z e Z determina. Idéia: retirar de (o ) o componente qe está correlacionado com v. Como fazer isso: o Método IV, consiste em tilizar ma variável ˆ ; o Seleção de Heckman, identificar em o componente correlacionado com v; o Modelo de efeitos fixos, spondo qe é determinado somente por atribtos fixos (mitas vezes inviável); o Modelo de iferença-nas-iferenças; sposição idêntica a de modelos de efeitos fixos.

Método de Variáveis Instrmentais IV as formas de implementação: o Sbstitir o indicador de tratamento,, na eqação de interesse por g(z), qe pode ser o próprio Z. o O tilizar o valor predito ˆ ( c, Z ) na eqação de interesse no lgar de.

essa forma, tilizamos ma proxy de qe é ortogonal a, pois ( c, Z ). Problema: essa proxy varia com a escolha de Z. o O seja, estamos estimando m parâmetro LATE: [, Z] ( α ) E[ Z z] E c α

Estimador de Seleção de Heckman Mito comm em análise com seleção amostral. Consiste em estimar a esperança condicionada de v (nãoobservado em modelos não-lineares), para posteriormente inclí-la na eqação de interesse: [ Z] α τ c β ρe v c, o Utilização da famosa razão inversa de Mills. Assim,.

Como no método IV, é possível estimar os coeficientes: o Em dois estágios; o O por meio de modelos mltivariados (joint likelihood). E como no método IV, há o problema de encontrar ma variável Z convincente. o e fato, IV da Ms. Speedy (alocação da verba) não é convincente. o Seria mais interessante tilizá-la em m modelo de seleção sobre observáveis. Mito importante: Se Z /, os estimadores resltantes podem ser ainda mais enviesados.

Estimador de iferença-nas-iferenças Mede a variação mais qe proporcional no grpo de tratamento em relação ao grpo de controle. Para entendê-lo, vamos definir a seginte eqação: () i δ t α, t ηi i t, t, A primeira diferença (antes-e-depois) para cada grpo (tratamento e controle) é:,, () i () ( ) ( ) ( ) ( ), i δ δ α, α, ηi ηi i, i, δ t α ( ) t i, i, () i () ( ) ( ) ( ) ( ), i δ δ α, α, ηi ηi i, i, δ t α t ( ) i, i,

Assim qando estimamos a diferença das esperanças das diferenças: E i i E i i [ () () ] ( ) ( ) [ ],,,, t ( α α ) E( ) E( ) i, i, Condição: se E( ) ( ) i, i, E i, i,, o estimador é consistente. Isso implica qe: o Toda diferença entre os grpos foi eliminada na sbtração dos efeitos fixos; o A condição agora é qe as variações sejam ortogonais à seleção para o tratamento. Esta condição sempre esteve implícita nos otros estimadores. i, i,

A condição E ( ) E( ) i, i, i, i, pode ser facilmente violada dependendo do qe está sendo investigado. Exemplo: o Efeito de cotas em niversidades sobre o desempenho de estdantes no segndo gra; Grpo de tratamento: alnos com direito à cota; Grpo de comparação: alnos sem direito à cota. o Condição é violada qando a trajetória média do desempenho de alnos é distinta. Por esta mesma razão, modelos de efeitos fixos podem não resolver o problema.

Solção, assmir ma otra condição: E (, ) E(, ) i, i, i, i, o O seja, assmir independência nas trajetórias condicionadas, por exemplo, às características dos alnos. Para fazer isso, não basta inclir variáveis de controle em ma regressão de diferença-nas-diferenças. Solções: o Inclir interações, tais como em Rbin (977); o Combinar método com otros métodos de seleção sobre observáveis (Matching, IPW, R); o Combinar método com otros métodos de seleção sobre não-observáveis (IV o Seleção de Heckman); o Estimar m modelo de diferenças com efeito fixo (inviável).

Para os casos de Matching e R, a solção é mais simples do qe parece: o Basta estimar o parâmetro antes e depois da implementação do tratamento e eliminar as diferenças identificadas previamente das diferenças posteriores. Importante é não confndir o papel do estimador de iferença-nas-iferenças com o papel dos estimadores qase-experimentais: o O estimador de garante ma forma mais consistente de se estimar m impacto, podendo o não ser combinado com técnicas experimentais o qase-experimentais de avaliação.

Coleta de ados Métodos qase-experimentais exigem amostras maiores qe métodos experimentais. o Pois somente parte da variação nas variáveis de interesse é tilizada na estimação. o Geralmente, o grpo de tratados tende a ser mais homogêneo, do ponto de vista da investigação, qe o grpo de controle; o Portanto, a regra 5%-5% tilizada na amostra de experimentos não é válida nos qase-experimentos. Base de dados secndárias: o Pesqisas para cobrir ma série de otros propósitos; o Informações de relevância para avaliação podem estar asentes; Exemplo: Avaliação de impacto do PBF tilizando a PNA.

Por isso, mitas pesqisas coletam ses próprios dados: o Problema é qe estas pesqisas podem não ter representatividade. Registro administrativo: o Contém ma grande amostra de tratados e de controle; o É possível observar de fato qem foi, o está sendo, tratado e qem não foi, além de mitas das condições qe determinaram esta escolha (baseline); o Problema é qe estas informações só são representativas da poplação registrada.

A bsca pela representatividade não é o mais importante; o E pode incorrer em amento desnecessário dos cstos; o O foco é, primeiro, como estimar o ATT da maneira mais consistente; o Validade interna vem antes da externa, apesar das das serem importantes. Mito importante: o Em qalqer avaliação qase-experimental ( c, Z) deve ser completamente exógeno a. A única forma de garantir isso é qe ( c, Z) seja coletado antes do tratamento (informação na linha de base); Se ( c, Z) e são observados simltaneamente, existe ma grande risco de inconsistência interna na avaliação.