Caio Piza DIME/Banco Mundial São Paulo, 25-27 de Março de 2013 Métodos Quase-Experimentais
Objetivos Objetivo: isolar o efeito causal de uma intervenção/política pública sobre alguns resultados de interesse Métodos de avaliação rigorosos para responder às nossas perguntas operacionais Procedimento ideal: escolher aleatoriamente entre os elegíveis quem fará parte do programa (experimento aleatório) E se não pudermos seguir tal procedimento (aleatorizar)?
Métodos não-experimentos: quando fazem sentido? Conseguimos encontrar um contrafatual plausível? Métodos não-experimentais: premissas ( hipóteses de identificação ) e regras do programa ( elegíveis ) Quanto maior o número de premissas, menos válida será a medida do efeito de causalidade Se a regra do programa não for seguida à risca... É importante questionar as nossas premissas Utilize o senso-comum!
Exemplo: Programa de Subsídios (Matching Grant) Objetivo Principal Aumentar a produtividade e vendas das empresas Intervenção Distribuição de subsídios Seleção dos participantes não-aleatória Público-alvo Micro e pequena empresa entre 1 e 10 empregados Principal indicador Vendas, lucros, geração de emprego etc. 4
Método de diferenca em diferenças (ou diff-in-diff) Premissa subjacente: Sem o programa, as vendas dos participantes e dos não participantes evoluíriam da mesma forma (com a mesma tendência) >> Gráfico intuitivo a caminho...
Exemplo Média de Vendas (1000s) 2007 2008 Diferença (2007-2008) Participantes (P) 1.5 2.1 0.6 Não-participantes (NP) 0.5 0.7 0.2 Diferença (P-NP) 1.0 1.4 0.4 6
2.5 2 1.5 1 0.5 Impact0 = (P 2008 -P 2007 ) -(NP 2008 -NP 2007 ) = 0.6 0.2 = + 0.4 P 08 -P 07 =0.6 NP 08 -NP 07 =0.2 participants non-participants 0 2007 2008 7
Presunção de mesma tendência: Implicação Gráfica 2.5 2 1.5 1 Impacto = +0.4 participants non-participants 0.5 0 2007 2008
Conclusão O programa teve impacto positivo nas vendas das empresas que participaram do programa (receberam o subsídio) Sera que presumir a mesma tendência é razoável? Utilizar dados de anos anteriores
Questionando a premissa de mesma tendência: Dados pré-programa 2.5 2 1.5 1 participants non-participants 0.5 0 2006 2007 2008 Parece razoável aceitar a premissa conceitual de mesma tendência!
Atenção (1) Assumir a mesma tendência pode ser problemático em alguns casos. Por exemplo: Não existem dados para testar a mesma tendência histórica E mesmo se as tendências forem semelhantes no ano anterior Foram as tendências sempre semelhantes (ou tivemos sorte)? Exemplo: outro projeto intervém nas empresas não participantes
Atenção (2) Que fazemos então? 1. Verificar as semelhanças em características observáveis na linha de base (baseline) Se não são semelhantes ao nível das características observáveis, é provavel que as tendências sejam diferentes (Abadie, 2005) 2. As características não observáveis podem ser mais importantes que as observáveis (capacidade, motivação, paciência etc.)
Métodos de Combinação/Pareamento (matching) Geralmente usado quando não há informação de antes e depois para os grupos de tratamento e controle Contrafatual: Grupo de comparação com semelhanças em características observáveis: Procura-se para cada participante do programa um ou mais pares de não participante(s) com base nas características observáveis 13
Premissas: Métodos de Combinação (2) Características não-observáveis não afetam a designação para o tratamento e/ou o resultado de interesse A participação em um programa depende exclusivamente de características observáveis pelo pesquisador
Como se faz? 1. Calcula-se um escore para cada participante com base nas características obseráveis pelo pesquisador Temos de escolher com cuidado as variáveis para agrupar os participantes com o grupo de controle Finalidade: Grupo de tratamento: Participantes que conseguiram obter um par Grupo de controle: não-participantes parecidos com os participantes Eliminamos da avaliação os indivíduos sem pares
Implicações Na maior parte dos casos, não conseguimos encontrar pares para todos os participantes Precisamos perceber quem fica de fora Exemplo Parte combinada Parte do grupo de tratamento excluída não-participantes Participantes Pontuação Riqueza
Conclusão (1) Vantagens do metodo de combinação: Não precisa de aleatorização e é relativamente simples de implementar 17
Conclusão (2) Desvantagens: A premissa subjacente ao contrafatual não é plausível em todos os contextos... difícil de testar Utilize o senso comum e a regra do programa Necessita dados de muita qualidade Necessário controlar todos os fatores que influenciam o a alocação ao programa / resultado em análise Necessita amostras de tamanho suficientemente grande para gerar o grupo de comparação 18
Modelos de Regressão Descontínua (RD) Primo muito mais próximo dos experimentos com seleção aleatória do que os outros concorrentes Importante elemento do kit de ferramentas para research Data do início da década de 60 Entrou em hibernação por algum tempo Retomado no novo milénio 19
RD como experimento natural Experiências naturais são eventos naturais que aproximam as propriedades de um experimento RDs partilham as mesmas propriedades de uma experimento localmente no ponto de corte (cut-off) 20
Motivação Suponha que o Bolsa Família seja focado em famílias com um escore de pobreza inferior a um certo limite (cut off) Famílias com escore<=50 são elegíveis (consideradas pobres) Famílias elegíveis podem receber uma transferência monetária desde que (CCT) Resultados de interesse: consumo e frequência escolar. Source: Human Development Network, WB.
Validade Interna Ideia geral: Se o ponto de corte (cut-off) é arbitrário, as pessoas exatamente à esquerda e à direita desse ponto devem ser semelhantes Diferenças nos resultados podem ser atribuídos à política Principal condição Nada mais acontece: na ausência da política, não observaríamos a discontinuidade nos resultados à volta deste limite 22
Ilustração gráfica Miserável Não- Miserável Fonte: WB Human Development Network.
O que deveríamos observar? RD identifica o LATE! Efeito da Política Fonte: WB Human Development Network.
Descontinuidade Sharp o o o A descontinuidade determina o tratamento Experimento natural ao redor da descontinuidade E.g. Pagamento da aposentadoria depende necessariamente da idade da pessoa Descontinuidade Fuzzy o Descontinuidade altamente correlacionada com o tratamento o E.g. Regra (idade) determina a eligibilidade para o tratamento mas não perfeitamente o A regra é usada para recuperar o efeito da participação. Fonte: WB Human Development Network.
Outro exemplo de RD (1) Lei: Idade mínima para beber nos EUA é 21 o consumo de alcóol é ilegal para pessoas com menos de 21 anos. Análise: Pessoas com 20 anos, 11 meses e 29 dias Pessoas com 21 anos Mas não necessariamente diferentes (probabilidade de irem a festas, obediência, probabilidade de terem comportamentos de risco, etc) Tratadas na lei de uma forma diferente por uma restrição arbitrária (idade) 26
Exemplo de RD (2) Proporção de dias em que (1) bebe ou (2) bebe em grandes quantidades Tratamento causa um menor consumo de alcóol 27
Exemplo de RD (3) Taxas de mortalidade por idade Mortalidade geral Aumento do consumo de alcóol causa taxas de mortalidade mais elevadas por volta dos 21 anos Mortalidade associada a acidentes, consumo de alcóol ou de drogas Restante mortalidade 28
Validade Externa Serão os resultados generalizáveis para além destes dois grupos que estamos a comparar? As conclusões de causalidade são limitadas às pessoas, lares, municípios, ao redor do cut-off O impacto estimado é para individuos marginalmente ou por pouco elegíveis para participarem no programa A extrapolação além deste ponto supõe premissas adicionais, geralmente não garantidas (ou diversos cut-offs) Modelos difusos aumentam o problema 29
Implementação de RD: Detalhes Maiores vantagens dos RD Transparência Possibilidade de ilustrar a situação por meio do uso de gráficos Maiores desvantagens dos RD Necessário que haja muitas observações à volta do cut-off Todas as observações longe da fronteira devem ter menos importância 30
Conclusão Pode ser usado para desenhar uma avaliação quando a seleção aleatória não for possível O design aplica-se a todos os programas avaliados por médias Diversos pontos de corte para melhorar a validade externa Pode ser usado para avaliar intervenções ex-post usando as descontinuidades como experiências naturais. 31
Resumão A randomização requer premissas mínimas e gera estimativas intuitivas (médias das amostras!) Métodos não experimentais requerem premissas que devem ser cuidadosamente avaliadas Mais intensivo em termos de dados Nem sempre testável 32