David Evans, Banco Mundial Baseado em slides de Esther Duflo (J-PAL) e Jed Friedman (Banco Mundial) Tamanho da amostra para avaliações de impacto

Documentos relacionados
O que é população? O que é amostra? Curso de Bacharelado em Educação Física e Saúde

Sistema de Informações e Pesquisa de Marketing Aula 12 24/10/17

Amostragem para Avaliações do Impacto de Programas

AMOSTRAGEM. Importância da Utilização da Amostragem Economia Tempo Operacionalidade

AULAS 04, 05 E 06 AVALIAÇÃO UTILIZANDO EXPERIMENTOS

Exemplo 1: Sabemos que a média do nível sérico de colesterol para a população de homens de 20 a 74 anos é 211 mg/100ml.

5 TORIA ELEMENTAR DA AMOSTRAGEM

Estatística Aplicada à Gestão

Como Randomizar? Seminário de Avaliação de Impacto Luanda, Angola

Estimação parâmetros e teste de hipóteses. Prof. Dr. Alberto Franke (48)

Técnicas de Amostragem

Testes de Hipóteses Paramétricos

Testes de Hipóteses Paramétricos

BIOESTATÍSTICA. Parte 5 Testes de Hipóteses

Testes de Hipóteses. Ricardo Ehlers Departamento de Matemática Aplicada e Estatística Universidade de São Paulo

Noções de Amostragem. Universidade Estadual de Santa Cruz Gustavo Fragoso

ESTATÍSTICA APLICADA A EXPERIMENTOS

Teste de Hipótese e Intervalo de Confiança

MÉTODOS QUANTITATIVOS PARA CIÊNCIA DA COMPUTAÇÃO EXPERIMENTAL

DCBD. Avaliação de modelos. Métricas para avaliação de desempenho. Avaliação de modelos. Métricas para avaliação de desempenho...

Testes de Hipótese para uma única Amostra - parte I

BIOESTATÍSTICA AULA 4. Anderson Castro Soares de Oliveira Jose Nilton da Cruz. Departamento de Estatística/ICET/UFMT

Planejamento e Pesquisa 1. Dois Grupos

Regressão linear simples

Conceitosintrodutórios Planejamentode Experimentos. Prof. Dr. Fernando Luiz Pereira de Oliveira Sala1 ICEB I DEMAT

Intervalos Estatísticos para uma única Amostra - parte I

1. Numa experiência que testa se biscoitos com adição de Ferro podem reduzir a prevalência (Proporção de pessoas doentes numa população) de anemia:

Seção 1.1 Uma visão geral da estatística

NBC TA 530 Amostragem em Auditoria Se aplica quando o auditor independente decide usar amostragem na execução de procedimentos de auditoria Trata do

Inferência Estatística

Modelos de Regressão Linear Simples - Análise de Resíduos

Amostragem Aleatória e Descrição de Dados - parte I

Modelos de Regressão Linear Simples - Análise de Resíduos

AMOSTRAGEM. É a parte da Teoria Estatística que define os procedimentos para os planejamentos amostrais e as técnicas de estimação utilizadas.

A Importância do Desenho Amostral. Donald Pianto Departamento de Estatística UnB

Avaliação experimental

Modelos de Regressão Linear Simples parte I

Amostragem: Planejamento e Processos. Cap. 12 e 13 Introdução a Pesquisa de Marketing Naresh K. Malhotra

Modelos de Regressão Linear Simples - parte I

III AMOSTRAGEM E INTERVALO DE CONFIANÇA Conceito de Amostragem AMOSTRA ALEATÓRIA

MOQ-14 PROJETO e ANÁLISE de EXPERIMENTOS. Professor: Rodrigo A. Scarpel

Licenciatura em Ciências Biológicas Universidade Federal de Goiás. Bioestatística. Prof. Thiago Rangel - Dep. Ecologia ICB

Probabilidade e Estatística (Aula Prática - 23/05/16 e 24/05/16)

Trabalho de Conclusão de Curso

Os usuários selecionados terão de escolher uma das seguintes opções:

5.3 Experimentos fatoriais a dois fatores. Ambos os fatores são supostos fixos e os efeitos de tratamento são definidos como desvios da média tal que

Bioestatística Aula 4

AMOSTRAGEM EM AUDITORIA

Métodos de Amostragem Populações de Animais Silvestres Amostragem

Avaliação de Desempenho de Sistemas Discretos

Estatística. Disciplina de Estatística 2012/2 Curso de Administração em Gestão Pública Profª. Ms. Valéria Espíndola Lessa

INFERÊNCIA ESTATÍSTICA. ESTIMAÇÃO PARA A PROPORÇÃO POPULACIONAL p

AULA 05 Teste de Hipótese

Resultados possíveis do nosso estudo

DIME WORKSHOP OCTOBER 13-17, 2014 LISBON, PORTUGAL

Delineamento e Análise Experimental Aula 4

AULA 09 Regressão. Ernesto F. L. Amaral. 17 de setembro de 2012

DELINEAMENTO INTEIRAMENTE CASUALIZADO. Profª. Sheila Regina Oro

Especialização em Engenharia de Processos e de Sistemas de Produção

AULA 4: DISTRIBUIÇÕES DE PROBABILIDADES AMOSTRAIS. Gleici Castro Perdoná

DELINEAMENTO EXPERIMENTAL [1]

Principais Conceitos em Estatística

Testes de Hipóteses. Ricardo Ehlers Departamento de Matemática Aplicada e Estatística Universidade de São Paulo

ANOVA FACTORIAL EXEMPLO 1. ANOVA TWO-WAY COM O SPSS. a capacidade de reconhecimento do odor materno

Contabilometria. Aula 9 Regressão Linear Inferências e Grau de Ajustamento

Arianna Legovini Head, Development Impact Evaluation Initiative (DIME) World Bank. O Uso de Avaliações Aleatoria para Melhorar Políticas e Programas

Inferência. 1 Estimativa pontual de uma média 2 Estimativa intervalar de uma média. Renata Souza

Inferência Estatística Básica. Teste de Hipóteses: decidindo na presença de incerteza

Universidade Federal do Paraná Setor de Ciências Sociais Aplicadas Departamento de Administração

Profa. Lidia Rodella UFPE-CAA

ANOVA - parte I Conceitos Básicos

Introdução à Bioestatística Turma Nutrição

CORRELAÇÃO. Flávia F. Feitosa

Metodologia Científica I Roumayne Andrade

DPS1037 SISTEMAS DA QUALIDADE II ENGENHARIA DE PRODUÇÃO CT/UFSM

Probabilidade e Estatística

AULA 04 Teste de hipótese

INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA. Prof. Anderson Rodrigo da Silva

PLANEJAMENTO DAS MEDIÇÕES PRECISÃO E ACURÁCIA. Objetivo Minimizar o erro das medições

Inventário Florestal. Amostragem

Caros Alunos, segue a resolução das questões de Estatística aplicadas na prova para o cargo de Auditor Fiscal da Receita Municipal de Teresina.

ANÁLISE DE RESULTADOS

CONHECIMENTOS ESPECÍFICOS

Teste de hipóteses. Estatística Aplicada Larson Farber

P. P. G. em Agricultura de Precisão DPADP0803: Geoestatística (Prof. Dr. Elódio Sebem)

4 ABORDAGENS METROLÓGICAS

Professora Ana Hermínia Andrade. Universidade Federal do Amazonas Faculdade de Estudos Sociais Departamento de Economia e Análise. Período 2017.

Cap. 8 - Intervalos Estatísticos para uma Única Amostra

SSC546 -Avaliação de Desempenho de Sistemas

Delineamento e Análise Experimental Aula 5

Inferência. 1 Estimativa pontual de uma média 2 Estimativa intervalar de uma média. Renata Souza

MAB-515 Avaliação e Desempenho (DCC/UFRJ)

7 Testes de Robustez. 7.1 Efeito sobre os alunos não beneficiados

Modelos de Regressão Linear Simples - parte II

Por que aleatorizar? Cecilia Machado FGV-EPGE Abdul Latif Jameel Poverty Action Lab.

Probabilidade e Estatística

Nessa situação, a média dessa distribuição Normal (X ) é igual à média populacional, ou seja:

Métodos de Amostragem. Carla Varão Cláudia Batista Vânia Martinho

Aula 8. Teste Binomial a uma proporção p

Transcrição:

Planejamento do tamanho da amostra para avaliações de impacto David Evans, Banco Mundial Baseado em slides de Esther Duflo (J-PAL) e Jed Friedman (Banco Mundial) Tamanho da amostra para avaliações de impacto Pergunta geral Qual deve ser o tamanho da amostra para perceber de forma crível o tamanho do impacto de meu projeto? Depende! 1

Tamanho da amostra para avaliações de impacto Pergunta geral Qual deve ser o tamanho da amostra para perceber de forma crível o tamanho do impacto? O que significa «de forma crível» aqui? Ter um nível de certeza de que a diferença entre o grupo que recebeu o programa e o que não recebeu está relacionada ao programa A aleatorização tira os erros sistemáticos mas não tira o ruído: Funciona pela LEI DOS GRANDES NÚMEROS Quão grande deve ser o número? Quão grande? 2 pessoas selecionadas aleatoriamente? 10 pessoas? T C T Muitas pessoas! Quantas são 'muitas pessoas'? C T C 2

Organização básica Ao final do experimento, comparamos o resultado de interesse nos grupos de tratamento e de controle Interessa-nos a diferença Média do grupo de tratamento Média do grupo de controle _ Tamanho do efeito Por exemplo Renda média de lares que recebem bolsa familia Renda média de lares que não recebem bolsa familia Tamanho do efeito A estimação Não temos dinheiro suficiente para observar todos os lares, mas apenas uma amostra (nem temos que fazê-lo). Em cada lar da amostra, há um certo nível de renda. Pode estar mais próximo ou mais distante da média de toda a população, como função de outros fatores que afetam a renda. Inferimos a renda média da população utilizando a média da amostra. Se tivermos muito poucos lares, as médias seriam imprecisas. Se não vemos diferença entre a média do grupo de tratamento e do grupo de controle, não sabemos se não há efeito ou se existe mas não podemos detectâ-lo. 3

Frequencia 5/6/2010 Un fator que afeta o tamanho da amostra A VARIABILIDADE QUE MEDIMOS NO RESULTADO A variabilidade que medimos no resultado Se o resultado variar muito dentro do grupo de tratamento e do grupo de controle, será difícil dizer se foi o tratamento que causou a diferença nas médias. Desvio Padrão Elevado 8 7 6 5 4 3 2 1 0 mean 50 mean 60 Número 4

value 33 37 41 45 49 53 57 61 65 69 73 77 81 85 89 Frequência 5/6/2010 A variabilidade que medimos no resultado Se o resultado variar muito pouco dentro dos grupos, é mais fácil dizer que o tratamento ocasionou a diferença Devio Padrão Baixo 25 20 15 10 5 0 mean 50 mean 60 Número Um momento Não sou périto na estatística, realmente preciso saber todo isto? Sim! Embora não for calcular você mesmo, temos que entender as questões para evitar fazer uma avaliação bem feita Queremos a avaliação infalível (que não vamos alcançar, mas vamos tentar) 5

O erro padrão O erro padrão do cálculo da amostra capta o tamanho da amostra e a variabilidade do resultado com uma amostra pequena com grande variação de resultados O intervalo de confiança Um intervalo de confiança de 95% para um efeito significa que para 95% das amostras que conseguimos obter da mesma população, o efeito estimado ficaria dentro desse intervalo. (Intervalo de confiança efeito ± 2 erros padrão). Se a campanha de ligações aumenta as vacinações por 0.48 pp, com erro padrão de 0.20, então Intervalo de confiança = 0.08 0.88 6

Teste da Hipótese Geralmente ficamos interessados em testar a seguinte hipótese: O tamanho do efeito do programa é igual a zero? Em outras palavras, meu programa não teve efeito? Espero que não! Queremos testar: Contra: H o : Tamanho do efeito 0 H a : Tamanho do efeito 0 Dois tipos de erro que podemos cometer Erro Tipo 1 Concluir que existe um efeito quando, na verdade, não existe. O nível do seu teste é a probabilidade de você concluir erradamente que o programa tem um efeito quando, na realidade, ele não tem. Portanto, com um nível de 5%, é possível ter 95% de confiança na validade da sua conclusão de que o programa teve efeito Para fins de política, queremos ter muita confiança no impacto estimado: o nível será especificado bastante baixo. Níveis comuns: 5%, 10%, 1%. Só estamos observando ruído nos dados 7

Relação com os Intervalos de Confiança Se zero não pertencer ao intervalo de confiança de 95% do tamanho do efeito que medimos, podemos ter pelo menos 95% de certeza de que o tamanho do efeito não é zero (portanto, existe um efeito) Então, a regra prática é que se o tamanho do efeito for mais do dobro do erro padrão é possível concluir com mais de 95% de certeza que o programa teve efeito Campanha de ligações: Intervalo de confiança = 0.08 0.88 Dois tipos de erro 2 Segundo tipo de erro: achamos que o programa não teve qualquer efeito quando, na verdade, ele teve efeito. O PODER de um teste é a probabilidade de eu ser capaz de encontrar um efeito significativo no meu experimento se, de fato, esse efeito realmente existir (um poder maior é melhor, já que tenho uma probabilidade maior de encontrar um efeito) O poder é uma ferramenta de planejamento. Ele me diz qual é a probabilidade de eu encontrar um efeito significativo para um determinado tamanho de amostra 8

Cálculo do Poder Ao planejarmos uma avaliação, é possível, com alguma pesquisa preliminar, calcular a amostra mínima de que precisamos para: Testar uma hipótese: o efeito do programa foi zero ou não foi zero Para um nível pré-especificado (ex.: 5%) Dado um tamanho de efeito pré-especificado (o que você acha que o programa fará) Para alcançar um determinado poder Um poder de 80% significa que, em 80% dos experimentos deste tamanho de amostra utilizado nesta população, se realmente houver um efeito na população, conseguiremos dizer em nossa amostra que há um efeito com o nível de confiança desejado. Quanto maior a amostra, maior o poder. Poder geralmente utilizado: 80%, 90% Ingredientes para um Cálculo de Poder em um Estudo Simples O que precisamos Nível de significância A media e a variabilidade do resultado no grupo de comparação O tamanho do efeito que queremos detectar Onde conseguimos Geralmente se convenciona definir em 5% Quanto mais baixo for, maior será o tamanho da amostra necessária para um determinado poder -De pesquisas anteriores realizadas em ambientes semelhantes - Quanto maior a variabilidade, maior a amostra para um determinado poder Qual é o menor efeito que deve motivar uma resposta da política? Quanto menor o tamanho do efeito que queremos detectar, maior o tamanho da amostra que precisamos para um determinado poder 9

Escolha do Tamanho do Efeito Qual é o menor efeito que deve justificar a adoção de um programa: Custo desse programa vs. os benefícios que ele proporciona Custo desse programa vs. a utilização alternativa do dinheiro Se o efeito for menor do que isso, é melhor que seja zero: não estamos interessados em provar que um efeito muito pequeno é diferente de zero Por outro lado, qualquer efeito maior do que aquele justificaria a adoção do programa: queremos poder diferenciá-lo de zero Perigo comum: escolher um tamanho de efeito demasiadamente otimista o tamanho da amostra poderá ser definido muito baixo! Tamanhos Padronizados de Efeitos O tamanho de um efeito que é possível detectar com uma determinada amostra depende do grau de variabilidade dos resultados. Exemplo: Se todas as crianças tiverem níveis de aprendizado muito semelhantes sem um programa, será fácil detectar um impacto muito pequeno O desvio padrão capta a variabilidade do resultado. Quanto maior a variabilidade, maior o desvio padrão O tamanho do efeito padronizado é o tamanho do efeito dividido pelo desvio padrão do resultado d = tamanho do efeito/desvio padrão Tamanhos de efeito mais comuns: d=0,20 (pequeno) d =0,40 (médio) d =0,50 (grande) 10

Os Fatores do Projeto que Influenciam o Poder O nível de randomização Disponibilidade de uma linha de base Disponibilidade de variáveis de controle e estratificação O tipo de hipótese que está sendo testada. Nível de Randomização: Projeto em Conglomerados Experimentos aleatórios conglomerados são experimentos nos quais as unidades sociais ou conglomerados ("clusters"), e não indivíduos, são designados aleatoriamente para grupos de intervenção Exemplos: Transferências de dinheiro condicionadas Distribuição de mosquiteiros tratados com inseticidas Formação em serviço Aldeias Clínicas de saúde Escolas Complementação de ferro Família 11

Motivo para Adotar a Randomização em Conglomerados Necessidade de minimizar ou remover a contaminação Exemplo: No programa de desverminação, as escolas foram escolhidas como a unidade porque os vermes são contagiosos Considerações básicas sobre viabilidade Exemplo: O programa OPORTUNIDADES não teria sido politicamente viável se algumas famílias fossem incluídas e outras não. Somente escolha natural Exemplo: Qualquer intervenção em educação que afete toda a classe (ex.: vira-folhas, capacitação de professores). Impacto da Formação de Conglomerados Os resultados para todas as pessoas que fazem parte de uma unidade podem ser correlacionados Todos os habitantes da aldeia estão expostos ao mesmo clima Todos os pacientes compartilham um mesmo profissional de saúde Todos os alunos têm um mesmo diretor O programa afeta todos os estudantes ao mesmo tempo Os habitantes de uma aldeia interagem entre si O tamanho da amostra precisa ser ajustado para essa correlação Quanto maior a correlação entre os resultados, maior a necessidade de ampliar a amostra 12

Exemplo do efeito de formação de conglomerados Número de salas de aula, para o poder de 0,80 Intraclasse Alunos em cada sala de aula Correlação 10 50 100 200 0,00 23 7 5 4 0,02 25 10 8 8 0,05 30 16 15 13 0,10 40 25 23 22 Implicações É extremamente importante randomizar um número apropriado de grupos O número de indivíduos nos grupos importa menos do que o número de grupos A "lei de número grande" aplica-se apenas quando o número de grupos que são randomizados aumenta NÃO É POSSÍVEL randomizar no nível do distrito com um distrito tratado e um distrito de controle! [Mesmo com 2.000 estudantes por distrito] 13

Fatores de projeto que influenciam o poder Nível de randomização Disponibilidade de uma linha de base Disponibilidade de variáveis de controle e variáveis de estratificação O tipo de hipótese que queremos testar Disponibilidade de uma Linha de Base Uma linha de base tem três usos principais: Pode verificar se o grupo de controle e o grupo de tratamento eram iguais ou diferentes antes do tratamento Reduzir o tamanho da amostra necessária, mas requer que se faça uma pesquisa antes de iniciar a intervenção: geralmente o custo da avaliação aumenta e o custo da intervenção diminui Pode ser usado para estratificar e formar subgrupos Como computar o poder com uma linha de base: É necessário conhecer a correlação entre duas medidas subsequentes do resultado (por exemplo: consumo medido em dois anos). Quanto mais forte a correlação, maior o ganho. Ganhos muito grandes para resultados muito persistentes, tais como Participação da Força de Trabalho; 14

Os fatores do projeto que influenciam o poder O nível de randomização A disponibilidade de uma linha de base (pesquisa inicial) A disponibilidade de variáveis de controle e de estratificação O tipo de hipótese que se quer testar Variáveis de Controle Se tivermos variáveis adicionais relevantes (ex.: tamanho da escola, características dos estudantes etc.) podemos também ter controle para elas O que importa agora para o poder é, a variação que permanece após o controle daquelas variáveis Se as variáveis de controle explicarem uma grande parte da variância, a precisão aumentará e o requisito de tamanho da amostra diminuirá. Aviso: as variáveis de controle devem incluir apenas variáveis que não sejam INFLUENCIADAS pelo tratamento: variáveis que tenham sido coletadas ANTES da intervenção. 15

Amostras Estratificadas Estratificação: criar BLOCOS por valor das variáveis de controle e randomizar dentro de cada bloco A estratificação assegura que os grupos de tratamento e de controle sejam equilibrados em termos dessas variáveis de controle. Isso reduz a variância por dois motivos: reduzirá a variância do resultado de interesse em cada estrato a correlação de unidades dentro dos conglomerados. Exemplo: se estratificarmos por distrito para um programa agrícola Os fatores agroclimáticos e fatores epidemiológicos associados são controlados O "efeito de governo distrital comum" desaparece. Os Fatores de Projeto que Influenciam o Poder Projeto em conglomerados Disponibilidade de uma Linha de Base Disponibilidade de variáveis de controle e estratificação O tipo de hipótese que está sendo testada 16

A Hipótese que está sendo Testada Você está interessado na diferença entre dois tratamentos bem como na diferença entre tratamento e controle? Está interessado na interação entre os tratamentos? Está interessado em testar se o efeito é diferente em subpopulações diferentes? Seu projeto envolve somente conformidade parcial? Lembre-se! O número de grupos é muito mais importante do que o número de indivíduos Escolas vs. estudantes, aldeias vs lares Dois tipos de erro Tipo I: Pensar que há um efeito quando não há nível Tipo II: Pensar que não existe efeito quando na verdade existe poder Para evitar erros é necessária uma amostra suficiente o cálculo do poder 17

Cálculos de Poder Usando o Software OD Escolher "Poder vs. número de conglomerados" no menu "ensaios randomizados conglomerados" http://sitemaker.umich.edu/group-based/optimal_design_software Tamanho do Conglomerado Escolher o tamanho do conglomerado 18

Escolha do Nível de Significância, Efeito do Tratamento e Correlação Escolher nível a: Geralmente escolhe-se 0,05 Escolher d: É possível fazer o experimento com 0,02 Escolher a correlação intraclasse (rho) Obteremos o mesmo gráfico que apresenta o poder como uma função do tamanho da amostra Poder e Tamanho da Amostra 19

Lembre-se! O número de grupos é muito mais importante do que o número de indivíduos Escolas vs. estudantes, aldeias vs. lares Dois tipos de erro Tipo I: Pensar que há um efeito quando não há nível Tipo II: Pensar que não existe efeito quando na verdade existe poder Para evitar erros é necessária uma amostra suficiente o cálculo do poder Conclusões: Cálculo do Poder na Prática O cálculo de poder envolve um pouco de conjectura Algumas vezes não dispomos das informações corretas para realizá-lo adequadamente Contudo, é importante dedicar um esforço a eles: Evitar implantar estudos que não terão qualquer poder: desperdício de tempo e dinheiro Dedicar os recursos apropriados aos estudos que você decide realizar (e não em demasia). 20