ANALISE DE INDICADORES SOCIAIS UTILIZANDO O STATA

Transcrição

1 ANALISE DE INDICADORES SOCIAIS UTILIZANDO O STATA Henrque Dantas Neder Professor Assocado Insttuto de Economa Unversdade Federal de Uberlânda 1

2 Conteúdo 1. Introdução Construção e Interpretação de Indcadores Socas O Índce de Desenvolvmento Humano (IDH) Índces de pobreza Lnhas de Pobreza Indces de dstrbução de renda Decomposção de Índces de Pobreza e Índces de Dstrbução de Renda Cálculo dos coefcentes de elastcdade-gn e elastcdade-renda da pobreza Cálculo dos coefcentes de elastcdade-gn e elastcdade-renda da pobreza Avalação de polítcas socas Métodos Quanttatvos de Avalação de Programas Socas Introdução a Inferênca Causal Estmação pela Dupla Dferença O Modelo de Regressão Logístca Método do Propensty Score Matchng Análse de Sensbldade para o Método do Propensty Score Matchng Modelo de Heckman Introdução aos Métodos de Amostragem e Interpretação de dados amostras Introdução Termos e Defnções de Amostragem Métodos de Seleção de Amostras Delneamentos de Amostras Varáves Aleatóras e Dstrbuções Amostras Estmação Amostragem Aleatóra Smples Dmensonamento de Amostras Tamanho amostral para Amostra Aleatóra Smples (AAS) Tamanho Amostral com Correção de População Fnta Amostragem Aleatóra Estratfcada Escolha das varáves de estratfcação Dstrbução da Amostra por Estratos a) Repartção Proporconal b) Repartção ótma de Neyman Ponderação da Amostra Pós-estratfcação ou Estratfcação após a Amostragem Amostragem com Probabldade Desgual Amostragem por conglomerados Procedmentos de Campo para Seleção de Amostras Domclares Método da Segmentação Método do Passeo Aleatóro Versão Método do Passeo Aleatóro Versão Amostragem por área Amostragem utlzando recursos de nformátca Utlzação do Excel Utlzação do SPSS Utlzação do STATA Utlzação do SAS

3 4.15 Bootstrappng Exercícos Referencas Bblográfcas ANEOS Quadro 1 Sstema de ponderação do IDH e do ICV muncpal... 6 Quadro 2 Todas as amostras de 2 elementos de uma população de 5 elementos (amostragem com reposção) Quadro 3 Valores das médas amostras de amostras de 2 elementos seleconados de uma população de 5 elementos (amostragem com reposção) Quadro 4 Smulação de uma amostragem com reposção de uma população hpotétca de 5 elementos Quadro 5 Memóra de cálculo das médas e varâncas de uma amostra seleconada de uma população hpotétca de 5 elementos Quadro 6 Smulação de uma amostragem sem reposção de uma população hpotétca de 5 elementos Quadro 7 Prncpas Estmadores utlzados em amostragem Quadro 8 Valores hpotétcos de uma amostra aleatóra estratfcada Quadro 9 Pós-estratfcação da amostra Fgura 1- Cálculo do IDH muncpal de acordo com um exemplo... 8 Fgura 2 Edtor de dados do STATA com os dados do IDH para os muncpos do Estado de Mnas Geras Fgura 3 Matrz de correlação entre os valores do IDH e de seus componentes para os muncípos do Estado de Mnas Geras Fgura 4 Coefcentes de correlação de Spearman entre os dversos componentes do IDH e para os muncípos do Estado de Mnas Geras Fgura 5 Estatístcas descrtvas para o IDH e seus componentes e para os muncípos de Mnas Geras Fgura 6 Seleçao de um numero aleatoro em um ntervalo de dos numeros nteros através do Excel Fgura 7 Seleçao de 10 numeros aleatoros entre 1 e 100 através do Excel. 81 Fgura 8 Seleçao de numeros aleatoros em um ntervalo entre dos numeros nteros no Stata Fgura 9 Seleçao de uma amostra com probabldade proporconal ao tamanho através do Stata Fgura 10 Ilustração do Teorema do Lmte Central para uma dstrbução lognormal Fgura 11 Ilustração do Método da Segmentação Fgura 12 Mapa de um Hpotétco Setor Amostral mostrando Possíves Pontos de Partda Método do passeo aleatóro Fgura 13 Amostragem por área Gráfco 1 Dagrama Box Plot para as dstrbuções do IDH 1991 e IDH 2000 dos muncípos do Estado de Mnas Geras

4 Gráfco 2 Dagrama Box Plot para as dstrbuções do IDH 1991 e IDH 2000 dos muncípos do Estado de Mnas Geras Gráfco 3 Hstogramas do IDH educação para os muncípos de Mnas Geras Tabela 1 Lnhas de Pobreza calculadas a partr da POF87-88(IBGE) e ajustadas a cada ano pela varação dos INPC regonas em nível de grupos de produtos Introdução Os prncípos geras para a estmatva e análse de ndcadores socas baseam-se em dversas teoras e neste trabalho não vamos nos concentrar detalhadamente nas mesmas. O que pretendemos é enumerar e descrever algumas metodologas que se relaconam ao cálculo, estmatva e analse destes ndcadores. O objetvo geral do trabalho está crcunscrto a analse de dados que se relaconam a pesqusas socoeconômcas e relatvas a polítcas publcas. 2. Construção e Interpretação de Indcadores Socas 2.1 O Índce de Desenvolvmento Humano (IDH) O prmero ndcador a ser tratado e o que é mas consagrado, devdo ao seu uso dssemnado, é o IDH. Este índce é um ndcador sntétco de desenvolvmento calculado em termos agregados e tem sdo utlzado para medr comparatvamente o nível de desenvolvmento de países e regões. De medato este ndcador ganhou grande ampltude e acetação unversal devdo a sua smplcdade de calculo e facldade de obtenção mesmo para países com sstemas estatístcos não desenvolvdos. Trata-se de uma meda ponderada de três varáves que representam três dmensões báscas de desenvolvmento: a renda, a educação e a saúde. Para o Brasl, a Fundação João Pnhero em conjunto com o IPEA desenvolveu uma metodologa de calculo do IDH muncpal (Índce de Desenvolvmento Humano Muncpal) e do ICV (Índce de Condções de Vda 4

5 Muncpal) baseados em 5 dmensões báscas: renda, educação, nfânca, habtação e longevdade. Cada uma destas dmensões é representada por um conjunto de ndcadores. A dmensão Renda é formada pelos ndcadores renda famlar per capta, índce de Thel, proporção de pobres (P 0 ), hato de pobreza (P 1 ) e hato de renda quadrátco médo (P 2 ). A dmensão Educação é representada pelas varáves numero médo de anos de estudo, Porcentagem da população com menos de quatro anos de estudo, Porcentagem da população com menos de oto anos de estudo, Porcentagem da população com mas de 11 anos de estudo e Taxa de analfabetsmo. A dmensão Infânca é formada pelos seguntes ndcadores: Defasagem escolar méda, Porcentagem de cranças com mas de um ano de defasagem escolar, Porcentagem de cranças que não freqüentam a escola e Porcentagem de cranças que trabalham. A dmensão Habtação é composta pelas varáves: Porcentagem da população que vve em domcílos com densdade acma de duas pessoas por dormtóro, Porcentagem da população que vve em domcílos duráves, Porcentagem da população urbana que vve em domcílos com abastecmento adequado de água, Porcentagem da população urbana que vve em domcílos com nstalações adequadas de esgoto. Fnalmente a dmensão Longevdade composta pelos ndcadores Esperança de vda ao nascer e a Taxa de mortaldade nfantl. Mostramos a segur o sstema de ponderação destes dos índces 1 : 1 Esta tabela fo dretamente reproduzda da DEFINIÇÃO E METODOLOGIADE CÁLCULO DOS INDICADORES E ÍNDICES DE DESENVOVIMENTO HUMANO E CONDIÇÕES DE VIDA - Fundação João Pnhero (FJP) e do Insttuto de Pesqusas Econômcas Aplcadas (IPEA.) 5

6 Quadro 1 Sstema de ponderação do IDH e do ICV muncpal 6

7 Como se observa da tabela acma, cada índce consttu-se de uma meda ponderada obtda a partr de algumas varáves. No caso do IDH muncpal, é calculado como uma meda ponderada das dmensões Renda, Educação e Longevdade, com pesos guas a 1/3 para cada destas dmensões. Conseqüentemente o IDH muncpal é smplesmente uma meda ponderada dos três subíndces que o compõem. Para a dmensão Renda temos que no caso do IDH muncpal, esta é apenas composta pela renda famlar per capta meda ajustada. O mesmo se dá para a dmensão de Longevdade que é representada apenas pelo ndcador Esperança de Vda ao Nascer (anos). No entanto, para a dmensão Educação, o IDH muncpal utlza em seu calculo duas varáves: taxa de analfabetsmo (%) com peso 2/9 e numero médo de anos de estudo (anos) com peso 1/9. Estes pesos se referem ao índce fnal. Por exemplo, suponhamos que um determnado muncípo tenha uma renda meda per capta famlar ajustada gual a 0,950 saláros mínmos de setembro de , uma taxa de analfabetsmo de 40 %, um numero médo de anos de estudo de 5,3 anos e uma esperança de vda ao nascer de 61 anos. O valor de seu IDH será dado pela expressão: IDH = 1/3 x Índce de Renda + 1/3 x Índce de Habtação + 1/3 x Índce de Longevdade = 1/3 x renda famlar per capta meda ajustada + 2/9 x Taxa de analfabetsmo (%) + 1/9 x numero médo de anos de estudo padronzado + 1/3 x Esperança de Vda ao Nascer padronzada = 1/3 x (0,950 0,050)/ (1,364 0,050) + 2/9 x 0,40 + 1/9 x (5,3 0)/(15 0) + 1/3 x (61 25) / (85 25) = 0,556 No Stata este calculo pode ser realzado através do comando (ver tela abaxo): dsp 1/3*( )/( )+2/9*0.40+1/9*(5.3-0)/(15-0)+1/3*(61-25)/(85-25) 2 Os valores da renda famlar per capta estão expressos em saláros mínmos de setembro de 1991, sendo de Cr$ ,60 o valor do saláro mínmo nesta data. 7

8 Esta expressão deve ser escrta na lnha de comando e em seguda atvar a tecla enter. Fgura 1- Cálculo do IDH muncpal de acordo com um exemplo A Fundação João Pnhero e o IPEA na dvulgação da metodologa de calculo adotam um procedmento de padronzação dos índces utlzando a expressão a segur: índce padronzado = (valor observado para o ndcador - por valor) / (melhor valor - por valor) Esta expressão fo empregada no calculo anteror para a padronzação da renda famlar per capta meda em saláros mínmos, do numero médo de anos de estudo e da esperança de vda ao nascer. No caso da taxa de analfabetsmo não é necessára padronzação pos a mesma vara de 0 (0%) a 1 (100%). Esta 8

9 operação de padronzação preva dos ndcadores é necessára para que a escala orgnal de varação e as undades de medda dos mesmos não dstorçam o calculo fnal do IDH favorecendo o efeto de alguns índces no calculo da meda ponderada. Suponhamos outro exemplo em que se deseja calcular o ICV para um determnado muncípo. Com é mostrado no Quadro 1, este índce é calculado com base em um numero maor de ndcadores e dmensões báscas. A renda famlar per capta é defnda a soma da renda pessoal de todas as pessoas da famíla excluídos os pensonstas e os empregados doméstcos e seus parentes (são também excluídas as famílas que não pertencem a domcílos partculares por exemplo, famílas ou ndvíduos que fazem parte de domcílos coletvos que são hotés, pensões, alojamentos). Para obter os ndcadores utlzados no calculo do Índce de Desenvolvmento Humano Muncpal, faça o download do Atlas de Desenvolvmento Humano no ste e o nstale no seu computador. Vamos fazer um pequeno exercíco analítco utlzando os valores do IDH (e de seus componentes) para todos os muncípos de Mnas Geras. Depos de exportar estes valores para uma planlha Excel (exste uma opção para sto no Atlas de Desenvolvmento Humano), copamos e colamos estes valores para o edtor de dados do STATA. Mas antes dsto é necessáro alterar o separado de decmal de vírgula para ponto no Excel. Isto é necessáro porque o STATA reconhece o separador de decmal como ponto. É mportante antes de copar os dados do Excel para o STATA, colocar na prmera lnha os nomes abrevados das varáves. Quando for feta a copa para o edtor de dados, o STATA automatcamente rá reconhecer os valores da prmera lnha como sendo os nomes das varáves. 9

10 Fgura 2 Edtor de dados do STATA com os dados do IDH para os muncpos do Estado de Mnas Geras Podemos ncar a nossa analse calculando a matrz de correlação entre os valores dos dversos componentes do IDH para 853 muncípos de Mnas Geras. Para sto, na janela de comandos do STATA dgte correlate e passe os nomes das varáves que estão na janela de varáves para a janela de comandos (basta clcar nas varáves que seus nomes vão se transferndo para a janela de comandos em seguda a palavra chave correlate. Aperte a tecla enter e surgrá na janela de resultados a matrz de correlação. 10

11 Fgura 3 Matrz de correlação entre os valores do IDH e de seus componentes para os muncípos do Estado de Mnas Geras Observe que o IDH1991 e o IDH2000 tem uma elevada correlação (0,9618) o que ndca que pratcamente os muncípos conservaram as mesmas colocações durante o período. Para confrmar sto execute o comando spearman dh1991 dh2000. O resultado para o coefcente de correlação de Sperman (correlação de ordem) é de 0,9623 confrmando que os muncípos de Mnas Geras não alteraram substancalmente as suas posções no rankng do IDH global. Façamos esta verfcação para os componentes ndvduas do IDH. spearman dhedu1991 dhedu2000 <enter> spearman dhlong1991 dhlong2000 <enter> spearman dhrend1991 dhrend2000 <enter> 11

12 Pode-se observar que o componente do IDH que mas alterou o seu rankng entre os muncípos do Estado de Mnas Geras no período fo o de longevdade. Fgura 4 Coefcentes de correlação de Spearman entre os dversos componentes do IDH e para os muncípos do Estado de Mnas Geras Um gráfco muto nteressante para a análse comparatva das dstrbuções estatístcas do IDH1991 e IDH2000 pode ser obtdo através do comando: graph box dh1991 dh2000, marker(1,mlabel(muncpo)) Este gráfco também podera ser obtdo através do menu Graphcs => Box plot No entanto, prefermos utlzar dretamente o comando dada a maor flexbldade de recursos (por exemplo, nclur a possbldade de marcar os muncípos com baxo valor do IDH 1991 que aparecem no gráfco). Pelo 12

13 pode-se observar que a dstrbução do IDH desloca-se para valores mas elevados: a medana (que é a lnha ntermedara no meo da caxa) va para cma de 1991 para 2000, assm como também o prmero quartl (face nferor da caxa) e o tercero quartl (face superor da caxa). O valor mínmo do IDH em 1991 que corresponda ao muncípo de Santo Antono do Retro era gual a 0,42 e passa a ser 0,57 (correspondente a ordenada da extremdade nferor da lnha vertcal que sa da caxa) em Ao mesmo tempo o valor máxmo passa de 0,79 em 1991 para 0,84 em 2000 (que corresponde a extremdade superor da lnha vertcal que sa da caxa central do dagrama) Setubnha (MG) Santo Antôno do Retro (MG) IDH1991 IDH2000 Gráfco 1 Dagrama Box Plot para as dstrbuções do IDH 1991 e IDH 2000 dos muncípos do Estado de Mnas Geras Para a comparação entre os dos índces correspondentes a longevdade tentamos o segunte comando: 13

14 graph box dhlong1991 dhlong2000, marker(1, mlabel(muncpo) msze(tny) mlabsze(muncpo)) marker(2, mlabel(muncpo) msze(tny) mlabsze(tny)) Este últmo comando especfca nas opções msze e mlabsze os tamanhos dos labels ds muncípos que aparecem no gráfco como dados dscrepantes (outlers). Mas nfelzmente este comando não é aproprado pos ocorre muta sobreposção de nomes de muncípos como outlers no gráfco. Estes outlers são observações cujo valor da varável é nferor (superor) a 1,5 vezes a dstanca entre as duas faces da caxa (desvo nterquartílco) contada a partr da ordenada correspondente a face nferor (superor). A últma observação encontrada acma (abaxo) deste lmte é denomnada valor extremo e as observações nferores (superores) são outlers. Para maor vsbldade e evtando a sobreposção de labels vamos executar o comando: IDHLONG1991 IDHLONG2000 Gráfco 2 Dagrama Box Plot para as dstrbuções do IDH 1991 e IDH 2000 dos muncípos do Estado de Mnas Geras 14

15 Vemos que para o ano 1991 temos dversos outlers nferores que correspondem a muncípos com valores do IDH longevdade nferores de forma dscrepante em relação ao conjunto da dstrbução desta varável. Outra mportante consderação pode ser obtda através da analse de um smples calculo de estatístcas descrtvas para os ndcadores: summa dh1991 dh2000 dhedu1991 dhedu2000 dhlong1991 dhlong2000 dhrend1991 dhrend2000 Para todos os ndcadores observa-se uma elevação dos valores mínmos, valores máxmos e medas das dstrbuções. Ocorre também uma redução do desvo padrão do dh e dhedu. Uma tabulação mas detalhada de estatístcas descrtvas (e com melhor dsposção tabular mas aproprada para a copa em um documento de texto) pode ser obtda através do comando: tabstat dh1991 dh2000 dhedu1991 dhedu2000 dhlong1991 dhlong2000 dhrend1991 dhrend2000, s(mn max mean sd cv sk) c(s) Este comando tambem pode ser atvado va menu atraves da sequenca Statstcs => Summares, tables and tests => Tables => Table of Summary Statstcs (tabstat). Deve-se então nclur as varáves na janela Varables localzada na aba Man, colocar as estatístcas na janela Statstcs to dsplay e na aba optons colocar Statstcs na janela Use as columns. 15

16 Fgura 5 Estatístcas descrtvas para o IDH e seus componentes e para os muncípos de Mnas Geras Pela Fgura 5 é nteressante observar duas característcas mportantes das dstrbuções do IDH muncpal e de seus componentes: a dspersão relatva medda pelo coefcente de varação (cv) e a assmetra medda pelo coefcente de assmetra de Pearson (skewness). Verfca-se que todas as varáves têm sua dspersão relatva reduzda no período e com exceção do índce de renda, todos os demas tem sua assmetra (em termos de valor absoluto) reduzda no mesmo período. As dstrbuções tornam-se menos dspersas em relação as suas respectvas medas e com assmetra menos acentuada em dreção a valores mas elevados (assmetras menos negatvas). Vamos analsar o que efetvamente ocorre com a dstrbução do IDH educação que tem o seu coefcente de varação reduzdo de 0,1369 para 0,0764 e seu coefcente de assmetra reduzdo em termos absolutos de 0,6905 para 0,4166. Uma analse gráfca pode ser obtda através dos seguntes comandos: 16

17 hstogram dhedu1991, name(dh1991educ, replace) hstogram dhedu2000, name(dh2000educ, replace) graph combne dh1991educ dh2000educ Densty IDHEDU1991 Densty IDHEDU2000 Gráfco 3 Hstogramas do IDH educação para os muncípos de Mnas Geras A redução do coefcente de varação pode ser em grande parte explcada pelo aumento do IDH educação dos muncípos com por stuação em termos deste ndcador em 1991 e que tnha um valor de 0,4 a 0,57 que tveram seus valores elevados a valores superores a este ultmo lmte. Portanto os muncípos que anterormente tnham valores muto dstancados da meda estadual passaram a ter valores mas próxmos da mesma. As reduções do coefcente de varação e do valor absoluto do coefcente de assmetra ndcam que ocorreu um processo de unformzação dos valores do IDH educação para os muncípos. O grande salto do lmte nferor para este ndcador de 0,35 em 1991 para 0,57 em 2000 comprova esta unformzação. Outro índce que fo desenvolvdo recentemente em trabalhos de pesqusa é o Índce de Desenvolvmento Rural (IDR). Este ndcador guarda semelhanças de metodologa com o IDH e o ICV muncpal, dentro de uma 17

18 concepção de smplcdade. No entanto ele fo proposto para medr especfcamente o nível de desenvolvmento rural, concentrando-se em ndcadores báscos mas aproprados a esta realdade. A defnção destes ndcadores báscos e como é o cálculo do IDR encontra-se na tabela a segur: 18

19 O IDR basea-se em 4 dmensões báscas (população, bem estar socal, econômca e ambental) sendo cada uma destas calculada com base em alguns ndcadores. Cada uma destas dmensões é uma meda artmétca das varáves que a compõem e o IDR é por sua vez uma meda artmétca dos ndcadores compostos que representam as 4 dmensões. O mesmo procedmento de padronzação empregado no calculo do IDH e ICV muncpal é também adotado para algumas varáves que requerem esta transformação. A fundamentação teórca para a utlzação de cada varável pode ser encontrada em Slva (2006) e em Kageyama (2004). 19

20 2.2 Índces de pobreza Os índces de pobreza mas utlzados na lteratura são: o Poverty Headcount (proporção de pobres P 0 ), o Poverty Gap (Gap de Pobreza P 1 ) e o Squared Poverty Gap (Gap de Pobreza elevado ao quadrado P 2 ), todos fazendo parte da classe de índces FGT (Foster, Greer e Thorbecke, 1984). Estes índces são calculados com base nas seguntes expressões: P 0 q P1 = n = 1 z P 2 q = n 1 z y q 1 z y = n = 1 z 2 onde: q é o número de pobres (pessoas cuja renda per capta domclar é menor que a lnha de pobreza). n é o tamanho da população z é a lnha de pobreza y é a renda per capta domclar da -ésma pessoa O prmero índce (Poverty Headcount) mede a proporção de pessoas pobres, ou seja, a proporção de pessoas que têm renda per capta domclar nferor à lnha de pobreza. Tal ndcador é utlzado como ponto de partda para estudos sobre pobreza, mas é nsufcente para analsá-la dado que vola dos mportantes axomas. Em prmero lugar, o ndcador não se altera ao se reduzr a renda de uma pessoa stuada abaxo da lnha de pobreza ou o nverso, sto é, quando a renda eleva-se sem alcançar a lnha de pobreza o ndcador permanece o mesmo. Em segundo lugar, a proporção também é nsensível à dstrbução de renda entre os pobres, não se alterando quando se transfere renda de um ndvíduo mas pobre para outro menos pobre. Sendo assm, a proporção de 20

21 pobres deve ser utlzada em conjunto com outros dos ndcadores, que se complementam mutuamente. O segundo índce ( poverty gap ) mede a ntensdade de pobreza para o conjunto da população pobre através do cálculo do desvo médo entre a renda dos pobres e o valor da lnha de pobreza e pode ser nterpretado como um ndcador do défct de pobreza, ou seja, os recursos necessáros para elevar a renda de todos os pobres ao nível da lnha de pobreza, através de uma perfeta focalzação das transferêncas de renda. O tercero índce (Squared Poverty Gap) é geralmente descrto como um ndcador de severdade da pobreza. Na construção deste índce utlza-se um peso maor para as pessoas mas pobres (o gap de pobreza é ponderado por s mesmo) e leva-se em conta a desgualdade de renda entre os pobres. Consderando-se a utlzação destes índces para os propóstos de polítcas públcas de combate à pobreza a proporção de pobres (P 0 ) atrbu maor efetvdade à polítcas que elevam a renda dos menos pobres (aqueles cuja renda é mas próxma de z). Já o gap de pobreza (P 1 ) e o gap de pobreza ao quadrado (P 2 ) colocam ênfase naqueles que estão muto abaxo de z, ou seja, os mas pobres dos pobres. 2.3 Lnhas de Pobreza Exste uma mensa dscussão sobre métodos de obtenção de lnhas de pobreza. Os métodos baseam-se nvaravelmente em procedmentos de obtenção de um valor monetáro mínmo necessáro para uma famíla (em termos per capta) consegur manter-se em termos de necessdades nutrconas, habtaconas, saúde, educação, etc. Parte-se da obtenção de uma lnha de ndgênca e sobre o valor desta acrescenta-se um fator que representará os gastos não almentares. A lnha de ndgênca é normalmente baseada em termos normatvos, ou seja, os valores de um conjunto de bens almentares necessáros para a manutenção de uma famíla. O fator que multplca este valor é gual ao nverso do coefcente de Engel que é por sua vez gual a relação meda, vgente entre as famílas pobres, entre os gastos com consumo almentar sobre o total dos 21

22 gastos. Este ultmo ndcador é obtdo através das Pesqusas de Orçamento Famlares que são realzadas perodcamente pelo IBGE. Como exemplo apresenta-se na 22

23 Tabela 1 a segur, as lnhas de pobreza, para os anos da década atual. 23

24 Tabela 1 Lnhas de Pobreza calculadas a partr da POF87-88(IBGE) e ajustadas a cada ano pela varação dos INPC regonas em nível de grupos de produtos Regões e set. / 01 set. / 02 set. / 03 set. / 04 set. / 05 set. / 06 Estratos em R$ em S.M. em R$ em S.M. em R$ em S.M. em R$ em S.M. em R$ em S.M. em R$ em S.M. Norte Belém Urbano Rural Nordeste Fortaleza Recfe Salvador Urbano Rural Mnas 24

25 G./Esp.S. Belo Horzonte Urbano Rural Ro de Janero Metrópole Urbano Rural São Paulo Metrópole Urbano Rural Sul Curtba

26 P.Alegre Urbano Rural Centro- Oeste Brasíla Goâna Urbano Rural

27 Para utlzar estas lnhas de pobreza em cálculos de índces de pobreza procede-se da segunte forma. A partr do CD de mcro-dados de uma PNAD (por exemplo, a PNAD 2006), utlza-se o comando nfx do STATA para mportar os dados em formato txt. Para a utlzação correta deste comando deve-se levar em conta o lay-out do arquvo de mcro-dados. Este arquvo que é fornecdo dentro do CD de mcro-dados pelo IBGE apresenta o formato de dsposção dos dados. As varáves são organzadas em um formato fxo, de forma que todas ocupam a mesma posção nas lnhas de regstro do arquvo. Um exemplo típco deste comando é mostrado a segur: *///////////////////////////////////////////////////////////////////// * LEITURA DOS DADOS DA PNAD VARIAVEIS DO ARQUIVO DE PESSOAS *///////////////////////////////////////////////////////////////////// nfx ano 1-4 uf 5-6 controle 5-12 sere ordem sexo dade /// conddom condfam numfam cor sabeler freqescol /// stescol trabnfano trabnfsem trabalha afastado /// subsst construcao numtrab rend_apos /// rend_pens rend_oapo rend_open rend_abon /// rend_alug rend_doac rend_jur anosest /// condatv condocu posocup horastrab /// atvprn ramos grupoocup contrb rend_tra /// rend_tra rend_toda rend_dom rend_fa /// tpofam numfam numfam rend_fa /// areacen stcen pesopes pesofam /// numcr numdom rend_dom /// usng "D:\PNAD\PNAD2004\Dados\pes2004.txt" Este comando le para o STATA um arquvo txt contendo os mcrodados do CD da PNAD. Após a letura executamos os comandos para a defnção da stuação de pobreza de cada pessoa na amostra. Em prmero lugar geramos uma varável (LP) que conterá os valores das lnhas de pobreza de acordo com a localzação da pessoa da amostra (Undade da Federação, stuação censtára e área censtára). 27

28 *////////////////////////////////////////////////////////////////////////////////////////////// * COLOCACAO DAS LINHAS DE POBREZA NO ARQUIVO *////////////////////////////////////////////////////////////////////////////////////////////// gene lp =. replace lp = f uf == 15 & areacen == 1 replace lp = f uf >= 11 & uf <= 17 & stcen <= 3 & areacen!= 1 replace lp = f uf >= 11 & uf <= 17 & stcen > 3 & areacen!= 1 replace lp = f uf == 23 & areacen == 1 replace lp = f uf == 26 & areacen == 1 replace lp = f uf == 29 & areacen == 1 replace lp = f uf >= 21 & uf <= 29 & stcen <= 3 & areacen!= 1 replace lp = f uf >= 21 & uf <= 29 & stcen > 3 & areacen!= 1 replace lp = f uf == 31 & areacen == 1 replace lp = f uf >= 31 & uf <= 32 & stcen <= 3 & areacen!= 1 replace lp = f uf >= 31 & uf <= 32 & stcen > 3 & areacen!= 1 replace lp = f uf == 33 & areacen == 1 replace lp = f uf >= 33 & uf <= 33 & stcen <= 3 & areacen!= 1 replace lp = f uf >= 33 & uf <= 33 & stcen > 3 & areacen!= 1 replace lp = f uf == 35 & areacen == 1 replace lp = f uf >= 35 & uf <= 35 & stcen <= 3 & areacen!= 1 replace lp = f uf >= 35 & uf <= 35 & stcen > 3 & areacen!= 1 replace lp = f uf == 41 & areacen == 1 replace lp = f uf == 43 & areacen == 1 replace lp = f uf >= 41 & uf <= 43 & stcen <= 3 & areacen!= 1 replace lp = f uf >= 41 & uf <= 43 & stcen > 3 & areacen!= 1 replace lp = f uf == 53 & areacen == 1 replace lp = f uf == 52 & areacen == 1 replace lp = f uf >= 50 & uf <= 53 & stcen <= 3 & areacen!= 1 replace lp = f uf >= 50 & uf <= 53 & stcen > 3 & areacen!= 1 Se a renda famlar per capta correspondente a esta pessoa for nferor a lnha de pobreza ela será consdera pobre. Desta forma, cramos uma varável 28

29 categórca (dummy) que será gual a 1 em caso de pobreza e gual a 0 em caso contraro. gen rendapc = rend_fa1 / numfam1 gen pobre = 1 f rendapc < lp Para fazer as analses de pobreza é necessáro nstalar alguns programas no corpo básco do STATA. Para fazer sto dgte na lnha de comando fndt poverty. Procure a referenca ao programa apoverty e o nstale. Este programa calcula índces de pobreza baseado em uma dstrbução de renda descrta por uma varável. apoverty rendapc [fw=pesopes], varpl(lp) Outro comando que detalhará o resultado será: apoverty rendapc [fw=pesopes], varpl(lp) all Este comando rá gerar uma multplcdade de ndcadores de pobreza 3 : Poverty measures of rendapc rendapc Headcount rato % Extreme Poverty Headcount rato % Aggregate poverty gap 3.92E+09 Per capta poverty gap Poverty gap rato % Income gap rato % Uma boa forma de recuperar uma tabela resultados do STATA e exportá-los para um arquvo de texto é seleconar esta tabela na janela de resultados, copar como HTML (Copy Table as HTML) e colar em um arquvo Excel para posterormente copar esta tabela para o processador de texto. Esta forma é um pouco complcada, mas a que surte melhores efetos. Iremos adante tratar de formas mas automatzadas de recuperar resultados do STATA. 29

30 Watts ndex Index FGT(0.5) * Index FGT(1.5) * Index FGT(2.0) * Index FGT(2.5) * Index FGT(3.0) * Index FGT(3.5) * Index FGT(4.0) * Index FGT(4.5) * Index FGT(5.0) * Clark et al. ndex (0.10) * Clark et al. ndex (0.25) * Clark et al. ndex (0.50) * Clark et al. ndex (0.75) * Clark et al. ndex (0.90) * Thon ndex * Sen ndex * Takayama ndex * A Tabela acma lsta dversos ndcadores de pobreza para o Brasl em Em prmero lugar, o Poverty rato de 32,34 % que é a proporção de pobres também conhecdo como índce FGT(0). Temos também o Poverty Gap rato % com um valor de 14,354 % que é também conhecdo como FGT(1).Este valor que sgnfca que em meda os pobres tem uma renda que é nferor em 14, 35 % a renda correspondente a lnha de pobreza. Este índce mede a ntensdade da pobreza entre os pobres. O agregate poverty gap corresponde ao valor da renda necessára para ser transferda aos pobres em termos agregados para que todos as famílas pobres tvessem uma renda per capta famlar elevada ao valor da lnha de pobreza. Neste caso, o valor da tabela de 3,92 x 10 9, ou seja, R$ 3,920,000,000 (pratcamente 4 blhões de reas mensas ou 47 blhões de reas anuas) que sera o montante de transferênca de renda necessáro para elmnar a pobreza no Pas, de 30

31 acordo com este crtéro. Naturalmente, estamos admtndo aqu que todas as pessoas pobres receberam o montante exatamente gual ao gap de pobreza de sua famíla (a dferença entre a lnha de pobreza e a correspondente renda famlar per capta). O comando help apoverty permtrá a vsualzação dos recursos contdos no programa apoverty. Um dos mas nteressantes é a possbldade de recuperar os seus resultados em localzações de memóra no formato r(). Logo após a execução do comando apoverty podemos executar o comando return lst. Este ultmo comando permtrá vsualzar as localzações de memóra que o STATA reserva em sua área de memóra para as varáves calculadas pelo ultmo comando (neste caso o apoverty). Este recurso será útl quando estvermos trabalhando com um grande volume e dversdade de estmatvas de índces de pobreza e qusermos recuperar os resultados destes cálculos e exportá-los para um arquvo exteror (a smples vsualzação dos resultados na janela de resultados do STATA não é muto aproprada para este tpo de operação pos não permte a exportação de dados de uma forma automátca como veremos em uma aplcação futura). Cada localzação de memóra passa a ter um nome especfco. Por exemplo, o numero total de observações na amostra utlzado para a estmação dos índces de pobreza fca armazenado em r(nobs), o índce FGT(0) ou headcount rato fca armazenado em r(head_1). Observe também que o STATA gera uma matrz r(b) com os valores de todos os ndcadores. 2.4 Indces de dstrbução de renda O índce de dstrbução de renda mas conhecdo e de maor aplcação é o Índce de Gn. Mas alem deste, exste uma nfndade de ndcadores cada um deles com uma propredade especfca. Alguns satsfazem a determnados axomas. Outros têm a propredade de serem decompostos em uma determnada população. Através do STATA e utlzando o mesmo do fle anteror para a letura dos dados do arquvo de pessoas da PNAD 2004, vamos calcular o índce de Gn e outros índces de dstrbução de renda. Para 31

32 explorar a potencaldade deste software na estmatva de ndcadores desgualdade executemos o comando: de fndt nequalty Este comando rá fazer uma busca na web de todos os comandos do STATA dsponíves que se refram ao tema da desgualdade. Dentre os város comandos dsponíves exste o nequal que é um dos mas smples e que realza estmatvas de ndcadores de desgualdade. Busque no vsor que surge após a execução do comando fndt e encontre a referenca sg30 que se refere a uma localzação a partr da qual poderemos nstalar o comando nequal. Após sto atve o lnk <clck here to nstall>. Para uma vsão das capacdades deste comando execute: help nequal A estrutura da sntaxe do comando é: nequal varname [f exp] [n range] [fweghts] Nesta sntaxe está sendo ndcado que devemos dgtar uma palavra obrgatóra que é o nome do comando (nequal) segundo-se o nome da varável referente a qual estamos calcular o ndcador de desgualdade, neste caso a renda per capta famlar. Podemos ntroduzr no comando condconantes do tpo f ou do tpo n, para restrngr o calculo do ndcador a uma sub-amostra. A opção [fweghts], ndca que este comando somente permte ponderação utlzando um tpo de peso chamado frequency weghts (pesos de freqüênca). Este peso deve ter obrgatoramente valores nteros e são pesos de expansão da amostra para o unverso. No caso da PNAD temos justamente dsponíves este tpo de peso e por este motvo não teremos problemas de estmar os ndcadores através do comando nequal. Comecemos com um exemplo: gen rendapc = rend_fa1 / numfam1 32

33 nequal rendapc [fw=pesopes] O STATA calculará os mas mportantes ndcadores de desgualdade: relatve mean devaton coeffcent of varaton standard devaton of logs Gn coeffcent Mehran measure Pesch measure Kakwan measure Thel entropy measure Thel mean log devaton measure Fcamos desconfados do valor elevadíssmo do índce de Gn, revelando uma desgualdade pratcamente perfeta, o que ndcara que pratcamente poucos ndvíduos acumularam a quase totaldade da renda enquanto que a maora fcara com uma baxíssma parcela (quando o Indce de Gn é gual a 1, sgnfca que um únco ndvduo recebe toda a renda da socedade). No entanto apesar de nfelzmente o Brasl ser um dos recordstas a este respeto, sto não sera possível. Para corrgr sto, lembremos que o IBGE codfca os rendmentos não declarados no arquvo de mcrodados com o códgo Então antes de calcular o índce executamos os comandos: drop rendapc replace rend_fa1 =. f rend_fa1 > gen rendapc = rend_fa1 / numfam1 nequal rendapc [fw=pesopes] 33

34 Podemos também calcular índces de dstrbução de renda para dversos cortes da amostra PNAD, correspondendo estes índces a estmatvas para os cortes correspondentes do unverso de pessoas da população braslera de nequal rendapc [fw=pesopes] f uf == 31 gen urb = 1 f stcen <= 3 replace urb = 2 f stcen > 3 label defne urb 1 "urbano" label defne urb 2 "rural", add label values urb urb nequal rendapc [fw=pesopes] f urb == 1 nequal rendapc [fw=pesopes] f urb == 2 nequal rendapc [fw=pesopes] f areacen == 1 nequal rendapc [fw=pesopes] f areacen == 2 nequal rendapc [fw=pesopes] f areacen == 3 Observa-se pela execução dos comandos acma que o Indce de Gn é mas elevado para as áreas urbanas do que para as áreas ruras. Quando estmamos os ndcadores de desgualdade para dversos cortes de amostra consderando a varável areacen (área censtára) verfcamos que o Gn para as áreas metropoltanas é o mas elevado sendo o mas reduzdo para os muncípos não auto-representatvos (muncípos pequenos). Isto já sera esperado dado que a desgualdade de renda reflete a maor ou menor estratfcação socal que torna a renda mas heterogênea. Apesar de que desgualdade de renda e varabldade de renda são dos concetos marcantemente dstntos, podemos dzer com certa cautela que unversos com maor heterogenedade de renda são também unversos com maor concentração de renda (podem ocorrer contra-exemplos hpotétcos). Observa-se que um dos ndcadores de desgualdade que o STATA estma é o coefcente de varação que nada mas é do que um ndcador de varabldade relatva (o resultado da dvsão do desvo padrão da renda per capta famlar pela meda da renda per capta famlar). Sera a dferença tão pequena entre o ndce de Gn para as área metropoltanas ( ) e os muncípos auto-representatvos ( ) que na população não poderíamos rejetar a hpótese nula entre os índces? 34

35 Em outras palavras, será que esta dferença nas amostras é tão pequena que podera ser explcada apelas pela aleatoredade das amostras extraídas de duas populações com índces de Gn (paramétrcos) exatamente guas? Para responder a esta mportante pergunta temos que consderar o delneamento da amostra PNAD. Para fazer sto remos executar uma rotna (do fle) que preparará os mcrodados para realzar uma estmatva mas detalhada. O objetvo fundamental desta rotna é agregar estratos com undades prmaras de amostragem (psu) úncas em outros estratos da mesma undade da federação que tenham maor numero de observações (o detalhamento explcatvo deste procedmento poderá ser encontrado em um dos textos da bblografa). Para que estas modfcações no arquvo sejam fetas é necessáro que seja executada a segunte seqüênca de comandos a partr do edtor de do fles do STATA. Esta seqüênca de comandos é uma rotna que realza a operação para todos as Undades da Federação. * ROTINA DE ALOCACAO DE ESTRATOS COM UM UNICO PSU EM ESTRATOS COM * MAIOR NUMERO DE OBSERVACOES UTILIZANDO O DO.FILE donepsu rendapc - PARA * A VARIAVEL RENDPC - ANO DE 2004 *///////////////////////////////////////////////////////////////////// * LEITURA DOS DADOS DA PNAD VARIAVEIS DO ARQUIVO DE DOMICILIOS *///////////////////////////////////////////////////////////////////// set more off nfx uf 5-6 controle 5-12 sere tpoentrev strat psu /// f tpoentrev == 1 usng "D:\PNAD\PNAD2004\Dados\dom2004.txt", clear sort uf controle sere save "D:\CURSO POLITICAS SOCIAIS\dom2004", replace use "D:\CURSO POLITICAS SOCIAIS\pes2004.dta", clear sort uf controle sere merge uf controle sere usng "D:\CURSO POLITICAS SOCIAIS\dom2004.dta", unqusng tab _merge drop _merge save "D:\CURSO POLITICAS SOCIAIS\pes2004", replace 35

36 use "D:\CURSO POLITICAS SOCIAIS\pes2004.dta", clear keep f uf < 11 gene novo_str =. gene novo_psu =. save "D:\CURSO POLITICAS SOCIAIS\acum.dta",replace capture program drop prog1 program defne prog1 use "D:\CURSO POLITICAS SOCIAIS\pes2004.dta", clear keep f uf == estado gene novo_str = strat gene novo_psu = psu quetly { save "D:\CURSO POLITICAS SOCIAIS\transf.dta",replace use "D:\CURSO POLITICAS SOCIAIS\acum.dta", clear append usng "D:\CURSO POLITICAS SOCIAIS\transf.dta" save "D:\CURSO POLITICAS SOCIAIS\acum.dta",replace } end capture program drop prog2 program defne prog2 use "D:\CURSO POLITICAS SOCIAIS\pes2004.dta", clear keep f uf == estado donepsu rendapc, generate(novo_) strata(strat) psu(psu) quetly { save "D:\CURSO POLITICAS SOCIAIS\transf.dta",replace use "D:\CURSO POLITICAS SOCIAIS\acum.dta", clear append usng "D:\CURSO POLITICAS SOCIAIS\transf.dta" save "D:\CURSO POLITICAS SOCIAIS\acum.dta",replace } end scalar estado =. foreach n 53 { scalar estado = `' prog1 } foreach n { 36

37 } scalar estado = `' prog2 drop strat psu rename novo_str strat rename novo_psu psu svyset [pw=pesopes], strata(strat) psu(psu) save "D:\CURSO POLITICAS SOCIAIS\pes2004.dta", replace Após a execução desta rotna que demanda um consderável ntervalo de tempo (a depender da velocdade do seu mcroprocessador e de sua dsponbldade de memóra RAM) podemos defnr as varáves de delneamento da amostra PNAD: svyset psu, strata(psu) vce(lnearzed) sngleunt(mssng) fndt svylorenz help svylorenz svylorenz rendapc Observe que a saída deste comando rá mostrar nao apenas uma estmatva por ntervalo para o índce de Gn como também o percentual de renda acumulado para cada quantl. O numero de quants default é10, o que sgnfca que o comando subdvde a dstrbução em parcelas correspondentes a 10, 20, 30,..., 100 % dos ndvíduos em ordem crescente de renda e calcula a o percentual de renda acumulada em cada um destes quants. Por exemplo, os 10 % mas pobres da dstrbução de renda no Brasl em 2004 acumulavam 0,6898 % da renda total. Seguem- se os 10 % seguntes mas pobres que acrescentam uma parcela 1,8376 % o que acumula 2,5274 % da renda total. Vemos que a metade mas pobre da população braslera cumula apenas 13,47 % da renda total enquanto a metade mas rca acumula o restante (86,53 %). Para cada um destes valores de quants (tanto o valor para a faxa de percentual da população como o quantl correspondente ao percentual da população 37

38 acumulado) o comando fornece também estmatvas por ntervalo, o que permte aferr a precsão das mesmas. Para a estmatva global do índce de Gn para toda a população braslera podemos ver uma precsão elevada a partr da amostra de mcrodados da PNAD as extremdades do ntervalo de confança de 95 % de probabldade são respectvamente, e Dsto se verfca que o erro de amostragem é de ( )/2 = O erro relatvo é 100*( )/(2* ) = 0.96 %!!! Não podemos garantr a mesma precsão de estmatva para cortes da amostra mas reduzdos. Vejamos por exemplo o valor do índce de Gn para o estado do Acre: svylorenz rendapc f uf == 11 Temos aqu uma varabldade no ntervalo de a que corresponde a um erro relatvo de 7,55 %. Este comando é, desta forma, muto útl para rmos controlando os erros de amostragem de acordo com os cortes amostras (e populaconas correspondentes). Isto é mportante para nos permtr uma analse mas detalhada do comportamento espacal deste ndcador. Um mportante ponto a ser observado é que na sntaxe do comando svylorenz não é exgda a especfcação do peso da pessoa na amostra. Esta especfcação através do comando svyset (que já está ncorporado a rotna de elmnação de estrato com psu únco). O comando svylorenz busca automatcamente esta especfcação de peso e de delneamento da amostra que já está ncorporado ao arquvo de dados. use "D:\CURSO POLITICAS SOCIAIS\pes2004_area_1.dta", clear svylorenz rendapc f areacen == 1 use "D:\CURSO POLITICAS SOCIAIS\pes2004_area_2.dta", clear svylorenz rendapc f areacen == 2 Ao executar o conjunto de 4 comandos acma verfcamos que os ntervalos de confança para os índces de Gn e paras as áreas censtáras regão metropoltana e muncípos auto-representatvos tem uma sobreposção 38

39 (overlap). Isto é uma ndcação de que as estmatvas não têm dferença sgnfcatva. Mas para sermos mas rgorosos em termos de nferênca vamos executar o comando ereturn lst para verfcar quas são os valores que o comando svylorenz armazena em localzações especfcas de memóra. Uma das alternatvas sera executar o comando svylorenz smultabeamente através do mesmo comando para as duas subamostras e medatamente (como uma operação de pos-estmaçao) fazer um teste de dferenças através de um comando denomnado lncom. Mas este procedmento não é possível porque o comando svylorenz não admte uma operação de estmatva de dversos ndces de Gn (um para cada subamostra). A alternatva mas pratca (e acessível) para resolver este problema será a utlzação da técnca (já popularzada) denomnada bootstrappng. Esta técnca consste em estmar a varânca de um ndcador com base na realzação de dversas replcações amostras. Estas replcações amostras são seleções de amostras com reposção de mesmo tamanho a partr da mesma amostra. Por exemplo, se qusermos realzar uma estmatva por bootstrappng a partr da amostra total da PNAD 2004 para todo o Brasl, um comando aproprado rá realzar uma seleção aleatóra com reposção de, por exemplo, 200 amostras aleatóras a partr da mesma amostra da PNAD. É, portanto, uma operação repettva de amostragem (com mesmo tamanho e com reposção) a partr de uma mesma amostra. Como curosdade este nome orgnou-se de um conto do celebre contador de mentras alemão que nventou as Aventuras do Barão de Munchausen. Em um destes contos o Barão vu-se em um lago afundando e com duas longas botas calçadas em suas pernas. Depos de afundar nteramente no lago e como ele tnha dfculdade para nadar, para salvar-se teve que utlzar o segunte fantástco expedente: puxava as abas superores de suas duas botas para cma e desta forma fo fazendo o seu corpo subr até atngr a superfíce. Esta é uma analoga muto nteressante com o bootstrappng. 39

40 Neste fazemos com que a partr da própra amostra construamos a dstrbução amostral do estmador. Na estatístca clássca, as dstrbuções amostras dos estmadores são obtdas teorcamente a partr da realzação repetda de dversas seleções de amostras com mesmo tamanho a partr de uma mesma população. Para cada uma destas amostras calcula-se o valor da estmatva e quando tem-se todas as estmatvas constró-se a dstrbução do estmador. Já no bootstrappng a dferença é que não se dspondo da população (e apenas dos valores de uma únca amostra) seleconam-se amostras replcadas (de mesmo tamanho e segundo as mesmas regras de seleção) a partr da própra amostra. Mas para fazer sto é necessáro que as operações de replcação das dversas amostras sga o mesmo procedmento de amostragem que fo utlzado na seleção da amostra orgnal. Se a amostra seleconada da população fo por AAS então as replcações amostras deverão ser realzadas através de AAS também. No caso da PNAD, como a amostra é complexa (amostragem em estágos), as replcações amostras (amostras com reposção e de mesmo tamanho fetas a partr da própra amostra da PNAD) deverão segur o mesmo padrão de delneamento da amostra orgnal. bootstrap r(gn), reps(200) strata(strat) cluster(psu) force nowarn: nequalr rendapc [fw=pesopes] f uf == 11 Compare os resultados do ntervalo de confança para este ultmo comando com o que vem a segur: svylorenz rendapc f uf == 11 O prmero estma a varânca do Gn através do bootstrappng e o segundo estma através do método da lnearzação de Taylor. Os resultados são muto próxmos. Outro comando que pode ser utlzado para a estmatva de índces de desgualdade estmados a partr de amostras complexas é o svyge. Este comando calcula índces de entropa generalzada. verson 8 svyset [pweght=pesopes], psu(psu) strata(strat) 40

41 svyge rendapc Os índces de desgualdade não precsam ser aplcados necessaramente a renda. Podem também ser aplcados a outros ndcadores como veremos em outra seção adante. 2.5 Decomposção de Índces de Pobreza e Índces de Dstrbução de Renda A análse dos valores dos índces de pobreza e de dstrbução de renda para o conjunto da população tem valdade, mas fca lmtada quando desejamos aprofundar o comportamento destes ndcadores para grupos socas mas detalhados. Uma boa manera de superar esta lmtação é estmar estes ndcadores para cortes da amostra e controlar a precsão das estmatvas, como fo vsto anterormente. Mas exstem dversos métodos que permtem decompor alguns índces. Comecemos com os índces de pobreza. Vamos ncorporar o comando povdeco ao corpo de códgos do STATA: fndt povdeco regões do pas: Suponhamos que desejamos decompor a pobreza nas 5 grande gen regao = 1 f uf >= 11 & uf<= 17 replace regao = 2 f uf >= 21 & uf <= 29 replace regao = 3 f uf >= 31 & uf <= 35 replace regao = 4 f uf >= 41 & uf <= 43 replace regao = 5 f uf >= 50 & uf <= 53 povdeco rendapc [fw=pesopes], varplne(lp) bygroup(regao) Warnng: rendapc has 9563 values = 0. Used n calculatons Foster-Greer-Thorbecke poverty ndces, FGT(a) All obs a=0 a=1 a=

42 FGT(0): headcount rato (proporton poor) FGT(1): average normalsed poverty gap FGT(2): average squared normalsed poverty gap Decompostons by subgroup Summary statstcs for subgroup k = 1,...,K regao Pop. share Mean Meanpoor Meangappoor Subgroup FGT ndex estmates, FGT(a) regao a=0 a=1 a= Subgroup poverty 'share', S_k = v_k.fgt_k(a)/fgt(a) regao a=0 a=1 a= Subgroup poverty 'rsk' = FGT_k(a)/FGT(a) = S_k/v_k regao a=0 a=1 a=

43 Na prmera tabela são apresentados os valores dos índces FGT para o conjunto da população (sem decomposção). Assm temos uma proporção de pobres de 33,09 % e um Gap de pobreza de 14,68 %. NA segunda tabela são apresentadas algumas estatístcas descrtvas para os grupos populaconas. A regão 1 (Norte) representa 8,02 % da população, com renda meda R$ 266,34, com renda meda dos pobres R$ 64,12 e com gap médo de pobreza correspondente a 50,40. Na tercera tabela são apresentados os índces de pobreza (FGT(0), FGT(1) e FGT(2)) para as 5 regões. Na quarta tabela são apresentadas as partcpações relatvas da pobreza em cada regão. Por exemplo, a regão 2 (Nordeste) representa uma parcela de 40,87 % da pobreza medda em termos do índce FGT(0) e 43,95 % da pobreza medda em termos do índce FGT(1) que mede a ntensdade da pobreza. Na ultma tabela são apresentados os rscos de pobreza das subpopulaçoes. A regão 5 (Centro-Oeste) apesar de representar apenas 7,33 % dos pobres meddos em termos do índce FGT(0) tem um rsco elevado de 1,027. Podemos fazer a mesma decomposção consderando a varável tpo de famíla, através da execução em um do fle dos seguntes comandos: label defne tpofam 1 label defne tpofam 2 add label defne tpofam 3 label defne tpofam 4 ou mas", add label defne tpofam 5 flhos", add label defne tpofam 6 label defne tpofam 7 label defne tpofam 8 ou mas", add "Casal sem flhos" "Casal com todos os flhos menores de 14 anos", "Casal com todos os flhos de 14 anos ou mas", add "Casal com flhos menores de 14 anos e de 14 anos "Casal com flhos sem declaração de dade dos "Mãe com todos os flhos menores de 14 anos", add "Mãe com todos os flhos de 14 anos ou mas", add "Mãe com flhos menores de 14 anos e de 14 anos 43

44 label defne tpofam 9 "Mãe com flhos sem declaração de dade dos flhos", add label defne tpofam 10 "Outros tpos de famíla", add label values tpofam tpofam povdeco rendapc [fw=pesopes], varplne(lp) bygroup(tpofam) Os resultados mostram que: 1) O grupo com maor partcpação relatva mas elevada corresponde a pessoas em famíla de casal com todos os flhos menores de 14 anos (30,1 %). 2) O grupo com maor renda meda corresponde as pessoas pertencentes a famíla de casal sem flhos (R$ ). 3) O grupo com mas elevado índce de pobreza FGT (0) poverty rato corresponde as pessoas pertencentes a famílas mono parentas de mães com todos os flhos menores de 14 anos (66,43 %). 4) O grupo com maor partcpação relatva ( share ) na pobreza total refere-se as famílas de casal com todos os flhos menores de 14 anos (38,78%). 5) O grupo com maor rsco de pobreza corresponde as famílas de mães com todos os flhos menores de 14 anos. 44

45 2.6 Cálculo dos coefcentes de elastcdade-gn e elastcdade-renda da pobreza Para o cálculo da elastcdade da pobreza será utlzada a metodologa proposta por Datt (1998). Esta é uma proposção para cálculo dos valores das elastcdades a partr de dados de dstrbução de renda agrupados. Para sto fo desenvolvdo um programa em Stata adaptando a metodologa para a estrutura dos mcro-dados das PNADs. No artgo de Datt (1998) são apresentadas duas especfcações para a curva de Lorenz, mas optamos por smplcdade apenas para a Quadrátca Geral. 4 Sejam as seguntes funções: Curva de Lorenz: L= L( p; π ) e Medda de pobreza: P= P( µ / z; π ) onde L é a partcpação dos p por cento nferores da população na renda per capta domclar, π é um vetor de parâmetros estmáves da curva de Lorenz, P é a medda de pobreza escrta como uma função da relação da renda per capta domclar méda µ à lnha de pobreza z e os parâmetros da curva de Lorenz. A especfcação Quadrátca Geral da curva de Lorenz é dada pelas seguntes funções: L L a p L bl p c p L 2 (1 ) = ( ) + ( 1) + ( ) ou 1 L p bp e mp np e / 2 ( ) = [ + + ( + + ) ] As funções que representam as meddas de pobreza dadas a partr desta especfcação da curva de Lorenz são: 4 Pretende-se em um próxmo trabalho estmar os parâmetros da curva de Lorenz utlzando também a especfcação Beta (mostrada em Datt, 1998) e verfcar qual das duas (para cada conjunto de dados amostras) cumpre mas adequadamente as condções de frontera e de monotoncdade. Exstem também métodos de estmatva e de análse dversos para a elastcdade da pobreza em relação ao crescmento, apresentados em Heltberg (2002). 45

46 1 [ ( 2 / ){( 2 / ) 2 } 1/ 2 ] H = n+ r b+ z µ b+ z µ m 2m PG= H ( µ / z) L( H ) 2 µ r 1 H / s P2 = 2( PG) H ah + bl( H ) ln z 16 1 H / s 2 1 onde H, PG e P 2 são respectvamente a proporção de pobres, o gap de pobreza e a severdade da pobreza da classe dos índces FGT de pobreza e os parâmetros: e= ( a+ b+ c+ 1) 2 m b a 1 2 = 4 n= 2be 4c r= ( n 4 me ) 2 2 1/ 2 s = ( r n) /(2 m) s = ( r+ n) /(2 m) O procedmento para estmar a os parâmetros da curva de Lorenz utlzou uma regressão lnear por mínmos quadrados ordnáros de L(1-L) em (p 2 L), L(p 1) e (p-l) para a obtenção dos parâmetros a, b e c Os valores das elastcdades da pobreza são calculados a partr das fórmulas na Tabela, a segur: Tabela Elastcdade da Méda (µ ) Índce de Gn H z /( µ HL ''( H )) (1 z / µ ) /( HL ''( H )) PG 1 H / PG 1 + ( µ / z 1) H / PG SPG 2[ 1 + ( µ / z 1) PG / P] 2(1 PG / P ) 2 2 Fonte: Fórmulas obtdas de Datt (1998) e dervadas de Kakwan(1990). O valor de L (H) é o valor da segunda dervada da curva de Lorenz e gual a r ( mh + np+ e ) / 2 46

47 Execute ncalmente o comando: ssc nstall glcurve, replace Posterormente, execute o segunte do fle: * programa de cálculo da elastcdade-pobreza do crescmento set more off postfle sadaelast codgo neta1 neta2 neta3 neta4 neta5 neta6 p0 p1 p2 gn usng "d:\curso POLITICAS SOCIAIS\sadaelast", replace global = 0 **************************************************************** * rotna de calculo de elastcdades da pobreza capture program drop elast program defne elast summarze rendapc [fw=pesopes] scalar mu = r(mean) summarze lp scalar z = r(mean) glcurve rendapc [fw=pesopes], gl(l1)p(p) nograph generate L = L1/mu * Especfcação da Curva de Lorenz: Quadrátca Geral generate y1 = L*(1-L) generate x1 = p^2 - L generate x2 = L*(p-1) generate x3 = p - L regress y x1 x2 x3 * verfcar se o ntercepto é não sgnfcatvo regress y x1 x2 x3, noconstant matrx b1 = e(b) scalar a1 = b1[1,1] scalar b = b1[1,2] scalar c = b1[1,3] scalar e = -(a1 + b + c + 1) scalar m = b^2-4*a1 scalar n = 2*b*e - 4*c scalar r1 = (n^2-4*m*(e^2))^(1/2) scalar s1 = (r1 - n)/(2*m) scalar s2 = -(r1 + n)/(2*m) dsplay a1 dsplay b dsplay c dsplay e 47

48 dsplay m dsplay n dsplay r1 dsplay s1 dsplay s2 scalar H = -(1 / (2*m))*(n + r1*(b+2*z/mu)*((b+2*z/mu)^2-m)^(-1/2)) scalar LH = -(1/2)*(b*H + e + (m*h^2 + n*h + e^2)^(1/2)) scalar PG = H - (mu/z)*lh scalar P2 = 2*PG - H - ((mu/z)^2)*(a1*h + b*lh - (r1/16)*ln((1-h/s1)/(1-h/s2))) dsplay "H = " H dsplay "PG = " PG dsplay "P2 = " P2 * calculo da segunda dervada da curva de Lorenz scalar L2H = (r1^2*(m*h^2 + n*h + e^2)^(-3/2))/8 * calculo do ndce de Gn f m < 0 { scalar gn = e/2 - n*(b + 2)/(4*m) + r1^2 / (8*m*sqrt(-m))*(asn((2*m + n)/r1) - asn(n/r1)) } else { scalar gn = e/2 - n*(b + 2)/(4*m) + r1^2 / (8*m*sqrt(m))*ln(abs((2*m + n + 2*sqrt(m)*(a1 + c - 1))/(n - 2* e * sqrt(m)))) } dsplay "Gn = " gn * calculo das elastcdades da pobreza * com relação à méda mu scalar neta1 = - z/(mu*h*l2h) scalar neta2 = 1 - H/PG scalar neta3 = 2*(1-PG / P2) * com relação ao ndce de Gn scalar neta4 = (1 - z / mu) / (H*L2H) scalar neta5 = 1 + (mu/z - 1)*H/PG scalar neta6 = 2*(1 + (mu/z - 1)*PG /P2) dsplay "Elastcdades da pobreza com relacao a renda meda" dsplay "H : " neta1 dsplay "PG : " neta2 dsplay "SPG : " neta3 dsplay "Elastcdades da pobreza com relacao ao ndce de Gn" dsplay "H : " neta4 dsplay "PG : " neta5 dsplay "SPG : " neta6 global = $ + 1 dsplay $ post sadaelast ($) (neta1) (neta2) (neta3) (neta4) (neta5) (neta6) (H) (PG) (P2) (gn) 48

49 end use "D:\CURSO POLITICAS SOCIAIS\PES2004.dta", clear keep f uf == 17 keep rendapc pesopes lp strat psu elast use "D:\CURSO POLITICAS SOCIAIS\PES2004.dta", clear keep f uf >= 21 & uf <= 29 keep rendapc pesopes lp strat psu elast use "D:\CURSO POLITICAS SOCIAIS\PES2004.dta", clear keep f uf >= 21 keep rendapc pesopes lp strat psu elast use "D:\CURSO POLITICAS SOCIAIS\PES2004.dta", clear keep f uf >= 22 keep rendapc pesopes lp strat psu elast use "D:\CURSO POLITICAS SOCIAIS\PES2004.dta", clear keep f uf >= 23 keep rendapc pesopes lp strat psu elast use "D:\CURSO POLITICAS SOCIAIS\PES2004.dta", clear keep f uf >= 24 keep rendapc pesopes lp strat psu elast use "D:\CURSO POLITICAS SOCIAIS\PES2004.dta", clear keep f uf >= 25 keep rendapc pesopes lp strat psu elast use "D:\CURSO POLITICAS SOCIAIS\PES2004.dta", clear keep f uf >= 26 keep rendapc pesopes lp strat psu elast use "D:\CURSO POLITICAS SOCIAIS\PES2004.dta", clear keep f uf >= 27 keep rendapc pesopes lp strat psu elast use "D:\CURSO POLITICAS SOCIAIS\PES2004.dta", clear keep f uf >= 28 keep rendapc pesopes lp strat psu elast use "D:\CURSO POLITICAS SOCIAIS\PES2004.dta", clear keep f uf >= 29 keep rendapc pesopes lp strat psu elast use "D:\CURSO POLITICAS SOCIAIS\PES2004.dta", clear keep f uf >= 31 49

50 keep rendapc pesopes lp strat psu elast use "D:\CURSO POLITICAS SOCIAIS\PES2004.dta", clear keep f uf >= 32 keep rendapc pesopes lp strat psu elast use "D:\CURSO POLITICAS SOCIAIS\PES2004.dta", clear keep f uf >= 33 keep rendapc pesopes lp strat psu elast use "D:\CURSO POLITICAS SOCIAIS\PES2004.dta", clear keep f uf >= 35 keep rendapc pesopes lp strat psu elast use "D:\CURSO POLITICAS SOCIAIS\PES2004.dta", clear keep f uf >= 40 & uf <= 43 keep rendapc pesopes lp strat psu elast use "D:\CURSO POLITICAS SOCIAIS\PES2004.dta", clear keep f uf >= 40 keep rendapc pesopes lp strat psu elast use "D:\CURSO POLITICAS SOCIAIS\PES2004.dta", clear keep f uf >= 41 keep rendapc pesopes lp strat psu elast use "D:\CURSO POLITICAS SOCIAIS\PES2004.dta", clear keep f uf >= 42 keep rendapc pesopes lp strat psu elast use "D:\CURSO POLITICAS SOCIAIS\PES2004.dta", clear keep f uf >= 50 & uf <= 53 keep rendapc pesopes lp strat psu elast use "D:\CURSO POLITICAS SOCIAIS\PES2004.dta", clear keep f uf >= 50 keep rendapc pesopes lp strat psu elast use "D:\CURSO POLITICAS SOCIAIS\PES2004.dta", clear keep f uf >= 51 keep rendapc pesopes lp strat psu elast use "D:\CURSO POLITICAS SOCIAIS\PES2004.dta", clear keep f uf >= 52 keep rendapc pesopes lp strat psu elast use "D:\CURSO POLITICAS SOCIAIS\PES2004.dta", clear keep f uf >= 53 50

51 keep rendapc pesopes lp strat psu elast postclose sadaelast * coloca codgos no arquvo de sada use "D:\CURSO POLITICAS SOCIAIS\sadaelast",clear #delmt ; label defne codlabel 1 "TO" 2 "NE" 3 "MA" 4 "PI" 5 "CE" 6 "RN" 7 "PB" 8 "PE" 9 "AL" 10 "SE" 11 "BA" 12 "MG" 13 "ES" 14 "RJ" 15 "SP" 16 "SU" 17 "PR" 18 "SC" 19 "RS" 20 "CO" 21 "MS" 22 "MT" 23 "GO" 24 "DF" ; #delmt cr label values codgo codlabel save "D:\CURSO POLITICAS SOCIAIS\sadaelast",replace 51

52 3. Avalação de polítcas socas Neste tópco serão apresentados e dscutdos os resultados das estmações de mpactos de programas socas (ou polítcas socas). São dscutdos em lnhas geras os prncpas métodos quanttatvos de avalação. Na seção 2.2 aborda-se de uma forma sucnta e ntrodutóra o tema da nferênca causal que se refere ao desafo econométrco voltado para a mensuração de mpactos baseado em dados de pesqusas em nível de regstros untáros (mcro-dados). Como solar os efetos de uma determnada polítca sobre um ndcador de resultados? Que parcela da melhora do bemestar dos benefcáros pode ser atrbuída únca e exclusvamente a nfluenca da polítca, desconsderando-se os fatores exógenos (aqueles que atuaram mesmo sem a ocorrênca da polítca)? Na seção 2.3 aborda-se o método da dupla dferença. Neste método consdera-se a dferença da varação do valor do ndcador de bem estar entre o grupo de benefcáros e o grupo de controle. Este método, que é muto utlzado na lteratura de avalação, apresenta a vrtude de elmnar parcalmente veses na avalação de mpactos que advém da nfluenca de varáves não observáves, além de controlar os efetos de varáves exógenas a atuação do programa ou polítca (como por exemplo, determnadas meddas macroeconômcas ou outras polítcas que afetam de forma generalzada os benefcáros e não benefcáros). Os métodos de pareamento baseam-se na probabldade de seleção aos programas. Para sto, devdo à mportânca de entenderem-se como tas probabldades são calculadas, a seção 2.4 trata do modelo de regressão logístca, que nesta avalação é utlzado para as estmatvas dos propenstes scores (probabldades de seleção). A estmatva destes modelos é crucal para a determnação do mpacto no método adotado a segur ( propensty score matchng ). Na seção 2.5 é feta uma apresentação dos prncpas aspectos do método propensty score matchng que em termos sucntos, utlza a nformação provenente dos modelos de regressão (probabldade de seleção ao programa ou polítca). Na seção 2.6 ntroduz-se uma explanação sobre a analse de sensbldade das estmatvas baseadas nos métodos de pareamento. Como os resultados das estmatvas de mpacto baseadas nestes 52

53 métodos são muto sensíves a nfluenca de fatores não observáves (assm como a especfcação dos modelos logt), é mportante avalar como estas estmatvas podem ser afetadas por estes fatores. Na subseção 2.7 é feta uma revsão do modelo de Heckman. Este modelo, também muto utlzado na lteratura de avalação, estara longe de ser sufcentemente dscutdo tal como é feto aqu. A déa fo somente a de apresentar as suas prncpas característcas e que permtssem a compreensão e nterpretação dos elementos apresentados na seção de resultados. 3.1 Métodos Quanttatvos de Avalação de Programas Socas Avalação de Programas pode ser entendda como um exame sstemátco da mportânca, operação e resultados de programas e polítcas públcas, no sentdo de torná-los mas efetvos. O objetvo específco é detectar tão claramente quanto possível se e como um dado programa está tendo efetos sobre os ndvíduos, famílas ou nsttuções, e em que extensão estes efetos são atrbuíves à ntervenção do respectvo programa. Com as avalações, geralmente pretende-se determnar mas amplamente se um programa tem efetos sobre os ndvíduos, domcílos e nsttuções e em que medda estes efetos são atrbuíves à ntervenção do programa. Algumas das questões colocadas em uma avalação de mpactos podem ser: Como o projeto afeta os benefcáros? Pode o desenho do programa ser modfcado para melhorar os mpactos? Tas questões não podem, no entanto, ser smplesmente avaladas pelo resultado ex-post do projeto. Exstem outros fatores ou eventos que são correlaconados com os resultados, mas não são causados pelo projeto. Para garantr rgor metodológco uma avalação precsa estmar o counterfactual, ou seja, o que tera ocorrdo com os benefcáros se o projeto não tvesse sdo mplementado. Em uma lnguagem técnca, qual devera ser a esperança matemátca da varável montorada (por exemplo, um ndcador de bem-estar) no grupo submetdo ao tratamento e condconada a não ocorrênca do tratamento. Para determnar o counterfactual, é necessáro descontar do efeto das ntervenções o efeto dos outros fatores o que é, sem dúvda, uma tarefa complexa. 53

54 A determnação do counterfactual é o ponto fundamental de um desenho de avalação e pode ser obtdo através de metodologas que podem ser classfcadas em duas grandes categoras: desenhos expermentas (aleatóros) e desenhos quase-expermentas (não aleatóros). Mas também devem ser consderadas metodologas qualtatvas e partcpatvas que fornecem freqüentemente nsghts crítcos na perspectva dos benefcáros, como os mesmos avalam subjetvamente os mpactos do programa e que podem contrbur para uma nterpretação mas aprofundada dos resultados obtdos na análse quanttatva. O desenho expermental costuma ser consderado como a mas robusta dentre as metodologas de avalação de mpacto. Os benefcáros devem ser eletos a partr de um processo aleatóro, permtndo que se cre, por meo do própro mecansmo de focalzação, grupos perfetamente comparáves de benefcáros e não benefcáros, ou seja, dos grupos estatstcamente equvalentes, dado o tamanho das amostras. Nesse caso, o grupo de controle opera como um perfeto counterfactual, lvre de problemas relaconados ao vés de seleção. A seleção aleatóra não remove nteramente o vés de seleção, mas equlbra o vés entre as amostras de partcpantes e não partcpantes. O prncpal benefíco dessa técnca é a smplcdade com que os resultados podem ser nterpretados. Os métodos quase-expermentas podem ser usados para empreender uma avalação quando não é possível construr grupos de tratamento e de comparação através de procedmentos aleatóros. Estas técncas quaseexpermentas geram grupos de comparação que se assemelham ao grupo de tratamento, pelo menos nas suas característcas observadas, fazendo uso de métodos econométrcos. São utlzados controles estatístcos para dentfcar dferenças entre os grupos de tratamento e de comparação e técncas sofstcadas de matchng são usadas para construr um grupo de comparação tão smlar quanto possível ao grupo de tratamento. Um grupo de controle (ou de comparação) deve ser necessaramente seleconado aleatoramente da mesma população em que se encontra o grupo de benefcáros e deve ser o mas semelhante possível ao grupo de benefcáros em todos os aspectos, exceto o fato de partcparem ou não do programa. 54

55 O problema do vés de seleção na avalação de mpacto é causado pelo fato de que os partcpantes no projeto dferem dos não partcpantes em característcas que afetam tanto a probabldade de partcpar do projeto como seus resultados. Normalmente, procede-se em uma avalação comparando-se os resultados médos do grupo sob o tratamento (partcpantes do projeto) com o grupo de controle (não partcpantes do projeto). No entanto, essa smples comparação (por exemplo, entre médas de resultados alcançados pelos programas para os membros dos dos grupos) resulta em vés. Este ocorre já que o efetvo mpacto do projeto é a dferença entre a méda (valor esperado) do resultado entre os partcpantes do projeto e a méda para os mesmos partcpantes caso estes não tvessem recebdo o tratamento. Se chamarmos E[Y 1 /D=1], o valor esperado do efeto sobre os benefcados (Y 1 ) quando submetdos a tratamento (D=1), E[Y 1 /D=0], valor esperado do efeto sobre os benefcados (Y 1 ) caso estes não recebam o tratamento (D=0), o verdadero mpacto do projeto sobre a varável resultado é: I 1 1 = = E[Y /D= 1]- E[Y /D 0] (1) Infelzmente, E[Y 1 /D=0] é não observada (latente) e a sua substtução ndevda por E[Y 0 /D=0], o resultado médo dos não partcpantes (Y 0 ) que efetvamente não recebem o tratamento, conduz ao vés de seleção. A forma deal de elmnar o vés de seleção é seleconar aleatoramente os partcpantes do projeto. Dessa forma, partcpantes e não partcpantes do projeto terão o mesmo valor esperado da varável resultado (no caso, bem-estar) na hpótese de não receberem o tratamento, ou seja, E[Y 1 /D=0] = E[Y 0 /D=0] e I pode ser calculado sem vés pela dferença I = E[Y 1 /D=1] - E[Y 0 /D=0] que são dos valores observáves. O vés de seleção pode ser decorrênca de dos conjuntos de varáves: aquelas que estabelecem dferenças observáves (observables) no conjunto de dados dsponíves e aquelas devdo a dferenças não observáves ou latentes. Um vés observável podera ser em decorrênca de um crtéro de seleção por meo do qual uma comundade torna-se eleta em função de uma característca 55

56 que esteja relaconada explctamente a um crtéro de elegbldade (por exemplo, consderam-se como muncípos prortáros aqueles cujo IDH é menor do que um dado valor). Em modelos de auto-seleção as condções socas e econômcas ncas (grau de organzação, captal físco e socal ncal) também estabeleceram um vés de seleção observável por meo de dados (ndcadores ou proxes) que podem ser faclmente coletados. Dentre as varáves não observáves que podem crar um vés estão aquelas não reveladas dretamente pelos dados, como capacdade ndvdual, conexões famlares e processos subjetvos de seleção (poltcamente drgdos pelas eltes). Ambos os tpos de veses podem levar a conclusões mprecsas, nclundo a sub ou superestmação dos mpactos, mpactos negatvos quando de fato são postvos (e vce-versa), e mpactos estatstcamente sgnfcantes quando verdaderamente seram nsgnfcantes (e vce-versa). É possível controlar esses veses por meo de técncas estatístcas, como pareamento, fxed-effects e varáves nstrumentas. Entretanto, é extremamente dfícl remove-los, sendo esse o maor desafo dos pesqusadores que trabalham com análse de mpacto. Em desenhos quase-expermentas, com o uso de modelos estatístcos e econométrcos busca-se tratar o problema modelando o processo de seleção com o objetvo de obter estmatvas não vesados a partr dados nãoexpermentas. A déa é comparar os partcpantes do programa com os não partcpantes, mantendo o processo de seleção constante. Entre as técncas de desenho quase-expermental, as técncas de comparação-pareada são geralmente consderadas boas alternatvas aos desenhos expermentas. A lteratura sobre metodologas de avalação tem dado muta atenção a essas técncas, refletndo não apenas a freqüênca com que têm sdo utlzadas como também os desafos enfrentados para se obter bons grupos de comparação. Algumas técncas têm sdo apontadas com grande nteresse, como a propensty score matchng. Contudo, podem ser exgentes quanto à qualdade, quantdade e dsponbldade de dados. Em especal, dependem de um processo de dupla amostragem em que, a partr de uma prmera grande amostragem, será obtda uma segunda amostra de grupos pareados. Por exemplo, a partr de dados coletados por meo de uma 56

57 pesqusa de dmensão naconal, ou regonal, seram construídas sub-amostras de benefcáros e de controle, pareadas segundo varáves observadas. Essas duas sub-amostras seram então objeto de nova coleta de dados, necessáras para a avalação, mas não coletados na pesqusa mas ampla. Modelos econométrcos são utlzados para controlar o efeto de varáves exógenas que mpedem um perfeto pareamento. Estas varáves são ntroduzdas para solar o efeto do programa, controlando o conjunto de característcas que dferencam as comundades e os domcílos. Certas varáves são também ntroduzdas para controlar os problemas do vés de seleção. Por exemplo, um modelo smples de avalação de mpactos pode ser dado por: Y v = a+ b + cc + dp + ε (2) v v v Onde Y v pode ser qualquer dos ndcadores de bem-estar para o domcílo localzado na comundade v; é o conjunto de característcas dos domcílos consderadas mportantes na determnação dos ndcadores; C v é o conjunto de característcas das comundades consderadas mportantes na determnação dos ndcadores; P v é um ndcador bnáro gual a 1 quando exste o programa na comundade v e 0 quando não; ε v é o erro aleatóro; a, b, c e d são os parâmetros. O mpacto do programa, desconsderando o vés de seleção é dado por: [ /, C, P = 1] E[ Y /, C, P = 0] E Y v a+ b v + cc v v v + d ( a+ b + cc ) = d v v v = (3) As varáves do lado dreto da equação devem ser determnadas ndependentemente do ndcador de bem-estar, não podendo estar correlaconadas com o termo de erro da regressão. Como exste o problema da auto-seleção, a partcpação no programa não é exógena e sso pode afetar o 57

58 cálculo do mpacto do programa. Essa stuação pode ser explctada com uma equação explícta para P, P = d + + ϕ (4) v ez v v onde Z é o vetor de varáves que ncluem todas as proxes observadas que determnam o foco, ou a partcpação no programa. Exstrão anda algumas nfluêncas aleatóras e erros que serão capturadas no termo de erro φ. Como P é bnáro, um modelo probt é melhor ndcado para estmar os parâmetros. Além do método das varáves nstrumentas, outro método amplamente utlzado para elmnação do vés devdo as não observáves é a correção de Heckman (conhecdo na lteratura como procedmento Heckt ). Um método amplamente utlzado consste na construção de modelos de seleção (tratados através de modelos de regressão logístca) que serão posterormente utlzados no emprego de métodos de pareamento, em partcular o método denomnado propensty score matchng. Este consste em encontrar uma amostra de não benefcáros o mas semelhante possível da amostra de benefcáros, sendo que esta semelhança é medda em termos de dversas característcas observáves. A segur estmam-se modelos de regressão logístca, tendo a partcpação no programa como varável dependente bnára e como varáves explcatvas da seleção todas as varáves nos dados que determnam provavelmente a partcpação. Em uma tercera etapa cram-se valores de probabldade de partcpação a partr dos modelos de regressão para todos os ndvíduos da amostra de benefcáros e não benefcáros, sendo estes valores denomnados propensty scores. Com estes valores, escolhem para cada partcpante do programa alguns vznhos próxmos e calcula-se a méda da varável de avalação para estes e a dferença dessa méda em relação ao valor da varável para o partcpante. Fnalmente, calculam-se as médas das dferenças, sendo esta uma versão mas smples do método. 58

59 3.2 Introdução a Inferênca Causal Para ncar a dscussão de nferênca causal, suponhamos um exemplo. 5 Um grupo de ndvíduos fo trenado para preparação no mercado de trabalho. Ses meses depos de completado o programa de trenamento, verfcamos a sua stuação de emprego e encontramos que 40 % do grupo estão trabalhando. Podemos conclur que estes 40 % que estavam desempregados antes do trenamento, encontraram emprego devdo ao programa. Como podemos saber se estes ndvíduos encontraram emprego mesmo que não tvessem feto o trenamento? Ou seja, como podemos solar do efeto (estarem empregados 40 % dos ndvíduos nvestgados) a parcela que pode ser atrbuída somente ao tratamento (trenamento)? Suponhamos que desejamos encontrar a relação entre ntervenção de uma polítca (causa ) e o mpacto (efeto Y). Temos que examnar se uma mudança ou varação na varável (a causa potencal) causou de fato uma mudança em Y (a varável de mpacto). O modelo de regressão normalmente utlzado é: Y = β β1 * TREAT + β β3 3 + ε (5) onde Y é o ndcador de efeto, TREAT é gual a 1 se a undade (por exemplo, o domclo) é exposta ao tratamento (polítca) e 0 se não, é um conjunto de varáves de controle e ε é o termo estocástco com dstrbução normal, meda zero e varânca constante. A estmatva de β 1 da varável de tratamento (TREAT) é a estmatva do efeto médo causal ajustado aos efetos das varáves de controle. A varável TREAT pode ser uma varável bnára (dummy) tomando dos valores (1 e 0) como ndcado acma. Mas também pode ser uma varável contínua, caso desejássemos medr, de acordo com este exemplo, o efeto do numero de das (ou semanas) de trenamento. 5 A apresentação desta seção basea-se no trabalho de Vanetokls (2002). 59

60 Aqu estamos empregando a noção de ceters parbus, tão conhecda na cênca econômca. Estamos estmando o valor esperado de Y condconado a (ou dado o) varável TREAT e o vetor de varável de controle, ou seja, E [ Y TREAT, ]. Na abordagem de regressão consderamos que o parâmetro β 1 estmado pode ser nterpretado como o efeto do tratamento consderados fxos os valores das varáves de controle. Se a varável TREAT é bnára estamos nteressados em estmar a dferença méda no resultado Y, entre a condção de tratamento e de não tratamento, ou seja, E [ Y TREAT 1, ] E[ Y TREAT = 0, ] =. Se a varável TREAT é contnua, o foco muda para o efeto parcal de uma mudança untára em TREAT no valor médo de Y, dados os valores do vetor de controle. decsão a respeto do conjunto de varáves de controle que devem ser consderadas no modelo não é trval. É justamente neste ponto que a analse de causaldade se torna ambígua, fcando a crtéro do avalador a decsão de quas fatores devem ser levados em conta. E utlzar dstntos conjuntos de controle nas equações conduzem a dstntas conclusões a respeto da relação causal entre Y e TREAT. Alem dsso, em analse de efetos de polítcas, mutas varáves de controle mportantes não são sempre observáves e mutas não são nunca observáves. No entanto, a teora na maor parte das aplcações deve ter uma mportante função na seleção das varáves de controle. Por exemplo, na aplcação presente tratada neste estudo, captal socal deverá ser consderado como uma mportante varável de controle, dado que em verfcações anterores surgem algumas evdencas de sua mportante função na redução do nível de pobreza das comundades ruras. A 3.3 Estmação pela Dupla Dferença No caso de uma aplcação de avalação podemos ter um conjunto de dados em panel com uma observação para o ano 2000 e outra observação para o ano Esta é uma vantagem do ponto de vsta da estmação dos mpactos do programa pelas razoes expostas a segur. 60

61 Sabemos que é mpossível conhecer todos os fatores exógenos do lado dreto da equação (1) e que nfluencam o mpacto do programa. Desta forma nossas estmatvas serão vesadas devdo à exstênca de varáves omtdas. Podemos classfcar estes fatores não observáves em dos tpos: aqueles que permanecem fxos no decorrer da atuação do programa e aqueles que varam neste período. De um ponto de vsta econométrco, muto pouco podemos fazer para evtar que a omssão destes fatores não observáves e varáves no tempo possam causar veses em nossas estmatvas de mpacto. Mas podemos elmnar as varáves não observáves constantes no tempo. De uma forma temporal podemos re-escrever a equação (1) como: Y t β + β TREAT + β + β ε com t 1,2 (6) = 0 t 1t * t 2t 2t 3t 3t t = O termo erro pode ser decomposto em duas parcelas: as varáves não observáves fxas (ϕ ) e as varáves não observáves que varam no tempo (u) de forma que equações: ε t =ϕ + u t t. A expressão dos pode ser expressa em duas Y = β + β TREAT + β + β + ϕ + u (7) * Y = β + β TREAT + β + β + ϕ + u * Mas como ϕ é constante no tempo quando subtraímos a prmera equação da segunda teremos: Y β β ) + β * ( TREAT TREAT ) + ( u u ) ou 2 Y 1 = ( Y = δ + * TREAT + u 0 β 1 61

62 3.4 O Modelo de Regressão Logístca A nfluênca das característcas dos agrcultores sobre o processo de seleção nos programas será avalada através de modelos de regressão com varáves dependentes bnáras (modelos logt bnáro). Apesar da utlzação deste tpo de modelos ser bastante conhecda na lteratura de análse de bem-estar, ncaremos com uma apresentação sucnta da sua especfcação geral, característcas, alcances e lmtações. A regressão logístca é um modelo de regressão não lnear onde a varável resposta (varável dependente) é a probabldade de ter um resultado ou outra baseada em uma função não lnear da melhor combnação lnear das varáves ndependentes. Seja Y ˆ o valor da varável dependente para o -ésmo caso. Pode-se defnr Y ˆ como: e Yˆ e = 1 + e β + β + β β β + β + β β k k k k (8) Yˆ ln = β0+ β11+ β βk 1 Yˆ k (9) Ou seja, a varável dependente no modelo é o logartmo natural da probabldade de estar em um grupo dvdda pela probabldade de estar no outro grupo. O procedmento para estmar os coefcentes é o método da máxma verossmlhança e o objetvo é o de encontrar a melhor combnação de varáves ndependentes que maxmzam a verossmlhança de obter as freqüêncas observadas nos grupos. Ao contráro da análse dscrmnante, a regressão logístca não se fundamenta em hpóteses a respeto da dstrbução das varáves ndependentes: estas varáves não precsam ser normalmente dstrbuídas e o modelo comporta (como no caso da regressão lnear múltpla) o uso conjunto de varáves quanttatvas métrcas (denomnadas co-varates) e varáves qualtatvas (tratadas como dummes). 62

63 A sgnfcânca estatístca de cada um dos coefcentes (parâmetros estmados) do modelo é avalada utlzando-se o teste de Wald (que é semelhante ao teste t de Student) onde o coefcente é dvddo pelo seu erro padrão: W j = ˆ β (10) j s ˆ β j O ajuste dos modelos logt é avalado calculando-se a estatístca log-lkelhood (logartmo da verossmlhança), baseado na soma das probabldades assocadas aos valores prevstos e observados para cada caso: n ˆ ˆ (11) =1 log-lkelhood = Y ln(y )+(1-Y )ln(1-y ) A comparação da adequação do ajuste de dos modelos é feta através da dferença de seus log-lkelhoods que é uma dstrbução qu-quadrado: 2 λ =2[(log-lkelhood 2)-(log-lkelhood 1) (12) Os coefcentes estmados ( ˆ β, = 1,2,...,k) do modelo logt devem ser nterpretados como a varação do logartmo natural da relação das probabldades de sucesso e fracasso, esta relação sendo conhecda na lteratura como odd rato. Portanto se um coefcente possu um valor ˆ β este é o valor da varação no logartmo natural do odd rato (também chamado este logartmo de logt) causado pela elevação untára da varável, supondo-se fxos os valores de todas as outras varáves. É mas dreta a nterpretação da função exp( ˆ β ) pos esta é o valor da varação no própro odd rato. Desta ˆ forma, se 100( e β 1) for gual a 10 %, sto sgnfca que um aumento untáro em causa uma elevação de 10 % na relação de probabldade (aumentando portanto a probabldade do caso pertencer ao grupo cujo valor da dummy varável dependente fo defndo como gual a 1). Para o melhor entendmento dos resultados dos modelos suponhamos que tenhamos a segunte equação com apenas uma varável ndependente: 63

64 P( Y = 1) ln( odds) = ln = 0, , P( Y = 0) para x = 50 temos: log( odds) = 1,3764 odds= 0, 2525 para x = 51 temos: log( odds) = 1, 4576 odds= 0, 2328 β1 0,0812 e e e = = 0,9220 Portanto a relação de odd ratos será: odds odds 2 1 0, 2328 = = 0,9220= e 0, 2525 β 1 Ou seja, a relação de odd ratos para dos valores com varação untára 1 para a varável ndependente será gual a e β. Esta relação é constante para qualquer valor de 1. Por exemplo: para x = 60 temos: log( odds) = 2,1884 odds= 0,1121 para x = 61 temos: log( odds) = 2, 2696 odds= 0,1033 β1 0,0812 e e = e = 0,9220 odds odds 2 1 0,1033 = = 0, 9220= e 0,1121 β 1 Desta forma, o valor de e β ndca a varação no odd rato (relação de probabldade) e ndepende do valor da varável ndependente. No caso deste exemplo, uma varação untára em 1 acarreta uma redução de 7,8 % no odd rato. Para a aplcação que será aqu realzada sto sgnfca reduzr a probabldade de ser seleconado para um programa em relação à probabldade de não ser seleconado. 3.5 Método do Propensty Score Matchng O método do pareamento (matchng) por propensty score é amplamente utlzado na lteratura de avalação de mpactos. Este método fundamenta-se na 64

65 construção de sub-amostras contrafactuas para o grupo de controle e então comparar os resultados entre os tratados e contrafactuas. No presente trabalho o método será utlzado para avalar os efetos do Programa Cédula da Terra (PCT) sobre dversas varáves (ndcadores) que caracterzam a evolução do bem-estar (renda domclar, segurança almentar, acesso à saúde) e característcas econômcas e de desenvolvmento (patrmôno e captal socal). O propensty score é defndo por Rosembaum e Rubn(1983) como a probabldade condconal de receber o tratamento dado dversas característcas pré-tratamento. p ( ) = P( D= 1 ) = E( D ) (13) onde D = {0,1} é um ndcador de exposção ao tratamento e é um vetor multdmensonal de característcas pré-tratamento. É possível demonstrar que se a exposção ao tratamento é aleatóra dentro de células defndas por, ela também é aleatóra dentro das células defndas pelos valores de uma varável undmensonal p(). Y D ) são os resultados potencas nas duas stuações de tratamento ( Y (1) é o ( valor da varável resultado para o ndvduo sujeto ao tratamento e Y (0) é o valor da varável resultado para o ndvíduo não sujeto ao tratamento). Uma expressão geral para a varável resultado pode ser expressa como: Y = D Y 1) + (1 D ) Y (0) (14) ( O efeto causal do tratamento para o ndvíduo pode ser escrto como: = Y 1) Y ( 0 ) (15) ( 65

66 O segundo valor do lado dreto da expressão (16) não pode ser calculado porque não é observado (é o valor da varável resultado para o ndvduo caso ele não tvesse sdo submetdo ao tratamento). Se o propensty score p() é conhecdo então o efeto médo do tratamento sobre os tratados (ATT) pode ser estmado de acordo com a segunte expressão: τ E[ D = 1] = E[ Y (1) Y (0) D = 1] (16) = A expressão acma representa o valor esperado (méda) da dferença da varável resultado referente à stuação de cada ndvduo receber o tratamento e não receber o tratamento para o grupo de ndvíduos tratados. De acordo com Ichno (2006), o não conhecmento do valor da varável de resultado para a stuação de tratamento contra factual, pode ser nterpretado como um problema de mssng data e os métodos de pareamento são uma forma de mputar valores aos resultados contra factuas ( Y ( 0) = 1). Desta forma a valdade D destes métodos basea-se na hpótese de que as observações contra factuas são mssng aleatoramente (mssng at random). A equação (16) pode ser transformada, consderando-se os valores de p(),como: τ = E[ Y (1) Y (0) D E[ E{ Y (1) D = 1, p( = 1] = E[ E{ Y (1) Y (0) D )} E{ Y (0) D = 0, p( = 1, p( )} D = 1] )}] = (17) Conhecdos os valores dos propensty scores (de acordo com a expressão de todas as observações duas hpóteses devem ser satsfetas para que possamos dervar a expressão do ATT (equação 17) a partr dos valores de p ( ), dados pela expressão 13. A prmera hpótese é a do balanceamento das varáves pré-tratamento dados os valores do propensty score. Se p() é o propensty score então: 66

67 D p() (18) De acordo com esta hpótese, dados os valores dos propensty scores, os valores das característcas observáves pré tratamento () ndependem do tratamento. A segunda hpótese ( unconfoundedness dado o propensty score ) supõe que se: Y(1), Y(0) D Y(1), Y(0) D p() (19) De acordo com prmera hpótese (expressão 18), ou hpótese de balanceamento, observações com o mesmo propensty score precsam ter a mesma dstrbução das característcas observáves (e não observáves) ndependentemente de serem tratadas ou não. Para um dado propensty score a exposção ao tratamento é aleatóra e desta forma as undades tratadas e de controle devem ter medas guas para todas as característcas. Veremos adante que esta hpótese deverá ser testada através do comando Stata pstest. A segunda hpótese (expressão 19) exge somente que se o valor da varável de resposta é ndependente do status de tratamento dadas as característcas então estes valores também serão ndependentes dados os valores dos propensty scores. Esta hpótese é conhecda na lteratura sobre propensty score matchng como hpótese da ndependênca condconal. Para a mplementação computaconal do método do propensty score são necessáras as seguntes etapas: 1) Estmação do propensty score. Através de um modelo de regressão logístca ou modelo probt estma-se a probabldade de cada observação (ndvduo) pertencer ao grupo de benefcáros do programa (grupo de tratados). 2) Estmação do efeto médo do tratamento, dado o propensty score. Nesta etapa, dealmente queremos: 67

68 - emparelhar observações tratadas e controle com exatamente o mesmo valor estmado para o propensty score; - calcular o efeto do tratamento para cada valor do propensty score estmado; - obter a méda destes efetos condconas. É mpratcável realzar o método da forma ndcada acma, pos é muto dfícl encontrar duas undades com exatamente o mesmo valor do propensty score. Exstem, no entanto, dversos métodos alternatvos e váves computaconalmente: - Estratfcação no escore; - Método do vznho mas próxmo; - Pareamento radal no escore; - Pareamento de Kernel no escore; - Pareamento pela dstanca de Mahalanobs. Na lteratura é sugerdo que se façam estmatvas por mas de um método para verfcar a robustez dos resultados. 68

69 SEQÜÊNCIA DE PROCEDIMENTOS PARA ESTIMAÇÃO DOS IMPACTOS Estmação do propensty score Escolha do algortmo de pareamento Verfcação do Common support Verfcação da qualdade do pareamento Estmação dos ATTs e análse de sensbldade 69

70 3.6 Análse de Sensbldade para o Método do Propensty Score Matchng De acordo com Becker e Calendo (2007), a hpótese de ndependênca condconal estabelece que o pesqusador observara todas as varáves smultaneamente nfluencando a decsão de partcpação e as varáves de resultado. De acordo com sto pode-se avalar a sensbldade dos mpactos estmados com relação aos desvos desta hpótese de dentfcação. Se exstem varáves não observáves que smultaneamente afetam a partcpação no programa e a varável de resultado, um vés oculto pode surgr para o qual os estmadores de pareamento não são robustos. Este método basea-se no modelo descrto a segur. Vamos assumr que a probabldade de seleção ao programa é dada por P = P x, u ) = P( D = 1 x, u ) = F( β x + γu ) onde x são as característcas ( observáves para o ndvduo, u é a varável não observável e γ é o efeto de u na decsão de partcpação. Se exste um vés oculto devdo a nfluenca de varáves não observáves, dos ndvíduos com as mesmas varáves x observadas tem dferentes chances de receber o tratamento. Consderemos uma dupla pareada de ndvíduos e seja F a dstrbução logístca. As probabldades relatvas para os ndvíduos e j desta dupla receberem versus não receberem o tratamento são dadas por P /(1-P ) e P j /(1-P j ) e a razão destas probabldades relatvas (conhecdas como vmos na seção 1.5 como odds ratos ) é dada por: P 1 P P j 1 P j = P (1 Pj ) exp( βx = P (1 P ) exp( βx j j + γu ) + γu ) j (20) Se ambos os ndvíduos têm varáves x dêntcas, tal como supõe o procedmento de pareamento, o vetor x cancela mplcando que: 70

71 exp( βx exp( βx j + γu ) = exp( γ ( u + γu ) j u j )) (21) Então, se não há dferenças nas varáves não observadas (u = u j ) ou se estas varáves não nfluencam a probabldade de partcpar no programa, o odd rato é gual a 1 mplcando na não exstênca de vés de seleção não observado. A analse de sensbldade avala o quanto a mudança nos valores de γ e em u - u j altera a nferênca acerca do efeto do programa. Segundo Becker e Calendo (2007), a expressão (20) mplca que 1 γ e P (1 Pj ) e P (1 P ) j γ (22) Esta ultma expressão ndca que γ e uma medda do grau de afastamento que uma estmatva por pareamento está lvre de vés oculto. No caso de ser gual a 1 os dos ndvíduos, com valores guas para as característcas x, tem a mesma probabldade de partcparem do programa e neste caso o vés oculto não exste. 3.7 Modelo de Heckman Consderemos o segunte modelo de duas equações: f ( D, ) = a+ bd+ c + σε (23) D= 1 α+ Zγ + δ > 0 (24) O modelo consste de uma equação de resultados (23) e de uma função de seleção (24). O exemplo clássco refere-se ao mercado de trabalho onde se busca estmar os determnantes da renda de mulheres. A equação (23) refere- 71

72 se à determnação da renda das mulheres e a varável D é uma dummy que especfca se a mulher está ou não ocupada. A déa consste em que se a mulher está desocupada e tem renda zero pode ser porque assm decdu por não achar compensador o saláro oferecdo no mercado. Se for estmada a equação (23) apenas com a amostra de mulheres ocupadas, a estmatva do vetor de parâmetros c sera vesada. As varáves observadas no vetor são característcas fxas de cada observação (ndvduo). Este modelo pode ser empregado na avalação de mpactos de uma determnada polítca se consderarmos que a varável D é uma dummy de seleção e f ( D, ) é um ndcador de resultado. O modelo de Heckman (formado pelas equações (23) e (24)) requer as seguntes hpóteses: ) ε, δ ) são d com dstrbução normal padronzada; ( ) { : = 1,..,N} é ndependente de { ε : = 1,..,N}; ) {Z : = 1,..,N} é ndependente de { δ : = 1,..,N} Não exstem restrções mpostas à relação entre ε e δ e, portanto a varável D pode ser correlaconada com o termo de erro ε. Esta relação é representada pelo parâmetro ρ que é o coefcente de correlação entre os dos termos de erro e pode assumr qualquer valor no ntervalo [-1,1]. Se ρ 0, a varável D será endógena e o parâmetro b (que representa o mpacto da polítca) terá um vés de seleção. 6 Se ε e δ não forem correlaconados não haverá problema de vés de seleção e apenas a equação (23) poderá ser utlzada para estmar o efeto não vesado da polítca. Ocorre um valor de ρ 0 se uma varável não observada que é um fator explcatvo da seleção na polítca está correlaconado com um fator não observado de determnação do ndcador de resultado. Se 6 Exste uma dstnção concetual entre vés de seleção e endogenedade. Aqu utlzaremos as duas expressões como se fossem equvalentes mas uma rápda dstnção pode ser encontrada em... 72

73 ρ 0, a varável D é endógena e E[ ε D, ] 0. A estratéga do modelo de Heckman é obter uma estmatva para este últmo termo e trata-lo como se fosse uma varável de controle na equação (23). Se λ E[ ε D, ] é = conhecda para a observação, então regredndo Y com uma constante, D, e λ produzrá estmatvas não vesadas para a, b, c e h, onde h é o coefcente de regressão assocado com λ. Com este procedmento, E[ ε λ D, ] = 0 e consderando-se as hpóteses -, o vés de seleção é elmnado da estmatva do parâmetro b. Se consderarmos que a equação de seleção é um modelo Probt, podemos representá-la por: P( D= 1 Z ) = P( α+ Zγ+ δ > 0 Z ) = P( δ < α+ Zγ Z ) =Φ ( α+ Zγ) onde Φ é a função de dstrbução cumulatva da normal padronzada. (25) Obtem-se a estmatva do termo de vés λ E[ ε D, ] através do valor = esperado de uma varável aleatóra normal truncada, sendo esta estmatva conhecda na lteratura como nversa de Mlls, que pode ser expressa como: Φ( t) λ( t) = 1 φ( t) (26) onde t é o ponto onde a dstrbução é truncada e φ é a função densdade da dstrbução normal padrão. A estmatva para o termo de vés E[ ε D, ] para a observação pode ser decomposta em E[ ε D = 1, = x ] e E[ ε D = 0, = x ]. Seja ξ uma varável aleatóra gual a 2 ( ε ρσ ) / 1 ρ. De acordo com esta defnção ξ tem méda zero e é ndependente de δ. O termo de erro ε pode ser relaconado à δ e ξ através da segunte expressão: 73

74 2 ε = ρδ + 1 ρ ξ (27) Seja s =α +Z γ.segue-se que: E[ ε ρe[ δ s = x, D= 1] = E[ ε = x, s + δ > 0] = φ( s ) + δ > 0] = ρe[ δ δ > s ] = ρ 1 Φ( s ) (28) Da mesma forma: φ( s ) E[ ε = x, D= 0] = ρ (29) Φ( s ) O efeto da regressão de Y em uma constante, D e sem a correção de Heckman pode ser decomposto como a combnação de dos termos: o efeto prncpal e o efeto de nteração devdo à nversa de Mlls. Se a estmatva de ρ é postva, sto sugere que o efeto da polítca estmado sem a correção de Heckman sera vesado para cma. De outra forma, se a estmatva de ρ é negatva, sto sugere que o efeto da polítca estmado sem a correção de Heckman sera vesado para baxo. 4. Introdução aos Métodos de Amostragem e Interpretação de dados amostras 4.1 Introdução Este texto tem como objetvo apresentar alguns pontos essencas para conduzr convenentemente uma operação de amostragem em uma pesqusa de campo, vsando à coleta de dados sóco-econômcos. Ele é prncpalmente drgdo a aplcações referentes a pesqusas sóco-econômcas e fo concebdo 74

75 bascamente para orentar pesqusadores na área de cêncas socas. Não se tem a pretensão de que o texto contemple todos os aspectos que se refram aos problemas de amostragem, tanto no sentdo teórco como das númeras técncas dsponíves. Pretende-se mnmamente com ele colocar pontos fundamentas que serão necessáros para a defnção dos planos amostras que serão utlzados nos estudos de caso. Em mnha experênca no campo de amostragem em pesqusas sócoeconômcas pude observar que a maor parte dos pesqusadores não possuem conhecmentos profundos de estatístca e são justamente aqueles que mas necesstam destes recursos. Por outro lado os profssonas da área de Estatístca costumam produzr textos sobre amostragem que são nacessíves a estes pesqusadores, prncpalmente devdo ao uso ntensvo de uma lnguagem técnca e sem muto apelo para uma compreensão mas ntutva das técncas de amostragem. Tento neste trabalho preencher um pouco esta lacuna acetando o menso desafo que é o de tratar de um tema onde certamente é mpossível abdcar de uma apresentação lógca e mnmamente formal. Na Seção 2 são apresentados os prncpas termos e defnções de amostragem, assm como um sstema de classfcação das amostras de acordo com o método de seleção empregado, o desenho (ou delneamento) e outras característcas dos procedmentos de amostragem. Na Seção 3 é feta uma revsão sucnta de alguns mportantes concetos, mportantes para a compreensão da Teora da Amostragem: varáves aleatóras e dstrbuções de amostragem. Na Seção 4 o tema da Estmação é tratado como antecpação teórca. Na Seção 5 passa-se ao conceto de Amostra Aleatóra Smples. Na Seção 6 é abordado o mportante problema prátco de dmensonamento de uma amostra. Na Seção 7 é dscutdo o método da Amostragem Aleatóra Estratfcada que tem uso generalzado na prátca estatístca. Segue-se na Seção 8 à dscussão da Ponderação da Amostra, outro tema de relevânca prátca. Nela é abordado o problema de campo muto comum: o que fazer quando nossa amostra não é representatva (com relação a determnados estratos da população) e como corrgrmos eventuas dstorções (advndas de problemas de campo e de falhas de planejamento) no sentdo de tornar a amostra uma representação mas fel da população desconhecda. Na Seção 9 75

76 é vsta a técnca de pós-estratfcação de uma amostra: temos uma amostra aleatóra smples e desejamos utlzar, após a pesqusa, nformações sobre a população, referentes a estratos desta. Este procedmento é mutas vezes vantajoso na medda em que aumenta a precsão das estmatvas alcançadas. Na seção 10 é apresentado o método de seleção das undades amostras com probabldade desgual e partcularmente com probabldade proporconal ao tamanho (PPT). Na seçao 11 é descrta a amostragem por conglomerados, método que vem se tornando de frequente utlzaçao na prátca de pesqusa em cencas socas aplcadas. Na Seção 12 são descrtos alguns procedmentos de campo para a seleção de amostras domclares. Estes procedmentos são comumente utlzados quando não se dspõe de um cadastro referente às undades da população. Na Seção 13 são descrtas as utlzações de alguns softwares tanto nos procedmentos de seleção de amostras como na análse de dados de amostras. Na Seção 14 é dscutdo o uso do bootstrappng, uma mportante ferramenta que revoluconou recentemente os métodos de análse de dados de amostragem. Fnalmente no Anexo são apresentados alguns estudos de caso, basedos na experenca do autor neste campo de pesqusa. Esperamos com sto contrbur com a dvulgação dos dversos métodos enfrentando o desafo de coadunar a teora estatístca com a necessdade de sua operaconalzação em problemas que freqüentemente são encontrados no cotdano de um pesqusador da área de cêncas socas. 4.2 Termos e Defnções de Amostragem Uma população (unverso ou população objetvo) é o conjunto ntegral de ndvíduos acerca dos quas a nferênca será feta. Um elemento ou undade elementar é um objeto ou ndvíduo da população para o qual uma medda é tomada. A população é o conjunto de todos os elementos. Uma undade de amostragem ou undade de enumeração é a undade que será efetvamente amostrada. Em geral a undade de amostragem e o elemento são equvalentes, mas ocorrem casos como em desenhos amostras de múltplos estágos em que exstem dstntos níves ou tamanhos de undades amostras e a undade de enumeração será a undade amostragem de nível mas baxo. Este é o caso da PNAD, cujo desenho da amostra se dá em três níves ou estágos. 76

77 Exstem números métodos de seleção de amostras e planos de amostragem. Enumeraremos, no próxmo tópco, alguns dos mas mportantes: 4.3 Métodos de Seleção de Amostras 1) Amostragem Aleatóra ou probablístca todo elemento na população tem uma probabldade conhecda e dstnta de zero de pertencer a amostra. Este método de seleção permte o uso da teora da probabldade para o cálculo do nível de confança das estmatvas obtdas a partr da amostra. 2) Amostragem por quotas envolve uma escolha não aleatóra dos elementos da população. Este é o método de seleção empregado comumente em pesqusas de opnão públca (que mutas vezes apresentam suas metodologas de amostragem como sendo aleatóras, mas que na realdade não são precsamente). O prncpal objetvo deste método é garantr a representatvdade da amostra em relação à população. As quotas representam os percentuas de categoras dos ndvíduos que são preenchdos na operação de seleção da amostra garantndo que estas proporções sejam as mesmas da população. Assm, por exemplo, em uma pesqusa de opnão objetva-se que a amostra seja representatva quanto ao sexo, faxa etára e renda. Os entrevstadores rão preencher cotas amostras de tal forma que na fnalzação da amostra, esta apresente proporções de ndvíduos referentes à essas 3 varáves que sejam aproxmadamente guas às proporções encontradas no conjunto da população para as mesmas varáves. Se, por exemplo, na população exstr uma proporção de 10 % de pessoas com sexo femnno, faxa etára de 20 a 29 anos e faxa de renda de 0 a 3 saláros mínmos, na amostra deverá ser preenchda a cota de pessoas neste estrato com a mesma proporção de 10 %. 3) Amostragem Sstemátca As undades amostras são escolhdas em ntervalos fxos a partr do cadastro. Este método de seleção é comumente utlzado quando não se dspõe de um cadastro de boa qualdade e va-se a 77

78 campo sem mutos conhecmentos das undades populaconas. Um exemplo de aplcação desta técnca fo uma pesqusa sobre as condções sócoeconômcas da população urbana de Uberlânda MG. Neste caso conhecase somente o número de domcílos em cada barro da cdade e a partr dessa nformação foram calculados ntervalos sstemátcos para cada barro e rotas da companha de abastecmento de água. O cadastro fo utlzado somente como uma estrutura de orentação para a varredura completa dos domcílos. Detalhadamente, o procedmento empregado neste método de seleção consttu-se das seguntes etapas: 1 a. Calcula-se o tamanho do ntervalo sstemátco. Este é gual a: N I = Int( ) onde Int é uma função que aplcada ao argumento produz o maor n ntero menor do que este argumento. Por exemplo, se N = 1000 e n = I = Int( ) = Int(11,11) = a. Escolhe-se um número aleatóro entre 1 e I, no caso do exemplo entre 1 e 11. Dgamos que seja escolhdo o número 9. 3 a. Os elementos escolhdos na população para entrar na amostra são: prmero número aleatóro = A; A + I; A +2I; A + 3I;... No caso do exemplo: 9; 9+ 11; ; ;... O que dá a segunte seqüênca: 9 o.; 20 o. ; 31 o. ;42 o.;... A escolha do número aleatóro pode ser feta empregando-se uma tabela de números aleatóros. Mas um procedmento mas fácl é utlzar no Excel a função ALEATORIO (escreva em qualquer célula da planlha a fórmula =INT(ALEATORIO()*1+(11-1). Quando apertar a tecla <ENTER> o programa retorna um número aleatóro dentro do ntervalo fechado [1,11]. Este resultado é mostrado na Fgura 6, a segur. 78

79 Fgura 6 Seleçao de um numero aleatoro em um ntervalo de dos numeros nteros através do Excel. 79

Exibir mais