MODELOS DE ESCOLHA BINÁRIA

Econometria II, Lic. em Economia Luís Filipe Martins Dpt. de Métodos Quantitativos ISCTE - EG luis.martins@iscte.pt http://home.iscte.pt/ lfsm Lisboa, 24/0/2005 MODELOS DE ESCOLHA BINÁRIA Wooldridge 7.5,7 0. Introdução Ateoriaeconómica por vezes formaliza modelos que procuram explicar uma variável dependente que não é contínua e na qual pode existir truncagem no seu domínio. À custa de um conjunto de regressores, pode haver interesse em modelizar y i, variável contínua ou discreta, na qual o espaço probabilistico dominio em que a variável tem probabilidade não nula) é restrito ou truncado. Um exemplo é os gastos mensais na aquisição de viaturas em que se observa um conjunto de zeros para os individuos que não adquiriram um novo carro, y i {0} 0, ). Em outros modelos, a variável é discreta finita ou infinita) como por exemplo o número de carros que passam em n vias num dado periodo de tempo, y i {0,, 2,...}. Noutros casos, procura-se modelizar uma variável escolhanaqualaordemé importante. Por exemplo, y i =quandoosalário está entre0, 00], y i =2para00, 200],..., e assim sucessivamente. De entre muitas) outras tipologias salienta-se apenas mais uma: quando a variável dependente é de natureza qualitativa, não mensurável, e onde podem existir 2 ou mais atributos ou escolhas) diferentes - Modelos multinomiais ou de escolha múltipla. Nestes apontamentos, vamo-nos centrar na modelização de variáveis dependentes de natureza qualitativa, não mensurável, onde existem duas possibilidades e que é normalmente representada por uma variável Dummy, ou de escolha binária {0, }. Emvezdesertratadacomoregressor, suponha-se que se procura modelizar uma variável do tipo Dummy. Example y i = β + β 2 x i2 + β 3 x i3 + β 4 x i4 + u i, onde, se i revela interesse em comprar/mudar casa y i = 0, se i não revela interesse em comprar/mudar casa ; x i2 éorendimentoanual;x i3 é o estado marital e x i4 éonúmero de filhos. Osoutrosfactores/caracteristicas não observáveis estão no erro u i.

Example 2 y i = x0 i β + u i, onde o que se observa é, se i decide trabalhar trabalho) y i = 0, se i decide não trabalhar lazer) =, se a utilidade do trabalho y i énão negativa 0, se a utilidade do trabalho y i énegativa ; x i2 éonúmero de horas de trabalho oferecidas; x i3 éosalário oferecido ao individuo i;.... Note-se que, àcustadafunção indicador ), y i pode ser escrito em função da variável latente que não é observada) yi des)utilidade do trabalho, y i =yi 0) = x 0 + u i 0), ) onde yi = UtilT i Utili L, em que UtilT i é a utilidade que resulta da decisão de trabalhar e Utili L de lazer. Desta forma, e supondo que Utili T = x 0 i βt +u T i e Utili L = x 0 i βl +u L i, omodelooriginal yi = x0 i β + u i resulta de β = β T β L e u i = u T i u L i. Example 3 y i = x0 i β + u i, onde o que se observa para um dado banco) é y i = y i, se o individuo i contraiu um empréstimo 0, se o individuo i não contraiu um empréstimo ; yi é o montante de empréstimo contraídopeloindividuoi; x i2 é uma medida da capacidade de financiamento junto do banco; x i3 éaduração do empréstimo;.... Como se observa, y i nunca toma valores negativos: alguns são positivos e há umasérie de zeros. Para os individuos que não contrairam empréstimo supõe-se que não há informação yi pode ser interpretado como não observado para estes casos). Para o outro grupo de individuos observados), yi = y i. Por esta especificidade dos dados, este é um exemplo de censura censoring) àesquerdadezero na amostra. Neste tipo de regressões, o modelo édevariável dependente limitada. Éfácil de verificar que neste modelo, yi = x0 i β + u i y i =max0,yi )=y i,i=,...,n. 2) 0)y i Estes três exemplos ajudam a compreender a especificação geral de alguns) dos modelos de escolha binária e que serão alvo de estudo em seguida. 0.2 O Modelo Probabilistico Linear Tendo como base o MRLM com termo independente, o modelo probabilistico linear MPL) assume que y i = β + β 2 x i2 +... + β k x ik + u i = x 0 + u i,i=,...,n y = Xβ + u, 3) 2

, se i A onde y i D i =,Aé um certo atributo que éobservável para a i ésima 0, se i/ A observação. Sob a hipótesedeexogeneidade, E y i x i )=x 0,i=,..., n E y X) =Xβ. 4) Porque a variável dependente y i apenas assume dois valores diferentes com probabilidade positiva, y i {0, }, o valor esperado condicional recta de regressão) tem uma interpretação muito próprianompl.defina-se P y i = x i )=p x i ) p i ; P y i =0 x i )= p i, 5) onde p depende dos regressores x, implicitamente, e a amostra éaleatória independente) e obtida da população de interesse. Então, E y i x i )=x 0 i β =.Py i = x i )+0.P y i =0 x i )=P y i = x i )=p i, 6) isto é, no MPL e nos modelos de escolha binária, em geral), o valor esperado condicional corresponde à probabilidade condicional a x) davariável dependente Dummy ser um atributo A). No exemplo, E y i x i )=β + β 2 x i2 + β 3 x i3 + β 4 x i4 é a probabilidade condicional a x i2,x i3,x i4 ) do individuo i revelar interesse em comprar/mudar casa. Como o MPL énaessência um MRLM, a análisedeinterpretação, estimação, inferência e previsão no MPL pode ser reportada à que foi feita quando se estudou o MRLM. Não pretendendo ser exaustiva, salientamos agora os aspectos mais importantes em termos destas questões. Devido a 6), β é a probabilidade de i ter o atributo A quando condicional a) todos os regressores têm o valor de zero. Por outro lado, β j,j =2,..., k, éavariação da probabilidade de i ter o atributo A quando o regressor x ij aumenta numa unidade, mantendo os outros regressores fixos ceteribus paribus). Em termos de previsão pontual, a análiseresultaimediatamentede6). Em termos de estimação e inferência a análise tambémé extremamentesimples. Paraalém de exogeneidade e independencia na amostra o que implica não autocorrelação dos erros) suponhase que não existe multicolinearidade perfeita no modelo 4). Aparte da questão da distribuição doserrosqueé fundamental nos outros modelos nestes apontamentos) porque se assume que existem muitas observações n grande - invocar os F)CLT e U)LLN), falta discutir a variância condicional dos erros ou de y). Deumaformasemelhantea6), sabe-se que V y i x i )=Ey 2 i x) [E y i x)] 2 = p i p 2 i = p i p i ), 7) que depende de x. Portanto, o MPL tem erros heterocedásticos e, como vimos no capítulo de heterocedasticidade, o OLS para 4) é consistente mas a inferência éerrónea e não éblue. QuerseuseoOLScomamatrizrobustadeWhiteouseuseoWLS,necessitamosapenasdep i se for conhecido ou de uma estimativa para p i se este não fôr conhecido ver a expressão 7)). Neste último caso, e como 6), pode-se usar bp i = by i = d E y i x i )=x 0 i b β,i=,..., n 8) 3

onde β b éoestimadorols. Apesar da sua simplicidade e de não impôr uma distribuição para os erros, o MPL tem inconvenientes em dois níveis. Primeiro, não é garantido que para todo x i,ey i x i )=P y i = x i ) [0, ]. Como o modelo é linear e mesmo que os declives parciais sejam baixos, para x i muito grande positivo ou negativo) P y i = x i )é negativa ou maior do que um! Por exemplo, a probabilidade do individuo i revelar interesse em comprar/mudar casa pode ser negativa para um rendimento anual nulo. Uma solução será truncaroespaço dos x 0 is no qual P y i = x i ) / [0, ] : Fixar como zero quando P y i = x i )=E y i x i ) < 0énegativoe como um quando P y i = x i )=E y i x i ) >. Em segundo lugar, no MPL assume-se que os declives parciais variações nas probabilidades) são os mesmos constantes) para diferentes x 0 i s : p i = Ey i x ij ) = β j, para todo x ij. Ora, é possível conceber um modelo na qual a variação da probabilidade de i ter o atributo A altera-se consoante o valor do regressor em causa. Por exemplo, a variação da probabilidade do individuo i revelar interesse em comprar/mudar casa pode ser maior para rendimentos altos do que para rendimentos baixos. Associado a estas duas questões, está ofactodequeavariação das probabilidades condicionais p i podersermaiordo que ou de! Devido a estes problemas, tem-se procurado utilizar especificações alternativas, nomeadamente os modelos Probit e Logit, para os quais se assume uma dada lei probabilistica para os erros. A ideia é a seguinte: Especificar E y i x i )=x 0 i β = P y i = x i )à custa de uma função que esteja limitada ao espaço [0, ] para todo x i e que não seja necessáriamente linear. A solução mais óbvia édefinir E y i x i )=P y i = x i )=F x 0, 9) em que F ) é uma função distribuição cdf monótona não decrescente e F : x 0 [0, ]). A diferença entre os modelos Probit e Logit é na função F ) : No Probit, F ) é a função distribuição da normal standard; no Logit é a logistica standard. 0.3 O Modelo Probit A função distribuição de uma variável aleatória normal standard N 0, ) é dada por F z) =Φ z) = Z z φ t) dt = Z z em que Φ z) é monótona crescente, declive não constante e Portanto, o modelo Probit em que 2π e 2 t2 dt, 0) Φ ) =0, Φ 0) = 0.5, Φ.96) = 0.975, Φ + ) =. ) y i = E y i x i )+u i,i=,..., n, 2) 4

onde a variável dependente y i é Dummy de escolha binária e observável, satisfaz Z 0 x E y i x i )=P y i = x i )=Φ x 0 i β = e 2 t2 dt. 3) 2π No modelo Probit, com variável latente não observável, em que se assume que os erros são distribuidos N 0, ), y i = x 0 i β + u i y i =yi 0),u i x i i.i.d.n 0, ) ; i =,..., n, 4) também temos que E y i x i )=P y i = x i )=Φ x 0. 5) Aexplicação é que, sendo o modelo estimável dado por se conclui que y i =x 0 + u i 0),u i x i i.i.d.n 0, ) ; i =,..., n, 6) P y i = x i )=P yi 0 x i )=P u i x 0 i β x i)= P u i x 0 i β x i) 7) = Φ x β 0 i = Φ x β 0 i. 8) Ao contrário do MPL, no modelo Probit e Logit) as variações das probabilidades não são iguais constante β j ) para todos os níveis dos regressores. No modelo Probit 5), P y i = x i,...,x ij..., x ik ) = E y i x i ) = β x j φ x 0 ; j =2,...,k 9) ij não é constante existe o termo φ) etemomesmosinaldeβ j. No modelo com termo independente, β, a interpretação para o mesmo é trivial. Note-se que para que os parâmetros do modelo 5) sejam identificados temos de impôr que a variância dos erros éconhecidaeiguala um e não um parâmetro µ adicional 2 para µ estimar). Isto porque se V u i )= 2, desconhecido, x 0 i então 5) era Φ β x 0 i que é igual a Φ cβ c,c>0 2. Neste caso, o modelo era o mesmo para qualquer combinação cβ,c),c>0. Claramente, o modelo 5) não é linear nos regressores e portanto não pode ser estimado por OLS/F)GLS. O método NLLS minimos quadrados não linear) ou GMM) pode ser utilizado mas não étão simples quanto o métododamáxima verosimilhança MLE). A função Identificação significa a possibilidade de estimar todos os parâmetros de uma forma independente uns dos outros. 2 Por definição, V u i) > 0eporissoc não pode ser negativo ou zero. 5

log-verosimilhança de y,..., y n ) 3, condicional a x,...,x n ), no modelo Probit é `n eβ = logl n eβ = = nx i= i= =logf Y,...,Y n y,...,y n ; β e =logπ n i=f Yi y i ; β e = µ log P y i x i ; β) e y i P y i x i ; β) e yi = nx i= nx y i log Φ x 0 e h + y i )log Φ x 0 e i. µ log Φ x 0 e yi h nx i= Φ log f Yi y i ; β e 20) x 0 e i yi O estimador de máxima verosimilhança MLE) é, por isso, bβ MLE =argmax`n eβ =argmax eβ eβ oscoreparaai ésima observação é ì,n eβ y i φ x 0 e β e = x 0 i Φ x 0 e x 0 i e a hessiana é eβ 0 ì,n ì,n eβ H i = β e β e = x i x 0 i Φ x 0 e 2 φ x 0 e h Φ nx i= = x i x 0 i x 0 i e β y i log Φ x 0 e h + y i )log Φ x 0 e i ; 2) y i ) φ Φ i V x 0 e φ x 0 e h = x 0 y i Φ x 0 e i i Φ x 0 e h Φ x 0 e i ; 22) x 0 i e β φ x 0 e Φ x 0 e h eu 2 i y i x i ; e β 2 Φ x 0 i e β Portanto, pode-se demostrar que Ã µ n bβmle β d N 0, E x x 0 φ 2 Φ Φ ) i h y i Φ x 0 e i 2 Φ x 0 e h Φ x 0 e i 23). 24)!, 25) onde φ = φ x β 0, Φ = Φ x β 0 eaondeavariância assimptótica pode ser consistentemente estimada por nx bφ 2 x i x 0 i i, 26) n bφ i bφ i i= onde φ b i = φ x 0 b MLE, bφ i = Φ x 0 b MLE. Ainferência no método MLE basea-se sobretudo também se pode fazer rácios-t e testes FeWaldcombaseem25)) naestatística LR likelihood ratio) que resulta da comparação 3 Com dados i.i.d.. 6

das verosimilhanças 20) entre dois modelos, o restrito sob H 0 )eonão restrito modelo original). Para uma dada hipótese nula, com q restrições, a estatística de teste e a sua distribuição assimptótica são h LR =2 `n bβur `n bβr i d χ 2 q. 27) O estimador MLE é naturalmente inconsistente se a distribuição dos erros não fôr a normal standard. O estudo de estimadores semiparamétricos) robustos à distribuição no modelo Probit; oestudoquandoerroseregressoresnão são independentes versus endogeneidade); ou quando os erros são heterocedásticos não são discutidos nestes apontamentos. 0.4 O Modelo Logit O modelo Logit assume uma expressão mais simples para a função distribuição dos erros. A cdf da logistica é muito semelhante àdanormalstandardetemaforma F z) = ez Λ z) = = +e z +e z ; 28) Λ ) = 0, Φ 0) = 0.5, Φ + ) =. 29) TantoparaomodeloLogitemqueavariável dependente y i é Dummy de escolha binária e observável como para o Logit com variável latente não observável, em que se assume que os erros são i.i.d. 0, ) standard logistica, Λz) z, Portanto, o que implica que E y i x i )=P y i = x i )=Λ x 0 = +e. 30) x0 i β P y i =0 x i )= P y i = x i )= 3) +e x0 i β µ P y i = x i ) P y i =0 x i ) = 0 ex i β x 0 P i β =log yi = x i ) P y i =0 x i ) é o logaritmo do rácio das probabilidades. Consequentemente, β =log µ P yi = x i2 =... = x ik =0) log ; β P y i =0 x i2 =... = x ik =0) j = P yi = x i ) P y i =0 x i ) 32),j =2,..., k. 33) Aanálise e estimação do modelo Logit 30) émuitosemelhanteàdomodeloprobitdasecção anterior. Aliás, na prática, as diferenças entre os resultados obtidos com os dois modelos são relativamente pequenas. Salienta-se que, no modelo Logit, P y i = x i,..., x ij..., x ik ) = E y i x i ) Λ z) = β j ; j =2,..., k 34) z 7

e que para o MLE, bβ MLE = argmax eβ nx i= y i log Λ x 0 e h + y i )log Λ x 0 e i, 35) Λz) 2 n bβmle β d N 0, E x x 0 z Λ Λ ). 36) 0.5 O Modelo Tobit Existem também modelos ver exemplo 3) para os quais a variável a modelizar yi não é necessáriamente observável para todo o conjunto da amostra. Por exemplo, o dominio da variável rendimentos - yi -podenão ser conhecido. Até um montante elevado por exemplo, 00), o nível de rendimentos é conhecido e registado mas para valores superiores a 00 não existe controlo informação) no seu registo e por isso todas essas observações são avaliadas como 00. Na amostra, num grupo de observações existe informação disponivel mas para uma parte da amostra esta assume um único valor limite. Se, por exemplo, o valor limite ézeroeacensura censoring) na amostra está àesquerdadezero,então existe uma fracção da amostra na qual todasasobservações são zero e a outra fracção são valores distintos) maiores que zero. O modelo Tobit, de variável dependente limitada e com variável latente yi, tem a especificação yi = x0 i β + u i y i =max0,yi )=y i,i=,...,n. 37) 0)y i Como se observa, a função densidade de y émista:emy =0é discreta e discontinua e para y>0é continua. A estimação MLE de 37) requer a imposição de uma distribuição para os erros u i. Supondo que estes são normalmente distribuidos, o modelo estimável é y i =x 0 + u i 0). x 0 + u i,u i x i i.i.d.n 0, 2 ; i =,..., n, 38) onde, ao contrário do Probit e Logit, E y i x i ) 6= P y i = x i )paratodox i, eemquesepode demonstrar que Ã! Ã! E y i x i )=E x 0 + u i.u i x 0 ) x i = x 0 x 0 i Φ β x 0 i + φ β x 0, 39) oqueimplicaqueoolsay i = x 0 i β + u i é inconsistente. A estimação MLE ou NLLS) é semelhante à apresentada para os modelos Probit e Logit mas a derivação das fórmulas é mais complicada, e por isso omitida nestes apontamentos. Endogeneidade e heterocedasticidade também não serão discutidas nestas páginas tal como nos Probit e Logit). A estimação MLE de 37) baseia-se na função log-verosimilhança Ã " Ã nx `n eβ, x e 0 = y i =0)log Φ e!# " Ã +y i > 0) log e e φ y i x 0 e!#! 40) e i= 8

porque 4 Ã! Ã! x 0 i P y i = 0 x i )= Φ β x 0 i ; P y i > 0 x i )=Φ β ; 4) Ã! f yi x i y i y i > 0,x i ) = φ u i )= φ y i x 0 i β. 42) Como E y i x i ) 6= P y i = x i ), não se pode interpretar e comparar com os Probit e Logit o valor de P y i= x i,...,x ij...,x ik ) 6= Ey i x i )! Sabe-se, no entanto, que para j =2,..., k, Ã Ã! Ã!! Ã! E y i x i ) x 0 i = β x j Φ β + x 0i ij β φ x 0 i β + φz) x 0 i = β z j Φ β ; 43) Ã P y i =0 x i,..., x ij..., x ik ) = β x j ij φ x 0 i β Ã! P y i > 0 x i,..., x ij..., x ik ) = β j φ x 0 i β! ; 44) ; 45) f yi x i y i y i > 0,x i,..., x ij..., x ik ) = β j 2 φz) z. 46) Note-se que β j é o efeito de x ij em yi enão em y i. Aestimação consistente destes termos pode ser feita àcustadeβ b MLE, b MLE desde que estes sejam estimados consistentemente. 0.6 Truncagem na Amostra por completar!) Missing observations: Por exemplo E y i y i > 0,x i ). Sample selection.... Aplicações...) Exercícios. Prove queµ se V u i )= 2, desconhecido, entãoomodeloprobité E y i x i )=P y i = x i )=Φ. x 0 i β 4 f yi x i y i y i > 0,x i )= f y i x i y i x i ) P y i >0 x i ) 9

2. Que modelo é mais adequado para explicar o tempo que um individuo demora até encontrar um emprego. Defina a amostra para este caso. Nota: Para algumas observações, o periodo da amostra termina antes de se encontrar um novo emprego! 3.... 0