MODELOS DE ESCOLHA BINÁRIA

Transcrição

1 MODELOS DE ESCOLHA BINÁRIA Introdução Em mutas aplcações do modelo de regressão lnear, pressupõe-se que a varável dependente é uma varável aleatóra contínua e que tem por domíno o conjunto dos números reas. Dos aspectos em que essa perspectva se manfesta de modo óbvo ocorrem na nterpretação dos coefcentes de regressão e nas hpóteses quanto à dstrbução de probabldade da varável explcada. Quando se escreve, a propósto de um coefcente de regressão β j, β j = Y, X j presume-se, mplctamente, ser Y uma função dferencável em ordem a X j. De modo análogo, a hpótese da normaldade das perturbações, em que assentam os procedmentos usuas de nferênca, supõe que a varável dependente seja uma varável aleatóra contínua. Esses aspectos não são, contudo, essencas na teora do modelo de regressão lnear. Se, por exemplo, X j for uma varável bnára, caso em que a dervada parcal a que se aludu acma não é defnda, é possível modfcar a forma de nterpretação de β j para acomodar essa stuação. E, se não for normal a dstrbução de probabldade das perturbações, haverá que modfcar os procedmentos de nferênca, mas os resultados fundamentas em matéra de estmação não são afectados. Exste, no entanto, uma grande varedade de stuações em que não é defensável admtr que a varável dependente tenha natureza contínua ou domíno real. Em prmero lugar, há casos em que a varável dependente é uma varável dscreta: número de empresas faldas num ano, número de empregos crados ou destruídos, número de balcões de uma nsttução de crédto, etc. O domíno da varável é, nestes exemplos, o conjunto dos números nteros e a hpótese de normaldade é, claramente, nadequada. Noutros casos, a varável dependente não é, sequer, quanttatva: ter ou não ter casa própra, deslocar-se para o trabalho de combóo, de autocarro, a pé, em vatura própra ou de outro modo, votar a favor, contra, ou abster-se numa delberação, etc. Conquanto seja habtual fazer-se corresponder números nteros às dversas categoras (por exemplo, à posse de casa própra e 0 ao caso contráro), esses números não

2 traduzem verdaderamente uma quantfcação, mas consttuem, antes, um dspostvo de codfcação essencalmente arbtráro. Em tercero lugar, ctem-se casos em que, conquanto a natureza de varável contínua seja acetável, não é váldo admtr-se que Y tenha R por domíno. Se a varável dependente for uma probabldade, por exemplo, o domíno deverá ser restrngdo ao ntervalo [0, ]. Noutros casos, anda, embora a varável de nteresse possa ser uma varável contínua, pode não ser observável em todo o domíno. Num exercíco de tro ao alvo, a dstânca a que a bala passa do centro só é observada, tpcamente, para os projéctes que embateram num rao lmtado em torno do centro; quanto aos outros, sabe-se apenas que a dstânca excedeu esse rao. As restrções à observabldade da varável podem ser anda mas drástcas e lmtá-la a uma mera nformação qualtatva, do tpo "acertou" ou "não acertou". Dspõe-se, em Econometra, de uma gama muto vasta de modelos para analsar problemas em que a varável dependente é dscreta, qualtatva, lmtada, censurada ou truncada. Consttuem objecto deste texto apenas alguns modelos elementares dessa classe, os chamados modelos de escolha bnára. Trata-se de modelos cuja utlzação mas frequente em Economa teve por objectvo o estudo das escolhas de um agente e em que a varável dependente é de natureza bnára: a escolha faz-se entre duas alternatvas e uma, ou outra, tem de ser escolhda. Além dos modelos com varável dependente dscreta ou lmtada, fora da análse fcarão os modelos de escolha multnomal, em que a escolha se faz entre mas de duas alternatvas. São muto numerosos os exemplos de emprego de modelos de escolha bnára: ) Em estudos da oferta de trabalho, é frequente modelzar-se a decsão de partcpação ou não na força de trabalho como função de uma sére vasta de atrbutos ndvduas (sexo, grau de nstrução, dade, etc.) ou famlares (estado cvl, número e dade dos flhos, rendmento do agregado, etc.) e, anda, de atrbutos dos empregos dsponíves (remunerações, horas de trabalho, etc.). A varável dependente é codfcada com o valor se o º ndvíduo partcpa na força de trabalho, ou com o valor 0 em caso contráro. ) Em estudos dos determnantes da aqusção de bens duradouros (automóves, casas, etc.), é também frequente relaconar-se a posse, ou não, de um certo bem com factores explcatvos como o rendmento, o preço, a taxa de juro, etc. ) Em estudos de comportamentos eletoras, usam-se, para explcar a verfcação do acontecmento "o º ndvíduo votou no partdo Z", ou da alternatva "o º ndvíduo não votou no partdo Z", varáves explcatvas como o rendmento do ndvíduo, o local de resdênca, a relgão ou outras. v) Em estudos da escolha de modos de transporte, a varável dependente podera corresponder ao acontecmento "uso de transporte públco" ou a "uso de outros modos de transporte", em função de varáves como os preços dos transportes, o rendmento do utente, a dstânca a percorrer, etc.

3 v) Em estudos de comportamentos mgratóros, a decsão de emgrar, ou não, é explcada em função dos saláros na regão de orgem e na de destno, de característcas pessoas dos mgrantes, etc. v) Em estudos da procura de educação e, em partcular, de educação superor: concluído um curso de nível secundáro, o ndvíduo escolhe entre o ngresso medato no mercado de trabalho ou a contnuação dos estudos, em função das oportundades de emprego, dos fluxos de rendmentos esperados numa e noutra alternatva, dos custos da frequênca de uma unversdade, etc. v) Em estudos sobre mercados monetáros e fnanceros, têm sdo analsadas a probabldade de recusa ou concessão de crédto pelas nsttuções fnanceras e a probabldade de cumprmento ou ncumprmento de obrgações pelos devedores. A nformação dsponível, quanto à varável dependente, é lmtada às alternatvas "empréstmo conceddo" vs. "empréstmo recusado", ou "prestações cumprdas" vs. "prestações não cumprdas". Modelos lneares de probabldade Consdere-se a habtual equação de regressão lnear ou, numa notação mas convenente, Y = β + β 2 X 2 + β 3 X β k X k + u, [] Y = X β + u [2] (em que X é o vector ( k) de componentes, X 2, X 3,..., X k e β o vector (k ) de coefcentes de regressão), e admta-se que Y desgna uma varável bnára codfcada com o valor ou o valor 0. Usualmente, o valor é atrbuído à presença de um certo atrbuto na ª observação, enquanto o valor 0 é atrbuído à sua ausênca. Noutra perspectva, podem ver-se os dos valores possíves como correspondendo à verfcação, ou não, de um certo acontecmento pela ª observação. De acordo com o modelo estatístco subjacente às hpóteses clásscas, num processo de amostragem repetda, para uma mesma sequênca ordenada (X 2, X 3,..., X k ) devera ser possível obter valores dferentes de Y. Na especfcação em análse, seram dos, apenas, os valores possíves: o acontecmento em causa sera observado para alguns ndvíduos e ter-se-a Y =, e não sera observado nos restantes para os quas, Y = 0. Seja p a probabldade de verfcação do acontecmento, sto é, p = Prob(Y = X 2, X 3,..., X k ) e, por consegunte, seja p a probabldade de não verfcação do acontecmento. Então, o valor médo de Y (condconal a X 2, X 3,..., X k ), caso exsta, terá de ser gual a p :

4 E(Y ) = 0( p ) + p = p. [3] Por consegunte, se for E(u ) = 0 na equação [], deverá ter-se E(Y ) = β + β 2 X 2 + β 3 X β k X k = p. [4] Sendo o valor médo condconal de Y a probabldade (condconal a X 2, X 3,..., X k ) de Y =, modelos com esta estrutura são conhecdos por modelos lneares de probabldade ou pela sgla nglesa LPM (lnear probablty models). De um ponto de vsta teórco, os modelos LPM apresentam alguns aspectos nsatsfatóros. Se o modelo for lnear na varável X j, e as dervadas abaxo exstrem, então, E(Y) Prob(Y = ) = = β j, X X j ou seja, tudo o resto gual, a probabldade de verfcação do acontecmento em análse é afectada sempre de modo dêntco por uma varação de X j, qualquer que seja o nível da varável. Por exemplo, um aumento de 00 para 200 no rendmento de um ndvíduo, tudo o mas constante, fara varar a probabldade de aqusção de casa própra pelo mesmo montante em que o fara um aumento de 0000 para 000. Uma vez que E(Y) é uma medda de probabldade, terá de ser 0 E(Y). Mas é dfícl compatblzar a restrção 0 E(Y) com a possbldade de varações absolutas constantes em E(Y) nduzdas por varações untáras de uma varável explcatva. Se E(Y) é uma função lnear de X j, é nevtável que, para alguns valores de X j, E(Y) venha a stuar-se fora do ntervalo admssível. Sera mas natural que, exercendo X j um efeto postvo na probabldade de ser Y =, esse efeto fosse pratcamente nulo para valores muto baxos ou muto altos de X j e fosse mas sensível para algum ntervalo de valores ntermédos da varável. Isto é, sera de esperar que fosse j e lm Prob(Y = ) = X β + lm Prob(Y = ) = 0. X β Por outro lado, a aplcação de algumas das técncas de estmação e de análse estatístca comummente empregues com o modelo clássco de regressão lnear suscta dfculdades séras em modelos LPM: Em prmero lugar, terá de ser, como se vu, 0 E(Y). Mas a estmação pelo método ordnáro de mínmos quadrados (OLS) dos coefcentes em [4] não obedecerá necessaramente a essa restrção, pelo que é possível que orgne valores estmados de Y negatvos ou superores à undade.

5 Em segundo lugar, não é acetável a hpótese da normaldade para a varável dependente (que, recorde-se, é uma varável dscreta), nem para a perturbação u. Esta poderá assumr apenas dos valores, com probabldade p, ou (β + β2 X 2 + β 3 X β k X k ), 0 (β + β 2 X 2 + β 3 X β k X k ), com probabldade p, pelo que possurá uma dstrbução bnomal. A consequênca mas mportante de tal facto será a de nvaldar as técncas de nferênca estatístca apresentadas anterormente, em amostras de dmensão fnta. O melhor que se poderá esperar é que, em amostras de grande dmensão, os resultados obtdos com essas técncas sejam uma boa aproxmação aos verdaderos. Em tercero lugar, não é sustentável a hpótese de homoscedastcdade relatvamente à perturbação u. Uma vez que E(u ) = 0, será Var(u ) = E(u 2). Ora, u 2 poderá apenas assumr dos valores, com probabldade p, e com probabldade p, pelo que Notando (da equação [4]) que [ (β + β 2 X 2 + β 3 X β k X k )] 2, [ (β + β 2 X 2 + β 3 X β k X k )] 2, E(u 2) = [ (β + β 2 X 2 + β 3 X β k X k )] 2 p + + (β + β 2 X 2 + β 3 X β k X k ) 2 ( p ). p = β + β 2 X 2 + β 3 X β k X k, é fácl smplfcar a expressão anteror para obter com a mplcação de heteroscedastcdade. Var(u ) = E(u 2) = p ( p ), [5] Conquanto as dfculdades ctadas (não normaldade, heteroscedastcdade, não obrgatoredade de verfcação de 0 Y ) possam ser contornadas na estmação de modelos LPM, têm maor voga nas aplcações empírcas outras formulações que, do ponto de vsta teórco, não apresentam nconvenentes como os que acma se apontaram. Avultam, entre elas, os modelos habtualmente desgnados pelas expressões probt e logt.

6 Modelos probt e logt Uma abordagem mas satsfatóra dos modelos em que a varável dependente é dcotómca é a que pressupõe que a varável Y, com Y = ou Y = 0, é apenas a manfestação observável de uma varável não observável Y (dta varável latente) tal que Y = β + β 2 X 2 + β 3 X β k X k + u = X β + u [6] e em que é especfcada uma regra de determnação de Y em função de Y. Essa regra é, tpcamente, da forma Y =, se Y 0 0, se Y < 0. [7] Note-se que, nesta formulação, quer a varável dependente latente, quer a perturbação aleatóra, podem ser valdamente defndas como varáves aleatóras contínuas e o carácter dscreto é reservado apenas para a contrapartda observável da varável de nteresse. Pode conceber-se a varável latente Y como a dferença entre a utldade, U, que para o º ndvíduo tera a alternatva representada por Y = e a utldade, U 0, assocada com a alternatva Y = 0, sto é, Y = U U 0 = β + β 2 X 2 + β 3 X β k X k + u. O ndvíduo optara pela prmera alternatva se U > U 0 e pela segunda se U U 0, ou seja, verfcar-se-a Y = ou Y = 0 conforme fosse, respectvamente, Y > 0 ou Y 0. Outra formulação possível é a que vê Y como um índce da propensão do º ndvíduo para a escolha de uma alternatva. Esse índce podera corresponder à dferença entre R, o rendmento ou benefíco margnal esperado se o ndvíduo fzer a escolha da alternatva assocada com Y =, e C, custo margnal dessa escolha. De manera análoga à anteror, ter-se-a agora Y = R C = β + β 2 X 2 + β 3 X β k X k + u, Y = se R C (e, portanto, Y 0), ou Y = 0 se Y < 0. A escolha da constante 0 como lmar de separação entre Y = 0 e Y = é, essencalmente, arbtrára. O assunto é dscutdo mas extensamente noutro ponto do texto.

7 Na classe de modelos caracterzada pelas relações [6] e [7], é Prob(Y = ) = Prob( Y > 0) = = Prob(β + β 2 X 2 + β 3 X β k X k + u > 0) = = Prob(u > X β) e, por consegunte, Prob(Y = 0) = Prob(u X β). Então, sendo u uma varável aleatóra com função de dstrbução F(.), vem Prob(Y = 0) = F( X β), Prob(Y = ) = F( X β). [8] As duas escolhas mas comuns para a forma funconal de F(.) são as que correspondem à dstrbução normal reduzda e à dstrbução logístca. No modelo probt, é postulado que u tem dstrbução normal reduzda e F(.) desgna, então, a função de dstrbução normal, Φ(x) = x 2 2 2π e t dt ; [9] a função de densdade de probabldade assocada é dada, como é sabdo, por φ(x) = d Φ (x) dx = e x 2 2. [0] 2π No modelo logt, a escolha de F(.) reca em Λ(x) = -x, [] + e a função de dstrbução de uma varável logístca de méda nula e varânca π 2 função de densdade da logístca é 3. A λ(x) = d Λ (x) dx = -x e -x ( + e ) 2 ; [2] É fácl verfcar que λ(x) = Λ(x) [ Λ(x)]. As duas dstrbuções consderadas têm característcas de smetra de que resultam algumas propredades nteressantes. Uma delas, por exemplo, é a de que

8 F(x) = F( x), desgne F(.) a função em [9] ou a função em []. Isso explca por que é possível dar às expressões em [8] um aspecto dferente: Prob(Y = 0) = F(X β), Prob(Y = ) = F(X β). [3] Do confronto da últma destas equações com a equação de regressão dos modelos LPM é fácl conclur que, nestes, se procede, mplctamente, como se fora F(X β) = X β. Não é dfícl dentfcar concretzações de X e β para as quas se tenha X β > ou X β < 0, em volação do requerdo para uma probabldade. Ao nvés, a própra especfcação dos modelos probt e logt garante (por ser 0 F(X β), quasquer que sejam X e β) que tal nunca sucederá. Por outro lado, os coefcentes ntegrados no vector β nos modelos probt e logt não têm a nterpretação usual dos modelos de regressão lnear. De facto, tem-se, usando [3], ou seja, Portanto, E(Y ) = 0[ F(X β)] + F(X β), E(Y) = F(X β). [4] E(Y ) = d F( X X ' d( X β) β) ( X β) ' X = f(x β) β, [5] em que f(.) desgna a função de densdade correspondente à função de dstrbução F(.). Na equação [5], o prmero membro é um vector-coluna de dervadas parcas, de que a componente genérca é, supondo que E(Y ) é uma função lnear de X j, E( Y ) X j = f(x β) β j. [6] Resulta de [6] que, nos modelos probt e logt, β j não mede necessaramente o efeto margnal de Xj sobre E(Y) (ou, o que é o mesmo, sobre Prob(Y = )). Relembre-se, contudo, que contnua a ser, salvo não lneardade em relação a X j,

9 E(Y X j ) = βj para qualquer e qualquer j, relatvamente à varável não observável Y, à semelhança do que ocorra na generaldade dos modelos de regressão estudados anterormente. Três factos merecem realce em [6]: ) O efeto margnal de X j sobre Prob(Y = ) é varável de ndvíduo para ndvíduo (devdo à presença de X 2,..., X j,..., X k em f(x β)). ) Esse efeto é também varável com X j ; sto é, para o mesmo ndvíduo, esse efeto será dferente de um valor de X j para outro. ) Por últmo, note-se que, para o º ndvíduo, os efetos margnas descrtos em [6] dependem, além do coefcente assocado, de um factor de proporconaldade dêntco, f(x β), qualquer que seja o regressor (X 2, ou X 3, etc., ou X k ) consderado. Uma vez que esse factor é, geralmente, postvo (recorde-se que f(.) desgna uma função de densdade), pode conclur-se que uma varação nfntesmal de X j, tudo o resto gual, nduz uma varação postva ou negatva na probabldade de ser Y =, conforme for postvo ou negatvo o coefcente β j. Em conclusão, enquanto na generaldade dos modelos de regressão lnear a estmatva de um coefcente fornece ndcação sobre o sentdo, postvo ou negatvo, da nfluênca de uma varável explcatva, X j, e sobre a grandeza dessa nfluênca (dêntca para todos os ndvíduos e, salvo não lneardade relatvamente às varáves ndependentes, ndependente do valor de X j ), nos modelos probt e logt a estmatva apenas dá, de medato, nformação sobre o sentdo da nfluênca. Informação sobre a grandeza do efeto requererá cálculos adconas, que conduzrão, geralmente, a resultados dferentes de ndvíduo para ndvíduo e dependentes do valor de X j. Embora, de um ponto de vsta teórco, seja mas fácl justfcar a adopção da especfcação normal para a função F(.), a especfcação que conduz à análse logt tem sdo a utlzada com maor frequênca, por razões que se prendem com a smplcdade da expressão analítca da sua função de dstrbução (por contraste com o ntegral requerdo em [9]) e com a facldade de cálculo na fase de estmação. As dstrbuções normal e logístca têm grande semelhança para argumentos na vznhança de 0, e é nas abas da dstrbução que a dferença é mas perceptível, com a logístca a apresentar abas "mas espessas". Para amostras em que a proporção de observações com Y = e a proporção com Y = 0 sejam equlbradas, não é de esperar grandes dferenças de resultados entre as duas especfcações. sendo As vantagens calculatóras da opção pelo logt são óbvas se se notar que,

10 E(Y) = Prob(Y = ) = + e -x e, por consegunte, vem Prob(Y = 0) = -x + e = e -x + e -x, e Prob(Y = ) Prob(Y = 0) = e x Prob(Y = ) ln = x. Prob(Y = 0) Tendo presente que o argumento x nas expressões acma é, neste contexto, X β, conclu-se que ln Prob(Y = ) = Prob(Y = 0) X β = β + β 2 X 2 + β 3 X β k X k, [7] com a varável no prmero membro da equação a exbr lneardade relatvamente aos coefcentes de nteresse. Essa varável é o logartmo natural da razão de probabldades (odds rato, na expressão em nglês). A razão de probabldades tem uma nterpretação sugestva: se as probabldades dos acontecmentos Y = e Y = 0 fossem, respectvamente, 0,8 e 0,2, dr-se-a que "as chances são de 4 para " em favor da verfcação do acontecmento a que corresponde Y =. Se o logartmo da razão de probabldades fosse observado (excepto por uma perturbação aleatóra), a equação em [7] podera servr de base a uma regressão lnear com as característcas habtuas. Veja-se que esse logartmo é uma varável contínua que assume valores de a +, à medda que a probabldade do acontecmento vara de 0 a. A smplcdade da equação [7] contrasta com Prob(Y = ) =, [8] β + β + β ) -( 2X kx k + e em que é patente a não lneardade da varável do prmero membro relatvamente aos coefcentes β, β 2,..., β k. Se o objectvo for a estmação das probabldades em [8], uma estratéga a consderar sera a de basear numa equação como [7] a estmação dos coefcentes e, depos, usar essas estmatvas na expressão [8].

11 Estmação de modelos lneares de probabldade Admta-se dsponível uma amostra de observações (X 2, X 3,..., X k ), =, 2,..., n, com a nformação, para cada uma das observações, sobre a verfcação do acontecmento em apreço, codfcada pela atrbução dos valores ou 0 a Y. O modelo pode ser escrto na forma habtual, Y = X β + u, em que X é a matrz (n k) cuja ª lnha é o vector X que se defnu acma, X = X X 2,... X n e Y é um vector (n ) de componentes Y, Y 2,..., Y n, guas, no caso, ou a 0, ou a. Desde que X tenha característca gual ao número de colunas, k, é possível calcular estmatvas de β por OLS segundo β = (X'X) - X'Y e, a partr delas, estmatvas de Prob(Y = ) de acordo com Pr ob( Y = ) = X β. Como já se afrmou, não está garantdo que as estmatvas da probabldade assm obtdas pertençam, para todo, ao ntervalo [0; ]. As perturbações aleatóras em u são heteroscedástcas e, por razões já conhecdas, o estmador OLS de β não é efcente. Sabe-se (de [5]) que Var(u) será uma matrz dagonal, em que o º elemento da dagonal prncpal é Var(u ) = p ( p ) = X β ( X β). [9] Uma vez que Var(u ) depende do vector β, desconhecdo, o estmador generalzado de mínmos quadrados (GLS), que sera o estmador lnear e cêntrco de varânca mínma, não é exequível. O estmador exequível (EGLS) é β EGLS = {X' [ Var( u) ] - X} - X' [ Var( u) ] - Y, [20] em que, por Var( u), se desgnou um estmador da matrz dagonal Var(u). Esse estmador pode ser construído substtundo β em [9] por β OLS. O procedmento equvalera a, ncalmente, estmar β por OLS, utlzar as estmatvas dos coefcentes para formar estmatvas das varâncas em [9] e, por últmo, a

12 reestmar β por EGLS. Embora não cêntrco em amostras fntas, o estmador assm defndo é consstente. Contudo, para as observações em que seja X β 0 ou X β, a estmatva da varânca segundo [9] conduzrá a valores negatvos ou nulos. Na lteratura, dos procedmentos ad hoc que têm sdo usados para ldar com o problema consstem na exclusão das observações em que tal suceda, ou na substtução de X β por um número próxmo de 0 (v.g., 0,0), quando X β 0, ou por um número próxmo de (v.g., 0,99), se X β. Em amostras de confguração pecular, é possível recorrer a uma varante, proposta por Goldberger, do procedmento de estmação que se acaba de descrever. A confguração em causa requer que, para cada sequênca ordenada (X 2, X 3,..., X k ) haja multplcdade de observações. Então, é possível calcular, para cada grupo de observações que apresentam exactamente os mesmos valores para todas as varáves explcatvas, a proporção das observações em que Y =, e utlzá-la como estmatva da probabldade (condconal a X 2 = X 2, X 3 = X 3,..., X k = X k ) de verfcação do acontecmento em causa. Essa proporção, que se desgnará por p, poderá assumr valores dferentes de 0 e. Pelo contráro, numa amostra em que não houvesse nenhum par de observações "repetdas" (sto é, com os mesmos valores para as varáves explcatvas), todas as proporções assm calculadas teram de ser ou 0, ou. Uma lustração do tpo de amostra referdo ocorre em estudos sobre a escolha de modos de transporte. Suponha-se que, para cada ndvíduo,, e para cada um de n das útes de certo mês, é regstado o modo de transporte empregue, públco ou prvado. As varáves que determnam a escolha (rendmento do ndvíduo, dstânca da resdênca ao trabalho, etc.) assumem valores mutáves para as n observações relatvas a uma pessoa nqurda, mas o modo de transporte utlzado pode não ser sempre o mesmo e verfcar-se que houve recurso aos transportes públcos em, por exemplo, 30% das deslocações efectuadas. O expedente que esta confguração da amostra vablza é o da substtução da sére de 0's e 's de valores de Y na amostra orgnal por uma sére de proporções p no ntervalo real [0, ]. Se as n observações relatvas ao º ndvíduo no da t (t =, 2,..., n ) obedecem a Y t = β + β 2 X 2t + β 3 X 3t β k X kt + u t, em que Y t = ou Y t = 0, X jt = X jt', para quasquer t, t' =, 2,..., n e j = 2, 3,..., k, e u t é uma perturbação aleatóra de méda nula e varânca p( p), somando essas observações e dvdndo por n, obtém-se n t= n Y t = β + β 2 X 2 + β 3 X β k X k + n t= n u t.

13 Para n fnto, a varável no prmero membro desta equação é a proporção p e a perturbação no segundo membro, que se desgnará por u, tem valor esperado nulo e varânca dada por p ( p )/n. Suponha-se que se formaram, a partr das observações orgnas e de acordo com a regra explcada acma, n observações agrupadas (uma por cada ndvíduo nqurdo, na lustração) e que se calculou p para cada um desses grupos. Seja p o vector-coluna em que se reunram essas n proporções e u o vector-coluna das perturbações correspondentes. Então, é O estmador OLS de β sera dado por p = X β + u. [2] β OLS = (X' X) X' p ; [22] como se sabe, conquanto cêntrco e consstente, esse estmador não é efcente. Uma alternatva sera o estmador GLS de β dado por β GLS = {X' [Var( u )] X} X' [Var( u )] p, [23] com Var( u ) a desgnar uma matrz dagonal em que o elemento genérco da dagonal prncpal é p( p)/n, Var( u ) = dag[p ( p )/n, p 2 ( p 2 )/n 2,..., p n ( p n )/n n ]. Uma vez que as probabldades p não são observadas, o estmador GLS exequível a empregar sera β EGLS = {X' [ Var( u) ] X} X' [ Var( u) ] p, [24] em que Var( u) desgna um estmador de Var( u ). Oferecem-se duas vas para a construção desse estmador: corresponde uma à utlzação drecta das proporções amostras, Var( u) = dag[p ( p )/n, p 2 ( p 2 )/n 2,..., p n ( p n )/n n ]; [25] parece preferível uma segunda va em que essas proporções seram substtuídas pelas estmatvas resultantes da estmação da equação [2] por OLS, e p = X β OLS, Var( u) = dag[ p ( p )/n, p 2 ( p 2 )/n 2,..., p n ( p n )/n n ]. [26]

14 Os estmadores defndos por [24] e [26] serão, geralmente, consstentes e assmptotcamente efcentes. Embora o procedmento que se acaba de descrever para amostras com observações repetdas permta, ao substtur uma varável dependente dcotómca por outra, contínua no ntervalo [0, ], mnorar o problema da possível obtenção de estmatvas de probabldades fora desse ntervalo, não o resolve por completo. Quando sso acontece, não é sequer possível construr a estmatva de Var( u ) segundo [26], devdo à presença de estmatvas (de varâncas) negatvas. Se é certo que com a fórmula em [25] tal não sucede, uma vez que se trata de proporções amostras, não é raro que entre essas proporções se ncluam algumas que são guas a 0 ou a ; nesse caso, haverá elementos nulos na dagonal prncpal da matrz da equação [25], essa matrz não será nvertível e, por consequênca, as estmatvas GLS defndas em [24] não são determnadas. Estmação de modelos probt e logt Seja o modelo Y = β + β 2 X 2 + β 3 X β k X k + u = X β + u, em que β é um vector de parâmetros a estmar. Apesar da lneardade de Y relatvamente a β, a equação não pode servr de base à estmação, porquanto a varável dependente não é observável. Observável é uma varável dcotómca Y tal que Y =, com probabldade F( X β), 0, com probabldade - F( Xβ) conforme se vu atrás (equações [3]). Seja F(.) uma ou outra das funções de dstrbução que se consderaram atrás, F(X β) não é função lnear de β e a estmação pelos métodos habtuas no contexto do modelo de regressão lnear não é possível. A estmação de modelos probt ou logt é feta, geralmente, pelo método da máxma verosmlhança. Admta-se dsponível uma amostra aleatóra em que há n 0 observações com Y = 0 e n (= n n 0 ) observações em que Y =. A função de verosmlhança é dada por L = Π 0 Prob(Y = 0) Π Prob(Y = ), em que Π 0 pretende sgnfcar o produto terado das n 0 observações para as quas Y = 0, enquanto Π corresponde ao produto terado das n observações restantes. É possível dar à função de verosmlhança uma expressão com notação mas smples, fazendo uso do facto de que Y apenas assume os valores 0 e :

15 Y { } n Y L = [ Prob(Y = 0) ] [ Prob(Y ] = ) ou, substtundo pelas expressões apropradas, = { } Y Y n L = [ F( X β ] [ F( X β ] = ) ). [27] 2 Os estmadores de máxma verosmlhança do vector β são as funções de valores amostras que maxmzam L em ordem a β. Como se sabe, é geralmente mas fácl determnar o máxmo da função logarítmca de verosmlhança, n ln L = {( Y ) ln[ F( X )] + Y ln[ F( X )]} = β β. [28] Os estmadores de máxma verosmlhança dos parâmetros do modelo (probt ou logt) são os que maxmzam a função L e, por mplcação, também a função em [28]. A condção usual para resolução do problema requer o anulamento das k dervadas parcas de prmera ordem, ou seja, requer ln L = 0, j =, 2,..., k. [29] β j A condção de 2ª ordem, por sua vez, será preenchda se, na vznhança do óptmo, for negatva defnda a matrz das dervadas parcas de 2ª ordem de ln L em ordem a β. O sstema de k equações em [29] não é lnear em β, β 2,..., β k, e não é possível, por sso, defnr por uma expressão analítca a solução do problema, seja F(.) a função de dstrbução normal dos modelos probt ou a função logístca dos modelos logt. Note-se, contudo, que a prmera classe de modelos é, do ponto de vsta calculatóro, bastante mas dfícl de tratar, por envolver a avalação de n ntegras. Esse é um dos factores que, antes do advento de meos de cálculo automátco poderosos, tornava popular o recurso à especfcação logt em detrmento do probt. Hoje em da, sabe-se que é côncava a função de verosmlhança para ambas as classes de modelos e que, por consequênca, o máxmo da função é únco (se exstr um máxmo); e há já software adequado para determnação desse máxmo sem grande 2 Embora se tenha usado, nas expressões acma, o símbolo L, smplesmente, para facltar a notação, deve ter-se presente que L se refere a uma função dos parâmetros do modelo, dados os valores amostras das varáves. Entre os parâmetros do modelo ncluem-se, de modo óbvo, os coefcentes das varáves explcatvas que são as componentes de β, e, eventualmente, também os parâmetros da matrz de varâncas e covarâncas das perturbações. Entenda-se, portanto, que L L(β X, X 2,..., X n,y, Y 2,..., Y n ).

16 custo. Não se entrará aqu, contudo, nos pormenores dos métodos de optmzação numérca que permtem a dentfcação do máxmo. É nstrutvo, no entanto, e útl para um desenvolvmento a apresentar adante, analsar neste contexto a formulação mas smples possível do problema, aquela em que o vector β tem uma únca componente, β. Ter-se-á, nesse caso, n ln L = {( Y ) ln [ F( )] Y ln [ F( β + β )]} = e, pela condção de ª ordem,, d ln L β d = 0 n ( Y ) = f( β ) ) Y f( β + F( β) F( β) = 0 (recorde-se que d F( β) = f(β ), por defnção de função de densdade) d β f( β) F( β ) n f( β n ) Y ( Y ) = 0 = F( β ) = n f( β) F( β ) = (n n ) f( β) F( β ) (usando a convenção ntroduzda anterormente de smbolzar por n o número de observações com Y = e por n0 (n 0 = n n ) o número de observações com Y = 0) F(β) = n. [30] n O valor máxmo da função logarítmca de verosmlhança, atngdo quando β satsfzer a condção em [30], será após smplfcação, n n ln L 0 = ( Y ) ln Y ln n = n + n ; ln L 0 = n ln n n ln n [3] n n

17 Note-se que os resultados em [30] e [3] foram obtdos sem que alguma vez se partcularzasse se F(.) se refera a uma dstrbução normal reduzda ou à função logístca, pelo que são váldos para ambos os casos. A nterpretação de [30] é, no entanto, dferente nos dos casos. Num modelo probt, o estmador de máxma verosmlhança de β é β tal que Φ( β ) = β 2π e 2 t 2 dt = n ; [32] n num modelo logt, o estmador de máxma verosmlhança de β é β tal que Λ( β ) = + e = n β n, donde resulta β = ln n n 0. [33] Por exemplo, se for de 50% a percentagem de observações com Y = na amostra, a estmatva de máxma verosmlhança de β será gual a 0, quer se trate de um modelo probt ou de um logt. Prova-se que, sob certas condções, os estmadores de máxma verosmlhança são consstentes e têm dstrbução assmptótca normal, que pode ser aproxmada, em amostras fntas, por uma dstrbução normal de méda β e matrz de varâncas e covarâncas 2 Var( ln L β ML ) = β β', [34] em que a matrz das dervadas parcas de 2ª ordem ndcada na expressão deve ser entendda como avalada para β = β ML. 3 Embora, com o software modernamente dsponível, a estmação de modelos probt e logt pelo método da máxma verosmlhança não suscte dfculdades de maor, é possível, apenas para o logt e para amostras com observações repetdas como se descreveu atrás, recorrer também à estmação por métodos de mínmos quadrados. Recordando (ver equação [7]) que 3 Há outras aproxmações possíves à matrz Var( β ML ); a escolha por uma ou outra aproxmação depende, geralmente, do algortmo usado na busca do máxmo da função, questão que não será dscutda neste texto.

18 ln p = X p β = β + β 2 X 2 + β 3 X β k X k, ocorre medatamente que podera obter-se estmatvas OLS dos coefcentes, por ajustamento de ln p = β p + β 2 X 2 + β 3 X β k X k + erro, desde que nenhuma das proporções amostras p fosse gual a 0 ou a. Em amostras sem observações repetdas, o uso desse expedente está, evdentemente, excluído. Avalação de resultados e análse estatístca As classes de modelos LPM, probt e logt têm em comum o facto de, neles, a varável dependente ser uma varável qualtatva com dos estados possíves, a que, habtualmente, se faz corresponder o símbolo ou o símbolo 0. Dspondo-se de uma amostra aleatóra de observações (X 2, X 3,..., X k ), =, 2,..., n, e anda, para cada observação, de nformação sobre a qual dos dos grupos possíves pertence, sera concebível proceder-se à estmação, com os mesmos dados, de um LPM (por OLS), de um probt, ou de um logt (por máxma verosmlhança). Que comparação se pode estabelecer entre os resultados segundo as três especfcações? No que toca a estmatvas dos coefcentes, as comparações fetas tendem a sugerr a valdade aproxmada das relações seguntes, para as estmatvas obtdas num LPM, β j,lpm, e num modelo logt, β j,l : β,lpm 0,25 β,l + 0,5, para o termo ndependente, e β j,lpm 0,25 β j,l, j = 2, 3,..., k, para os coefcentes das varáves ndependentes. Por sua vez, as estmatvas obtdas por probt, β j,p, e por logt, β j,l, tendem a verfcar, aproxmadamente, β j,l,6 β j,p, j = 2, 3,..., k, em que o factor,6 está assocado com a desgualdade da varânca das perturbações nos modelos logt (π 2 /3) e probt ().

19 Um segundo elemento de comparação dos resultados é o que respeta às estmatvas das probabldades. Quanto a esse aspecto, os modelos LPM, de um lado, e os modelos probt e logt, do outro, podem produzr resultados radcalmente dferentes. Como já se apontou, pode acontecer, com os prmeros, que as estmatvas se stuem fora do ntervalo [0, ]; com os outros, tal nunca sucede. De resto, tem-se constatado frequentemente que as estmatvas de probabldades obtdas pela formulação probt e pela formulação logt são muto semelhantes, o que não surpreende se se atender à smltude de comportamento das duas funções de dstrbução. Essa semelhança é, geralmente, mas acentuada quando, na amostra, são próxmas as proporções de ocorrênca dos dos valores possíves, Y = e Y = 0. Para a ª observação, a probabldade de ser Y = num LPM é estmada segundo = Pr ob( Y = ) = X β, [35] Y em que se desgnou por β o estmador (OLS ou EGLS) utlzado e se admtu ser 0. X β. Num modelo probt, essa probabldade sera estmada de acordo com e, num modelo logt, por Pr ob( Y = ) = Φ(X β ) = X β 2π e 2 t 2 dt [36] Pr ob( Y = ) = Λ(X β ) = + e -X β. [37] Quer em [36], quer em [37], desgnou-se, agora, por β o estmador de máxma verosmlhança do vector de coefcentes. Como se vu em secção anteror, ao contráro do que se passa nos modelos LPM, não é medata a nterpretação das estmatvas dos coefcentes dos modelos probt e logt. Nestes, a únca nformação óbva que se derva das estmatvas é a do snal, postvo ou negatvo, da nfluênca margnal do regressor em causa sobre a probabldade de verfcação do acontecmento. É usual, por sso, que, a par dessas estmatvas, seja fornecda nformação sobre a grandeza dessa nfluênca; e, uma vez que ela é varável de observação para observação e, também, com os valores das varáves explcatvas, a prátca corrente é a de calcular estmatvas desses efetos referdas às médas amostras dos regressores. Quando se contarem varáves dummy entre estes regressores, a abordagem mas correcta será a de confrontar as estmatvas de probabldades calculadas para o valor e para o valor 0 dessa varável explcatva bnára, para um mesmo vector de valores das outras varáves explcatvas.

20 Poderá ter algum nteresse dspor, para os modelos probt e logt, de um ndcador sntétco da qualdade do "ajustamento", smlar ao coefcente de determnação R 2 da regressão clássca. Um ndcador referdo por vezes é o chamado pseudo-r 2, defndo por ps.r 2 = ln L ( β ML ), [38] ln L em que ln L( β ML ) é o valor da função logarítmca de verosmlhança avalada para β ML (e, portanto, gual ao máxmo dessa função), enquanto ln L 0 desgna o máxmo dessa função, sob a restrção de serem nulos todos os coefcentes das varáves ndependentes (β 2 = β 3 =... =β k = 0). Este máxmo fo já calculado anterormente (ver equação [3]). À semelhança de R 2, o pseudo-r 2 assume apenas valores no ntervalo [0, ]; dferentemente de R 2, o pseudo-r 2 não tem nterpretação ntutva medata. Ter-se-a ps.r 2 = quando ln L( β ML ) = 0 e, portanto, L( β ML ) =. Recorde-se que a função de verosmlhança é um produto de n factores, cada um dos quas dado por Y [ Prob(Y = 0 ] [ Prob(Y = ] 0 Y ) ) ; logo, são todos não negatvos e não superores a (por corresponderem a probabldades). Então, o produto só sera gual a se esses n factores fossem todos guas a, o que exgra que, sendo Y =, fosse gual a a probabldade estmada de ser Y = ; e, sendo Y = 0, fosse também gual a a estmatva da probabldade de ser Y = 0 (ou, por outras palavras, que fosse 0 a estmatva da probabldade de ser Y = ). O modelo estmado sera então um "prevsor perfeto", no sentdo de predzer correctamente, para todas as observações sem excepção, a qual dos dos grupos pertenca. Tenha-se em atenção, contudo, que, seja F(.) a função de dstrbução normal reduzda ou a função logístca, apenas se aproxmara de (ou 0) se o argumento tendesse para nfnto (ou ). Um valor de ps.r 2 vrtualmente gual a sera mas sugestvo de uma má especfcação do que de um "perfeto ajustamento". No outro extremo, ter-se-a ps.r 2 = 0 quando ln L( β ML ) = ln L 0 e, por consegunte, quando fossem nulas todas as componentes do vector β ML, excepto a prmera (relatva ao termo ndependente). Nesse caso, nenhuma das varáves "explcatvas" afectara a probabldade de ocorrênca do acontecmento em análse. Como se vu na equação [30], a estmatva dessa probabldade sera, smplesmente, gual à proporção de observações na amostra com Y =. Outro elemento de aprecação dos resultados de estmação que, por vezes, se usa é uma matrz em que se confrontam as predções do modelo com a repartção efectva das observações da amostra pelos dos grupos em presença. Calculada, para cada observação, uma estmatva da probabldade de Y = (usando fórmulas já apresentadas e tendo em conta se se trata de um modelo probt ou de um logt), é

21 costume predzer-se Y = ou Y = 0 conforme essa estmatva exceda ou não 0,5. Depos, a nformação é organzada numa tabela da forma: Y predto = Y predto = 0 Totas Y observado = A B n Y observado = 0 C D n 0 Totas E F n Os números representados por A e D correspondem a prevsões acertadas do modelo, enquanto B e C quantfcam prevsões erradas. A proporção de observações erradamente classfcadas, (B+C)/n, é a chamada taxa aparente de erro. A esse respeto, refra-se que, como métodos de classfcação ou de prevsão, as análses probt e logt têm um competdor séro em prevsores ad hoc, como aquele que prevê, para toda e qualquer observação, o acontecmento com maor frequênca relatva na amostra. Por exemplo, se 90% das observações numa amostra apresentam Y =, o prevsor " Y =, " fará predções correctas em 90% das vezes, o que não dexa grande escopo para melhora a métodos mas complexos. Não é raro que, em termos de capacdade predtva, os métodos probt e logt apenas consgam uma melhora modesta sobre a desse prevsor ad hoc, anda quando consgam explcar razoavelmente os determnantes da probabldade do acontecmento em estudo. Essa é uma das razões por que, apesar do seu carácter atraente, a vala da nformação na tabela acma é, frequentemente, questonada. A análse estatístca dos modelos probt e logt é, geralmente, conduzda em termos análogos aos que se conhecem para o modelo de regressão lnear, apenas com as modfcações requerdas pelo carácter de aproxmação assmptótca da matrz de varâncas estmadas em [34]. Assm, testes de hpóteses sobre coefcentes ndvduas podem ser conduzdos da forma usual. Embora se contnue a desgnar, por abuso de lnguagem, o quocente da estmatva do coefcente pela estmatva do desvo-padrão do estmador por ráco t, os valores crítcos aproxmados devem obterse nas tabelas da dstrbução normal reduzda. Testes de hpóteses sobre restrções aos parâmetros envolvem uma comparação entre os máxmos da função logarítmca de verosmlhança atngdos quando as restrções são observadas e quando são gnoradas, à semelhança do que na regressão lnear clássca se faz com as somas de quadrados dos resíduos. A estatístca de teste (chamada razão de verosmlhança) é calculada como 2 (ln L r ln L u ), [39] em que ln L r desgna o valor da função logarítmca de verosmlhança quando maxmzada sob as restrções fxadas na hpótese nula sob teste e ln L u o valor da função logarítmca de verosmlhança sem restrções (para que se usou atrás o símbolo ln L( β ML )). O valor crítco aproxmado é obtdo nas tabelas da dstrbução do ququadrado, com número de graus de lberdade gual ao de restrções consderadas na hpótese nula.

22 Um caso partcular de uso da razão de verosmlhança que tem partcular nteresse em modelos estmados pelo método da máxma verosmlhança ocorre no teste da hpótese nula β 2 = β 3 =... = β k = 0, que tem alcance análogo ao do teste de sgnfcânca global na regressão clássca. Sob essa hpótese, tem-se, assmptotcamente, 2 [ln L 0 ln L( β ML )] χ 2 (k ), [40] em que o sgnfcado dos símbolos é o exposto a propósto do pseudo-r 2. É frequente, no relato dos resultados de estmação destes modelos, dar-se conta do valor amostral da estatístca em [40] como ndcador sumáro da qualdade do "ajustamento", em papel semelhante ao que, na regressão clássca, se conferra à estatístca F para teste da mesma hpótese nula. Refra-se, a termnar, que, ao contráro do que se passa no modelo clássco de regressão lnear, ou em mas alto grau do que nesse, se tem constatado, em modelos como o probt ou logt, forte sensbldade dos resultados e propredades dos estmadores a stuações como a não normaldade da dstrbução dos erros, heteroscedastcdade ou erros de especfcação. Dado o papel crucal da hpótese da normaldade em algumas das formulações expostas, não é, talvez, surpreendente essa sensbldade. Tal como no modelo lnear clássco se enxertaram numerosíssmos desenvolvmentos e extensões, também nos modelos com varável qualtatva ou dependente há uma vasta lteratura que prolonga as potencaldades dos modelos baslares ora estudados. Identfcação dos parâmetros de modelos probt e logt A possbldade de dentfcar os parâmetros de uma população, a partr de uma amostra dela extraída, não é lmtada. Esse é o facto subjacente a um problema complexo de Econometra, conhecdo pela questão da dentfcação. Afloramentos dessa questão surgem logo no modelo clássco de regressão lnear. É conhecdo, por exemplo, que com uma amostra de dmensão nferor ao número de parâmetros do modelo não é possível estmá-los ou, pelo menos, estmá-los a todos. Embora possbldade de estmação e dentfcação não sejam snónmos, os dos tpos de problema aparecem, frequentemente, assocados. Um outro exemplo, anda no domíno da regressão clássca, ocorre a propósto do termo ndependente. Consderem-se os modelos Y = β + β 2 X + u, em que u é uma perturbação aleatóra de méda nula, e Y = β + β 2 X + v, em que é v u + 2 e β = β 2. Por muto grande que seja a dmensão da amostra de observações dos pares (X, Y), não é possível dstngur se foram geradas por um ou outro dos dos modelos, o prmero com termo constante β e perturbações de méda 0, o segundo com termo constante β e perturbações de méda 2. Se a perturbação aleatóra de um modelo tver valor esperado µ, constante, mas não gual a 0, a soma (β + µ) é dentfcável e pode ser estmada, mas nem β, nem µ, soladamente, o serão. Essa é, de resto, uma

23 das razões por que, na generaldade das análses econométrcas, não é conferdo grande nteresse às estmatvas de termos constantes. Para uma tercera lustração, seja o modelo não lnear Y = β 2 X + u. É óbvo que o parâmetro β não pode ser dentfcado, já que qualquer amostra gerada com um valor de β sera dêntca à gerada com o valor smétrco. No entanto, β 2 é dentfcável e, por essa razão, costuma dzer-se que β é dentfcável, excepto pelo snal. Mas prementes nos modelos não lneares e nos modelos multequaconas, os problemas de dentfcação colocam-se, também, naqueles em que a varável dependente é qualtatva ou lmtada. Duas característcas comuns destes são: ) uma relação estrutural que envolve uma varável dependente, Y, que não é observável ou, pelo menos, não é observável para todos os ndvíduos da população; 2) uma regra que determna uma varável observada, Y, em função da varável latente, Y, ou, se Y é observável para apenas alguns ndvíduos da população, que dscrmna entre esses e os restantes. A restrção à observabldade de Y actua como um fltro que dstorce a magem da relação que se pretende estmar e, em alguns casos, a dstorce a ponto de mpedr a dentfcação de certos parâmetros. Por exemplo, num exercíco de tro em que a nformação dsponível se cnja a "acertou, ou falhou", não é possível dentfcar o parâmetro assocado com a dspersão dos tros em torno do alvo; já o sera, contudo, se se dspusesse de nformação quanto à dstânca do ponto de mpacto relatvamente ao centro do alvo, para os projéctes que embateram numa vznhança desse centro. Para dscutr a questão da dentfcação em modelos probt e logt, consderese uma população A, caracterzada pelas relações Y A = β + β 2 X + u, E(u ) = 0, Y = A, se Y > 0 A. 0, se Y 0 por Em prmero lugar, confronte-se essa população com outra, B, caracterzada Y B = α + β 2 X + v, α = β µ, v u + µ, E(v ) = µ, Y = B, se Y > 0 B. 0, se Y 0 A Para todos os pares (X, u ), é Y = Y B ; por consegunte, também a varável observada Y será dêntca. Não é possível determnar, a partr de qualquer amostra de observações (X, Y ), se fo gerada pela população A ou pela população B e, portanto, se os parâmetros relevantes são β, β 2, 0, ou α, β 2, µ. Em segundo lugar, confronte-se A com a população C, em que

24 Y C = α + β 2 X + u, α = β + λ, E(u ) = 0, Y =, se Y 0, se Y C C > λ λ. Desta vez, são dferentes, para cada par (X, u ), as varáves latentes Y C e Y A ( Y C A = Y + λ), mas a varável observada, Y, é a mesma, tornando mpossível dstngur se, na população, o lmar de transção de Y = 0 para Y = é 0 e o termo constante é β, ou se são λ e α, respectvamente. As comparações efectuadas permtem conclur que não é possível dentfcar três constantes: o termo ndependente da relação estrutural, o valor médo das perturbações e o lmar de transção. É possível, no entanto, dentfcar uma constante que descreve, em condções que se precsarão abaxo, o efeto conjugado desses três factores. Para assegurar comparabldade de resultados, a convenção de normalzação usualmente adoptada é a de postular serem guas a 0 as duas últmas constantes referdas e dexar, portanto, que seja a estmatva de β a reflectr a nfluênca conjunta. Para uma tercera lustração, comparem-se A e D, com Y D = α + α 2 X + v, α = σβ, α 2 = σβ 2, v = σu, Y =, se Y 0, se Y D D > 0 0, com σ > 0. Para cada par (X, u ), as varáves latentes Y D e Y A são, novamente, dferentes (agora, Y D = σ Y A ), mas é óbvo que, sempre que for Y A > 0, também D será Y > 0. Por consegunte, a varável observada, Y, será a mesma, quer a população tenha por parâmetros β, β 2 e Var(u), ou σβ, σβ 2 e σ 2 Var(u). Do que acaba de expor-se neste últmo exemplo, devem reter-se duas consequêncas. A prmera é a de que a varânca das perturbações em modelos probt ou logt não é dentfcável: há uma nfndade de populações, cada uma com o seu valor para σ, de que poderá ter sdo extraída uma certa amostra de pares (X, Y ). A segunda conclusão a trar é a de que não é possível dstngur amostras de populações com coefcentes β, β 2 das geradas por populações com coefcentes σβ, σβ 2. Costuma referr-se esta stuação dzendo que os coefcentes da relação são dentfcados, excepto por um factor de proporconaldade constante. Abordada a questão da dentfcação com recurso a alguns exemplos smples, passar-se-á, na sequênca, a um tratamento mas formal do problema. Analsar-se-á, apenas, o caso dos modelos probt, mas é fácl a extensão dos resultados à especfcação logt. Mostrar-se-á, em prmero lugar, que, em condções a explctar adante, o mesmo conjunto de observações pode ter sdo gerado ndstntamente por uma de váras estruturas, o que mpossblta a dentfcação de alguns dos parâmetros estruturas. Provar-se-á, em segundo lugar, que não é possível obter estmatvas para todos os parâmetros requerdos por uma especfcação supostamente mas geral.

25 Com esse objectvo, consderem-se as especfcações Z = δ + δ 2 X 2 + δ 3 X δ k X k + v = X δ + v [4] Y =, se Z > 0 0, se Z 0 [42] e v N(0,) [43] W = γ + γ 2 X 2 + γ 3 X γ k X k + w = X γ + w [44] Y =, se W > λ 0, se W λ [45] w N(µ,σ 2 ) [46] São parâmetros do prmero modelo as k componentes do vector δ, δ, δ 2,..., δ k ; no segundo, além dos k coefcentes γ, γ 2,..., γ k, ncluem-se λ, µ e σ 2 como parâmetros adconas. As observações das populações em causa são, genercamente, do tpo (X 2, X 3,..., X k, Y ), em que Y é um mero ndcador, codfcado com os valores 0 e, da pertença da ª observação a um de dos grupos possíves. Buscar-se-á, na sequênca, resposta para duas questões. Podem as observações ser geradas, ndstntamente, por qualquer das estruturas em confronto, apesar da dspardade de especfcações quanto a aspectos como os parâmetros da dstrbução das perturbações aleatóras, ou como a defnção da varável observada a partr da varável latente? Em caso afrmatvo, em que condções? Para verfcar que a resposta à prmera questão é afrmatva, e que os dos modelos são equvalentes, sob o ponto de vsta de poderem gerar amostras perfetamente concdentes, analsem-se as consequêncas das três acções seguntes: ) Some-se e subtraa-se µ ao segundo membro da equação [44]; obter-se-á W = (γ + µ) + γ 2 X 2 + γ 3 X γ k X k + (w µ) e, evdentemente, não se altera com sso o valor de W, nem a regra em [45] conduz a observações de Y dferentes das anterores. 2) Subtraa-se λ a ambos os membros da equação anteror; vem W λ = (γ + µ λ) + γ 2 X 2 + γ 3 X γ k X k + (w µ).

26 Se se modfcar [45] para ou seja, se, se W λ > λ λ Y = 0, se W λ λ λ,, se W λ > 0 Y =, 0, se W λ 0 as observações de Y serão as mesmas que anterormente. 3) Por últmo, dvdam-se ambos os membros da equação acma por σ > 0; vrá W λ σ = γ + µ λ + γ 2 σ σ X 2 + γ 3 σ X γ k σ X k + w µ σ. [47] É medato que a dvsão de ( W λ) por uma constante postva não trará modfcação alguma aos valores observados para Y, que contnuarão a ser dados por Y =, se W λ > 0. 0, se W λ 0 Deve já ser claro que o modelo resultante das transformações ndcadas é, essencalmente, o postulado em [4]-[43]: a perturbação w µ verfca [43] (sto é, σ tem dstrbução normal de parâmetros 0 e ), a relação entre Y e a varável latente é a prevsta em [42] e, do confronto da equação [47] com a equação [4], depreende-se que as observações extraídas das duas populações serão concdentes se for δ = γ + µ λ, σ [48] δ j = γ j σ, para j = 2, 3,..., k. De facto, se as condções em [48] se verfcarem, ter-se-á, para qualquer X, E( Z X ) = E( W λ X σ ), Var( Z X ) = Var( W λ X σ ), e, como Z e W λ têm ambas dstrbução normal, a dentdade da méda e da σ varânca é sufcente para garantr a dentdade das dstrbuções.

Exibir mais