Inferência Ecológica para Recuperação de Dados Desagregados



Documentos relacionados
TEORIA DE ERROS * ERRO é a diferença entre um valor obtido ao se medir uma grandeza e o valor real ou correto da mesma.

NOTA II TABELAS E GRÁFICOS

Sistemas de Filas: Aula 5. Amedeo R. Odoni 22 de outubro de 2001

UNIVERSIDADE PRESBITERIANA MACKENZIE CCSA - Centro de Ciências Sociais e Aplicadas Curso de Economia

5.1 Seleção dos melhores regressores univariados (modelo de Índice de Difusão univariado)

Objetivos da aula. Essa aula objetiva fornecer algumas ferramentas descritivas úteis para

PROJEÇÕES POPULACIONAIS PARA OS MUNICÍPIOS E DISTRITOS DO CEARÁ

CENTRO UNIVERSITÁRIO DO LESTE DE MINAS GERAIS - UnilesteMG

7. Resolução Numérica de Equações Diferenciais Ordinárias

Análise do Retorno da Educação na Região Norte em 2007: Um Estudo à Luz da Regressão Quantílica.

Introdução e Organização de Dados Estatísticos

Estatística stica Descritiva

Covariância e Correlação Linear

CURSO ON-LINE PROFESSOR: VÍTOR MENEZES

3 A técnica de computação intensiva Bootstrap

Análise de Regressão. Profa Alcione Miranda dos Santos Departamento de Saúde Pública UFMA

Ministério da Educação. Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira. Cálculo do Conceito Preliminar de Cursos de Graduação

Despacho Econômico de. Sistemas Termoelétricos e. Hidrotérmicos

Y X Baixo Alto Total Baixo 1 (0,025) 7 (0,175) 8 (0,20) Alto 19 (0,475) 13 (0,325) 32 (0,80) Total 20 (0,50) 20 (0,50) 40 (1,00)

Aplicando o método de mínimos quadrados ordinários, você encontrou o seguinte resultado: 1,2

Introdução à Análise de Dados nas medidas de grandezas físicas

Fast Multiresolution Image Querying

Regressão e Correlação Linear

CAPÍTULO 1 Exercícios Propostos

Elaboração: Fevereiro/2008

4 Critérios para Avaliação dos Cenários

O migrante de retorno na Região Norte do Brasil: Uma aplicação de Regressão Logística Multinomial

7 - Distribuição de Freqüências

REGRESSÃO LOGÍSTICA. Seja Y uma variável aleatória dummy definida como:

3 Metodologia de Avaliação da Relação entre o Custo Operacional e o Preço do Óleo

Os modelos de regressão paramétricos vistos anteriormente exigem que se suponha uma distribuição estatística para o tempo de sobrevivência.

MAPEAMENTO DA VARIABILIDADE ESPACIAL

Sistemas Robóticos. Sumário. Introdução. Introdução. Navegação. Introdução Onde estou? Para onde vou? Como vou lá chegar?

Variabilidade Espacial do Teor de Água de um Argissolo sob Plantio Convencional de Feijão Irrigado

O problema da superdispersão na análise de dados de contagens

Rastreando Algoritmos

1 Princípios da entropia e da energia

Sempre que surgir uma dúvida quanto à utilização de um instrumento ou componente, o aluno deverá consultar o professor para esclarecimentos.

Professor Mauricio Lutz CORRELAÇÃO

3ª AULA: ESTATÍSTICA DESCRITIVA Medidas Numéricas

Análise multivariada do risco sistemático dos principais mercados de ações da América Latina: um enfoque Bayesiano

PARTE Apresente as equações que descrevem o comportamento do preço de venda dos imóveis.

ESTATÍSTICA MULTIVARIADA 2º SEMESTRE 2010 / 11. EXERCÍCIOS PRÁTICOS - CADERNO 1 Revisões de Estatística

CAPÍTULO VI Introdução ao Método de Elementos Finitos (MEF)

UMA ABORDAGEM ALTERNATIVA PARA O ENSINO DO MÉTODO DOS MÍNIMOS QUADRADOS NO NÍVEL MÉDIO E INÍCIO DO CURSO SUPERIOR

RAD1507 Estatística Aplicada à Administração I Prof. Dr. Evandro Marcos Saidel Ribeiro

Hansard OnLine. Guia Unit Fund Centre

Nota Técnica Médias do ENEM 2009 por Escola

Cálculo do Conceito ENADE

MODELOS DE REGRESSÃO PARAMÉTRICOS

O problema da superdispersão na análise de dados de contagens

Associação entre duas variáveis quantitativas

Controle Estatístico de Qualidade. Capítulo 8 (montgomery)

Variáveis dummy: especificações de modelos com parâmetros variáveis

3 Algoritmos propostos

Aula 7: Circuitos. Curso de Física Geral III F-328 1º semestre, 2014

Escolha do Consumidor sob condições de Risco e de Incerteza

MODELO DE FILA HIPERCUBO COM MÚLTIPLO DESPACHO E BACKUP PARCIAL PARA ANÁLISE DE SISTEMAS DE ATENDIMENTO MÉDICO EMERGENCIAIS EM RODOVIAS

TRABALHADORES COM DEFICIÊNCIAS EM LINHAS DE PRODUÇÃO: MODELOS, RESULTADOS E DISCUSSÕES 1

1. CORRELAÇÃO E REGRESSÃO LINEAR


1. ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA

Elaboração: Novembro/2005

Contabilometria. Aula 8 Regressão Linear Simples

Uso dos gráficos de controle da regressão no processo de poluição em uma interseção sinalizada

3.6. Análise descritiva com dados agrupados Dados agrupados com variáveis discretas

Polos Olímpicos de Treinamento. Aula 10. Curso de Teoria dos Números - Nível 2. Divisores. Prof. Samuel Feitosa

Estimativa da Incerteza de Medição da Viscosidade Cinemática pelo Método Manual em Biodiesel

Controlo Metrológico de Contadores de Gás

Universidade Salvador UNIFACS Cursos de Engenharia Cálculo IV Profa: Ilka Rebouças Freire. Integrais Múltiplas

REGRESSÃO NÃO LINEAR 27/06/2017

IV - Descrição e Apresentação dos Dados. Prof. Herondino

1 a Lei de Kirchhoff ou Lei dos Nós: Num nó, a soma das intensidades de correntes que chegam é igual à soma das intensidades de correntes que saem.

Ao se calcular a média, moda e mediana, temos: Quanto mais os dados variam, menos representativa é a média.

Ao se calcular a média, moda e mediana, temos: Quanto mais os dados variam, menos representativa é a média.

PLANEJAMENTO DE GRÁFICOS DE CONTROLE DE REGRESSÃO VIA SIMULAÇÃO

Associação de resistores em série

DIAGNÓSTICO EM MODELOS LINEARES GENERALIZADOS

MODELO DE FILA HIPERCUBO COM MÚLTIPLO DESPACHO E BACKUP PARCIAL PARA ANÁLISE DE SISTEMAS DE ATENDIMENTO MÉDICO EMERGENCIAIS EM RODOVIAS

Probabilidade e Estatística. Correlação e Regressão Linear

MOQ-14 PROJETO e ANÁLISE de EXPERIMENTOS. Professor: Rodrigo A. Scarpel

Curso de extensão, MMQ IFUSP, fevereiro/2014. Alguns exercício básicos

XX SNPTEE SEMINÁRIO NACIONAL DE PRODUÇÃO E TRANSMISSÃO DE ENERGIA ELÉTRICA NOVO MODELO PARA O CÁLCULO DE CARREGAMENTO DINÂMICO DE TRANSFORMADORES

1.UNIVERSIDADE FEDERAL DE VIÇOSA, VIÇOSA, MG, BRASIL; 2.UNIVERSIDADE FEDERAL DE GOIÁS, GOIANIA, GO, BRASIL.

2 ANÁLISE ESPACIAL DE EVENTOS

Distribuição de Massa Molar

Modelos estatísticos para previsão de partidas de futebol

Influência dos Procedimentos de Ensaios e Tratamento de Dados em Análise Probabilística de Estrutura de Contenção

ESTATÍSTICAS E INDICADORES DE COMÉRCIO EXTERNO

E FICIÊNCIA EM S AÚDE E C OBERTURA DE P LANOS DE S AÚDE NO B RASIL

PREVISÃO DE PARTIDAS DE FUTEBOL USANDO MODELOS DINÂMICOS

Regressão Múltipla. Parte I: Modelo Geral e Estimação

RESOLUÇÃO Nº 3259 RESOLVEU:

MOQ-14 PROJETO E ANÁLISE DE EXPERIMENTOS LISTA DE EXERCÍCIOS 1 REGRESSÃO LINEAR SIMPLES

JOANNE MEDEIROS FERREIRA ANÁLISE DE SOBREVIVÊNCIA: UMA VISÃO DE RISCO COMPORTAMENTAL NA UTILIZAÇÃO DE CARTÃO DE CRÉDITO.

CQ110 : Princípios de FQ

INTRODUÇÃO À CALIBRAÇÃO MULTIVARIADA

UNIVERSIDADE DE PERNAMBUCO. Física Experimental. Prof o José Wilson Vieira

MOQ-14 PROJETO e ANÁLISE de EXPERIMENTOS. Professor: Rodrigo A. Scarpel

UMA VALIDAÇÃO MATEMÁTICA PARA UM ALGORITMO QUE SIMULA MISTURAS DE DISTRIBUIÇÕES

Transcrição:

Inferênca Ecológca para Recuperação de Dados Desagregados Rogéro Slva de Mattos Departamento de Análse Econômca Unversdade Federal de Juz de Fora Campus Unverstáro, Martelos 36036-330, Juz de Fora, MG rmattos@fea.ufjf.r Álvaro Vega Flho Departamento de Engenhara Elétrca Pontfíca Unversdade Católca do Ro de Janero Rua Marquês de São Vcente, 225, Gávea 22453-900, Ro de Janero, RJ alvf@ele.puc ro.r

RESUMO A escassez de dados desagregados representa séra restrção para estudos socas em uma perspectva espacal. O prolema é agravado no Brasl pelo enxugamento do Sstema Naconal de Estatístca do IBGE ocorrdo nos anos 990 e pela crse fnancera de estados e muncípos, que lhes dfculta fazerem dspendosos levantamentos de dados. Técncas de nferênca ecológca IE) são útes nessa stuação. Aplcações de IE ncluem estudos de padrões de mgração em demografa, estmação de tráfego em planejamento de transportes e atualzação de matrzes de nsumo produto em economa, dentre váras outras. O artgo apresenta, dscute e exemplfca os prncpas e mas recentes métodos para IE propostos na lteratura, vsando salentar sua aplcaldade para dversos prolemas que aparecem em estudos socas empírcos, em como apresentar o estado da arte na área com ndcação de softares dsponíves. PALAVRAS CHAVE: nferênca ecológca; desagregação de dados; taelas de contngênca; smulação. ABSTRACT The shortage of dsaggregate data s a severe restrcton to the development of socal studes under spatal perspectves. The prolem s of major mportance n Brazl ecause of the shrnkage of IBGE s Offcal Statstcal System durng the 990 s along th the fnancal crses of states and muncpaltes, hat prevent them to mplement expensve surveys. Technques of ecologcal nference EI) are useful n such nstances. Applcatons of EI nclude assessment of mgraton patterns n demography, estmaton of traffc flos n transportaton plannng, and updatng of nput output matrxes n economcs, among a range of others. The paper presents, dscusses and exemplfes the major and most recent methods for EI proposed n the lterature, amng to hghlght ther applcalty to a numer of prolems that arse n emprcal socal studes, as ell as to present the state of the art n the area th ndcaton of avalale softares. KEYWORDS: ecologcal nference; dsaggregaton of data; contngency tales, smulaton. 2

. Introdução No Brasl, a demanda por nformações sóco- econômcas desagregadas, soretudo a nível espacal, vem se fazendo crescente. Essa demanda se faz tanto da parte de estudosos acadêmcos quanto de formuladores e gestores de polítcas púlcas. No caso dos últmos, o processo de muncpalzação deslanchado pela Consttução de 988, com a transferênca de responsaldades das esferas federal e estadual de governo para a esfera muncpal, levou os a se ressentr, cada vez mas, da escassez de nformações sóco- econômcas desagregadas ao nível das localdades e regões em que atuam. Agravando essa stuação, a Fundação Insttuto Braslero de Geografa e Estatístca FIBGE) veo reformulando desde o níco dos anos 990 seu sstema de dados sóco- econômcos na dreção de uma estrutura mas enxuta, com menor número de varáves levantadas e a produção de estatístcas em maor nível de agregação Góes, 996). Com o novo sstema, reca sore os estados e até sore os muncípos a carga de terem de levantar mutos dos dados desagregados ao nível regonal/local de seu nteresse. Entretanto, os levantamentos de dados estatístcos surveys) são em geral custosos e as dfculdades fnanceras de mutos estados e muncípos lhes restrnge de mplementá los. Uma forma de enfrentar essa stuação é o apelo a métodos não survey tal como em nglês, nonsurvey methods), que se referem a quasquer procedmentos alternatvos aos surveys, ad hoc ou formas, que possam ser usados para se aproxmar os dados desagregados não dsponíves. Por exemplo, em estudos econômcos setoras a nível regonal, é usual desagregar- se espacalmente matrzes de nsumo produto através de um procedmento não- survey aseado em coefcentes locaconas Round, 978 e 983). Em geografa humana e planejamento urano e de transportes, város prolemas de estmação de dados sóco- econômcos desagregados são tratados por métodos não survey aseados em otmzação de entropa Novaes, 98). Uma área de pesqusa em métodos não survey que vem se destacando recentemente é a de nferênca ecológca IE). A pesqusa em IE volta se para prolemas de recuperação ou estmação de dados desagregados não dsponíves) a partr de dados agregados dsponíves). Especfcamente, ela reúne o conjunto de procedmentos para se aproxmar o conteúdo desconhecdo de células em taelas de contngênca ou valores quando só se conhecem os totas das lnhas e das colunas das taelas. Como város prolemas em dferentes áreas, soretudo das cêncas socas, se enquadram nessa caracterzação, as técncas de IE encontram dversas aplcações. A lteratura sore IE avançou devagar até meados da década de 990, quando então sofstcados métodos estatístcos começaram a ser propostos e assm reatvaram as pesqusas na área. O ojetvo deste artgo é apresentar alguns métodos estatístcos para se fazer IE, seleconados dentre os mas usados e os propostos recentemente. Não exste aqu a pretensão de se fazer um nventáro extenso da lteratura, mas apenas apresentar e exemplfcar métodos para IE dentro das prncpas lnhas de pesqusa em IE exstentes no momento. Uma sgnfcatva relação de traalhos é apresentada na seção de O termo nferênca ecológca não se refere a procedmentos de nferênca aplcados em ecologa, mas ao uso partcular de dados agregados, tamém chamados de dados ecológcos, relatvos a uma certa população para se estmar característcas de su grupos da mesma. 3

referêncas. Com sso, os autores pretendem dfundr e estmular as aplcações de técncas de IE por estatístcos e outros pesqusadores no contexto raslero. O artgo está organzado da segunte forma. Na seção 2, é feta uma reve revsão da lteratura sore IE, com ênfase nos desenvolvmentos recentes. Na seção 3, o prolema da IE é descrto formalmente. Na seção 4, são apresentados cnco enfoques dferentes para tratar o prolema. Na Seção 6, é feta uma reve avalação de softares dsponíves para se mplementar os métodos para IE apresentados. Na seção 7, são tecdos alguns comentáros conclusvos. 2. Lteratura sore IE A maora dos métodos para IE propostos na lteratura foram motvados por pesqusas em cênca polítca, geografa regonal e planejamento urano e de transportes. Emora a preocupação de se fazer IE provavelmente exsta há muto tempo, segundo Kng 997) as prmeras ncursões na lteratura aparecem em estudos amercanos de comportamento de voto na década de 90. Uma posção cétca quanto à real possldade de se fazer IE, posta por Ronson 950), levou a pesqusa em IE a fcar pratcamente adormecda por algumas décadas. De fato, do níco da década de 950 até meados da década de 990, poucos métodos foram sugerdos na lteratura. Em cênca polítca, destacaram se nesse período o método dos lmtes de Duncan e Davs 953), a chamada Regressão de Goodman Goodman, 953 e 959), um método de otmzação de entropa proposto por Johnston e Hay 983) e o modelo agregado multnomal composto de Bron e Payne 986). Em planejamento urano e de transportes, métodos tamém aseados em otmzação da entropa foram propostos por Wlson 970a, 970; ver tamém Chlton e Poet, 973; e Novaes, 98). Anda nesse período, o únco estudo comparatvo de métodos para IE fo feto por Cleave 992) e reapresentado em Cleave, Bron e Payne 995). Dentre esses métodos mas antgos, apenas o de Goodman 953 e 959) e o de Bron e Payne 985) são aseado em formulação estatístca. Os demas, nclusve os aseados em otmzação da entropa, apresentam uma natureza ad hoc ou determnístca. A pesqusa em IE ressurge no fnal da década de 990 com o método proposto por Kng 997), aseado na dstrução normal truncada. Este método fo algo revoluconáro por usar um sofstcado modelo estatístco que tamém ntegra todas as nformações determnístcas dsponíves sore o prolema, o que não fora feto por nenhum dos métodos propostos anterormente. O método de Kng tamém naugurou na lteratura sore IE o uso de modernos recursos de smulação estocástca para nferêncas estatístcas complexas e.g, Tanner,996). Apesar dsso, o método de Kng tem sdo ojeto de váras controvérsas Cho, 997; Fredman et al, 999 e 2000; Kng, 999a e 999; McCue, 200; Anseln e Cho, 2002). Uma letura cudadosa dessas controvérsas, no entanto, ndca que elas se devem mas à complexdade nerente ao processo de se fazer IE do que a eventuas lmtações do método de Kng. Pouco depos, Kng, Rosen e Tanner 999) ntroduzem novo método, aseado em um modelo herárquco nomal eta de formulação ayesana, que segundo os autores é mas versátl do que o método normal truncada de Kng 997) para se fazer IE. Tanto o método de Kng 997) quanto o de Kng, Rosen e Tanner são restrtos a prolemas de IE em taelas 2x2. Posterormente, Rosen et al 200) generalzaram o últmo método para aplcações envolvendo taelas de qualquer tamanho. A nferênca com o modelo herárquco nomal- eta e sua versão generalzada) tamém é mplementada com métodos de smulação estocástca, em partcular os algortmos de smulação de Monte Carlo por Cadea de Markov Markov Chan Monte Carlo - MCMC; e.g., Tanner, 996; Gelman et al, 995), que são aseados em computação 4

ntensva 2. Antes de apresentarmos alguns desses métodos, faremos na próxma seção uma descrção formal do prolema da nferênca ecológca. 3. O Prolema Tecncamente, o prolema da nferênca ecológca, daqu por dante smplesmente prolema IE, refere- se à como determnar o conteúdo das células em taelas de contngênca ou valores quando só são conhecdos os totas de lnhas e colunas das taelas. A Ta. 3. lustra essa stuação em um prolema de determnação do comportamento de voto para uma regão hpotétca dos Estados Undos da Amérca. Taela 3. Ilustração do prolema da nferênca ecológca Repulcanos Democratas Não Votantes Brancos??? 3.246 Negros???.73.543.979 893 4.49 Nessa taela, os números de rancos e negros em dade de votar totas das lnhas) em como os números de votos para os canddatos Repulcano e Democrata mas o total de não-votantes totas das colunas) são conhecdos. Entretanto, não se saem, por exemplo, os números de rancos que votaram no canddato repulcano ou o de negros que votaram no canddato democrata. Ou seja, são desconhecdos os conteúdos das células, que por sso são representadas com um ponto de nterrogação?. O ojetvo no prolema IE é nferr os valores desagregados das células. Emora a Ta. 3. seja de ordem 2x3, o prolema pode ser descrto em termos geras para taelas de ordem R C, onde R é um número qualquer de lnhas e C um número qualquer de colunas. 3. O caso 2x2 com varáves em proporções Na maor parte deste artgo, estaremos traalhando com a stuação mas smples para o prolema IE em que as taelas são de tamanho 2 2 e, ao mesmo tempo, as varáves agregadas e desagregadas) são representadas como proporções. Este caso está apresentado formalmente na Ta. 3.2. 2 Mattos e Vega 2002) desenvolveram um método mas rápdo para mplementar uma versão lgeramente modfcada do modelo herárquco nomal eta aseado no algortmo ECM Meng e Run, 993). 5

Taela 3.2. Representação do prolema IE para taelas 2 2 e com varáves meddas em proporções Varável I β 2 β Varável II 2 Totas β β Totas T T As varáves são representadas em proporções porque sso às vezes provê uma nterpretação mas dreta dos resultados. β e β representam as proporções desagregadas da prmera categora da varável II no total das lnhas correspondentes. representa a proporção agregada da prmera categora da varável I no total das suas duas categoras e T, por sua vez, representa a proporção agregada da prmera categora da varável II no total das suas duas categoras. Apenas e T são oserváves e, uma vez oservado um conjunto de dados para as mesmas, o ojetvo é recuperar ou prever os valores das proporções β e β, para =,...,p. Estas proporções serão chamadas aqu de quantdades de nteresse do prolema IE. A notação da Ta. 3.2 é geral e aplcável a város contextos. Por exemplo, em economa, a varável I pode representar níves de renda famlar e a varável II gastos em dferentes tpos de ens de consumo; em socologa, a varável I pode representar o número de crmes segundo dferentes regões da cdade e a varável II o número de crmes por tpo; em planejamento de transportes, a varável I pode representar o número de resdentes por área resdencal e a varável II o número de empregos por área comercal. A flexldade da representação do prolema IE faz com que as técncas desenvolvdas para tratá lo possam ser aplcadas em prolemas de dversas áreas de pesqusa. β β β β T T β β T β β T β P β P TP β P P β P P T P Fgura 3. O uso de váras taelas como undades amostras. 6

O suscrto na Ta. 3.2 ndca a ésma taela ou undade amostral, dentre um total de p taelas que são consderadas na análse. A déa, seguda por mutos autores, de se traalhar com váras taelas ao mesmo tempo é, de um lado, usar um maor número de oservações agregadas e, de outro, uscar força do que há de comum entre elas e com sso oter- se aproxmações mas efcentes. Na prátca, nem sempre exste tal comunaldade, pelo menos entre todas as p taelas, e por sso alguns dos métodos a serem apresentados admtem extensões que permtem nclur varáves explcatvas. 3.2 Aspectos determnístcos Há dos fatos determnístcos mportantes do prolema descrto na Ta. 3.2 que são usualmente consderados em métodos para IE. O prmero é a dentdade contál, que formalmente é representada como: T = β + β ) ) A equação ) retrata uma relação exata entre as proporções agregadas e desagregadas. Ela é a contrapartda no espaço das proporções do fato de que, para uma taela de valores, a soma das células em uma certa coluna deve ser gual ao total da coluna. Quando T e são dados, a expressão ) passa a caracterzar uma relação lnear entre os valores possíves para β e conforme: β. De fato, sso fca claro quando a reescrevemos β T = β 2) A dentdade contál tamém é mportante porque permte estaelecer ntervalos admssíves para as quantdades de nteresse. Enquanto proporções, β e estão restrtas a assumrem valores no ntervalo untáro [0,], mas é possível mostrar a partr de ) ou 2) que, dependendo dos valores oservados de T e, os ntervalos de valores admssíves podem ser mas estretos. Isto sgnfca que β [L,U ] [0,] e β [L,U ] [0,], onde: L = max 0, T + ) ) U = mn T,) 4) L U = max 0, T = mn T ) )) ),) para uma prova, ver Kng997: 302 303)), onde L e U ndcam lmte nferor e lmte superor, respectvamente. As expressões 3) 6) foram estaelecdas na lteratura sore IE por Duncan e Davs 953). Uma generalzação das mesmas para taelas R C é apresentada em Kng997; capítulo...). 3) 5) 6) β 7

3.3 Característcas das Soluções A Fg. 3.2 lustra a dentdade contál, os lmtes determnístcos e a propredade de consstênca na agregação 3. Ela mostra o espaço produto a pror de β β, formado pelo quadrado untáro [0,]x[0,], com uma lnha negatvamente nclnada. Para um dado par de proporções agregadas, T ), essa lnha representa a dentdade contál conforme a expressão 2). Dferentes pares, T ) determnam dferentes lnhas negatvamente nclnadas cruzando o quadrado untáro. Antes de um par, T ) ser oservado, a lnha correspondente à dentdade contál anda não está determnada e o par de proporções desagregadas β, β ) pode ser qualquer ponto sore o quadrado untáro. Porém, quando um par, T ) é dado ou oservado, β, β ) tem de ser necessaramente um dos pontos stuados sore a lnha. A nformação contda nos dados agregados, portanto, pode trazer sustancal de redução de ncerteza de todo o quadrado untáro para uma lnha) quanto aos valores possíves para β, β ). Fgura 3.2. Identdade contál, lmtes e consstênca na agregação. Além dsso, note se que as projeções dessa lnha sore os exos caracterzam os ntervalos admssíves [ L, U ] e [ L, U ], respectvamente. Se um determnado método para IE respeta a dentdade contál, sto sgnfca que os valores βˆ e βˆ aproxmados ou prevstos segundo ele necessaramente respetam os lmtes ou os ntervalos admssíves) e apresentam consstênca na agregação, porque o ponto representado por ˆ, ˆ β β ) ra se stuar sore a lnha negatvamente nclnada na Fg. 3 Consstênca na agregação é uma propredade desejável de um método para IE. As prevsões βˆ e βˆ geradas por este método têm de ser tas que, quando susttuídas em ), façam com que a dentdade contnue válda. Se nessa susttução, ao contráro, o lado esquerdo dferr do lado dreto, então dzemos que βˆ e βˆ são prevsões nconsstentes na agregação. 8

3.2. Emora os pontos fora da lnha representem prevsões que não apresentam consstênca na agregação, eles podem, no entanto, respetar ou não os lmtes determnístcos. Por exemplo, os círculos respetam amos os ntervalos; os pontos pretos apenas um dos ntervalos e o x nenhum dos ntervalos. 4. Enfoques Alguns dos métodos propostos para soluconar o prolema IE descrto na seção 3 serão agora apresentados, dscutdos e exemplfcados, a saer: o método dos lmtes de Duncan e Davs 953), a Regressão de Goodman 953, 959), o modelo normal truncada de Kng 997), o modelo herárquco nomal eta de Kng, Rosen e Tanner 999), e o método de otmzação de entropa de Wlson 970a e 970). Esses métodos correspondem aos prncpas enfoques para IE dsponíves no momento. Para quase todos, exstem softares dsponíves para mplementá los, sore o que falaremos na seção 6. 4. Método dos Lmtes Um dos prmeros métodos de IE fo proposto por Duncan e Davs 953) e envolve se traalhar apenas com as nformações determnístcas presentes nos dados agregados das taelas. Os autores sugerem fazer as prevsões das proporções desagregadas usando o ponto médo dos ntervalos admssíves, sto é ˆ β = L + U ) 2 e ˆ β = L + U ) 2, onde L, U, L e U são dados segundo 3) 6). Este procedmento é conhecdo na lteratura sore IE como método dos lmtes. Ele apresenta as vantagens de ser smples de ser aplcado, de gerar prevsões que respetam a dentdade contál e de funconar em quando os ntervalos admssíves são estretos. Por outro lado, ele possu uma natureza ad hoc e logo só permte produzr prevsões pontuas. 4.2 Regressão de Goodman Goodman 953) tamém propôs um dos prmeros métodos para se resolver o prolema IE. Por se asear em um modelo clássco de regressão lnear, o método fcou conhecdo como Regressão de Goodman e tamém pelo termo regressão ecológca. Em seu desenvolvmento, Goodman faz uma modfcação na dentdade contál em ), assumndo que as proporções desagregadas são as mesmas por taela, ou seja, que β = µ e β = µ, onde µ e µ são constantes para =,...p. As dferenças decorrentes entre o lado esquerdo e o dreto da dentdade contál em ) seram devdas a um erro aleatóro ε, o que permtra reescrevê la como: T = ) ε =,...,p 7) µ + µ + Nesta forma, a dentdade contál vra um modelo de regressão lnear sem constante. Para cada =,...,p podem ser determnadas estmatvas de mínmos quadrados constantes) para as quantdades de nteresse. É medato perceer que este método pode ser generalzado para taelas de ordem R C. Emora o método de Goodman seja aseado num procedmento estatístco, ele é lmtado por duas razões. Prmero, emora seja a hpótese de constânca ao longo das dferentes taelas que permte o uso de mínmos quadrados ordnáros para se estmar os conteúdos das células, a evdênca empírca em geral va contra essa hpótese Cho, 9

997). Segundo, ao modfcar a dentdade contál, o método de Goodman dexa de apresentar as oas propredades, dscutdas na seção 3.2, de consstênca na agregação e respeto aos lmtes determnístcos. Não exste restrção para o valor assumdo pelos parâmetros, quando estes deveram se stuar dentro dos ntervalos admssíves conforme os lmtes de Duncan e Davs, ou pelo menos dentro do ntervalo [0,], pos são proporções. Na prátca, alguém pode oter proporções estmadas maores do que 00% e até negatvas para um exemplo, ver Kng, 997; Ta..3, p. 6). 4.3 Modelo Normal Truncada de Kng O modelo de Kng997), que hoje é um marco na lteratura sore IE, consegue superar de forma consstente as lmtações menconadas da Regressão de Goodman. Essencalmente, este modelo admte que as quantdades de nteresse possam varar de taela para taela ao contráro da Regressão de Goodman) e faz sso de forma comnada com um modelo proalístco para as quantdades de nteresse. No fnal, é possível se fazer prevsões estatístcas das mesmas com ntervalos de confança anda mas estretos que os defndos pelo lmtes determnístcos de Duncan e Davs. Kng 997) apresenta duas formulações: o modelo ásco, que usa só os dados agregados, e o modelo estenddo, que tamém ncorpora efetos de varáves explcatvas. Versão Básca O modelo ásco de Kng 997) usa a dentdade contál T = β + β ) de forma estrta, sem mpor constânca para as varáves de nteresse. Consequentemente, as prevsões das proporções desagregadas produzdas por seu método apresentam oas propredades, sto é, respetam os lmtes determnístcos e apresentam consstênca na agregação, como vsto na seção 3.2. O modelo tamém apresenta as seguntes hpóteses: a) as proporções desagregadas seguem a pror uma normal varada truncada sore o quadrado untáro A=[0,] [0,] R 2, condconada em como aaxo: β, β ) ~ TN =,...,p 8) A ψ ) T 2 2 onde: ψ = [ µ, µ, σ, σ, ρ ] é o vetor de parâmetros da normal orgnal não truncada) que dá orgem à truncada; ) β e β são ndependentes na méda em relação a e c) T é ndependente de T para j. j j Note se na hpótese a) que o modelo é condconal em, sto é, essa varável é assumda como dada ou determnístca. A dstrução truncada sore [0,] [0,] se deve ao fato de que, a pror ou antes de serem oservados os dados agregados para T uma vez que é tomada como dada), as quantdades de nteresse β e β são proporções e, portanto, assumem cada uma valores no ntervalo [0,]. A hpótese ), por sua vez, sgnfca que, apesar de ser dada, as quantdades β e β são varáves aleatóras cujas médas não dependem de. E a hpótese c) sgnfca que o comportamento dos agregados em uma taela é ndependente do comportamento dos agregados em outras taelas. 0

A partr das hpóteses a), ) e c) e da dentdade contál é possível dervar se a dstrução margnal ψ P p T ), a função de verossmlhança L ψ ) = Π = p T ψ), em como as dstruções predtvas p β T, ψ ) e p β T, ψ ) para as quantdades de nteresse. Emora Kng 997) salente que seu método possa ser usado so um enfoque clássco ou ayesano de estatístca, ele no fnal acaa usando a segunda aordagem devdo à necessdade de usar alguma dstrução a pror para ψ. Portanto, na prátca seu método se asea na dstrução a posteror p ψ T) = p ψ ) L ψ) e nas dstruções predtvas a posteror p β T ) e p β T ). A mplementação do modelo é feta em dos estágos: no prmero, otém se a moda ψˆ da posteror p ψ T). No segundo, assume se uma aproxmação normal da posteror em torno da moda e são otdas por smulação as dstruções predtvas p β T ) e p β T ). Esse procedmento é usado porque a determnação dessas dstruções por meos analítcos é complexa e Kng o faz usando amostragem de mportânca para detalhes, ver Kng, 997; cap. 8). a) ) c) Fgura 3.3 Exemplos de dstruções truncadas smuladas para as quantdades de nteresse. A Fg. 3.3 lustra os tpos de dstruções predtvas para as quantdades de nteresse que podem resultar de se aplcar o método descrto acma na -ésma taela. No gráfco 3.3a), em que os truncamentos nferor e superor não são operantes ocorrem em regões de axa proaldade para a dstrução smulada), a curva resultante se assemelha à uma dstrução normal. Nos outros dos gráfcos, sso não ocorre. No gráfco 3.3), o lmte nferor é operante, ao passo que o superor não. Isto gera uma assmetra da dstrução com corte arupto em L. No gráfco 3.3c), amos os lmtes são operantes e produzem alguma assmetra da dstrução resultante. Assm, em ) e c), as médas e varâncas das dstruções smuladas são sgnfcatvamente dferentes das correspondentes à versão não- truncada. Stuações smlares aos três gráfcos da Fg. 3.3 podem anda ocorrer quando L = 0 e U =, sto é, quando os lmtes de truncamento são guas aos lmtes a pror. O processo de mplementação do método de Kng termna quando são produzdas prevsões pontuas e ntervalares para as quantdades de nteresse, o que é feto computando-se as médas e os desvos-padrão das versões smuladas de p β T ) e p β T ). A Fg. 3.4 lustra uma aplcação do modelo ásco. Ela compara as proporções verdaderas de negros que votaram com as correspondentes proporções prevstas pelo método de Kng, usando- se apenas dados agregados sem varáves

explcatvas), para p = 3.262 zonas eletoras taelas) na Lousana, Estados Undos Kng, 997, Fg.., p.23). O tamanho de cada círculo que aparece na Fg. 3.4 é proporconal ao número de negros em dade de votar na zona eletoral a que o círculo se refere. Segundo Kng: Que a vasta maora de círculos reca próxma à lnha dagonal... é uma forte confrmação do método Kng, 997: p. 23). Fgura 3.4 Aplcação do modelo ásco de Kng para 3.262 zonas eletoras da Lousana, Estados Undos da Amérca. Fonte: Reproduzdo de Kng 997, Fg.., p. 23) Versão Estendda O modelo estenddo de Kng997) ncorpora o efeto de varáves explcatvas, através de uma lgera modfcação do modelo ásco. Para tanto, são consderados dos vetores de varáves aleatóras: Z e Z, de ordens m ) e n ), respectvamente. Cada um desses vetores contém varáves explcatvas que afetam, respectvamente, o comportamento de β e β. Os vetores Z e Z podem conter uma únca varável explcatva cada um, números guas ou dferentes de varáves, as mesmas varáves ou algumas varáves em comum e outras não. A ncorporação dos efetos dessas varáves explcatvas é feta assumndo se que: µ µ = a = a + + T Z Z ) α T Z Z ) α 9) 0) 2

onde a e a são constantes que dependem dos parâmetros ψ da dstrução normal W truncada para β, β ). O vetor α contém os parâmetros desconhecdos que multplcam as varáves em Z e o vetor α os parâmetros desconhecdos que multplcam as varáves Z. O vetor de parâmetros para a ser dado por T T T 2 2 γ = [ a, a α, α, σ, σ, ρ] e a dstrução a posteror fca p γ T ) = p γ ) L γ ) A mplementação do modelo estenddo tamém é feta em dos estágos: no prmero, otém se a moda γˆ da posteror p γ T ). No segundo, assume se uma aproxmação normal da posteror em torno da moda e são otdas por smulação as dstruções predtvas p β T ) e p β T ). O procedmento termna quanto prevsões pontuas e ntervalares aseadas nas médas e desvos-padrão dessas dstruções são calculados. Uma mportante lmtação para se aplcar o método de Kng, tanto na versão ásca como na estendda, é que ele só está mplementado para taelas de ordem 2 2. No Capítulo 5 de seu lvro, Kng 997) dscute uma generalzação de seu modelo para se mplementar IE em taelas de ordem maor R C), mas que, devdo à falta de algortmos computaconas rápdos para cômputo do fator de truncamento da dstrução normal multvarada truncada, não fo mplementada pelo autor. 4.4 Modelo Bnomal-Beta de Kng, Rosen e Tanner Kng, Rosen e Tanner999), doravante smplesmente KRT, ntroduzem novo método para IE aseado num modelo herárquco nomal eta. Este método segue uma aordagem ayesana e tamém é voltado para taelas 2x2. Emora seja dferente do método de Kng 997) em város aspectos, o método de KRT tamém usa uma formulação estatístca rgorosa e é mplementado por meo de algortmos de smulação estocástca aseados em MCMC. Segundo KRT, o modelo herárquco nomal eta é mas flexível que o modelo normal truncada de Kng para se fazer IE em prolemas mas complexos: por exemplo, quando houver mas de uma moda nas dstruções predtvas para as quantdades de nteresse. O modelo herárquco nomal- eta tamém fo desenvolvdo de modo a permtr o uso de varáves explcatvas, sto é, tamém apresenta uma versão ásca e uma versão estendda. Versão Básca Na versão ásca, os autores constróem o modelo herarqucamente em três estágos. No prmero, admtem que a varável agregada T * é uma varável ntera.e., não é uma proporção) que segue uma dstrução nomal com parâmetros de contagem N = tamanho da população na undade ) e parâmetro de proaldade β + β ), sto é: T * ~ Bn N, + β )) β ) Aqu, os autores mantém a hpótese usada por Kng 997) de que as s são dadas ou determnístcas. No segundo estágo, assumem que as quantdades de nteresse β são varáves aleatóras ndependentes segundo dstruções eta: β e 3

β ~ Beta c, d ) 2) β ~ Beta c, d ) 3) onde c, d, c e d são os parâmetros das etas em 2) e 3). No tercero e últmo estágo da herarqua, os autores assumem que os parâmetros das etas seguem, cada um, dstruções a pror ndependentes do tpo exponencal: c ~ Expo λ) d ~ Expo λ ) 4) c ~ Expo λ ) d ~ Expo λ ) 5) Note- se que o parâmetro das quatro exponencas é o mesmo e gual a λ. Os autores assumem que a méda dessas exponencas é alta e correspondente a λ = 2, o que mplca λ = 2 e que as dstruções a pror para c, d, c e d são não nformatvas. Assm, dadas as hpóteses dstruconas nos três estágos, KRT constróem a dstrução a posteror como segue: P Q T ) p = Expo c p N, β + β )) Beta β c, d ) Beta β c, d ) = / 2) Expo d / 2) Expo c / 2) Expo d / 2) Bn T T onde Q [ β β, β,..., β, c, d, c, d ],..., p p = é um vetor de ordem 2p+4) ) que contém todas as quantdades de nteresse nas p taelas) mas os parâmetros das etas, e T T = [ T,..., ] é um vetor 2p ) contendo os p dados agregados para a varáel T. T p A fm de mplementar a nferênca ayesana de forma rgorosa, sto é, recuperando completamente a dstrução a posteror PQ T) dada em 6) e suas margnas PQ T), é precso usar algum procedmento de smulação porque é dfícl determnar PQ T) por meos analítcos. KRT propõem o uso de algortmos de MCMC. Como resultado, são otdas as dstruções margnas a posteror para os elementos de Q, sto é, para as quantdades de nteresse β e β, =,...,p, e os parâmetros c, d, c e d. KRT apresentam, como exemplo, uma aplcação do modelo ásco sore os dados usados por Kng 997; Capítulo 0). Esses dados referem-se a pessoas regstradas e não regstradas segundo orgem racal em 275 condados de quatro estados do sudeste amercano: Flórda, Lousana, Carolna do Norte e Carolna do Sul. O ojetvo é determnar, para cada condado, os percentuas de negros regstrados β e não- regstrados β ), assm como de rancos regstrados β e não regstrados β ), usando- se nformações agregadas sore o percentual de negros na população e sore o total de pessoas regstradas T *. Na Fg. 3.5, estão apresentadas as dstruções margnas a posteror otdas para as quantdades de nteresse em dos condados: os de números 50 Fg. 3.5a)) e 50 Fg. 3.5)). O mportante a salentar é a rqueza de formas dstruconas que o modelo herárquco nomal-eta é capaz de captar, em contraposção ao modelo 6) 4

normal de Kng 997). Na Fg. 3.5a), os gráfcos para as posterores de β 50 e de β 50 captam dstruções unmodas assmétrcas com altas concentrações de proaldades à esquerda e à dreta, respectvamente. Já os gráfcos para as posterores de β 50 e β 50 apresentam formas dferentes das outras duas, apresentando duas modas salentes cada uma. Note- se tamém que as duas modas ocorrem em lados opostos nessas duas densdades, sto é, em seus extremos caso de β 50 ) ou próxmo a seus extremos caso de β 50 ). Essa ocorrênca de modaldade serve para representar a ncerteza acerca do padrão de regstro dos ndvíduos em um dado condado quando há fortes expectatvas tanto de que a taxa de regstro seja alta como de que ela seja axa. a) Dstruções margnas a posteror para β 50 e β 50 ) Dstruções margnas a posteror para β 50 e β 50 Fgura 3.5. Aplcação do modelo nomal eta sem varáves explcatvas: condados seleconados. Fonte: Adaptado de Kng, Rosen e Tanner 998; Fg. 3 e 4) Versão Estendda O modelo nomal- eta apresentado na suseção anteror pode ser lgeramente modfcado para permtr a nclusão de varáves explcatvas, assm como no caso do modelo normal-truncada. Para tanto, KRT consderaram por smplfcação uma únca varável explcatva, denotada por Z e que é a mesma para amas as quantdades de nteresse β e β. Além dsso, susttuíram os parâmetros c e c eta do segundo estágo, redefnndo as da segunte forma: ) ) nas dstruções β ~ Beta d exp α + βz, d 7) 5

) ) β ~ Beta d exp γ + δz, d 8) No tercero e últmo estágo da versão estendda, os autores contnuam assumndo: d ~ Expo λ ) d ~ Expo λ ) 9) onde as dstruções exponencas em 9) apresentam médas λ = 2, de modo a serem prores não nformatvas. Com relação aos parâmetros α, β, γ e δ, os autores seguem a flosofa usada em modelos ayesanos de regressão, sto é, assumem que são ndependentes e segundo tamém prores não nformatvas. A dstrução a posteror para esta nova stuação fca escrta como: P R T ) = p = p = Expo d N, β + β ) ) p β d exp α + βz ), d ) Beta β d exp γ + δz ), d ) = / 2) Expo d / 2) Beta Bn T onde R T = [ β βp β βp d d α β γ δ] 20),...,,,...,,,,,,, é um vetor de ordem 2p + 6) ) que contém todas as quantdades de nteresse nas p taelas) mas os parâmetros das etas e os coefcentes de regressão. Da mesma forma que antes, é precso aproxmar por smulação PR T) e as margnas PR T) e, para sso, os autores propõem usar os mesmos algortmos de MCMC de antes ver KRT). Mattos e Vega 2002c) apresentam a prmera comparação extensva entre a Regressão de Goodman, o modelo normal truncada e o modelo herárquco nomal eta. A comparação é feta com ase em um expermento de Monte Carlo e mostra que o modelo normal truncada é o que tende a apresentar maor efcênca predtva em termos do erro quadrátco médo) para recuperação das proporções desagregadas, vndo em seguda o modelo herárquco nomal eta e por últmo a Regressão de Goodman. 4.5. Otmzação da Entropa Métodos de IE aseados em otmzação da entropa foram propostos, de forma ndependente e em dferentes varações na lteratura sore IE. As técncas poneras surgram em planejamento urano e de transportes, com os traalhos de Wlson 970a e 970). Posterormente, em cênca polítca fo proposto o método de Jonhston e Hay 983). A prncpal vantagem desses métodos entrópcos resde na facldade de mplementação, mesmo para taelas de ordem R C. Por outro lado, suas desvantagens assocam se a serem métodos determnístcos e por não ncorporarem varáves explcatvas. Recentemente, Judge, Mller e Cho 2002) apresentaram um novo método para IE aseado em otmzação de entropa que se estrutura dentro de uma aordagem estatístca. Para falar desses métodos, remos mudar lgeramente a notação do prolema IE. Assummos aqu que este prolema pode ser representado tal com na Ta. 3.3. 6

Taela 3.3 Representação alternatva do prolema IE com taelas RxC Varável II... C Totas Varável I p... p C p. : : O : : R p R... p RC p R. Totas p.... p.c Como antes, consderam-se conhecdos os totas das lnhas das colunas C p Σ j= j R p j = Σ= pj, j =,...,C. O ojetvo é determnar as proporções pj = p, =,...,R, e referentes às células. Este formalsmo acomoda város prolemas IE relaconados a taelas de contngênca ou de valores, porque os valores asolutos de células e totas de lnhas e colunas podem ser representados em termos de proporções exatamente como na Ta 3.3. Uma dferença em relação à notação da Ta. 3.2 é que agora as p j s são proporções das células no total geral da taela e não smplesmente no total da -ésma lnha a que a célula pertence. Outra dferença é que por enquanto remos consderar uma únca taela na análse, ao nvés de váras, como fzemos anterormente. Os métodos de otmzação da entropa operam sore meddas de entropa em teora da nformação, como as de Shannon 948) ou de Kullack 959). Seja P = {p j } a matrz de ordem RxC formada pelos conteúdos das células na Ta.3.3 e FP) uma função real que representa uma medda de entropa. Então, um método de IE aseado em otmzação da entropa podera ser genercamente descrto da segunte forma: Max P s. a. R = j= C j= R = C p p j j p j = p = p F P) = j =,..., R j =,..., C 2) onde s.a. sgnfca sujeto a. Quando traalhamos com a medda de entropa de Shannon, aqu denotada por SP) e dada por: SP) = R C = j= p j ln p j 22) 7

fazemos FP) = SP). Neste caso, estamos aplcando o conhecdo prncípo Maxent proposto por Jaynes 957a e 957). Se, ao nvés, traalhamos com a medda de entropa cruzada de Kullack, aqu denotada por KP) e dada por: K P) = R C = j= p j p ln q j j 23) fazemos FP) = KP). Nesta segunda stuação, estamos aplcando o tamém conhecdo prncípo MnxEnt proposto por Kullack 959). Esse prncípo, na verdade, se refere à mnmzação de KP), e não à sua maxmzação, por sso que FP) tem de ser defnda como o negatvo de KP) para preservarmos a representação em 2). As restrções que aparecem na representação em 2) provêm nformações determnístcas sore o prolema IE, como o fato de que a soma de todas as células é gual a um, e de que as somas das células desconhecdas ao longo das lnhas e colunas são guas a totas conhecdos. A prmera restrção, de soma um, é em geral denomnada de restrção natural e as demas de restrções de consstênca. Elas provêm a mesma nformação que a dentdade contál ) e, portanto, as predções das quantdades de nteresse são consstentes na agregação e respetam os lmtes de Duncan e Davs. A dferença entre os métodos MaxEnt e MnxEnt é que, ascamente, o prmero procura achar a dstrução P que é mas próxma da unforme, dferndo desta últma em função apenas do conjunto de restrções. O prncípo MnxEnt, por sua vez, tenta achar a dstrução dentro da matrz P que é mas próxma de uma dstrução qualquer conhecda a pror Q = {q j }, tamém sujeta a restrções. Quando Q é a dstrução unforme, MaxEnt e MnxEnt são equvalentes, sto é, geram a mesma solução ótma Pˆ, mas em caso contráro não para detalhes, ver Mattos e Vega, 2002). Em geral, o método MnxEnt tende a ser de mas utldade pos podemos ntroduzr mas nformação na resolução do prolema IE, como por exemplo, nformações sore os dados desagregados dsponíves para um período de tempo anteror vde exemplo logo a segur). Exemplo Para lustrar a aplcação dos prncípos de otmzação da entropa MaxEnt e MnxEnt, esta seção apresenta um pequeno exemplo onde eles são usados para resolver um prolema IE típco de planejamento de transportes. Este prolema refere se à determnação do número de vagens entre regões dentro de uma localdade hpotétca e.g., Novaes, 98). O dados dsponíves foram crados artfcalmente e estão apresentados na Ta. 3.4. O lado esquerdo da taela apresenta as frequêncas asolutas de vagens orgnadas das regões O, O 2 e O 3, com destno às regões D, D 2 e D 3. Por sua vez, o lado dreto apresenta esses dados como proporções do total de vagens. Por exemplo, o número de vagens de O para D é 30 na matrz de fluxos e está assocado à proporção 0,0952 =30/35) na matrz de proporções. 8

Taela 3.4: Dados artfcas de número de vagens Matrz de Fluxos Matrz de Proporções D D 2 D 3 O 30 52 0 92 0,0952 0,65 0,037 0,292 O 2 45 65 35 45 0,429 0,2063 0, 0,4603 O 3 9 42 27 78 0,0286 0,333 0,0857 0,2476 84 59 72 35 0,2667 0,5048 0,2286 Em geral, no prolema de determnação do número de vagens, são conhecdos os valores totas das colunas e das lnhas das matrzes, mas não o conteúdo das células. O ojetvo é determnar as proporções de vagens de cada regão para as demas, que se assume sejam desconhecdas e, determnando se as proporções, é fácl calcular as frequêncas correspondentes). Em outras palavras, o ojetvo é determnar, ou estmar, a matrz de proporções P = p } apresentada na Ta. 3.4. O fato de que esta { j seja conhecda no âmto do exemplo é útl porque permte avalar a capacdade de recuperação das proporções desagregadas com os métodos MaxEnt e MnxEnt, em como compará los entre s. Os dados da Ta. 3.4 emutem as nformações do conjunto de restrções do prolema. A prmera é a restrção de soma para o conteúdo das células. A taela apresenta tamém o total das 3 lnhas e das 3 colunas da matrz de proporções, o que permte especfcar as restrções de constênca. Aplcando o prncípo MaxEnt os cálculos foram fetos usando se uma rotna desenvolvda por Mattos e Vega 2002)), a estmatva da matrz P otda sera: 0,0779 ˆP = 0,228 0,0660 0,474 0,2324 0,250 0,0668 0,052 0,0566 e o grau de aderênca de Pˆ em relação a P que é conhecda hpotetcamente) podera ser computado como: 3 3 2 2 s ˆ = p j pˆ j ) = 7,262 0. = j= A estmatva de P anda podera ser melhorada através do método MnxEnt. Suponhamos que houvesse uma matrz de proporções dsponível, correspondente a um período anteror, e que tvesse sdo computada a partr de um survey ou pesqusa de campo. Por exemplo: 0,0975 0,656 0,0290 Q = 0,430 0,967 0,04. 0,0299 0,397 0,0883 A matrz Q tamém fo produzda artfcalmente, a partr da multplcação dos valores da matrz de fluxo da Ta. 3.4 por varáves geradas aleatoramente segundo uma 9

dstrução normal com méda um e desvo padrão 0,05. Otemos, então, uma nova estmatva da matrz P: 0,0955 0,672 0,0293 ~ P = 0,432 0,2030 0,4. 0,0280 0,346 0,0852 Como sera de se esperar, a matrz P ~ aproxma melhor a matrz P devdo ao uso das nformações a pror, o que se reflete no seu grau de aderênca: ~ 3 3 ~ 2 2 s = = j= p j p j ) =,89 0 que é cerca de quatro vezes menor do que ŝ. Jonsthon e Hay 983) propuseram uma extensão desse enfoque de otmzação da entropa onde se traalha com váras taelas undades amostras) ao mesmo tempo, sto é, com um cuo de dados onde só os totas de lnhas e colunas de cada seção taela) do cuo e a soma das células nternas ao longo das taelas são conhecdas. Ou seja, é uma stuação smlar à representada na Fg. 3.. Neste enfoque, as proporções pj fcam redefndas como p jm, onde o suscrto m se refere à m-ésma taela, e as meddas de entropa S e K passam a ncorporar mas um somatóro, ao longo das M taelas. Como menconado na seção 3, essa forma de traalhar permte uscar força do que há de comum entre dferentes taelas ou undades amostras). Emora seja mas geral que o método aqu apresentado para uma taela, este enfoque preserva a lmtação de ser determnístco. Judge, Mller e Cho 2002) apresentaram recentemente um novo método de otmzação da entropa para IE que é aseado em fundamentos estatístcos. Este método ncorpora desenvolvmentos na área de nferênca aseada em entropa de teora da nformação nformaton theoretc entropy nference). Os prncpas resultados das pesqusas nessa área estão complados em detalhe no recente lvro de Mttelhammer, Judge e Mller 2000, cap. 3). A aordagem para IE de Judge, Mller e Cho permte resolver uma versão lgeramente modfcada 4 do prolema apresentado em 2) mas com uma dferença fundamental: cada restrção do prolema é adconada de um termo aleatóro. Com sso, a solução de máxma entropa é tratada como um estmador ao qual está assocada uma matrz de varânca covarânca. A partr dessa matrz, é possível construr-se margens de erro para as estmatvas do conteúdo das células. Mttelhammer, Judge e Mller 2000) mostram que esse tpo de estmador apresenta oas propreades assntótcas. 5. Softares para IE A dsponldade de softares de uso geral para se mplementar métodos de IE anda é restrta. Em geral, os autores desenvolveram rotnas específcas e nem todos as dsponlzaram para um púlco mas amplo. Faremos aqu, no entanto, uma ndcação 4 As pequenas modfcações são o fato de que são consderadas M taelas, como no método de Johnston e Hay 983), e as proporções p jm se referem ao total da ésma lnha e não ao total da m ésma taela. 20