MODELANDO DADOS DE CONTAGEM COM INFLAÇÃO DE ZEROS, SOBREDISPERSÃO E DEPENDÊNCIA ESPACIAL. Carla Zeline Rodrigues Bandeira

Tamanho: px
Começar a partir da página:

Download "MODELANDO DADOS DE CONTAGEM COM INFLAÇÃO DE ZEROS, SOBREDISPERSÃO E DEPENDÊNCIA ESPACIAL. Carla Zeline Rodrigues Bandeira"

Transcrição

1 MODELANDO DADOS DE CONTAGEM COM INFLAÇÃO DE ZEROS, SOBREDISPERSÃO E DEPENDÊNCIA ESPACIAL Carla Zelne Rodrgues Bandera Dssertação de Mestrado apresentada ao Programa de Pós-graduação em Matemátca, da Unversdade Federal do Amazonas, como parte dos requstos necessáros à obtenção do título de Mestre em Matemátca Orentador: Max Sousa de Lma Manaus Setembro de 2015

2

3 Rodrgues Bandera, Carla Zelne MODELANDO DADOS DE CONTAGEM COM INFLAÇÃO DE ZEROS, SOBREDISPERSÃO E DEPENDÊNCIA ESPACIAL/Carla Zelne Rodrgues Bandera. Manaus: UFAM/ICE, XIII, 67 p.: l.; 29,7cm. Orentador: Max Sousa de Lma Dssertação (mestrado) UFAM/ICE, Área de Concentração: Estatístca, Referêncas Bblográfcas: p Inflação de Zeros. 2. Sobredspersão. 3. Dependênca Espacal. 4. Quase Verossmlhança. 5. Equações de Estmação Generalzadas. 6. Algortmo Expectaton- Soluton. 7. Inferênca Bootstrap. I. Sousa de Lma, Max. II. Unversdade Federal do Amazonas, UFAM, Área de Concentração: Estatístca. III. Título.

4 Este trabalho dedco à Deus, pos sem Ele nada exstra. v

5 Agradecmentos Agradeço prmeramente à Deus, crador de todas as cosas, pelo dom da vda, por conceder-me saúde, perseverança e capacdade para o desenvolvmento deste trabalho. À toda mnha famíla pelo amor, carnho e companhersmo cultvado entre nós. Em especal, agradeço aos meus pas, Zenede e Carlos, e ao meu padrasto, Aldenr, por todo ensnamento, amor e educação dados à mm ao longo da vda, e por sempre me ncentvarem nos estudos. À mnha avó, Zulmra, por todo ensnamento de vda e fé. Às mnhas rmãs, Carolne e Camla, e sobrnha (flha), Ana Celne, por todo o amor, companhersmo, carnho e felcdade que me proporconam todos os das. Aos meus aflhados, Adrelle e Alberto, por exstrem em mnha vda. Aos meus prmos, Lucéla, Jean, Eduarda e Haroldo, Alberto e Edna, pelos momentos de alegra e descontração. Aos meus tos, em especal à ta Nlda, por entender esses três anos de ausênca da sua casa, à ta Carmnha por sempre orar por mm e ao to Nazareno, pelo amor e carnho que tem por mm como uma flha. Aos membros da banca examnadora dessa defesa de dssertação, por acetarem o convte para avalar este trabalho. Ao meu orentador, professor Max Sousa de Lma, pela pacênca, dedcação, confança e ncetvo na busca por conhecmento, contrbundo sgnfcatvamente com o desenvolvmento deste e mnha formação acadêmca. Aos meus amgos e professores do Departamento de Estatístca, que contrbuíram dreta e ndretamente na mnha formação acadêmca, pelo apoo e pela consderação. Em especal, aos que foram meus professores do mestrado: James Dean, José Ramundo, Max Lma e Celso Rômulo, por todo conhecmento dssemnado, ao professor José Cardoso, pela amzade e conselhos, aos professores e amgos Nelson Flho, Dego Souza, Camla Pnhero, Carna Coelho, Márca Brandão e Jocely Lopes, e amgas do mestrado, Renan, Vanessa, Renata e Regna, pelos momentos de descontração e trocas de conhecmento. Fnalmente, mas não menos mportante, agradeço aos meus amgos Alessandra, Adrana, Adrano, Dana, Geane, Marcos, Patríca e Raquel, por todos os momentos de alegra e dversão vvdos, e por entenderem todas as mnhas ausêncas. À CAPES, pelo apoo fnancero em 10 meses de estudos. v

6 Com efeto, de tal modo Deus amou o mundo, que lhe deu seu Flho únco, para que todo o que Nele crer não pereça, mas tenha a vda eterna. (João 3:16). v

7 Resumo da Dssertação apresentada ao Programa de Pós-Graduação em Matemátca, da Unversdade Federal do Amazonas, como parte dos requstos necessáros para a obtenção do grau de Mestre em Matemátca. (M.Sc.) MODELANDO DADOS DE CONTAGEM COM INFLAÇÃO DE ZEROS, SOBREDISPERSÃO E DEPENDÊNCIA ESPACIAL Carla Zelne Rodrgues Bandera Setembro/2015 Orentador: Max Sousa de Lma Área de Concentração : Estatístca Neste trabalho fo proposto um novo modelo para dados de contagem com excesso de zeros, sobredspersão e dependênca espacal. Para acomodar smultaneamente essas característcas, utlzou-se uma quase verossmlhança nflaconada de zeros (QIZ), onde a dependênca espacal fo ncorporada no processo de estmação através das equações de estmação generalzadas (GEE). O algortmo de estmação usado nesse processo fo o ES (Expectaton-Soluton); os ntervalos de confança para os parâmetros foram obtdos va Inferênca Bootstrap. Estudos de smulação foram realzados consderando-se város cenáros. Fnalmente, o método proposto fo lustrado usando dados de casos de Hanseníase no Estado do Amazonas. v

8 Abstract of Dssertaton presented to Postgraduate n Mathematcs, of the Federal Unversty of Amazonas, as a partal fulfllment of the requrements for the degree of Master of Mathematcs. (M.Sc.) MODELING COUNT DATA WITH ZEROS INFLATION, OVERDISPERSION AND SPATIAL DEPENDENCE. Carla Zelne Rodrgues Bandera September/2015 Advsor: Max Sousa de Lma Research area: Statstcs Ths work proposes a new model for count data wth excess zeros, overdsperson and spatal dependence. To accommodate these characterstcs smultaneously, we used an zeronflated quas-lkelhood (QIZ), where the spatal dependence s ncorporated n the estmaton process through generalzed estmatng equatons (GEE). The estmaton algorthm used n ths process was the ES (Expectaton-Soluton); confdence ntervals for the parameters were obtaned va Bootstrap Inference. Smulaton studes have been performed n varous scenaros. Fnally, the method s llustrated usng data of leprosy cases n the State of Amazonas. v

9 Sumáro Lsta de Fguras Lsta de Tabelas x x 1 Introdução Aspectos Geras Justfcatva e Importânca do Trabalho Objetvos Estrutura do Trabalho Fundamentação Teórca O Modelo Inflaconado de Zeros Estmação va Algortmo EM Quase Verossmlhança Estmação de Parâmetros Quase Verossmlhança Estendda Equações de Estmação Generalzadas Dependênca Espacal em Dados de Contagens Algortmo Expectaton-Soluton (ES) Intervalos de Confança Bootstrap Intervalo de Confança Bootstrap-t Modelos de Quase-Verossmlhança Inflaconados de Zeros para Dados de Contagem Espacalmente Dependentes Modelo QIZ para dados com Independênca Modelo Quase-Posson Inflaconado de Zeros Modelo Quase-Bnomal Inflaconado de Zeros Modelo Quase-Bnomal Negatvo Inflaconado de Zeros Modelo QIZ para dados com Dependênca Espacal Estmação dos parâmetros no modelo QIZDE Estmação Geral dos parâmetros no modelo QIZDE x

10 3.3 Dstrbução dos Estmadores va Bootstrap Estudo de Smulação Descrção do Estudo Resultados Aplcação do Modelo em Dados Reas Descrção dos Dados Modelo ZIP para os novos casos notfcados de hanseníase no Amazonas Descrção do Modelo Proposto Resultados Consderações Fnas Prncpas Conclusões Trabalhos Futuros Referêncas Bblográfcas 64 x

11 Lsta de Fguras 4.1 Mapa do Estado do Amazonas, com seus 62 muncípos Boxplot das estmatvas de β 0, com φ = 2 (a) e φ = 4 (b), mapa do AM, para 45% de zeros, sendo 30% da Ber e 15% da Po Boxplot das estmatvas de β 1, com φ = 2 (a) e φ = 4 (b), mapa do AM, para 45% de zeros, sendo 30% da Ber e 15% da Po Boxplot das estmatvas de γ 0, com φ = 2 (a) e φ = 4 (b), mapa do AM, para 45% de zeros, sendo 30% da Ber e 15% da Po Boxplot das estmatvas de γ 1, com φ = 2 (a) e φ = 4 (b), mapa do AM, para 45% de zeros, sendo 30% da Ber e 15% da Po Boxplot das estmatvas de ρ, com φ = 2 (a) e φ = 4 (b), mapa do AM, para 45% de zeros, sendo 30% da Ber e 15% da Po Boxplot das estmatvas de ρ, com φ = 2 (a) e φ = 4 (b), mapa do AM, para 45% de zeros, sendo 22,5% da Ber e 22,5% da Po Boxplot das estmatvas de ρ, com φ = 2 (a) e φ = 4 (b), mapa do AM, para 45% de zeros, sendo 15% da Ber e 30% da Po Boxplot das estmatvas de φ, com φ = 2 (a) e φ = 4 (b), mapa do AM, para 45% de zeros, sendo 30% da Ber e 15% da Po Boxplot das estmatvas de φ, com φ = 2 (a) e φ = 4 (b), mapa do AM, para 45% de zeros, sendo 22,5% da Ber e 22,5% da Po Boxplot das estmatvas de φ, com φ = 2 (a) e φ = 4 (b), mapa do AM, para 45% de zeros, sendo 15% da Ber e 30% da Po Dstrbução espacal dos novos casos de Hanseníase, notfcados no Estado do Amazonas-Brasl, no período de 2009 a Correlograma espacal dos resíduos do modelo ajustado para novos casos de Hanseníase no Estado do Amazonas-Brasl, nos anos de 2009 a Hstograma (a) e Boxplot (b) das estmatvas de β Hstograma (a) e Boxplot (b) das estmatvas de β Hstograma (a) e Boxplot (b) das estmatvas de γ Hstograma (a) e Boxplot (b) das estmatvas de γ x

12 5.7 Hstograma (a) e Boxplot (b) das estmatvas de γ Hstograma (a) e Boxplot (b) das estmatvas de γ Hstograma (a) e Boxplot (b) das estmatvas de γ Hstograma (a) e Boxplot (b) das estmatvas de ρ Hstograma (a) e Boxplot (b) das estmatvas de φ x

13 Lsta de Tabelas 4.1 Fórmula Geral para β 0 e γ 0 de acordo com o φ Estudo de Smulação, para 45% de Zeros Mapa do AM, para 45% de Zeros, sendo 30% da Ber e 15% da Po Mapa do AM, para 45% de Zeros, sendo 22,5% da Ber e 22,5% da Po Mapa do AM, para 45% de Zeros, com 15% da Ber e 30% da Po Resultados para o modelo ZIP(µ, p ), gerados pela função "zeronfl", para os novos casos de hanseníase, notfcados no Estado do Amazonas-Brasl- 2009/ Resultados para o modelo proposto, para os novos casos notfcados de hanseníase de 2009 a 2012, com valor estmado, erro padrão e ntervalo de confança Bootstrap-t x

14 Capítulo 1 Introdução 1.1 Aspectos Geras Na época atual, em que a tecnologa se torna a cada da mas avançada, o surgmento de dados com comportamentos mas complexos têm requerdo modelos estatístcos mas robustos, que consgam adequar-se a eles, ou seja, que modelem esses dados de forma correta. Com sso, a demanda por métodos mas sofstcados de análse e nterpretação de dados com característcas mas completas crescem. Dentro desses novos tpos de dados, encontramse os que estão geografcamente referencados e correlaconados, que nspraram a cração de novas técncas para análse e modelagem, formando um campo da estatístca, conhecdo como análse de dados espacas ou estatístca espacal. Em estatístca espacal, os dados de contagem geralmente são modelados através de dstrbuções convenconas, como a Posson ou a Bnomal, o que talvez não seja adequado em mutos cenáros. Por exemplo, em áreas como medcna, saúde públca ou epdemologa é comum, devdo a heterogenedade da população, a contagem de casos de doenças apresentar maor varabldade do que a prevsta pela dstrbução usual, pos as contagens em determnadas áreas são bem maores do que a predta pelo modelo. Esse excesso de varabldade é chamado de sobredspersão, cuja varânca é maor do que a méda, e tem sdo amplamente consderado na lteratura (Fahrmer & Tutz (2001); Lma et al. (2013)). A falta de modelagem para a sobredspersão exstente pode levar a uma subestmação do erro padrão e com sso ocasonar em nferêncas dstorcdas para os parâmetros do modelo (ver Zhang et al. (2012)). Outro problema comum em dados de contagens é que mutas vezes estes apresentam um número excessvo de zeros que não são esperados pelo modelo usual. Por exemplo, em um ambente de vglânca epdemológca, onde se realza a contagem de novos casos de pessoas com hanseníase, pequenas áreas podem apresentar um menor número de casos de nfectados em relação ao valor esperado predto, em decorrênca da dstânca desses lugares em relação aos estabelecmentos de saúde. Além dsso, a subnotfcação de novos casos pode 1

15 ocorrer, em regões subdesenvolvdas, devdo à coleta de dados nefcente ou à dfculdade de acesso a lugares remotos. Esses fatores geram contagens de casos com excesso de zeros, fazendo com que haja heterogenedade no processo. Perumean-Chaney et al. (2013) verfcaram em seu estudo que, gnorando o excesso de zeros nos dados, as estmatvas para o modelo usual Posson são equvocadas, pos há uma volação no modelo estatístco usual e, por consequênca, em problemas de teste de hpóteses, o erro tpo I é nflado, acarretando em perdas de resultados estatstcamente sgnfcatvos. Modelos para dados nflaconados de zeros (ZI), têm sdo usados em dversas áreas (Hall (2000); Cheung (2002); Yau et al. (2004); Warton (2005)). Parâmetros estmados usando ZI podem, também, ser severamente vcados se as contagens postvas forem substancalmente dspersas, ou seja, se houver a sobredspersão na parte postva dos dados. Smultaneamente, dados de contagem podem apresentar essas duas fontes ndependentes de efetos de sobredspersão. Se a sobredspersão é causada pela nflação de zeros, então o modelo Posson nflaconado de zeros ZIP, ntroduzdo por Lambert (1992), pode fornecer um ajuste sufcente para os dados. Uma vez modelada a nflação de zeros, se os dados contnuam a sugerr sobredspersão adconal, devemos consderar um modelo de contagem que acomode também a sobredspersão nos valores postvos. A não modelagem smultânea da sobredspersão e nflação de zeros pode causar uma nferênca enganosa. Por exemplo, em um estudo smulado, Perumean-Chaney et al. (2013) verfcaram que, quando a nflação de zeros nos dados for gnorada, as estmatvas para o modelo Posson são equvocadas e os resultados estatstcamente sgnfcatvos podem ser perddos. Quando a sobredspersão dentro do modelo nflaconado de zeros for gnorada, a estmatva do erro Tpo I é nflada. Nestes casos, os modelos nflaconados de zeros Posson Generalzado (ZIGP), Posson Duplo (ZIDP) ou o Bnomal Negatvo (ZINB) podem ser boas alternatvas para a modelagem conjunta da nflação de zeros e sobredspersão nos dados (Lma & Duczmal (2014)). Em processos de contagem geografcamente referencados, os modelos ZIGP, ZIDP e ZINB são flexíves para ncorporar a nflação de zeros, a sobredspersão e o ajuste por covaráves, mas ao mesmo tempo são lmtados por não assumrem dependênca ou exstênca de correlação espacal, o que sempre ocorre em problemas dessa natureza, pos dados coletados em áreas vznhas tendem a ser mas smlares (ou correlaconados) do que os obtdos em áreas mas dstantes geografcamente. Um exemplo comum desta stuação, ocorre na área de saúde públca, onde epdemologstas estudam a varação geográfca dos casos de doenças para gerar e refnar hpóteses testáves sobre a sua etologa. Neste contexto, modelos herárqucos têm sdo propostos para utlzar localzações espacas e seus vznhos como substtutos para fatores de rscos desconhecdos ou não mensuráves na análse dos casos da doença. Para acomodar smultaneamente os problemas de sobredspersão, nflação de zeros e 2

16 dependênca espacal em processos espacas de contagem, propomos uma nova modelagem utlzando uma quase verossmlhança nflaconada de zeros (QIZ). A função de quase verossmlhança (Q) ou, mas precsamente, a função de quase log-verossmlhança, fo proposta por Wedderburn (1974) e reexamnada por McCullagh & Nelder (1983). Essa função pode ser usada para estmação de forma semelhante à função de verossmlhança. Sua grande vantagem é necesstar apenas da especfcação da relação entre a méda e a varânca das observações, enquanto que na verossmlhança precsa-se especfcar também a forma correta da dstrbução das observações. A quase verossmlhança fo estendda por Nelder & Pregbon (1987) para nclur termos da varânca, comparar dferentes funções de varânca e, anda, a possbldade de modelar a dspersão (ou a sobredspersão) como uma função de covaráves. A estmação dos parâmetros, neste caso, é realzada sobre a suposção de ndependênca estatístca entre as observações. Nesta dssertação, propomos que o excesso de zeros e a sobredspersão sejam modelados, respectvamente, por uma dstrbução de Bernoull e pela quase verossmlhança estendda. O resultado é uma mstura de modelos representado por uma quase verossmlhança estendda nflaconada de zeros (QIZ). Para ncorporar a dependênca espacal, utlzamos no processo de estmação as equações de estmação generalzadas (GEE), propostas por Lang & Zeger (1986), que construíram funções de estmação para os parâmetros de nteresse na ausênca da verossmlhança totalmente especfcada e presença de correlação, que é exatamente o nosso caso. O algortmo de estmação utlzado nesse processo fo o ES (Expectaton-Soluton) (ver Elashoff & Ryan (2004)), que consste na substtução do passo de maxmzação (M) no algortmo EM por um passo que requer a solução (S) de uma equação de estmação generalzada. No contexto de mstura de GLM s, Rosen et al. (2000) mostraram que se o algortmo ES convergr, ele convergrá para um estmador não-vcado, consstente e assntotcamente Normal, sob suaves condções de regulardade. 1.2 Justfcatva e Importânca do Trabalho Devdo ao avanço tecnológco, surgram váras estruturas de dados mas complexas, nclundo estes que englobam excesso de zeros, sobredspersão e dependênca espacal. Essas novas estruturas exgem modelos compatíves com seus comportamentos, que consgam modelar os dados da melhor forma, nos dando estmatvas e nterpretações corretas dos dados. A grande mportânca deste trabalho é por haver pouquíssmos trabalhos nessa área de estatístca espacal, que englobe ao mesmo tempo aos dados de contagem o excesso de zeros, sobredspersão e dependênca espacal, além da grande aplcabldade do modelo em dados com essas característcas, como por exemplo dados epdemológcos, de saúde públca e de crmnaldade, podendo ajudar na vglânca epdemológca e na análse de ncdênca de 3

17 crmes. 1.3 Objetvos Este trabalho teve como prncpal objetvo a modelagem de processos de contagem, com excesso de zeros, sobredspersão e dependênca espacal. Como metas e objetvos específcos tvemos: 1) A construção de modelos para processos de contagem dstrbuídos no espaço com excesso de zeros, sobredspersão e correlação espacal; 2) O desenvolvmento e mplementação do algortmo ES para a estmação de parâmetros dos modelos propostos; 3) A realzação da análse dos modelos propostos com dados reas; 4) A realzação de estudos com dados smulados para avalar o desempenho do método proposto em város cenáros. 1.4 Estrutura do Trabalho A dssertação está estruturada como segue: no Capítulo 2 descreveremos as prncpas abordagens utlzadas no desenvolvmento deste trabalho, que são o modelo para dados de contagem nflaconados de zeros (ZI), com sua representação estocástca e seu processo de estmação va algortmo EM, as funções de quase verossmlhança (Q) e quase verossmlhança estendda Q +, com suas característcas e propredades, as equações de estmação generalzadas GEE, o algortmo ES e ntervalos de confança Bootstrap. No Capítulo 3 ntroduzremos o modelo proposto, de quase-verossmlhança nflaconada de zeros (QIZ), para dados sem e com dependênca espacal, suas caracterzação, propredades e estmação va algortmo ES, e também apresentaremos a nferênca Bootstrap, com a defnção de ntervalos de confança gerados por este método. Estudos de smulação comparatvos, realzados em dversos cenáros, a fm de comparar o desempenho do modelo são dscutdos no Capítulo 4. Uma aplcação do modelo proposto em dados reas de hanseníase, da regão norte do Brasl, é apresentada no Capítulo 5. Fnalmente, no Capítulo 6 dscutmos os resultados obtdos, as prncpas conclusões e propostas de trabalhos futuros. 4

18 Capítulo 2 Fundamentação Teórca Neste capítulo faremos um breve levantamento da teora utlzada no desenvolvmento deste trabalho. "Os prncpas tópcos abordados"são os modelos nflaconados de zeros, quase-verossmlhança, equações de estmação generalzada, modelos de regressão espacal, algortmo Expectaton-Soluton (ES) e ntervalos de confança Bootstrap, com suas respectvas defnções e propredades. 2.1 O Modelo Inflaconado de Zeros Eventualmente, é bem comum dados de contagem apresentarem um número excessvo de zeros. Esses zeros podem ser ocasonados por dferentes processos nerentes aos dados. Em dversas áreas, como por exemplo vglânca epdemológca, saúde públca, bologa, socologa, engenhara, agrcultura e crmnaldade, dados com essa característca surgem faclmente. Um exemplo, em vglânca epdemológca, sera a contagem de novos casos de hanseníase, em determnada localzação (cdade, estado, regão, país, etc.), apresentar uma quantdade de zeros acma do predto pelo modelo probablístco proposto para os dados, como por exemplo os modelos de Posson ou Bnomal. Esse excesso de zeros pode ter ocorrdo, por exemplo, pela subnotfcação de casos, devdo a dfculdade de acesso a lugares remotos para o regstro de novos casos, ou pela não ocorrênca de novos casos nessa localdade. Para esse problema, exstem dversos modelos de regressão nflaconados de zeros (ZI) que podem perfetamente modelar esses tpos de dados. Uma forma bastante smples de verfcar se dados de contagem possuem ou não um excesso de zeros é através da quantdade: z = p 0 P(Y = 0), a qual chamaremos de índce de nflação de zeros, em que Y é uma varável aleatóra dscreta, p 0 é a proporção de zeros nos dados e P(Y = 0) é a probabldade de ocorrer o zero segundo o modelo de contagem proposto. Se o valor de z <= 0, dz-se que a varável aleatóra Y segue a dstrbução de contagem usual proposta, e se z > 0, modelos ZI que acomodem a nflação de zeros são mas adequados para os dados Lambert (1992). 5

19 Atualmente, exstem dversos modelos (ZI), que são bastante utlzados na lteratura para modelar dados de contagem com excesso de zeros, como por exemplo os modelos: Posson Inflaconado de Zeros (ZIP), Bnomal Inflaconado de Zeros (ZIB), Posson Generalzado Inflaconado de Zeros (ZIGP) e Conway-Maxwell Inflaconado de Zeros (ZICM). Johnson & Kotz (1969) desenvolveram o modelo (ZIP) sem efeto de covaráves, Lambert (1992) adconou ao modelo ZIP o efeto de covaráves, aplcando esse modelo em dados de contagem de defetos de manufatura. Hall (2000) adaptou o modelo ZIP de Lambert (1992) e desenvolveu o ZIB ncorporando efetos mstos e sobredspersão, aplcando-o em dados de hortcultura. Podemos encontrar, anda, aplcações dos modelos ZI nos contextos de estatístca espacal (Cancado et al. (2011); Lma et al. (2013)), séres temporas (Yang (2012)), nas áreas de medcna (Van den Broek (1995)), de bologa (Ne et al. (2006)) e em construções de novos modelos, como por exemplo o modelo de regressão Posson nflaconado de zeros multnível (Lee et al. (2006) e modelos margnas para dados agrupados nflaconados de zero Hall & Zhang (2004)). A teora sugere que os zeros excedentes são gerados por um processo separado dos valores da contagem, e que estes podem ser modelados de manera ndependente. Dessa forma, os modelos ZI são representados por uma mstura de duas dstrbuções. Seja Y = (Y 1,...,Y n ) T um vetor de observações de contagens ndependentes, dzemos que Y segue um modelo nflaconado de zeros ZI(p,θ), se sua dstrbução é da forma: Y p I {y=0} + (1 p )P θ (2.1) em que p é a probabldade de ocorrer o zero estrutural, I é a função ndcadora, (1 p ) é a probabldade de Y segur uma dstrbução de contagem P θ, parametrzada pelo vetor θ. A função de probabldade de Y é dada por: { p + (1 p )P θ (Y = y ), se y = 0, f (y ; p,θ) = (2.2) (1 p )P θ (Y = y ), se y > 0. Estocastcamente, o modelo admte a segunte representação: Y U = (1 U )Z (2.3) em que U é uma a varável latente, segundo a dstrbução de Bernoull(p ) e Z segue uma dstrbução de contagem P θ, com méda µ, varânca σ 2 e θ = (µ,σ 2), com U e Z ndependentes. É fácl mostrar que, margnalmente, Y segue um modelo ZI com valor esperado e varânca, respectvamente, dados por: E(Y ) = (1 p )µ e Var(Y ) = (1 p )σ 2 + p (1 p )µ 2. (2.4) 6

20 Por exemplo, se P θ é uma Posson, então o valor esperado e a varânca desse modelo são da forma: E(Y ) = (1 p )µ e Var(Y ) = (1 p )µ + p (1 p )µ 2, com função de probabldade { 0, com probabldade p + (1 p )e µ, f (y ) = y, com probabldade (1 p ) e µ µ y y!, y = 1,2,... Usando a representação estocástca (2.3), a função de verossmlhança aumentada, f (y,u;p,θ), com dados observados y = (y 1,...,y n ) e não observados u = (u 1,...,u n ), é descrta da segunte forma: f (y,u;p,θ) = n =1 p u [(1 p )P θ (Y = y )] 1 u. (2.5) Então, a log-verossmlhança completa do modelo ZI é dada por: l c (p,θ;y,u) = n =1 [u log p + (1 u )log(1 p )] + n =1 (1 u )logp θ (Y = y ) = l c (p;u) + l c (θ;y,u) (2.6) Note que em (2.6) temos a soma de duas log-verossmlhanças completas, uma l c (p;u) que depende de dados não observados u e do vetor de parâmetros p e outra l c (θ;y,u) que depende dos dados observados y e não observados u, e do vetor de parâmetros θ. No contexto de modelos lneares generalzados (GLM) sso pode ser nterpretado como uma mstura de dos GLM s Nelder & Wedderburn (1972). segue: Um GLM (ver Nelder & Wedderburn (1972)) é formado por três componentes, como () Componente Aleatóro: composto pela varável resposta Y, que é assumda pertencer à famíla exponencal com função de probabldade ou função densdade de probabldade f (y ;θ,φ), em que φ é o parâmetro de dspersão, fxo e conhecdo, θ é o parâmetro que caracterza a dstrbução e Y s ndependentes. () Componente Sstemátco: composto por p covaráves X = (X 1,...,X p ) e por parâmetros de regressão desconhecdos β = (β 1,...β p ). Assm, podemos expressar a méda como uma função de η = X T β. O parâmetro η é chamado de predtor lnear. () Função de Lgação: é uma função monotônca dferencável que assoca o componente aleatóro ao componente sstemátco. Então, ao predtor lnear teremos assoc- 7

21 ada uma função da méda g(µ ) = η, em que o valor esperado de Y é representado por µ e sua varânca por φv (µ ). A quantdade V (µ ) é chamada de função de varânca do modelo. Sendo assm, no modelo ZI, teremos dos GLM s dados da segunte forma: No prmero GLM(p), para a modelagem do excesso de zeros, consderando G uma matrz de covaráves, γ um vetor de parâmetros de regressão e a função logt(p ) = log ( p 1 p ), teremos: U = u, τ = G T γ e g(p ) = logt(p ) = τ (2.7) E no segundo GLM(θ), para a modelagem da méda, consderando B uma matrz de covaráves e β um vetor de parâmetros de regressão, teremos: Y = y, η = B T β e g(µ ) = log(θ ) = η (2.8) A partr da descrção dos modelos, é precso estmar seus parâmetros e avalar a precsão das estmatvas. Na mstura de GLM s, a estmação dos parâmetros é realzada va algortmo EM Estmação va Algortmo EM Para encontrar os estmadores dos parâmetros desconhecdos p e θ, utlza-se o método de máxma verossmlhança va algortmo EM (Dempster et al. (1977)), o qual é ndcado quando o conjunto de dados é ncompleto ou envolve quantdades não observáves (varáves latentes). No últmo caso, as varáves latentes podem ser ncorporadas ao modelo propostalmente para facltar a estmação dos parâmetros de nteresse, tendo em vsta que com sua nserção no modelo, a log-verossmlhança completa pode ser reescrta como a soma de duas log-verossmlhanças completas, como vsto em (2.6). Em cada teração, o algortmo EM alterna entre as operações de Esperança (passo E) e de Maxmzação (passo M). Consdere ϑ = (p,θ) o vetor de parâmetros do modelo. O algortmo EM maxmza a função log-verossmlhança l(ϑ; y, u) usando a verossmlhança completa (2.5) e a dstrbução condconal f (u y,ϑ) de u dado y e ϑ. Assm, a maxmzação de (2.6) va algortmo EM ocorre em dos passos. Passo E: Incalze o processo teratvo com ϑ (0) = (p (0),θ (0) ) e na (k+1)-ésma teração a estmatva { de u (k) é a esperança condconal sobre y e a estmatva corrente ϑ (k). Isto é, compute E l c (p,θ;y,u) y,ϑ (k)} com respeto a dstrbução condconal de u. Como a l c é lnear em u, a esperança condconal é dada por l c (ϑ (k) ;y,u (k) ) = l c (p,θ;y,u (k) ), em 8

22 que na k-ésma teração faremos u (k) = E(U y,ϑ (k) ), com -ésmo elemento u (k) = P(u = 1 y,ϑ (k) ) = P(Y = y u = 1,ϑ (k) )p (k) P(Y = y u = 1,ϑ (k) )p (k) + P(Y = y u = 0,ϑ (k) )(1 p (k) ). Usando (2.7) e (2.8), podemos encontrar a segunte expressão para u (k) u (k) = ( 1 + exp{ logt(p (k) ) + l(θ (k) ;y )}) 1 se y = 0 0 se y > 0 Passo M: Como temos uma mstura de GLM s, maxmzar l c (ϑ (k) ;y,u (k) ) é equvalente a maxmzar cada GLM, separadamente, em relação aos seus respectvos parâmetros, da segunte manera: () Passo M para p: na (k + 1)-ésma teração, maxmzar a l c (p,θ;y,u (k) ) com relação a p é equvalente a maxmzar l c (p;u), consderando u = u (k). () Passo M para θ: na (k + 1)-ésma teração, maxmzar a l c (p,θ;y,u (k) ) com relação a θ é equvalente a maxmzar l c (θ;y,u), consderando u = u (k). A Informação de Fsher para a mstura de GLM s é dada por: I (ϑ) = E ( ) S(ϑ), ϑ em que as funções escore, para cada GLM, são escrtas da segunte forma: e S(β) = S(γ) = n =1 n =1 : ( µ ) T [φv (µ )] 1 (y µ ), (2.9) β ( p ) T [φv (p )] 1 (u p ), (2.10) γ { podemos maxmzar a E l c (p,θ;y,u) y,ϑ (k)} através do algortmo de Newton Raphson- Scorng de Fsher (NR-SF). De acordo com os segunte passos: 1. Incalzar a teração com o valor de ϑ (0) ; 2. Para k k + 1 atualzar o valor de ϑ, va ϑ (k+1) = ϑ (k) + (I (k) ) 1 S(ϑ (k) ). 3. Repetr o passo 2 até que ϑ (k+1) ϑ (k) < ε, ou seja, até se obter a convergênca. Quando a função de lgação g(.) é canônca, teremos a segunte expressão θ µ = η µ = V 1 (µ ). 9

23 Então, reescrevendo os GLM s a partr dessa suposção, temos: 1. No GLM(p), fxando φ = 1, em que µ = p e a função de varânca V (p ) = p (1 p ). Defnndo as seguntes expressões de forma matrcal: W = V 1 (p ), = dag(g (p ),...,g (p n )), h = η + (u p), em que a matrz de covarâncas W = dag(w 1,...,W n ) é dagonal (n n), e o valor de u também obtdo no passo E por ( u (k) 1 = 1 + exp{ logt(p (γ (k) )) + l (θ (β );0)}) (k) I{y =0}, o estmador para o parâmetro γ será obtdo, também, va algortmo NR-SF, pela expressão: γ (k+1) = (G T W (k) G) 1 GW (k) h (k). 2. Da mesma forma, no GLM(θ) defnmos as expressões matrcas W = (1 u ) 2 V 1 (µ ), = dag(g (µ 1 ),...,g (µ n )), h = η + (y µ) e W = dag( W 1,..., W n ). Assm, o estmador para o parâmetro β será obtdo, va algortmo NR-SF, através da expressão: β (k+1) = (F T W (k) F) 1 F W (k) h (k). Note que para se construr uma função de verossmlhança é necessáro pressupor um modelo probablístco, a partr do qual se especfca a função de probabldade e defnese os ntervalos de valores dos parâmetros do modelo. Essa especfcação mplca em que se detenha o conhecmento prévo do modelo, ou seja, saber através de qual mecansmo os dados foram gerados, ou basear-se em experêncas anterores sgnfcatvas sobre dados semelhantes. No entanto, algumas vezes, não queremos ou não podemos assumr prevamente algum modelo probablístco para os dados. Neste caso, uma abordagem va função de quase verossmlhança é mas adequada. 2.2 Quase Verossmlhança Um conceto muto mportante ao longo deste trabalho é o de quase veross-mlhança, que pode ser utlzado quando não queremos ou não podemos assumr um modelo probablístco para os dados. Na função de verossmlhança é necessáro pressupor o modelo probablístco para os dados. Na quase verossmlhança, por outro lado, somente o prmero e 10

24 segundo momentos da dstrbução dos dados precsam ser defndos, além dsso, a varânca de cada observação é especfcada como sendo gual ou proporconal a alguma função da méda. A função de quase verossmlhança para modelos lneares generalzados, fo proposta por Wedderburn (1974), reexamnada por McCullagh & Nelder (1983) e é defnda a segur. Defnção 1. Consderando Y, = 1,...,n, varáves aleatóras ndependentes, com méda E(Y ) = µ e varânca Var(Y ) = a(φ)v (µ ), onde V é alguma função conhecda, denomnada função de varânca, e a(φ), que mede a dspersão do modelo, pode ser desconhecda. Suponha que cada µ é uma função conhecda de um conjunto de parâmetros β 1,...,β p. E anda, suponha que a(φ) é uma constante, que não depende de β 1,...,β p. Então, para cada observação, defnmos a função de quase verossmlhança Q(y, µ ) pela relação: Q(y, µ ) µ = y µ Var(Y ) (2.11) ou de forma equvalente, Q(y, µ) = n =1 Q(y, µ ) = n µ =1 y y t dt (2.12) a(φ)v (t) Sob a suposção de ndependênca dos componentes do vetor resposta Y, a matrz V (µ) deve ser dagonal. Assm, podemos escrevê-la da segunte forma: V (µ) = dag{v 1 (µ),...,v n (µ)} Uma hpótese relevante sobre a função V (µ) é que ela deve depender apenas da -ésma componente de µ. Por analoga, a função quase-desvo (D), que mede a dscrepânca entre as observações e seus valores esperados, é obtda de forma análoga à estatístca da razão de logverossmlhanças. Assm, para a -ésma observação correspondente, essa função é escrta da forma: µ D(y ; µ ) = 2a(φ)Q(µ ;y ) = 2 y y t dt (2.13) V (t) que é uma função estrtamente postva, exceto em y = µ. O desvo total D(y; µ) é uma função que não depende de a(φ), mas de y e de µ somente. Essa função é obtda de forma análoga à estatístca da razão de log-verossmlhanças. A função Q tem mutas propredades em comum com a função de log-verossmlhança. De forma partcular, se a dstrbução de Y pertencer à famíla exponencal unparamétrca, podemos mostrar que Q é a função de log-verossmlhança. Em seu artgo, Wedderburn (1974) demonstrou que a quase-verossmlhança tem as seguntes propredades, semelhantes as da log-verossmlhança: 11

25 () E ( Q µ ) = 0; ( ) () E Q β = 0; () E ( Q µ ) 2 ( ) = E 2 Q 1 = µ 2 a(φ)v (µ) ; ( ) ( ) (v) E Q Q β β j = E 2 Q 1 β β j = µ µ a(φ)v (µ) β β j ; Assm, para estmarmos o parâmetro β, utlzaremos a função quase-escore (2.14), ou seja, resolveremos a segunte equação S(β) = 0, sendo que ( ) T n n Q β = S(β) = µ S (β) = Var 1 (Y ;β,φ)(y µ (β)) =1 =1 β ( ) T n µ = [a(φ )V (µ )] 1 (y µ (β)) β = =1 n =1 (H ) T (V ) 1 (y µ (β)) = H T V 1 (Y µ), (2.14) em que o componente V = dag(a(φ)v (µ )) é uma matrz dagonal (n n) e H é uma matrz de dervadas (n p), em que cada elemento dela corresponde à dervada ( µ β j ), com = 1,...,n e j = 1,..., p. A função quase escore (2.14) é um caso bastante especal, pos ela tem a forma de uma equação de estmação generalzada (GEE) de Lang & Zeger (1986), sob a suposção de ndependênca. Uma GEE, denotada por g(y;θ), é uma função dos dados y e dos parâmetros θ, tendo méda zero para todo o espaço paramétrco de θ, de forma que a E[g(y;θ)] = 0 (McCullagh & Nelder (1989)) Estmação de Parâmetros Consderando a função quase escore (2.14), podemos defnr sua matrz de covarâncas, que é equvalente ao negatvo do valor esperado da dervada de (2.14), dada por: β = H T V 1 H. (2.15) No contexto de quase verossmlhança, essa matrz β desempenha o mesmo papel que a nformação de Fsher nas funções de verossmlhança comuns. Então, se ncarmos o processo de estmação com um valor arbtráro de β 0, sufcentemente próxmo de β, a 12

26 sequênca de estmatvas dos parâmetros, gerados pelo método NR-SF, obtdas pela teração até a ocorrênca de convergênca, é dada por: β (k+1) = β (k) + (H T V 1 H) 1 H T V 1 (y µ) (2.16) onde β (0) = β 0. Wedderburn (1974) e McCullagh (1983) mostraram que as funções de quase verossmlhança e seus estmadores de máxma quase verossmlhança (EMQV) têm mutas propredades análogas às da verossmlhança e seus estmadores de máxma verossmlhança (EMV). Em partcular, o EMQV β é não-vesado e assntotcamente normal, com méda β. E as matrzes de covarânca assntótcas podem ser dervadas de forma usual da matrz de dervadas de segunda ordem de Q. Um dos problemas da quase verossmlhança consste na comparação de dferentes funções de varânca no mesmo conjunto de dados. Nelder & Pregbon (1987) notaram que uma dstrbução com determnada função de varânca pode exstr, mas sem pertencer à classe das dstrbuções necessáras para um modelo lnear generalzado adequado. Então, para avalar dferentes funções de varânca, eles desenvolveram a quase verossmlhança estendda, que é uma generalzação natural da quase verossmlhança e permte uma estmação ou modelagem do parâmetro de dspersão a(φ) ou parâmetros não lneares na varânca. 2.3 Quase Verossmlhança Estendda A quase verossmlhança fo estendda por Nelder & Pregbon (1987) para nclur termos da varânca, comparar dferentes funções de varânca, predtores lneares e funções de lgação, e a possbldade de modelar a dspersão como uma função de covaráves, em que essa últma abordagem nos nteressa no desenvolvmento do modelo proposto. Fazendo a(φ) = φ, a quase verossmlhança estendda Q +, defnda por McCullagh & Nelder (1989), é dada pela expressão: em que Q + (µ,φ;y ) = 1 2φ D(y,u ) 1 log(φ), (2.17) 2 µ D(y, µ ) = 2φ{Q(µ,y ) Q(y,y )} = 2 y é chamada de função quase desvo do modelo estenddo. y t dt (2.18) V (t) Uma famíla bastante útl é obtda consderando potêncas de µ (Nelder & Pregbon 13

27 (1987)): V λ (µ ) = µ λ, (2.19) em que λ é conhecdo e assume valores postvos como 0,1,2,3, que correspondem a funções de varânca assocadas com as dstrbuções Normal, Posson, Gama e Normal Inversa, respectvamente. Para a famíla de funções de varânca (2.19), podemos escrever a função quase desvo como: D(y ;u ) = { } 2 y log( y µ ) (y µ ) } 2{ y { 2 y 2 λ µ log( y µ ) 1 (2 λ)y µ 1 λ (1 λ)(2 λ) } +(1 λ)µ 2 λ se λ = 1 se λ = 2 caso contráro. Essas são algumas formas para a função de varânca com suas respectvas funções quase desvo. Neste caso, é possível defnr uma função de lgação h, tal que h(φ ) = Z λ, em que Z representa a estratfcação de varáves ou covaráves afetando somente a dspersão. Os estmadores dos parâmetros β obtdos pela maxmzação de Q + são smlares aos obtdos pela maxmzação de Q, que são os EMQV. Isso acontece, porque Q + é uma função lnear de Q com coefcentes ndependentes de β. O estmador de φ obtdo da maxmzação de Q + é φ = =1 nd(y ; µ )/n, que é o quase-desvo médo. E, dervando a Q +, com relação aos parâmetros β e φ, obtemos os seguntes resultados: 1. Q + (µ,φ,y ) β = [φv (µ )] 1 (y µ ) ( µ β ). 2. Q + (µ,φ,y ) φ = 1 2φ 2 D(y, µ ) 1 2φ. 3. Se exste uma função de lgação h + e a covarável Z tas que: h + (φ ) = Z T a função quase escore, em relação a λ, é dada como segue: λ. Então, Q + (µ,y ) λ = D(µ,y ) φ 2φ 2 ( φ ) λ Nesse caso, o estmador do parâmetro de dspersão, desenvolvdo por Nelder & Pregbon (1987), tem a forma: â(φ) = 1 n p (Y µ ) 2 V ( µ ) = χ2 n p. (2.20) A utlzação da quase verossmlhança estendda Q + nos permte a comparação de modelos, nos quas o componente aleatóro é especfcado somente em relação aos seus dos prmeros momentos. Assm, as técncas padrão para o ajuste e a comparação de modelos 14

28 podem, então, ser aplcadas nessa classe flexível de modelos, que são as quase verossmlhanças estenddas. Daí, o motvo de utlzarmos a Q + na modelagem proposta por esse trabalho. 2.4 Equações de Estmação Generalzadas Na teora GLM, a suposção de ndependênca entre os ndvíduos deve ser satsfeta para que, a partr daí, seja realzado o tratamento dos dados. Neste caso, esses modelos se tornam lmtados em estudos georreferencados que levam em consderação uma estrutura de dependênca espacal natural entre ndvíduos de um mesmo grupo ou que estejam em localzações mas próxmas (vznhas). Para acomodar a dependênca na estrutura de um GLM, Zeger & Lang (1986) e Lang & Zeger (1986) desenvolveram as equações de estmação generalzadas (GEE). As GEE s nada mas são que uma extensão dos GLM s, com a nclusão de uma estrutura de correlação no processo de estmação. Em uma GEE, não é necessáro assumr que a dstrbução da varável resposta pertença à famíla exponencal de dstrbuções, porém basta assumr que a méda e a varânca estejam caracterzadas como em um GLM. A abordagem GEE fo aplcada ncalmente no contexto de dados longtudnas e meddas repetdas, mas pode ser consderada também para dados georreferencados (Monod (2007)). Usando a mesma notação de Lang & Zeger (1986), consdere um vetor resposta Y = (Y 1,...,Y m ) T, de dmensão (m 1), e matrz de covaráves X = (X 1,...,X m ) T, de dmensão (m p), para o -ésmo ndvíduo, = 1,...,n, da segunte forma: Ṽ (ρ) = V 1/2 R (ρ)v 1/2 φ 1, em que, V é uma matrz dagonal (m m ) com elementos da dagonal guas a V (µ ) que é a função de varânca defnda na quase verossmlhança, R (ρ) é uma matrz de correlação smétrca (m m ) chamada de matrz de correlação de trabalho e ρ é um escalar e/ou vetor de parâmetros desconhecdos que caracterzam completamente R (ρ). Se R (ρ) é de fato a verdadera matrz de correlação para Y, então defne-se as GEE s, como: n =1 H T Ṽ 1 (ρ)(y µ ) = 0, (2.21) em que H = µ β j é o vetor de dervadas e Ṽ (ρ) é a matrz de covarâncas para o -ésmo ndvíduo. O vetor β solução da equação (2.21) é o estmador de β obtdo através da abordagem GEE. Esses estmadores são consstentes, sob fracas suposções, e o modelo é robusto a erros, na especfcação da estrutura da matrz de correlação R (ρ). Não é dfícl perceber que 15

29 a função quase escore dada em (2.14) é um caso partcular de uma GEE com R (ρ) gual a matrz dentdade. Por sso, nós utlzamos neste trabalho a abordagem de Lang & Zeger (1986) sob o cenáro espacal, em que os dados serão modelados através de uma mstura de quase-verossmlhanças. 2.5 Dependênca Espacal em Dados de Contagens Nesse trabalho assummos que {Y Y (S ),S S, = 1,2,...,L} é a realzação de processo espacal de contagens na área S com S R 2. Mas especfcamente, vamos assumr que S é um mapa partconado em n áreas S, com y representando uma contagem observada em S. A prncpal suposção deste tpo de processo é que as contagens observadas em áreas mas próxmas tendem a ser mas smlares, sto é possuem uma correlação ou dependênca espacal maor do que contagens observadas em áreas mas dstantes entre s. Formalmente essa dependênca pode ser expressa em termos do argumento que a esperança condconal de Y dados todos Y j s, dependem apenas dos Y j s que ocorrem em áreas vznhas de S Besag (1974), ou seja, E(Y Y j, j ) = E(Y Y j, j ), (2.22) em que j denota o conjunto de todos os vznhos da área S. Uma forma de acomodar a correlação espacal neste tpo de processo, é através da matrz de smlardade ou proxmdade espacal, também chamada matrz de vznhança e denotada por W, em que cada elemento w j representa uma medda de proxmdade entre S e S j. Esta medda de proxmdade pode, por exemplo, ser calculada a partr de um dos seguntes crtéros: w j = 1, se o centrode de S está a uma determnada dstânca de S j e caso contráro, w j = 0; w j = 1 se S e S j compartlham fronteras e w j = 0 caso contráro. Agora consdere que temos um GLM espacal e queremos predzer os resíduos, r = Y E(Y ), dado todos os outros r j s. Se assumrmos que os r s são ndependentes, então a méda global dos resíduos, E(r ) = 0 é o melhor predtor de r. No entanto, se queremos utlzar as característcas locas do processo, devemos assumr que os r s vznhos são smlares, de modo que uma méda ponderada dos r j, j, ( j w j r j /w + ), pode predzer melhor r, em que w + = j w j. Dessa forma, combnando com (2.22) teremos que o predtor de r dado todos os outros r s, pode ser vsto como uma mstura dos predtores global e local Yasu & Lele (1997). Especfcamente, w j E(r r j, j ) = (1 ρ)e(r ) + ρ r j, (2.23) j w + 16

30 em que, ρ é um parâmetro que representa o grau de dependênca espacal e deve ser estmado dos dados. Usando a equação (2.23) podemos escrever que a esperança condconal de Y dado todos os outros Y s é, E(Y Y j, j ) = µ + ρ w j (Y j µ j )/w + (2.24) j com a esperança margnal E(Y ) = µ e matrz de correlação R(ρ) = (I ρmw) 1 M onde, I é a matrz dentdade, M é uma matrz dagonal n n com m = 1/w + e W é uma matrz smétrca n n com w j = 1 se j w j = 0 caso contráro Cresse (1992). No contexto de um GLM é mas natural escrevermos, g(e(y Y j, j )) = g(µ ) + ρ w j (g(y j ) g(µ j ))/w +, (2.25) j com E(g(Y )) g(µ ). Como R 1 (ρ) = M 1 ρw, teremos no contexto de GEE (veja, equação (2.21)) que Ṽ 1 é faclmente obtda, facltando o cálculo dos estmadores do modelo. Por sso, esta estrutura de correlação espacal será adota neste trabalho. 2.6 Algortmo Expectaton-Soluton (ES) Em um processo de estmação em mstura de modelos é comum utlzar o algortmo EM (veja a Seção 2.1.1). No entanto, o algortmo EM somente pode ser utlzado quando dspomos da função de verossmlhança para o modelo. Por exemplo, na estmação va msturas de quase-verossmlhanças o algortmo EM não pode ser utlzado, pos não conhecemos o modelo probablístco gerador dos dados. No contexto de meddas repetdas, para explcar a correlação entre as observações repetdas em um mesmo ndvíduo, Rosen et al. (2000) nseru as GEE no passo M do algortmo EM, resultando em uma generalzação dele, ao qual chamou de algortmo Expectaton-Soluton (ES). Para ver a defnção formal e prova de algumas propredades assntótcas do algortmo ES, consultar Rosen et al. (2000). O algortmo ES, também, é executado em dos passos. O prmero é smlar ao passo de esperança E do algortmo EM. O segundo consste na substtução do passo de maxmzação (M) no algortmo EM por um passo que requer a solução (S) de um sstema de GEE s (2.14). No contexto de mstura de GLM s, Rosen et al.(2000) mostraram que se o algortmo ES convergr, ele convergrá para um estmador não-vcado, consstente e assntotcamente Normal, sob suaves condções de regulardade. Sendo assm, utlzaremos esse algortmo no processo de estmação dos parâmetros da regressão do modelo proposto. 17

31 2.7 Intervalos de Confança Bootstrap A nferênca em modelos complexos, é cada vez mas dfícl por não se consegur expressões analtcamente tratáves ou de fácl cálculo e nterpretação na estmação dos parâmetros de nteresse. Em nosso caso específco, não é possível garantr a convergênca dos estmadores para uma dstrbução normal, pos não assummos qualquer dstrbução. Sendo assm, optamos pela nferênca va abordagem de ntervalos de confança Bootstrap (ver Gentle (2009a)). Intervalo de Confança Bootstrap Percentl Dada uma amostra aleatóra (y 1,...,y n ), cuja dstrbução P é desconhecda, queremos estmar ntervalos de confança para um parâmetro θ a partr do estmador pontual T. Para sso, podemos utlzar um estmador Bootstrap T baseado na amostra Bootstrap (y 1,...,y n). Se G T (t) é a função de dstrbução de T, tal que G T (t (1 α) ) = 1 α, em que t (1 α) é o lmte superor exato do ntervalo de confança (1 α) para o parâmetro θ. Então, o ntervalo de confança Bootstrap Percentl (ICBP) é confgurado da segunte forma: [ t ( α 2 );t (1 α 2 ))] (2.26) em que t (π) é a (πm)th estatístca de ordem de uma amostra de tamanho m de T. O ICBP é um bootstrap empírco e pode ser estmado através de smulação de Monte Carlo Intervalo de Confança Bootstrap-t O ntervalo de confança Bootstrap-t (ICB-t) é um dos ntervalos aproxmados bastante útl para a estmação ntervalar de parâmetros, ele pode geralmente ser construído usando como referênca o ntervalo de confança para a méda de uma dstrbução normal, [ Ȳ t ( 1 α 2 ) S n ;Ȳ t ( α 2 ) S n ], em que t (π) é o percentl da dstrbução t-student, Ȳ é a méda amostral e S 2 é a varânca amostral. Então, um ICB-t para qualquer parâmetro construído neste padrão é da forma: [ ] T t ( 1 α 2 ) V (T );T t ( α 2 ) V (T ) (2.27) 18

32 em que t (π) é o percentl estmado da estatístca estudentzada: T T 0 V (T ) em que T 0 é o valor de T calculado a partr da amostra observada. Para dversos estmadores T, não exste uma expressão smples para a varânca ˆV (T ). Por sso, podemos estmar a varânca utlzando um bootstrap e a equação: V (T ) = V (T ) = 1 m 1 m j=1 (T j T ) 2 onde T j é a j-ésma observação bootstrap de T. A vantagem dos ICB-t é que eles são mas precsos do que os ICBP, porém a desvantagem é que eles são muto mas trabalhosos. Se a dstrbução empírca é normal e T é uma medda amostral, o ICB-t (2.27) é um ntervalo de confança exato (1 α)100% de menor tamanho, caso contráro ele pode não ter boas propredades. 19

33 Capítulo 3 Modelos de Quase-Verossmlhança Inflaconados de Zeros para Dados de Contagem Espacalmente Dependentes Como vmos no capítulo anteror (Seção 2.2), modelos de quase verossmlhança são muto útes na ausênca da especfcação correta da dstrbução dos dados, sendo necessára apenas a defnção da relação entre a méda e varânca dos dados, como em um modelo lnear generalzado. Essa abordagem faz-se nteressante, no caso de dados que possuam estruturas complexas, como por exemplo apresentando nflação de zeros, sobredspersão e dependênca espacal, pos encontrar uma dstrbução de probabldade adequada, que modele conjuntamente essas três característcas, pode se tornar uma tarefa árdua e talvez até momentaneamente mpossível. Em processos de contagem já exstem modelos como ZIGP, ZIDP e ZINB, que são flexíves para ncorporar a nflação de zeros, a sobredspersão e o ajuste por covaráves. Entretando, tas modelos são lmtados por não assumrem dependênca ou exstênca de correlação espacal, fato este que é comum em problemas dessa natureza, pos dados coletados em áreas vznhas tendem a ser mas smlares ou correlaconados do que os obtdos em áreas mas dstantes geografcamente. Um exemplo comum desta stuação ocorre na área de saúde públca, onde epdemologstas estudam a varação geográfca dos casos de doenças para gerar e refnar hpóteses testáves sobre a sua etologa ou vsualzar varáves que possam estar nfluencando no aparecmento da epdema (Imbrba et al. (2009a); Imbrba et al. (2009b)) Descreveremos, a segur, o modelo proposto (QIZ) quando as observações da varável resposta forem ndependentes e, posterormente, quando assumem dependênca espacal. 20

34 3.1 Modelo QIZ para dados com Independênca Prmeramente, vamos consderar a descrção do modelo ZI (Capítulo 2, Seção 2.1), com representação estocástca Y U = (1 U)Z, em que Y = (Y 1,...,Y L ) T é o vetor resposta de observações de contagem ndependentes, U = (U 1,...,U L ) T é o componente da mstura não observável e Z = (Z 1,...,Z L ) T é o componente observável, com representação estocástca (2.3), em que U e Z são ndependentes. E anda, que Y segue uma dstrbução nflaconada de zeros (2.1), ou seja, Y p I {y =0} + (1 p )P(θ), em que I é a função ndcadora, P(θ) é uma dstrbução de contagem, p é a probabldade de Y 0 e (1 p ) é a probabldade de Y P(θ). Assm, podemos escrever a probabldade margnal de Y (2.2) como sendo { p + (1 p )P θ (Y = y ), se y = 0, P(Y = y ) = (1 p )P θ (Y = y ), se y > 0, ou anda, P(Y = y ) = p I {y =0} + (1 p )P θ (Y = y ) = p I {y =0} + (1 p )e logp θ (Y =y ) cuja probabldade P(Y = y ) depende de p e da probabldade P θ (Y = y ), que por sua vez vem da dstrbução de contagem P(θ). Então, a verossmlhança do modelo ZI é escrta como l(θ) = = L =1 L =1 P(Y = y ) [p I {y =0} + (1 p )e logp θ (Y =y ) ] (3.1) Uma das prncpas deas deste trabalho fo a de substtur o logp θ (Y = y ), em (3.1), pela quase-verossmlhança estendda Q + (2.17), obtendo a aproxmação l(θ) L =1 [p I {y =0} + (1 p )e Q+ (y ;θ ) ] = Q(p,θ), em que Q(p,θ) é a quase-verossmlhança. 21

O problema da superdispersão na análise de dados de contagens

O problema da superdispersão na análise de dados de contagens O problema da superdspersão na análse de dados de contagens 1 Uma das restrções mpostas pelas dstrbuções bnomal e Posson, aplcadas usualmente na análse de dados dscretos, é que o parâmetro de dspersão

Leia mais

O problema da superdispersão na análise de dados de contagens

O problema da superdispersão na análise de dados de contagens O problema da superdspersão na análse de dados de contagens 1 Uma das restrções mpostas pelas dstrbuções bnomal e Posson, aplcadas usualmente na análse de dados dscretos, é que o parâmetro de dspersão

Leia mais

3 A técnica de computação intensiva Bootstrap

3 A técnica de computação intensiva Bootstrap A técnca de computação ntensva ootstrap O termo ootstrap tem orgem na expressão de língua nglesa lft oneself by pullng hs/her bootstrap, ou seja, alguém levantar-se puxando seu própro cadarço de bota.

Leia mais

MODELOS DE REGRESSÃO PARAMÉTRICOS

MODELOS DE REGRESSÃO PARAMÉTRICOS MODELOS DE REGRESSÃO PARAMÉTRICOS Às vezes é de nteresse nclur na análse, característcas dos ndvíduos que podem estar relaconadas com o tempo de vda. Estudo de nsufcênca renal: verfcar qual o efeto da

Leia mais

DEFINIÇÃO - MODELO LINEAR GENERALIZADO

DEFINIÇÃO - MODELO LINEAR GENERALIZADO DEFINIÇÃO - MODELO LINEAR GENERALIZADO 1 Um modelo lnear generalzado é defndo pelos seguntes três componentes: Componente aleatóro; Componente sstemátco; Função de lgação; Componente aleatóro: Um conjunto

Leia mais

Os modelos de regressão paramétricos vistos anteriormente exigem que se suponha uma distribuição estatística para o tempo de sobrevivência.

Os modelos de regressão paramétricos vistos anteriormente exigem que se suponha uma distribuição estatística para o tempo de sobrevivência. MODELO DE REGRESSÃO DE COX Os modelos de regressão paramétrcos vstos anterormente exgem que se suponha uma dstrbução estatístca para o tempo de sobrevvênca. Contudo esta suposção, caso não sea adequada,

Leia mais

3 Metodologia de Avaliação da Relação entre o Custo Operacional e o Preço do Óleo

3 Metodologia de Avaliação da Relação entre o Custo Operacional e o Preço do Óleo 3 Metodologa de Avalação da Relação entre o Custo Operaconal e o Preço do Óleo Este capítulo tem como objetvo apresentar a metodologa que será empregada nesta pesqusa para avalar a dependênca entre duas

Leia mais

É o grau de associação entre duas ou mais variáveis. Pode ser: correlacional ou experimental.

É o grau de associação entre duas ou mais variáveis. Pode ser: correlacional ou experimental. Prof. Lorí Val, Dr. val@mat.ufrgs.br http://www.mat.ufrgs.br/~val/ É o grau de assocação entre duas ou mas varáves. Pode ser: correlaconal ou expermental. Numa relação expermental os valores de uma das

Leia mais

DIAGNÓSTICO EM MODELOS LINEARES GENERALIZADOS

DIAGNÓSTICO EM MODELOS LINEARES GENERALIZADOS DIAGNÓSTICO EM MODELOS LINEARES GENERALIZADOS 1 A análse de dagnóstco (ou dagnóstco do ajuste) confgura uma etapa fundamental no ajuste de modelos de regressão. O objetvo prncpal da análse de dagnóstco

Leia mais

Prof. Lorí Viali, Dr.

Prof. Lorí Viali, Dr. Prof. Lorí Val, Dr. val@mat.ufrgs.br http://www.mat.ufrgs.br/~val/ É o grau de assocação entre duas ou mas varáves. Pode ser: correlaconal ou expermental. Prof. Lorí Val, Dr. UFRG Insttuto de Matemátca

Leia mais

Regressão Múltipla. Parte I: Modelo Geral e Estimação

Regressão Múltipla. Parte I: Modelo Geral e Estimação Regressão Múltpla Parte I: Modelo Geral e Estmação Regressão lnear múltpla Exemplos: Num estudo sobre a produtvdade de trabalhadores ( em aeronave, navos) o pesqusador deseja controlar o número desses

Leia mais

4 Critérios para Avaliação dos Cenários

4 Critérios para Avaliação dos Cenários Crtéros para Avalação dos Cenáros É desejável que um modelo de geração de séres sntétcas preserve as prncpas característcas da sére hstórca. Isto quer dzer que a utldade de um modelo pode ser verfcada

Leia mais

Eventos coletivamente exaustivos: A união dos eventos é o espaço amostral.

Eventos coletivamente exaustivos: A união dos eventos é o espaço amostral. DEFINIÇÕES ADICIONAIS: PROBABILIDADE Espaço amostral (Ω) é o conjunto de todos os possíves resultados de um expermento. Evento é qualquer subconjunto do espaço amostral. Evento combnado: Possu duas ou

Leia mais

Associação entre duas variáveis quantitativas

Associação entre duas variáveis quantitativas Exemplo O departamento de RH de uma empresa deseja avalar a efcáca dos testes aplcados para a seleção de funconáros. Para tanto, fo sorteada uma amostra aleatóra de 50 funconáros que fazem parte da empresa

Leia mais

Prof. Lorí Viali, Dr.

Prof. Lorí Viali, Dr. Prof. Lorí Val, Dr. val@mat.ufrgs.br http://www.mat.ufrgs.br/~val/ 1 É o grau de assocação entre duas ou mas varáves. Pode ser: correlaconal ou expermental. Numa relação expermental os valores de uma das

Leia mais

Modelo linear normal com erros heterocedásticos. O método de mínimos quadrados ponderados

Modelo linear normal com erros heterocedásticos. O método de mínimos quadrados ponderados Modelo lnear normal com erros heterocedástcos O método de mínmos quadrados ponderados Varâncas homogêneas Varâncas heterogêneas y y x x Fgura 1 Ilustração da dstrbução de uma varável aleatóra y (condconal

Leia mais

UMA VALIDAÇÃO MATEMÁTICA PARA UM ALGORITMO QUE SIMULA MISTURAS DE DISTRIBUIÇÕES

UMA VALIDAÇÃO MATEMÁTICA PARA UM ALGORITMO QUE SIMULA MISTURAS DE DISTRIBUIÇÕES UMA VALIDAÇÃO MATEMÁTICA PARA UM ALGORITMO QUE SIMULA MISTURAS DE DISTRIBUIÇÕES Ana Paula Coelho MADEIRA Lucas Montero CHAVES Devanl Jaques de SOUZA Resumo: Uma valdação matemátca, utlzando o conceto de

Leia mais

REGRESSÃO NÃO LINEAR 27/06/2017

REGRESSÃO NÃO LINEAR 27/06/2017 7/06/07 REGRESSÃO NÃO LINEAR CUIABÁ, MT 07/ Os modelos de regressão não lnear dferencam-se dos modelos lneares, tanto smples como múltplos, pelo fato de suas varáves ndependentes não estarem separados

Leia mais

R X. X(s) Y Y(s) Variáveis aleatórias discretas bidimensionais

R X. X(s) Y Y(s) Variáveis aleatórias discretas bidimensionais 30 Varáves aleatóras bdmensonas Sea ε uma experênca aleatóra e S um espaço amostral assocado a essa experênca. Seam X X(s) e Y Y(s) duas funções cada uma assocando um número real a cada resultado s S.

Leia mais

1. CORRELAÇÃO E REGRESSÃO LINEAR

1. CORRELAÇÃO E REGRESSÃO LINEAR 1 CORRELAÇÃO E REGREÃO LINEAR Quando deseja-se estudar se exste relação entre duas varáves quanttatvas, pode-se utlzar a ferramenta estatístca da Correlação Lnear mples de Pearson Quando essa correlação

Leia mais

ALGORITMOS PARA DADOS AUMENTADOS

ALGORITMOS PARA DADOS AUMENTADOS ALGORITMOS PARA DADOS AUMNTADOS. INTRODUÇÃO Dos algortmos baseados na consderação de dados latentes. Temos os dados efetvamente observados e de uma manera convenente aumentamos esses dados ntroduzndo os

Leia mais

Figura 8.1: Distribuição uniforme de pontos em uma malha uni-dimensional. A notação empregada neste capítulo para avaliação da derivada de uma

Figura 8.1: Distribuição uniforme de pontos em uma malha uni-dimensional. A notação empregada neste capítulo para avaliação da derivada de uma Capítulo 8 Dferencação Numérca Quase todos os métodos numércos utlzados atualmente para obtenção de soluções de equações erencas ordnáras e parcas utlzam algum tpo de aproxmação para as dervadas contínuas

Leia mais

Modelo linear clássico com erros heterocedásticos. O método de mínimos quadrados ponderados

Modelo linear clássico com erros heterocedásticos. O método de mínimos quadrados ponderados Modelo lnear clássco com erros heterocedástcos O método de mínmos quadrados ponderados 1 Varâncas homogêneas Varâncas heterogêneas y y x x Fgura 1 Ilustração da dstrbução de uma varável aleatóra y (condconal

Leia mais

Algarismos Significativos Propagação de Erros ou Desvios

Algarismos Significativos Propagação de Erros ou Desvios Algarsmos Sgnfcatvos Propagação de Erros ou Desvos L1 = 1,35 cm; L = 1,3 cm; L3 = 1,30 cm L4 = 1,4 cm; L5 = 1,7 cm. Qual destas meddas está correta? Qual apresenta algarsmos com sgnfcado? O nstrumento

Leia mais

Prof. Lorí Viali, Dr.

Prof. Lorí Viali, Dr. Prof. Lorí Val, Dr. vall@mat.ufrgs.br http://www.mat.ufrgs.br/~val/ Em mutas stuações duas ou mas varáves estão relaconadas e surge então a necessdade de determnar a natureza deste relaconamento. A análse

Leia mais

Estatística II Antonio Roque Aula 18. Regressão Linear

Estatística II Antonio Roque Aula 18. Regressão Linear Estatístca II Antono Roque Aula 18 Regressão Lnear Quando se consderam duas varáves aleatóras ao mesmo tempo, X e Y, as técncas estatístcas aplcadas são as de regressão e correlação. As duas técncas estão

Leia mais

CORRELAÇÃO E REGRESSÃO

CORRELAÇÃO E REGRESSÃO CORRELAÇÃO E REGRESSÃO Constata-se, freqüentemente, a estênca de uma relação entre duas (ou mas) varáves. Se tal relação é de natureza quanttatva, a correlação é o nstrumento adequado para descobrr e medr

Leia mais

Notas Processos estocásticos. Nestor Caticha 23 de abril de 2012

Notas Processos estocásticos. Nestor Caticha 23 de abril de 2012 Notas Processos estocástcos Nestor Catcha 23 de abrl de 2012 notas processos estocástcos 2 O Teorema de Perron Frobenus para matrzes de Markov Consdere um processo estocástco representado por um conunto

Leia mais

Análise de Regressão

Análise de Regressão Análse de Regressão método estatístco que utlza relação entre duas ou mas varáves de modo que uma varável pode ser estmada (ou predta) a partr da outra ou das outras Neter, J. et al. Appled Lnear Statstcal

Leia mais

NOÇÕES SOBRE CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES

NOÇÕES SOBRE CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES NOÇÕES SOBRE CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES 1 O nosso objetvo é estudar a relação entre duas varáves quanttatvas. Eemplos:. Idade e altura das cranças.. v. Tempo de prátca de esportes e rtmo cardíaco

Leia mais

RISCO. Investimento inicial $ $ Taxa de retorno anual Pessimista 13% 7% Mais provável 15% 15% Otimista 17% 23% Faixa 4% 16%

RISCO. Investimento inicial $ $ Taxa de retorno anual Pessimista 13% 7% Mais provável 15% 15% Otimista 17% 23% Faixa 4% 16% Análse de Rsco 1 RISCO Rsco possbldade de perda. Quanto maor a possbldade, maor o rsco. Exemplo: Empresa X va receber $ 1.000 de uros em 30 das com títulos do governo. A empresa Y pode receber entre $

Leia mais

UNIDADE IV DELINEAMENTO INTEIRAMENTE CASUALIZADO (DIC)

UNIDADE IV DELINEAMENTO INTEIRAMENTE CASUALIZADO (DIC) UNDADE V DELNEAMENTO NTERAMENTE CASUALZADO (DC) CUABÁ, MT 015/ PROF.: RÔMULO MÔRA romulomora.webnode.com 1. NTRODUÇÃO Este delneamento apresenta como característca prncpal a necessdade de homogenedade

Leia mais

Cap. 11 Correlação e Regressão

Cap. 11 Correlação e Regressão Estatístca para Cursos de Engenhara e Informátca Pedro Alberto Barbetta / Marcelo Menezes Res / Antono Cezar Borna São Paulo: Atlas, 2004 Cap. 11 Correlação e Regressão APOIO: Fundação de Apoo à Pesqusa

Leia mais

Variação ao acaso. É toda variação devida a fatores não controláveis, denominadas erro.

Variação ao acaso. É toda variação devida a fatores não controláveis, denominadas erro. Aplcação Por exemplo, se prepararmos uma área expermental com todo cudado possível e fzermos, manualmente, o planto de 100 sementes seleconadas de um mlho híbrdo, cudando para que as sementes fquem na

Leia mais

CURSO A DISTÂNCIA DE GEOESTATÍSTICA

CURSO A DISTÂNCIA DE GEOESTATÍSTICA CURSO A DISTÂNCIA DE GEOESTATÍSTICA Aula 6: Estaconardade e Semvarânca: Estaconardade de a. ordem, Hpótese ntríseca, Hpótese de krgagem unversal, Crtéros para escolha, Verfcação, Representatvdade espacal,

Leia mais

Testes não-paramétricos

Testes não-paramétricos Testes não-paramétrcos Prof. Lorí Val, Dr. http://www.mat.ufrgs.br/val/ val@mat.ufrgs.br Um teste não paramétrco testa outras stuações que não parâmetros populaconas. Estas stuações podem ser relaconamentos,

Leia mais

Curso de extensão, MMQ IFUSP, fevereiro/2014. Alguns exercício básicos

Curso de extensão, MMQ IFUSP, fevereiro/2014. Alguns exercício básicos Curso de extensão, MMQ IFUSP, feverero/4 Alguns exercíco báscos I Exercícos (MMQ) Uma grandeza cujo valor verdadero x é desconhecdo, fo medda três vezes, com procedmentos expermentas dêntcos e, portanto,

Leia mais

2 Incerteza de medição

2 Incerteza de medição 2 Incerteza de medção Toda medção envolve ensaos, ajustes, condconamentos e a observação de ndcações em um nstrumento. Este conhecmento é utlzado para obter o valor de uma grandeza (mensurando) a partr

Leia mais

X = 1, se ocorre : VB ou BV (vermelha e branca ou branca e vermelha)

X = 1, se ocorre : VB ou BV (vermelha e branca ou branca e vermelha) Estatístca p/ Admnstração II - Profª Ana Cláuda Melo Undade : Probabldade Aula: 3 Varável Aleatóra. Varáves Aleatóras Ao descrever um espaço amostral de um expermento, não especfcamos que um resultado

Leia mais

Capítulo 1. Exercício 5. Capítulo 2 Exercício

Capítulo 1. Exercício 5. Capítulo 2 Exercício UNIVERSIDADE FEDERAL DE GOIÁS CIÊNCIAS ECONÔMICAS ECONOMETRIA (04-II) PRIMEIRA LISTA DE EXERCÍCIOS Exercícos do Gujarat Exercíco 5 Capítulo Capítulo Exercíco 3 4 5 7 0 5 Capítulo 3 As duas prmeras demonstrações

Leia mais

Gráficos de Controle para Processos Autocorrelacionados

Gráficos de Controle para Processos Autocorrelacionados Gráfcos de Controle para Processos Autocorrelaconados Gráfco de controle de Shewhart: observações ndependentes e normalmente dstrbuídas. Shewhart ao crar os gráfcos de controle não exgu que os dados fossem

Leia mais

Reconhecimento Estatístico de Padrões

Reconhecimento Estatístico de Padrões Reconhecmento Estatístco de Padrões X 3 O paradgma pode ser sumarzado da segunte forma: Cada padrão é representado por um vector de característcas x = x1 x2 x N (,,, ) x x1 x... x d 2 = X 1 X 2 Espaço

Leia mais

Estatística Espacial: Dados de Área

Estatística Espacial: Dados de Área Estatístca Espacal: Dados de Área Dstrbução do número observado de eventos Padronzação e SMR Mapas de Probabldades Mapas com taxas empírcas bayesanas Padronzação Para permtr comparações entre dferentes

Leia mais

5 Métodos de cálculo do limite de retenção em função da ruína e do capital inicial

5 Métodos de cálculo do limite de retenção em função da ruína e do capital inicial 5 Métodos de cálculo do lmte de retenção em função da ruína e do captal ncal Nesta dssertação serão utlzados dos métodos comparatvos de cálculo de lmte de retenção, onde ambos consderam a necessdade de

Leia mais

Análise de Regressão. Profa Alcione Miranda dos Santos Departamento de Saúde Pública UFMA

Análise de Regressão. Profa Alcione Miranda dos Santos Departamento de Saúde Pública UFMA Análse de Regressão Profa Alcone Mranda dos Santos Departamento de Saúde Públca UFMA Introdução Uma das preocupações estatístcas ao analsar dados, é a de crar modelos que explctem estruturas do fenômeno

Leia mais

Análise de Variância. Comparação de duas ou mais médias

Análise de Variância. Comparação de duas ou mais médias Análse de Varânca Comparação de duas ou mas médas Análse de varânca com um fator Exemplo Um expermento fo realzado para se estudar dabetes gestaconal. Desejava-se avalar o comportamento da hemoglobna (HbA)

Leia mais

Classificação de Padrões

Classificação de Padrões Classfcação de Padrões Introdução Classfcadores Paramétrcos Classfcadores Sem-paramétrcos Redução da Dmensonaldade Teste de Sgnfcânca 6.345 Sstema de Reconhecmento de Voz Teora Acústca da Produção de Voz

Leia mais

Teoria Elementar da Probabilidade

Teoria Elementar da Probabilidade 10 Teora Elementar da Probabldade MODELOS MATEMÁTICOS DETERMINÍSTICOS PROBABILÍSTICOS PROCESSO (FENÓMENO) ALEATÓRIO - Quando o acaso nterfere na ocorrênca de um ou mas dos resultados nos quas tal processo

Leia mais

2 Metodologia de Medição de Riscos para Projetos

2 Metodologia de Medição de Riscos para Projetos 2 Metodologa de Medção de Rscos para Projetos Neste capítulo remos aplcar os concetos apresentados na seção 1.1 ao ambente de projetos. Um projeto, por defnção, é um empreendmento com metas de prazo, margem

Leia mais

Métodos Avançados em Epidemiologia

Métodos Avançados em Epidemiologia Unversdade Federal de Mnas Geras Insttuto de Cêncas Exatas Departamento de Estatístca Métodos Avançados em Epdemologa Aula 5-1 Regressão Lnear Smples: Estmação e Interpretação da Reta Tabela ANOVA e R

Leia mais

Implementação Bayesiana

Implementação Bayesiana Implementação Bayesana Defnção 1 O perfl de estratégas s.) = s 1.),..., s I.)) é um equlíbro Nash-Bayesano do mecansmo Γ = S 1,..., S I, g.)) se, para todo e todo θ Θ, u gs θ ), s θ )), θ ) θ Eθ u gŝ,

Leia mais

RAD1507 Estatística Aplicada à Administração I Prof. Dr. Evandro Marcos Saidel Ribeiro

RAD1507 Estatística Aplicada à Administração I Prof. Dr. Evandro Marcos Saidel Ribeiro UNIVERIDADE DE ÃO PAULO FACULDADE DE ECONOMIA, ADMINITRAÇÃO E CONTABILIDADE DE RIBEIRÃO PRETO DEPARTAMENTO DE ADMINITRAÇÃO RAD1507 Estatístca Aplcada à Admnstração I Prof. Dr. Evandro Marcos adel Rbero

Leia mais

MOQ-14 PROJETO E ANÁLISE DE EXPERIMENTOS LISTA DE EXERCÍCIOS 1 REGRESSÃO LINEAR SIMPLES

MOQ-14 PROJETO E ANÁLISE DE EXPERIMENTOS LISTA DE EXERCÍCIOS 1 REGRESSÃO LINEAR SIMPLES MOQ-14 PROJETO E ANÁLISE DE EXPERIMENTOS LISTA DE EXERCÍCIOS 1 REGRESSÃO LINEAR SIMPLES 1. Obtenha os estmadores dos coefcentes lnear e angular de um modelo de regressão lnear smples utlzando o método

Leia mais

Programa do Curso. Sistemas Inteligentes Aplicados. Análise e Seleção de Variáveis. Análise e Seleção de Variáveis. Carlos Hall

Programa do Curso. Sistemas Inteligentes Aplicados. Análise e Seleção de Variáveis. Análise e Seleção de Variáveis. Carlos Hall Sstemas Intelgentes Aplcados Carlos Hall Programa do Curso Lmpeza/Integração de Dados Transformação de Dados Dscretzação de Varáves Contínuas Transformação de Varáves Dscretas em Contínuas Transformação

Leia mais

Contabilometria. Aula 8 Regressão Linear Simples

Contabilometria. Aula 8 Regressão Linear Simples Contalometra Aula 8 Regressão Lnear Smples Orgem hstórca do termo Regressão Le da Regressão Unversal de Galton 1885 Galton verfcou que, apesar da tendênca de que pas altos tvessem flhos altos e pas axos

Leia mais

7 - Distribuição de Freqüências

7 - Distribuição de Freqüências 7 - Dstrbução de Freqüêncas 7.1 Introdução Em mutas áreas há uma grande quantdade de nformações numércas que precsam ser dvulgadas de forma resumda. O método mas comum de resumr estes dados numércos consste

Leia mais

3 Algoritmos propostos

3 Algoritmos propostos Algortmos propostos 3 Algortmos propostos Nesse trabalho foram desenvolvdos dos algortmos que permtem classfcar documentos em categoras de forma automátca, com trenamento feto por usuáros Tas algortmos

Leia mais

Universidade de São Paulo Escola Superior de Agricultura Luiz de Queiroz Departamento de Ciências Exatas

Universidade de São Paulo Escola Superior de Agricultura Luiz de Queiroz Departamento de Ciências Exatas Unversdade de São Paulo Escola Superor de Agrcultura Luz de Queroz Departamento de Cêncas Exatas Prova escrta de seleção para DOUTORADO em Estatístca e Expermentação Agronômca Nome do canddato (a): Questão

Leia mais

Universidade Federal do Paraná Departamento de Informática. Reconhecimento de Padrões. Classificadores Lineares. Luiz Eduardo S. Oliveira, Ph.D.

Universidade Federal do Paraná Departamento de Informática. Reconhecimento de Padrões. Classificadores Lineares. Luiz Eduardo S. Oliveira, Ph.D. Unversdade Federal do Paraná Departamento de Informátca Reconhecmento de Padrões Classfcadores Lneares Luz Eduardo S. Olvera, Ph.D. http://lesolvera.net Objetvos Introduzr os o conceto de classfcação lnear.

Leia mais

UMA ABORDAGEM ALTERNATIVA PARA O ENSINO DO MÉTODO DOS MÍNIMOS QUADRADOS NO NÍVEL MÉDIO E INÍCIO DO CURSO SUPERIOR

UMA ABORDAGEM ALTERNATIVA PARA O ENSINO DO MÉTODO DOS MÍNIMOS QUADRADOS NO NÍVEL MÉDIO E INÍCIO DO CURSO SUPERIOR UNIVERSIDADE FEDERAL DE JUIZ DE FORA INSTITUTO DE CIÊNCIAS EATAS DEPARTAMENTO DE ESTATÍSTICA UMA ABORDAGEM ALTERNATIVA PARA O ENSINO DO MÉTODO DOS MÍNIMOS QUADRADOS NO NÍVEL MÉDIO E INÍCIO DO CURSO SUPERIOR

Leia mais

Teoria da Regressão Espacial Aplicada a. Sérgio Alberto Pires da Silva

Teoria da Regressão Espacial Aplicada a. Sérgio Alberto Pires da Silva Teora da Regressão Espacal Aplcada a Modelos Genércos Sérgo Alberto Pres da Slva ITENS DE RELACIONAMENTOS Tópcos Báscos da Regressão Espacal; Banco de Dados Geo-Referencados; Modelos Genércos Robustos;

Leia mais

AEP FISCAL ESTATÍSTICA

AEP FISCAL ESTATÍSTICA AEP FISCAL ESTATÍSTICA Módulo 11: Varáves Aleatóras (webercampos@gmal.com) VARIÁVEIS ALEATÓRIAS 1. Conceto de Varáves Aleatóras Exemplo: O expermento consste no lançamento de duas moedas: X: nº de caras

Leia mais

Faculdade de Engenharia Optimização. Prof. Doutor Engº Jorge Nhambiu

Faculdade de Engenharia Optimização. Prof. Doutor Engº Jorge Nhambiu 1 Programação Não Lnear com Restrções Aula 9: Programação Não-Lnear - Funções de Váras Varáves com Restrções Ponto Regular; Introdução aos Multplcadores de Lagrange; Multplcadores de Lagrange e Condções

Leia mais

5 Implementação Procedimento de segmentação

5 Implementação Procedimento de segmentação 5 Implementação O capítulo segunte apresenta uma batera de expermentos prátcos realzados com o objetvo de valdar o método proposto neste trabalho. O método envolve, contudo, alguns passos que podem ser

Leia mais

4 Discretização e Linearização

4 Discretização e Linearização 4 Dscretzação e Lnearzação Uma vez defndas as equações dferencas do problema, o passo segunte consste no processo de dscretzação e lnearzação das mesmas para que seja montado um sstema de equações algébrcas

Leia mais

CAPÍTULO 2 DESCRIÇÃO DE DADOS ESTATÍSTICA DESCRITIVA

CAPÍTULO 2 DESCRIÇÃO DE DADOS ESTATÍSTICA DESCRITIVA CAPÍTULO DESCRIÇÃO DE DADOS ESTATÍSTICA DESCRITIVA. A MÉDIA ARITMÉTICA OU PROMÉDIO Defnção: é gual a soma dos valores do grupo de dados dvdda pelo número de valores. X x Soma dos valores de x número de

Leia mais

Ao se calcular a média, moda e mediana, temos: Quanto mais os dados variam, menos representativa é a média.

Ao se calcular a média, moda e mediana, temos: Quanto mais os dados variam, menos representativa é a média. Estatístca Dscplna de Estatístca 0/ Curso de Admnstração em Gestão Públca Profª. Me. Valéra Espíndola Lessa e-mal: lessavalera@gmal.com Meddas de Dspersão Indcam se os dados estão, ou não, prómos uns dos

Leia mais

Análise de Regressão Linear Múltipla IV

Análise de Regressão Linear Múltipla IV Análse de Regressão Lnear Múltpla IV Aula 7 Guarat e Porter, 11 Capítulos 7 e 8 He et al., 4 Capítulo 3 Exemplo Tomando por base o modelo salaro 1educ anosemp exp prev log 3 a senhorta Jole, gerente do

Leia mais

Estatística I Licenciatura MAEG 2006/07

Estatística I Licenciatura MAEG 2006/07 Estatístca I Lcencatura MAEG 006/07 AMOSTRAGEM. DISTRIBUIÇÕES POR AMOSTRAGEM.. Em determnada unversdade verfca-se que 30% dos alunos têm carro. Seleccona-se uma amostra casual smples de 0 alunos. a) Qual

Leia mais

AULA EXTRA Análise de Regressão Logística

AULA EXTRA Análise de Regressão Logística 1 AULA EXTRA Análse de Regressão Logístca Ernesto F. L. Amaral 13 de dezembro de 2012 Metodologa de Pesqusa (DCP 854B) VARIÁVEL DEPENDENTE BINÁRIA 2 O modelo de regressão logístco é utlzado quando a varável

Leia mais

MODELAGEM CONJUNTA DE MÉDIA E VARIÂNCIA EM EXPERIMENTOS FRACIONADOS SEM REPETIÇÃO UTILIZANDO GLM

MODELAGEM CONJUNTA DE MÉDIA E VARIÂNCIA EM EXPERIMENTOS FRACIONADOS SEM REPETIÇÃO UTILIZANDO GLM UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL ESCOLA DE ENGENHARIA PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA DE PRODUÇÃO MODELAGEM CONJUNTA DE MÉDIA E VARIÂNCIA EM EXPERIMENTOS FRACIONADOS SEM REPETIÇÃO UTILIZANDO

Leia mais

Introdução. Uma lâmpada nova é ligada e observa-se o tempo gasto até queimar. Resultados possíveis

Introdução. Uma lâmpada nova é ligada e observa-se o tempo gasto até queimar. Resultados possíveis Introdução A teora das probabldades é um ramo da matemátca que lda modelos de fenômenos aleatóros. Intmamente relaconado com a teora de probabldade está a Estatístca, que se preocupa com a cração de prncípos,

Leia mais

3 Elementos de modelagem para o problema de controle de potência

3 Elementos de modelagem para o problema de controle de potência 3 Elementos de modelagem para o problema de controle de potênca Neste trabalho assume-se que a rede de comuncações é composta por uma coleção de enlaces consttuídos por um par de undades-rádo ndvdualmente

Leia mais

Cap. IV Análise estatística de incertezas aleatórias

Cap. IV Análise estatística de incertezas aleatórias TLF 010/11 Cap. IV Análse estatístca de ncertezas aleatóras Capítulo IV Análse estatístca de ncertezas aleatóras 4.1. Méda 43 4.. Desvo padrão 44 4.3. Sgnfcado do desvo padrão 46 4.4. Desvo padrão da méda

Leia mais

Regressão Linear Simples by Estevam Martins

Regressão Linear Simples by Estevam Martins Regressão Lnear Smples by Estevam Martns stvm@uol.com.br "O únco lugar onde o sucesso vem antes do trabalho, é no dconáro" Albert Ensten Introdução Mutos estudos estatístcos têm como objetvo estabelecer

Leia mais

EM (Dempster, Laird, Rubin: 1977)

EM (Dempster, Laird, Rubin: 1977) EM (Dempster, Lard, Rubn: 1977) Algortmo teratvo para localzação do(s) parâmetro(s) que maxmza(m) a função de verossmlhança p(x ) Dos passos por teração Passo E: cálculo do valor esperado de uma certa

Leia mais

Palavras-Chave: Métodos Interativos da Potência e Inverso, Sistemas Lineares, Autovetores e Autovalores.

Palavras-Chave: Métodos Interativos da Potência e Inverso, Sistemas Lineares, Autovetores e Autovalores. MSc leandre Estáco Féo ssocação Educaconal Dom Bosco - Faculdade de Engenhara de Resende Caa Postal 8.698/87 - CEP 75-97 - Resende - RJ Brasl Professor e Doutorando de Engenhara aefeo@yahoo.com.br Resumo

Leia mais

D- MÉTODO DAS APROXIMAÇÕES SUCESSIVAS

D- MÉTODO DAS APROXIMAÇÕES SUCESSIVAS D- MÉTODO DAS APROXIMAÇÕES SUCESSIVAS O método das apromações sucessvas é um método teratvo que se basea na aplcação de uma fórmula de recorrênca que, sendo satsfetas determnadas condções de convergênca,

Leia mais

3.6. Análise descritiva com dados agrupados Dados agrupados com variáveis discretas

3.6. Análise descritiva com dados agrupados Dados agrupados com variáveis discretas 3.6. Análse descrtva com dados agrupados Em algumas stuações, os dados podem ser apresentados dretamente nas tabelas de frequêncas. Netas stuações devemos utlzar estratégas específcas para obter as meddas

Leia mais

DELINEAMENTOS EXPERIMENTAIS

DELINEAMENTOS EXPERIMENTAIS SUMÁRIO 1 Delneamentos Expermentas 2 1.1 Delneamento Interamente Casualzado..................... 2 1.2 Delneamento Blocos Casualzados (DBC).................... 3 1.3 Delneamento Quadrado Latno (DQL)......................

Leia mais

UNIVERSIDADE DE PERNAMBUCO. Física Experimental. Prof o José Wilson Vieira

UNIVERSIDADE DE PERNAMBUCO. Física Experimental. Prof o José Wilson Vieira UNIVERSIDADE DE PERNAMBUCO ESCOLA POLITÉCNICA DE PERNAMBUCO Físca Expermental Prof o José Wlson Vera wlson.vera@upe.br AULA 01: PROCESSOS DE ANÁLISE GRÁFICA E NUMÉRICA MODELO LINEAR Recfe, agosto de 2015

Leia mais

Ao se calcular a média, moda e mediana, temos: Quanto mais os dados variam, menos representativa é a média.

Ao se calcular a média, moda e mediana, temos: Quanto mais os dados variam, menos representativa é a média. Estatístca Dscplna de Estatístca 0/ Curso Superor de tecnólogo em Gestão Ambental Profª. Me. Valéra Espíndola Lessa e-mal: lessavalera@gmal.com Meddas de Dspersão Indcam se os dados estão, ou não, prómos

Leia mais

Robustecendo a distribuição normal

Robustecendo a distribuição normal Robustecendo a dstrbução normal Marcos Rafael Noguera Cavalcante Dssertação apresentada ao Insttuto de Matemátca e Estatístca da Unversdade de São Paulo para obtenção do título de Mestre em Cêncas Programa:

Leia mais

PROVA DE ESTATÍSTICA & PROBABILIDADES SELEÇÃO MESTRADO/UFMG 2010/2011

PROVA DE ESTATÍSTICA & PROBABILIDADES SELEÇÃO MESTRADO/UFMG 2010/2011 Instruções: PROVA DE ESTATÍSTICA & PROBABILIDADES SELEÇÃO MESTRADO/UFMG 00/0 Cada uestão respondda corretamente vale (um) ponto. Cada uestão respondda ncorretamente vale - (menos um) ponto. Cada uestão

Leia mais

DISSERTAÇÃO DE MESTRADO

DISSERTAÇÃO DE MESTRADO UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL FACULDADE DE MEDICINA PROGRAMA DE PÓS-GRADUAÇÃO EM EPIDEMIOLOGIA DISSERTAÇÃO DE MESTRADO Equações de Estmação Generalzadas (GEE): Aplcação em estudo sobre mortaldade

Leia mais

6 Análises de probabilidade de ruptura de um talude

6 Análises de probabilidade de ruptura de um talude 6 Análses de probabldade de ruptura de um talude 6.. Introdução No presente capítulo, apresentam-se prevsões de probabldades de ruptura para o talude de jusante da Barragem de Benguê mostrada na fgura

Leia mais

Análise Exploratória de Dados

Análise Exploratória de Dados Análse Exploratóra de Dados Objetvos Análse de duas varáves quanttatvas: traçar dagramas de dspersão, para avalar possíves relações entre as duas varáves; calcular o coefcente de correlação entre as duas

Leia mais

Equações de Estimação Generalizadas com resposta binomial negativa: Modelando dados correlacionados de contagem com sobredispersão.

Equações de Estimação Generalizadas com resposta binomial negativa: Modelando dados correlacionados de contagem com sobredispersão. Equações de Estmação Generalzadas com resposta bnomal negatva: Modelando dados correlaconados de contagem com sobredspersão. Clarssa Cardoso Oesselmann Dssertação apresentada ao Insttuto de Matemátca e

Leia mais

Análise de influência

Análise de influência Análse de nfluênca Dzemos que uma observação é nfluente caso ela altere, de forma substancal, alguma propredade do modelo ajustado (como as estmatvas dos parâmetros, seus erros padrões, valores ajustados...).

Leia mais

3. Estatística descritiva bidimensional

3. Estatística descritiva bidimensional 3. Estatístca descrtva bdmensonal (Tabelas, Gráfcos e números) Análse bvarada (ou bdmensonal): avala o comportamento de uma varável em função da outra, por exemplo: Quantas TV Phlps são venddas na regão

Leia mais

Análise de Regressão Linear Múltipla VII

Análise de Regressão Linear Múltipla VII Análse de Regressão Lnear Múltpla VII Aula 1 Hej et al., 4 Seções 3. e 3.4 Hpótese Lnear Geral Seja y = + 1 x 1 + x +... + k x k +, = 1,,..., n. um modelo de regressão lnear múltpla, que pode ser escrto

Leia mais

Elementos de Estatística e Probabilidades II

Elementos de Estatística e Probabilidades II Elementos de Estatístca e Probabldades II Varáves e Vetores Aleatóros dscretos Inês Das 203 O prncpal objetvo da deste documento é fornecer conhecmentos báscos de varáves aleatóras dscretas e pares aleatóros

Leia mais

Nome: Nº: Estatística para Economia e Gestão Licenciaturas em Economia e Gestão. 2.º Semestre de 2008/2009

Nome: Nº: Estatística para Economia e Gestão Licenciaturas em Economia e Gestão. 2.º Semestre de 2008/2009 Estatístca para Economa e Gestão Lcencaturas em Economa e Gestão.º Semestre de 008/009 Exame Fnal (.ª Época) 16 de Junho de 009; 17h30m Duração: 10 mnutos INSTRUÇÕES Escreva o nome e número de aluno em

Leia mais

Universidade Federal de São Carlos Centro de Ciências Exatas e de Tecnologia Departamento de Estatística UMA FAMÍLIA DE MODELOS DE REGRESSÃO

Universidade Federal de São Carlos Centro de Ciências Exatas e de Tecnologia Departamento de Estatística UMA FAMÍLIA DE MODELOS DE REGRESSÃO Unversdade Federal de São Carlos Centro de Cêncas Exatas e de Tecnologa Departamento de Estatístca UMA FAMÍLIA DE MODELOS DE REGRESSÃO COM A DISTRIBUIÇÃO ORIGINAL DA VARIÁVEL RESPOSTA Marcelo de Paula

Leia mais

DIFERENCIANDO SÉRIES TEMPORAIS CAÓTICAS DE ALEATÓRIAS ATRAVÉS DAS TREND STRIPS

DIFERENCIANDO SÉRIES TEMPORAIS CAÓTICAS DE ALEATÓRIAS ATRAVÉS DAS TREND STRIPS 177 DIFERENCIANDO SÉRIES TEMPORAIS CAÓTICAS DE ALEATÓRIAS ATRAVÉS DAS TREND STRIPS Antôno Carlos da Slva Flho Un-FACEF Introdução Trend Strps (TS) são uma nova técnca de análse da dnâmca de um sstema,

Leia mais

IMPLEMENTAÇÃO DO MÉTODO DE FATORAÇÃO DE INTEIROS CRIVO QUADRÁTICO

IMPLEMENTAÇÃO DO MÉTODO DE FATORAÇÃO DE INTEIROS CRIVO QUADRÁTICO IMPLEMENTAÇÃO DO MÉTODO DE FATORAÇÃO DE INTEIROS CRIVO QUADRÁTICO Alne de Paula Sanches 1 ; Adrana Betâna de Paula Molgora 1 Estudante do Curso de Cênca da Computação da UEMS, Undade Unverstára de Dourados;

Leia mais

Variáveis Aleatórias

Variáveis Aleatórias Unversdade Federal do Pará Insttuto de Tecnologa Estatístca Aplcada I Prof. Dr. Jorge Teóflo de Barros Lopes Campus de Belém Curso de Engenhara Mecânca /08/06 7:39 ESTATÍSTICA APLICADA I - Teora das Probabldades

Leia mais