DISSERTAÇÃO DE MESTRADO

Tamanho: px
Começar a partir da página:

Download "DISSERTAÇÃO DE MESTRADO"

Transcrição

1 UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL FACULDADE DE MEDICINA PROGRAMA DE PÓS-GRADUAÇÃO EM EPIDEMIOLOGIA DISSERTAÇÃO DE MESTRADO Equações de Estmação Generalzadas (GEE): Aplcação em estudo sobre mortaldade neonatal em gemelares de Porto Alegre, RS ( ). Marlyn Agranonk Orentador: Profa. Dra. Suz Alves Camey Porto Alegre, Dezembro de 009.

2 UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL FACULDADE DE MEDICINA PROGRAMA DE PÓS-GRADUAÇÃO EM EPIDEMIOLOGIA EQUAÇÕES DE ESTIMAÇÃO GENERALIZADAS (GEE): APLICAÇÃO EM ESTUDO SOBRE MORTALIDADE NEONATAL EM GEMELARES DE PORTO ALEGRE, RS ( ). Marlyn Agranonk Orentadora: Profa. Dra. Suz Alves Camey A apresentação desta dssertação é exgênca do Programa de Pós-graduação em Epdemologa, Unversdade Federal do Ro Grande do Sul, para obtenção do título de Mestre. Porto Alegre, Brasl. 009

3 A77e Agranonk, Marlyn Equações de estmação generalzadas (GEE) : aplcação em estudo sobre mortaldade neonatal em gemelares de Porto Alegre, RS ( ) / Marlyn Agranonk ; orent. Suz Alves Camey f. : l. Dssertação (mestrado) Unversdade Federal do Ro Grande do Sul. Faculdade de Medcna. Programa de Pós-Graduação em Epdemologa. Porto Alegre, BR-RS, Mortaldade neonatal. Gêmeos 3. Porto Alegre (RS) 4. Epdemologa 5. Modelos estatístcos I. Camey, Suz Alves II. Título. Catalogação Bbloteca FAMED/HCPA NLM: WA 900

4 BANCA EXAMINADORA Prof. Dr. Álvaro Vgo, Programa de Pós Graduação em Epdemologa, Unversdade Federal do Ro Grande do Sul. Prof. Dr. Cléco Homrch da Slva, Departamento de Pedatra e Puercultura, Unversdade Federal do Ro Grande do Sul. Profa. Dra. Lucana Neves Nunes, Departamento de Estatístca, Unversdade Federal do Ro Grande do Sul.

5 AGRADECIMENTOS Agradeço a mnha orentadora, Profª Suz Alves Camey, pelo ncentvo e oportundade de aprendzado. Ao professor Marcelo Goldan pelos conselhos, ensnamentos e ncentvo à mnha partcpação em pesqusas desde quedo nce como bolssta na graduação. Aos membros da banca examnadora, professores Álvaro Vgo, Cléco Homrch da Slva e Lucana Neves Nunes, pelas mportantes sugestões e contrbuções para o meu trabalho. Ao Programa de Pós-graduação em Epdemologa pela oportundade oferecda. À CAPES pelo suporte fnancero que fo fundamental ao longo do curso. Porto Alegre. À Coordenação Geral de Vglânca Santára da Secretara de Muncpal de Saúde de Aos meus amgos, colegas do curso e colegas do Núcleo de Estudos sobre Saúde da Crança e do Adolescente - UFRGS por todo apoo, ncentvo e pelos momentos de descontração. Agradeço a todos aqueles que de alguma forma contrbuíram para construção deste trabalho. Em especal, agradeço a meus pas, pelo carnho, apoo e ncentvo e por terem me ensnado o valor do estudo.

6 SUMÁRIO Abrevaturas e Sglas...v Resumo...v Abstract...x Lsta de quadros e tabelas...x Lsta de fguras...x. APRESENTAÇÃO.... INTRODUÇÃO REVISÃO DE LITERATURA MODELOS LINEARES GENERALIZADOS Formulação do Modelo Componentes de um GLM Componente Aleatóra Componente sstemátca e função de lgação Estmação MODELOS PARA DADOS CORRELACIONADOS EQUAÇÕES DE ESTIMAÇÃO GENERALIZADAS Formulação do GEE Função de Quas-verossmlhança Especfcação da matrz de correlação de trabalho Crtéros para seleção da estrutura de correlação de trabalho Crtéros para seleção das varáves predtoras Estmação Estmação dos parâmetros do modelo Estmação de V( ˆ β ) Estmação da Matrz de correlação de trabalho Estmação do Parâmetro de dspersão Teste de hpóteses para os parâmetros do modelo R margnal Técncas de dagnóstco para GEE Análse de resíduos Teste não paramétrco para aleatoredade dos resíduos... 38

7 Outras técncas de dagnóstco para GEE SISTEMAS DE INFORMAÇÃO EM SAÚDE Sstema de Informação sobre Mortaldade (SIM) Sstema de Informação sobre o Nascdo Vvo (SINASC) ENCADEAMENTO DE ARQUIVOS MORTALIDADE INFANTIL GESTAÇÕES MÚLTIPLAS E MORTALIDADE OBJETIVOS REFERÊNCIAS BIBLIOGRÁFICAS ARTIGO CONCLUSÕES E CONSIDERAÇÕES FINAIS ANEXOS ANEXO A: PROJETO DE PESQUISA ANEXO B: APROVAÇÃO PELO COMITÊ DA ÉTICA E PESQUISA... 0 ANEXO C: FORMULÁRIO DA DECLARAÇÃO DE NASCIDO VIVO ANEXO D: FORMULÁRIO DA DECLARAÇÃO DE ÓBITO ANEXO E: COMANDOS UTILIZADOS NO SPSS, VERSÃO ANEXO F: CALCULO DO CIC NO R ANEXO G: COMPARAÇÃO ENTRE COEFICIENTES E ERROS PADRÕES ESTIMADOS ATRAVÉS DE GEE E GLM...0

8 ABREVIATURAS E SIGLAS AIC: Akake s Informaton Crteron (crtéro de nformação de Akake) AR(): Auto-regressvo de prmera ordem CIC: Correlaton Informaton Crteron (Crtéro de Informação de Correlação) DN: Declaração de Nascmento DO: Declaração de Óbto GEE: Generalzed Estmatng Equatons (Equações de Estmação Generalzadas) GLM: Generalzed Lnear Models (Modelos Lneares Generalzados) MCAR: Mssng Completly at Random QIC: Quas-lkelhood under the Independence model Crteron (crtéro de quasverossmlhança sob o modelo de ndependênca) RN: recém nascdo SINASC: Sstema de Informação sobre Nascdos Vvos SIM: Sstema de Informação sobre Mortaldade v

9 RESUMO A gravdez múltpla, como a de gêmeos e trgêmeos, é um exemplo de conglomerado natural no qual as respostas dos fetos são nterdependentes ou agregadas. Ou seja, em estudos com gêmeos e trgêmeos é esperado que exsta correlação entre os dados dos rmãos. Desse modo, os modelos de regressão tradconas, como os GLM, podem levar à nferêncas ncorretas, uma vez que a suposção de ndependênca entre os sujetos não é mas satsfeta. Para soluconar este problema, Zeger e Lang (986) propuseram uma classe de Equações de Estmação Generalzadas (GEE), semelhante aos GLM, porém, nclundo uma estrutura de correlação de trabalho nas estmatvas dos parâmetros do modelo. Anda hoje, poucos estudos utlzam esta metodologa. Consderando que a taxa de mortaldade nfantl é maor em gemelares do que para os demas e a tendênca de aumento da taxa de gemelardade, exste uma preocupação crescente para um aumento do rsco de morte precoce para gêmeos e trgêmeos quando comparados aos não gemelares. Este trabalho busca apresentar a metodologa do GEE, através de uma aplcação na análse de dados de mortaldade neonatal em gemelares. Foram utlzados dados de gêmeos e trgêmeos provenentes do SIM e do SINASC, nos quas todas as cranças que consttuem o par ou o tro nasceram vvas em Porto Alegre, com peso superor a 500g entre 995 a 007. Verfcou-se a assocação de fatores pernatas, como peso ao nascer e índce de Apgar, com a mortaldade neonatal. Comparando os resultados obtdos no GEE com os do GLM foram encontradas pequenas dferenças nas estmatvas pontuas dos parâmetros do modelo. Entretanto, ao comparar os erros padrões, as dferenças foram maores, nterferndo na sgnfcânca de uma das varáves (tpo de hosptal). Maores dferenças entre os modelos não foram encontradas, provavelmente porque o tamanho da amostra utlzado era grande. Desse modo, recomenda-se a utlzação do GEE quando houver agrupamento de ndvíduos, já que este modelo consdera a correlação entre sujetos do mesmo grupo e está mplementado nos programas estatístcos. v

10 ABSTRACT Multple brths such as twns and trplets are a natural cluster n whch the responses of the fetuses are nterdependent. That s, n multple brths studes correlaton can exsts between sblngs data. Therefore, tradtonal regresson models, such as Generalzed Lnear Models (GLM), can lead to ncorrect nferences because the assumpton of ndependence among the subjects no longer exsts. To solve ths problem, Zeger and Lang (986) proposed a class of Generalzed Estmaton Equaton (GEE), smlar to GLM, however, ncludng a workng correlaton structure to estmate the regresson parameters. Even today, few studes use ths methodology. Consderng the hgth rates of nfant mortalty n multple brths when compared to sngles and the trend of ncreased multple brths rate, there s a concern for an ncreased rsk of early death for twns and trplets compared to sngletons. Ths study present GEE through an applcaton n neonatal mortalty n twns and trplets. Data from twns and trplets were obtaned from SIM and SINASC, consderng only clusters were all chldren were lve brths and had more than 500g n Porto Alegre from 995 to 007. There was assocaton of pernatal factors, such as brth weght and Apgar score, wth neonatal mortalty. Comparng the results from GEE and GLM, small dfferences were found n model parameters estmates. However, when comparng the standard errors, the dfferences were larger, nterferng n the sgnfcance of a varable (type of hosptal). Major dfferences between the models were not found, probably because the sample sze used was large. Thus, t s recommended the use of GEE when there s clustered data, snce ths model consders the correlaton between subjects wthn the group and s mplemented n statstcal programs. x

11 LISTA DE QUADROS E TABELAS Quadros e tabelas da dssertação Quadro : Característcas de algumas dstrbuções da famíla exponencal...9 Quadro : Função de quas-verossmlhança para algumas dstrbuções da famíla exponencal...9 Quadro 3: Defnção, exemplo e número de parâmetros estmados para cada tpo de estrutura de correlação de trabalho...3 Quadro 4: Estmadores para α de acordo com o tpo de estrutura de correlação de trabalho...36 Tabela. Dstrbução dos óbtos neonatas em gemelares de acordo com característcas maternas, do recém nascdo e de assstênca pré e pernatas, Porto Alegre, Tabela : Rsco relatvo (RR) bruto e ajustado estmado através de GEE para óbto neonatal em gemelares, Porto Alegre, Quadros do artgo Quadro : Característcas de algumas dstrbuções da famíla exponencal...80 Quadro : Defnção e exemplo para cada tpo de estrutura de correlação de trabalho....8 x

12 LISTA DE FIGURAS Fgura : Resíduos de Pearson versus número do RN (a). Resíduos de Pearson versus número do RN segundo óbto neonatal ( ) e não óbto (o) (b)...79 x

13 . APRESENTAÇÃO Este trabalho consste na dssertação de mestrado nttulada Equações de Estmação Generalzadas (GEE): Aplcação em estudo sobre mortaldade nfantl em Gemelares de Porto Alegre, RS ( ), apresentada ao Programa de Pós-Graduação em Epdemologa da Unversdade Federal do Ro Grande do Sul, em 5 de dezembro de 009. O trabalho é apresentado em três partes, na ordem que segue:. Introdução, Revsão da Lteratura e Objetvos. Artgo(s) 3. Conclusões e Consderações Fnas. Documentos de apoo estão apresentados nos anexos: Projeto de Pesqusa (anexo A), aprovação pelo Comtê de Étca e Pesqusa (anexo B), Formuláro da Declaração de Nascdo Vvo (anexo C), Formuláro da Declaração de Óbto (anexo D), comandos utlzados no SPSS, versão 6.0 (anexo E), comandos utlzados no R (anexo F) e comparação entre coefcentes e erros padrões estmados através de GEE e GLM (anexo G).

14 . INTRODUÇÃO Quando se deseja estudar a relação entre uma varável resposta (desfecho) e varáves ndependentes (exposções), técncas de modelagem são utlzadas, nas quas se ncluem os modelos de regressão. Através destes modelos é possível avalar, por exemplo, fatores de rsco para mortaldade nfantl. Uma das prncpas suposções dos modelos de regressão tradconas, como os Modelos Lneares Generalzados (GLM), é a suposção de ndependênca entre os sujetos observados. No caso do modelo para mortaldade nfantl, sso sgnfca supor que o conhecmento a respeto da ocorrênca de óbto em uma crança não fornece nenhuma nformação a respeto do estado de outra crança nesse estudo. Entretanto, caso a amostra estudada contenha rmãos, é razoável supor que esta hpótese não esteja correta. Ao avalar resultados provenentes de gemelares (gêmeos, trgêmeos, ou de ordem superor) verfca-se que fetos de uma mesma gestação, expostos às mesmas característcas maternas e a condções semelhantes no útero, apresentam respostas mas semelhantes do que os de gestações dferentes []. Ou seja, as observações de ndvíduos que não pertençam à mesma famíla são ndependentes, entretanto as de rmãos não são. Esta questão da dependênca de observações pode ocorrer sempre que for possível dentfcar agrupamentos entre os ndvíduos estudados. Além de pertencerem à mesma famíla, também pode ocorrer correlação entre alunos de uma mesma escola, ou pacentes de um mesmo hosptal []. É possível também ocorrer correlação entre observações realzadas em um mesmo ndvíduo ao longo do tempo, como ocorre mutas vezes em estudos longtudnas. Nesse caso, cada ndvíduo pode ser consderado como um grupo de meddas repetdas []. 3

15 Em todas as stuações menconadas acma é razoável esperar que as respostas observadas dentro de um grupo sejam mas semelhantes do que aquelas observadas entre grupos. Por sso, para avalar a relação entre os fatores de rsco e o desfecho estudado é necessáro consderar a dependênca entre as observações do mesmo grupo. E, desse modo, não é possível utlzar os modelos tradconas de regressão, que supõe ndependênca entre os ndvíduos observados. Atualmente exstem pelo menos duas abordagens adequadas para a análse de dados agrupados. As prncpas são as Equações de Estmação Generalzadas (Generalzed Estmatng Esquatons - GEE) e os Modelos de Efetos Mstos. O método de GEE fo proposto por Zeger e Lang [3] e Lang e Zeger [4] com o objetvo de estmar parâmetros de regressão especalmente quando os dados estão correlaconados. Os autores basearam-se nos GLM s, nclundo uma estrutura de correlação de trabalho ( workng correlaton matrx) entre as observações para a obtenção de estmatvas consstentes e não vcadas. No modelo de efetos aleatóros, proposto por Lard & Ware [5], os coefcentes de regressão podem ser dferentes entre ndvíduos, consderando a heterogenedade exstente entre eles. Esse modelo tem dos componentes: um ntra-ndvíduo (uma mudança longtudnal ntra-ndvíduo é descrta pelo modelo de regressão com um ntercepto e nclnação populaconal) e outro entre ndvíduos (varação no ntercepto e nclnação ndvdual) [6]. A prncpal dferença entre estes métodos está no fato do GEE avalar a relação entre a varável resposta e as varáves predtoras em um contexto populaconal, e não ndvdual, enquanto o modelo de efetos aleatóros tem como foco o ndvíduo. Desse modo, quando se tem nteresse em avalar dversas meddas de um mesmo ndvíduo ao longo do tempo, e avalar seu crescmento ndvdual, é mas ndcado utlzar um modelo de efetos aleatóros. E, quando se estver nteressado em estudos epdemológcos, por exemplo, com o objetvo de 4

16 se estudar a dferença na resposta méda populaconal entre dos grupos com dferentes fatores de rsco, o GEE é o método mas recomendado [7]. Apesar da exstênca destes modelos e de eles estarem mplementados em dversos programas estatístcos, como SPSS, STATA, SAS e R, anda hoje é pouco comum encontrar artgos, especalmente no Brasl, que utlzem a modelagem adequada para dados correlaconados. Consderando o crescente número de estudos epdemológcos envolvendo observações correlaconadas, seja em estudos longtudnas ou em estudos envolvendo dados agrupados e os problemas que podem ocorrer com a utlzação da análse nadequada, este trabalho tem por objetvo apresentar a metodologa GEE, através de uma aplcação na análse de dados de mortaldade neonatal em gemelares (gêmeos, trgêmeos ou de ordem superor). 5

17 3. REVISÃO DE LITERATURA 3. MODELOS LINEARES GENERALIZADOS Em dferentes áreas de pesqusa, nclundo a área da saúde, é freqüente a stuação em que se deseja estudar o comportamento de uma varável resposta em relação a uma ou mas varáves ndependentes. As varáves ndependentes, também chamadas de predtoras ou explcatvas, são responsáves por explcar a varabldade da varável resposta, ou dependente. Para esses casos, técncas de modelagem são utlzadas, nas quas se ncluem os modelos de regressão. Incalmente os modelos de regressão foram desenvolvdos consderando a varável resposta com dstrbução normal. McCullagh e Nelder [8] sntetzaram o modelo lnear clássco consderando um vetor y de n observações ndependentes, y = ( y,..., yn )', que representa a varável resposta e uma matrz X de p varáves predtoras. Neste modelo, supõe- se que y segue dstrbução normal com méda, E( y ), e varânca, V( y ), dados por: E( y ) = µ = Xβ e V( y ) =σ, onde µ é um vetor n de médas, X é uma matrz um vetor p de parâmetros e σ é uma matrz dagonal n p de varáves ndependentes, β é n n de varâncas. Em 97, Nelder e Wedderburn [9] estenderam esse modelo para todos os membros da famíla exponencal, crando os Modelos Lneares Generalzados (Generalzed Lnear Models - GLM). Algumas dstrbuções de probabldade que pertencem à famíla exponencal são: normal, gama, Posson e bnomal. Uma mportante característca dos GLM s é a suposção de ndependênca, ou pelo menos de não correlação, entre observações. 6

18 3.. Formulação do Modelo Para formular um GLM é necessáro escolher: () Uma dstrbução de probabldade para a varável resposta, que deve pertencer à famíla exponencal de dstrbuções; () As varáves predtoras, que podem ser quanttatvas e/ou qualtatvas e (3) Uma função de lgação que rá relaconar as componentes aleatóra e sstemátca do modelo. (Ver secção 3..). Para melhorar a escolha da referda dstrbução de probabldade é aconselhável examnar os dados para observar algumas característcas, tas como: assmetra, natureza dscreta ou contínua, ntervalo de varação, etc. É mportante salentar que os termos que compõe a estrutura lnear do modelo podem ser de natureza quanttatva, qualtatva ou msta, e devem dar uma contrbução sgnfcatva na explcação da varável resposta. 3.. Componentes de um GLM De forma geral, a estrutura de um GLM é formada por três partes: () Componente aleatóra: composta de uma varável resposta y com n observações ndependentes, um vetor de médas µ e uma dstrbução de probabldade pertencente à famíla exponencal. () Componente sstemátca: composta por varáves explcatvas X,...,X p e pelos parâmetros desconhecdos. (3) Função de lgação: função monotônca dferencável que relacona as duas componentes anterores. 7

19 3... Componente Aleatóra Cada componente de y segue uma mesma dstrbução da famíla exponencal, ou seja, a função densdade de y é dada por: yθ b( θ ) f ( y ; θ; φ) = exp + c( y, φ), () a( φ) onde a(.), b(.) e c(.) são funções conhecdas; φ > 0 é denomnado parâmetro de dspersão e θ é denomnado parâmetro canônco que caracterza a dstrbução. Se φ é conhecdo, a equação () representa a famíla de densdades exponencas unparamétrcas ndexada por θ. Exemplo: Dstrbução Normal. f ( y ; θ, φ) = exp ( y µ ) yµ µ / y = exp + log( σ σ πσ σ πσ ) onde θ y θ = µ, φ = σ, a( φ) = φ, b(θ ) = e c(y, φ) = + log(πφ ). φ O quadro apresenta característcas de algumas dstrbuções da famíla exponencal. Quadro : Característcas de algumas dstrbuções da famíla exponencal. Modelo θ φ a( φ ) b(θ ) c(y,φ ) Lgação canônca θ(µ) Normal: N( µ, σ ) Bnomal: B(m,µ ) m Posson: P( µ ) µ σ µ log m µ σ m θ y - + log(πφ ) φ m θ log( + e ) log my Identdade: η = µ logt: µ η = log µ log µ exp(θ ) - log y! log: η = log µ 8

20 3... Componente sstemátca e função de lgação Consdere a estrutura lnear de um modelo de regressão η = Xβ, onde η = η,..., η )', β = β,..., β )' e X é a matrz de varáves ndependentes n p ( n ( p ( p < n ) conhecda de posto p. A função lnear η dos parâmetros desconhecdos β é chamada de predtor lnear. Como X p R e R β, então cada componente de η R. Através de uma função de lgação, g (.), adequada pode-se escrever a esperança da varável resposta, µ = E( y), em função das varáves explcatvas, X. Ou seja, para cada dstrbução da famíla exponencal exste uma função g (.), com contradomíno na reta real, tal que: g( µ ) = η, =,..., n Se cada componente de y segue uma dstrbução normal, então µ R e como η R, a função de lgação do tpo dentdade ( η = µ ) é plausível para modelar dados normas. Se cada componente de y tem dstrbução Posson, então µ > 0, e, portanto, a função de lgação adequada é a logarítmca ( η = log µ ), pos esta tem domíno postvo e contradomíno na reta real. No caso de cada componente de y assumr a dstrbução < bnomal, então 0 µ <. Logo, exste a restrção de que o domíno da função de lgação esteja no ntervalo ( 0; ). As três prncpas funções que garantem esta restrção são: µ () Logt (ou logístca): η = log µ () Probt: η = Φ (µ), onde Φ é a função de dstrbução acumulada da normal reduzda. (3) Complemento log-log: η = log[ log( µ )]. 9

21 Cada uma das dstrbuções apresentadas no quadro tem uma função de lgação especal para qual exste uma estatístca sufcente com gual dmensão de β assocada ao predtor lnear η = Xβ. Essas lgações são denomnadas lgações canôncas e ocorrem quando θ = η, onde θ é o parâmetro canônco defndo em () e apresentado no quadro Estmação Após escolher um determnado modelo, é necessáro estmar seus parâmetros e avalar a precsão das estmatvas. No caso dos GLM s, os parâmetros podem ser estmados através de dversos métodos, como o qu-quadrado mínmo, o Bayesano e a estmação-m [0]. O últmo nclu o método da máxma verossmlhança, onde os estmadores possuem propredades como consstênca e efcênca assntótca. Neste trabalho será apresentada somente a estmação pelo método.da máxma verossmlhança. Para obter as estmatvas dos parâmetros, deve-se maxmzar a função de verossmlhança, ou a função de log-verossmlhança, em relação aos parâmetros, supondo fxos os dados observados. Assm, consderando f ( y ; β ) a função densdade para y dado o parâmetro β, cuja forma é conhecda, mas o parâmetro β é desconhecdo, a função de logverossmlhança para a -ésma observação é defnda por: l( β ; y ) = log f ( y ; β ). A log-verossmlhança do vetor de observações ndependentes ( y,...,y n ) é a soma das contrbuções ndvduas, assm l( β ; y) = l( β ) = log f(y ; β. n = ) Nelder e Wedderburn [9] desenvolveram um algortmo para estmação dos parâmetros β através da máxma verossmlhança, baseado em um método muto semelhante ao de 0

22 Newton-Raphson, conhecdo como Método de Escore de Fsher. Este método consste em resolver o sstema l( β ) U( β j ) = = 0, j =,.., p. β j onde U (β ) é conhecda como função escore e l (β ) é a log-verossmlhança de β. Além dsso, utlza a matrz de nformação de Fsher K l( β ) U ( β ) = E = E β j β s β j, j =,.., p e s =,..,p. A partr daqu, os índces j e s serão omtdos para smplfcar a notação. Expandndo a função escore em sére de Taylor até prmera ordem, obtém-se: ( ) ( m) U ( β ) = U β m U( β ( m+ ) ( ) ( ) + [ β β ] = 0 m + ) m β ou β m ( m+ ) ( m) U( β ) ( m) = β U ( β ),, β onde o índce ( m ) sgnfca o valor da m-ésma teração. Este é o método de Newton- Raphson para o cálculo teratvo da estmatva de máxma verossmlhança βˆ de β. O método escore de Fsher é obtdo pela substtução de U( β ) pelo seu valor β esperado K. 3. MODELOS PARA DADOS CORRELACIONADOS Em mutas stuações, apesar dos sujetos estudados serem ndependentes, a nformação sobre uma determnada varável é coletada repetdas vezes ao longo do tempo, tornando as observações correlaconadas. É possível também que os sujetos dvdam característcas em

23 comum (por exemplo, estudantes de uma mesma escola, pacentes de um mesmo hosptal, pessoas que trabalham em um mesmo local, rmãos,...) e, portanto, não podem ser consderados ndependentes. Neste caso pode haver uma estrutura natural de correlação entre os sujetos. O prmero caso é conhecdo como meddas repetdas e, o segundo, como dados agrupados (clustered data). A correlação, nesses casos, pode ocorrer já que as observações fetas em um mesmo ndvíduo (estudos longtudnas) ou em pessoas de um mesmo grupo (dados agrupados) tendem a ser mas semelhantes do que observações de ndvíduos dferentes ou de grupos dferentes []. Os modelos tradconas de regressão têm uso lmtado em estudos longtudnas ou de dados agrupados devdo à suposção de ndependênca entre os sujetos. Este é o caso dos GLM s [8, 9]. Apesar deste ser um método poderoso e flexível, se for utlzado para dados correlaconados, é provável a obtenção de dstorções nas estmatvas dos parâmetros e de seus erros padrões, levando a nferêncas estatístcas ncorretas [3, 4,, ]. Quando a varável resposta tem dstrbução aproxmadamente normal, pode-se contar com város métodos estatístcos para dados correlaconados. Rao [3], Grzzle & Allen [4], e Hu [5] apresentaram métodos baseados em curvas de crescmento para modelar observações realzadas em um mesmo sujeto. Fearn [6] dscutu uma abordagem bayesana para modelos de curvas de crescmento. Harvlle [7] e Lard & Ware [5] desenvolveram modelos de efetos aleatóros nos quas assume-se que as observações repetdas de cada sujeto compartlham um mesmo componente aleatóro. Azzaln [8] apresentou modelos nos quas assume-se uma estrutura auto-regressva para o erro. Ware [9] apresentou uma revsão geral sobre modelos lneares para dados longtudnas gaussanos. Para dados com dstrbução não normal e correlaconados, exstem pelo menos duas abordagens estatístcas: as Equações de Estmação Generalzadas (Generalzed Estmatng

24 Equatons - GEE) [3] e os modelos de efetos aleatóros (um caso especal de modelos mstos ou de modelos multníves [5]). Estas técncas, ncalmente desenvolvdas para varáves resposta com dstrbução normal, foram estenddas para varáves com outras dstrbuções [0-]. O método de GEE fo proposto por Zeger e Lang [3] e Lang e Zeger [4] com o objetvo de estmar parâmetros de regressão especalmente quando os dados estão correlaconados. Os autores basearam-se nos GLM s, nclundo uma estrutura de correlação de trabalho entre as observações para a obtenção de estmatvas consstentes e não vcadas. No modelo de efetos aleatóros proposto por Lard & Ware [5] os coefcentes de regressão podem ser dferentes entre ndvíduos, consderando a heterogenedade exstente entre eles. Stratell, Lard, & Ware [], Anderson & Atkn [3], e Glmour, Anderson, & Rae [4] apresentam aplcações deste modelo para dados bnomas. Quando a varável resposta é de natureza contínua, há pouca dferença nos resultados apresentados por esses dos métodos [7]. Entretanto, se a varável resposta for dcotômca, eles podem apresentar resultados bem dvergentes. Neste caso, Twsk [7] aconselha a utlzação do GEE quando o nteresse for avalar a relação entre a varável resposta e as varáves predtoras em um contexto populaconal, e não ndvdual, e do modelo de efetos aleatóros se o foco for no ndvíduo. Neste trabalho será utlzada a notação para dados agrupados na defnção do GEE. Em estudos com famílas, o grupo é cada famíla e os ndvíduos são os membros da famíla. 3

25 3.3 EQUAÇÕES DE ESTIMAÇÃO GENERALIZADAS As Equações de Estmação Generalzadas (Generalzed Estmatng Equatons - GEE) [3, 4] foram desenvolvdas para produzr estmatvas mas efcentes e não vcadas para os parâmetros do modelo de regressão quando se lda com dados correlaconados, pos consdera a estrutura de correlação entre as observações. GEE é uma extensão dos GLM, sendo que não é necessáro assumr que a varável resposta seja da famíla exponencal. Assume-se, entretanto, que a méda e a varânca estão caracterzadas como em um GLM. O GEE estma coefcentes de regressão e erros padrões com dstrbuções amostras assntotcamente normas [3]. Pode ser utlzado para testar efetos prncpas e nterações, permtndo avalar varáves ndependentes categórcas ou contínuas. Este método deve ser utlzado quando o objetvo da análse estatístca é descrever a esperança da varável resposta em função de um conjunto de covaráves consderando a correlação entre as observações. Assm, Lang e Zeger [4] especfcaram a esperança da varável resposta como uma função lnear das covaráves, assumram a varânca como uma função conhecda da méda e defnram uma matrz de correlação de trabalho (workng correlaton matrx). Essas equações são extensões das utlzadas no método de quasverossmlhança [5], defndo na secção 3.3. (ver equação 5). Incalmente Zeger e Lang [3, 4] ntroduzram o conceto de GEE voltado para estmação somente da méda, no qual é necessáro especfcar corretamente apenas a estrutura do modelo de regressão, tratando os parâmetros de correlação como parâmetros de perturbação (nusance parameters). Posterormente, Prentce [6] descreve um segundo tpo de GEE, conhecdo por GEE, no qual a estmação da méda e da correlação ocorrem smultaneamente e, nesse caso, torna-se necessáro especfcar corretamente a estrutura de correlação, além do modelo para a méda. Zorn [7] adverte que se utlze o GEE somente 4

26 quando a estrutura de correlação de trabalho correta for conhecda, caso contráro os parâmetros estmados através do GEE podem não ser consstentes. Qu, Lndsay, e L [8] propuseram um método dferente para melhorar a efcênca com base em funções de nferênca quadrátcas. Os autores mostram que a sua abordagem, com a escolha adequada dos escores para as funções de nferênca quadrátcas, é mas efcente do que o GEE quando a matrz de correlação de trabalho não está bem especfcada. No entanto, esta abordagem não é mplementada nos programas estatístcos padrões. No presente trabalho será apresentada somente a metodologa proposta por Zeger e Lang [3, 4] Formulação do GEE Consdere n grupos de ndvíduos semelhantes, onde yj é a varável resposta de nteresse para o j-ésmo ndvíduo do -ésmo grupo e X j é um vetor p de covaráves para o j-ésmo ndvíduo do -ésmo grupo, =,..., n e j =,...,m. O valor de m pode varar de grupo para grupo. Defne-se, para o -ésmo grupo, o vetor m de respostas, y = ( y,...,y m )' e a matrz de covaráves m p, X = X,...,X m ). Para se escrever as Equações de Estmação Generalzadas supõe-se que: ( - A relação entre a méda da varável resposta, µ, e as varáves explcatvas X, pode ser expressa sob forma lnear através de uma função de lgação conhecda, g. Esta função é tal que: onde β é o vetor de p parâmetros. g( = X β, () µ ) - A varânca da varável resposta pode ser expressa por uma função conhecda da méda desta varável, ou seja, 5

27 V = f ( µ ) /φ, () onde φ é o parâmetro de dspersão defndo como na famíla exponencal. Nota-se que os autores defnem a relação entre a méda da varável resposta e as varáves explcatvas (equação ) e a relação entre varânca e a méda da varável resposta (equação ) da mesma manera que em um GLM. Lang e Zeger [4] defnem a estmatva de β como sendo a solução do sstema equações dferencas quas-escore dado a segur: U n k ) = D V S = 0 = onde, D = µ β e S = (y µ ). k (β k =,..., p. (3) Para utlzar essas equações para dados correlaconados, Lang e Zeger especfcaram uma matrz de correlação de trabalho ncorporada no termo de varânca da equação (). Consderando R ( ) tal matrz, com dmensão m m para cada y, onde α é um vetor que α caracterza completamente R ( ), a equação () torna-se uma matrz de covarânca para o - ésmo grupo: onde α A é uma matrz dagonal / / V = A R ( α )A / φ, (4) m m, com f ( µ ) como elementos da dagonal prncpal e φ é o parâmetro de escala para dstrbuções da famíla exponencal. Note que o número de observações e a matrz de correlação podem dferr de grupo para grupo. Porém, é possível assumr que R ( ) é completamente especfcado pelo vetor de parâmetros desconhecdos α, α que é o mesmo para todos os grupos [3]. Assm, será utlzado R( α ) para denotar qualquer matrz de correlação de trabalho. 6

28 Quando m =, ou no caso de haver ndependênca, o estmador do GEE equvale ao do GLM. É possível perceber que o GEE é uma extensão do GLM e, portanto, a nterpretação dos parâmetros estmados é semelhante a dos GLM. É mportante ressaltar que no GEE, apesar de observações pertencentes a um mesmo grupo possam estar correlaconadas, supõe-se que observações em grupos dferentes sejam ndependentes Função de Quas-verossmlhança A função de quas-verossmlhança fo proposta por Wedderburn em 974 [5] e posterormente reexamnada por McCullagh e Nelder em 983 [8]. Esta metodologa necessta de poucas suposções sobre a dstrbução da varável resposta e é de grande utldade quando se deseja obter estmadores dos parâmetros dos modelos de regressão, porém não se conhece a forma da dstrbução conjunta das observações. A função de quas-verossmlhança pode ser utlzada para estmação de forma semelhante à função de verossmlhança. Sua grande vantagem é necesstar apenas da especfcação da relação entre a méda e a varânca das observações, enquanto a verossmlhança necessta a especfcação da forma de dstrbução das observações. Dependendo da relação entre a méda e varânca especfcada, a função de quasverossmlhança pode se tornar uma função de verossmlhança conhecda. Para um membro da famíla exponencal unparamétrca, a função de log-verossmlhança é a mesma que a de quas-verossmlhança e pertencer a esta famíla é a suposção mas fraca que pode ser feta sobre a dstrbução. Para defnr a função de quas-verossmlhança, consdera-se y, =,...,n, observações ndependentes com médas µ e varâncas V( µ ), onde V é uma função conhecda. Suponha que cada observação µ é uma função conhecda de um conjunto de 7

29 parâmetros β,...,β p. Então para cada observação a função de quas-verossmlhança Q(y ; µ ) é defnda como: Q( y, µ ) y µ =. (5) µ V ( µ ) O quadro apresenta a função de quas-verossmlhança para algumas dstrbuções da famíla exponencal. Quadro : Função de quas-verossmlhança para algumas dstrbuções da famíla exponencal. Modelo µ (θ ) V ( µ ) Lgação canônca Q(y; µ) Lmtes Normal: N( µ, σ ) θ Identdade: η = µ ( y µ ) / - Bnomal: B(m,µ ) m Posson: P( µ ) e θ + e θ µ ( µ ) Logt: µ η = log µ µ y log + log( µ ) µ exp(θ ) µ Log: η = log µ y log µ µ 0 < µ > 0 y µ > 0 y 0 Em seu artgo, Wedderburn [5] demonstrou que a log quas-verossmlhança tem as seguntes propredades, semelhantes as da função de log verossmlhança, ou seja, Q () E = 0 µ Q () E = 0 β () (v) Q E µ Q = E = µ V( µ ) Q Q Q E E = = β β j β β j V( µ ) µ µ. β β j 8

30 3.3.3 Especfcação da matrz de correlação de trabalho Nesta secção serão defndas as possíves estruturas da matrz de correlação de trabalho. Como R (α ) representa a correlação entre as observações de um mesmo grupo, ajustada pelas covaráves presentes no modelo, os valores que α pode assumr estão no ntervalo [ ; + ] e a dmensão dessa matrz é determnada pelo número de observações fetas em cada grupo. Dentre as possíves estruturas de correlação, destacam-se a permutável, na qual consdera-se que a correlação entre as observações dos ndvíduos de um mesmo grupo é a mesma; a não estruturada, para a qual assume-se que entre cada observação dentro do grupo há um valor de correlação dferente; a auto regressva de prmera ordem, quando supõe-se que as meddas dentro do grupo têm uma relação auto-regressva de prmera ordem, usualmente utlzada quando os dados estão correlaconados ao longo do tempo e, no caso de ndependênca entre as observações, utlza-se a estrutura ndependente. No quadro 3, são apresentadas as possíves estruturas para essa matrz, fxando m = 4. Especfcar matrz de correlação de trabalho de forma correta aumenta a efcênca das estmatvas dos parâmetros do modelo [9], o que é partcularmente mportante quando a correlação entre as respostas for alta. Lang e Zeger [4] afrmam que o modelo é robusto a erros na especfcação na estrutura de correlação porque as estmatvas dos parâmetros de regressão permanecem consstentes e ressaltam que a efcênca ganha pela especfcação exata da estrutura de correlação é geralmente pequena. Entretanto, esta afrmação só é válda quando não há dados perddos (mssng) ou quando é possível assumr que eles são completamente aleatóros (MCAR). Além dsso, Ftzmaurce [9] adverte que, caso a matrz de correlação de trabalho especfcada não ncorpore toda a nformação sobre a correlação entre as meddas de um mesmo grupo, pode-se obter estmadores nefcentes. Desse modo, torna-se mportante escolher a estrutura de correlação mas aproprada para a análse. 9

31 Quadro 3: Defnção, exemplo e número de parâmetros estmados para cada tpo de estrutura de correlação de trabalho. Número de Estrutura Defnção Exemplo ( m = 4 ) parâmetros Independente Corr(Y j,y k, se j = k ) = 0, se j k 0 R( α ) = Permutável Corr(Y j,y k, se j = k ) = α, se j k α α α α α α R( α ) = α α α α α α AR() Corr(Y t j,y j + t ) = α, t = 0,,,3 α R( α ) = α 3 α α α α α α α 3 α α α M- dependente Corr(Y,Y, se t = 0 ) = t, se t =,,...,M 0, se t > M. j j+ t α α R( α ) = α 0 α α α α α α 0 α α 0 < M < m M = Não estruturada, se j = k Corr(Yj,Yk ) = α jk, se j k α R( α ) = α α 3 α α α 4 5 α α α 4 6 α 3 α 5 α 6 m( m ) Crtéros para seleção da estrutura de correlação de trabalho Dversos autores aconselham avalar a natureza dos dados para escolher a matrz de correlação mas adequada [30-33]. Estes autores fazem as seguntes recomendações: se o número de meddas no grupo é pequeno e os dados são balanceados e completos (todos os grupos com o mesmo número de ndvíduos), utlzar a matrz não estruturada; se as observações são coletadas ao longo do tempo, então deve-se utlzar uma estrutura que consdere a correlação em função do tempo (M-dependente, ou auto-regressva); se as 30

32 observações estão agrupadas (ou seja, sem ordem lógca), deve-se utlzar a estrutura permutável e se o número de grupos for pequeno, os autores ndcam a estrutura ndependente, com estmador robusto para varânca, como a melhor escolha [3, 33]. Quando os dados se enquadram em mas de uma das stuações ctadas anterormente, gerando dúvda sobre qual estrutura utlzar, pode-se optar por um crtéro estatístco para seleconar a estrutura de correlação mas adequada. Este crtéro é semelhante ao utlzado para seleconar as covaráves que rão compor o modelo. Pan [34] propôs um método de seleção de estrutura de correlação para GEE, semelhante ao AIC, mas consderando o fato de que as meddas possam ser correlaconadas. Este crtéro fo denomnado crtéro de quas-verossmlhança sob o modelo de ndependênca (Quas-lkelhood under the Independence model Crteron - QIC) e para a matrz de correlação R é defndo da segunte forma: QIC(R) = Q(βˆ(R);I, D ) + traço( ˆ Ω I Vˆ R ) onde Q é a quas-verossmlhança, βˆ (R) é o vetor de estmadores de quas-verossmlhança sob o modelo canddato com matrz de correlação R, I é a matrz dentdade, D são os dados observados, ˆ Q( β,i, D ) Ω β = ˆ I = β e Vˆ (R) é o estmador de covarâncas β β' robusto obtdo através do modelo contendo a matrz de correlação R. O QIC é calculado a partr da comparação de um modelo com uma determnada estrutura de correlação de trabalho com aquele gerado utlzando a estrutura ndependente. Os valores obtdos de QIC podem ser utlzados para comparar as dferentes estruturas de correlação. Do mesmo modo que para o AIC, quanto menor o valor do QIC, melhor o modelo. Algumas vezes ocorre de os valores do QIC não serem necessaramente muto dferentes. Nestes casos, Ballnger [3] recomenda que seja escolhdo o modelo mas adequado segundo a teora. 3

33 Mas recentemente, Hn e Wang [35] propuseram uma modfcação do QIC, o Crtéro de Informação de Correlação (Correlaton Informaton Crteron CIC) para aperfeçoar seu desempenho na escolha da estrutura de correlação de trabalho. Os autores mplementaram o CIC no R (anexo F). Dsponível também em Crtéros para seleção das varáves predtoras Para seleconar o melhor conjunto de varáves predtoras em um GLM utlza-se o crtéro de nformação de Akake (Akake s Informaton Crteron - AIC), que é baseado na máxma verossmlhança. Entretanto, no GEE em vez da verossmlhança é usada a quasverossmlhança, e, portanto, o AIC não pode ser utlzado. Para soluconar este problema, Pan [34] propôs um método de seleção de modelo para GEE, uma modfcação do QIC, o do modelo (sto é, recompensa a parcmôna). QIC C, uma versão corrgda que penalza a complexdade QICC = Q(g (X β (R))) + p onde Q é a quas-verossmlhança calculada sob o modelo de ndependênca, g é a função de lgação nversa do modelo, X é a matrz de covaráves, βˆ (R) é o vetor de estmadores de quas-verossmlhança sob o modelo canddato com matrz de correlação R e p = traço( ˆ Vˆ ). Ω I R Do mesmo modo que para o AIC e o QIC, quanto menor o valor do QIC C, melhor o modelo. 3

34 3.3.6 Estmação Estmação dos parâmetros do modelo Para obter βˆ, Lang e Zeger [4] sugerem um processo teratvo baseado no escore de Fsher modfcado e nas estmatvas de α e φ, obtdas através do método dos momentos (apresentadas nas secções e , respectvamente). Neste processo, alterna-se entre estmar β para valores fxos de φˆ e αˆ e estmar ( φ, α ) valores fxos de βˆ. O algortmo apresentado a segur pode ser utlzado para obter as estmatvas de β através do GEE:. Calcular a estmatva ncal de β, βˆ r, através do modelo GLM, assumndo ndependênca;. A partr da estmatva de β, calcular os resíduos padronzados, dados por: r = ( y ˆ µ ) / [ V ˆ ], (6) j j j B jj onde n Vˆ = D V D. B = Os resíduos padronzados são, então, utlzados para produzr estmatvas consstentes para α e φ consderando a suposta estrutura de R ;. Calcular uma estmatva para covarânca, através da equação (4), ou seja, / / V = A R ( α )A / φ ; v. Atualzar βˆ r : n n ˆ = ˆ µ ' µ µ ' β r + βr + V V ( Y µ ) ; (7) = β β = β v. Repetr os passos a 4 até obter convergênca. 33

35 Estmação de V( ˆ β ) Exstem duas maneras de estmar a varânca de βˆ, V[β ˆ ]. O método mas smples é utlzar um estmador baseado no modelo (model based ou nave estmator), que é consstente quando o modelo para méda e a estrutura de correlação, R (α ), forem corretamente especfcados. Como geralmente não se conhece a estrutura de correlação correta, é mas ndcado utlzar um estmador empírco, também conhecdo por estmador robusto ou estmador sanduíche. O estmador baseado no modelo utlza a matrz de nformação observada sob a suposção de uma determnada correlação e é defndo, para o -ésmo grupo, por: [ V ] B = D' V D = X ' A (A / R ( α) A / ). (8) A X ' O estmador robusto ou estmador sanduíche agrega à equação (8) uma matrz de nformação, M, que utlza resíduos empírcos, C, para estmar a matrz de covarânca ntra-grupo. A matrz M é dada por: M = D' V C V D = = X' A (A / / / α ) A ) C (A R ( α ) R ( A / ) A X' (9) onde C = (y µˆ )(y µˆ ). O estmador robusto é obtdo avalando todas as expressões sob o estmador βˆ e os respectvos valores de covaráves, sto é, n n [ Vˆ ] Mˆ [ Vˆ ] n B B. (0) = = = V(βˆ) = Este estmador é um estmador consstente da matrz de covarânca de βˆ, mesmo quando a estrutura de correlação de trabalho não estver bem especfcada. Entretanto, é mportante ressaltar que, por ele ser um estmador assntótco, suas propredades são 34

36 garantdas somente quando o número de grupos é grande. Quando este número for pequeno ( < 0 ) o estmador de varânca baseado no modelo pode apresentar propredades melhores [6], mesmo se a especfcação da matrz de covarânca de trabalho estver errada. Isto ocorre já que o estmador de varânca robusto é assntotcamente não vcado, mas pode se tornar altamente vcado quando o número de grupos é pequeno Estmação da matrz de correlação de trabalho Nos casos da estrutura fxa e da ndependente não é necessáro estmar os parâmetros da matrz de correlação de trabalho. Os estmadores de α para cada uma das demas estruturas de correlação de trabalho envolvem os resíduos de Pearson, e j, e o parâmetro de dspersão φ e são apresentados no quadro 4. Quadro 4: Estmadores para α de acordo com o tpo de estrutura de correlação de trabalho. Estrutura Estmador para α Permutável αˆ = (N* p) φ n = j k e j e k, onde N * = m (m ) n = AR() αˆ t = (K p) φ n j = j m e e, j +, onde K = (m ) n = M-dependente αˆ t = (K t p) φ n e j = j< m t e, j + t, onde K t = (m t) n = Não estruturada αˆ jk = (K p) φ n = e j e k yj µˆ j Onde ej = são os resíduos de Pearson e [ / jj {[Vˆ ] } Vˆ ] é o j-ésmo elemento da dagonal da matrz Vˆ. jj 35

37 Estmação do Parâmetro de dspersão A estmatva para o parâmetro de dspersão φ é obtda através de n m ˆφ = ej, N p = j= onde n m = N = é o número total de observações e p é o número de parâmetros de regressão Teste de hpóteses para os parâmetros do modelo Usualmente, para testar a hpótese de que os coefcentes estmados pelo modelo são guas a zero, é utlzada a estatístca de Wald proposta por Rotntzky e Jewell [36], defnda por onde a matrz de varâncas T = K( ˆ γ γ )' (Vˆ ) ( ˆ 0 R γ γ ). W 0 Vˆ R é uma estmatva de varânca que ncorpora a estrutura de correlação dentro dos grupos. Esta estatístca tem dstrbução qu-quadrado com graus de lberdade gual para o número de parâmetros que são testados. Pode ser utlzada para testar a sgnfcânca de um só parâmetro ou város parâmetros. Em casos nos quas a matrz de varâncas robusta não possa ser nvertda, quando houver menos covaráves do que observações por grupo, um teste de Wald de trabalho está dsponível e é calculado usando o nverso da matrz de varânca baseada no modelo [3] R margnal Devdo ao fato de não haver ndependênca entre as observações, os resíduos também não são ndependentes. Logo, métodos baseados na verossmlhança e as meddas de ajuste modelo de regressão lnear precsam ser adaptados. Zheng [37] ntroduzu uma extensão do R para GEE em modelos com varável resposta contínua, bnára, ou de contagem, 36

38 denomnado valor do R margnal. É necessáro calcular os valores predtos pelo modelo para obter o R m. Estes valores são comparados com os valores observados e dvddos pela soma de quadrados dos desvos das observações em relação a méda da varável de resposta. O é dado por: m m m ( y ˆ j yj ) j= = R =, m m ( ) yj y j= = R m onde m n y = mn j= = y t é a méda margnal sobre todos os grupos. O R m, da mesma manera como o R, é nterpretado como o quanto da varânca da varável resposta é explcada pela varabldade do modelo ajustado [3]. Ele tem as mesmas propredades que o R para modelos de regressão, com a exceção de poder assumr valores nferores a zero quando o modelo ajustado produz estmatvas pores do que o modelo somente com o ntercepto. Quando m =, R m = R. Zheng [37] enfatza que a matrz de covarânca do GEE não é explctamente ncluída no cálculo desta estatístca. Atualmente o R m não está dsponível em programas estatístcos Técncas de dagnóstco para GEE Após escolher as varáves que compõe o modelo, deve-se verfcar se o modelo é efcente para descrever a relação entre as varáves predtoras e a varável resposta. Para dentfcar a ocorrênca de observações atípcas, são utlzadas as técncas de dagnóstco. Estas técncas também verfcam se as suposções do modelo estão bem satsfetas, se há presença de outlers e se o modelo está bem ajustado de acordo com as suas covaráves. 37

39 Como menconado anterormente, o fato de não haver ndependênca entre as observações faz com que os resíduos também não sejam ndependentes e, por sso, é necessáro adaptar as técncas de dagnóstco utlzadas nos GLM para o GEE Análse de resíduos Uma das técncas de dagnóstco mas utlzadas para modelos de regressão é a análse de resíduos. Um resíduo pode ser defndo como a dstânca entre o valor estmado e seu correspondente valor observado da varável dependente [38]. O prncpal objetvo da análse de resíduos é dentfcar casos para os quas as estmatvas do modelo se dstancem muto dos valores observados. Os resíduos de Pearson no GEE são defndos do segunte modo: e j yj µˆ j =, / {[Vˆ ] } jj onde [ Vˆ ] jj é o j-ésmo elemento da dagonal da matrz Vˆ. Chang [39] sugere avalar o gráfco de dspersão dos resíduos versus cada tempo de segumento (em estudos longtudnas) conjuntamente com o resultado do teste de Wald- Wolfowtz, defndo a segur Teste não paramétrco para aleatoredade dos resíduos Chang [39] ndca a utlzação do teste de Wald-Wolfowtz (Wald-Wolfowtz run test) para auxlar na detecção de padrões de não-aleatoredade nos resíduo. O teste codfca os resíduos em postvos (+) ou negatvos (-). A seqüênca de códgos é, então, analsada e é calculado o número total de repetções para cada um dos dos códgos. Este cálculo não consdera o tamanho da repetção. Uma repetção é defnda como uma seqüênca de snas guas. Por exemplo, a seqüênca contém um total de quatro repetções. 38

40 Para executar o teste, consdere T o número de repetções em uma seqüênca de n p resíduos postvos e de n n resíduos negatvos. Sob a hpótese nula de que os snas dos resíduos estão dstrbuídos em uma seqüênca aleatóra, tem-se que a esperança de T é dada por: npnn E(T ) = +. n + n E sua varânca é dada por: n pnn( n pnn n p nn ) V(T ) =. ( n + n ) ( n + n ) p n p n p n A estatístca do teste é T E(T ) Z =, que segue dstrbução normal padrão sob a V(T ) hpótese nula. Para valores absolutos altos de Z rejeta-se a hpótese de que os resíduos estão em seqüênca aleatóra, sugerndo que o modelo deve ser modfcado a fm de melhor refletr a estrutura subjacente dos dados. Como este teste depende da ordem na qual estão dspostos os resíduos, Hardn e Hlbe [3] sugerem ordenar os resíduos pelo número de dentfcação dos grupos e pela ordem das observações dentro do grupo. Os autores ressaltam que o resultado obtdo através deste teste não vara muto para estruturas de correlação dferentes se o modelo nclur as varáves necessáras. Desse modo, eles sugerem a utlzação deste teste para avalar a adequação do modelo quanto às covaráves ncluídas, e o QIC para avalar a adequação do modelo quanto à estrutura de correlação. Este teste pode ser obtdo no SPSS, utlzando o run test, através do qual avala todos os ndvíduos estudados ou através do teste de Wald-Wolfowtz, no qual é possível comparar dos grupos. 39

41 Outras técncas de dagnóstco para GEE Outras técncas de dagnóstco descrtas para os GLM foram adaptadas para o GEE por Presser e Qaqsh em 996 [40]. Os autores apresentaram técncas de dagnóstco baseadas na dstânca de Cook [4], DFBETAS e DFFITAS [4] para GEE, com o objetvo de medr a nfluênca de um subconjunto de observações, tanto sobre os parâmetros estmados, como sobre os valores do predtor lnear. Estas técncas trabalham com a exclusão de uma observação (observaton-deleton dagnostc) ou de um conjunto de observações, geralmente um grupo ntero (cluster deleton dagnostc), para avalar seu mpacto nas estmatvas dos parâmetros do modelo. No ste do John Presser ( está dsponível um macro do SAS baseado nas técncas de dagnóstco para GEE propostas por Presser & Qaqsh [40]. 3.4 SISTEMAS DE INFORMAÇÃO EM SAÚDE Através de Sstemas de Informação em Saúde é possível obter nformações acerca da saúde da população. Com os dados dsponíves nestes sstemas, é possível acompanhar a evolução populaconal do país proporconando subsídos para mplementar polítcas públcas e montoramento do exercíco da cdadana [43]. As nformações sobre nascdos vvos e sobre mortaldade são mportantes para o planejamento e a avalação das ações de saúde da crança no Sstema Únco de Saúde (SUS), pos são usados no cálculo de város ndcadores de saúde, entre os quas os coefcentes de mortaldade nfantl e materna. O Mnstéro da Saúde gerenca, entre outros, o Sstema de Informações sobre Mortaldade (SIM) [44], que possu nformações sobre os óbtos ocorrdas 40

42 no País; e o Sstema de Informações sobre Nascdos Vvos (SINASC) [45], que oferece nformações sobre os nascmentos regstrados no País Sstema de Informação sobre Mortaldade (SIM) O Sstema de Informação sobre Mortaldade (SIM) fo crado pelo Mnstéro da Saúde em 975 para a consoldação regular de dados naconas sobre mortaldade. O SIM proporcona a produção de estatístcas de mortaldade e a construção dos prncpas ndcadores de saúde. A análse dessas nformações permte estudos não apenas do ponto de vsta estatístco e epdemológco, mas também sóco-demográfco. O SIM é gerencado pela Secretara de Vglânca em Saúde (SVS/MS) e utlza a Declaração de Óbto (DO) como nstrumento padronzado de coleta de dados. O formuláro da DO (Anexo D) possu três vas: a prmera é encamnhada à secretara muncpal de saúde e a partr dela são armazenados os dados do SIM; a segunda é entregue à famíla, que deve levá-la ao cartóro para o regstro de óbto; a tercera fca arquvada no prontuáro do servço de saúde onde ocorreu o óbto [46]. Após o encamnhamento à secretara muncpal de saúde, as DOs são codfcadas e transcrtas para um sstema nformatzado. O Centro Naconal de Epdemologa (Cenep - Funasa) consolda os dados e os dsponblza através do Departamento de Informátca do SUS (DATASUS) va Internet ou em CD-ROM. Quando ocorre óbto de cranças com dade nferor a um ano, o SIM fornece nformações sobre característcas maternas (dade, escolardade, número de flhos vvos tdos anterormente), do ndvíduo (data de ocorrênca do óbto, peso ao nascer, sexo, índce de Apgar meddo no prmero e no qunto mnuto de vda), da gestação (duração da gestação, tpo de gravdez únca, gêmeos, trgêmeos ou ordem superor - e número de consultas de pré-natal) e geográfcas (local e estabelecmento da ocorrênca do óbto; endereço/barro de 4

43 resdênca da crança; endereço/barro de resdênca da mãe (quando óbto fetal), além do tpo de óbto (fetal ou não fetal), causa de óbto (utlzando a 0ª Revsão da Classfcação Internaconal de Doenças - CID-0, a partr de 996 e anterormente, a 9ª Revsão - CID-9)). Mas detalhes sobre o preenchmento da DO e o funconamento do SIM podem ser obtdos nos manuas de preenchmento e procedmento edtados pela Secretara de Vglânca em Saúde, dsponíves nas secretaras estaduas e muncpas de saúde e também no ste Sstema de Informação sobre o Nascdo Vvo (SINASC) O Mnstéro da Saúde mplantou o Sstema de Informações sobre Nascdos Vvos (SINASC) em 990 com o objetvo de reunr nformações epdemológcas referentes aos nascmentos ocorrdos em todo terrtóro naconal. Sua mplantação ocorreu de forma lenta e gradual em todas as undades da Federação. No muncípo de Porto Alegre, a mplantação do SINASC pela Secretara Muncpal de Saúde de Porto Alegre ocorreu no ano de 993. Atualmente, ele é processado pela Equpe de Informação em Saúde na Coordenação Geral de Vglânca Santára (EIS/CGVS) que anualmente atualza o sstema. Seu prncpal nstrumento é a declaração de nascdo vvo (DN). É mportante ressaltar que, desde a mplantação do SINASC, fo adotada uma defnção únca para nascdo vvo, sendo ela: a expulsão ou a extração completa de um produto da concepção do corpo materno, ndependentemente da duração da gestação, o qual, depos da separação do corpo materno, respre ou dê qualquer outro snal de vda, tas como: batmento cardíaco, pulsação do cordão umblcal ou movmentos efetvos dos músculos da contração voluntára, estando cortado ou não o cordão umblcal e estando ou não desprendda a placenta [43]. 4

44 O formuláro da DN (Anexo C) possu três vas: a prmera deve ser encamnhada ou recolhda pela secretara muncpal de saúde; a segunda, entregue à famíla, que a levará ao cartóro para o pertnente regstro de nascmento; a tercera deve fcar arquvada no prontuáro do servço de saúde responsável pelo parto [46]. O preenchmento da DN deve ocorrer logo após o nascmento, no servço onde ocorreu o parto, por um profssonal de saúde adequadamente trenado. No caso de partos domclares com assstênca médca, a DN deve ser preenchda por um profssonal de saúde que encamnhará sua prmera va para a obtenção da certdão de nascmento no Cartóro de Regstro Cvl (que reterá o documento). Se o parto fo domclar, assstdo por partera tradconal, esta deverá nformar tal fato ao servço de saúde ao qual está vnculada o qual preencherá a DN e dstrburá as três vas conforme o processo anterormente descrto [46]. Mas detalhes sobre o preenchmento da DN e o funconamento do SINASC podem ser obtdos nos manuas de preenchmento e procedmento edtados pela Secretara de Vglânca em Saúde, dsponíves nas secretaras estaduas e muncpas de saúde e também no ste A mplementação do SINASC tornou possível, em nível populaconal, a caracterzação dos nascdos vvos do ponto de vsta demográfco e epdemológco, a partr de dados secundáros. O SINASC fornece nformações sobre característcas maternas (dade, escolardade, número de flhos vvos tdos anterormente), do recém nascdo (data de ocorrênca do nascmento, peso ao nascer, sexo, índce da Apgar meddo no prmero e no qunto mnuto de vda), da gestação (duração da gestação, tpo de gravdez - gêmeos, trgêmeos ou ordem superor - e número de consultas pré-natal), do parto e geográfcas (local - hosptal, outros estabelecmentos de saúde, domcílo, outros - e estabelecmento da ocorrênca do parto). 43

45 Como mutas nformações presentes na DN também estão regstradas na DO é possível a obtenção de coefcentes específcos de mortaldade nfantl, necessáros para análses mas mnucosas, na área de saúde materno-nfantl [47]. Para que os resultados obtdos possam ser consderados confáves, é necessáro avalar as lmtações do sstema, dentfcando o quão fdedgnas e representatvas são as nformações coletadas e dsponblzadas. Neste sentdo, é mportante ressaltar estudos que têm procurado avalar a efcáca do SINASC em coletar os nascmentos ocorrdos, bem como a qualdade de seus regstros [48, 49]. Nesse sentdo, os pesqusadores buscam avalar a cobertura obtda pelo sstema, quantfcar o sub-regstro e verfcar o percentual da nformação gnorada [47, 50]. Szwarcwald et al [5] verfcaram que a Regão Norte é a que possu as maores defcêncas, com 63% dos muncípos com notfcação nadequada (35% da população da regão), seguda da Nordeste (9% da população). Já na Regão Sul, somente % da população apresenta grande precaredade dos dados de óbtos. A qualdade dos dados regstrados no SIM tem melhorado nos últmos anos, e sua cobertura tem sdo bem próxma de 00% nas regões Centro-Oeste, Sudeste e Sul do país [5]. No muncípo de Porto Alegre, através da Equpe de Informação em Saúde da Coordenação Geral de Vglânca Santára (EIS/CGVS) da Secretara Muncpal de Saúde, exste uma excepconal qualdade dos dados do SINASC e do SIM [53]. Nesse sentdo, cada Declaração de Óbto (DO) é avalada e nvestgada em relação a sua causa de óbto correlaconando-se com outros sstemas de nformação: SINASC e Sstema de Informação de Atenção Básca (SIAB), além da pesqusa de nformações em prontuáros hosptalares, quando necessáro. 44

46 3.5 ENCADEAMENTO DE ARQUIVOS A utlzação smultânea do SIM e do SINASC permte o estudo da mortaldade nfantl e de seus componentes segundo varáves comuns à DN e à DO. Para sso, é necessáro relaconar os regstros destes dos bancos de dados. A técnca de encadeamento de arquvos (lnkage) pode ser utlzada tanto para agregar dados de um mesmo ndvíduo provenentes de duas bases de dados dstntas, como para dentfcar regstros duplcados em um mesmo banco de dados. Através de um dentfcador únco ou de algumas varáves em comum é possível dentfcar ndvíduos ou regstros que fazem parte de dos bancos de dados [54], e, então, fazer o encadeamento destes arquvos. Uma das prncpas vantagens do encadeamento de arquvos é possbltar a realzação de estudos analítcos longtudnas com baxo custo. Exstem dos tpos de encadeamento de arquvos: o determnístco, baseado na concordânca exata, e o probablístco, no qual são utlzados modelos estatístcos para classfcar pares de regstros e através dos quas é possível mensurar o grau de concordânca entre dos regstros em bancos de dados dstntos [55]. Espera-se que regstros pertencentes ao mesmo ndvíduo tenham grau de concordânca maor em um conjunto de varáves, quando comparados a regstros que pertençam a dferentes ndvíduos. Quando cada ndvíduo pode ser dentfcado nos dos bancos através de um campo dentfcador únco (por exemplo: CPF, número de cartão de saúde), utlza-se o método determnístco. Na ausênca deste dentfcador, o relaconamento pode ser executado empregando-se o método probablístco. Este últmo basea-se na utlzação conjunta de campos comuns presentes em ambos os bancos de dados (por exemplo: nome, data de nascmento, sexo), com o objetvo de dentfcar, através de modelos estatístcos, o quanto é provável que um par de regstros se refra a um mesmo ndvíduo [55-57]. 45

47 Através desta técnca, Almeda e Mello Jorge [54] assocaram os dados do SINASC com os dados de óbtos do Sstema de Informações sobre Mortaldade (SIM) do muncípo de Santo André, em São Paulo, para avalar a possbldade do uso do relaconamento de regstros para o estudo da mortaldade neonatal. As autoras ressaltaram a vabldade do uso da técnca, mas chamam atenção para a necessdade de uma maor exatdão no preenchmento da DN, uma vez que detectaram a presença de Declaração de Óbto de cranças, sem que antes houvesse sdo emtda a Declaração de Nascdo Vvo. Machado e Hll [58] também utlzaram o relaconamento de regstros para assocar, de forma probablístca, os dados de nascmentos e óbtos da cdade de São Paulo para a coorte de 998, com o objetvo de analsar os determnantes da mortaldade nfantl. O encadeamento de bases de dados vem sendo crescentemente utlzado para a montorzação de desfechos em estudos de coorte [54, 58]. Também pode ser utlzado na vglânca epdemológca [59] e na melhora da qualdade e quantdade de dados dsponíves em estudos que empregam fontes de dados secundáros [60]. Insttuções e pesqusadores naconas e nternaconas têm desenvolvdo e aperfeçoado estratégas de encadeamento de arquvos [6-63]. Apesar das vantagens da utlzação do encadeamento de arquvos, é mportante ressaltar que mutas vezes os dados secundáros utlzados não possuem qualdade muto elevada. É mportante avalar a qualdade dos dados de dentfcação e sóco-demográfcos, como, por exemplo, nome da mãe, data de nascmento e sexo. Essas varáves são mprescndíves para o bom funconamento do lnkage quando não há um número de dentfcação nos dos sstemas ou quando este se encontra duplcado. Em uma revsão sobre relaconamento de bases de dados [64] foram encontrados artgos que relatavam problemas de qualdade dos dados, como erros ortográfcos e de dgtação; dados como data de nascmento e sexo sem nformação e pacentes com mesmo nome e mesmo número de prontuáro, porém, 46

48 datas de nascmento muto dferentes. Fernandes [65] ndca que o uso do SINASC é mas efcente do que a coleta de nformação no cartóro para obtenção de dados que não estão preenchdos no SIM. Neste trabalho, a fm de unfcar os dados do SIM e do SINASC e dentfcar os grupos de rmãos, serão utlzadas as duas abordagens de encadeamento de arquvos. O método determnístco será utlzado para relaconar (quando possível) os regstros de cada banco pelo número da DN. O método probablístco será utlzado em dos momentos: () para relaconar cada óbto do SIM com o correspondente nascmento no SINASC utlzaramse três varáves (nome da mãe, data de nascmento e sexo), sendo posterormente avalado se o peso era o mesmo para evtar troca de nformações entre rmãos e () para dentfcar grupos de rmãos, foram utlzadas duas varáves (nome da mãe e data de nascmento). A escolha das varáves fo baseada no estudo de Quantn et al [66]. Os autores avalaram uma sére de varáves com o objetvo de dstngur quas seram as melhores a serem utlzadas como dentfcadores no encadeamento probablístco e elegeram como dentfcadores mas aproprados o nome da mãe e data de nascmento. 3.6 MORTALIDADE INFANTIL A mortaldade nfantl tem sdo freqüentemente apontada como ndcador sensível da qualdade de vda de uma população ([67] apud [68], [69]), determnada em sua dmensão mas ampla pelas condções socas, econômcas e culturas dos ndvíduos e da comundade a qual pertencem. A Taxa de Mortaldade Infantl (TMI) é uma estmatva do rsco de morte a que está exposta uma população de nascdos vvos em uma determnada área e período, antes de 47

49 completar o prmero ano de vda. É consderado um ndcador sensível das condções de vda e saúde de uma comundade [67]. É calculado da segunte forma: número de óbtos de menores de ano em determnada área e período TMI =.000. número de nascdos vvos na mesma área e período Para uma melhor avalação da mortaldade nfantl é possível dvdr a taxa de mortaldade nfantl em dos componentes, de acordo com a dade na qual ocorreu o óbto: a) Taxa de Mortaldade Neonatal (ou precoce): expressa a proporção de óbtos de cranças nascdas vvas com dade entre 0 e 7 das (nclusve) em relação ao total de nascdos vvos em uma determnada área e período; número de óbtos de crançasde 0 a 7 das em determnada área e período TMN =.000. número de nascdos vvos na mesma área e período b) Taxa de Mortaldade Pós-Neonatal (ou tarda): expressa a proporção de óbtos em cranças nascdas vvas com dade entre 8 e 364 das (nclusve) em relação ao total de nascdos vvos em uma determnada área e período. número de óbtos de crançasde 8 a 364 das em determnada área e período TMPN =.000. número de nascdos vvos na mesma área e período O rsco de morte vara ao longo do prmero ano de vda, prncpalmente quando se consderam as causas de óbto e seus fatores determnantes. Por sso, é mportante analsar esses dos coefcentes separadamente, uma vez que no período neonatal predomnam as causas de 48

50 óbto lgadas a problemas da gestação e do parto (afecções pernatas e anomalas congêntas). Medronho et al [68] apontam como fatores de grande mportânca na determnação da mortaldade nfantl neonatal a cobertura e a qualdade da assstênca pré-natal e pernatal. Já no período pós-neonatal, prevalecem as causas de óbto relaconadas ao meo ambente e às condções de vda e de acesso aos servços de saúde (doenças nfeccosas, pneumonas, darréa, por exemplo). Rouquayrol et al [70] avalam que ao se comparar dferentes países, verfca-se que quanto melhor o nível de saúde, menor a proporção de óbtos pós-neonatas. Também está demonstrado que, para uma mesma regão ou país, ao se organzar uma sére hstórca dos índces de mortaldade nfantl, desdobrados em seus componentes neo e pósneonatal, exste uma tendênca de aumento progressvo da proporção de óbtos neonatas, cujas causas são de controle mas dfícl e complexo. Dessa forma, nos países desenvolvdos, onde a mortaldade nfantl é baxa e problemas relaconados ao meo ambente já se encontram quase totalmente resolvdos, o componente neonatal predomna, enquanto em mutos países pobres anda prevalece o componente pós-neonatal [70]. Partcularmente no Brasl, a redução da mortaldade nfantl anda é um desafo. Apesar da tendênca mundal e naconal de declíno do componente pós-neonatal [7], os índces contnuam elevados, pos sua redução encontra obstáculos no componente neonatal, o que pode estar refletndo as desgualdades socas, a cobertura e a qualdade da assstênca à saúde. Em 990, a proporção de óbtos neonatas anda era menor do que a de pós neonatas nas regões Norte e Nordeste do País. Já no ano 000 pelo menos 60% dos óbtos nfants ocorreram no período neonatal em todas as regões brasleras [70]. 49

51 3.7 GESTAÇÕES MÚLTIPLAS E MORTALIDADE A gestação múltpla é defnda pela exstênca de mas de um feto durante a gravdez. Esta gestação pode ter como desfecho dos (gêmeos), três (trgêmeos) ou anda, um número superor de recém-nascdos. Estudos com gêmeos sempre foram consderados de grande valor no aprendzado da etologa de doenças, especalmente por possbltarem a separação de efetos ambentas e genétcos. Segundo Carln e colaboradores [], rmãos gêmeos são de especal nteresse por serem ndvíduos naturalmente pareados, com os quas é possível realzar análses controladas por um grande número de confunddores compartlhados por eles. Hstorcamente, a gestação múltpla tem sdo relaconada com o aumento do rsco da morbdade e mortaldade no período neonatal e também por um subseqüente atraso no crescmento e desenvolvmento nfantl [7, 73] apud [74]. A taxa de nascmentos múltplos tem aumentado nos últmos anos, tanto em países desenvolvdos [75-78] como em países em desenvolvmento [79]. Um estudo realzado na Inglaterra [78] aponta para um aumento de aproxmadamente 5% nas taxas de gêmeos entre 980 e 993, mostrando anda que as taxas de trgêmeos ou de ordem superor dobraram. Nos Estados Undos, ente 980 e 997, fo observado um aumento mas elevado nessas taxas, sendo superor a 50% para gêmeos e em torno de 400% para trgêmeos [76]. Em Porto alegre, fo observado um aumento de aproxmadamente 30% nas taxas de nascmentos múltplos (de,95% em 994 fo para,53% em 005) [79]. Esse aumento tem sdo atrbuído prncpalmente a dos fatores: () uso da estmulação ovarana e da fertlzação n vtro; e () aumento da dade materna.[80-8]. Apesar de representarem apenas % a % de todos os nascmentos, os nascmentos múltplos estão assocados ao nascmento pré-termo, ao baxo peso ao nascer e a maores índces de morbdade e mortaldade pernatal [78] e neonatal [83]. Dentre as complcações 50

52 obstétrcas assocadas com a gestação gemelar estão o aumento da ncdênca de hpertensão nduzda pela gravdez, a hemorraga anteparto (antepartum), o parto prematuro e a necessdade de cesárea. Problemas neonatas assocados à gemelardade ncluem baxo peso ao nascer e aumento da prevalênca de malformações congêntas [78]. Estudos sugerem que a taxa de mortaldade nfantl é maor para gestação múltpla (gêmeos ou trgêmeos ou de ordem superor) do que em uma gestação únca [78, 84]. Além dsso, verfca-se um aumento substancal na ncdênca de morbdades e mortaldade na medda em que aumenta o número de fetos no útero [85]. Porém, este aumento na ncdênca de mortaldade e morbdade neonatal ocorre devdo, prncpalmente, às complcações assocadas com o nascmento de pré-termo destas cranças [85]. Estes autores mostraram que o nascmento pré-termo é um fator de rsco mportante para desfechos neonatas e que a dade gestaconal é nversamente proporconal ao número de fetos por gestação. Martn e Park [86] mostraram que 90% dos trgêmeos nascem pré-termos, e que trgêmeos e nascmentos de ordem superor tem vezes a chance de morrer durante o prmero ano de vda quando comparados aos nascmentos úncos. Huang verfcou que a chance de óbto em um trgêmeo aumenta com o aumento do número de rmãos mortos na mesma gestação []. Pelas suas repercussões na morbmortaldade nfantl, os nascmentos múltplos tornaram-se um tema mportante na área da saúde públca. Fetos de uma mesma gestação estão sujetos a condções semelhantes no útero e são afetados mas ou menos gualmente pelas mesmas característcas maternas. Isso faz com eles sejam mas semelhantes do que os fetos de gestações dferentes [87] e, conseqüentemente, suas respostas são susceptíves a estarem correlaconadas uma com a outra. Em estudos com gêmeos, a probabldade de um resultado negatvo, tal como a morte neonatal e pernatal, por um dos gêmeos aumenta se o co-gêmeo também apresentou esse resultado []. Ananth e Presser [88] sugerem que uma gravdez múltpla como a de gêmeos e trgêmeos seja um conglomerado natural em que as 5

53 respostas dos fetos são nterdependentes ou agregadas. Desse modo, não é possível utlzar as metodologas tradconas de regressão, que supõe ndependênca entre os ndvíduos observados. Consderando esta tendênca de aumento da taxa de gemelardade e seu mpacto na mortaldade nfantl e seus componentes, faz-se necessáro à utlzação de uma metodologa adequada para avalar desfechos em gemelares. 5

54 4. OBJETIVO Apresentar a metodologa de Equações de Estmação Generalzadas, através de uma aplcação na análse de dados de mortaldade neonatal em gemelares. 53

55 5. REFERÊNCIAS BIBLIOGRÁFICAS [] Huang JS, Lu SE, Ananth CV. The clusterng of neonatal deaths n trplet pregnances: applcaton of response condtonal multvarate logstc regresson modes. J Cln Epdemol. 003;56():0-9. [] Ftzmaurce G. Clustered data. Nutrton. 00;7(6): [3] Zeger SL, Lang KY. Longtudnal data analyss for dscrete and contnuous outcomes. Bometrcs. 986;4():-30. [4] Lang KY, Zeger SL. Longtudnal data analyss usng generalzed lnear models. Bometrka. 986;73():3-. [5] Lard NM, Ware JH. Random-effects models for longtudnal data. Bometrcs. 98;38(4): [6] Fausto MA, Carnero M, Antunes CMF, Pnto JA, Colosmo EA. O modelo de regressão lnear msto para dados longtudnas: uma aplcação na análse de dados antropométrcos desbalanceados. Cad Saúde Públca. 008;4(3):53-4. [7] Twsk JW. Longtudnal data analyss. A comparson between generalzed estmatng equatons and random coeffcent analyss. Eur J Epdemol. 004;9(8): [8] McCullagh P. Generalzed Lnear Models: Chapman and Hall 983. [9] Nelder JA, Wedderburn RWM. Generalzed lnear models. J R Stat Soc (Seres A). 97;35(3): [0] Cordero GM, Demétro CGB. Modelos Lneares Generalzados. Santa Mara: o SEAGRO 007. [] Carln JB, Gurrn LC, Sterne JA, Morley R, Dwyer T. Regresson models for twn studes: a crtcal revew. Int J Epdemol. 005;34(5):

56 [] Cannon MJ, Warner L, Tadde JA, Klenbaum DG. What can go wrong when you assume that correlated data are ndependent: an llustraton from the evaluaton of a chldhood health nterventon n Brazl. Stat Med. 00;0(9-0):46-7. [3] Rao CR. The theory of least squares when the parameters are stochastc and ts applcaton to the analyss of growth curves. Bometrka. 965;5(3): [4] Grzzle JE, Allen DM. Analyss of growth and dose response curves. Bometrcs. 969;5(): [5] Hu SL. Curve fttng for repeated measurements made at rregular tme ponts. Bometrcs. 984;40(3):69-7. [6] Fearn T. A Bayesan approach to growth curves. Bometrka. 975;6(): [7] Harvlle DA. Maxmum lkelhood approaches to varance component estmaton and to related problems. J Am Stat Assoc. 977;7(358): [8] Azzaln A. Estmaton and hypothess testng for collectons of autoregressve tme seres. Bometrka. 984;7(): [9] Ware JH. Lnear models for the analyss of seral measurements n longtudnal studes. Am Stat. 985;39():95-0. [0] Vonesh EF, Carter RL. Mxed effect nonlnear regresson for unbalanced repeated measures. Bometrcs. 99;48():-7. [] Stratell R, Lard N, Ware JH. Random-effects models for seral observatons wth bnary response. Bometrcs. 984;40(4):96-7. [] Lpstz SR, Lard NM, Harrngton DP. Generalzed estmatng equatons for correlated bnary data: Usng the odds rato as a measure of assocaton. Bometrka. 99;78(): [3] Anderson DA, Atkn M. Varance component models wth bnary response: Intervewer varablty. J R Stat Soc (Seres B). 985;47():

57 [4] Glmour AR, Anderson RD, Rae AL. The analyss of bnomal data by a generalzed lnear mxed model. Bometrka. 985;7(3): [5] Wedderburn RWM. Quas-lkelhood functons, generalzed lnear models, and the Gauss-Newton method. Bometrka. 974;6(3): [6] Prentce R. Correlated bnary regresson wth covarates specfc to each bnary observaton. Bometrcs 988;44(4): [7] Zorn CJW. Generalzed estmatng equaton models for correlated data: A revew wth applcatons. Am J Pol Sc. 00;45(): [8] Qu A, Lndsay BG, L B. Improvng generalzed estmatng equatons usng quadratc nference functons. Bometrka. 000;87(4): [9] Ftzmaurce GM. A caveat concernng ndependence estmatng equatons wth multvarate bnary data. Bometrcs. 995;5(): [30] Dggle PJ, Heagerty P, Lang K-Y & Zeger SL. Analyss of longtudnal data. nd ed ed: Oxford, UK: Oxford Unversty Press 00. [3] Ballnger GA. Usng Generalzed Estmatng Equatons for Longtudnal Data Analyss. Organzatonal Research Methods. 004;7():7-50. [3] Hardn JW, Hlbe JM. Generalzed estmatng equatons: Chapman and Hall / CRC Press 003. [33] Horton NJ, Lpstz SR. Revew of software to ft Generalzed Estmatng Equaton regresson models. Am Stat. 999;53():60-9. [34] Pan W. Informaton crteron n generalzed estmatng equatons. Bometrcs. 00;57():0-5. [35] Hn L-Y, Wang Y-G. Workng-correlaton-structure dentfcaton n generalzed estmatng equatons. Stat Med. 009;8(4):

58 [36] Rotntzky A, Jewell NP. Hypothess testng of regresson parameters n semparametrc generalzed lnear models for cluster correlated data. Bometrka. 990;77(3): [37] Zheng B. Summarzng the goodness of ft of generalzed lnear models for longtudnal data. Stat Med. 000;9(0): [38] Cox DR, Snell EJ. A general defnton of resduals. J R Stat Soc (Seres B) 968;30 (): [39] Chang YC. Resduals analyss of the generalzed lnear models for longtudnal data. Stat Med. 000;9(0): [40] Presser JS, Qaqsh BF. Deleton dagnostcs for generalzed estmatng equatons. Bometrka. 996;83(3):55-6. [4] Cook RD. Deleton of Influental Observatons n Lnear Regresson. Technometrcs. 977;9():5-8. [4] Belsley DA, Kuh E, welsh RE. Regresson dagnostcs: dentfyng nfluental data sources of collnearty. New York 980. [43] IBGE. Notas técncas. Dsponível em [Acessado em novembro de 009] [44] Mnstéro_da_Saúde. Manual de procedmentos do Sstema de Informações sobre Mortaldade. Brasíla: Mnstéro da Saúde; 00. [45] Mnstéro_da_Saúde. Manual de procedmentos do Sstema de Informações sobre Nascdos Vvos Brasíla: Mnstéro da Saúde; 00. [46] Mello-Jorge MHP, Laurent R, Gotleb SLD. Análse da qualdade das estatístcas vtas brasleras: a experênca de mplantação do SIM e do SINASC. Cênca & Saúde Coletva. 007;(3):

59 [47] Mello Jorge MHP, Gotleb SLD, Soboll M, Almeda MF, Latorre M. Avalação do Sstema de Informação sobre Nascdos Vvos e o uso de seus dados em epdemologa e estatístcas de saúde. Rev Saude Publca. 993;7 (suppl 6):-46. [48] Slva AAM, Rbero VS, Borba Junor AF, Combra LC, Slva RA. Avalação da qualdade dos dados do Sstema de Informações sobre Nascdos Vvos em Rev Saude Publca. 00;35(6): [49] Mello Jorge MHP, Gotleb SLD, Olvera H. O Sstema de Informação sobre Nascdos Vvos: prmera avalação dos dados brasleros. Inf Epdemol SUS. 996;5:5-48. [50] Slva RI, Theme Flha MM, Noronha CP. Sstema de nformação sobre nascdos vvos na cdade do Ro de Janero, 993/996. Inf Epdemol SUS. 997;6(): [5] Szwarcwald C, Leal M, Andrade C, Souza Jr. P. Estmação da mortaldade nfantl no Brasl: o que dzem as nformações sobre óbtos e nascmentos do Mnstéro da Saúde? Cad Saúde Públca. 00;8(6): [5] Brasl. Mnstéro da Saúde. Secretara Executva. Datasus. Indcadores e Dados Báscos: Brasl IDB 005. Dsponível em [Acessado em de junho de 009]. [53] Shmakura SE, Carvalho MS, Aerts DRGC, Flores R. Dstrbução espacal do rsco: modelagem da mortaldade nfantl em Porto Alegre, Ro Grande do Sul, Brasl. Cad Saúde Públca. 00;7(5):5-6. [54] Almeda MF, Mello-Jorge MHP. O uso da técnca de "Lnkage" de sstemas de nformação em estudos de coorte sobre mortaldade neonatal. Rev Saude Publca 996;30():4-7. [55] Jaro MA. Probablstc lnkage of large publc health data fles. Stat Med. 995;4(5-7):

60 [56] Felleg I, Sunter A. A theory for record lnkage. J Am Stat Assoc. 969;64(38):83-0. [57] Newcombe HB, Kennedy JM, Axford SJ, James AP. Automatc Lnkage of Vtal Records. Scence. 959;30(338): [58] Machado CJ, Hll K. Determnantes da mortaldade neonatal e pós-neonatal no muncípo de São Paulo. Rev Bras Eplemol. 003;6(4): [59] Lucena FFA, Fonseca MGP, Sousa AIA, Coel CM. O relaconamento de bancos de dados na mplementação da vglânca da Ads. Relaconamento de dados e vglânca da Ads. Cad Saúde Colet. 006;4():305-. [60] Texera CL, Klen CH, Bloch KV, Coel CM. Reclassfcação dos grupos de causas prováves dos óbtos de causa mal defnda, com base nas Autorzações de Internação Hosptalar no Sstema Únco de Saúde, Estado do Ro de Janero, Brasl. Cad Saúde Públca. 006;(6):35-4. [6] Jaro MA. Advances n record-lnkage methodology as appled to matchng the 985 Census of Tampa, Florda. J Am Stat Assoc. 989;84:44-0. [6] Wnkler WE. Advanced Methods for Record Lnkage. Techncal Report Washngton, DC: Statstcal Research Dvson, US Bureau of the Census; 994 Dsponível em [63] Portela M, Schramm J, Pepe V, Noronha M, Pnto C, Canel M. Algortmo para a composção de dados por nternação a partr do sstema de nformações hosptalares do sstema únco de saúde (SIH/SUS) - Composção de dados por nternação a partr do SIH/SUS.. Cad Saúde Públca. 997;3(3):77-4. [64] Coel CM, Camargo-Jr KR. Relaconamento de Bases de Dados em Saúde. Cad Saúde Colet. 006;4():

61 [65] Fernandes D. Concatenamento de nformações sobre óbtos e nascmentos: uma experênca metodológca do Dstrto Federal Belo Horzonte: Tese (Doutorado em Demografa) - Faculdade de Cêncas Econômcas, UFMG 997. [66] Quantn C, Bnquet C, Bourquard K, Pattsna R, Gouyon-Cornet B, Ferdynus C, et al. Whch are the best dentfers for record lnkage? Med Inform Internet Med. 004;9(3-4):-7. [67] UNICEF - Fundação das Nações Undas para Infânca. Stuação mundal da nfânca.. Brasíla 989. [68] Medronho R, Bloch K, Luz R, Werneck G. Epdemologa. a ed. São Paulo 009. [69] Aertz DRGC. Investgação dos óbtos pernatas e nfants: seu uso no planejamento de polítcas públcas de saúde. J Pedatr. 997;73(6): [70] Rouquayrol MZ, Almeda-Flho N, (organzadores). Epdemologa e Saúde. 6a. ed. Ro de Janero 006. [7] Brasl. A mortaldade pernatal e neonatal no Brasl. Brasíla (DF): Mnstéro da Saúde. Uncef 998. [7] Wenstrom KD, Gall SA. Incdence, morbdty and mortalty, and dagnoss of twn gestaton. Cln Pernatol. 988;5():-. [73] Leonard CH, Pechuch RE, Ballard RA, Cooper BAB. Outcome of Very Low Brth Weght Infants: Multple Gestaton Versus Sngletons. Pedatrcs. 994;93(4):6-5. [74] Homrch da Slva C. Baxo Peso ao Nascer e Gemelardade no Muncípo de Porto Alegre (Brasl): Um Novo Desafo. Porto Alegre, RS: Tese (Doutorado em Pedatra) - UFRGS 006. [75] Mllar WJ, Wadhera S, Nmrod C. Multple brths: trends and patterns n Canada, Health Reports 99;4():

62 [76] Martn J, Kung H, Mathews T, Hoyert D, Strobno D, Guyer B. Annual summary of vtal statstcs: 006. Pedatrcs. 008;(4): [77] Dunn A, Macfarlane A. Recent trends n the ncdence of multple brths and assocated mortalty n England and Wales. Arch Ds Fetal Neonatal 996;75():9-0. [78] Doyle P. The outcome of multple pregnancy. Hum Reprod. 996; (Suppl 4):0-7. [79] Homrch da Slva C, Goldan MZ, de Moura Slva AA, Agranonk M, Bettol H, Barber MA, et al. The rse of multple brths n Brazl. Acta Paedatr. 008;97(8):09-3. [80] Luke B. The changng pattern of multple brths n the Unted States: Maternal and nfant characterstcs, 973 and 990. Obstet Gynecol. 994;84():0-6. [8] Jewel S, Yp R. Increasng trends n plural brths n the Unted States. Obstet Gynecol. 995;85():9-3. [8] Angel JL, Kalter CS, Morales WJ, Rasmussen C, Caron L. Aggressve pernatal care for hgher order multple gestatons: Does good pernatal outcome justfy aggressve asssted reproductve technques? Am J Obstet Gynecol 999;8():53-9. [83] Kaufman GE, Malone FD, Harvey-Wlkes KB, Chelmow D, Penzas AS, D Alton ME. Neonatal morbdty and mortalty assocated wth trplet pregnancy. Obstet Gynecol. 998;9(3):34-8. [84] Ferguson W. Pernatal mortalty n multple pregnancy. A revew of pernatal deaths from 609 multple gestatons. Obstet Gynecol. 964; [85] Luke B, Keth L. The contrbuton of sngletons, twns and trplets to low brth weght, nfant mortalty and handcap n the Unted States. J Reprod Med. 99;37(8):66-6. [86] Martn J, Park M. Trends n twn and trplet brths: Natl Vtal Stat Rep. 999;47(4):-6. 6

63 [87] Ananth CV, Platt RW, Savtz DA. Regresson models for clustered bnary responses: mplcatons of gnorng the ntracluster correlaton n an analyss of pernatal mortalty n twn gestatons. Ann Epdemol. 005;5(4): [88] Ananth CV, Presser JS. Bvarate logstc regresson: modellng the assocaton of small for gestatonal age brths n twn gestatons. Stat Med. 999;8(5):0-3. [89] Twsk JWR. Appled Longtudnal Data Analyss for Epdemology: A Practcal Gude: Cambrdge Unversty Press

64 6. ARTIGO Equações de Estmação Generalzadas (GEE): aplcação em estudo sobre mortaldade neonatal em gemelares de Porto Alegre, RS ( ) Generalzed Estmatng Equatons (GEE): an applcaton on multple brths mortalty n Porto Alegre, Brazl ( ) Marlyn Agranonk, Mestranda em Epdemologa, UFRGS; Marcelo Zubaran Goldan, UFRGS Suz Alves Camey, UFRGS UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL (UFRGS) A ser envado aos Cadernos de Saúde Públca. 63

65 Equações de Estmação Generalzadas (GEE): aplcação em estudo sobre mortaldade neonatal em gemelares de Porto Alegre, RS ( ). Marlyn Agranonk, Marcelo Zubaran Goldan, Suz Alves Camey,3 Programa de Pós-Graduação em Epdemologa, Unversdade Federal do Ro Grande do Sul. Departamento de Pedatra e Puercultura da Faculdade de Medcna, Unversdade Federal do Ro Grande do Sul. 3 Departamento de Estatístca, Unversdade Federal do Ro Grande do Sul. Runnng ttle: GEE: aplcação em estudo sobre mortaldade neonatal em gemelares. Correspondence author: Marlyn Agranonk Emal: m_agrano@yahoo.com.br Rua Ramro Barcelos 350, Porto Alegre, RS, Brasl. CEP

66 Resumo Em estudos com gêmeos e trgêmeos é possível exstr correlação entre os dados dos rmãos. Desse modo, modelos de regressão tradconas podem levar a nferêncas ncorretas, uma vez que a suposção de ndependênca entre os sujetos não é mas satsfeta. Para soluconar este problema, Zeger e Lang (986) propuseram uma classe de Equações de Estmação Generalzadas (GEE), semelhante aos GLM, porém, nclundo uma estrutura de correlação de trabalho nas estmatvas dos parâmetros do modelo. Anda hoje, poucos estudos utlzam esta metodologa. Este artgo apresenta o GEE, através de uma aplcação na análse da mortaldade neonatal em gemelares. Verfcou-se que o baxo peso ao nascer e o índce de Apgar assocaram-se à mortaldade neonatal. Comparando os resultados obtdos no GEE com os do GLM foram encontradas pequenas dferenças nas estmatvas pontuas dos parâmetros do modelo. Contudo, ao comparar erros padrões, as dferenças foram maores, nterferndo na sgnfcânca de uma das varáves. Desse modo, recomenda-se usar o GEE quando houver agrupamento de ndvíduos. Palavras chave: dados correlaconados, Equações de Estmação Generalzadas, GEE, mortaldade neonatal, gemelares. Abstract When studyng twns and trplets t s possble that correlaton exsts between sblngs data. Thus, tradtonal regresson models can lead to ncorrect nferences, snce the ndependence assumpton among subjects s no longer satsfed. To solve ths problem, Zeger and Lang (986) proposed a class of Generalzed Estmaton Equatons (GEE), smlar to the GLM, however, ncludng a workng correlaton structure n the parameters estmates. There are few studes usng ths methodology yet. Ths artcle presents GEE through an applcaton n neonatal mortalty analyss n multple brths. Pernatal factors, such as low brth weght and Apgar scores were assocated wth neonatal mortalty. Comparng the results obtaned by GEE and GLM, small dfferences were found n model parameters estmates. However, when comparng SEs, the dfferences were larger, nterferng wth the sgnfcance of a varable. Therefore, we recomend usng GEE when workng wth correlated data. Key words: correlated data, Generalzed Estmaton Equatons, neonatal mortalty, multple brths. 65

67 Introdução Em estudos epdemológcos, quando uma nformação sobre uma determnada varável é coletada repetdas vezes ao longo do tempo, apesar dos sujetos estudados serem ndependentes, suas observações podem estar correlaconadas. É possível também que os sujetos dvdam característcas em comum (por exemplo, estudantes de uma mesma escola, pacentes de um mesmo hosptal, pessoas que trabalham em um mesmo local, rmãos,...) e, portanto, não podem ser consderados ndependentes. Nesta stuação pode haver correlação entre os sujetos. Segundo Carln e colaboradores, rmãos gêmeos são de especal nteresse em pesqusas por serem ndvíduos naturalmente pareados, com os quas é possível realzar análses controladas por um grande número de confunddores compartlhados por eles. Além dsso, possbltam a separação de efetos ambentas e genétcos. Entretanto, assm como nos demas estudos com dados agrupados, é possível exstr correlação entre os dados dos rmãos. A correlação, nesses casos, pode ocorrer já que as observações fetas em um mesmo ndvíduo (estudos longtudnas) ou em pessoas de um mesmo grupo (dados agrupados) tendem a ser mas semelhantes do que observações de ndvíduos dferentes ou de grupos dferentes. É o que ocorre com ndvíduos nascdos de gravdez múltpla, como a de gêmeos e trgêmeos, na qual as respostas dos fetos são nterdependentes ou agregadas, podendo, essa gravdez, ser consderada um conglomerado natural 3. Para análse de estudos longtudnas ou de dados agrupados, os modelos tradconas de regressão têm uso lmtado, devdo à suposção de ndependênca entre os sujetos. Este é o caso dos Modelos Lneares Generalzados (GLM) 4,5. Apesar de este ser um método poderoso e flexível, se for utlzado para dados correlaconados, é provável a obtenção de dstorções nas estmatvas dos parâmetros e de seus erros padrões, levando a nferêncas estatístcas ncorretas,6. 66

68 Uma alternatva é a utlzação da Análse de Varânca (ANOVA) de meddas repetdas para avalar mudanças em um desfecho contínuo ao longo do tempo e comparar estas mudanças entre grupos. Entretanto, além deste método ser utlzado somente para desfechos com dstrbução normal, não permte ajuste para exposções que se modfquem ao longo do tempo, além de necesstar de balanceamento em relação ao número de repetções. Para dados não normas e correlaconados, as prncpas abordagens estatístcas são: as Equações de Estmação Generalzadas (Generalzed Estmatng Equatons - GEE) 6,7 e os modelos de efetos aleatóros (um caso especal de modelos mstos ou de modelos multníves 8 ). Estas técncas, ncalmente desenvolvdas para varáves resposta com dstrbução normal, foram estenddas para varáves com outras dstrbuções 9,0. Zeger e Lang 6,7 propuseram, no fnal dos anos 80, uma classe de Equações de Estmação Generalzadas (Generalzed Estmatng Equatons - GEE) para estmar parâmetros de regressão quando se trabalha com dados correlaconados. Este método fo desenvolvdo para produzr estmatvas mas efcentes e não vcadas para os parâmetros do modelo de regressão nesta stuação, pos consdera uma estrutura de correlação entre as observações. No modelo de efetos aleatóros proposto por Lard & Ware 8 os coefcentes de regressão podem ser dferentes entre ndvíduos, consderando a heterogenedade exstente entre eles. A prncpal dferença entre estes métodos está no fato do GEE avalar a relação entre a varável resposta e as varáves predtoras em um contexto populaconal, e não ndvdual, enquanto o modelo de efetos aleatóros tem como foco o ndvíduo. Desse modo, quando se tem nteresse em avalar dversas meddas de um mesmo ndvíduo, ao longo do tempo, e avalar seu crescmento ndvdual, é mas ndcado utlzar um modelo de efetos aleatóros. E, quando se estver nteressado em estudos epdemológcos, por exemplo, com o objetvo de se estudar a dferença na resposta méda populaconal entre dos grupos com dferentes fatores de rsco, o GEE é o método mas recomendado. 67

69 Anda hoje é pouco comum encontrar artgos, especalmente no Brasl, que utlzem a modelagem aproprada quando estão presentes observações correlaconadas. Consderando o crescente número de estudos epdemológcos envolvendo observações correlaconadas, seja em estudos longtudnas ou em estudos envolvendo dados agrupados, e os problemas que podem ocorrer com a utlzação da análse nadequada, este artgo tem por objetvo apresentar a metodologa GEE, através de uma aplcação na análse de dados de mortaldade neonatal em gemelares (gêmeos, trgêmeos ou de ordem superor). Materal e métodos Fo realzado um estudo de coorte retrospectvo. Nas análses foram utlzadas apenas nformações de nascmentos gemelares, nos quas todas as cranças que consttuem o par ou o tro nasceram vvas em Porto Alegre no período de 995 a 007. Essas nformações foram obtdas através de dados do Sstema de Informações de Nascdos Vvos (SINASC), desenvolvdo através de nformações da Declaração de Nascmento (DN) e do Sstema de Informações de Mortaldade (SIM), desenvolvdo por ntermédo de nformações da Declaração de Óbto (DO) e fornecdos pela secretara muncpal de saúde de Porto Alegre. A utlzação smultânea desses dos sstemas de nformação permte o estudo da mortaldade nfantl e de seus componentes segundo varáves comuns à DN e à DO. Para as análses, os bancos SIM e SINASC foram unfcados e recodfcados. A construção do banco ocorreu em duas etapas: prmero foram relaconados os regstros de nascmento e óbto através do número da DN; quando esta nformação não estava dsponível fo utlzando o programa Lnk Plus versão 9.0 para relaconar estes bancos através do nome da mãe, do peso e da data de nascmento. Em uma segunda etapa os rmãos foram relaconados através do nome da mãe e da data de nascmento. Os casos dentfcados nesta 68

70 segunda etapa receberam um número de dentfcação para ser utlzado nas análses. Foram excluídas cranças para as quas não fo possível encontrar pelo menos um rmão ou grupos nos quas pelo menos um rmão apresentou peso ao nascer nferor a 500g ou pelo menos um rmão era natmorto. Com essas exclusões, permaneceram no banco de dados apenas duas gestações de quadrgêmeos, portanto, optamos por excluí-las das análses. O desfecho avalado fo o óbto neonatal (óbto ocorrdo no período de 0 a 7 das após o nascmento) e foram avaladas como possíves fatores de rsco varáves sócodemográfcas maternas (dade em anos e escolardade - nferor e superor ou gual a 8 anos de estudo), de assstênca pré e pernatas (duração da gestação - nferor e gual ou superor a 37 semanas, tpo de parto - vagnal ou cesarana, número de consultas pré-natal - nferor ou gual a 6 consultas e superor a 6 consultas e tpo de hosptal - públco, prvado ou msto) e nformações ndvduas e coletvas dos recém-nascdos (peso ao nascer da crança (em gramas) e peso total dos rmãos (em gramas), sexo por grupo - todos do sexo masculno/ todos do sexo femnno/ pelo menos um do sexo masculno e um do femnno, e Índce de Apgar no 5º mnuto). A qualdade dos dados regstrados no SIM tem melhorado nos últmos anos, e sua cobertura tem sdo bem próxma de 00% nas regões Centro-Oeste, Sudeste e Sul do país 3. Entretanto, anda persstem problemas como dados faltantes e sub-regstros. Mello Jorge e colaboradores 4 sugerem avalar o percentual de dados faltantes como uma forma de verfcar a qualdade dos dados. No presente estudo, todas as varáves apresentaram esse percentual nferor a %. Para soluconar o problema de dados faltantes fo realzada mputação destes dados. Devdo ao número reduzdo de dados faltantes, o ganho com mputação múltpla sera muto pequeno, por sso, optamos por utlzar a mputação smples. Formulação das Equações de Estmação Generalzadas 69

71 GEE é uma extensão dos GLM, que ncorpora uma estrutura de dependênca entre ndvíduos de um mesmo grupo. Além dsso, do mesmo modo que os GLM, permte a utlzação de varáves dependentes pertencentes à famíla exponencal que não sejam normalmente dstrbuídas (por exemplo, Posson, Gama, Bnomal Negatva). Ou seja, ela pode ser utlzada para modelar desfechos dcotômcos, de contagens ou ntervalares. Para defnção do GEE, consdere n gestações múltplas, com m cranças por gestação, sendo que o valor de m pode varar de gestação para gestação. Defnmos yj como a varável resposta de nteresse para a j-ésma crança da -ésma gestação e X j é um vetor p de covaráves para a j-ésma crança da -ésma gestação, =,..., n e j =,...,m. = Defne-se, para a -ésma gestação, o vetor m de respostas, y ( y,...,y ) e a matrz m de covaráves m p, X ( X,...,X m ). = Devdo à ausênca de dstrbuções multvaradas conhecdas, quando saímos do contexto de dstrbuções normas, utlzamos a quas-verossmlhança para estmação dos parâmetros. Na quas-verossmlhança, ao nvés de especfcar a dstrbução do desfecho, é necessáro apenas especfcar a relação entre a méda do desfecho e as covaráves e a méda do desfecho e sua varânca. Portanto, para se escrever as equações de estmação generalzadas supõe-se que: - A relação entre a méda da varável resposta, µ, e as varáves explcatvas X, pode ser expressa sob forma lnear através de uma função de lgação conhecda, g, ou seja, onde β é o vetor de p parâmetros. g( µ ) = X β, () - A varânca da varável resposta pode ser expressa por uma função conhecda, f, da méda desta varável, ou seja, V = f ( µ ) /φ, () 70

72 onde φ é o parâmetro de dspersão defndo como na famíla exponencal. O quadro apresenta característcas de algumas dstrbuções da famíla exponencal. Mas nformações sobre a famíla exponencal podem ser encontradas em 3. Lang e Zeger 6 defnem a estmatva de β como sendo a solução do sstema de equações dferencas quas-escore dado a segur: U k onde, D = µ β e S = (y µ ). k n ( β ) = D V S = 0 k =,..., p, (3) = Para utlzar essas equações para dados correlaconados, Lang e Zeger [7] especfcaram uma matrz de correlação de trabalho ncorporada no termo de varânca da equação (). Consderando que R ( α ) seja tal matrz, com dmensão m m para cada y onde α é um vetor que caracterza completamente ( α ) a equação () torna-se uma matrz de covarânca para a -ésma gestação: / R / V = A R ( α )A / φ, (4) onde A é uma matrz dagonal m m com f ( µ ) como elementos da dagonal e φ é o parâmetro de escala para dstrbuções da famíla exponencal. Note que o número de observações e a matrz de correlação podem dferr de grupo para grupo. Porém, é possível assumr que ( α ) é completamente especfcado pelo vetor de parâmetros desconhecdos R α, que é o mesmo para todos os grupos [6]. Assm, será utlzado R (α ) para denotar qualquer matrz de correlação de trabalho. Quando m =, ou no caso de haver ndependênca, o estmador dos parâmetros do GEE equvale ao do GLM. A matrz de correlação de trabalho representa a correlação entre os ndvíduos de uma mesma gestação para a varável desfecho ajustada pelas covaráves presentes no modelo. 7

73 Desse modo, os valores que α pode assumr estão no ntervalo [-; +]. A dmensão dessa matrz é determnada pelo número de ndvíduos provenentes de uma mesma gestação. É possível especfcar dferentes estruturas para essa matrz. Estas estruturas, bem como sua defnção são apresentadas no quadro. Usualmente, a escolha da melhor estrutura de correlação é baseada na natureza dos dados e na teora, vsto que há estruturas mas adequadas para stuações específcas (quadro ). Especfcar esta matrz de forma correta aumenta a efcênca das estmatvas dos parâmetros do modelo 5. Lang e Zeger 7 afrmam que o modelo é robusto a erros na especfcação na estrutura de correlação porque as estmatvas dos parâmetros de regressão permanecem consstentes e ressaltam que a efcênca ganha pela especfcação exata da estrutura de correlação é geralmente pequena. Entretanto, Ftzmaurce 5 adverte que é possível obter estmadores nefcentes quando a matrz de correlação de trabalho especfcada não ncorpora toda a nformação sobre a correlação entre as meddas de um mesmo cluster. Quando há dúvda quanto a qual estrutura de correlação utlzar, é possível recorrer ao crtéro proposto por Pan 6, o crtéro de quas-verossmlhança sob o modelo de ndependênca (Quas-lkelhood under the Independence model Crteron - QIC). O QIC é calculado a partr da comparação de um modelo com uma determnada estrutura de correlação de trabalho com aquele gerado utlzando a estrutura ndependente. Os valores obtdos de QIC podem ser utlzados para comparar as dferentes estruturas de correlação. Algumas vezes ocorre de os valores de QIC não serem necessaramente muto dferentes, tornando dfícl a escolha através deste crtéro. Para soluconar este problema, Hn e Wang 7 propuseram o Crtéro de Informação de Correlação (Correlaton nformaton crteron - CIC), com o objetvo de aperfeçoar o desempenho do QIC na escolha da estrutura de correlação de trabalho. 7

74 GEEs estmam coefcentes de regressão e erros padrões com dstrbuções amostras assntotcamente normas 7. Podem ser utlzados para testar efetos prncpas e nterações, e podem ser usados para avalar varáves ndependentes qualtatvas ou quanttatvas. O β é estmado através de um processo teratvo, no qual alterna-se entre estmar β para valores fxos de φˆ e αˆ e estmar (φ, α ) para valores fxos de βˆ até se obter uma convergênca nos valores estmados. Quanto à varânca do estmador de β, na maora das vezes deve-se escolher um método robusto para estmá-la, com exceção de stuações em que o tamanho da amostra é pequeno, vsto que estes estmadores têm propredades assntótcas, ou seja, sua qualdade depende de grandes amostras. Ananth et al 8 mostram que os coefcentes estmados através de GEE podem ser nterpretados do mesmo modo que os coefcentes estmados em um estudo transversal através de um GLM. Para estmar o rsco relatvo de óbto neonatal fo utlzado GEE com a função de lgação log e a dstrbução de Posson com varânca robusta ncorporando a estrutura de correlação entre observações. A escolha da matrz de correlação fo baseada na natureza dos dados. A ordem de nascmento não fo consderada bologcamente mportante, porque 70% dos nascmentos foram por cesarana. Assm, fo escolhda a estrutura de correlação permutável. Os grupos foram consderados ndependentes. Para avalar assocações entre as varáves predtoras e o desfecho fo utlzado o teste de Wald modfcado proposto por Rotntzky e Jewell 9. A adequação do modelo fo avalada através da análse de resíduos. As análses estatístcas foram realzadas no SPSS (Statstcal Package for Socal Scences) versão Esta pesqusa fo aprovada pelo Comtê de Étca em Pesqusa da Secretara Muncpal de Saúde (nº do projeto: ). 73

75 Resultados Foram avalados.754 pares de gêmeos e 7 grupos de trgêmeos. A taxa de mortaldade nfantl no prmero grupo fo de 39,6 (8/5508) e no segundo de 5,6 (/3). Os gêmeos apresentaram taxa de mortaldade neonatal de 9,4 e de mortaldade pós-neonatal de 0,. Para os trgêmeos estas taxas foram 37,5 e 4,. A dstrbução dos óbtos neonatas para gemelares de acordo com característcas maternas e do recém nascdo, de assstênca pré e pernatas é apresentada na tabela. Houve maor prevalênca de óbtos neonatas entre ndvíduos cujas mães tnham menos de 8 anos, escolardade nferor a oto anos de estudo, havam realzado no máxmo ses consultas pré-natal e cujo parto fo normal, pré-termo e realzado em hosptal públco. Grupos nos quas todos os rmãos eram do sexo masculno também apresentaram maor prevalênca de óbtos neonatas. Os RNs que veram a óbto apresentavam em méda peso ao nascer e Apgar no 5º mnuto nferor aos RNs que sobrevveram ao período neonatal. A tabela apresenta os resultados para a estmatva obtda através do GEE para o rsco relatvo ajustado e não ajustado para óbtos neonatas. Na análse não ajustada, todas as varáves, exceto a dade materna, apresentaram assocação estatstcamente sgnfcatva com o óbto neonatal. Após o ajuste, permaneceram sgnfcatvos apenas o peso ao nascmento, o peso total do grupo e o Índce de Apgar no 5º mnuto. Para estas três varáves verfcou-se que quanto maor seu valor, maor a proteção contra o óbto neonatal. Através do RR estmado, verfca-se que um aumento de 00g no peso do RN oferece uma proteção de 4% (IC-95%: 5%; %) para o óbto neonatal. Para o modelo ajustado foram calculados os resíduos de Pearson. A fgura apresenta os resíduos de Pearson versus o número do RN. Na fgura a não se observa padrão dstnto dos resíduos conforme o número do RN, com apenas 0,9% dos resíduos superores a,0. Entretanto, estratfcando esta análse por óbto neonatal (fgura b), verfca-se que entre os 74

76 óbtos, 30% dos resíduos estão acma de,0, enquanto entre os não óbtos não há nenhum resíduo superor a este valor. Assm como na análse de resíduos, o teste de aleatoredade de resíduos não fo sgnfcatvo na análse geral (P = 0,587), mas mostrou comportamento dferencado entre resíduos relaconados a óbtos e não óbtos (P < 0,00). Dscussão Neste artgo fo apresentada a metodologa do GEE, através de uma aplcação na análse de dados de mortaldade neonatal em gemelares. Os resultados encontrados na análse da mortaldade neonatal são semelhantes aos encontrados em outros estudos que evdencam fatores pernatas, como peso ao nascer e índce de Apgar, nfluencando fortemente na mortaldade neonatal. A metodologa utlzada neste estudo é de nteresse para análse de dados correlaconados, por possur as mesmas propredades de um GLM, ncorporando anda no modelo uma estrutura para ajuste da correlação exstente entre as observações. Além dsso, por ser semelhante em sua forma a um GLM, seus resultados podem ser nterpretados da mesma manera 8. Atualmente, a metodologa GEE já está mplementada nos prncpas programas para análse estatístca, como SPSS, SAS, R e STATA. Entretanto, ressaltamos que é possível exstrem pequenas varações entre os resultados apresentados por estes programas, já que possuem dferentes processos teratvos 3. Fo realzada uma comparação dos resultados obtdos no GEE com os obtdos através de regressão de Posson com varânca robusta (resultados dsponíves em Foram encontradas pequenas dferenças nas estmatvas pontuas dos parâmetros do modelo. Contudo, ao comparar os erros padrões, as dferenças foram maores, nterferndo na sgnfcânca de uma varável (tpo de hosptal), como sugerdo por outros autores, 6, 6, 9. Maores dferenças entre os modelos não foram encontradas, provavelmente porque o tamanho da amostra utlzado era grande. Mas estudos 75

77 precsam ser realzados para avalar o mpacto do GEE em amostras menores. Carln et al 5 ressaltam que deve-se utlzar o GEE por ser mas efcente do que o modelo tradconal na estmação dos efetos das covaráves com valores dferentes dentro de um agrupamento. Os pontos fortes de estudo são: boa qualdade dos dados secundáros, a completude e boa defnção das varáves. Por utlzar dados secundáros, este estudo apresenta algumas lmtações. Não fo possível relaconar com o respectvo regstro de nascmento 0,5% dos óbtos ocorrdos no período estudado. A dentfcação dos gemelares em alguns casos estava ncorreta, tendo sdo ncluídos nas análses 3 gemelares do SIM dentfcados como não gemelares no SINASC. Além dsso,,6% (8,3% óbtos e,4% não óbtos) dos ndvíduos dentfcados como gemelares foram excluídos das análses por não terem sdo pareados. Foram observados valores maores de resíduos assocados ao óbto neonatal. É provável que sto tenha ocorrdo devdo à falta de varáves que explquem melhor a ocorrênca de óbto. Por exemplo, Anath et al 9 verfcaram que a ocorrênca de malformações congêntas e complcações obstétrcas aumentam a ocorrênca de mortaldade pernatal. Estas varáves não estão dsponíves no SINASC em todo período estudado e, portanto, não puderam ser consderadas nas análses. Além dsso, grande parte das varáves era apresentada com categoras já defndas no SINASC e SIM, mpossbltando a exploração de sua forma quanttatva ou com outras categorzações. Em conclusão, a utlzação do GEE para essa análse apresentou resultados consstentes e dferentes do GLM, demonstrando a necessdade de sua aplcação quando analsa-se dados correlaconados. Desse modo, recomenda-se o seu uso sempre que houver agrupamento de ndvíduos, já que este modelo consdera a correlação entre os sujetos do mesmo grupo e está mplementado nos programas estatístcos. Referêncas 76

78 . Carln JB, Gurrn LC, Sterne JA, Morley R, Dwyer T. Regresson models for twn studes: a crtcal revew. Int J Epdemol. 005 Oct;34(5): Ftzmaurce G. Clustered data. Nutrton. 00 Jun;7(6): Ananth CV, Presser JS. Bvarate logstc regresson: modellng the assocaton of small for gestatonal age brths n twn gestatons. Stat Med. 999 Aug;8(5): McCullagh P, Nelder JA. Generalzed Lnear Models. London: Chapman and Hall Nelder JA, Wedderburn RWM. Generalzed lnear models. J R Stat Soc (Seres A). 97;35(3): Zeger S, Lang K. Longtudnal data analyss for dscrete and contnuous outcomes. Bometrcs. 986 Mar;4(): Lang K-Y, Zeger SL. Longtudnal data analyss usng generalzed lnear models. Bometrka. 986 Abr;73(): Lard NM, Ware JH. Random-effects models for longtudnal data. Bometrcs. 98;Dec 38(4): Lpstz SR, Lard NM, Harrngton DP. Generalzed estmatng equatons for correlated bnary data: Usng the odds rato as a measure of assocaton. Bometrka. 99;Mar 78(): Vonesh EF, Carter RL. Mxed effect nonlnear regresson for unbalanced repeated measures. Bometrcs. 99;Mar 48 ():-7.. Twsk JW. Longtudnal data analyss. A comparson between generalzed estmatng equatons and random coeffcent analyss. Eur J Epdemol. 004 Ago;9(8): Dsponível em [acessado em Junho/009]. 77

79 3. Brasl. Mnstéro da Saúde. Secretara Executva. Datasus. Indcadores e Dados Báscos: Brasl IDB 005. Dsponível em [Acessado em de junho de 009]. 4. Mello Jorge MHP, Gotleb SLD, Olvera H. O Sstema de Informação sobre Nascdos Vvos: prmera avalação dos dados brasleros. IESUS. 996;5(): Ftzmaurce GM. A caveat concernng ndependence estmatng equatons wth multvarate bnary data. Bometrcs. 995 Mar;5(): Pan W. Akake s nformaton crteron n generalzed estmatng equatons. Bometrcs. 00;Mar 57(): Hn L-Y, Wang Y-G. Workng-correlaton-structure dentfcaton n generalzed estmatng equatons. Stat Med. 009 Feb;8(4): Ananth CV, Platt RW, Savtz DA. Regresson models for clustered bnary responses: mplcatons of gnorng the ntracluster correlaton n an analyss of pernatal mortalty n twn gestatons. Ann Epdemol. 005 Apr;5(4): Rotntzky A, Jewell NP. Hypothess testng of regresson parameters n semparametrc generalzed lnear models for cluster correlated data. Bometrka. 990; Sep 77(3): SPSS Inc Chcago, Illnos.. Machado CJ, Hll K. Determnantes da mortaldade neonatal e pós-neonatal no muncípo de São Paulo. Rev Bras Eplemologa. 003;6(4): Horton NJ, Lpstz SR. Revew of software to ft Generalzed Estmatng Equaton regresson models. Am Stat. 999 May;53(): Twsk JWR. Appled Longtudnal Data Analyss for Epdemology: A Practcal Gude. Cambrdge Unversty Press ed

80 Fgura 35,0 35,0 Resíduo de Pearson 30,0 5,0 0,0 5,0 0,0 5,0 0,0 Resíduo de Pearson 30,0 5,0 0,0 5,0 0,0 5,0-5, Número do RN 0,0-5, (a) Número do RN (b) Fgura : Resíduos de Pearson versus número do RN (a). Resíduos de Pearson versus número do RN segundo óbto ( ) e não óbto (o) (b). 79

81 Quadros Quadro : Característcas de algumas dstrbuções da famíla exponencal. Modelo Forma na famíla exponencal Lgação canônca φ Normal: N( µ, σ ) µ y exp yµ log( πσ ) σ σ Identdade: η = µ σ Bnomal: B(m,µ exp x log + mlog( µ ) m Posson: P( µ ) ) m x µ µ exp( x log x! µ logt: η = log m µ µ µ ) log: η = log µ 80

82 Quadro : Defnção e exemplo para cada tpo de estrutura de correlação de trabalho. Estrutura Defnção Exemplo ( m = 3 ) Independente Utlzada no caso de ndependênca entre as observações. R( α ) = Permutável Consdera-se que a correlação entre as observações dos ndvíduos de um mesmo grupo é a mesma. R( α ) = α α α α α α Supõe-se que as meddas dentro do grupo AR() têm uma relação auto-regressva de prmera ordem, usualmente utlzada quando os dados estão correlaconados ao R( α ) = α α α α α α longo do tempo. Assume-se que as correlações a t meddas M-dependente de dstânca são guas, que as correlações a t + meddas de dstânca são guas, e assm por dante de t =,..., m. Assume também que meddas muto dstantes ( > m) α R( α ) = α 0 α M = 0 α não são correlaconadas. Não estruturada Assume-se que entre cada observação dentro do grupo há um valor de correlação dferente. R( α ) = α α α α 3 α α 3 8

83 Tabelas Tabela. Dstrbução dos óbtos neonatas em gemelares de acordo com característcas maternas, do recém nascdo e de assstênca pré e pernatas, Porto Alegre, Óbto neonatal Não óbto n = 70 n = 555 Escolardade materna 0 a 7 anos 0 39, ,8 8 anos 69, , Idade materna 7 anos 7 59, ,6 8 a 34 8, ,3 35 ou mas 3 6, ,9 Número de consultas pré natal 0 a 6 56, ,0 Mas de , , Tpo de hosptal Prvado 8, , Msto 5 5, ,6 Públco 7 38, ,5 Tpo de parto Cesáreo 90, ,8 Normal 80 47, , Idade gestaconal (em semanas) < , ,0 37 ou mas 3 4, , Sexo Todos do sexo femnno 45, ,6 Todos do sexo masculno 76 39, ,0 Pelo menos dferentes 49 7, ,3 méda DP Méda DP Índce de Apgar no 5º mnuto 5,9,70 9,0 0,95 Peso do ndvíduo 064,7 589,68 99,7 537,8 Peso do grupo 4,4 5,3 4660,6 006,5 8

84 Tabela : Rsco relatvo (RR) bruto e ajustado estmado através de GEE para óbto neonatal em gemelares, Porto Alegre, RR bruto IC-95% P RR ajustado IC-95% P Escolardade materna 0 a 7 anos,77 (,;,57) 0,003,3 (0,86;,77) 0,65 8 anos,00 -,00 - Idade materna (em anos) 0,97 (0,94;,00) 0,06,0 (0,99;,04) 0,59 Número de consultas pré natal 0 a 6 4,05 (,75; 5,97) <0,00 0,99 (0,67;,45) 0,949 Mas de 6,00 -,00 - Tpo de hosptal Públco,95 (,66; 5,3) <0,00,69 (0,98;,93) 0,059 Msto,93 (0,96; 3,89) 0,067,55 (0,88;,74) 0,3 Prvado,00 -,00 - Tpo de parto Normal,6 (,5; 3,08) <0,00,05 (0,78;,4) 0,763 Cesáreo,00 -,00 - Idade gestaconal (em semanas) Sexo < 36 0,44 (6,0; 8,) <0,00 0,86 (0,44;,69) 0, ou mas,00 -,00 - Todos do sexo femnno,00 -,00 - Todos do sexo masculno,77 (,3;,79) 0,03,3 (0,93;,86) 0,8 Pelo menos dferentes,6 (0,77;,05) 0,363, (0,86;,74) 0,67 Índce de Apgar no 5º mnuto Peso ndvíduo* (em 00g) 0,6 (0,59; 0,66) <0,00 0,86 (0,80; 0,93) <0,00 0,74 (0,7; 0,76) <0,00 0,86 (0,79; 0,95) 0,00 Peso do grupo* 0,86 (0,85; 0,87) <0,00 0,94 (0,90; 0,99) 0,0 (em 00g) RR: rsco relatvo; IC: Intervalo de Confança; *RR para o aumento de 00g no peso. 83

85 Apêndce A segur são apresentados os comandos utlzados no SPSS, R, STATA e SAS. Mas nformações sobre a utlzação do GEE nestes programas pode ser obtda em. Para obter os resultados da tabela fo utlzado o SPSS versão 6.0. * Varáves utlzadas: neonatal: óbto neonatal dade_mae: dade materna esc_mae: escolardade materna dur_gest: duração da gestação parto: tpo de parto pre_natal: número de consultas pré-natal hosptal: tpo de hosptal peso: peso ao nascer da crança peso_total: peso total dos rmãos sexo: sexo apgar5: índce de Apgar no 5º mnuto dn_par: dentfcador únco para cada gestação ordem: ordem de nascmento (,,3) Programa no SPSS * Generalzed Estmatng Equatons. GENLIN neonatal BY esc_mae pre_natal hosptal parto dur_gest sexo (ORDER=DESCENDING) WITH dade_mae apgar5 peso peso_total /MODEL esc_mae pre_natal hosptal parto dur_gest sexo dade_mae apgar5 peso peso_total INTERCEPT=YES DISTRIBUTION=POISSON LINK=LOG /CRITERIA METHOD=FISHER() SCALE= MAXITERATIONS=00 MAXSTEPHALVING=5 PCONVERGE=E-006(ABSOLUTE) SINGULAR=E-0 ANALYSISTYPE=3(WALD) CILEVEL=95 LIKELIHOOD=FULL 84

86 /REPEATED SUBJECT=dn_par WITHINSUBJECT=ORDEM SORT=YES CORRTYPE=EXCHANGEABLE ADJUSTCORR=YES COVB=ROBUST MAXITERATIONS=00 PCONVERGE=e-006(ABSOLUTE) UPDATECORR= /MISSING CLASSMISSING=EXCLUDE /PRINT CPS DESCRIPTIVES MODELINFO FIT SUMMARY SOLUTION (EXPONENTIATED) WORKINGCORR. Programa no R lbrary(foregn) lbrary(gee) gee.exch<-gee(neonatal ~ I(esc_mae) + I(pre_natal) + I(hosptal) + I(parto) + I(dur_gest) + I(sexo) + dade_mae + apgar5 + peso + peso_total, d=dn_par, data=x, famly =posson, corstr="exchangeable", scale.fx = TRUE, scale.value = ) summary(gee.exch) Programa no STATA x: xtgee neonatal.esc_mae.pre_natal.hosptal.parto.dur_gest.sexo dade_mae apgar5 peso peso_total, fam(posson) (dn_par) robust corr(exch) Programa no SAS (adaptado de Horton e Lpstz ) proc genmod data = gee; class dn_par; model neonatal = esc_mae pre_natal hosptal parto dur_gest sexo dade_mae apgar5 peso peso_total / dst = posson; repeated subject = dn_par / type = exch corrw wthn=settng; make classlevels noprnt; make geercov out=rcov noprnt; run; 85

87 7. CONCLUSÕES E CONSIDERAÇÕES FINAIS Dados correlaconados podem ocorrer em dversas stuações. Exemplos ncluem estudos longtudnas, nos quas os ndvíduos possuem observações meddas repetdamente ao longo do tempo, estudos com observações de város membros da mesma famíla, e os estudos com mas de um resultado para cada pessoa, tas como estudos oftalmológcos nos quas os dos olhos são meddos. Em todas essas stuações, a análse correta requer que se consdere a correlação exstente entre as observações. Nesta dssertação fo apresentada a metodologa GEE, que nclu uma estrutura de correlação de trabalho entre as observações para a obtenção de estmatvas consstentes e não vcadas. Em sua utlzação na análse de dados de gemelares, esta metodologa mostrou-se adequada vsto que fo possível dentfcar dferenças entre o modelo estmado através dela e o estmado do modo tradconal (va GLM). Lang e Zeger (986) e Lpstz et al. (994) apresentam as vantagens da utlzação do GEE para dados correlaconados. O GEE oferece uma razoável efcênca estatístca e, quando µ está corretamente especfcada, as estmatvas dos parâmetros, βˆ, são também consstentes (Lang e Zeger, 986). O GEE permte a utlzação de uma grande varedade de estruturas de correlação entre os grupos. Além dsso, assm como o GLM, o GEE pode ser aplcado a varáves resposta com dferentes dstrbuções, além da gaussana, como a Posson e a bnomal. Dferentemente de um modelo como a ANOVA, o GEE utlza toda nformação dsponível de cada ndvíduo, permtndo anda a presença tanto de varáves que podem apresentar valores dferentes entre os membros do mesmo grupo, como de varáves constantes dentro do grupo. Além dsso, por ser semelhante em sua forma a um GLM, seus resultados podem ser nterpretados da mesma manera [87]. 86

88 Atualmente, a metodologa GEE já está mplementada nos prncpas programas para análse estatístca, como SPSS, SAS, R e STATA [33]. Entretanto, ressaltamos que é possível exstrem pequenas varações entre os resultados apresentados por estes programas, já que possuem dferentes processos teratvos [89]. Desse modo, salentamos a mportânca da utlzação do GEE sempre que houver agrupamento de ndvíduos, já que este modelo consdera a correlação entre os sujetos do mesmo grupo é de smples nterpretação e está mplementado nos prncpas programas estatístcos. 87

89 8. ANEXOS 88

90 ANEXO A: PROJETO DE PESQUISA 89

91 UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL Faculdade de Medcna Programa de Pós-Graduação em Epdemologa Utlzação da Metodologa de Equações de Estmação Generalzadas para dados correlaconados: uma aplcação a estudo em gemelares Marlyn Agranonk Orentadora: Prof a Dra. Suz Alves Camey Porto Alegre, 5 de novembro de

92 Introdução Para defnr a análse estatístca a ser aplcada em um conjunto de dados é mportante conhecer a relação entre os sujetos e entre as observações. Em mutas stuações, na área da saúde, os sujetos estudados são ndependentes. Entretanto, é coletada nformação sobre a mesma varável repetdas vezes ao longo do tempo, tornando as observações correlaconadas. A stuação nversa também ocorre, ou seja, os sujetos dvdem característcas em comum e, portanto, não podem ser consderados ndependentes. Neste caso pode haver correlação entre os sujetos. O prmero caso é conhecdo como meddas repetdas e o segundo como dados agrupados (clustered data). A correlação nesses casos pode ocorrer já que as observações fetas em um mesmo ndvíduo (estudos longtudnas) ou em pessoas de um mesmo grupo (dados agrupados) tendem a ser mas semelhantes do que observações de ndvíduos dferentes ou de grupos dferentes 7. Frequentemente se deseja estudar o comportamento de uma varável resposta em relação a varáves ndependentes. Para esses casos, técncas de modelagem são utlzadas, nas quas se ncluem os modelos de regressão. Os modelos tradconas de regressão têm uso lmtado em estudos longtudnas ou de dados agrupados devdo à suposção de ndependênca entre os sujetos. Este é o caso dos Modelos Lneares Generalzados (GLM) 4,5, Apesar deste ser um método poderoso e flexível, se for utlzado para dados correlaconados, é provável a obtenção de dstorções nas estmatvas dos parâmetros e de seus erros padrões, levando a nferêncas estatístcas ncorretas 5,3,7. Exstem pelo menos duas abordagens estatístcas para esse tpo de problema: as Equações de Estmação Generalzadas e os modelos multníves (um caso especal de modelos 9

93 mstos ou de modelos herárqucos). Como no conjunto de dados utlzados neste trabalho há um únco nível de agrupamento optamos por aplcar a prmera metodologa. Zeger e Lang 7 e Lang e Zeger 3 propuseram uma classe de Equações de Estmação Generalzadas (Generalzed Estmatng Equatons - GEE) para estmar parâmetros de regressão. Este método fo desenvolvdo para produzr estmatvas mas efcentes e não vcadas para os parâmetros do modelo de regressão quando se lda com dados correlaconados, pos consdera a estrutura de correlação entre as observações. GEE é uma extensão dos Modelos Lneares Generalzados, o qual permte utlzar varáves dependentes pertencentes à famíla exponencal que não sejam normalmente dstrbuídas (por exemplo, Posson, Gama, Bnomal Negatva). Este método deve ser utlzado quando o objetvo da análse estatístca é descrever a esperança da varável resposta em função de um conjunto de covaráves, consderando a correlação entre as observações. Essas equações são extensões das utlzadas no método de quas-verossmlhança 8. Para defnr uma verossmlhança é necessáro especfcar a forma de dstrbução das observações, contudo, para a função de quas-verossmlhança é necessáro especfcar apenas a relação entre a méda e a varânca das observações. A escolha do método de quas-verossmlhança é o que permte uma dstrbução não gaussana dos dados. Assm, Lang e Zeger 3 especfcaram a méda da varável resposta como uma função lnear das covaráves, assumram a varânca como uma função conhecda da méda e defnram a matrz de correlação de trabalho (workng correlaton matrx). Este modelo é apresentado da segunte forma: Consdere que, para n gestações múltplas, yj seja a varável resposta e X j um vetor p de covaráves para o j-ésmo nascmento da -ésma gestação, =,..., n e j =,...,m. O valor de m pode varar de gestação para gestação, sendo os valores mas comuns, m= para gêmeos e m=3 para trgêmeos. Defne-se, para -ésma gestação, o vetor m de respostas, 9

94 y ( y,...,y m ) e a matrz de covaráves m p, X ( X,...,X m ). Para se escrever as = equações de estmação generalzadas supõe-se que: = - A relação entre a esperança de varável resposta, µ, e as varáves explcatvas X, pode ser expressa sob forma lnear através de uma função de lgação conhecda, g. Esta função é dada por: onde β é o vetor de p parâmetros. g( µ ) = X β, () - A varânca da varável resposta pode ser expressa por uma função conhecda da méda desta varável da segunte forma: V = f ( µ ) /φ. () Segundo uma notação semelhante a Lang e Zeger (986), a estmatva de β é a solução do sstema equações dferencas quas-escore dado a segur: U k n ( β ) = D V S = 0 k =,..., p, (3) = onde, D = µ β e S = (y µ ). k Para utlzar essas equações para dados correlaconados Lang e Zeger (986) especfcaram uma matrz de correlação de trabalho ncorporada no termo de varânca da equação (). Consderando que R ( α ) seja a matrz de correlação m m para cada y onde α é um vetor que completamente caracterza ( α ) a Equação () torna-se uma matrz de covarânca para o -ésmo grupo: onde A é uma matrz dagonal / R / V = A R ( α )A / φ (4) m m com f ( µ ) como elementos da dagonal e φ é o parâmetro de escala para dstrbuções da famíla exponencal. Note que o número de observações e a matrz de correlação podem dferr de grupo para grupo. Porém, é possível 93

95 assumr que ( α ) é completamente especfcado pelo vetor de parâmetros desconhecdos R α, que é o mesmo para todos os grupos. do GLM. Quando m =, ou no caso de haver ndependênca, o estmador do GEE equvale ao A matrz de correlação de trabalho representa a correlação entre as meddas fetas em um mesmo sujeto ou em sujetos de um mesmo grupo. Seu tamanho é determnado pelo número de meddas fetas no sujeto (ou pelo número de sujetos no grupo). É possível especfcar uma das seguntes estruturas para essa matrz: Independente: Assume-se que as observações de um mesmo ndvíduo (ou de ndvíduos de um mesmo grupo) não são correlaconadas. Permutável: Assume-se que a correlação entre as observações de ndvíduos de um mesmo grupo é a mesma. Esta matrz de correlação é utlzada quando não é possível estabelecer uma ordem lógca entre as meddas repetdas. Auto-regressva de ª ordem AR(): Assume-se que as meddas repetdas têm uma relação auto-regressva de prmera ordem. Ou seja, a correlação entre dos elementos quasquer é gual a r para elementos dstantes a uma posção, r para elementos dstantes a duas posções, e assm por dante. Desse modo, as correlações dmnuem à medda que os elementos se afastam da dagonal prncpal da matrz. Esta matrz é a mas ndcada para estudos com meddas repetdas ao longo do tempo 4, quando se assume que as correlações tornam-se mas fracas ao longo do tempo. M-dependente: Assume-se que as correlações a t meddas de dstânca são guas, que as correlações a t + meddas de dstânca são guas, e assm por dante de t =,..., t = m. Assume também que meddas muto dstantes ( > m) não são correlaconadas. 94

96 Não estruturada: É o caso mas geral, onde se assume que entre cada medda repetda há um valor de correlação dferente. A especfcação da forma correta da matrz de correlação aumenta a efcênca das estmatvas dos parâmetros do modelo 4, o que é partcularmente mportante quando a correlação entre as respostas for alta. Porém, o modelo é robusto a erros na especfcação na estrutura de correlação porque estmatvas dos parâmetros de regressão permanecem consstentes; portanto, a efcênca ganha pela especfcação exata da estrutura de correlação é geralmente pequena 3. GEEs estmam coefcentes de regressão e erros padrões com dstrbuções amostras assntotcamente normas 3. Podem ser utlzados para testar efetos prncpas e nterações, e podem ser usados para avalar varáves ndependentes categórcas ou contínuas. Justfcatva A mortaldade nfantl tem sdo freqüentemente apontada como ndcador sensível da qualdade de vda de uma população, determnada em sua dmensão mas ampla pelas condções socas, econômcas e culturas dos ndvíduos e da comundade a que pertencem. A taxa de nascmentos múltplos aumentou aproxmadamente 30% nos últmos anos (de.95% em 994 fo para.53% em 005) 8. Estudos sugerem que a taxa de mortaldade nfantl é maor para gestação múltpla (gêmeos ou trgêmeos) do que em uma gestação únca 6,9. Consderando esta tendênca de aumento da taxa de gemelardade, exste uma preocupação crescente para um aumento do rsco de morte precoce para gêmeos e trgêmeos quando comparados aos nascmentos úncos. Em comparação à gestação únca, o excesso de rsco para mortaldade tem sdo atrbuído à curta duração gestaconal e maor freqüênca de restrção de crescmento fetal,0-. Estas nferêncas, dervadas de abordagens convenconas, 95

97 assumem que os resultados das gestações múltplas são ndependentes 9. No entanto, é sabdo que fetos de uma mesma gestação são mas semelhantes do que os de gestações dferentes e, portanto, as suas respostas são susceptíves a serem correlaconadas uma com a outra. Em estudos com gêmeos, a probabldade de um resultado negatvo, tal como a morte neonatal e pernatal, por um dos gêmeos fo fortemente aumentada se o co-gêmeo também apresentou esse resultado 3. Ananth e Presser sugerem que uma gravdez múltpla como a de gêmeos e trgêmeos seja um conglomerado natural em que as respostas dos fetos são nterdependentes ou agregadas. Desse modo, torna-se necessáro utlzar um modelo aproprado para dados correlaconados. Objetvos Comparar as dferentes estruturas de correlação do GEE a fm de escolher o modelo mas adequado para estudar fatores de rsco para mortaldade nfantl em cranças nascdas de gravdez múltpla (gêmeos, trgêmeos ou de ordem superor). Identfcar prncpas fatores de rsco para mortaldade nfantl em cranças nascdas de gravdez múltpla (gêmeos, trgêmeos ou de ordem superor). Metodologa Serão utlzadas nas análses nformações de todas as cranças nascdas de gravdez múltpla (gêmeos, trgêmeos ou de ordem superor) ocorrdos em Porto Alegre no período de 995 a 007. Essas nformações serão obtdas através de dados do Sstema de Informações de Nascdos Vvos (SINASC), desenvolvdo através de nformações da Declaração de Nascmento (DN) e do Sstema de Informações de Mortaldade (SIM), obtdo por ntermédo das nformações da Declaração de Óbto (DO) do muncípo de Porto Alegre no período estudado. Os bancos SIM e SINASC serão unfcados e recodfcados. Um banco de dados 96

98 secundáro será elaborado com objetvo de unfcar a codfcação das varáves exstentes no SINASC e SIM. Com utlzação de um algortmo específco serão unfcados os bancos de dados do SINASC e SIM através, ncalmente, do nome e da mãe, da data de nascmento e do número da Declaração de Nascdo Vvo. Para as análses, serão utlzadas as seguntes varáves: - Varável dependente - Natmortaldade (óbto fetal). - Mortaldade. - Varáves ndependentes: - Sóco-Demográfcas: Idade, Escolardade, número de flhos vvos e número de flhos mortos da mãe. - Geográfcas: Local e estabelecmento da ocorrênca do parto e/ou do óbto. - Assstênca pré e pernatas: Tpo de gravdez (gêmeos, trgêmeos ou ordem superor), Duração da gestação, Tpo de parto, Número de consultas pré-natal. - Informações do recém-nascdo: Ordem de nascmento (a partr da data e hora da nascmento), Peso ao nascer, Sexo, Índce de Apgar. Na escolha do melhor modelo será utlzado o crtéro de quas-verossmlhança sob o modelo de ndependênca (Quas Lkelhood under Independence Model Crteron - QIC) proposto por Pan 6. O autor propôs o QIC como uma modfcação do AIC para ser utlzado no GEE, na qual o valor da função de verossmlhança obtdo pelo AIC é substtuído por um 97

99 valor da função de quas-verossmlhança, supondo que R ( ) = I e o ajuste aproprado é feto para o termo de penaldade. Do mesmo modo que para o AIC, quanto menor o valor do QIC e do QICc, melhor o modelo. O QIC é usado para escolher a melhor estrutura de correlação de trabalho e o QICc é usado para escolher o melhor subconjunto de predtores. Para o procedmento de lnkagem probablístca será utlzado o programa lnk plus versão 9.0. As análses estatístcas serão realzadas no SPSS (Statstcal Package for Socal Scences) versão 6.0 e STATA versão 9.0. Rscos Trata-se de estudo de rsco mínmo utlzando dados secundáros do Banco de dados do Sstema de Informações de Nascdos Vvos (SINASC), do período de 995 a 007, desenvolvdo através de nformações obtdas da Declaração de Nascmento (DN) e do Sstema de Informações de Mortaldade (SIM), do período de 995 a 007, obtdo por ntermédo das nformações da Declaração de Óbto (DO) do muncípo de Porto Alegre no período estudado. Benefícos O estudo trará esclarecmentos sobre o melhor método estatístco para os determnantes de nascmento e de morte para recém nascdos orundos de gestações múltplas (gêmeos, trgêmeos). O estudo dentfcara fatores de rsco para morte nestes recém nascdos. Aspectos étcos partcpantes. Trata-se de um estudo observaconal, aonde não haverá dvulgação da dentdade dos 98

100 O projeto fo aprovado pelo Comtê de Étca em Pesqusa da Secretara Muncpal de Saúde, no da 6 de setembro de 008, medante protocolo de nº Para o acesso e a utlzação das nformações constantes nos bancos de dados (SINASC e SIM) fo preenchdo e assnado um Termo de Compromsso para Utlzação de Dados junto à Equpe de Informação em Saúde da Coordenação Geral de Vglânca Santára (EIS/CGVS) da Secretara Muncpal de Saúde. De acordo com a resolução 96/96 do Conselho Naconal de Saúde, o presente projeto não apresenta rsco para seres humanos e conflto de nteresses. Cronograma Tarefa J J A S O N D J F M A M J J A S O N D J Revsão da lteratura x x x x x x x x x x x x x Apresentação do anteprojeto x x Encamnhamento do projeto ao Comtê de Étca x x Preparação do banco de dados* x x x x Análse dos dados* x x x x Redação da dssertação e artgo x x x x x x x x x x x x x x x x x Defesa prelmnar x Correções x Sessão públca x *A preparação e análse do banco de dados se ncará somente após a aprovação do projeto pelo Comtê de Étca. 99

101 Orçamento Atvdades e Equpamentos Reas (R$) Materal de Escrtóro (folhas e tnta para mpressão) 350,00 Pen drve 4GB 70,00 Preparação de materal para eventos (pôsteres) 50,00 Revsão da Lteratura (BIREME e fotocópas) 00,00 Lvro ddátco 0,00 Total 880,00 Os custos deste projeto serão de responsabldade do pesqusador. Referêncas bblográfcas - Alexander GR, Kogan M, Martn J, Papernk E. What are the fetal growth patterns of sngletons, twns, and trplets n the Unted States? Cln Obstet Gynecol 998; 4: Aertz DRGC. Investgação dos óbtos pernatas e nfants: seu uso no planejamento de polítcas públcas de saúde. J Pedatr 997; 73: Ananth CV, Presser JS. Bvarate logstc regresson: modellng the assocaton of small for gestatonal age brths n twn gestatons. Stat Med 999; 8: Ballnger GA. Usng Generalzed Estmatng Equatons for Longtudnal Data Analyss. Organzatonal Research Methods 004; 7(): Carln JB, Gurrn LC, Sterne JAC, Morley R, Dwyer T. Regresson models for twn studes: a crtcal revew. Int J Epdemol 005; 34(5): Ferguson WF. Pernatal mortalty n multple pregnancy. A revew of pernatal deaths from 609 multple gestatons. Obstetrcs Gynecology 964; 3: Ftzmaurce GM. Clustered data. Nutrton 00; 7: Homrch da Slva C, Goldan MZ, Slva AAM, Agranonk M, Bettol H, Barber MA, Rona R. The rse of multple brths n Brazl. Acta Paedatrca 008; 96:

102 9 - Huang JS, Lu SE, Ananth CV. The clusterng of neonatal deaths n trplet pregnances: applcaton of response condtonal multvarate logstc regresson modes. Journal of Clncal Epdemology 003; 56: Imazum Y. Infant mortalty rates n sngle, twn and trplet brths, and nfluencng factors n Japan, Paedatr Pernat Epdemol 00; 5: Kaufman GE, Malone FD,Harvey-Wlkes K, Chelmow D, Penzas AS, D Alton ME. Neonatal morbdty and mortalty assocated wth trplet pregnancy. Obstet Gynecol 998; 9: Kely JL. The epdemology of pernatal mortalty n multple brths. Bull NY Acad Med 990; 66: Lang K-Y & Zeger SL. Longtudnal data analyss usng generalzed lnear models. Bometrka 986; 73: McCullagh, P & Nelder, JA. Generalzed lnear models (nd ed.). London: Chapman and Hal Nelder JA & Wedderburn RWM. Generalzed lnear models. Journal of the Royal Statstcal Socety, Seres A 97, 35: Pan W. Akake s nformaton crteron n generalzed estmatng equatons. Bometrcs 00; 57: Zeger SL & Lang K-Y. Longtudnal data analyss for dscrete and contnuous outcomes. Bometrcs 986; 4 (): Wedderburn RWM. Quas-lkelhood functons, generalzed lnear models, and the Gauss- Newton method. Bometrka 974; 6: Verduzco RD, Rosaro R, Rgarro H. Hyalne membrane dsease n twns: a 7-year revew wth a study on zygosty. Amercan Journal of Obstetrcs Gynecology 976; 5:

103 ANEXO B: APROVAÇÃO PELO COMITÊ DA ÉTICA E PESQUISA 0

104 03

105 ANEXO C: FORMULÁRIO DA DECLARAÇÃO DE NASCIDO VIVO 04

106 05

107 ANEXO D: FORMULÁRIO DA DECLARAÇÃO DE ÓBITO 06

108 07

O problema da superdispersão na análise de dados de contagens

O problema da superdispersão na análise de dados de contagens O problema da superdspersão na análse de dados de contagens 1 Uma das restrções mpostas pelas dstrbuções bnomal e Posson, aplcadas usualmente na análse de dados dscretos, é que o parâmetro de dspersão

Leia mais

O problema da superdispersão na análise de dados de contagens

O problema da superdispersão na análise de dados de contagens O problema da superdspersão na análse de dados de contagens 1 Uma das restrções mpostas pelas dstrbuções bnomal e Posson, aplcadas usualmente na análse de dados dscretos, é que o parâmetro de dspersão

Leia mais

Regressão Múltipla. Parte I: Modelo Geral e Estimação

Regressão Múltipla. Parte I: Modelo Geral e Estimação Regressão Múltpla Parte I: Modelo Geral e Estmação Regressão lnear múltpla Exemplos: Num estudo sobre a produtvdade de trabalhadores ( em aeronave, navos) o pesqusador deseja controlar o número desses

Leia mais

MODELOS DE REGRESSÃO PARAMÉTRICOS

MODELOS DE REGRESSÃO PARAMÉTRICOS MODELOS DE REGRESSÃO PARAMÉTRICOS Às vezes é de nteresse nclur na análse, característcas dos ndvíduos que podem estar relaconadas com o tempo de vda. Estudo de nsufcênca renal: verfcar qual o efeto da

Leia mais

DEFINIÇÃO - MODELO LINEAR GENERALIZADO

DEFINIÇÃO - MODELO LINEAR GENERALIZADO DEFINIÇÃO - MODELO LINEAR GENERALIZADO 1 Um modelo lnear generalzado é defndo pelos seguntes três componentes: Componente aleatóro; Componente sstemátco; Função de lgação; Componente aleatóro: Um conjunto

Leia mais

Os modelos de regressão paramétricos vistos anteriormente exigem que se suponha uma distribuição estatística para o tempo de sobrevivência.

Os modelos de regressão paramétricos vistos anteriormente exigem que se suponha uma distribuição estatística para o tempo de sobrevivência. MODELO DE REGRESSÃO DE COX Os modelos de regressão paramétrcos vstos anterormente exgem que se suponha uma dstrbução estatístca para o tempo de sobrevvênca. Contudo esta suposção, caso não sea adequada,

Leia mais

3 Metodologia de Avaliação da Relação entre o Custo Operacional e o Preço do Óleo

3 Metodologia de Avaliação da Relação entre o Custo Operacional e o Preço do Óleo 3 Metodologa de Avalação da Relação entre o Custo Operaconal e o Preço do Óleo Este capítulo tem como objetvo apresentar a metodologa que será empregada nesta pesqusa para avalar a dependênca entre duas

Leia mais

Prof. Lorí Viali, Dr.

Prof. Lorí Viali, Dr. Prof. Lorí Val, Dr. val@mat.ufrgs.br http://www.mat.ufrgs.br/~val/ É o grau de assocação entre duas ou mas varáves. Pode ser: correlaconal ou expermental. Prof. Lorí Val, Dr. UFRG Insttuto de Matemátca

Leia mais

REGRESSÃO NÃO LINEAR 27/06/2017

REGRESSÃO NÃO LINEAR 27/06/2017 7/06/07 REGRESSÃO NÃO LINEAR CUIABÁ, MT 07/ Os modelos de regressão não lnear dferencam-se dos modelos lneares, tanto smples como múltplos, pelo fato de suas varáves ndependentes não estarem separados

Leia mais

É o grau de associação entre duas ou mais variáveis. Pode ser: correlacional ou experimental.

É o grau de associação entre duas ou mais variáveis. Pode ser: correlacional ou experimental. Prof. Lorí Val, Dr. val@mat.ufrgs.br http://www.mat.ufrgs.br/~val/ É o grau de assocação entre duas ou mas varáves. Pode ser: correlaconal ou expermental. Numa relação expermental os valores de uma das

Leia mais

DIAGNÓSTICO EM MODELOS LINEARES GENERALIZADOS

DIAGNÓSTICO EM MODELOS LINEARES GENERALIZADOS DIAGNÓSTICO EM MODELOS LINEARES GENERALIZADOS 1 A análse de dagnóstco (ou dagnóstco do ajuste) confgura uma etapa fundamental no ajuste de modelos de regressão. O objetvo prncpal da análse de dagnóstco

Leia mais

4 Critérios para Avaliação dos Cenários

4 Critérios para Avaliação dos Cenários Crtéros para Avalação dos Cenáros É desejável que um modelo de geração de séres sntétcas preserve as prncpas característcas da sére hstórca. Isto quer dzer que a utldade de um modelo pode ser verfcada

Leia mais

Prof. Lorí Viali, Dr.

Prof. Lorí Viali, Dr. Prof. Lorí Val, Dr. val@mat.ufrgs.br http://www.mat.ufrgs.br/~val/ 1 É o grau de assocação entre duas ou mas varáves. Pode ser: correlaconal ou expermental. Numa relação expermental os valores de uma das

Leia mais

Modelo linear normal com erros heterocedásticos. O método de mínimos quadrados ponderados

Modelo linear normal com erros heterocedásticos. O método de mínimos quadrados ponderados Modelo lnear normal com erros heterocedástcos O método de mínmos quadrados ponderados Varâncas homogêneas Varâncas heterogêneas y y x x Fgura 1 Ilustração da dstrbução de uma varável aleatóra y (condconal

Leia mais

UNIDADE IV DELINEAMENTO INTEIRAMENTE CASUALIZADO (DIC)

UNIDADE IV DELINEAMENTO INTEIRAMENTE CASUALIZADO (DIC) UNDADE V DELNEAMENTO NTERAMENTE CASUALZADO (DC) CUABÁ, MT 015/ PROF.: RÔMULO MÔRA romulomora.webnode.com 1. NTRODUÇÃO Este delneamento apresenta como característca prncpal a necessdade de homogenedade

Leia mais

Métodos Avançados em Epidemiologia

Métodos Avançados em Epidemiologia Unversdade Federal de Mnas Geras Insttuto de Cêncas Exatas Departamento de Estatístca Métodos Avançados em Epdemologa Aula 5-1 Regressão Lnear Smples: Estmação e Interpretação da Reta Tabela ANOVA e R

Leia mais

Prof. Lorí Viali, Dr.

Prof. Lorí Viali, Dr. Prof. Lorí Val, Dr. vall@mat.ufrgs.br http://www.mat.ufrgs.br/~val/ Em mutas stuações duas ou mas varáves estão relaconadas e surge então a necessdade de determnar a natureza deste relaconamento. A análse

Leia mais

Modelo linear clássico com erros heterocedásticos. O método de mínimos quadrados ponderados

Modelo linear clássico com erros heterocedásticos. O método de mínimos quadrados ponderados Modelo lnear clássco com erros heterocedástcos O método de mínmos quadrados ponderados 1 Varâncas homogêneas Varâncas heterogêneas y y x x Fgura 1 Ilustração da dstrbução de uma varável aleatóra y (condconal

Leia mais

Variação ao acaso. É toda variação devida a fatores não controláveis, denominadas erro.

Variação ao acaso. É toda variação devida a fatores não controláveis, denominadas erro. Aplcação Por exemplo, se prepararmos uma área expermental com todo cudado possível e fzermos, manualmente, o planto de 100 sementes seleconadas de um mlho híbrdo, cudando para que as sementes fquem na

Leia mais

3 A técnica de computação intensiva Bootstrap

3 A técnica de computação intensiva Bootstrap A técnca de computação ntensva ootstrap O termo ootstrap tem orgem na expressão de língua nglesa lft oneself by pullng hs/her bootstrap, ou seja, alguém levantar-se puxando seu própro cadarço de bota.

Leia mais

Associação entre duas variáveis quantitativas

Associação entre duas variáveis quantitativas Exemplo O departamento de RH de uma empresa deseja avalar a efcáca dos testes aplcados para a seleção de funconáros. Para tanto, fo sorteada uma amostra aleatóra de 50 funconáros que fazem parte da empresa

Leia mais

2 Incerteza de medição

2 Incerteza de medição 2 Incerteza de medção Toda medção envolve ensaos, ajustes, condconamentos e a observação de ndcações em um nstrumento. Este conhecmento é utlzado para obter o valor de uma grandeza (mensurando) a partr

Leia mais

1. CORRELAÇÃO E REGRESSÃO LINEAR

1. CORRELAÇÃO E REGRESSÃO LINEAR 1 CORRELAÇÃO E REGREÃO LINEAR Quando deseja-se estudar se exste relação entre duas varáves quanttatvas, pode-se utlzar a ferramenta estatístca da Correlação Lnear mples de Pearson Quando essa correlação

Leia mais

Análise de Regressão Linear Múltipla VII

Análise de Regressão Linear Múltipla VII Análse de Regressão Lnear Múltpla VII Aula 1 Hej et al., 4 Seções 3. e 3.4 Hpótese Lnear Geral Seja y = + 1 x 1 + x +... + k x k +, = 1,,..., n. um modelo de regressão lnear múltpla, que pode ser escrto

Leia mais

Análise de Variância. Comparação de duas ou mais médias

Análise de Variância. Comparação de duas ou mais médias Análse de Varânca Comparação de duas ou mas médas Análse de varânca com um fator Exemplo Um expermento fo realzado para se estudar dabetes gestaconal. Desejava-se avalar o comportamento da hemoglobna (HbA)

Leia mais

Testes não-paramétricos

Testes não-paramétricos Testes não-paramétrcos Prof. Lorí Val, Dr. http://www.mat.ufrgs.br/val/ val@mat.ufrgs.br Um teste não paramétrco testa outras stuações que não parâmetros populaconas. Estas stuações podem ser relaconamentos,

Leia mais

NOÇÕES SOBRE CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES

NOÇÕES SOBRE CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES NOÇÕES SOBRE CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES 1 O nosso objetvo é estudar a relação entre duas varáves quanttatvas. Eemplos:. Idade e altura das cranças.. v. Tempo de prátca de esportes e rtmo cardíaco

Leia mais

Eventos coletivamente exaustivos: A união dos eventos é o espaço amostral.

Eventos coletivamente exaustivos: A união dos eventos é o espaço amostral. DEFINIÇÕES ADICIONAIS: PROBABILIDADE Espaço amostral (Ω) é o conjunto de todos os possíves resultados de um expermento. Evento é qualquer subconjunto do espaço amostral. Evento combnado: Possu duas ou

Leia mais

Capítulo 1. Exercício 5. Capítulo 2 Exercício

Capítulo 1. Exercício 5. Capítulo 2 Exercício UNIVERSIDADE FEDERAL DE GOIÁS CIÊNCIAS ECONÔMICAS ECONOMETRIA (04-II) PRIMEIRA LISTA DE EXERCÍCIOS Exercícos do Gujarat Exercíco 5 Capítulo Capítulo Exercíco 3 4 5 7 0 5 Capítulo 3 As duas prmeras demonstrações

Leia mais

Cap. 11 Correlação e Regressão

Cap. 11 Correlação e Regressão Estatístca para Cursos de Engenhara e Informátca Pedro Alberto Barbetta / Marcelo Menezes Res / Antono Cezar Borna São Paulo: Atlas, 2004 Cap. 11 Correlação e Regressão APOIO: Fundação de Apoo à Pesqusa

Leia mais

Programa do Curso. Sistemas Inteligentes Aplicados. Análise e Seleção de Variáveis. Análise e Seleção de Variáveis. Carlos Hall

Programa do Curso. Sistemas Inteligentes Aplicados. Análise e Seleção de Variáveis. Análise e Seleção de Variáveis. Carlos Hall Sstemas Intelgentes Aplcados Carlos Hall Programa do Curso Lmpeza/Integração de Dados Transformação de Dados Dscretzação de Varáves Contínuas Transformação de Varáves Dscretas em Contínuas Transformação

Leia mais

Análise de Regressão

Análise de Regressão Análse de Regressão método estatístco que utlza relação entre duas ou mas varáves de modo que uma varável pode ser estmada (ou predta) a partr da outra ou das outras Neter, J. et al. Appled Lnear Statstcal

Leia mais

Análise Exploratória de Dados

Análise Exploratória de Dados Análse Exploratóra de Dados Objetvos Análse de duas varáves quanttatvas: traçar dagramas de dspersão, para avalar possíves relações entre as duas varáves; calcular o coefcente de correlação entre as duas

Leia mais

MOQ-14 PROJETO E ANÁLISE DE EXPERIMENTOS LISTA DE EXERCÍCIOS 1 REGRESSÃO LINEAR SIMPLES

MOQ-14 PROJETO E ANÁLISE DE EXPERIMENTOS LISTA DE EXERCÍCIOS 1 REGRESSÃO LINEAR SIMPLES MOQ-14 PROJETO E ANÁLISE DE EXPERIMENTOS LISTA DE EXERCÍCIOS 1 REGRESSÃO LINEAR SIMPLES 1. Obtenha os estmadores dos coefcentes lnear e angular de um modelo de regressão lnear smples utlzando o método

Leia mais

Análise de Regressão. Profa Alcione Miranda dos Santos Departamento de Saúde Pública UFMA

Análise de Regressão. Profa Alcione Miranda dos Santos Departamento de Saúde Pública UFMA Análse de Regressão Profa Alcone Mranda dos Santos Departamento de Saúde Públca UFMA Introdução Uma das preocupações estatístcas ao analsar dados, é a de crar modelos que explctem estruturas do fenômeno

Leia mais

Gabarito da Lista de Exercícios de Econometria I

Gabarito da Lista de Exercícios de Econometria I Gabarto da sta de Exercícos de Econometra I Professor: Rogéro lva Mattos Montor: eonardo enrque A. lva Questão Y X y x xy x ŷ ˆ ˆ y ŷ (Y - Y ) (X - X ) (Ŷ - Y ) 360 00-76 -00 35.00 40.000 36-4 30.976 3076

Leia mais

MOQ-14 PROJETO e ANÁLISE de EXPERIMENTOS. Professor: Rodrigo A. Scarpel

MOQ-14 PROJETO e ANÁLISE de EXPERIMENTOS. Professor: Rodrigo A. Scarpel MOQ-4 PROJETO e ANÁLISE de EPERIMENTOS Professor: Rodrgo A. Scarpel rodrgo@ta.br www.mec.ta.br/~rodrgo Programa do curso: Semana Conteúdo Apresentação da dscplna. Prncípos de modelos lneares de regressão.

Leia mais

Curso de extensão, MMQ IFUSP, fevereiro/2014. Alguns exercício básicos

Curso de extensão, MMQ IFUSP, fevereiro/2014. Alguns exercício básicos Curso de extensão, MMQ IFUSP, feverero/4 Alguns exercíco báscos I Exercícos (MMQ) Uma grandeza cujo valor verdadero x é desconhecdo, fo medda três vezes, com procedmentos expermentas dêntcos e, portanto,

Leia mais

AULA EXTRA Análise de Regressão Logística

AULA EXTRA Análise de Regressão Logística 1 AULA EXTRA Análse de Regressão Logístca Ernesto F. L. Amaral 13 de dezembro de 2012 Metodologa de Pesqusa (DCP 854B) VARIÁVEL DEPENDENTE BINÁRIA 2 O modelo de regressão logístco é utlzado quando a varável

Leia mais

Gráficos de Controle para Processos Autocorrelacionados

Gráficos de Controle para Processos Autocorrelacionados Gráfcos de Controle para Processos Autocorrelaconados Gráfco de controle de Shewhart: observações ndependentes e normalmente dstrbuídas. Shewhart ao crar os gráfcos de controle não exgu que os dados fossem

Leia mais

MOQ-14 PROJETO e ANÁLISE de EXPERIMENTOS. Professor: Rodrigo A. Scarpel

MOQ-14 PROJETO e ANÁLISE de EXPERIMENTOS. Professor: Rodrigo A. Scarpel MOQ-4 PROJETO e ANÁLISE de EPERIMENTOS Professor: Rodrgo A. Scarpel rodrgo@ta.br www.mec.ta.br/~rodrgo Programa do curso: Semana Conteúdo Apresentação da dscplna. Prncípos de modelos lneares de regressão.

Leia mais

DELINEAMENTOS EXPERIMENTAIS

DELINEAMENTOS EXPERIMENTAIS SUMÁRIO 1 Delneamentos Expermentas 2 1.1 Delneamento Interamente Casualzado..................... 2 1.2 Delneamento Blocos Casualzados (DBC).................... 3 1.3 Delneamento Quadrado Latno (DQL)......................

Leia mais

Estatística II Antonio Roque Aula 18. Regressão Linear

Estatística II Antonio Roque Aula 18. Regressão Linear Estatístca II Antono Roque Aula 18 Regressão Lnear Quando se consderam duas varáves aleatóras ao mesmo tempo, X e Y, as técncas estatístcas aplcadas são as de regressão e correlação. As duas técncas estão

Leia mais

7 - Distribuição de Freqüências

7 - Distribuição de Freqüências 7 - Dstrbução de Freqüêncas 7.1 Introdução Em mutas áreas há uma grande quantdade de nformações numércas que precsam ser dvulgadas de forma resumda. O método mas comum de resumr estes dados numércos consste

Leia mais

CAPÍTULO 2 DESCRIÇÃO DE DADOS ESTATÍSTICA DESCRITIVA

CAPÍTULO 2 DESCRIÇÃO DE DADOS ESTATÍSTICA DESCRITIVA CAPÍTULO DESCRIÇÃO DE DADOS ESTATÍSTICA DESCRITIVA. A MÉDIA ARITMÉTICA OU PROMÉDIO Defnção: é gual a soma dos valores do grupo de dados dvdda pelo número de valores. X x Soma dos valores de x número de

Leia mais

CORRELAÇÃO E REGRESSÃO

CORRELAÇÃO E REGRESSÃO CORRELAÇÃO E REGRESSÃO Constata-se, freqüentemente, a estênca de uma relação entre duas (ou mas) varáves. Se tal relação é de natureza quanttatva, a correlação é o nstrumento adequado para descobrr e medr

Leia mais

Universidade de São Paulo Escola Superior de Agricultura Luiz de Queiroz Departamento de Ciências Exatas

Universidade de São Paulo Escola Superior de Agricultura Luiz de Queiroz Departamento de Ciências Exatas Unversdade de São Paulo Escola Superor de Agrcultura Luz de Queroz Departamento de Cêncas Exatas Prova escrta de seleção para DOUTORADO em Estatístca e Expermentação Agronômca Nome do canddato (a): Questão

Leia mais

RISCO. Investimento inicial $ $ Taxa de retorno anual Pessimista 13% 7% Mais provável 15% 15% Otimista 17% 23% Faixa 4% 16%

RISCO. Investimento inicial $ $ Taxa de retorno anual Pessimista 13% 7% Mais provável 15% 15% Otimista 17% 23% Faixa 4% 16% Análse de Rsco 1 RISCO Rsco possbldade de perda. Quanto maor a possbldade, maor o rsco. Exemplo: Empresa X va receber $ 1.000 de uros em 30 das com títulos do governo. A empresa Y pode receber entre $

Leia mais

Estatística Espacial: Dados de Área

Estatística Espacial: Dados de Área Estatístca Espacal: Dados de Área Dstrbução do número observado de eventos Padronzação e SMR Mapas de Probabldades Mapas com taxas empírcas bayesanas Padronzação Para permtr comparações entre dferentes

Leia mais

Contabilometria. Aula 8 Regressão Linear Simples

Contabilometria. Aula 8 Regressão Linear Simples Contalometra Aula 8 Regressão Lnear Smples Orgem hstórca do termo Regressão Le da Regressão Unversal de Galton 1885 Galton verfcou que, apesar da tendênca de que pas altos tvessem flhos altos e pas axos

Leia mais

Regressão Logística Aplicada aos Casos de Sífilis Congênita no Estado do Pará

Regressão Logística Aplicada aos Casos de Sífilis Congênita no Estado do Pará Regressão Logístca Aplcada aos Casos de Sífls Congênta no Estado do Pará Crstane Nazaré Pamplona de Souza 1 Vanessa Ferrera Montero 1 Adrlayne dos Res Araújo 2 Edson Marcos Leal Soares Ramos 2 1 Introdução

Leia mais

Análise de influência

Análise de influência Análse de nfluênca Dzemos que uma observação é nfluente caso ela altere, de forma substancal, alguma propredade do modelo ajustado (como as estmatvas dos parâmetros, seus erros padrões, valores ajustados...).

Leia mais

RAD1507 Estatística Aplicada à Administração I Prof. Dr. Evandro Marcos Saidel Ribeiro

RAD1507 Estatística Aplicada à Administração I Prof. Dr. Evandro Marcos Saidel Ribeiro UNIVERIDADE DE ÃO PAULO FACULDADE DE ECONOMIA, ADMINITRAÇÃO E CONTABILIDADE DE RIBEIRÃO PRETO DEPARTAMENTO DE ADMINITRAÇÃO RAD1507 Estatístca Aplcada à Admnstração I Prof. Dr. Evandro Marcos adel Rbero

Leia mais

3 Algoritmos propostos

3 Algoritmos propostos Algortmos propostos 3 Algortmos propostos Nesse trabalho foram desenvolvdos dos algortmos que permtem classfcar documentos em categoras de forma automátca, com trenamento feto por usuáros Tas algortmos

Leia mais

MODELAGEM CONJUNTA DE MÉDIA E VARIÂNCIA EM EXPERIMENTOS FRACIONADOS SEM REPETIÇÃO UTILIZANDO GLM

MODELAGEM CONJUNTA DE MÉDIA E VARIÂNCIA EM EXPERIMENTOS FRACIONADOS SEM REPETIÇÃO UTILIZANDO GLM UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL ESCOLA DE ENGENHARIA PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA DE PRODUÇÃO MODELAGEM CONJUNTA DE MÉDIA E VARIÂNCIA EM EXPERIMENTOS FRACIONADOS SEM REPETIÇÃO UTILIZANDO

Leia mais

Análise de Regressão Linear Múltipla IV

Análise de Regressão Linear Múltipla IV Análse de Regressão Lnear Múltpla IV Aula 7 Guarat e Porter, 11 Capítulos 7 e 8 He et al., 4 Capítulo 3 Exemplo Tomando por base o modelo salaro 1educ anosemp exp prev log 3 a senhorta Jole, gerente do

Leia mais

PRESSUPOSTOS DO MODELO DE REGRESSÃO

PRESSUPOSTOS DO MODELO DE REGRESSÃO PREUPOTO DO MODELO DE REGREÃO A aplcação do modelo de regressão lnear múltpla (bem como da smples) pressupõe a verfcação de alguns pressupostos que condensamos segudamente.. Os erros E são varáves aleatóras

Leia mais

Nome: Nº: Estatística para Economia e Gestão Licenciaturas em Economia e Gestão. 2.º Semestre de 2008/2009

Nome: Nº: Estatística para Economia e Gestão Licenciaturas em Economia e Gestão. 2.º Semestre de 2008/2009 Estatístca para Economa e Gestão Lcencaturas em Economa e Gestão.º Semestre de 008/009 Exame Fnal (.ª Época) 16 de Junho de 009; 17h30m Duração: 10 mnutos INSTRUÇÕES Escreva o nome e número de aluno em

Leia mais

Identidade dos parâmetros de modelos segmentados

Identidade dos parâmetros de modelos segmentados Identdade dos parâmetros de modelos segmentados Dana Campos de Olvera Antono Polcarpo Souza Carnero Joel Augusto Munz Fabyano Fonseca e Slva 4 Introdução No Brasl, dentre os anmas de médo porte, os ovnos

Leia mais

Regressão Linear Simples. Frases. Roteiro

Regressão Linear Simples. Frases. Roteiro Regressão Lnear Smples Frases Por serem mas precsos que as palavras, os números são partcularmente adequados para transmtr conclusões centífcas Pagano e Gauvre, 4 Rotero. Modelagem de Relação. Modelo Lnear

Leia mais

R X. X(s) Y Y(s) Variáveis aleatórias discretas bidimensionais

R X. X(s) Y Y(s) Variáveis aleatórias discretas bidimensionais 30 Varáves aleatóras bdmensonas Sea ε uma experênca aleatóra e S um espaço amostral assocado a essa experênca. Seam X X(s) e Y Y(s) duas funções cada uma assocando um número real a cada resultado s S.

Leia mais

Classificação de Padrões

Classificação de Padrões Classfcação de Padrões Introdução Classfcadores Paramétrcos Classfcadores Sem-paramétrcos Redução da Dmensonaldade Teste de Sgnfcânca 6.345 Sstema de Reconhecmento de Voz Teora Acústca da Produção de Voz

Leia mais

FACULDADE DE ECONOMIA DO PORTO. Licenciatura em Economia E C O N O M E T R I A II

FACULDADE DE ECONOMIA DO PORTO. Licenciatura em Economia E C O N O M E T R I A II FACULDADE DE ECONOMIA DO PORTO Lcencatura em Economa E C O N O M E T R I A II (LEC310) Avalação dstrbuída - Teste global 25 de Junho de 2007 NOTAS PRÉVIAS: 1. A prova tem duração de 2 horas. 2. Apenas

Leia mais

Modelo Logístico. Modelagem multivariável com variáveis quantitativas e qualitativas, com resposta binária.

Modelo Logístico. Modelagem multivariável com variáveis quantitativas e qualitativas, com resposta binária. Modelagem multvarável com varáves quanttatvas e qualtatvas, com resposta bnára. O modelo de regressão não lnear logístco ou modelo logístco é utlzado quando a varável resposta é qualtatva com dos resultados

Leia mais

Estatística I Licenciatura MAEG 2006/07

Estatística I Licenciatura MAEG 2006/07 Estatístca I Lcencatura MAEG 006/07 AMOSTRAGEM. DISTRIBUIÇÕES POR AMOSTRAGEM.. Em determnada unversdade verfca-se que 30% dos alunos têm carro. Seleccona-se uma amostra casual smples de 0 alunos. a) Qual

Leia mais

UMA ABORDAGEM ALTERNATIVA PARA O ENSINO DO MÉTODO DOS MÍNIMOS QUADRADOS NO NÍVEL MÉDIO E INÍCIO DO CURSO SUPERIOR

UMA ABORDAGEM ALTERNATIVA PARA O ENSINO DO MÉTODO DOS MÍNIMOS QUADRADOS NO NÍVEL MÉDIO E INÍCIO DO CURSO SUPERIOR UNIVERSIDADE FEDERAL DE JUIZ DE FORA INSTITUTO DE CIÊNCIAS EATAS DEPARTAMENTO DE ESTATÍSTICA UMA ABORDAGEM ALTERNATIVA PARA O ENSINO DO MÉTODO DOS MÍNIMOS QUADRADOS NO NÍVEL MÉDIO E INÍCIO DO CURSO SUPERIOR

Leia mais

X = 1, se ocorre : VB ou BV (vermelha e branca ou branca e vermelha)

X = 1, se ocorre : VB ou BV (vermelha e branca ou branca e vermelha) Estatístca p/ Admnstração II - Profª Ana Cláuda Melo Undade : Probabldade Aula: 3 Varável Aleatóra. Varáves Aleatóras Ao descrever um espaço amostral de um expermento, não especfcamos que um resultado

Leia mais

Ao se calcular a média, moda e mediana, temos: Quanto mais os dados variam, menos representativa é a média.

Ao se calcular a média, moda e mediana, temos: Quanto mais os dados variam, menos representativa é a média. Estatístca Dscplna de Estatístca 0/ Curso de Admnstração em Gestão Públca Profª. Me. Valéra Espíndola Lessa e-mal: lessavalera@gmal.com Meddas de Dspersão Indcam se os dados estão, ou não, prómos uns dos

Leia mais

Modelagem da proporção de produtos defeituosos usando Modelo de Quase-verossimilhança

Modelagem da proporção de produtos defeituosos usando Modelo de Quase-verossimilhança XXV Encontro Nac. de Eng. de Produção Porto Alegre, RS, Brasl, 29 out a 01 de nov de 2005 Modelagem da proporção de produtos defetuosos usando Modelo de Quase-verossmlhança Ângelo Márco O. Sant Anna (UFRGS)

Leia mais

5 Métodos de cálculo do limite de retenção em função da ruína e do capital inicial

5 Métodos de cálculo do limite de retenção em função da ruína e do capital inicial 5 Métodos de cálculo do lmte de retenção em função da ruína e do captal ncal Nesta dssertação serão utlzados dos métodos comparatvos de cálculo de lmte de retenção, onde ambos consderam a necessdade de

Leia mais

CURSO de ESTATÍSTICA Gabarito

CURSO de ESTATÍSTICA Gabarito UNIVERSIDADE FEDERAL FLUMINENSE TRANSFERÊNCIA o semestre letvo de 010 e 1 o semestre letvo de 011 CURSO de ESTATÍSTICA Gabarto INSTRUÇÕES AO CANDIDATO Verfque se este caderno contém: PROVA DE REDAÇÃO com

Leia mais

Teoria da Regressão Espacial Aplicada a. Sérgio Alberto Pires da Silva

Teoria da Regressão Espacial Aplicada a. Sérgio Alberto Pires da Silva Teora da Regressão Espacal Aplcada a Modelos Genércos Sérgo Alberto Pres da Slva ITENS DE RELACIONAMENTOS Tópcos Báscos da Regressão Espacal; Banco de Dados Geo-Referencados; Modelos Genércos Robustos;

Leia mais

PROVA DE ESTATÍSTICA & PROBABILIDADES SELEÇÃO MESTRADO/UFMG 2010/2011

PROVA DE ESTATÍSTICA & PROBABILIDADES SELEÇÃO MESTRADO/UFMG 2010/2011 Instruções: PROVA DE ESTATÍSTICA & PROBABILIDADES SELEÇÃO MESTRADO/UFMG 00/0 Cada uestão respondda corretamente vale (um) ponto. Cada uestão respondda ncorretamente vale - (menos um) ponto. Cada uestão

Leia mais

Teoria Elementar da Probabilidade

Teoria Elementar da Probabilidade 10 Teora Elementar da Probabldade MODELOS MATEMÁTICOS DETERMINÍSTICOS PROBABILÍSTICOS PROCESSO (FENÓMENO) ALEATÓRIO - Quando o acaso nterfere na ocorrênca de um ou mas dos resultados nos quas tal processo

Leia mais

Análise Exploratória de Dados

Análise Exploratória de Dados Análse Exploratóra de Dados Objetvos Análse de duas varáves quanttatvas: obter uma reta que se ajuste aos dados segundo o crtéro de mínmos quadrados; apresentar outros crtéros para a determnação de uma

Leia mais

Tabela 1. Porcentagem de crianças imunizadas contra DPT e taxa de mortalidade de menores de 5 anos para 20 países, 1992.

Tabela 1. Porcentagem de crianças imunizadas contra DPT e taxa de mortalidade de menores de 5 anos para 20 países, 1992. Regressão Lnear Algumas vezes estamos nteressados não apenas se exste assocação entre duas varáves quanttatvas x e y, mas nós temos também uma hpótese a respeto de uma provável relação de causa e efeto

Leia mais

Figura 8.1: Distribuição uniforme de pontos em uma malha uni-dimensional. A notação empregada neste capítulo para avaliação da derivada de uma

Figura 8.1: Distribuição uniforme de pontos em uma malha uni-dimensional. A notação empregada neste capítulo para avaliação da derivada de uma Capítulo 8 Dferencação Numérca Quase todos os métodos numércos utlzados atualmente para obtenção de soluções de equações erencas ordnáras e parcas utlzam algum tpo de aproxmação para as dervadas contínuas

Leia mais

MÉTODO DE ORIENTAÇÃO À MODELAGEM DE

MÉTODO DE ORIENTAÇÃO À MODELAGEM DE UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL ESCOLA DE ENGENHARIA PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA DE PRODUÇÃO MÉTODO DE ORIENTAÇÃO À MODELAGEM DE DADOS MENSURADOS EM PROPORÇÃO Ângelo Márco Olvera

Leia mais

5 Relação entre Análise Limite e Programação Linear 5.1. Modelo Matemático para Análise Limite

5 Relação entre Análise Limite e Programação Linear 5.1. Modelo Matemático para Análise Limite 5 Relação entre Análse Lmte e Programação Lnear 5.. Modelo Matemátco para Análse Lmte Como fo explcado anterormente, a análse lmte oferece a facldade para o cálculo da carga de ruptura pelo fato de utlzar

Leia mais

INSTITUTO POLITÉCNICO DE VISEU ESCOLA SUPERIOR DE TECNOLOGIA E GESTÃO

INSTITUTO POLITÉCNICO DE VISEU ESCOLA SUPERIOR DE TECNOLOGIA E GESTÃO Área Centfca Curso Matemátca Engenhara Electrotécnca º Semestre º 00/0 Fcha nº 9. Um artgo da revsta Wear (99) apresenta dados relatvos à vscosdade do óleo e ao desgaste do aço maco. A relação entre estas

Leia mais

Ao se calcular a média, moda e mediana, temos: Quanto mais os dados variam, menos representativa é a média.

Ao se calcular a média, moda e mediana, temos: Quanto mais os dados variam, menos representativa é a média. Estatístca Dscplna de Estatístca 0/ Curso Superor de tecnólogo em Gestão Ambental Profª. Me. Valéra Espíndola Lessa e-mal: lessavalera@gmal.com Meddas de Dspersão Indcam se os dados estão, ou não, prómos

Leia mais

3 Elementos de modelagem para o problema de controle de potência

3 Elementos de modelagem para o problema de controle de potência 3 Elementos de modelagem para o problema de controle de potênca Neste trabalho assume-se que a rede de comuncações é composta por uma coleção de enlaces consttuídos por um par de undades-rádo ndvdualmente

Leia mais

É o grau de associação entre duas ou mais variáveis. Pode ser: correlacional. ou experimental.

É o grau de associação entre duas ou mais variáveis. Pode ser: correlacional. ou experimental. Prof. Lorí Val, Dr. vall@mat.ufrgs.br http://www.mat.ufrgs.br/~vall/ É o grau de assocação entre duas ou mas varáves. Pode ser: correlaconal http://www.mat.ufrgs.br/~vall/ ou expermental. Numa relação

Leia mais

Tânia Lucia Hojo (UFMG) Sueli Aparecida Mingoti (UFMG)

Tânia Lucia Hojo (UFMG) Sueli Aparecida Mingoti (UFMG) Modelos de equações estruturas: uma avalação dos métodos de máxma verossmlhança, mínmos quadrados ordnáros e mínmos quadrados parcas usados na estmação de parâmetros do modelo. Tâna Luca Hojo (UFMG) hojo@est.mest.ufmg.br

Leia mais

INTRODUÇÃO À CALIBRAÇÃO MULTIVARIADA

INTRODUÇÃO À CALIBRAÇÃO MULTIVARIADA INTRODUÇÃO À CALIBRAÇÃO MULTIVARIADA APLICAÇÃO NO CONTROLE DE QUALIDADE DE FÁRMACOS Prof. Dr. Marcelo Martns de Sena MÓDULO 04 Undade Unverstára de Cêncas Eatas e Tecnológcas UnUCET Anápols 1 MÓDULO 04

Leia mais

Departamento de Informática. Modelagem Analítica do Desempenho de Sistemas de Computação. Modelagem Analítica. Disciplina: Variável Aleatória

Departamento de Informática. Modelagem Analítica do Desempenho de Sistemas de Computação. Modelagem Analítica. Disciplina: Variável Aleatória Departamento de Informátca Dscplna: do Desempenho de Sstemas de Computação Varável leatóra Prof. Sérgo Colcher colcher@nf.puc-ro.br Varável leatóra eal O espaço de amostras Ω fo defndo como o conjunto

Leia mais

Notas Processos estocásticos. Nestor Caticha 23 de abril de 2012

Notas Processos estocásticos. Nestor Caticha 23 de abril de 2012 Notas Processos estocástcos Nestor Catcha 23 de abrl de 2012 notas processos estocástcos 2 O Teorema de Perron Frobenus para matrzes de Markov Consdere um processo estocástco representado por um conunto

Leia mais

3. Estatística descritiva bidimensional

3. Estatística descritiva bidimensional 3. Estatístca descrtva bdmensonal (Tabelas, Gráfcos e números) Análse bvarada (ou bdmensonal): avala o comportamento de uma varável em função da outra, por exemplo: Quantas TV Phlps são venddas na regão

Leia mais

Cap. IV Análise estatística de incertezas aleatórias

Cap. IV Análise estatística de incertezas aleatórias TLF 010/11 Cap. IV Análse estatístca de ncertezas aleatóras Capítulo IV Análse estatístca de ncertezas aleatóras 4.1. Méda 43 4.. Desvo padrão 44 4.3. Sgnfcado do desvo padrão 46 4.4. Desvo padrão da méda

Leia mais

Reconhecimento Estatístico de Padrões

Reconhecimento Estatístico de Padrões Reconhecmento Estatístco de Padrões X 3 O paradgma pode ser sumarzado da segunte forma: Cada padrão é representado por um vector de característcas x = x1 x2 x N (,,, ) x x1 x... x d 2 = X 1 X 2 Espaço

Leia mais

Regressão Linear Simples by Estevam Martins

Regressão Linear Simples by Estevam Martins Regressão Lnear Smples by Estevam Martns stvm@uol.com.br "O únco lugar onde o sucesso vem antes do trabalho, é no dconáro" Albert Ensten Introdução Mutos estudos estatístcos têm como objetvo estabelecer

Leia mais

Covariância na Propagação de Erros

Covariância na Propagação de Erros Técncas Laboratoras de Físca Lc. Físca e Eng. omédca 007/08 Capítulo VII Covarânca e Correlação Covarânca na propagação de erros Coefcente de Correlação Lnear 35 Covarânca na Propagação de Erros Suponhamos

Leia mais

5 Implementação Procedimento de segmentação

5 Implementação Procedimento de segmentação 5 Implementação O capítulo segunte apresenta uma batera de expermentos prátcos realzados com o objetvo de valdar o método proposto neste trabalho. O método envolve, contudo, alguns passos que podem ser

Leia mais

ANÁLISE DE SOBREVIVÊNCIA UTILIZANDO DENSIDADES A PRIORI COM DADOS AMPLIADOS

ANÁLISE DE SOBREVIVÊNCIA UTILIZANDO DENSIDADES A PRIORI COM DADOS AMPLIADOS ANÁLISE DE SOBREVIVÊNCIA UTILIZANDO DENSIDADES A PRIORI COM DADOS AMPLIADOS Josenldo de Souza CHAVES Josemar RODRIGUES 2 RESUMO: Neste trabalho, apresentamos uma análse Bayesana para dados clíncos exponencas

Leia mais

Algarismos Significativos Propagação de Erros ou Desvios

Algarismos Significativos Propagação de Erros ou Desvios Algarsmos Sgnfcatvos Propagação de Erros ou Desvos L1 = 1,35 cm; L = 1,3 cm; L3 = 1,30 cm L4 = 1,4 cm; L5 = 1,7 cm. Qual destas meddas está correta? Qual apresenta algarsmos com sgnfcado? O nstrumento

Leia mais

UNIVERSIDADE DE PERNAMBUCO. Física Experimental. Prof o José Wilson Vieira

UNIVERSIDADE DE PERNAMBUCO. Física Experimental. Prof o José Wilson Vieira UNIVERSIDADE DE PERNAMBUCO ESCOLA POLITÉCNICA DE PERNAMBUCO Físca Expermental Prof o José Wlson Vera wlson.vera@upe.br AULA 01: PROCESSOS DE ANÁLISE GRÁFICA E NUMÉRICA MODELO LINEAR Recfe, agosto de 2015

Leia mais

Introdução. Uma lâmpada nova é ligada e observa-se o tempo gasto até queimar. Resultados possíveis

Introdução. Uma lâmpada nova é ligada e observa-se o tempo gasto até queimar. Resultados possíveis Introdução A teora das probabldades é um ramo da matemátca que lda modelos de fenômenos aleatóros. Intmamente relaconado com a teora de probabldade está a Estatístca, que se preocupa com a cração de prncípos,

Leia mais