Formulário de Inscrição Edital: IC - Bolsa de Iniciação Científica - 2015/1 Solicitante: Jony Arrais Pinto Junior Pedido: 213172 Instituição: Universidade Federal Fluminense Unidade: Instituto de Matemática e Estatística Departamento: Estatística CEP: 24020-140 Endereço: Rua Mário Santos Braga Número: 1 Complemento: 7 Andar Bairro: Centro Município: Niterói UF: RJ País: Brasil Telefone: 21 26292099 Ramal: Área Grande Área Área Sub Área Ciências Exatas e da Terra Probabilidade e estatística Probabilidade Ciências Exatas e da Terra Probabilidade e estatística Estatística Ciências Exatas e da Terra Probabilidade e estatística Probabilidade e Estatística Aplicadas Área/Setor Principal Probabilidade e Estatística Aplicadas Matrícula do Bolsista Nome do Bolsista Email do Bolsista 2015033593 Matheus Camelo Dos Santos Araujo mcamelo@id.uff.br Tema Faixa: Principal Dados Gerais Dados Gerais Título Modelos espaciais para dados de área de contagem: um mapeamento da mortalidade na cidade do Rio de Janeiro. Resumo Com a crescente coleta de dados georreferenciados vivenciada nas últimas décadas, surge à necessidade da utilização da informação da localização geográfica na modelagem dos mais diversos fenômenos científicos, como, por exemplo, a mortalidade, principalmente quando o fenômeno de interesse é estudado em uma região com uma grande heterogeneidade espacial, como é o caso da cidade do Rio de Janeiro, pois se espera que os bairros do município possuam comportamentos diferenciados sobre a taxa de óbitos de eventos como homicídios, suicídios, uso de álcool e drogas de acordo com suas características. Este projeto tem por objetivo estudar e comparar as diferentes possibilidades para a definição da estrutura espacial para modelos de dados de área de contagem. A comparação dos modelos será realizada considerando critérios clássicos como o Deviance Information Criterion DIC (Spiegelhater et. al., 2002) e baseados no poder preditivo. O entendimento da modelagem/mapeamento destes fenômenos de mortalidade, na cidade do Rio de Janeiro, possibilitará a criação de políticas públicas eficientes para possíveis intervenções. Neste projeto pretende-se utilizar uma abordagem completamente Bayesiana. Toda a metodologia será implementada no software livre R e OpenBUGS. Introdução Pagina 1 de 4 27/01/2016 17:04:29
O desenvolvimento de modelos espaciais vem aumentando substancialmente nos últimos anos, principalmente devido à importância dada por pesquisadores das mais diversas áreas, como, por exemplo, economia, epidemiologia, climatologia e etc, no entendimento da influência da localização geográfica nos mais diversos fenômenos científicos. Outro fator observado que vem facilitando este desenvolvimento é o aumento da capacidade dos computadores nos dias de hoje, possibilitando o uso de grandes bases de dados. Comumente, pesquisadores encontram-se em situações nas quais dispõem de contagens agregadas por áreas ou por regiões de um domínio geográfico de interesse, por exemplo, quantidade de óbitos por homicídio por arma de fogo nos municípios brasileiros. O pesquisador pode estar interessado em mapear as regiões com uma maior taxa de óbitos e/ou entender como características destas regiões podem afetar essa mortalidade. Dados referentes a diversas mortalidades segundo a classificação internacional de doenças (CID-10) encontram-se disponíveis no sistema de informação de mortalidade (SIM) do DATASUS e poucos estudos, utilizando modelos para dados de área, sobre a mortalidade de homicídios, suicídios, pelo uso de drogas e álcool foram realizados para a cidade do Rio de Janeiro. Vários modelos de dados de área têm sido desenvolvidos na literatura de mapeamento de doenças (Jin et al (2005) e Neelon et al (2013)). Os modelos desenvolvidos utilizam diversas abordagens para definir a estrutura espacial, dentre elas, processos Gaussianos e estruturas autorregressivas condicionais. Deste modo, se faz necessário modelar/mapear fenômenos de mortalidades (como homicídios, suicídios, uso de álcool e drogas) na cidade do Rio de Janeiro com o intuito de entender qual estrutura de dependência espacial melhor se adequa a estes fenômenos, possibilitando a criação de políticas públicas eficientes para possíveis intervenções. Sendo assim, o interesse deste projeto é estudar e comparar diferentes estruturas espaciais para modelos de dados de áreas de contagem e verificar a importância de covariáveis associadas a regiões geográficas (bairros, regiões administrativas ou áreas de planejamento) da cidade do Rio de Janeiro, como, por exemplo, índice de desenvolvimento humano (IDH) nestes óbitos. A inferência será realizada sob um enfoque completamente Bayesiano. Objetivos Os principais objetivos desse trabalho são estudar e comparar as diversas possibilidades disponíveis na literatura para a definição da estrutura de dependência espacial para modelos para dados de área de contagem e aplicar estas metodologias em dados de contagens de óbitos (como homicídios, suicídios, uso de álcool e drogas) na cidade do Rio de Janeiro, possibilitando um estudo aprofundado de modelos espaciais para dados agregados (estruturas de dependência espacial e critérios para comparação de modelos), que neste contexto possibilitará, por exemplo, a criação de políticas públicas mais eficientes para possíveis intervenções públicas. Justificativas Com a crescente coleta mais adequada de dados georreferenciados vivenciada nas últimas décadas, surge à necessidade da utilização da informação da localização geográfica na modelagem dos mais diversos fenômenos científicos, como, por exemplo, a mortalidade. Uma vez que é de conhecimento a existência de uma grande desigualdade entre os bairros da cidade do Rio de Janeiro, espera-se que estas regiões possuam um comportamento diferenciado sobre a taxa de óbitos (de homicídios, suicídios, uso de álcool e drogas) de acordo com suas características. Sendo assim, é de extrema importância modelar estes dados, considerando a localização geográfica do evento e utilizar diversas estruturas para verificar qual a melhor abordagem para o problema em questão. Muitos estudos sobre mortalidade desenvolvidos no Brasil utilizam apenas estatísticas descritivas ou mesmo estruturas mais simples como podem ser vistos em Souza et al (1997), Soares Filho et al (2007) e Waiselfiz (2015), tratando de dados de todo o Brasil ou de algumas regiões específicas. O trabalho de Melo Junior (2008) apresenta uma modelagem para dados de área, com uma das estruturas de dependência espacial que deseja-se investigar neste trabalho, porém, para dados de óbitos por causas externas no Paraná. Deste modo, pouco se sabe sobre modelos para dados de área de contagem para óbitos de homicídio, suicídios, uso de álcool e drogas na cidade do Rio de Janeiro. Surge então a necessidade de avaliar a performance e comparar diferentes modelos para dados de área de contagem, dados cada vez mais frequentes no cotidiano de pesquisadores das mais diversas áreas devido o avanço computacional vivenciado nas últimas décadas. Metas O aluno irá se aprofundar em conceitos que são geralmente tratados de forma superficial em cursos de graduação em estatística no Brasil, como, por exemplo, modelagem hierárquica para dados de área de contagem, com enfoque completamente Bayesiano. Além de se aprofundar em áreas, de extrema importância na estatística nos dias de hoje, como a inferência Bayesiana, modelagem de dados georreferenciados e seleção de modelos. Será estimulado o uso de softwares livres, como o R (R Core Team, 2014) e o OpenBUGS. Por meio destes softwares, implementações de modelos para dados de área de contagem serão realizadas e estudos simulados serão estimulados para a comparação das diferentes estruturas espaciais existentes na literatura. Uma aplicação em um conjunto de dados reais sobre óbitos por diversas causas como, homicídio, suicídio, uso de drogas e de álcool será encorajada. Tais dados serão extraídos de bases de domínio público, como o sistema de mortalidade SIM do DATASUS. O aluno será fortemente incentivado a participar de eventos de iniciação científica e congressos relacionados com o projeto. Método Pagina 2 de 4 27/01/2016 17:04:29
O trabalho consiste na modelagem de dados de área de contagem, visando uma aplicação em óbitos por homicídio, suicídio, uso de álcool e drogas na cidade do Rio de Janeiro. Deste modo, será necessário estudar e aprofundar-se nas seguintes metodologias: 1 Modelagem para dados de área de contagem: quando se dispõe de uma contagem de um evento de interesse agregada por regiões geográficas é preciso utilizar modelos para dados de área de contagem. Neste contexto, existem na literatura algumas abordagens para a definição da estrutura de dependência espacial entre as regiões, como processos Gaussianos e estruturas autorregressivas condicionais, como podem ser vistas em Vivar (2007) e Melo Junior (2008). Neste trabalho, será proposta uma modelagem na qual o número de óbitos por um evento de interesse na região k tem distribuição de Poisson, com o valor esperado dado pelo produto de duas quantidades (a densidade populacional e o risco relativo da região). Diferentes modelagens para o logaritmo do risco relativo serão propostas e comparadas, tais como, considerando a presença de covariáveis associadas as regiões e diversas estruturas de dependências entre as regiões.. 2 - Critérios de seleção de modelos: após o estudo de diversos modelos com estruturas espaciais diferentes é necessário definir qual o melhor modelo. Deste modo, serão estudados critérios de comparação de modelos para que seja escolhido um modelo que melhor se adequa ao problema em questão, incluindo critérios baseados em um melhor ajuste aos dados observados e critérios baseados no poder preditivo. 3 Base de dados e manipulação de mapas: os dados serão extraídos de bases de domínio público (SIM DATASUS). Entretanto, será necessário entender a estrutura do SIM para a extração correta dos dados de interesse, incluindo o estudo da CID-10. Além disso, para apresentação dos resultados o aluno deverá aprender a manipulação de arquivos do tipo shape para apresentação dos dados de forma mais efetiva. Resultados Esperados 1 Entender como se comportam e apresentar as possíveis diferenças entre algumas das estruturas de dependência espacial para modelos de dados de área de contagem existentes na literatura; 2 Estudar critérios de comparação de modelos para dados de área de contagem baseados clássicos como o DIC e também baseados no poder preditivo; 3 Ajustar e comparar diversos modelos para as contagens de óbitos por homicídios, suicídios, uso de álcool e drogas na cidade do Rio de Janeiro; 4 Apresentar comunicações científicas em congressos, com resultados selecionados dos produtos acadêmicos; 5 Elaboração do relatório final e envio à FAPERJ. Referências Bibliográficas Jin, X., Carlin B.P., and Banerjee, S. (2005). Generalized hierarchical multivariate CAR models for areal data. Biometrics, 61, 950-961. Mazin, S., Oliveira, M., Martinez, E., Achcar, J. e Ramos, S. (2008) Uso de um modelo Bayesiano de Poisson com excessos de zero na análise de dados de lesões miocárdicas em recém-nascidos com cardiopatia congênitas complexas. Rev. Bras. Biom., São Paulo, v.26, n.4, p. 113-125. Melo Junior, L. (2008) Modelos espaçotemporais para óbitos por causas externas. Dissertação de mestrado, Departamento de Métodos Estatísticos, IM UFRJ, Rio de Janeiro, Brasil. Neelon, B. Ghosh, P. e Loebs, P. (2013) A spatial Poisson hurdle model for exploring geographic variation in emergency department visits. Journal of the Royal Statistical Society: Series A, 176 (2), 389 413, 2013 Soares Filho, A., Souza, M., Gazal-Carvalho, C., Alencar, A., Silva, Marta e Morais Neto, O. (2007) Análise da mortalidade por homicídios no Brasil. Epidemiologia e Serviços de Saúde, 16(1). Souza, E. Assis, S. e Silva, C. Violência no Município do Rio de Janeiro: áreas de risco e tendências da mortalidade entre adolescentes de 10 a 19 anos (1997). Rev Panam Salud Publica/Pan Am J Public Health 1(5). Spiegelhalter, D., Best, N., Carlin, B. e Linde, A. (2002). Bayesian measures of model complexity and fit. Journal of the Royal Statistical Society, B, 64, 583-639. Vivar, J. (2007). Modelos espaço-temporais para dados de área na família exponencial. Tese de doutorado, Departamento de Métodos Estatísticos, IM UFRJ, Rio de Janeiro, Brasil. Vivar-Rojas, J. (2004). Uma nova classe de modelos espaçotemporais para dados de área. Dissertação de mestrado, Departamento de Métodos Estatísticos, IM UFRJ, Rio de Janeiro, Brasil. Waiselfiz, (2015). Mapa da violência 2015. www.juventude.gov.br/juventudeviva, Brasília. Especialidade 1 Estatística Espacial Especialidade 2 Especialidade 3 Palavra Chave1 Modelos para dados de área Palavra Chave2 Inferência Bayesiana Palavra Chave3 Mortalidade Palavra Chave4 Palavra Chave5 Palavra Chave6 Pagina 3 de 4 27/01/2016 17:04:29
Cronograma Nome do cronograma anexado Cronograma_Mateus.xlsx Documentos Nome do documento anexado CV-Lattes Orientador CV Candidato à Bolsa Declaração de não-vínculo empregatício Historico Escolar da Graduação Comprovante de Matrícula Encaminhamento da Solicitação Declaração do Comitê de Ética (se houver) Concordância da instituição: Nome: Cargo: Assinatura e Carimbo: Data: / /20 Assinatura do Orientador Assinatura do Bolsista Data de envio para Faperj: 27/05/2015 Pagina 4 de 4 27/01/2016 17:04:29