Estimação do Risco em Conglomerados Espaciais: Uma Abordagem via Rede RBF



Documentos relacionados
PONDERADA DE GRAFOS. Spencer Barbosa da Silva 1, Anderson Ribeiro Duarte 1

Uma análise de desempenho dos métodos SCAN E BESAG & NEWELL na detecção de clusters espaciais

Abordagem Bayesiana adaptativa para Vigilância online de Clusters Espaciais. Resumo

Detecção de Conglomerados Espaciais com Geometria Arbitrária

UTILIZAÇÃO DO PROCEDIMENTO INFERÊNCIA DATA-DRIVEN PARA A ESTATÍSTICA ESPACIAL SCAN EM CASOS DO DIABETES NO ESTADO DE MINAS GERAIS

Um Algoritmo Enxame de Partículas Binário para Detecção de Clusters Irregulares

4 Método Proposto CR AD PA NDVI Descrição geral do modelo

Análise espacial da incidência de Dengue no município de São Paulo

Comparação dos Métodos Scan Circular e Flexível na Detecção de Aglomerados Espaciais de Dengue

Instituto Nacional de Pesquisas Espaciais - INPE. Divisão de Processamento de Imagens - DPI

CADERNOS DO IME Série Estatística

Aula 2 Uma breve revisão sobre modelos lineares

Fundação Oswaldo Cruz Escola Nacional de Saúde Pública Departamento de Epidemiologia. Estatística espacial. Padrão Pontual

LABORATÓRIO Nº 1. Análise de Padrões de Distribuição de Pontos

DETECÇÃO DE CLUSTERS NA EXPLORAÇÃO DE LENHA DO SEMIÁRIDO BRASILEIRO

CAPÍTULO 5 RESULTADOS. São apresentados neste Capítulo os resultados obtidos através do programa Classific, para

INTRODUÇÃO AO PROCESSAMENTO DIGITAL DE IMAGENS SENSORIAMENTO REMOTO

7 Conclusões e desenvolvimentos futuros

RELATÓRIO PREPARADO PELO ELAT A PEDIDO DO MINITÉRIO PÚBLICO RESUMO

Para ajudar a interpretar os resultados, o Cartão de Relatórios do Assistente do teste de % de defeituosos para 1 amostra exibe os seguintes

5 Estudo de Caso e Resultados

conglomerados espaciais

O Processo de Weibull Poisson para Modelagem da Confiabilidade em Sistemas Reparáveis

3 Extração de Regras Simbólicas a partir de Máquinas de Vetores Suporte 3.1 Introdução

Redes Neurais. A Rede RBF. Redes RBF: Função de Base Radial. Prof. Paulo Martins Engel. Regressão não paramétrica. Redes RBF: Radial-Basis Functions

Aula 7 - Representação e Descrição de Estruturas Bi-dimensionais. Prof. Adilson Gonzaga

Fundação Oswaldo Cruz Escola Nacional de Saúde Pública Departamento de Epidemiologia. Estatística espacial. Áreas

Processamento Digital de Imagens

Processamento Digital de Imagens

Planejamento e Otimização de Experimentos

PREVISÃO EM SÉRIES TEMPORAIS COMBINANDO MODELOS ESTATÍSTICOS E CONCEITOS FUZZY

Teste de % de defeituosos para 1 amostra

Capítulo 2. Distribuições de Probabilidade Estimativas de parâmetros e tempos-atéfalha. Flávio Fogliatto

4 Parte experimental Desenvolvimento do Método

Análise espacial do PIB nas microrregiões do estado de Minas Gerais

CONHECIMENTOS ESPECÍFICOS

Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens automáticas

Tópicos de Estatística Espacial Geoestatística

6 MATERIA IS UTILIZADOS E PREPARO DOS DADOS

PROJETO E ANÁLISES DE EXPERIMENTOS (PAE) INTRODUÇÃO AOS MÉTODOS ESTATÍSTICOS EM ENGENHARIA

Procedimento Complementar para Validação de Métodos Analíticos e Bioanalíticos usando Análise de Regressão Linear

Coeficiente de determinação R 2 no modelo de regressão linear normal

Tratamento de dados em Física

COKRIGAGEM. Aplicação da cokrigagem

XIX CONGRESSO DE PÓS-GRADUAÇÃO DA UFLA 27 de Setembro a 01 de Outubro

Universidade de Brasília Instituto de Ciências Exatas Departamento de Estatística. Algoritmos Evolutivos aplicados em Estatística Espacial

SER-301: ANÁLISE ESPACIAL DE DADOS GEOGRÁFICOS

SEMINÁRIO Visão Computacional Aluno: Afonso Pinheiro

Estimadores, pontual e intervalar, para dados com censuras intervalar

Esse material foi extraído de Barbetta (2007 cap 13)

Disciplina de Modelos Lineares Professora Ariane Ferreira

Exercícios de programação

Um Algoritmo Genético Associado a uma Estratégia de Decisão Baseada em Lógica Fuzzy para Calibração Multiobjetivo de um Modelo Hidrológico

Avaliação e Desempenho Aula 5

COMPORTAMENTO DO REGIME PLUVIOMÉTRICO MENSAL PARA CAPITAL ALAGOANA MACEIÓ

p.1/48 Eduardo Mendes Departamento de Engenharia Eletrônica Universidade Federal de Minas Gerais Av. Antônio Carlos 6627, Belo Horizonte, MG, Brasil

Processamento de Imagens. Texturas

Classificação de Folhas por Tamanho e Forma Através de Descritores Geométricos e Análise dos Componentes Principais

Passeios Aleatórios. 1 Introdução. 2 Passeio aleatório em uma dimensão. Paulo Matias. 11 de outubro de 2011

2COP229 Inteligência Computacional. Aula 3. Clusterização.

UNIVERSIDADE DO ESTADO DE MATO GROSSO - UNEMAT. Faculdade de Ciências Exatas e Tecnológicas FACET / Sinop Curso de Bacharelado em Engenharia Elétrica

Aula 2. ESTATÍSTICA E TEORIA DAS PROBABILIDADES Conceitos Básicos

Um Estudo do Comportamento dos Gráficos de Controle Construídos Via Metodologia de Geoestatística

Análise do tempo médio gasto para travessia de uma avenida durante três horários de pico de trânsito do dia.

ESTUDO SOBRE A TAXA ANUAL DE CÂNCER NASAL EM UMA REFINARIA DE NÍQUEL NO PAÍS DE GALES

Avaliando Hipóteses. George Darmiton da Cunha Cavalcanti Tsang Ing Ren CIn/UFPE

MATEMÁTICA 3º ANO. Novo programa de matemática Objetivos específicos. Currículo Paulo VI. Números naturais. Relações numéricas Múltiplos e divisores

Determinação de vícios refrativos oculares utilizando Support Vector Machines

Quantificação dos Níveis de Desequilíbrio de Tensão no Sistema de Transmissão no Norte do Brasil

Conteúdo. 1 Introdução. Histograma do Quarto Sorteio da Nota Fiscal Paraná 032/16. Quarto Sorteio Eletrônico da Nota Fiscal Paraná

ESTUDOS DE COORTE. Baixo Peso Peso Normal Total Mãe usuária de cocaína

UM MODELO DE FRAGILIDADE PARA DADOS DISCRETOS DE SOBREVIVÊNCIA. Eduardo Yoshio Nakano 1

5.1. Observações e Conclusões

Conceito de Estatística

A avaliação da incerteza do tipo A. medições é chamada flutuação estatística e, em geral, é resultado de fatores que não

Correlação e Regressão

Metodologia de Box-Jenkins. Metodologia de Box-Jenkins. Metodologia de Box-Jenkins

Ajuste e comparação de modelos para dados grupados e censurados

Capítulo 1 Estatística Descritiva. Prof. Fabrício Maciel Gomes

Modelos Bayesianos. Ernesto F. L. Amaral Magna M. Inácio

AULA 09 Regressão. Ernesto F. L. Amaral. 17 de setembro de 2012

Um Estudo Empírico de Métodos Hiper-Heurísticos

4 Previsão da atenuação em enlaces consecutivos

2 Modelos de sintetização de séries temporais de atenuação por chuva

AST203-CVR 4-1 AST203-CVR. Observação eletromagnética. Processamento de sinais importante em várias áreas, além da astronomia telecomunicações

COMPACIDADE GEOMÉTRICA

Instituto Nacional de Pesquisas Espaciais - INPE. Divisão de Processamento de Imagens - DPI

4.1 Conceitos Básicos em Reamostragem

Técnicas Computacionais em Probabilidade e Estatística I. Aula I

4 Modelos de Regressão Dinâmica

2 FUNDAMENTACÃO TEÓRICA

Desenho Técnico. Aula 03. Normalização, Normas Técnicas ABNT

aula ANÁLISE DO DESEMPENHO DO MODELO EM REGRESSÕES

Modelo Autologístico Aplicado a Dados de Citrus

A ANÁLISE EXPLORATÓRIA DE DADOS ESPACIAIS: breve introdução José Irineu Rangel Rigotti

DISCRETIZADAS NA ANÁLISE DE DADOS DE SOBREVIVÊNCIA RESUMO

Ensino de Estatística

6 Teste de Normalidade das Cargas Fatoriais

Universidade Federal de Mato Grosso - UFMT Probabilidade e Estatística

Transcrição:

Estimação do Risco em Conglomerados Espaciais: Uma Abordagem via Rede RBF Fernanda C. Takahashi 1, Ricardo H. C. Takahashi 2 1 Curso de Ciência da Computação Universidade Federal de Minas Gerais (UFMG) 31.27-91 Belo Horizonte MG Brasil 2 Departamento de Matemática Universidade Federal de Minas Gerais (UFMG) 31.27-91 Belo Horizonte MG Brasil fctakahashi@gmail.com, taka@mat.ufmg.br Abstract. This paper proposes a method which is suitable for the estimation of a function that furnishes the probability of occurrence of a syndrome, as a function of the geographical coordinates of the individual under risk. This method starts with the adjustment of a regression model on the syndrome data using an RBF network. The function obtained in this way is then adjusted multiplicatively, leading to a median function, a 95% percentil function and a 5% percentil function which represent the risk of an individual to contract the syndrome. The proposed method constitutes an advance in relation to the currently known techniques of spatial cluster detection, which are dedicated to the localization of clusters of abnormal occurence of a syndrome, without quantifying the probability associated to such an abnormality. The proposed method was applied on data which were studied formerly in a paper that was intended to find a cluster of dengue fever. The result determined here is compatible with the cluster that was found in that reference. The values of probability determined here also seem to be compatible with the data, when analysed under the perspective of some hypothesis tests. Resumo. Este artigo propõe um método capaz de estimar uma função que fornece a probabilidade de ocorrência de uma síndrome, como função das coordenadas geográficas em que se localiza o indivíduo sob risco. Esse método parte do ajuste dos dados da síndrome por uma rede RBF. A função assim obtida é então ajustada multiplicativamente, de forma a gerar uma função mediana, uma função percentil 95% e uma função percentil 5% que representam o risco do indivíduo contrair a síndrome. O método proposto constitui um avanço em relação às técnicas atualmente conhecidas de detecção de conglomerados espaciais, as quais se dedicam a localizar conglomerados de ocorrência anormal de uma síndrome, sem no entanto quantificar a probabilidade associada a essa anormalidade. O método proposto foi aplicado sobre dados anteriormente estudados em um artigo que se preocupava apenas em localizar o conglomerado de ocorrência de uma epidemia de dengue. O resultado aqui obtido é compatível com o conglomerado encontrado naquela referência. Os valores de probabilidade encontrados parecem também compatíveis com os dados, quando analisados sob a perspectiva de certos testes de hipóteses.

1. Introdução A Epidemiologia é uma ciência que procura compreender a distribuição de fenômenos de saúde / doença em populações, na busca de seus fatores condicionantes. Muitas vezes, o fenômeno em questão consiste na ocorrência, com uma frequência anormal, de alguma síndrome que normalmente já ocorra em uma população com uma certa taxa usual. Nesses casos, tendo os dados da ocorrência da síndrome na população, o epidemiologista normalmente utilizará ferramentas de Estatística Espacial para tentar responder às duas perguntas básicas: (P1) Existe de fato uma ocorrência anormal da síndrome em questão? Em outras palavras: um aumento do número de casos da síndrome tanto pode ter uma causa subjacente, que interessa ao epidemiologista investigar, quanto pode decorrer da simples variabilidade de um fenômeno que, por natureza, é estatístico (obedece a uma distribuição de probabilidades). Importa saber se há algo de fato anormal ocorrendo, que é a situação que pode, por exemplo, justificar um esforço de investigação em busca das causas da anormalidade. (P2) Dado que exista algum foco de ocorrência anormal da síndrome, a pergunta a seguir é: onde este se localiza? Deve ficar claro que a busca da compreensão das causas da anormalidade tem muito maior chance de ser bem sucedida se o epidemiologista souber onde ocorre, e onde não ocorre, a anormalidade. Um expressivo conjunto de esforços vem sendo desenvolvido nos últimos 2 anos, na tentativa da construção de ferramentas computacionais que permitam responder apropriadamente a essas duas perguntas. A abordagem moderna para tentar responder a essas questões se iniciou, na prática, em 1997, com a estatística espacial scan proposta por Kulldorff no trabalho [Kuldorff 1997]. Esse trabalho apresentou pela primeira vez uma metodologia formalmente correta para a construção de uma função de verossimilhança utilizada para localizar o conglomerado (cluster) espacial mais provável, bem como para a realização de um teste de hipótese capaz de discernir eventos anormais de eventos relacionados com flutuações aleatórias corriqueiras. Em 1997, a questão da limitação dos recursos computacionais constituía uma importante restrição para o tipo de análise que poderia ser feito com os dados epidemiológicos. Por esse motivo, o trabalho [Kuldorff 1997] apresentava um método prático apenas para o cálculo de conglomerados com formato circular, embora não houvesse nenhuma restrição teórica para o tratamento de conglomerados com outros formatos. O aumento do poder computacional dos microcomputadores permitiu que, nos anos seguintes, uma sequência de trabalhos abordasse a extensão da metodologia para geometrias arbitrárias [Duczmal and Assuncao 24, Patil and Taillie 24, Assuncao et al. 26, Kuldorff et al. 26, Duczmal et al. 27]. Apenas em 28, no entanto, o trabalho [Duczmal et al. 28] estabeleceu, como elemento estruturante para a escolha de conglomerados de formato arbitrário, uma análise do trade-off entre a verossimilhança observada na contagem de casos e a regularidade geométrica do conglomerado, utilizando um critério de escolha baseado em um teste de hipótese sendo escolhido o conglomerado que maximizasse o p-valor correspondente à hipótese da ocorrência nele de uma anormalidade. Essa sequência de trabalhos essencialmente respondeu, em termos gerais, às perguntas (P1) e (P2) anteriormente mencionadas. Nesse atual estágio, se coloca ainda a

possibilidade de se formularem novas perguntas, na busca por um conhecimento mais detalhado a respeito dos fenômenos em análise. O presente trabalho propõe uma metodologia para a extração de uma informação adicional, que pode ser bastante relevante em estudos epidemiológicos. De maneira mais específica, procura-se aqui responder à pergunta: (P3) Qual é a função que descreve a probabilidade da ocorrência da síndrome sob estudo, como função das coordenadas geográficas? Esse tipo de informação é potencialmente importante, pois: (i) pode permitir distinguir, no interior de um conglomerado espacial, sub-regiões de maior incidência do fenômeno em estudo; e (ii) pode possibilitar uma análise que considere que a transição entre o interior e o exterior do conglomerado não necessariamente deva ser súbita, permitindo a existência de uma região de transição com inclinação arbitrária. Além disso, deve estar claro que os valores absolutos das probabilidades de ocorrência da síndrome constituem um elemento importante para caracterizar a anormalidade em questão: uma situação em que determinados indivíduos tenham uma exposição de 1% a uma determinada síndrome é muito diferente de outra situação em que esses indivíduos tenham uma exposição de 5% à mesma síndrome, ainda que ambas as situações sejam estatisticamente caracterizadas como anormais. A estimação dessas probabilidades com referência a coordenadas geográficas, conforme aqui proposta, pode representar um novo tipo de análise potencialmente valioso para estudos epidemiológicos. Por fim deve-se observar que, em se tratanto de um problema de estimação de parâmetros estatísticos, é adequado que essa estimação seja acompanhada de uma faixa de confiança. A questão (P3) pode então ser formulada de maneira um pouco mais completa da seguinte forma: (P3 ) Quais funções correspondem à estimativa mediana, à estimativa limitante superior, e à estimativa limitante inferior, considerando uma dada significância, para a descrição da probabilidade da ocorrência da síndrome sob estudo, tendo como variáveis independentes as coordenadas geográficas? Este trabalho propõe uma metodologia para responder à questão (P3 ). Deve-se mencionar que um tipo de questão relacionado com este foi tratado no trabalho [Neill 29]. Entretanto, em tal referência as regiões nas quais o risco deveria ser calculado foram assumidas como tendo formato retangular, e o risco não foi calculado de forma a estar associado a um intervalo de confiança. O propósito de tal trabalho foi o de detectar tão cedo quanto possível o início de um surto epidêmico o que constitui um objetivo diferente daquele a que se refere o presente trabalho. A metodologia aqui empregada envolve a utilização de uma rede neural do tipo RBF (Radial Basis Functions), que será treinada de maneira a fazer uma regressão dos dados gerados a partir de uma filtragem espacial da contagem relativa de casos. A seguir, a função representada pela rede é ajustada multiplicativamente, de forma a gerar uma função de probabilidades P.5 (x,y) que, ao ser amostrada sobre a população em questão um grande número de vezes, gere uma estatística do número de casos para a qual o caso observado corresponda ao caso mediano. Novos ajustes multiplicativos são realizados, de forma a gerar funções P.95 (x,y) e P.5 (x,y), que correspondam respectivamente a um limitante inferior e a um limitante superior da função de distribuição de probabilidades,

com significância p =.5. Dessa forma, obtém-se uma estimativa das probabilidades que é acompanhada de uma faixa de confiança. As funções assim sintetizadas são finalmente submetidas a testes de hipótese que dão suporte, com a mesma significância, à compatibilidade entre essas funções e os dados de entrada do problema. Um estudo de caso, utilizando os dados de ocorrência de dengue em uma cidade no interior de Minas Gerais que foram reportados em [Duczmal et al. 211], é finalmente aqui apresentado para ilustrar a metodologia proposta. 2. Algoritmo Proposto O algoritmo aqui proposto será ilustrado, passo-a-passo, com a sua aplicação sobre um conjunto de dados sintéticos, gerados com o propósito de facilitar a visualização das etapas do algoritmo. dados: Como entradas para o algoritmo proposto, devem estar disponíveis os seguintes Vetores X e Y, contendo as coordenadas geográficas de um conjunto de indivíduos da população em risco; Vetor S, que contém nas posições correspondentes aos indivíduos não afetados pela síndrome, e 1 nas posições correspondentes aos indivíduos afetados. Os dados de entrada empregados no exemplo ilustrativo são mostrados na figura 1. 1 9 8 7 6 5 4 3 2 1 1 2 3 4 5 6 7 8 9 1 Figura 1. Dados de entrada - exemplo ilustrativo. Indivíduos sãos estão representados por o, e indivíduos portadores da síndrome por. Esses dados são pré-processados com uma filtragem feita por um filtro espacial de média-móvel. O procedimento dessa filtragem é o seguinte: 1. A região é discretizada com um grid uniforme de células quadradas de ladow g ; 2. Cada ponto do grid tem a ele associado o valor p i = n c i/n i, sendo n i o número total de indivíduos e n c i o número de casos da síndrome em um quadrado de lado w f centrado no ponto do grid. Deve-se fazer w g < w f, de maneira a garantir que a filtragem produza uma suavização da contagem de casos. 3. Caso ocorram células em que n i =, toma-se w f = 2w f para essas células. Persistindo a contagem nula de indivíduos, adota-se p i =.

O resultado dessa filtragem, para o exemplo ilustrativo, é representado na figura 2. Esses resultados são armazenados na matriz G, sendo as correspondentes coordenadas x e y armazenadas nas matrizes G x e G y. 1.8.6.4.2 1 8 6 4 2 2 4 6 8 1 Figura 2. Resultado da filtragem - exemplo ilustrativo. Elementos do grid em que a contagem é zero estão representados por o, e elementos com contagem não nula por. A coordenada z corresponde ao valor da contagem. Uma rede RBF é então ajustada aos dados contidos na matriz G, tendo como entradas as coordenadas G x e G y, produzindo uma função R(x,y). A função obtida com esse ajuste, sobre os dados do exemplo ilustrativo, encontra-se representada na figura 3..8 1.6 8.4 6.2 4.2 2 1 2 3 4 5 6 7 8 9 1 Figura 3. Função ajustada por rede RBF - exemplo ilustrativo. Os valores de R(x, y), calculados sobre cada ponto do grid, encontram-se representados na figura 4. Na mesma figura, encontram-se representados os valores G(x, y) da filtragem, que foram utilizados para o ajuste da rede RBF. Deve-se notar que a função R(x,y) é mais suave que G(x,y). Isso significa que a rede RBF, além de prover um funcional contínuo para representar as probabilidades de ocorrência da síndrome, ainda cumpre o papel de realizar uma nova filtragem nos dados de entrada. Embora esse aspecto requeira uma análise posterior mais detalhada, parece preliminarmente razoável supor que muitas das síndromes com causas ambientais tenham probabilidades que sejam

1.2 1.8.6.4.2.2 1 8 6 4 2 2 4 6 8 1 Figura 4. Valores da função R(x,y) (representados por ) e da filgragem G(x,y) (representados por ), sobre os pontos do grid - exemplo ilustrativo. não apenas funções contínuas como também suaves, no sentido de terem derivadas pequenas (ou, mais formalmente, uma norma de Sobolev pequena). Portanto, este efeito de filtragem pela própria rede RBF pode ser interpretado como positivo. Neste ponto, espera-se que a funçãor(x,y) possua um formato que corresponda, de maneira geral, às tendências que deverão existir em uma suposta função verdadeira que representasse a probabilidade de ocorrência da síndrome em um indivíduo, como função da localização geográfica desse indivíduo. No entanto, a etapa de construção da função R(x,y) por meio de um algoritmo de treinamento de uma rede RBF é tal que não se garante, ao final, que a função resultante tenha as propriedades estatísticas minimamente necessárias para representar o fenômeno em questão. Uma propriedade obviamente desejável de uma função P 5 (x,y) que fosse considerada adequada é que os dados reais, a serem representados, sejam equivalentes à saída mediana, quando for tomado um grande número de realizações dessa função. Neste trabalho, propõe-se a construção dessa função simplesmente fazendo: P 5 (x,y) = α 5 R(x,y) (1) O valor de α 5 é ajustado de forma a fazer com que a contagem do número de casos, em N realizações da função sobre as coordenadas geográficas dos indivíduos da população, seja tal que o valor efetivamente observado corresponda exatamente à sua mediana. Para a função obtida no exemplo ilustrativo, esse ajuste foi feito considerando N = 3. realizações. O valor encontrado para a constante multiplicativa foi de α 5 = 1,264. A figura 5 mostra o histograma do número de casos gerados pela função P 5 (x,y) assim construída, com o número de casos de fato observados também indicado caindo exatamente na mediana do histograma, por construção. A seguir, são calculadas duas funções, P 5 (x,y) e P 95 (x,y), que têm o papel de representar os limites de uma faixa de confiança que vai do percentil 5% ao percentil 95%, com o ajuste dos valores de α 5 eα 95 : P 5 (x,y) = α 5 R(x,y) P 95 (x,y) = α 95 R(x,y) (2)

5 45 4 35 3 25 2 15 1 5 5 6 7 8 9 1 11 12 Figura 5. Histograma do número de casos de síndrome observado, sobre 3. realizações da função P 5 (x,y). O número efetivamente observado encontra-se indicado com um (*) sobre o eixo horizontal. Exemplo ilustrativo. Os histogramas do número de casos, calculados sobre 3. realizações dessas funções para o exemplo ilustrativo são mostrados na figura 6. Os valores encontrados foramα 5 = 1,181 e α 95 =,875 7 7 6 6 5 5 4 4 3 3 2 2 1 1 6 7 8 9 1 11 12 13 14 3 4 5 6 7 8 9 1 11 Figura 6. Histograma do número de casos de síndrome observado, sobre 3. realizações das funções P 95 (x,y) (esquerda) e P 5 (x,y) (direita). O número efetivamente observado encontra-se indicado com um (*) sobre o eixo horizontal. Exemplo ilustrativo. As funções P 95 (x,y) e P 5 (x,y) podem ser interpretadas da seguinte maneira: 95% das realizações da função P 95 (x,y) resultam em um número de casos que é maior que o observado, e 5% das realizações resultam em um número de casos menor que o observado. Dessa forma, essa função estabelece um limitante superior para a probabilidade de um indivíduo localizado em(x, y) ser acometido pela síndrome, ou seja, é de se esperar que a função de probabilidades verdadeira seja menor que P 95 (x,y). 5% das realizações da função P 5 (x,y) resultam em um número de casos que é maior que o observado, e 95% das realizações resultam em um número de casos menor que o observado. Dessa forma, essa função estabelece um limitante inferior para a probabilidade de um indivíduo localizado em (x, y) ser acometido pela

síndrome, ou seja, é de se esperar que a função de probabilidades verdadeira seja maior que P 5 (x,y). Deve-se notar que as funções estimadas foram obtidas a partir de um cômputo global, considerando a geração de indivíduos sindrômicos em todo o mapa. Cabe fazer uma validação local dessas funções, para avaliar sua capacidade de descrever o fenômeno em questão. Um primeiro teste é feito considerando apenas 8% dos indivíduos (59 indivíduos), escolhidos aleatoriamente. Com 3. realizações da funçãop 5 sobre esse conjunto reduzido de indivíduos, verifica-se que 4,1% das realizações geram menos casos que o número observado, e 59,9% geram mais casos que o número observado, para esse subconjunto da população. Considerando esse subconjunto da população, a função P 5 pode ser considerada compatível com os dados observados. Outro teste que pode ser feito considera agora um subconjunto específico da população: os indivíduos cujos valores de P 5 sejam maiores que 1%. No caso deste exemplo ilustrativo, esses indivíduos podem ser considerados como equivalentes a aqueles pertencentes ao conglomerado espacial onde existe a ocorrência anormal da síndrome. Esses indivíduos são representados na figura 7. A contagem de casos, em 3. realizações 1 9 8 7 6 5 4 3 2 1 1 2 3 4 5 6 7 8 9 Figura 7. Localização geográfica dos indivíduos para os quais P 5 (x,y) >,1. Exemplo ilustrativo. dep 5 (x,y) sobre esses indivíduos, indica que em 87,3% das realizações o número de casos da síndrome gerado é menor que o observado, e em 12,7% das realizações o número de casos é maior que o observado. Esse resultado ainda indica compatibilidade, para uma significância de 5%, entre a função P 5 (x,y) e as observações, embora sugira que para esse grupo de indivíduos a probabilidade de ocorrência da síndrome esteja um pouco subestimada. Idealmente, várias outras análises locais deveriam ser conduzidas, sobre diferentes subconjuntos da população, para validar as funções P 5 (x,y), P 5 (x,y) e P 95 (x,y). O processo de validação deve seguir o mesmo procedimento geral empregado nos dois testes que foram apresentados.

3. Estudo de Caso É agora apresentado um estudo de caso que se baseia em dados reais de uma epidemia de dengue registrada na cidade de Lassance, MG, entre Janeiro e Junho de 21. Os dados foram coletados pela Secretaria Municipal de Saúde, e encontram-se disponíveis como material complementar para o artigo [Duczmal et al. 211], no qual os mesmos são analisados. A figura 8 mostra a localização geográfica das residências de todos os habitantes da cidade, sendo que os indivíduos que contraíram dengue estão realçados. 8 7 6 5 4 3 2 1 1 2 3 4 5 6 7 Figura 8. Localização geográfica dos indivíduos. Os indivíduos que contraíram dengue estão indicados com um círculo vermelho. A figura 9 mostra os dados filtrados, calculados sobre o grid empregado na discretização deste problema, e a seguir ajustados pela rede RBF..12.1.8.6.4.2 8 6 4 2 1 2 3 4 5 6 7 Figura 9. Dados filtrados (valores não-nulos em azul) e ajustados pela rede RBF (valores em verde), sobre o grid empregado para a discretização do problema. Foi determinado um valor de α 5 = 1,362. A função P 5 produziu um histograma do número total de casos, em 3. realizações, que é mostrado na figura 1. Por

5 45 4 35 3 25 2 15 1 5 3 4 5 6 7 8 9 Figura 1. Histograma do número de casos de síndrome observado, sobre 3. realizações da função P 5 (x,y). O número efetivamente observado encontra-se indicado com um (*) sobre o eixo horizontal. construção, o número observado corresponde à mediana do histograma. As funçõesp 5 e P 95 foram obtidas respectivamente com α 5 = 1,688 e α 95 = 1,91. A figura 11 mostra as localizações dos indivíduos para os quais P 5 (x,y) >,5. 8 7 6 5 4 3 2 1 1 2 3 4 5 6 7 Figura 11. Localização geográfica dos indivíduos. Os indivíduos para os quais P 5 (x,y) >,5 estão indicados com um círculo vermelho. Se o leitor consultar a referência [Duczmal et al. 211], poderá notar que esses indivíduos se encontram justamente localizados nas regiões que foram identificadas, naquela referência, como o conglomerado principal e o conglomerado secundário da ocorrência da doença, o que sugere que a metodologia aqui proposta tenha chegado a conclusões consistentes com as daquele estudo. A figura 12 mostra a localização dos indivíduos infectados que foram identificados como pertencentes aos conglomerados principal e secundário, conforme estes foram representados na Figura 7 daquela referência. Tomando agora 3. realizações da funçãop 5 (x,y) naquele grupo de indivíduos, obtêmse em 22,5% das realizações um número de casos menor que o observado, nesse grupo de indivíduos, e em 77,5% das realizações um número de casos maior que o observado.

Esses resultados indicam que a função P 5 (x,y) é compatível com os dados, para esse grupo de indivíduos, embora seja verificada uma tendência a que esta forneça estimativas superestimadas de probabilidades para este grupo. controls cases primary cluster secondary cluster Figura 12. Reprodução dos resultados apresentados na Figura 7 da referência [Duczmal et al. 211], mostrando a localização dos indivíduos infectados pertencentes ao conglomerado principal e ao conglomerado secundário, de acordo com os conglomerados identificados por meio da metodologia proposta naquele artigo. Consideram-se agora subconjuntos da população constituídos de 2% do total de indivíduos, escolhidos aleatoriamente. São obtidas 3. realizações de P 5 (x,y) sobre esses indivíduos, sendo obtidos 62,3% de realizações em que ocorrem menos casos que os observados e 37,7% de realizações em que ocorrem mais casos que os observados. Esse teste indica boa compatibilidade entre a função P 5 (x,y) e os dados reais, para esse subconjunto de indivíduos. Tomando agora também 3. realizações dep 5 (x,y) sobre um grupo contendo 2% dos indivíduos escolhidos aleatoriamente, com escolha independente dos indivíduos escolhidos no experimento anterior, observa-se que 8,47% das realizações levam a um número menor de casos que o observado, para esse grupo, e 91,53% das realizações levam a um número maior de casos que o observado. Essa função é, portanto, compatível com uma estimativa superior da função de probabilidade. Tomando por fim agora 3. realizações dep 95 (x,y) sobre um grupo contendo 2% dos indivíduos escolhidos aleatoriamente, com escolha independente dos indivíduos escolhidos nos experimentos anteriores, observa-se que 97,37% das realizações levam a um número menor de casos que o observado, para esse grupo, e 2,63% das realizações levam a um número maior de casos que o observado. Essa função é, portanto, compatível com uma estimativa inferior da função de probabilidade. 4. Conclusões Este artigo propôs um novo método, capaz de estimar uma função que fornece a probabilidade de ocorrência de uma síndrome, como função das coordenadas geográficas em que se localiza o indivíduo. O método proposto constitui um avanço em relação às técnicas até

hoje estudadas, que essencialmente se dedicam a localizar conglomerados de ocorrência anormal da síndrome, mas que não se preocupam em quantificar a probabilidade associada a essa anormalidade. O método proposto foi aplicado sobre dados anteriormente estudados em um artigo que se preocupava apenas em localizar o conglomerado de ocorrência de uma epidemia de dengue. O resultado aqui obtido é compatível com o conglomerado encontrado naquela referência. Os valores de probabilidade encontrados parecem também compatíveis com os dados, quando analisados sob a perspectiva de alguns testes de hipóteses. Os resultados aqui reportados são promissores. No entanto, parece ser necessário ainda algum refinamento adicional no método proposto, que permita o ajuste local da função de probabilidades encontrada. Esse tema será investigado em futuros trabalhos dos autores. Referências Assuncao, R. M., Costa, M. A., Tavares, A., and Ferreira, S. (26). Fast detection of arbitrarily shaped disease clusters. Statistics in Medicine, 25:723 742. Duczmal, L. and Assuncao, R. M. (24). A simulated annealing strategy for the detection of arbitrarily shaped spatial clusters. Computational Statistics and Data Analysis, 45:269 286. Duczmal, L. H., Cançado, A. L. F., and Takahashi, R. H. C. (28). Delineation of irregularly shaped disease clusters through multi-objective optimization. Journal of Computational and Graphical Statistics, 17(1):1 2. Duczmal, L. H., Cançado, A. L. F., Takahashi, R. H. C., and Bessegato, L. F. (27). A genetic algorithm for irregularly shaped spatial scan statistics. Computational Statistics and Data Analysis, 52(1):43 52. Duczmal, L. H., Moreira, G. J. P., Burgarelli, D., Takahashi, R. H. C., Magalhaes, F. C. O., and Bodevan, E. C. (211). Voronoi distance based prospective space-time scans for point data sets: a dengue fever cluster analysis in a southeast Brazilian town. International Journal of Health Geographics, 1(29). Kuldorff, M. (1997). A spatial scan statistic. Communications in Statistics - Theory and Methods, 26(6):1481 1496. Kuldorff, M., Huang, L., and Duczmal, L. (26). An elliptic spatial scan statistic. Statistics in Medicine, 25:3929 3943. Neill, D. B. (29). Expectation-based scan statistics for monitoring spatial time series data. International Journal of Forecasting, 25:498 517. Patil, G. P. and Taillie, C. (24). Upper level set scan statistic for detecting arbitrarily shaped hotspots. Environmental Ecology Statistics, 11:183 197.