Detecção de Conglomerados Espaciais com Geometria Arbitrária

Documentos relacionados
Uma análise de desempenho dos métodos SCAN E BESAG & NEWELL na detecção de clusters espaciais

conglomerados espaciais

PONDERADA DE GRAFOS. Spencer Barbosa da Silva 1, Anderson Ribeiro Duarte 1

UTILIZAÇÃO DO PROCEDIMENTO INFERÊNCIA DATA-DRIVEN PARA A ESTATÍSTICA ESPACIAL SCAN EM CASOS DO DIABETES NO ESTADO DE MINAS GERAIS

Comparação dos Métodos Scan Circular e Flexível na Detecção de Aglomerados Espaciais de Dengue

Análise de Conglomerados Espaciais de Homicídios na Cidade de João Pessoa

Universidade de Brasília Instituto de Ciências Exatas Departamento de Estatística. Algoritmos Evolutivos aplicados em Estatística Espacial

ANÁLISE DA DISTRIBUIÇÃO ESPACIAL DA TUBERCULOSE NO MUNICÍPIO DE JOÃO PESSOA-PB EM 2011

SADRAQUE ENÉAS DE FIGUEIRÊDO LUCENA RONEI MARCOS DE MORAES

Abordagem Bayesiana adaptativa para Vigilância online de Clusters Espaciais. Resumo

DETECÇÃO DE CLUSTERS NA EXPLORAÇÃO DE LENHA DO SEMIÁRIDO BRASILEIRO

CADERNOS DO IME Série Estatística

DETECÇÃO DE AGRUPAMENTOS ESPAÇO-TEMPORAIS PARA IDENTIFICAÇÃO DE ÁREAS DE RISCO DE HOMICÍDIOS POR ARMA BRANCA EM JOÃO PESSOA, PB

Detecção de Conglomerados Espaciais de Dengue no Estado da Paraíba Utilizando o Método Besag e Newell

Detecção de conglomerados espaciais de tuberculose no estado da Paraíba utilizando o método Besag e Newell

Um Algoritmo Enxame de Partículas Binário para Detecção de Clusters Irregulares

LABORATÓRIO Nº 1. Análise de Padrões de Distribuição de Pontos

XIX CONGRESSO DE PÓS-GRADUAÇÃO DA UFLA 27 de Setembro a 01 de Outubro

Instituto Nacional de Pesquisas Espaciais - INPE. Divisão de Processamento de Imagens - DPI

DETECÇÃO E INFERÊNCIA DE CLUSTERS POR MEIO DO FLUXO DE PESSOAS

Ana Hermínia Andrade e Silva Ronei Marcos de Moraes

Clustering (k-means, SOM e hierárquicos)

3 Extensões dos modelos matemáticos

Estimação parâmetros e teste de hipóteses. Prof. Dr. Alberto Franke (48)

Estatística e Modelos Probabilísticos - COE241

Modelo Autologístico Aplicado a Dados de Citrus

1 - A capacidade de fluxo que corresponde a capacidade máxima que pode passar pelo arco.

Aula 2 Uma breve revisão sobre modelos lineares

Fundação Oswaldo Cruz Escola Nacional de Saúde Pública Departamento de Epidemiologia. Estatística espacial. Áreas

Inferência Bayesiana Exata para Processos de Cox Level-Set

II Simpósio Brasileiro de Ciências Geodésicas e Tecnologias da Geoinformação Recife - PE, 8-11 de setembro de 2008 p

Estimação do Risco em Conglomerados Espaciais: Uma Abordagem via Rede RBF

Instituto Nacional de Pesquisas Espaciais - INPE. Divisão de Processamento de Imagens - DPI

Estimadores, pontual e intervalar, para dados com censuras intervalar

Emerson Cotta Bodevan

Fundação Oswaldo Cruz Escola Nacional de Saúde Pública Departamento de Epidemiologia. Estatística espacial. Padrão Pontual

Passeios Aleatórios. 1 Introdução. 2 Passeio aleatório em uma dimensão. Paulo Matias. 11 de outubro de 2011

Análise espacial do PIB nas microrregiões do estado de Minas Gerais

Universidade de Brasília Instituto de Ciências Exatas Departamento de Estatística. Dissertação de Mestrado

Teste de % de defeituosos para 1 amostra

2 Modelos Não Lineares

Autocorrelação Espacial. Sistemas de Informação Geográfica II. Estatística espacial MAUP. Estatísticas espaciais. Estatística espacial

Teoria dos Grafos. Árvores Geradoras

Para ajudar a interpretar os resultados, o Cartão de Relatórios do Assistente do teste de % de defeituosos para 1 amostra exibe os seguintes

Avaliação Monte Carlo do teste para comparação de duas matrizes de covariâncias normais na presença de correlação

O Processo de Weibull Poisson para Modelagem da Confiabilidade em Sistemas Reparáveis

Testes de Hipóteses para. uma Única Amostra. Objetivos de Aprendizagem. 9.1 Teste de Hipóteses. UFMG-ICEx-EST-027/031 07/06/ :07

SER-301: ANÁLISE ESPACIAL DE DADOS GEOGRÁFICOS

Bancos de Dados Geográficos. Modelagem Dinâmica EspaçoTemporal para Análise do Uso e. Ocupação do Solo

Problemas de otimização

Uma Análise de Desempenho de Gráficos de Controle Multivariados. Rodrigo Luiz P. Lara 1, José Ivo Ribeiro Júnior 2, Rafael L. R.

Análise espacial da incidência de Dengue no município de São Paulo

CAP 254 CAP 254. Otimização Combinatória. Professor: Dr. L.A.N. Lorena. Assunto: Metaheurísticas Antonio Augusto Chaves

5 Implementação da Metodologia

6 Aplicação do Modelo de Geração de Cenários

Uma Avaliação do Erro Tipo II no Uso do Teste t-student

Tópicos de Estatística Espacial Pontos

Gráfico de Probabilidades

Uma análise puramente espacial para os casos de acidentes por animais peçonhentos no Estado do Amazonas e 2010

Aplicação do Estimador de densidade por Kernel

Distribuição Generalizada de Valores Extremos (GVE): Um estudo aplicado a valores de temperatura mínima da Cidade de Viçosa-MG

5 VNS com Filtro e Reconexão por Caminhos

AULA 06 Correlação. Ernesto F. L. Amaral. 04 de outubro de 2013

5 Decisão Sob Incerteza

Formulação de Programação Linear Inteira para o Problema de Particionamento em Conjuntos Convexos

Além disso, o modelo apresenta significativa correlação entre as variáveis independentes, o que pode ter contribuído para aumentar artificialmente o

Encontrando Comunidades

AVALIAÇÃO DA ESTIMATIVA DE PARÂMETROS PARA MODELOS AR2D APLICADOS NA EXTRAÇÃO DE ATRIBUTOS DE TEXTURA EM IMAGENS DE SENSORIAMENTO REMOTO

9DOXHDW5LVNHUHWRUQRGHXPLQYHVWLPHQWR

Avaliação de Modelos Espaço-Temporais Aplicados aos Homicídios por Arma Branca e Arma de Fogo em João Pessoa, PB, nos Anos de 2001 a 2009

TEORIA DE VALORES EXTREMOS APLICADA NA ANÁLISE DE TEMPERATURA MÁXIMA EM URUGUAIANA, RS.

Análise do tempo médio gasto para travessia de uma avenida durante três horários de pico de trânsito do dia.

MOQ 13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel

'HVFULomRH$QiOLVH([SORUDWyULDGRV'DGRV

Análise de Conglomerados Espaciais Via Árvore Geradora Mínim

Delineamento e Análise Experimental Aula 3

Comparando, Distribuindo e Ordenando

Estudo da localização de maternidades em Sergipe através de simulação Monte Carlo

4 Métodos Existentes. 4.1 Algoritmo Genético

Inferência Estatística Básica. Teste de Hipóteses: decidindo na presença de incerteza

Dimensionamento de amostras para estudos com variável resposta ordinal

Aulas 4-5: Análise Exploratória de Dados Espaciais (AEDE) Prof. Eduardo A. Haddad

Bibliografia Recomendada. Cornell, J. A. A Primer on Experiments with Mixtures.

COMPACIDADE GEOMÉTRICA

DETECÇÃO DE CLUSTERS ESPACIAIS EM MODELOS DE REGRESSÃO BETA. Vanessa Souza dos Santos

Funções Geradoras de Variáveis Aleatórias. Simulação Discreta de Sistemas - Prof. Paulo Freitas - UFSC/CTC/INE

Estatística: Aplicação ao Sensoriamento Remoto SER ANO Avaliação de Classificação

4 Cálculo de Equivalentes Dinâmicos

Inferência Estatística:

A Bayesian Reassessment of Nearest-Neighbor Classification (2009)

Elisângela Ap. da Silva Lizzi

Universidade Federal de Pernambuco Departamento de Estatística Inferência Estatística 2 (ET593) Fases de uma Análise Estatística

Introdução à Bioestatística Turma Nutrição

Aula 4: Análise Exploratória de Dados Espaciais (AEDE) Prof. Eduardo A. Haddad

Aula 3: Análise Exploratória de Dados Espaciais (AEDE) Prof. Eduardo A. Haddad

Métodos Computacionais em Física

Tratamento de dados em Física

Aula 4: Análise Exploratória de Dados Espaciais (AEDE) Prof. Eduardo A. Haddad

Transcrição:

Detecção de Conglomerados Espaciais com Geometria Arbitrária Marcelo A. Costa, Luciano R. Schrerrer, Renato M. Assunção Departamento de Estatística Universidade Federal de Minas Gerais (UFMG) Caixa Postal 72 3127-91 Belo Horizonte MG Brasil {azevedo,assuncao}@est.ufmg.br, luscherrer@hotmail.com Abstract. This paper evaluates a variation of the spatial scan statistic that aggregates the neighbor structure into the cluster growing process. This proposal allows the detection of arbitrarily shaped clusters and it is an alternative to the original circular shaped scan geometry. The spatial scan statistic is widely used and presents consistent results with real and simulated data sets. In order to test the method, star shaped simulations were performed as well as with circular clusters and with real data set. Two heuristics were also evaluated to avoid oversized clusters and decrease computational cost. Resumo. Este artigo propõe uma análise de uma variação do método scan de detecção de conglomerados espaciais na qual é agregada a estrutura de vizinhança espacial ao processo de crescimento e busca de conglomerados. Este procedimento possibilita a detecção de conglomerados de geometria arbitrária uma vez que o método scan foi originalmente proposto para a detecção de conglomerados de geometria circular e apresenta alto poder neste contexto. Uma avaliação do poder de detecção do método para conglomerados com geometria arbitrária é realizada via dados simulados e reais. Restrições durante o processo de crescimento são sugeridas para evitar conglomerados de tamanho excessivo e geometria muito irregular. 1. Introdução Estudos de detecção de conglomerados espaciais são procedimentos importantes na área de saúde pública. O diagnóstico preciso sobre a característica aleatória ou não de um determinado evento espacial como, por exemplo, uma doença contagiosa, e a delimitação da região geográfica de ocorrência possibilitam aos órgãos competentes a elaboração de políticas eficientes de controle e combate. Como resultado, procura-se identificar áreas geográficas com um risco significativamente elevado sem o conhecimento, a princípio, de quais e quantas áreas são, caracterizando um teste genérico de conglomerado. Um conglomerado pode ser definido como um conjunto de áreas que apresentam um risco significativamente elevado quando considerada a hipótese nula (H ) de que os eventos são gerados aleatoriamente sobre a região de estudo. Um conglomerado pode ser caracterizado como temporal, espacial ou espaço-temporal, dependendo da variável (espaço e/ou tempo) sobre a qual é realizada a análise de contagem dos eventos. Especificamente, o presente trabalho abrange a detecção de conglomerados espaciais. 213

Diversas abordagens são apresentadas para a delimitação de conglomerados. Métodos puramente gráficos identificam regiões críticas a partir de sobreposição de círculos, mas não fornecem uma medida de significância da região delineada [Besag 1991, Openshaw et al. 1988]. Neste contexto, o Método de varredura espacial scan proposto por Kulldorff (1997) tem sido amplamente utilizado em virtude do poder de detecção [Kulldorff et al. 23, Costa and Assunção 25] e da capacidade de atribuir um nível de significância à estatística de teste via simulação Monte Carlo, reduzindo o erro do tipo I. Entretanto, em sua formulação original, o método é condicionado à busca de conglomerados que apresentam geometria circular. Tal característica reduz substancialmente o custo computacional do método uma vez que uma busca exaustiva sobre todos os possíveis candidatos a cluster em uma área subdividida em n sub-áreas acarretaria uma varredura sobre 2 n candidatos. Apesar da vantagem da eficiência computacional, o método apresenta limitações quando o conglomerado real passa a apresentar uma geometria irregular, detectando nenhuma ou pequenas áreas do mesmo. O tratamento da irregularidade do conglomerado tem sido abordado a partir de heurísticas computacionais, como o método de Simulated Annealing [Duczmal and Assunção 24] ou delimitando uma região circular de tamanho fixo, menor que a região de estudo, e realizando uma busca exaustiva nas áreas contidas em seu interior [Tango and Takahashi 25]. Sob suposição de que as regiões que definem o conglomerado compartilham fronteira geográfica, foi proposto o método de árvore dinâmica [Assunção et al. 26] que promove o crescimento de conglomerados agregando as áreas vizinhas que favorecem a maximização da verossimilhança do conglomerado. Neste trabalho, o método de crescimento dinâmico de conglomerados (dmst dynamic Minimum Spanning Tree) é avaliado. A generalização da geometria resulta na identificação de conglomerados de tamanho elevado e muito irregulares quando comparado com dados simulados. Com a finalidade de minimizar esses efeitos, são propostas restrições sob a verossimilhança das vizinhanças bem como sobre o tamanho mínimo do conglomerado a ser detectado. 2. O método de varredura SCAN Seja uma região geográfica delimitada, subdividida em n sub-áreas, sendo associada a cada sub-área o número observado de casos y i e o número total de pessoas em risco na área, N i. Sob a hipótese nula de aleatoriedade ou ausência de conglomerados, o número esperado de casos na i-ésima área pode ser modelado por uma variável aleatória de Poisson e é independente das demais áreas: H : yi ~ Poisson( Ei = λni ), onde a taxa estimada de ocorrência de casos é calculada como: λˆ = C M, onde C = yi e M = i Ni. Seja Z o conjunto das áreas z candidatas a formarem um conglomerado. Se não for imposta nenhuma restrição o conjunto Z possui 2 n elementos. O vetor de parâmetros do método de máxima verossimilhança para o método scan é definido pela área candidata z, a probabilidade de que um indivíduo em z seja um caso (p), e a probabilidade de um indivíduo fora de z seja um caso (r). Sob a hipótese nula: p=r e sob i 214

a hipótese alternativa: p>r. Definindo n z como a população em z, c z o número de casos em z, p ˆ = c z / n e rˆ = ( C c ) /( M n ), o candidato a conglomerado é definido por: z L z z cz ( nz cz ) ( C cz ) ( M nz C+ cz ) ( z, pz, rz ) sup p (1 p) r (1 r) z Z, p> r = (1) referente ao modelo de Bernoulli, para todo z Z. Ao conglomerado verossímil é atribuída uma estatística baseada na razão de verossimilhança: κ = L( zˆ, pˆ, rˆ z z )/ L, onde C M C M L = C ( M C) M. A distribuição empírica da estatística κ condicionada ao número total de casos é obtida via simulação Monte Carlo a partir dos seguintes passos: 1. Gera-se S conjuntos independentes de vetores de casos, cuja soma dos elementos de cada vetor seja C, a partir de realizações de uma distribuição multinomial proporcional a população de cada área. Calcula-se a estatística κ para cada conjunto: (κ 1,, κ S ); 2. Ordena-se os valores de κ. Se o valor obtido com o conjunto de dados original estiver entre os maiores 1(1-α)%, rejeita-se H ao nível de significância α. 3. Caso H tenha sido rejeitada, a área ẑ associada é o conglomerado mais verossímil. Em sua proposta inicial [Kulldorff 1997], o conjunto Z representa círculos de raio r arbitrário centrados em cada um dos n centróides das sub-áreas. Tal restrição reduz significativamente o número de candidatos a conglomerados e conseqüentemente, o custo computacional. 3. O Algoritmo de Construção de Conglomerados com Geometria Irregular Seja a região de interesse definida por sub-áreas que compartilham fronteira geográfica de forma que, para uma particular sub-área i, exista pelo menos uma outra sub-área j que possui fronteira comum. Pode-se expressar essa informação sob a forma de um grafo interconectando os centróides das sub-áreas aos seus vizinhos, conforme ilustra a Figura 1-A. Uma árvore geradora mínima de um grafo representa um sub-grafo interconectando todas as arestas, mas cujo caminho entre dois nodos i e j seja único, de tal forma que se uma aresta da árvore geradora mínima for removida obtêm-se dois subgrafos não conectados. A Figura 1-B ilustra uma árvore geradora mínima. O algoritmo para a construção de geometrias arbitrárias tem como objetivo a construção de árvores geradoras mínimas na qual o custo de agregação de uma área à árvore está associada à verossimilhança da árvore resultante. O algoritmo de crescimento da árvore geradora mínima utilizando a equação de verossimilhança é descrito a seguir: 1. Partindo de cada sub-área, calcule a verossimilhança de acordo com a Equação 1 considerando cada um de seus vizinhos como possíveis candidatos a incorporar o conglomerado; 2. Inclua na árvore o vizinho que resulta na maior verossimilhança; 215

3. Defina os vizinhos da nova árvore; 4. Retorne à etapa 2 e repita o procedimento até que todas as sub-áreas estejam incluídas na árvore geradora mínima ou até que a árvore alcance um tamanho máximo pré-definido. A B Figure 1. Mapa de Belo Horizonte subdividido em unidades administrativas interconectadas por um grafo de arestas (A) e o grafo da árvore geradora mínima (B) Em sua proposta original, o critério de parada do algoritmo de construção de árvores é o tamanho máximo especificado pelo usuário e, para uma região com n subáreas, são geradas n árvores. Durante o crescimento das árvores, o método armazena a estrutura (sub-árvore) de máxima verossimilhança. Em seqüência, o método de simulação de Monte Carlo é utilizado para o cálculo do nível descritivo associado à estatística da razão de verossimilhança κ, sob H. 4. Metodologia Uma análise de desempenho do método dmst é proposta a partir de dados simulados e dados reais. A região de interesse é representada pela região metropolitana de Belo Horizonte subdividida em bairros. Os dados simulados foram gerados a partir de dois cenários distintos para os conglomerados, apresentados na Figura 2. A população de interesse em cada bairro foi obtida a partir do censo do ano de 2. No primeiro cenário, especificou-se um conglomerado com geometria circular constituído por 13 bairros. No segundo cenário, especificou-se um conglomerado com geometria estrela constituído por 12 bairros. O número de casos especificado para a região é de 42, sendo distribuídos de acordo com uma distribuição multinomial na qual as probabilidades referentes aos bairros do conglomerado foram ajustadas a partir da especificação de um risco relativo, favorecendo a rejeição da hipótese nula com probabilidade.999 [Kulldorff et al., 216

23]. Uma vez definidos os parâmetros de simulação, foram geradas 1. simulações para cada cenário, onde para cada simulação, foram distribuídos 42 casos entre os bairros. Em seguida avaliou-se o poder de detecção do método scan circular, dmst e mais duas variações propostas: 1. dmst 2 : Método dmst com parada prematura. Nesta abordagem a árvore irá crescer enquanto existir algum vizinho que, ao ser acrescentado, resulta em uma árvore com verossimilhança maior que a árvore anterior, caso contrário o crescimento é interrompido e uma nova árvore é gerada a partir das demais áreas; 2. dmst 3 : Método dmst com parada prematura, busca suavizada e tamanho mínimo. Semelhante à abordagem anterior, inicialmente a árvore cresce até atingir um tamanho mínimo. Em seqüência, é agregado à árvore o vizinho que proporciona o menor crescimento da verossimilhança dentre todos os vizinhos capazes de maximizar a verossimilhança em relação à árvore anterior. Caso nenhum vizinho proporcione o aumento da verossimilhança, o método é interrompido e novas árvores são geradas a partir das demais áreas. (a) circular (b) estrela Figura 2. Cenários de conglomerados para dados simulados Para avaliar o desempenho das metodologias em situações reais, aplicou-se a análise de conglomerados para os dados de homicídios do ano de 2. 5. Resultados A partir das 1. simulações avaliou-se o poder de detecção dos métodos scan, dmst, dmst 2 e dmst 3. Os resultados obtidos para o método scan são mostrados na Figura 3, na qual a escala dos eixos foram previamente padronizada: -6 (eixo x) e -5. (eixo y) para os gráficos de contagem de tamanho detectado e -3. (eixo y) para os gráficos de interseção sendo a escala do eixo x definido em função do cenário: -13 (circular) e -12 (estrela). Para o cenário circular, o método scan apresentou um bom desempenho, mas com um número elevado de conglomerados detectados sem interseção com o conglomerado real (2.225). Para o cenário estrela, ocorreu uma queda de desempenho e uma maior irregularidade na distribuição das interseções. Em ambos os cenários, o método detectou com maior freqüência conglomerados de tamanho unitário. 217

1 2 3 4 5 6 5 5 45 45 4 4 35 35 3 25 3 25 2 2 15 15 1 1 5 5 1 2 3 4 5 6 3 3 25 25 2 2 15 15 1 1 5 5 1 2 3 4 5 6 7 8 9 1 11 12 13 1 2 3 4 5 6 7 8 9 1 11 12 Figura 3. Distribuição do tamanho do conglomerado encontrado (linha 1) e distribuição da contagem da interseção entre o conglomerado encontrado e o conglomerados real (linha 2), pelo método scan para os cenários circular (coluna 1) e estrela (coluna 2) As Figuras 4 e 5 apresentam os resultados para os métodos dmst, dmst 2 e dmst 3. O método dmst detectou conglomerados com dimensões elevadas, concentrados próximas do limite de tamanho máximo (6 bairros) em ambos os cenários. As distribuições das interseções são bem regulares com médias inferiores ao tamanho real do conglomerado mas, próximas do mesmo. Os métodos dmst 2 e dmst 3 possibilitaram uma redução da média da distribuição do tamanho detectado. Em especial, o método dmst 2 gerou uma contagem maior de elementos sem interseção com o conglomerado real, característica que foi minimizada pelo método dmst 3. Por outro lado, o método dmst 3 detectou uma quantidade maior de conglomerados com interseções de 1 e 2 bairros em relação ao conglomerado real. A Tabela 1 apresenta a contagem entre as 1. simulações realizadas, que foram efetivamente consideradas, uma vez que eram computadas apenas as simulações nas quais a hipótese nula era rejeitada. Destas, também são apresentadas as contagens de interseção nula, ou seja, os casos nos quais o conglomerado detectado não apresenta nenhuma interseção com o conglomerado real. A partir desta Tabela pode-se compara os métodos em relação à detecção efetiva, por exemplo, apesar do método scan não rejeitar 9.423 simulações (circular) ocorreram 2.225 casos sem interseção, por outro lado o método dmst 3 não rejeitou 8.2 simulações, mas ocorreu um número menor de simulações sem interseção, 517. A Figura 6 apresenta os resultados para os dados de Homicídio em Belo Horizonte durante o ano de 2. O conglomerado detectado pelo método scan abrange 16 bairros sendo que, em alguns bairros não são observados casos. O método dmst obteve o maior conglomerado (48 bairros) e, visualmente, o conglomerado resultante é uma interligação de vários sub-conglomerados. O método dmst 2 identificou um conglomerado de tamanho 1 e o método dmst 3 obteve um conglomerado de tamanho 8 constituído pelo conglomerado detectado pelo método dmst 2, parte do conglomerado detectado pelo método dmst e um bairro sem contagem interligando os mesmos. 218

1 2 3 4 5 6 5 5 45 5 45 4 45 4 35 4 35 3 35 3 25 2 25 2 3 25 2 15 15 15 1 1 1 5 5 5 1 2 3 4 5 6 1 2 3 4 5 6 5 5 5 45 45 45 4 4 4 35 35 35 3 25 3 25 3 25 2 2 2 15 15 15 1 1 1 5 5 5 1 2 3 4 5 6 1 2 3 4 5 6 1 2 3 4 5 6 Figura 4. Distribuição do tamanho do conglomerado encontrado pelo método dmst (coluna 1), dmst 2 (coluna 2) e dmst 3 (coluna 3) para os cenários circular (linha 1) e estrela (linha 2) 3 3 3 25 25 25 2 2 2 15 15 15 1 1 1 5 5 5 1 2 3 4 5 6 7 8 9 1 11 12 13 1 2 3 4 5 6 7 8 9 1 11 12 13 1 2 3 4 5 6 7 8 9 1 11 12 13 3 3 3 25 25 25 2 2 2 15 15 15 1 1 1 5 5 5 1 2 3 4 5 6 7 8 9 1 11 12 1 2 3 4 5 6 7 8 9 1 11 12 1 2 3 4 5 6 7 8 9 1 11 12 Figura 5. Distribuição da contagem da interseção entre o conglomerado encontrado e o conglomerado real obtido pelo método dmst (coluna 1), dmst 2 (coluna 2) e dmst 3 (coluna 3) para os cenários circular (linha 1) e estrela (linha 2). 219

Tabela 1. Contagem do número de simulações, em 1., nas quais a hipótese nula foi rejeitada e, entre essas, comparação com a contagem de simulações sem interseção entre o conglomerado encontrado e o conglomerado real para os cenários: circular e estrela. Método Característica Circular Estrela scan dmst dmst 2 dmst 3 p-valor <.5 9423 845 sem interseção 2225 143 p-valor <.5 7669 6549 sem interseção 29 45 p-valor <.5 8476 765 sem interseção 122 1199 p-valor <.5 82 782 sem interseção 517 55 (a) scan (b) dmst (c) dmst 2 (d) dmst 3 Figura 6. Conglomerados identificados para os dados de Homicídios em Belo Horizonte durante o ano de 2. 22

8. Discussões e Conclusões A partir dos dados simulados foram levantados alguns aspectos em relação às características dos conglomerados detectados por cada método. Para os cenários simulados, o método scan detecta conglomerados com elevada intensidade de bairros sem casos, provavelmente devido à própria restrição da geometria. Este fato também é observado no método dmst com geometrias arbitrárias. Neste caso, há evidência de que esta característica está relacionada ao crescimento exagerado da árvore uma vez que o método dmst 3 minimiza este efeito e o método dmst 2 praticamente o elimina. Do ponto de vista de freqüência de detecção do conglomerado real nas simulações, seja na totalidade ou na parcialidade, ambos os métodos apresentam um desempenho próximo. O método scan apresenta uma baixa taxa de rejeição da hipótese nula mas uma alta taxa de conglomerados sem interseção. Os métodos dmst, dmst 2 e dmst 3 apresentam alta taxa de rejeição da hipótese nula mas, baixa taxa de nãointerseção. Na aplicação aos dados reais, a análise da interseção de todos os métodos indica uma concentração anormal de casos em um único bairro. Por outro lado, um segundo conglomerado pode ser identificado a partir das interseções dos bairros detectados pelos métodos scan, dmst e dmst 3. A partir dos resultados obtidos pode-se concluir que, para as bases de dados estudadas, incorporar a estrutura de vizinhança tornou o método scan mais focado permitindo a redução do número de interseções nulas e do número de regiões sem casos no conglomerado final. A metodologia também permite obter, além de um valor para a estatística de teste e um p-valor associado, a geometria do conglomerado. Agradecimentos Os autores agradecem à FAPEMIG e à Pró-Reitoria de Pesquisa da UFMG pelo apoio financeiro. Bibliografia Assunção, R., Costa, M., Tavares, A., Ferreira, S. (26), Fast detection of arbitrary shaped disease clusters. Statistics in Medicine. Forthcoming Besag, J. and Newell, J. (1991), The detection of clusters in rare diseases. Journal of the Royal Statistic Society A, vol. 154, pages 143-155. Costa, M. A., Assunção, R. M. (25), A fair comparison between the spatial scan and the Besag-Newell disease clustering tests. Environmental and Ecological Statistics, vol. 12, pages 297-315. Duczmal, L. and Assunção, R. (24), A simulated annealing strategy for the detection or arbitrarily shaped spatial clusters. Computational Statistics & Data Analysis, vol. 45, pages 269-286. 221

Kulldorff, M., Tango, T., Park, P. J., (23), Power comparisons for disease clustering tests. Computational Statistics & Data Analysis, vol. 42, pages 665-684. Kulldorff, M. (1997), A Spatial Scan Statistics. Commun. Statist. Theory and Methods., vol. 26, pages 1481-1496. Openshaw, S., Craft, A. W., Charlton, M. and Birch, J. M. (1988), Investigation of leukaemia clusters by use of a geographical analysis machine. Lancet i, pages 272-273 Tango, T., Takahashi, K. (25), A flexibly shaped spatial scan statistic for detecting clusters. International Journal of Health Geographics, 4:11. 222