PONDERADA DE GRAFOS. Spencer Barbosa da Silva 1, Anderson Ribeiro Duarte 1

Documentos relacionados
Detecção de clusters irregulares através da Não Conectividade Ponderada de Grafos

Detecção de clusters irregulares para dados pontuais através da Não-conectividade Ponderada de Grafos

UTILIZAÇÃO DO PROCEDIMENTO INFERÊNCIA DATA-DRIVEN PARA A ESTATÍSTICA ESPACIAL SCAN EM CASOS DO DIABETES NO ESTADO DE MINAS GERAIS

Um Algoritmo Enxame de Partículas Binário para Detecção de Clusters Irregulares

COMPACIDADE GEOMÉTRICA

Uma análise de desempenho dos métodos SCAN E BESAG & NEWELL na detecção de clusters espaciais

Parametrização Adequada do Algoritmo Genético NSGA-II para Problemas de Detecção e Inferência em Clusters Espaciais

Detecção de Conglomerados Espaciais com Geometria Arbitrária

Abordagem Bayesiana adaptativa para Vigilância online de Clusters Espaciais. Resumo

Comparação dos Métodos Scan Circular e Flexível na Detecção de Aglomerados Espaciais de Dengue

Universidade de Brasília Instituto de Ciências Exatas Departamento de Estatística. Algoritmos Evolutivos aplicados em Estatística Espacial

Emerson Cotta Bodevan

conglomerados espaciais

Estimação do Risco em Conglomerados Espaciais: Uma Abordagem via Rede RBF

CADERNOS DO IME Série Estatística

Detecção de clusters espaciais através de otimização multiobjetivo

Extensões da Estatística Scan Espacial utilizando Técnicas de Otimização Multiobjetivo

DETECÇÃO E INFERÊNCIA DE CLUSTERS POR MEIO DO FLUXO DE PESSOAS

Análise de Redes Sociais Introdução ao Gephi

ANÁLISE DA DISTRIBUIÇÃO ESPACIAL DA TUBERCULOSE NO MUNICÍPIO DE JOÃO PESSOA-PB EM 2011

Otimização a Múltiplos Objetivos de Dispositivos Eletromagnéticos pelo Método dos Elementos Finitos. Luiz Lebensztajn

1. Computação Evolutiva

UMA OTIMIZAÇÃO MULTIOBJETIVO PARA A DEFINIÇÃO DE UMA LINHA DE TRANSMISSÃO ELÉTRICA VIA NSGA-II

Detecção de Conglomerados Espaciais de Dengue no Estado da Paraíba Utilizando o Método Besag e Newell

IN-1131 Computação Evolucionária. Aluizio Fausto Ribeiro Araújo Universidade Federal de Pernambuco Centro de Informática

Teoria da Computação. Clique de um Grafo. Alexandre Renato Rodrigues de Souza 1

Análise de Conglomerados Espaciais Via Árvore Geradora Mínim

Fundação Oswaldo Cruz Escola Nacional de Saúde Pública Departamento de Epidemiologia. Estatística espacial. Áreas

Árvore Geradora Mínima

Volmir Eugênio Wilhelm Departamento de Engenharia de Produção UFPR 45

UM ALGORITMO EVOLUTIVO HÍBRIDO APLICADO AO PROBLEMA DE CLUSTERIZAÇÃO EM GRAFOS COM RESTRIÇÕES DE CAPACIDADE E CONTIGUIDADE

13/06/2011 ESTUDOS ECOLÓGICOS. Introdução a Epidemiologia. Introdução a Epidemiologia. Epidemiologia. Estudos epidemiológicos

Modelo Autologístico Aplicado a Dados de Citrus

Formulação de Programação Linear Inteira para o Problema de Particionamento em Conjuntos Convexos

Laboratório 4. Disciplina. Introdução ao Geoprocessamento SER 300. Prof. Dr. Antonio Miguel Vieira Monteiro

Algoritmos de segmentação por corte em grafo generalizado

ANÁLISE ESTATÍSTICA DA DECISÃO PARA TRATAR O PROBLEMA DE ROTEAMENTO E COBERTURA COM MÁXIMO RETORNO ÀS ÁREAS SENSÍVEIS

Método de Otsu. Leonardo Torok 1

Departamento de Engenharia de Produção UFPR 57

DETECÇÃO DE CLUSTERS NA EXPLORAÇÃO DE LENHA DO SEMIÁRIDO BRASILEIRO

Modelos de redes sociais para dados de Migração

MAPEAMENTO DE SÉRIES FINANCEIRAS EM REDES COMPLEXAS

UTILIZAÇÃO DO ALGORITMO SIMULATED ANNEALING EM PROBLEMAS DE OTIMIZAÇÃO

1 Introdução Motivação

Neural Networks. Neurônios: Elementos aritméticos simples. Redes Neuronais: conj de neurônios interligados.

Influência do Tamanho Amostral no Planejamento Econômico para Controle On-Line de Processo por Atributo com Erros de.

UNIVERSIDADE FEDERAL DE MINAS GERAIS Spencer Barbosa da Silva

Teoria dos Grafos. Árvores Geradoras

Conceitos Básicos da Teoria de Grafos

OTIMIZAÇÃO MULTIOBJETIVO

INF 1010 Estruturas de Dados Avançadas

5 Estudo de Caso e Resultados

Teoria dos Grafos Caminhos. Profª. Alessandra Martins Coelho

Especificação do TP3

Cleide Perônico de Almeida APLICAÇÃO DA FUNÇÃO INTENSIDADE NO DELINEAMENTO DE CLUSTERS DE DOENÇAS NO ESTADO DE MINAS GERAIS

Algoritmos Probabilísticos

Mapas Auto-Organizáveis de Kohonen (SOM) SOM é uma rede neural artificial (Kohonen (1995))

Reconstrução a partir de Seções Planares

Rastreamento de Objetos Baseado em Grafos. Casamento Inexato entre Grafos Relacionais com Atributos

Otimização por Colônia de Formigas (Ant Colony Optimization - ACO)

Uso de Técnicas de análise espacial de dados: estudo de distribuição da soja no Estado do Maranhão Ulisses Denache Vieira Souza 1

DETECÇÃO DE AGRUPAMENTOS ESPAÇO-TEMPORAIS PARA IDENTIFICAÇÃO DE ÁREAS DE RISCO DE HOMICÍDIOS POR ARMA BRANCA EM JOÃO PESSOA, PB

Uso de Técnicas de análise espacial de dados: estudo de distribuição da soja no Estado do Maranhão

3 Extensões dos modelos matemáticos

Modelo de previsão de partida de ônibus utilizando cadeias de Markov de alcance variável

Algoritmos Genéticos e Evolucionários

Autor: Carlos José de Almeida Pereira

Simulação: Pseudoaleatoriedade, um estudo sobre o método do meio do quadrado

Teoria dos Grafos. Teoria dos Grafos. Profa. Sheila Morais de Almeida DAINF-UTFPR-PG. agosto

Thiago Christiano Silva

Grafos COM11087-Tópicos Especiais em Programação II

Análise de Conglomerados Espaciais de Homicídios na Cidade de João Pessoa

Comparação entre intervalos de confiança calculados com métodos bootstrap e intervalos assintóticos

DIAGRAMAS DE VORONOI MULTIPLICATIVAMENTE PONDERADOS COM RESTRIÇÕES NO TERRAVIEW

1.1 Descrição do problema A programação genética (PG) é uma meta-heurística utilizada para gerar programas de computadores, de modo que o computador

P R O J E T O D E P E S Q U I S A ( M o d e l o P R O P P ) IDENTIFICAÇÃO. Modelos, algoritmos e aplicações em estatística espacial

Algoritimos e Estruturas de Dados III CIC210

GRAFOS Aula 09 Coloração de Grafos Max Pereira

Introdução a Grafos Letícia Rodrigues Bueno

Professor: Anselmo Montenegro Conteúdo (aula 7): - Noções de estruturas de dados topológicas. Instituto de Computação - UFF

Fundação Oswaldo Cruz Escola Nacional de Saúde Pública Departamento de Epidemiologia. Estatística espacial. Padrão Pontual

TÉCNICAS INTELIGENTES APLICADAS A SISTEMAS ELÉTRICOS DE POTÊNCIA

Time Series Trend Detection and Forecasting Using Complex Network Topology Analysis

Algoritmo hibrido MOEAD/PSO + EDA para solução de problemas com muitos objetivos

Teoria dos Grafos Aula 3

Evolução Diferencial Multiobjetivo Híbrido com K-Means e NSGA II: Uma Análise Comparativa frente ao NSGA III

Algoritmo CLIQUE (Clustering In QUEst)

Uma análise puramente espacial para os casos de acidentes por animais peçonhentos no Estado do Amazonas e 2010

Melhor caminho entre duas estações de metro

Modelagem para previsão/estimação: uma aplicação Neuro-Fuzzy

Estrutura de Dados e Algoritmos e Programação e Computadores II. Aula 10: Introdução aos Grafos

Instituto Nacional de Pesquisas Espaciais - INPE. Divisão de Processamento de Imagens - DPI

Teoria da Decisão. Otimização Vetorial. Prof. Lucas S. Batista. lusoba

Visão Computacional. Prof. Leandro Augusto Frata Fernandes TCC Introdução à Ciência da Computação (2012.

SCC0503 (Algoritmos e Estruturas de Dados II) Prof. Moacir P. Ponti Junior. Trabalho 2

GRAFOS E ALGORITMOS TEORIA DE GRAFOS

Aulas 4-5: Análise Exploratória de Dados Espaciais (AEDE) Prof. Eduardo A. Haddad

Teoria dos Grafos Aula 1 - Introdução

Fundamentos de Inteligência Artificial [5COP099]

Uma Introdução à Busca Tabu André Gomes

Transcrição:

Revista da Estatística da UFOP, Vol I, 011 - X Semana da Matemática e II Semana da Estatística, 010 ISSN 37-8111 PENALIZAÇÃO POR NÃO-CONECTIVIDADE PONDERADA DE GRAFOS Spencer Barbosa da Silva 1, Anderson Ribeiro Duarte 1 Resumo: O problema de detecção e inferência de clusters vem sendo recentemente tratado em muitos trabalhos através de técnicas de otimização. Recentes medidas de penalização são associadas à Estatístitica Scan Espacial para a detecção de clusters irregulares. Uma destas medidas é a de Não Conectividade, que se mostra bastante eficaz no auxílio para a detecção. Entretanto tal medida apresenta dificuldades para interpretar as diferenças existentes quanto a importância de cada conexão dentro de um possível cluster. Será proposta uma estratégia de ponderação para os termos associados à medida de Não conectividade visando aumentar a eficiência da medida anterior para detecção de clusters irregulares. Palavras-chave: Teoria de Grafos, Otimização Multi-objetivo, Penalização por Não-Conectividade, Penalização por Não-Conectividade Ponderada. Introdução Em geral, ao trabalhar com conglomerados espaciais, se tem por interesse mapear agrupamentos de regiões nos quais a incidência de um determinado fenômeno de interesse é discrepante, ou seja, muito acima ou abaixo dos valores esperados. São muito comuns estudos de fenômenos associados à doenças que em geral apresentam riscos para a saúde pública. Entretanto diversos outros fenômenos podem ser avaliados como: poluição, criminalidade, entre outros. Diversos métodos de detecção e inferência para clusters espaciais se baseiam na maximização da estatística Scan Espacial. A referida estatística se encontra detalhada nos artigos de Kulldorff and Nagarwalla (1995)[6] e Kulldorff (1997)[7]. Ela é definida como uma razão de verossimilhança e busca identificar o cluster mais verossímil dentre algumas possíveis configurações de clusters no mapa em estudo. Os métodos que utilizam a maximização da estatística Scan Espacial são bastante difundidos, mas apresentam algumas deficiências quando os clusters não apresentam formato regular (por exemplo, conjuntos não circulares) que são bastante comuns. Neste estudo, é bastante frequente a existência de clusters com formatos bastante irregulares. Em diversos problemas os clusters não regulares podem ser observados como: problemas de tráfego, poluição, vigilância sindrômica. Em muitos destes casos, formatos não regulares se devem às características geográficas do mapa em estudo, tais como rios, regiões litorâneas, regiões montanhosas entre outras. Diversos métodos para a detecção de clusters com formatos irregulares já foram discutidos e pode-se encontrar uma interessante revisão bibliográfica deste assunto em Duczmal et al. (009)[5]. O recorrente problema da irregularidade da forma dos possíveis clusters vem sendo discutido com profundidade nos últimos anos. Muitas estruturas para controlar a forma das possíveis soluções apresentadas pelos métodos de detecção já foram apresentadas. Cada uma destas 1 Departamento de Matemática, ICEB, UFOP, spencerbars@gmail.com, anderson@iceb.ufop.br 5

formas apresenta vantagens e desvantagens que, em geral, são inerentes à composição espacial do mapa completo, bem como à distribuição populacional ao longo do mapa. Todos estes métodos são bastante importantes em estudos de vigilância sindrômica e também no estudo epidemiológico dentre outra possíveis áreas de aplicação. Objetivos Neste trabalho será utilizada uma proposta multi-objetivo para o procedimento de detecção de clusters. É importante salientar que neste momento não é objetivo principal apresentar detalhes profundos sobre a estratégia otimizadora. Tem-se por objetivo principal, apresentar uma proposta de função objetivo que seja eficiente no processo de detecção de clusters. A função objetivo é denominada Função de penalização por Não Conectividade ponderada de Grafos. Esta função se baseia na função de penalização por Não Conectividade apresentada anteriormente por Yiannakoulias et al.(007)[9]. Além disto observar que a função proposta tem aplicação não somente na área de detecção de clusters, mas pode ser utilizada em diversos problemas que envolvem a Teoria de Grafos. Metodologia A medida de penalização por Não Conectividade proposta por Yiannakoulias et al.(007)[9] se baseia no subgrafo associado ao cluster candidato e se mostra bastante eficiente na detecção e inferência de clusters. Entretanto o formato desta penalização leva em conta apenas a contagem das arestas do subgrafo associado ao cluster candidato. Não existe uma consideração quanto ao grau de importância de uma aresta na conexidade do subgrafo. Em outras palavras, a pergunta interessante seria se existem arestas mais ou menos relevantes para a conexidade do grafo. Pensando apenas na análise do grafo, é fato que tal relevância não precisa ser considerada. Quando observamos que estamos trabalhando com subgrafos associados a conjuntos de regiões em um mapa, lembramos que as arestas são conexões de vizinhança entre regiões que podem ser muito ou pouco populosas. Neste contexto, observamos que existem sim arestas mais e menos importantes para a conexidade do subgrafo associado a um cluster candidato. A mesma análise pode ser realizada para o grau de importância de cada um dos vértices do subgrafo em estudo. A medida de penalização por Não Conectividade é dada por: y(z) = a(z) 3 (v(z) ) Ela se baseia em uma relação do número de vértices v(z) e de arestas a(z) do subgrafo associado ao cluster candidato z. Para a medida ponderada, será estabelecida uma ponderação para os vértices e arestas do subgrafo associado a um cluster candidato. Tal ponderação será construída pensando na estrutura da distribuição populacional ao longo das regiões deste cluster candidato. A ponderação das arestas do subgrafo associado ao cluster candidato z será definida pela média entre as populações das regiões cujos vértices são conectados pela aresta em questão. Portanto para uma aresta a i,j conectando os vértices v i e v j associados às regiões Ri e Rj com populações pop(ri) e pop(rj), teremos o seguinte peso ponderador: pop(ri) + pop(rj) P (a i,j ) = Já a ponderação dos vértices será dada pela população da região associada ao respectivo vértice, ou seja, para o vértice v i associado à região Ri cuja população é pop(ri), teremos o seguinte peso ponderador: P (v i ) = pop(ri) 6

Se considerarmos a figura 1 com regiões definidas por R1, R, R3 e R4, podemos construir diferentes cenários de distribuição populacional e então verificar a poderação das arestas e dos vértices para diferentes distribuições populacionais. Figura 1: Possível cluster Um destes possíveis cenários é ilustrado na figura com as populações das regiões sendo: pop(r1) = 1000, pop(r) = 400, pop(r3) = 400 e pop(r4) = 800. Figura : Ponderação de arestas e vértices Teríamos então os seguintes pesos para as arestas: 1000 + 400 1000 + 400 P (a 1, ) = = 700, P (a 1,3 ) = = 700, P (a,3 ) = 400 + 800 400 + 800 P (a,4 ) = = 600, P (a 3,4 ) = = 600. Já para os vértices os seguintes pesos: P (v 1 ) = 1000, P (v ) = 400, P (v 3 ) = 400, P (v 4 ) = 800. 400 + 400 = 400, Utilizando o mesmo formato de cluster, quando consideramos um outro cenário de distribuição populacional, os pesos associados às arestas ficam modificados. Considere neste novo cenário as populações pop(r1) = 400, pop(r) = 1000, pop(r3) = 800 e pop(r4) = 400, isto pode ser observado na figura 3. 7

Figura 3: Ponderação de arestas e vértices Teríamos então os seguintes pesos para as arestas: 400 + 1000 400 + 800 P (a 1, ) = = 700, P (a 1,3 ) = = 600, P (a,3 ) = 1000 + 400 800 + 400 P (a,4 ) = = 700, P (a 3,4 ) = = 600. Para os vértices os seguintes pesos: P (v 1 ) = 400, P (v ) = 1000, P (v 3 ) = 800, P (v 4 ) = 400. 1000 + 800 = 900, Para reformular a função descrita, susbtituiremos as arestas e vértices por seus respectivos pesos ponderadores da seguinte forma: yp(z) = k 1 i=1 j=i+1 3 P (v i ) i=1 P (a i,j ) P (v i ) k i=1 em que k é a quantidade de regiões no cluster candidato z. P (v i ) i=1 Alguma dúvida pode pairar sobre o termo associado ao valor no denominador, k entretanto se pensarmos na suposição de todas as populações idênticas nas regiões da zona a ser avaliada, se faz necessário este termo para que tenhamos y(z) = yp(z) para esta situação específica. Com este novo formato estaremos levando em conta não somente a estrutura do subgrafo associado à zona z, mas também informações inerentes a estrutura da distribuição populacional dentro da zona z e o grau de relevância das vizinhanças entre regiões quanto às suas populações. Voltando aos exemplos descritos através das Figuras e 3 podemos observar o efetivo efeito da utilização deste formato de função de penalização. No exemplo apresentado através da Figura as regiões mais populosas (R1 e R4) não estão conectadas, ou seja, não são vizinhas. Já no exemplo da Figura 3 as regiões mais populosas (R e R3) estão conectadas, ou seja, são vizinhas. A motivação deste formato de penalização fica evidênciada nesta situação. Em outras palavras, nossa suposição se baseia no fato de acreditarmos que vizinhanças de regiões mais populosas 8

devem gerar maior movimentação entre habitantes e portanto tendendo a reforçar a proliferação do fenômeno de interesse. Neste caso estaríamos reforçando o cluster em questão. Note que utilizando a medida de Não Conectividade proposta anteriormente, os exemplos das Figuras e 3 apresentariam a mesma medida de Não Conectividade que neste caso seria: y(z) = 5 3 (4 ) = 0.833 Agora utilizando a medida de Não Conectividade Ponderada, as medidas seriam diferentes em cada um dos exemplos. No exemplo da Figura teríamos: yp(z) = 700 + 700 + 400 + 600 + 600 ( ( )) 600 3 1000 + 400 + 400 + 800 4 yp(z) = 0.769 No exemplo da Figura 3 teriamos: yp(z) = 700 + 600 + 900 + 700 + 600 ( ( )) 600 3 400 + 1000 + 800 + 400 4 yp(z) = 0.897 confirmando então o objetivo da proposição da nova função de Não Conectividade Ponderada. Conclusões Observamos que a Função de Não-Conectividade é eficiente na avaliação do grau de conexidade de um grafo, entretanto para problemas nos quais existem diferenças entre a importância das arestas e vértices, se faz necessário o auxílio das ponderações propostas através da Função de Não-Conectividade Ponderada. Para o problema específico da detecção de clusters espaciais, já foi implementado um algoritmo genético como estratégia de otimização. No caso foi utilizado o algoritmo genético NSGA-II Deb et al.(00)[1]. Quanto ao poder de detecção de clusters, foi utilizado um benchmark com dados reais de cancêr de mama no nordeste dos Estados Unidos. Neste mapa foram construídos clusters artificiais e a qualidade no processo de detecção foi comparada entre o algoritmo genético multi-objetivo em que um dos objetivos é a Função de Não-Conectividade e outro algoritmo genético multi-objetivo em que um dos objetivos é a Função de Não-Conectividade Ponderada. Foi detectado em média um poder de detecção 4% superior ao método anterior. Dado que o método anterior já era bastante eficiente, esta melhoria aparentemente pequena já pode ser observada como significativa. Outrossim para outras abordagens de problemas, os efeitos da utilização da metodologia ponderada podem se tornar ainda mais evidentes. Um fato relevante é que não ocorreu perda em tempo computacional na execução do algoritmo seja com a Função de Não-Conectividade ou com a Função de Não-Conectividade Ponderada. 9

Referências [1] Deb, K., Pratap, A., Agrawal, S. and Meyarivan, T., A fast and elitist multiobjective genetic algorithm: NSGA-II, IEEE Transactions on Evolutionary Computation, (6), 18-197, 00. [] Duarte, A.R., Duczmal, L., Ferreira, S.J. and Cançado, A.L.F., Internal cohesion and geometric shape of spatial clusters, Environmental and Ecological Statistics, 17, 03-9, 010. [3] Duczmal, L., Cançado, A.L.F., Takahashi, R.H.C. and Bessegato,L.F., A genetic algorithm for irregularly shaped spatial scan statistics, Computational Statistics & Data Analysis, 5, 43-5, 007. [4] Duczmal, L., Cançado, A.L.F. and Takahashi, R.H.C., Geographic Delineation of Disease Clusters through Multi-Objective Optimization, Journal of Computational & Graphical Statistics, 17, 43-6, 008. [5] Duczmal, L., Duarte, A.R. and Tavares, R., Extensions of the scan statistic for the detection and inference of spatial clusters, em Scan Statistics (Glaz J., Pozydnyakov V. and Wallestein S., eds.) pp. 157-18, Birkhäuser, Boston, 009. [6] Kulldorff, M. and Nagarwalla, N., Spatial disease clusters: detection and inference, Statistics in Medicine,14, 799-810, 1995. [7] Kulldorff, M., A Spatial Scan Statistic, Communications in Statistics: Theory and Methods, 6(6), 1481-1496, 1997. [8] Silva, S. B. Dissertação de Mestrado: Penalização por Não-Conectividade Ponderada de Grafos, Departamento de Estatística-UFMG, 010. [9] Yiannakoulias, N., Rosychuk, R.J. and Hodgson, J., Adaptations for finding irregularly shaped disease clusters, International Journal of Health Geographics, 6, 8, 007. 30