Parametrização Adequada do Algoritmo Genético NSGA-II para Problemas de Detecção e Inferência em Clusters Espaciais

Transcrição

1 Universidade Federal de Ouro Preto Instituto de Ciências Exatas e Biológicas Departamento de Estatística Bacharelado em Estatística Parametrização Adequada do Algoritmo Genético NSGA-II para Problemas de Detecção e Inferência em Clusters Espaciais Gilberto de Andrade Ouro Preto-MG Setembro de 2013

2 Gilberto de Andrade Parametrização Adequada do Algoritmo Genético NSGA-II para Problemas de Detecção e Inferência em Clusters Espaciais Monograa de Graduação apresentada ao Departamento de Estatística do Instituto de Ciências Exatas e Biológicas da Universidade Federal de Ouro Preto como requisito parcial para a obtenção do grau de bacharel em Estatística. Orientador(a) Dr. Anderson Ribeiro Duarte Universidade Federal de Ouro Preto UFOP Departamento de Estatística DEEST Ouro Preto-MG Setembro de 2013

3 MINISTÉRIO DA EDUCAÇÃO Universidade Federal de Ouro Preto Instituto de Ciências Exatas e Biológicas Departamento de Estatística Campus Universitário - Morro do Cruzeiro - CEP Ouro Preto MG - Brasil Homepage: deest@iceb.ufop.br

4 Agradecimentos Agradeço primeiramente aos meus pais, mãe e pai, Eliane e Hamilton, pela dedicação, incetivo e oportunidade, que sem vocês nada seria capaz. Também a minha irmã Ariane, pelas conversas e amizade! Não me esquecendo, avô Sr. Nilton e avó Ademarina (eterna) e avô Geraldo (eterno) e avó Ivana. Amo vocês Aos professores do Departamento de Estatística da UFOP, por cada matéria, conversa, conselhos e amizade. Em especial, Maria Claúdia pelas conversas e puxões de orelhas, Flávio e Tiago pelas diversas formas de enxergar a Estatística, Fernando e Thais pelas aulas divertidas e motivadoras. Agradeço ao mestre Anderson pelas conversas, divertimento, risadas e pela amizade. Obrigado por me ajudar nas diculdades e aprender cada dia como o "C++" é o melhor que o "R". Também, aos colegas, Henrique, Gabriel Juliano e Lilian nesta caminhada que nem sempre foi fácil, não podendo esquecer de pessoas que fazem a diferença: Carla, Ana Carolina, Ludmylla, Aline, Gabriel Lima, Elaine e os guerreiros Júlio Cecílio e Sr. Adilson! Por m, Vitória que me ajudou em cada passo, que me guiou em diversas diculdades e sempre esteve ao meu lado. Que esta etapa seja a primeira de muitas vitórias nossas. Te Amo. "Tem que ter Leveza, Discernimento, Certeza e Perseverança"(Forfun - Descendo o Rio)

5 Parametrização Adequada do Algoritmo Genético NSGA-II para Problemas de Detecção e Inferência em Clusters Espaciais Autor: Gilberto de Andrade Orientador(a): Dr. Anderson Ribeiro Duarte Resumo As técnicas de detecção e inferência de conglomerados espaciais têm sido bastante abordadas recentemente. Uma das principais utilizações é associada à problemas de saúde pública como em casos de epidemiologia e vigilância sindromica. Muitas variáveis estão associados ao problema. Por exemplo: climatologia, relevo, hidrograa, distribuição populacional e contexto socio-econômico podem acelerar de forma signicativa a propagação dos fenômenos em estudo (como doenças infecto-contagiosas). Uma proposição notoriamente eciente é formular o problema através de uma abordagem multi-objetivo de otimização. Um dos objetivos é a clássica Estatística Espacial Scan e o outro, em geral, um objetivo associado com a estrutura topológica ou geográca do conglomerado a ser detectado no mapa em estudo. Uma estratégia de otimização bem difundida para essa abordagem é a metaheurística Algoritmo Genético. O Algoritmo Genético, por se tratar de uma heurística, depende da calibração de um conjunto de parâmetros de entrada. A utilização do algoritmo genético nesse problema, até então, foi feita através de uma calibração ad-hoc desses parâmetros. Neste trabalho é testado um grande conjunto de possíveis calibrações através de um benchmark de dados reais buscando uma calibração que se adapte melhor ao problema especíco em estudo. Palavras-chave: Detecção de Conglomerados; Saúde Pública; Estratégias de Otimização; Estatística Scan; Algoritmo Genético.

6 Suitable Parameterization of Genetic Algorithm NSGA-II for Detection and Inference in Spatial Clusters Author: Gilberto de Andrade Advisor: Dr. Anderson Ribeiro Duarte Abstract Techniques for detection and inference spatial clusters have recently been widely addressed. A major use is associated with health problems such as in cases of syndromic surveillance and epidemiology. Many variables are associated with the problem, climate, relief, hydrography, population distribution and socio-economic context can signicantly accelerate the spread of the phenomena under study (like infectious diseases). A ecient remarkably proposition formulates the problem using a multi-objective optimization. One aim is the classical Spatial Scan Statistic and the other, in general, an objective associated with geographical or topological structure of the cluster to be detected on the study map. An optimization strategy for this widespread approach is the metaheuristic Genetic Algorithm. The Genetic Algorithm, because it is a heuristic depends on the calibration of a set of input parameters. The use of the genetic algorithm on this problem so far has been made through an ad-hoc calibration of the parameters. In this work we tested a large set of possible calibrations through a benchmark real data seeking a better t to the setup calibration on the specic problem under study. Keywords: Cluster Detection, Public Health, Optimization Strategies, Scan Statistic and Genetic Algorithm.

7 Lista de guras 1 Mapa do estado de São Paulo dividido em micro regiões com a área sombreada representando uma possível zona de estudo p Um cluster conexo com um grande volume de regiões (com 122 regiões, ou 50% da área em estudo) encontrado através de uma busca sem limitação para o tamanho da solução em sem utilização de funções de penalização. p Fluxograma do Algoritmo Genético clássico p Fluxograma do Algoritmo NSGA-II, descrevendo o funcionamento da etapa de seleção p Pseudo-código Processo 1 do Fast Non-Dominated Sorting p Pseudo-código Processo 2 do Fast Non-Dominated Sorting p Cálculo da distância através da crowding distance p Um cruzamento entre pais A = {a, b, c, d, e} e B = {b, c, f, g, h, i, j} no mapa (acima). A descendência gerada é formada pelas quatro zonas intermédias (abaixo). A descendência constitui um caminho aleatorio no espaço de congurações entre todos os caminhos possíveis entre as zonas extremas, que são os pais A e B p Os pais {a, b, c, d, e} e {c, f, g, h, i} dentro do mapa têm a região c em comum. A numeração dos níveis exemplicada gera os lhos {b, c, d, e, g}, {b, c, d, f, g} e {b, c, f, g, h}. Outra numeração (dentre as várias possíveis) é também exemplicada p Clusters articiais gerados no mapa do nordeste dos EUA p Gráco box-plot (LLR Compacidade Geométrica) das medidas de Poder por cluster dentre todas congurações p Gráco box-plot (LLR Compacidade Geométrica) das medidas de Sensibilidade por cluster dentre todas congurações p. 46

8 13 Gráco box-plot (LLR Compacidade Geométrica) das medidas de PPV por cluster dentre todas congurações p Gráco box-plot (LLR Compacidade Geométrica) das medidas da soma de Poder, Sensibilidade e PPV por conguração p Gráco box-plot (LLR Não-Conectividade) das medidas de Poder por cluster dentre todas congurações p Gráco box-plot (LLR Não-Conectividade) das medidas de Sensibilidade por cluster dentre todas congurações p Gráco box-plot (LLR Não-Conectividade) das medidas de PPV por cluster dentre todas congurações p Gráco box-plot (LLR Não-Conectividade) das medidas da soma de Poder, Sensibilidade e PPV por conguração p Gráco box-plot (LLR Não-Conectividade Ponderada) das medidas de Poder por cluster dentre todas congurações p Gráco box-plot (LLR Não-Conectividade Ponderada) das medidas de Sensibilidade por cluster dentre todas congurações p Gráco box-plot (LLR Não-Conectividade Ponderada) das medidas de PPV por cluster dentre todas congurações p Gráco box-plot (LLR Não-Conectividade Ponderada) das medidas da soma de Poder, Sensibilidade e PPV por conguração p Gráco box-plot (LLR Coesão Topológica) das medidas de Poder por cluster dentre todas congurações p Gráco box-plot (LLR Coesão Topológica) das medidas de Sensibilidade por cluster dentre todas congurações p Gráco box-plot (LLR Coesão Topológica) das medidas de PPV por cluster dentre todas congurações p Gráco box-plot (LLR Coesão Topológica) das medidas da soma de Poder, Sensibilidade e PPV por conguração p. 63

9 Lista de tabelas 1 Valores dos parâmetros de entrada do algoritmo genético p Combinações entre os parâmetros de entrada do algoritmo genético... p. 41

10 Sumário 1 Introdução p Organização do Trabalho p Revisão Bibliográca p Métodos de Detecção de Clusters p Algoritmos Evolucionários p Aspectos Metodologicos p Estatística Scan Circular p Detecção de Clusters Irregulares p Estratégia de Otimização p Otimização multi-objetivo p Penalização por Compacidade Geométrica p Penalização por Não-Conectividade p Penalização por Não-Conectividade Ponderada p Penalização por Coesão Topológica p Algoritmos Genéticos p Algoritmo Genético - Visão Gerão p Geração de População Inicial p Operador de Cruzamento p Operador de Mutação p Operador de Seleção p. 29

11 4.1.5 Fast Non-Dominated Sorting p Crowding Distance p Algoritmo de Otimização - Implementação para o Problema de Detecção de Clusters p Resultados Numéricos e Discussões p Conguração do Experimento p Medidas de Desempenho para Comparação entre Congurações.... p Avaliações Numéricas p Resultados de Utilização da Penalização por Compacidade Geométrica p Resultados de Utilização da Penalização por Não-Conectividade p Resultados de Utilização da Penalização por Não-Conectividade Ponderada p Resultados de Utilização da Penalização por Coesão Topológica p Considerações nais p. 64 Referências p. 66

12 11 1 Introdução No decorrer dos últimos anos, ocorreu um aumento expressivo no número de trabalhos dedicados à metodologias para detecção e avaliação de conglomerados (clusters) espaciais e temporais. Os problemas de detecção e avaliação de clusters podem tratar de dados pontuais (cada indivíduo possui uma localização na região de estudo e pode representar ou não a ocorrência de um caso do fenômeno de interesse) ou dados agregados por região (a área de estudo está subdividida em regiões das quais é conhecida sua população e quantidade de ocorrências do fenômeno de interesse). No enfoque deste trabalho, os dados estão agregados por regiões e cluster é um conjunto conexo de regiões, no qual existe uma quantidade de ocorrências discrepante para o fenômeno de interesse. Os procedimentos de detecção de clusters podem ser realizados para intervalos de tempo (clusters temporais) ou então, para localizações no espaço (clusters espaciais), ou em ambos (clusters espaçotemporais). Problemas associados à cluster espaciais encontram-se em diversas situações, tais como problemas associados à saúde pública (vigilância sindrômica e epidomiologia), criminologia, pesquisa de mercados, entre outros. Um dos mais relevantes objetivos está na determinação de modelos satisfatórios para execução de procedimentos para a detecção e avaliação destes clusters. Os métodos de detecção e inferência de clusters, em sua grande maioria, são baseados na Estatística Scan Espacial apresentada por Kulldor e Nagarwalla (1995) e Kulldor (1997). O objetivo é vericar a existência de clusters de casos sem especicar sua localização geográca antecipadamente. As denições desta Estatística serão apresentadas posteriormente neste texto. Uma primeira idéia para tentar detectar um cluster poderia levar em conta simplesmente a incidência de casos em cada região de estudo, isto é, o número de casos observados dividido pela população, ou ainda o risco relativo que é o número observado de casos dividido pelo número esperado de casos. Apesar de parecer razoável, essa análise não resolve

13 12 o problema de detecção de clusters, porque é possível que clusters com populações muito discrepantes possam apresentar uma mesma proporção de casos. Neste caso, estes candidatos seriam comparados em situação de igualdade, quando na verdade são bastante diferentes devido à discrepância entre as populações. Um aumento no risco relativo é tão mais signicativo quanto maior é a população de risco dentro do cluster candidato. Isso signica que, embora uma região possa apresentar um alto risco relativo, se sua população é pequena, ela se torna pouco signicativa. Para contornar este problema, é preciso encontrar um método que permita analisar somente os candidatos a clusters (subconjuntos conexos de regiões do mapa) mais promissores e descartar os que não parecem muito interessantes. Uma vez que não analisam todos os candidatos, esses métodos não garantem que encontraremos a solução ótima, mas um bom método deve encontrar uma boa solução na maioria das vezes. Neste sentido, existem alguns algorítmos que propõem estratégias para a detecção de clusters com formatos irregulares. Uma técnica bastante razoável e já utilizada é a incorporação de alguma função de penalização para o formato geométrico ou topologia do grafo associado ao cluster. Alguns métodos foram desenvolvidos recentemente para detectar clusters de formato irregular. Ao trabalhar com estratégias para clusters irregulares, alguns problemas podem surgir. Um primeiro problema seria a avaliação de todos os possíveis candidatos, visto que o número destes candidatos cresce exponencialmente a medida que o número de regiões no mapa em estudo aumenta. Um segundo problema é que na possibilidade de avaliarmos todos os candidatos, se avaliando através da razão de verossimilhanças, decorrente da proposta da estatística Espacial Scan, a solução obtida nem sempre seria uma solução viável. Isto se deve ao fato de ser possível existir soluções com alta razão de verossimilhança, entretanto dentre estes candidatos, alguns deles podem ter sido obtidos através da junção de regiões com elevado risco no mapa em estudo. Seriam então, conjuntos de regiões que estão espalhadas ao longo do mapa, abarcando grandes áreas de estudo. Este formato de solução tende a não ser muito informativo e em geral não é uma solução de interesse para o problema na prática. Dada a possibilidade de existência de tais soluções, o poder de detecção destes métodos seria reduzido. Neste sentido, existem algoritmos que propõem estratégias para a detecção de clusters com formatos irregulares. Muitos deles são heurísticas, portanto não vasculham todas as possíveis soluções. São analisadas apenas algumas das soluções, que seriam as mais promissoras. Ainda assim, persistiria o problema de soluções não viáveis. Existem propostas

14 13 de funções penalizadoras que buscam coibir a possibilidade destas soluções. A heurística aqui utilizada é o algoritmo genético multi-objetivo para o problema de detecção de clusters. Este método conduz a uma estratégia que busca maximizar dois objetivos, sendo eles: a Estatística Espacial Scan e alguma função de penalização associada a forma do cluster detectado. Não é apresentada uma única solução, mas sim um conjunto de soluções não-dominadas, ou seja, que não são inferiores às outras soluções nos dois objetivos simultaneamente. O algoritmo multi-objetivo apresenta uma importante vantagem: todos os clusters potenciais são considerados sem uma classicação de acordo com os valores da penalização. Assim a classicação quanto à qualidade das possíveis soluções é executada somente depois que todos os candidatos são avaliados. A avaliação quanto à signicância estatística é realizada paralelamente para todos os clusters do conjunto de soluções não-dominadas usando simulações de Monte Carlo, quebrando o laço de dependência entre elas, e determinando a melhor solução no conjunto de soluções não-dominadas. Utilizamos para a avaliação da signicância estatística a teoria de funções de aproveitamento. A utilização da função de aproveitamento no problema especíco de detecção de clusters se encontra bem detalhada em (CANÇADO et al., 2010). 1.1 Organização do Trabalho Este trabalho se encontra organizado da seguinte forma: Uma revisão bibliográca delimitando o problema em estudo é apresentada no capítulo 2. O capítulo 3 apresenta diversos aspectos metodológicos preponderantes para uma correta interpretação da proposta executada neste trabalho. O capítulo 4 ainda apresenta discussões metodológicas porém com o intuito de apresentar com maior profundidade o algoritmo genético que será utilizado como estatégia de otimização. Os resultados numéricos obtidos são discutidos e detalhados no capítulo 5. Finalmente as considerações nais são abordadas no capítulo 6.

15 14 2 Revisão Bibliográca 2.1 Métodos de Detecção de Clusters As estatísticas associados à clusters têm sido estudadas por muitas décadas. Tais estudos são de extrema utilidade para detectar e monitorar riscos potenciais de fenômenos de diversos tópicos em muitas áreas, porém existe uma grande destaque associado às aplicações em áreas de saúde, como por exemplo a epidemiologia e a vigilância sindrômica. Como um conceito mais geral e abrangente, dene-se por cluster uma área de risco com signicância discrepante, podendo ser esta muito elevada ou muito baixa. Choynowski (1959) foi um dos primeiros autores que propuseram testes para a detecção de clusters. O estudo estava relacionado ao tratamento de tumores do tipo cerebral de uma província na Polônia, abrangendo cerca de 17 municípios diferentes. Realizou-se o teste para vericar quando o número de ocorrências em cada município era signicativamente elevado comparado a algum nível pré-estabelecido. Este método apenas testava individualmente um quadrante do mapa em estudo por vez, surgindo problemas com os testes múltiplos e com a incapacidade de se detectar conglomerados nas fronteiras dos municípios da província polonesa. Openshaw et al. (1988) propôs uma ferramenta exploratória para os tipos de dados pontuais do tipo caso-controle e dados agregados por área. O método faz uso de múltiplos círculos de raio R sobrepostos, permitindo que os clusters possam ter formas diferentes daquelas impostas pelas delimitações geográcas dos municípios da região em estudo. Observa-se a contagem do número de casos e do número de pessoas em risco dentro de cada círculo, e uma proporção de incidência local para apresentar aqueles círculos com taxas excedendo algum limiar pré-estabelecido. Naus (1965b) desenvolveu estudos primitivos de detecção de clusters em processos pontuais unidimensionais propondo uma primeira versão para a Estatística Scan. Procuravase obter qual a probabilidade de se sortear N pontos independentes de uma distribuição

16 15 uniforme (a, b) e existir um subintervalo de (t, t + p) (a, b) com p < b a que contenha pelo menos n pontos dentre os N pontos observados. Posteriormente, Naus (1965a) faz uma abordagem bidimensional, mas não análoga à que foi calculada para uma dimensão, mas sim uma forma de cálculo do limite superior e inferior da probabilidade de ocorrer o evento: existe um sub-retângulo do quadrado unitário, com lados de tamanho u e v orientados paralelamente aos eixos x e y respectivamente, que contenha pelo menos n dos N pontos. Com isso, traz a situação para as duas dimensões e, consequentemente, aumenta a complexidade do problema. Turnbull et al. (1990) implementaram um método denominado CEPP - Cluster Evaluation Permutation Procedure, para detecção de clusters baseado em janelas sobrepostas no mapa, de maneira que cada conjunto tenha população constante. Este método requer a denição pelo usuário do tamanho da população de interesse. Besag e Newell (1991) propõem um mecanismo semelhante ao de Turnbull et al. (1990), com círculos sobrepostos que procuram para cada caso acumular as regiões vizinhas para redenir a área. Porém ao invés de se atingir um valor pré-determinado da população, atinge-se um valor pré-determinado de casos. Desta forma, para cada caso, obtem-se uma zona com um número de casos igual a k + 1, em que k + 1 é o número de casos a ser atingido, incluindo-se o caso já presente no centro do círculo. Para cada uma das zonas efetua-se um teste de signicância para vericar se a zona consiste em um cluster. Embora em (TURNBULL et al., 1990; BESAG; NEWELL, 1991) tenha sido introduzida uma nova abordagem para avaliar a signicância estatística na proporção de incidência máxima local, a Estatística Scan Espacial denida em (KULLDORFF, 1997) pretende abordar esta particular questão e fornecer uma estratégia de inferência para diversos valores de raios dentre os possíveis clusters. Todas as abordagens discutidas anteriormente não se preocupam com as possíveis irregularidades na forma do cluster a ser detectado. Entretanto este é um problema que efetivamente ocorre em diversos cenários. Uma vasta revisão sobre os diversos métodos que contemplam clusters irregulares pode ser obtida em (DUCZMAL; DUARTE; TAVARES, 2009). Alguns dos trabalhos contidos nessa revisão serão discutidos posteriormente neste texto. Recentemente, diversos trabalhos apresentam medidas para quanticar o desempenho dos métodos de detecção e inferência de clusters. Em geral, as medidas de poder do teste, sensibilidade do teste e valor preditivo positivo do teste são utilizadas. Huang, Kulldor e

17 16 Gregorio (2007) geraram dados aleatórios de sobrevivência das distribuições exponencial, gama e lognormal para a utilização do métodos propostos em (KULLDORFF, 1997) visando a vericação de medidas de poder, sensibilidade e valor da predição positiva. 2.2 Algoritmos Evolucionários Como mencionado anteriormente, os algoritmos evolucionários podem ser de grande utilidade na solução de problemas de otimização como os que serão tratados aqui. Desta forma se torna preponderante uma discussão prévia a respeito destes algoritmos. Algoritmos Evolucionários são basicamente algoritmos inspirados nos princípios da seleção natural e da evolução genética (FREITAS, 2008). Existe uma grande variedade de modelos computacionais propostos dentro deste paradigma, como Linden (2006) deixa claro, mas todos simulam os mecanismos de evolução natural das espécies. Partindo de operadores genéticos (seleção, cruzamento e mutação) novas espécies são criadas, assim como novas gerações, utilizando indivíduos que são avaliados segundo seu desempenho dentro de um ambiente. Durante os anos 50 e 60, alguns cientistas computacionais, como Mitchell (1996) estudaram as técnicas evolucionárias, para que se tornassem uma alternativa de ferramenta de otimização para a resolução de problemas de engenharia. O interesse era criar um conjunto de soluções candidatas à resolução do problema proposto, e utilizar operadores inspirados na genética e seleção natural para buscar as melhores soluções. De acordo com Linden (2006), os operadores genéticos são aproximações computacionais de fenômenos naturais como a reprodução sexuada (crossover ou cruzamento) e a mutação genética (mutation ou mutação). Segundo Mitchell (1996), o conceito da evolução natural é aplicado na resolução de problemas computacionais, pois os mecanismos de evolução parecem se adequar a estes problemas nas mais variadas áreas. Problemas que envolvem buscas em um espaço muito grande de solução, como por exemplo, a busca de um conjunto de regras de classicação a partir de uma base de dados, dentre outros possíveis problemas que requerem soluções difíceis de serem projetadas, podem utilizar-se do conceito da seleção e evolução natural para criarem e melhorarem soluções adaptadas a esses problemas complexos. Um caso particular de algoritmo evolucionário é o algoritmo genético. Holland (1975), com o livro Adaptation in Natural and Articial Systems, formalizou e fundamentou matematicamente os algoritmos genéticos. Mesmo não tendo sido o primeiro a aplicar

18 17 os conceitos da evolução natural à programação, Holland (1975) foi o primeiro a provar matematicamente a ecácia da estratégia evolucionária em problemas de busca. Em seu trabalho, Holland (1975) apresenta os algoritmos genéticos como uma abstração dos processos evolutivos, que permitiriam importar os conceitos de adaptação, evolução e seleção natural da vida real para o mundo computacional, a m de resolver problemas que envolvem a busca por uma solução ótima. Os algoritmos genéticos são uma técnica heurística de otimização global baseada no processo biológico da evolução natural. O grande diferencial desta técnica é a sua capacidade de não se restringir a máximos locais, como outros métodos de otimização, explorando o espaço de busca como um todo. A maioria dos algoritmos que tratam problemas de otimização não são capazes de encontrar uma solução ótima global, e se restringem a ótimos locais. Isto se deve ao fato de seguirem a derivada de uma função e facilmente se prenderem a máximos locais, desprezando o máximo global. Um algoritmo genético é fundamentado na técnica de geração e teste. Nesta técnica uma solução é gerada, e é testada sua ecácia na resolução do problema proposto, considerando limitações impostas. Se por acaso esta solução for adequada à resolução deste problema e obedecer às limitações previamente determinadas, ela é adotada. No caso em que a solução gerada se não adequa as limitações ou não soluciona de maneira satisfatória o problema proposto, ela é desprezada e o processo recomeça gerando uma nova solução a ser testada. Para Freitas (2003), um algoritmo genético é a utilização da mecânica da genética e da seleção natural à busca dirigida, encontrando os melhores conjuntos de parâmetros que descrevem uma função de adaptação ou aptidão (tness). A fundamentação para a utilização de algoritmos genéticos em problemas de otimização está nos conceitos da seleção natural e evolução das espécies. Segundo esses conceitos, os indivíduos mais adaptados ao seu ambiente tendem a viver tempo suciente para se reproduzirem, enquanto os indivíduos menos adaptados tendem a morrer antes da reprodução. Operadores genéticos da seleção natural, cruzamento, mutação e o uso de uma função de aptidão para construir sucessivas gerações de soluções são aplicados para se chegar à solução que, se não é a ótima, é uma solução próxima da ótima.

19 18 3 Aspectos Metodologicos 3.1 Estatística Scan Circular A proposição da estatística de teste Scan Espacial é baseada em um teste de razão de verossimilhanças (KULLDORFF, 1997). Para um mapa em estudo dividido em m regiões, com uma população total P, um número total de casos C para algum fenômeno de interesse e o conhecimento do volume populacional e de ocorrências de casos para cada uma das regiões que subdividem o mapa, a estatística de teste busca identicar uma zona (conjunto de regiões) conexa mais verossímil ao longo do mapa em estudo. O conceito de zona pode ser ilustrado através da gura 1. Figura 1: Mapa do estado de São Paulo dividido em micro regiões com a área sombreada representando uma possível zona de estudo. Considerando um conjunto composto por todas as zonas que serão avaliadas, ora denominado conjunto Z, busca-se determinar as zonas que podem ser considerados de maior relevância quanto ao valor do logaritmo da função de verossimilhança. É importante salientar que as zonas mais verossímeis, não são necessariamente clusters. Uma zona será dita cluster quando o valor do logaritmo da função de verossimilhança for considerado

20 19 signicativo do ponto de vista estatístico. Para tal avaliação, executa-se um teste de hipóteses com a Hipótese Nula de que não existe cluster no mapa em estudo, contra a Hipótese Alternativa de que existe pelo menos um cluster no mapa em estudo. Para alguma zona z Z em estudo, seja P (z) e C(z) respectivamente a população e o número de casos na zona z. Um modelo comumente utilizado assume que a variável aleatória Número de casos em cada região, sob a Hipótese Nula, segue distribuição Poisson com taxa proporcional à sua população. A estatística de teste Scan será denida então como o máximo da razão de verossimilhanças. Sob a validade da Hipótese Nula e assumindo o modelo Poisson, o número de casos esperados em uma possível zona z é dado por µ(z) = C P (z). Desta forma, temos o P risco relativo na zona z dado por I(z) = C(z). Já o risco relativo fora da zona z é dado por µ(z) O(z) = C C(z). Seja L C µ(z) 0 a função de verossimilhança sob a Hipótese Nula e L(z) a função de verossimilhança sob a Hipótese Alternativa. Pode-se mostrar que assumindo o modelo Poisson, o logaritmo da razão de verossimilhanças é dado por: LLR(z) = { C(z) log (I(z)) + (C C(z)) log (O(z)) se I(z) > 1 0 caso contrário (3.1) O logaritmo da razão de verossimilhança é então maximizado no conjunto Z, produzindo então a estatística de teste max LLR(z). O formato de escolha das zonas z pertencentes ao conjunto Z denirá o método em uso. Uma forma bastante usual se baseia z Z em janelas circulares e dene o Método Scan Circular. Para cada região denimos um centróide, que é um ponto arbitrário em seu interior. Utilizando a metodologia baseada no teste de verossimilhança proposta por Kulldor (1997), o método Scan Circular proposto por Kulldor e Nagarwalla (1995), busca o cluster mais verossímil dentre todas as zonas circunscritas por círculos de raios variados centrados em cada região do mapa. Uma janela circular sobre a área em estudo dene uma zona formada pelas regiões cujos centróides são interiores à janela. Partindo de janelas centradas em cada um dos centróides e de raios variando entre zero e um valor máximo pré-estabelecido, o conjunto Z será formado por todas as zonas obtidas através das janelas circulares. A busca por soluções ecientes seria feita então dentro do conjunto Z. Um dos problemas dos metódos circulares para detecção de clusters reside nas situ-

21 20 ações em que existem clusters com formatos bastante irregulares, bastante comum em situações reais. A incidência de uma doença ao longo de um rio, por exemplo daria um formato mais alongado ao cluster. Neste caso, há alternativa de utilizar outros formatos de janelas, por exemplo janelas elipticas, como critério para a denição do conjunto Z (DUCZMAL; KULLDORFF; HUANG, 2006). Existem outros critérios para a denição do conjunto Z, como por exemplo, janelas elípticas, ou até mesmo uma busca exaustiva sobre todas as possíveis zonas conexas no mapa em estudo. No caso de considerarmos Z como o conjunto de todas as zonas conexas, o problema se tornaria impraticável para mapas com m da ordem de algumas centenas. Também dentre as deciências, podemos destacar a possibilidade de que o método identique um conglomerado maior ou menor que o cluster real, nas situações em que o cluster real não apresenta formato regular (por exemplo, conjuntos não circulares). Seriam casos de superestimação ou subestimação no processo de detecção de clusters. Para concluir o teste de hipóteses, a signicância estatística de uma possível solução, obtida através da distribuição dos casos observados, em geral, é vericada através de simulações de Monte Carlo, dado o desconhecimento da distribuição exata da estatística de teste. No procedimento de Monte Carlo, casos simulados (sob a validade da Hipótese Nula) são distribuídos aleatoriamente no mapa em estudo, de forma que cada região recebe, em média, um número de casos proporcional à sua população. A signicância estatística, de uma solução obtida através da técnica Scan Circular, é considerada sem pré-especicação do número de regiões e/ou da localização do clusters mais verossímel. O processo inferêncial compara a solução mais verossímil obtida dos dados observados com as soluções mais verossímeis obtidas de cada distribuição de casos simulada. Esta comparação é feita através da distribuição empírica para a estatística de teste construída através dos dados da simulação de Monte Carlo. 3.2 Detecção de Clusters Irregulares A Estatística Scan Espacial proposta por Kulldor (1997) prevê a possibilidade de clusters de formato arbitrário, porém não propõe algoritmos para a detecção de clusters de formato irregular. Neste sentido, existem alguns algoritmos que propõem estratégias para a detecção de clusters com formatos irregulares. Uma técnica bastante razoável e já utilizada, é a incorporação de alguma função de penalização para o formato geométrico ou topologia do grafo associado ao cluster.

22 21 É muito frequente a existência de clusters com formatos bastante irregulares na maioria dos estudos. Os clusters não regulares podem ser observados em problemas de tráfego, poluição, vigilância sindrômica, entre outros. Em muitos destes casos, formatos não regulares se devem às características geográcas do mapa em estudo, tais como rios, regiões litorâneas, regiões montanhosas entre outras. Métodos foram desenvolvidos recentemente para detectar clusters de formato irregular, mesmo assim apresentam alguns problemas. Um primeiro problema seria a avaliação de todos os possíveis candidatos (subconjuntos de regiões do mapa), visto que o número destes candidatos cresce exponencialmente a medida que o número de regiões no mapa em estudo aumenta. Um segundo problema é que na possibilidade de avaliarmos todos os candidatos, se avaliando através da razão de verossimilhanças, decorrente da proposta da estatística Espacial Scan Circular, a solução obtida nem sempre seria uma solução viável. Dentre essas soluções é possivel a existência de algumas alta razão de verossimilhança, soluções estas, obtidas através da junção de regiões com elevado risco no mapa em estudo. Seriam então, conjuntos de regiões que estão espalhadas ao longo do mapa, abarcando grandes áreas de estudo. Este formato de solução tende a não ser muito informativo e em geral não é uma solução de interesse para o problema na prática. A gura 2 ilustra uma situação deste tipo. Dada a possibilidade de existência de tais soluções, o poder de detecção destes métodos seria reduzido. Figura 2: Um cluster conexo com um grande volume de regiões (com 122 regiões, ou 50% da área em estudo) encontrado através de uma busca sem limitação para o tamanho da solução em sem utilização de funções de penalização. Neste sentido, existem algoritmos que propõem estratégias para a detecção de clusters

23 22 com formatos irregulares. Entretanto tais métodos não vasculham todas as possíveis soluções, ou seja, são métodos heurísticos. São analisadas apenas algumas das soluções, que seriam as mais promissoras. Ainda assim, persistiria o problema de soluções não factíveis. Para tanto, existem propostas de funções penalizadoras que buscam coibir a possibilidade destas soluções. Dentre as funções penalizadoras já existentes, podemos citar, penalizações para a regularidade da forma geométrica do cluster ou então a regularidade da estrutura de conexidade do possível cluster. O procedimento heurístico de otimização e também algumas funções penalizadoras serão apresentas detalhadamente a seguir. 3.3 Estratégia de Otimização Os algoritmos para detecção de clusters espaciais baseados exclusivamente na Estatística Scan Espacial podem encontrar soluções em forma de árvore, que se espalham ao longo do mapa, conectando as regiões com elevada incidência. Uma forma de evitar tais soluções seria a utilização de um algoritmo que busca soluções através da LLR(z), mas utiliza também alguma estrutura de penalização para o formato do possível cluster. Seriam avaliados os candidatos em potencial segundo a LLR(z) e alguma medida de penalização Otimização multi-objetivo As abordagens heurísticas mais preliminares para o problema utilizavam um tratamento mono-objetivo (DUCZMAL et al., 2007). Posteriormente, uma outra forma de lidar com o problema de detecção de cluster surge por meio de procedimentos de otimização multi-objetivo. Como o problema de detecção de cluster pode ser formulado como um problema de otimização multi-objetivo, apresentaremos uma breve descrição dos conceitos de otimização multi-objetivo. Um problema de otimização multi-objetivo surge quando é preciso otimizar simultaneamente duas ou mais conitantes funções-objetivos, sujeitas ou não a algumas restrições. Conito aqui se refere ao fato de que não é plausível que uma escolha para as variáveis de otimização irá otimizar todos os objetivos simultaneamente. Por esse motivo, a busca da melhor solução está intimamente relacionada com o conceito de dominância. Considere uma função a ser maximizada f(x) = (f 1 (x),, f n (x)) denida em um espaço X. Um ponto x 1 X domina outro ponto x 2 X se f i (x 1 ) f i (x 2 ), i = 1,, n e f k (x 1 ) > f k (x 2 ) para, pelo menos, um valor de k 1,, n. Em outras palavras, um

24 23 ponto x 1 domina outro ponto x 2, se a avaliação de x 1 é melhor do que a avaliação de x 2 em pelo menos um objetivo e não sendo pior para os demais objetivos. Então, dadas duas soluções s 1 e s 2, um, e apenas um dos três itens a seguir irá ocorrer: (i) s 1 é não-dominado com respeito a s 2, ou (ii) s 2 é não-dominado com respeito a s 1 ou (iii) nem s 1 domina s 2 e nem s 2 domina s 1 (neste caso, dizemos que s 1 e s 2 são incomparáveis). Agora, considere um conjunto de soluções, o conjunto de Pareto é o subconjunto formado por todas as soluções que não são dominadas por alguma solução no espaço de busca X. Note que qualquer par de soluções no conjunto de Pareto são incomparáveis. Desta forma, ca claro que a solução será sim, um conjunto de soluções não-dominadas, chamado o conjunto de Pareto. Este conjunto representa um trade-o entre os objetivos. O problema aqui abordado será tratado como um problema bi-objetivo, em que um dos objetivos será a função LLR(z) e o outro objetivo será uma função de penalização associada a forma da zona z. As funções de penalização utilizadas neste trabalho são descritas a seguir Penalização por Compacidade Geométrica Esta função de penalização foi apresentada por Duczmal et al. (2007) com o objetivo de penalizar as zonas do mapa que possuem formato muito irregular. A Compacidade geométrica k(z) de uma zona z é dada pela área da zona z, denida por A(z), dividida pela área do círculo com o mesmo perímetro que o fecho convexo da zona z. O fecho convexo será aqui denido por H(z). A expressão descrita acima para k(z) é dada por: k(z) = A(z) ( ) 2 (3.2) H(z) π 2π A Compacidade geométrica é dependente da forma do objeto, mas não do seu tamanho. A Compacidade penaliza a forma que tem área pequena em relação a área da circunferência com perímetro igual ao fecho convexo. O círculo é a forma de maior compacidade (k(z) = 1). Já o quadrado, por exemplo, tem compacidade k(z) = 0,785.

25 Penalização por Não-Conectividade A medida de penalização por Não-Conectividade proposta por Yiannakoulias, Rosychuk e Hodgson (2005) se baseia em uma relação do número de vértices v(z) e de arestas a(z) do subgrafo associado à zona z, tornando bastante eciente para a detecção e inferência de clusters. Entretanto, o formato desta penalização leva em conta apenas a contagem das arestas do subgrafo associado ao cluster candidato. Não existe uma consideração quanto ao grau de importância de uma aresta na conexidade do subgrafo. A medida de penalização por Não-Conectividade é dada por: y(z) = a(z) 3 (v(z) 2) (3.3) O termo 3(v(z) 2) no denominador da expressão anterior, representa o número máximo de arestas para um grafo planar, ou seja, para o grafo planar mais conexo possível teriamos y(z) = 1. Quando se está trabalhando com subgrafos associados a conjuntos de regiões em um mapa, as arestas são conexões de vizinhança entre regiões que podem ser muito ou pouco populosas. Neste contexto, se observa que existem sim arestas mais e menos importantes para a conexidade do subgrafo associado a um cluster candidato. A mesma análise pode ser realizada para o grau de importância de cada um dos vértices do subgrafo em estudo. Apesar de existir alguma similaridade entre a Penalização por Não-Conectividade e a Penalização por Compacidade Geométrica, uma diferença importante é o fato de a Não- Conectividade buscar zonas sem uma associação direta ao formato, mas sim ao grau de conexidade do subgrafo associado à zona z Penalização por Não-Conectividade Ponderada A medida de penalização por Não-Conectividade Ponderada proposta por Duarte et al. (2011) leva em conta uma medida ponderada para os vértices e arestas do subgrafo associado a um cluster candidato. Tal ponderação é construída pensando na estrutura da distribuição populacional ao longo das regiões deste cluster candidato. A ponderação das arestas do subgrafo associado ao cluster candidato z é denida pela média entre as populações das regiões cujos vértices são conectados pela aresta em questão. Portanto para uma aresta a i;j conectando os vértices v i e v j associados às regiões R i e R j com populações pop(r i ) e pop(r j ), tem-se o seguinte peso ponderador:

26 25 P (a i;j ) = pop(r i) + pop(r j ) 2 (3.4) A ponderação dos vértices é feita através população da região associada ao respectivo vértice, ou seja, para o vértice v i associado à região R i cuja população é pop(r i ), tem-se o seguinte peso ponderador: P (v i ) = pop(r i ) (3.5) A medida de penalização por Não-Conectividade proposta por Yiannakoulias, Rosychuk e Hodgson (2005) é dada por: y(z) = a(z) 3 (v(z) 2) Para reformular a função descrita, as arestas e vértices são substituídas por seus respectivos pesos ponderadores da seguinte forma: yp(z) = k 1 k i=1 j=i+1 k 3 P (v i ) 2 i=1 P (a i,j ) k P (v i ) k i=1 (3.6) em que k é a quantidade de regiões na zona z. k P (v i ) i=1 Alguma dúvida pode pairar sobre o termo associado ao valor 2 no denominador. Entretanto, pensando na suposição de todas as populações identicas nas regiões k da zona a ser avaliada, se faz necessário este termo para que se tenha y(z) = yp(z) para esta situação especíca. Com este formato é levado em conta não somente a estrutura do subgrafo associado à zona z, mas também informações inerentes a estrutura da distribuição populacional dentro da zona z e o grau de relevância das vizinhanças entre regiões quanto às suas populações.

27 Penalização por Coesão Topológica Em (CANÇADO et al., 2010) é apresentada uma estratégia de avaliar tanto o efeito populacional nas zonas em estudo quanto sua estrutura de conectividade. Considerando uma área em um mapa em estudo com seu grafo associado G A, cada zona z corresponde a um sub-grafo correspondente G = (V, E) de G A. Os nós no conjunto V correspondem às regiões de z e cada par de regiões (i, j) adjacentes determinam uma aresta não orientada no conjunto E. Um nó x V é chamado um nó de desconexão se o sub-grafo L obtido a partir de G com os nós denidos V {x} não é conexo. Seja G D = {x 1,..., x d } V o conjunto de todos os nós de desconexão de G. Para cada x i G D, tem-se que pop(x i ) é a população da região associada ao nó x i. Tem-se µ xi como o número esperado de casos da região correspondente ao nó x i sob a hipótese nula, que é proporcional à pop(x i ). O sub-grafo com os nós do conjunto V G D, constitui L partes que permanecem conexas, de sub-grafos ẑ 1,, ẑ L, em que 2 L V d. Seja pop(ẑ j ) a população da zona conexa remanescente associado ao nó de desconexão z j. As L partes conexas ẑ 1,, ẑ L são ordenadas de forma decrescente, de acordo com suas populações, como ẑ (1),, ẑ (L). A função da coesão do sub-grafo G é denida como: ( d ( 1 e µ xi ) ) L pop(ẑ (i) ) c(g) = L i=1 i=1 j=1 pop(ẑ se G D (j)) 1 caso contrário (3.7) Se cada região tem uma população diferente de zero, então 0 < c(g) 1. Assumindo que o número de casos c xi em cada nó de desconexão x i G D é uma variável aleatória de Poisson com média µ xi, então o fator 1 e µ x i é igual a P (c xi > 0), ou seja, a probabilidade do número de casos em x i ser maior do que zero. O primeiro termo na fórmula coesão penaliza as zonas que têm nós de desconexão pouco povoados, indicado por valores mais baixos de µ xi. O segundo termo penaliza a distribuição da população homogênea entre as L partes conexas. Entende-se que a presença de nós de desconexão que quebram o cluster mais uniformemente (em relação à sua população) impactam fortemente a sua coesão. Ao invés de quebras mais heterogêneas, ou seja, deixando grandes partes do cluster original intactas, e deixando algumas partes restantes menos povoadas, é considerado menos prejudicial para a sua coesão.

28 27 4 Algoritmos Genéticos 4.1 Algoritmo Genético - Visão Gerão O algoritmo genético utiliza o princípio da evolução biológica para procurar as melhores soluções de um problema de otimização. São simulados os mecanismos de variação aleatória e de seleção adaptativa da evolução natural. O algoritmo genético é constituído por quatro etapas: Geração de População Inicial, Cruzamento, Mutação e Seleção. Através dos operadores de cruzamento, mutação e seleção, é possível melhorar os resultados entre uma geração e outra. São eles que atribuem ao algoritmo a capacidade de evoluir no procedimento de busca por soluções ótimas. O uxograma para o Algoritmo Genético Clássico se encontra apresentado na gura 3. Figura 3: Fluxograma do Algoritmo Genético clássico.

29 Geração de População Inicial Diferentemente das outras etapas, a geração de população inicial é realizada somente no começo do algoritmo e não se repete ao longo das próximas gerações. Indivíduos que codicam um grupo de n imagens distintas (isto signica que não pode haver imagens repetidas em um mesmo indivíduo) são aleatoriamente gerados dentro do algoritmo e armazenados em uma estrutura de dados. Após a geração de cada indivíduo, é vericado se aquele já existe na população. Isso é feito para evitar a ocorrência de indivíduos repetidos, é importante para o bom funcionamento do algoritmo que haja diversidade de soluções. Isto permite uma maior variabilidade genética durante as gerações e contribui para que soluções melhores sejam encontradas. Se um indivíduo atualmente gerado já existe na população, ele será ignorado e um novo indivíduo será criado am de se completar o número previamente especicado de indivíduos da população inicial Operador de Cruzamento Os indivíduos existentes na população, respeitando uma probabilidade inicialmente imposta, irão trocar sequências, aleatoriamente escolhidas, de suas informações, gerando novos indivíduos que herdam características dos indivíduos anteriores. Bastante semelhante à união cromossômica para formar novas combinações de genes. É importante ressaltar que indivíduos repetidos não serão tolerados dentro da População, ou seja, caso o indivíduo resultante do Operador de Cruzamento já existir ele será descartado e não será inserido entre os indivíduos válidos Operador de Mutação A operação de mutação não agrega novos indivíduos à população, ou seja, não aumenta numericamente a população como ocorre por intermédio do operador de cruzamento. A mutação apenas modica esses indivíduos que já existem transformando-os em outros indivíduos diferentes. Cada indivíduo, obedecendo a uma probabilidade inicialmente imposta, irá sofre alterações. Mais uma vez, é importante ressaltar que indivíduos repetidos não serão tolerados dentro da População, ou seja, caso o indivíduo resultante do Operador de Mutação já exista ele será descartado e não será inserido entre os indivíduos válidos. Isso fará com que o algoritmo consiga uma maior diversidade genética que a função

30 29 de cruzamento sozinha não seria capaz de fornecer. O operador de mutação aumenta a variabilidade genética e maior exploração do universo de possibilidades de congurações. Além do que, reduz a chance do algoritmo car estacionado em mínimos locais. Evitar mínimos locais seria a maior vantagem do operador de mutação, pois permite uma variação brusca das características que o indivíduo possui através da alteração de partes aleatoriamente selecionadas dos seus genes Operador de Seleção Esta é a etapa mais importante de um Algoritmo Genético, pois será nessa fase que será utilizada uma função objetivo que irá dar ao algoritmo padrões para selecionar os melhores indivíduos. A função objetivo é essencial para propagar às gerações futuras os melhores resultados de cada geração. Neste caso, somente as melhores soluções continuarão a existir na próxima geração. Para uma função objetivo com imagem n dimensional (n objetivos unidimensionais) é importante o conceito de dominância para determinar uma estratégia de classicação para o operador de seleção. O critério de dominância segue a seguinte regra: dado dois indivíduos p e q pertencentes a uma mesma população P, um indivíduo p domina um indivíduo q se no mínimo um valor em um dos objetivos de p é melhor que o mesmo objetivo em q e o restante dos valores dos objetivos de p não podem ser piores que o restante dos mesmos valores nos objetivos em q. Isso signica dizer que p não pode possuir nenhum objetivo com menor qualidade do que q. Ao nal de cada análise um determinado grupo de indivíduos são classicados como pertencentes a uma categoria especíca denominada front (fronteira) e ao ser concluído o processo classicatório, todos os indivíduos estarão inseridos em algum front. O front 1 é constituído de todas as soluções não-dominadas. O front 2 pode ser conseguido considerando todas as soluções não-dominadas excluídas as soluções do front 1. Para determinação do front 3, exclui-se as soluções previamente classicadas no front 1 e 2, e assim por diante, até que todos os indivíduos tenham sido classicados em algum front. Esse tipo de classicação é uma característica dos algoritmos genéticos do tipo NSGA Non-dominated Sorting Genetic Algorithm Os indivíduos que estão localizados no primeiro front são considerados as melhores soluções daquela geração, enquanto que no último front encontram-se as piores. Usando esse conceito, pode-se encontrar resultados mais consistentes e que se adaptam melhor ao tipo do problema.

31 30 Através do critério de dominância, o algoritmo agrega o conceito de Elitismo que classica a população total em diferentes categorias de qualidade ao invés de tratá-las como pertencentes a um único grupo. Isso permite ao algoritmo a priorização daquelas que foram melhores classicados. É importante notar que dentro de um mesmo front, as soluções são ditas não comparáveis pelo critério de dominância. Entretanto, em algumas situações se faz necessário estabelecer um critério de classicação para soluções pertencentes ao mesmo front. Para tanto será usada a crowding distance, distância de aglomeração, que funciona também como um operador para agregar diversidade no conjunto de soluções selecionadas. A inclusão da crowding distance leva ao formato de Algoritmo Genético denominado NSGA-II, um aprimoramento do NSGA anterior. Esse operador garante soluções melhor distribuídas ao longo da linha de pareto, evitando assim a concentração de soluções em uma mesma sub-região do espaço de soluções factíveis. Também é utilizado como método de ordenação dos indivíduos dentro de um mesmo front. A crowding distance utiliza como métrica a distância euclidiana de cada indivíduo aos seus indivíduos mais próximos. O funcionamento do NSGA-II se destaca por possuir dois mecanismos importantes no processo de seleção: o Fast Non-Dominated Sorting e a Crowding Distance. O uxograma para o funcionamento do prcedimento de seleção do algoritmo NSGA-II pode ser visto na gura 4. Figura 4: Fluxograma do Algoritmo NSGA-II, descrevendo o funcionamento da etapa de seleção.

32 31 O que existe inicialmente é uma População Inteira ainda não classicada, que irá passar por um processo em que serão atribuídos a cada indivíduo um grau de dominância em relação a todos os outros indivíduos da População Inteira. Isso é obtido comparando uns com os outros e assim classicando-os de acordo com o critério de dominância descrito anteriormente. Após os valores de dominância terem sido atribuídos a todos da população, esses indivíduos serão em seguida classicados em fronts de acordo com os seus valores de dominância. Os melhores indivíduos são classicados no primeiro front, e os piores são classicados como pertencentes ao último front. Essa etapa segue até que não haja mais indivíduos a serem classicados. Após todos os indivíduos estarem classicados dentro de um front, eles irão ser classicados pelo operador de diversidade crowding distance. Esse operador irá ordenar cada indivíduo de acordo com a sua distância em relação aos pontos vizinhos no mesmo front Fast Non-Dominated Sorting O algoritmo de seleção Fast Non-Dominated Sorting é executado em duas etapas, a primeira delas será referenciada aqui como sendo o Processo 1 (veja Pseudo-código na gura 5) e a segunda delas como o Processo 2 (veja Pseudo-código na gura 6). Em geral, o Processo 1 irá analisar todos os indivíduos da População P, comparandoos uns com os outros para classicá-los de acordo com o grau de dominância np (número de indivíduos que dominam p, em que p é um individuo da população P ). Dessa forma se um indivíduo p é dominado por um número x de indivíduos da população total P, o seu valor correspondente de np é igual a x. 1 para todo p P 2 para todo q P 3 se p domina q 4 então S p recebe q 5 senão se q domina p 6 então np = np se np = 0 8 então F 1 recebe p Figura 5: Pseudo-código Processo 1 do Fast Non-Dominated Sorting. Se ao nal do Processo 1, o indivíduo possuir o valor de np igual a 0, signica dizer que esse indivíduo não é dominado por ninguém dentro da População Total P e que tal

33 32 indivíduo fará parte do primeiro front, no qual estão os melhores indivíduos de toda a população atual. O Processo 2 irá separar cada indivíduo em diferentes categorias (os fronts) de acordo com os seus valores de dominância, indicados pelos seus respectivos valores de np. Cada indivíduo incluído em um dos fronts são retirados totalmente do contexto do sistema, decrementando os valores de np de cada indivíduo dominado por esses. Isso repete-se até que não sobrem mais indivíduos na população restante. Observando passo-a-passo o funcionamento do pseudo-código do Processo 1 (gura 5), é selecionado um indivíduo p da população P e para cada indivíduo q restante na população P é vericado se o individuo p domina o indivíduo q. Caso isso seja verdade o indivíduo q será armazenado em S p (na lista dos indivíduos dominados por p). Caso contrário, se q dominar p, o valor de np é incrementado (pois np é um contador de quantos indivíduos dominam p). Logo em seguida é testado se o np é igual a 0. Se isso for verdade signica que p não foi dominado por ninguém da população o que quer dizer que ele irá fazer parte do primeiro front. Como foi anteriormente descrito, o Fast Non-Dominated Sorting irá comparar indivíduo a indivíduo para poder determinar o grau de dominância np de cada componente da população. Ou seja, quanto menores os valores de np encontrados, melhores soluções irão representar. Já o Processo 2 pode ser representado através do Pseudo-Código representado na gura 6. 1 i = 1 2 enquanto F i 3 H = 4 para todo p F i 5 para todo q S p 6 nq = nq 1 7 se nq = 0 8 então H recebe q 9 i = i F i recebe H Figura 6: Pseudo-código Processo 2 do Fast Non-Dominated Sorting. Analisando-se agora o funcionamento do Processo 2, é observada uma variável i (que funcionará como um contador para o número de fronts), inicializada com o valor unitário enquanto houver novos fronts sendo gerados. Se o tamanho de F i (o atual front) for

34 33 diferente de 0, o Processo 2 será executado. A variável H (que será um armazenador temporário dos próximos fronts) é inicializada vazia. Posteriormente, um indivíduo p do front F i é selecionado, e uma vericação é realizada visando buscar quais os indivíduos q dominados por p (que se encontram na lista S p ). Os valores dos nq desses indivíduos são decrementados com o objetivo de se retirar do contexto os indivíduos que já foram classicados no front anterior ao atual. O decréscimo dos valores de nq tem também como objetivo que esses se aproximem cada vez mais do valor 0, pois tornar esses valores iguais a 0 signicará que em uma próxima iteração tais indivíduos com nq igual a 0 farão parte do novo front. Posteriormente o valor de i será incrementado e os valores armazenados em H serão copiados para F i (que representa o novo front) Crowding Distance Como dito anteriormente, a crowding distance é um Operador de Diversidade usado no algoritmo NSGA-II, a m de garantir uma melhor distribuição das soluções ao longo da linha de pareto. O algoritmo para o cálculo da crowding distance calcula a distância média entre um ponto central i selecionado dentro da população e dois pontos localizados nas extremidades do ponto central (i 1) e (i + 1). A idéia é que a partir de um ponto central o operador de diversidade possa encontrar pontos extremos e priorizar os pontos mais distantes durante o processo de seleção a m de espalhar os resultados ao longo do pareto. A disposição dos pontos extremos formam um cubóide em relação ao ponto central como pode ser observado na gura 7. Figura 7: Cálculo da distância através da crowding distance.

35 4.2 Algoritmo de Otimização - Implementação para o Problema de Detecção de Clusters 34 Para o problema especíco de estudo, a população inicial deve ser capaz de captar as informações do mapa como um todo. Não há razão para iniciar o algoritmo com os indivíduos concentrados em apenas uma parte do mapa, mesmo porque um cluster somente pode ser identicado se possuir valor de LLR discrepante das demais zonas, o que obriga a ter um mínimo de conhecimento sobre zonas espalhadas pelo mapa. Para tanto se utiliza uma estratégia gulosa (algoritmo guloso) visando obter zonas com alta LLR, construindo as zonas para a população partindo de cada uma das regiões do mapa em estudo, através da estratégia gulosa. Já entre os operadores se têm: 1. O operador de cruzamento cria novos indivíduos, ou seja, novas zonas, misturando as características de dois indivíduos (zonas) aleatoriamente escolhidos e denominados por A e B. Diversos novos indivíduos são produzidos assim, sendo eles, zonas intermediárias entre as duas zonas extremas A e B. No formato de implementação que foi utilizado, um cruzamento somente é possível entre duas zonas cuja interseção de regiões entre as zonas A e B seja não vazia. As novas zonas geradas por um cruzamento representam uma transição entre as caracteristicas de A e B escolhidos mantendo a conexidade nas zonas geradas. Figura 8: Um cruzamento entre pais A = {a, b, c, d, e} e B = {b, c, f, g, h, i, j} no mapa (acima). A descendência gerada é formada pelas quatro zonas intermédias (abaixo). A descendência constitui um caminho aleatorio no espaço de congurações entre todos os caminhos possíveis entre as zonas extremas, que são os pais A e B.

36 35 2. O operador de mutação introduz uma perturbação aleatória nas características de uma zona individual (adicionando ou removendo uma região ao acaso), aumentando assim a variabilidade da população. Do ponto de vista computacional, a operação de mutação tem custo elevado dada a necessidade de vericação de conexidade a cada operação. 3. O operador de seleção classica as zonas de acordo com o valor da função objetivo, no caso a Estatística Espacial Scan, escolhendo então aquelas que farão parte da geração seguinte. Esperamos encontrar os indivíduos (zonas) com valores cada vez maiores para a função objetivo a medida que as gerações vão evoluindo. Uma função de penalização como as descritas anteriormente pode ser empregada para evitar a irregularidade excessiva da possível solução. Um formato eciente para gerar indivíduos da população inicial é, a partir de cada região i do mapa, gerar uma zona que será um dos indivíduos para o algoritmo genético. Será usada a idéia do algoritmo guloso para gerar essas zonas da seguinte forma: Seja z i,0 a zona composta apenas pela região i; Seja D 0 = {d 1,..., d k } o conjunto composto pelas regiões adjacentes à zona z i,0 ; Dena o conjunto Z i,1 = {z i,0 d 1,..., z i,0 d k }; Observe que Z i,1 é um conjunto de zonas compostas por duas regiões. Seja z i,1 = arg max j {1,...,k} LLR(z i,0 d j ); Desta forma z i,1 será a zona de maior valor de LLR dentre as zonas do conjunto Z i,1. Agora seja D 1 = {d 1,..., d n } o conjunto composto por todas as regiões adjacentes à zona z i,1 ; Dena o conjunto Z i,2 = {z i,1 d 1,..., z i,1 d n }; Observe que Z i,2 é um conjunto de zonas compostas por três regiões. Seja z i,2 = arg max j {1,...,n} LLR(z i,1 d j ); Desta forma z i,2 será a zona de maior valor de LLR dentre as zonas do conjunto Z i,2. Repita este processo até obter a zona z i,w para algum valor w pré-xado.

37 36 A população inicial para um mapa dividido em m regiões que será utilizada pelo algoritmo genético será dada por z 1,w, z 2,w,..., z m,w. É importante observar que este procedimento já é uma técnica de otimização, mas, em geral, não é suciente para fornecer uma solução ótima para o problema em análise. Já o operador de cruzamento parte de duas possíveis soluções (zonas) A e B, tais que A B. Seja C = A B, serão atribuídos níveis numéricos para cada uma das regiões das soluções A e B da seguinte forma: Cada região em C receberá nível 0; Suponha A C composto por k regiões, das quais n são adjacentes à C, ou seja A C = {r 1,..., r n, q n+1,..., q k } em que as regiões r i são as regiões adjacentes à C; Escolha aleatoriamente uma região r i em A C dentre as n adjacentes à C e atribua a ela nível 1; Agora é possível considerar o conjunto A C {r i } composto por k 1 regiões. Note que uma parte destas k 1 regiões é adjacente à C {r i }. Dentre estas, escolha aleatoriamente uma para receber o nível 2; Repita este processo até que todas as regiões em A C tenham recebido algum nível. Observe que neste caso haverão níveis entre 1 e k; Utilizando o mesmo procedimento anterior, porém com níveis negativos, serão atribuídos níveis às regiões em B C. Supondo que B C é composto por d regiões, haverão níveis entre 1 e d. Note que tanto para A C quanto para B C a escolha de níveis não é única. Partindo desta enumeração em níveis, para deixar claro o procedimento de geração de lhos, cada uma das regiões nos conjuntos A C e B C será representada pelo seu nível. Então serão construídos os lhos do cruzamento entre A e B. Estes serão produzidos partindo de A com a retirada da região de maior nível dentre as de A C e a inclusão da região de maior nível dentre as de B C. Este procedimento será repetido sucessivas vezes. F ilho 1 = C { 1, 1, 2,..., k 1};

38 37 F ilho 2 = C { 2, 1, 1, 2,..., k 2};. F ilho j = C { j,..., 1, 1, 2,..., k j}; Se k < d: F ilho k 2 = C { (k 2),..., 1, 1, 2}; F ilho k 1 = C { (k 1),..., 1, 1}; F ilho k = C { k,..., 1}; F ilho k+1 = C { (k + 1),..., 1};. F ilho k+j = C { (k + j),..., 1} para 1 < j < d k 1;. F ilho d 1 = C { (d 1),..., 1}. Se k > d: F ilho d 2 = C { (d 2),..., 1, 1,..., k d + 2}; F ilho d 1 = C { (d 1),..., 1, 1,..., k d + 1}; F ilho d = C { d,..., 1, 1,..., k d}; F ilho d+1 = C { d,..., 1, 1,..., k d 1};. F ilho d+j = C { d,..., 1, 1,..., k d j} para 1 < j < k d 1;. F ilho k 1 = C { d,..., 1, 1}; Se k = d: F ilho k 2 = C { (k 2),..., 1, 1, 2}; F ilho k 1 = C { (k 1),..., 1, 1} = C { (d 1),..., 1, 1}. Está estratégia de cruzamento fornece lhos sempre conexos que determinam uma espécie de transição entre o pai A e o pai B. O fato da transição entre a geração de um lho e outro ser apenas a retirada de uma região e a adição de outra faz com que a avaliação da verossimilhança seja muito rápida: basta adicionar e subtrair a população e

39 38 Figura 9: Os pais {a, b, c, d, e} e {c, f, g, h, i} dentro do mapa têm a região c em comum. A numeração dos níveis exemplicada gera os lhos {b, c, d, e, g}, {b, c, d, f, g} e {b, c, f, g, h}. Outra numeração (dentre as várias possíveis) é também exemplicada. o número de casos das respectivas regiões adicionada e retirada da zona anterior. A gura 9 exemplica este formato de cruzamento para uma maior clareza. Já operar uma mutação em um indivíduo é simplesmente substituir alguma região deste indivíduo por um de seus vizinhos, aleatoriamente, desde que essa permaneça conexa. Por m será apresentada uma descrição do procedimento de classicação para o funcionamento do operador de seleção: No início de cada geração, construímos a lista da geração atual, que consiste no conjunto dos indivíduos da geração anterior que foram selecionados. Esta lista é completada com a adição do resultado dos cruzamentos e das mutações realizados para esta geração. A lista de geração seguinte, inicialmente vazia, armazena os indivíduos que sobreviverão para a geração seguinte. Será obtido o conjunto das soluções não-dominadas P 0 da lista da geração atual, que será transferida à lista da geração seguinte inicialmente vazia. O mesmo conjunto P 0 é removido igualmente da lista de geração atual. Um conjunto novo P 1 dos indivíduos restantes é obtido da mesma forma.

40 39 O procedimento é repetido até que a lista da geração nova contenha m indivíduos, em que m é o número de regiões do mapa original e corresponde ao tamanho da população que será constante ao longo das gerações. Após um número de etapas, o conjunto P l não será adicionado eventualmente por completo à lista de geração seguinte, porque isto faria com que a lista contivesse mais do que m indivíduos. Nesses casos, os indivíduos de P l serão transferidos segundo a crowding distance. Diante da proposição desta estratégia de implementação do algoritmo genético a ser utilizado, ca claro que são parâmetros fundamentais para sua forma, o tamanho máximo w das soluções propostas para a população inicial, a taxa de mutação a ser realizada pelo algoritmo e o número de gerações que serão realizadas pelo algoritmo.

41 40 5 Resultados Numéricos e Discussões Como já mencionado anteriormente, o principal alvo deste trabalho foi comparar diversas calibrações dos parâmetros básicos para o funcionamento do algoritmo genético. E ainda, vericar se tais calibrações provocam impactos signicativos na qualidade das soluções fornecidas. Os parâmetros de entrada do algoritmo que serão avaliados são: o tamanho máximo (quantidade de regiões) de uma possível solução gerada para a população inicial através da estratégia gulosa, que será denominado tam_cluster; a taxa de ocorrência de mutações para o operador genético de mutação, que será denominada por tax_mut e a quantidade de gerações em cada uma das execuções do algoritmo genético, que será denominada por num_gen. 5.1 Conguração do Experimento A tabela 1 apresenta os valores que foram utilizados em cada um dos parâmetros. Todas as combinações possíveis entre estes valores foram testadas. Tabela 1: Valores dos parâmetros de entrada do algoritmo genético. parâmetro valores tam_cluster tax_mut 0,05 0,10 0,20 0,30 num_gen As diferentes combinações entre os parâmetros geraram um conjunto de 64 diferentes congurações de parâmetros de entrada do algoritmo genético, que foram numeradas de 1 a 64 conforme a tabela 2. A partir desse momento as congurações serão denominadas de acordo com a numeração dessa tabela. O procedimento comparativo que será realizado entre essas congurações será descrito posteriormente através de medidas de desempenho associadas ao teste de hipóteses relacionado ao processo de detecção executado.

42 41 Tabela 2: Combinações entre os parâmetros de entrada do algoritmo genético. cong. tam_cluster tax_mut num_gen cong. tam_cluster tax_mut num_gen , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,30 60 Para cada uma das congurações o algoritmo foi executado para o benchmark de dados reais em um mapa composto por 245 condados em 10 estados e no Distrito de Columbia, no Nordeste dos EUA, com casos de câncer de mama no período de 1988 a 1992, para uma população de risco de mulheres em 1990 (mais detalhes sobre este benchmark de dados podem ser obtidos em (DUARTE et al., 2010)). Inicialmente, para cada conguração, os casos são distribuídos aleatoriamente ao longo do mapa com a probabilidade de cada caso ser alocado em uma das regiões do mapa sendo sua população relativa, ou seja, o cenário de validade da hipótese nula de não existência de cluster no mapa. O algoritmo é executado para alocações de casos distintas na validade da hipótese nula, com o intuito de construir uma distribuição empírica para a execução do teste de hipóteses.

43 42 Para avaliar a resposta do método para detecção e inferência de clusters, em cada uma das congurações, serão produzidos clusters articiais sobre o mapa, estes clusters serão denotados por clusters reais, enquanto os clusters encontrados pelo algoritmo serão denominados clusters detectados. Para cada cluster real se tem então uma possível construção de hipótese alternativa de existência de um cluster no mapa. Posteriormente, para cada uma das hipóteses alternativas, a mesma quantidade de casos da hipótese nula é distribuída aleatoriamente no mapa de acordo com uma distribuição de Poisson. Para esta distribuição o risco relativo para cada uma das regiões é ajustado de forma que fora do cluster real seja igual a um, enquanto nas regiões pertencentes ao cluster real o risco relativo seja idêntico e maior que um. A medida para este risco relativo é tal que se a posição exata do cluster real for conhecida, o Poder de detecção deve ser de 0,999 (KULLDORFF; TANGO; PARK, 2003). A gura 10 ilustra o mapa de estudo, bem como nove clusters articiais projetados para a construção deste estudo. Figura 10: Clusters articiais gerados no mapa do nordeste dos EUA. Dado um dos modelos da hipótese alternativa, execuções do algoritmo são realizadas, produzindo então conjuntos de soluções ecientes. Estes conjuntos de soluções ecientes são comparados com a distribuição empírica produzida sob a validade da hipótese nula para um nível de signicância pré-xado. Neste trabalho foi utilizado α = 0,05. O procedimento da hipótese nula e o procedimento da hipótese alternativa em cada cluster articial é executado para cada uma das congurações do algoritmo (conforme a tabela 1). Portanto cada conguração implica em execuções do algoritmo genético e o experimento completo para cada função de penalização ultrapassa 3,5 milhões de

44 43 execuções do algoritmo genético, ou seja, em todo o experimento foi executado um volume superior a 14 milhões de execuções do algoritmo genético. 5.2 Medidas de Desempenho para Comparação entre Congurações As comparações entre os resultados fornecidos pelas congurações não são construídas com base na comparação direta de uma solução proposta, mas sim através de uma estratégia mais global que considera o Poder de detecção do método, sua Sensibilidade e seu valor preditivo positivo (PPV). O Poder de detecção é estimado através da proporção de conjuntos de soluções ecientes com pelo menos uma solução signicativa estatisticamente. As medidas de Sensibilidade e de PPV (valor de predição positivo) igualmente servem para avaliar a qualidade do processo da detecção de clusters. Estas medidas são probabilidades condicionais denidas a partir dos seguintes eventos: V = Indivíduo escolhido ao acaso na população do mapa pertence a população do cluster verdadeiro; D = Indivíduo escolhido ao acaso na população do mapa pertence a população do cluster detectado; Sensibilidade = P (D V ) = P (D V ) P (V ) ( P op(cluster Detectado Cluster Real) ) = P op(mapa em estudo) ( P op(cluster Real) P op(mapa em estudo) ) (5.1) = P op(cluster Detectado Cluster Real) P op(cluster Real)

45 44 PPV = P (V D) = P (D V ) P (D) ( P op(cluster Detectado Cluster Real) ) = P op(mapa em estudo) ( P op(cluster Detectado) P op(mapa em estudo) ) (5.2) = P op(cluster Detectado Cluster Real) P op(cluster Detectado) Neste sentido, um método de detecção de clusters que apresente altas medidas para PPV detecta uma grande porção do cluster verdadeiro, enquanto um método de detecção de clusters que apresente altas medidas para Sensibilidade tem grande parte do cluster detectado pertencente ao cluster verdadeiro. Em outras palavras, para métodos de detecção de clusters, altas medidas para PPV signicam que a chance de subestimação no processo de detecção é reduzida, enquanto altas medidas de Sensibilidade signicam que a chance de superestimação no processo de detecção é reduzida. É importante vericar que considerando a prevalência para a doença em estudo, que é dada pela razão entre o número de casos observados e a população no mapa em estudo, a medida de PPV se altera. Um aumento na prevalência acarreta em aumento na medida de PPV, por outro lado a medida de Sensibilidade para o teste não é impactada por alterações na prevalência da doença em estudo. 5.3 Avaliações Numéricas As avaliações foram realizadas considerando as medidas de desempenho mencionadas anteriormente. Vale observar que não é de conhecimento imediato as distribuições associadas às variáveis aleatórias que representam essas medidas de desempenho, portanto qualquer análise estatística paramétrica poderia ser considerada um pouco leviana. Desta forma, foi realizada uma análise através de grácos box-plot comparando as medidas de desempenho em diversas situações.

46 Resultados de Utilização da Penalização por Compacidade Geométrica A gura 11 apresenta as medidas de Poder por cluster, agregando para cada cluster os resultados obtidos em cada uma das congurações. O interesse dessa comparação é vericar se existe alguma conguração que independentemente do cluster articial a ser detectado se mostra sistematicamente superior às demais, ou então sistematicamente inferior às demais congurações. LLR X Compacidade Poder para todas as configurações poder A B C D E F G H I cluster Figura 11: Gráco box-plot (LLR Compacidade Geométrica) das medidas de Poder por cluster dentre todas congurações. A análise da gura 11 deixa claro que existem congurações que se destacam positivamente e negativamente nessa análise, isto se deve pela presença de valores extremos superiores e inferiores. Em todos os casos a conguração 19 apresentou o maior Poder e a conguração 16 apresentou o segundo maior Poder. Já a conguração 18 apresentou o menor Poder em todos as situações e a conguração 33 apresentou o segundo menor Poder em 7 das 9 situações de estudo. Inicialmente é possível observar que as congurações com

47 46 um menor número de gerações apresentam um comportamento inferior. Já um aumento no tamanho máximo para um cluster na população inicial do algoritmo genético parece não ser determinante, anal a melhor e a pior conguração são cenários com tamanho máximo igual 10. As melhores congurações apresentam taxas de mutação inferiores às piores congurações. Supostamente isso se deve a uma aumento excessivo na variabilidade entre as soluções avaliadas gerado por taxas de mutação mais elevadas. A gura 12 apresenta as medidas de Sensibilidade por cluster, agregando para cada cluster os resultados obtidos em cada uma das congurações. LLR X Compacidade Sensibilidade para todas as configurações sensibilidade A B C D E F G H I cluster Figura 12: Gráco box-plot (LLR Compacidade Geométrica) das medidas de Sensibilidade por cluster dentre todas congurações. A análise da gura 12 ainda apresenta a existência de congurações que se destacam positivamente e negativamente em relação à sensibilidade, mas não existem valores extremos para todos os casos de estudo, ou seja, este efeito é menor se comparado ao cenário de avaliação da medida de Poder. Em 8 dos casos em análise, a conguração 16 apresentou a maior Sensibilidade e a conguração 30 apresentou o segundo maior valor de Sensibilidade

48 47 em 6 das situações analisadas. Já a conguração 18 apresentou a menor Sensibilidade em 5 dos cenários e nos outros 4 a pior conguração foi a 19. Quando a pior conguração foi a 18, a segunda pior foi a 19 e vice-versa, deixando claro que essas duas congurações são realmente as piores na avaliação da medida de Sensibilidade. É importante observar que a conguração 19 que aparece entre as piores em Sensibilidade se apresentou entre as melhores quando a avaliação foi em termos de Poder. A gura 13 apresenta as medidas de PPV por cluster, agregando para cada cluster os resultados obtidos em cada uma das congurações. LLR X Compacidade PPV para todas as configurações PPV A B C D E F G H I cluster Figura 13: Gráco box-plot (LLR Compacidade Geométrica) das medidas de PPV por cluster dentre todas congurações. A análise da gura 13 mostra a existência de congurações melhores e piores, porém de uma forma menos evidente, anal apenas um valor extremo é observado. Em 4 dos cenários em análise, a conguração 18 apresentou o maior valor de PPV e a conguração 52 apresentou o maior valor de PPV em outros 4 cenários. Já a conguração 30 apresentou o menor PPV em 5 das situações e nas outras 4 situações a pior conguração foi a 19.

49 48 É importante observar que a conguração 19 que já foi mencionada entre as piores em Sensibilidade novamente apresenta resultados não satisfatórios na avaliação da medida de PPV. Considerando que é previsível que algumas das congurações se comportem bem para alguma das medidas de desempenho e se comportem mal em outras medidas de desempenho, foi executada ainda uma análise considerando uma comparação entre as 64 congurações através da medida de desempenho que considera a soma das medidas de Poder, Sensibilidade e PPV. Para comparar as congurações, o efeito devido a análise de cada um dos clusters articiais foi agregado por conguração como pode ser visto na gura 14. A análise da gura 14 conrma um ligeiro destaque para a conguração 16 quando analisadas de forma simultânea as três medidas de desempenho para as 64 congurações e agrupando o efeito devido a cada um dos clusters articiais em avaliação. As congurações com o parâmetro associado ao tamanho do cluster calibrado para valores menores ( 10 e 12) apresentam valores elevados para a mediana, mas com valores extremos inferiores bastante signicativos. Apesar das congurações com tamanho do cluster calibrado para valores maiores (15 e 20) ainda apresentarem a presença de valores extremos inferiores, pode-se notar que o efeito de variabilidade na qualidade das soluções parece inferior. As alterações no parâmetro associado a taxa de mutação não parecem incluir um efeito signicativo, entretanto as conclusões anteriores detectam pequenos efeitos associados a este parâmetro. Já quando analisando o parâmetro associado ao número de gerações é possível vericar uma subida gradativa a medida que o valor desse parâmetro aumenta. Este resultado seria previsível, apesar de ser esperada a existência de uma faixa de valor para este parâmetro que leve a uma estabilização dos resultados fornecidos pelo algoritmo.

50 Figura 14: Gráco box-plot (LLR Compacidade Geométrica) das medidas da soma de Poder, Sensibilidade e PPV por conguração. 49

51 Resultados de Utilização da Penalização por Não-Conectividade A gura 15 apresenta as medidas de Poder por cluster, agregando para cada cluster os resultados obtidos em cada uma das congurações. LLR X Não Conectividade Poder para todas as configurações poder A B C D E F G H I cluster Figura 15: Gráco box-plot (LLR Não-Conectividade) das medidas de Poder por cluster dentre todas congurações. A análise da gura 15 demonstra um similaridade entre as congurações muito maior que a observada através da penalização por Compacidade Geométrica. Essa conclusão se deve à presença de somente um valor extremo superior e nenhum valor extremo inferior. Ainda assim, é possível identicar algumas congurações que se destacam positivamente e negativamente nessa análise. Em mais de 50% das situações a conguração 29 se apresentou entre as de maior Poder e a conguração 30 apresentou também valores bastante signicativos para a medida Poder. Já a conguração 52 foi a pior conguração em 7 dos 9 cenários e a conguração 20 apresentou valores de Poder entre os 3 piores em 4 situações. Um aumento no tamanho máximo para um cluster na população inicial do algoritmo genético aqui parece ser bastante relevante, anal as melhores congurações

52 51 utilizam tamanho máximo 20, já as piores utilizam tamanho máximo 10. A gura 16 apresenta as medidas de Sensibilidade por cluster, agregando para cada cluster os resultados obtidos em cada uma das congurações. LLR X Não Conectividade Sensibilidade para todas as configurações sensibilidade A B C D E F G H I cluster Figura 16: Gráco box-plot (LLR Não-Conectividade) das medidas de Sensibilidade por cluster dentre todas congurações. A análise da gura 16 mostra novamente uma quase ausência completa de valores extremos. Em 6 dos cenários em análise, as congurações 61, 62, 63 e 64 apresentaram a maior Sensibilidade e em todos estes cenários, dentre estas 4 congurações estão as 3 melhores. Já a conguração 4 apresentou uma das três menores medidas de Sensibilidade em 5 das situações, a conguração 1 apresentou a pior medida de Sensibilidade em 2 e esteve entre as três piores em 5 situações. Nota-se que trabalhando com a variável tamanho do cluster com valor baixo, associado a baixa taxa de mutação, ocorre uma piora sistemática para as medidas de Sensibilidade. As congurações 61, 62, 63 e 64 são justamente os casos de maior taxa de mutação e maior tamanho de cluster. A gura 17 apresenta as medidas de PPV por cluster, agregando para cada cluster os resultados obtidos em cada uma das congurações.

53 52 LLR X Não Conectividade PPV para todas as configurações PPV A B C D E F G H I cluster Figura 17: Gráco box-plot (LLR Não-Conectividade) das medidas de PPV por cluster dentre todas congurações. A análise da gura 17 mostra ausência completa de valores extremos. Em 3 dos cenários em análise, a conguração 52 apresentou o maior valor de PPV mostrando resultados signicativos como já havia mostrado utilizando a penalização por Compacidade Geométrica. A conguração 50 apresentou valores de PPV entre os três maiores em 4 situações. As congurações 14, 32 e 63 apresentaram o pior valor de PPV em 7 das 9 situações. Novamente considerando que é previsível que algumas das congurações se comportem bem para alguma das medidas de desempenho e se comportem mal em outras medidas de desempenho, foi executada a análise considerando a comparação entre as 64 congurações através da medida de desempenho que considera a soma das medidas de Poder, Sensibilidade e PPV como pode ser visto na gura 18.

54 Figura 18: Gráco box-plot (LLR Não-Conectividade) das medidas da soma de Poder, Sensibilidade e PPV por conguração. 53

Exibir mais