Parametrização Adequada do Algoritmo Genético NSGA-II para Problemas de Detecção e Inferência em Clusters Espaciais

Tamanho: px
Começar a partir da página:

Download "Parametrização Adequada do Algoritmo Genético NSGA-II para Problemas de Detecção e Inferência em Clusters Espaciais"

Transcrição

1 Universidade Federal de Ouro Preto Instituto de Ciências Exatas e Biológicas Departamento de Estatística Bacharelado em Estatística Parametrização Adequada do Algoritmo Genético NSGA-II para Problemas de Detecção e Inferência em Clusters Espaciais Gilberto de Andrade Ouro Preto-MG Setembro de 2013

2 Gilberto de Andrade Parametrização Adequada do Algoritmo Genético NSGA-II para Problemas de Detecção e Inferência em Clusters Espaciais Monograa de Graduação apresentada ao Departamento de Estatística do Instituto de Ciências Exatas e Biológicas da Universidade Federal de Ouro Preto como requisito parcial para a obtenção do grau de bacharel em Estatística. Orientador(a) Dr. Anderson Ribeiro Duarte Universidade Federal de Ouro Preto UFOP Departamento de Estatística DEEST Ouro Preto-MG Setembro de 2013

3 MINISTÉRIO DA EDUCAÇÃO Universidade Federal de Ouro Preto Instituto de Ciências Exatas e Biológicas Departamento de Estatística Campus Universitário - Morro do Cruzeiro - CEP Ouro Preto MG - Brasil Homepage: deest@iceb.ufop.br

4 Agradecimentos Agradeço primeiramente aos meus pais, mãe e pai, Eliane e Hamilton, pela dedicação, incetivo e oportunidade, que sem vocês nada seria capaz. Também a minha irmã Ariane, pelas conversas e amizade! Não me esquecendo, avô Sr. Nilton e avó Ademarina (eterna) e avô Geraldo (eterno) e avó Ivana. Amo vocês Aos professores do Departamento de Estatística da UFOP, por cada matéria, conversa, conselhos e amizade. Em especial, Maria Claúdia pelas conversas e puxões de orelhas, Flávio e Tiago pelas diversas formas de enxergar a Estatística, Fernando e Thais pelas aulas divertidas e motivadoras. Agradeço ao mestre Anderson pelas conversas, divertimento, risadas e pela amizade. Obrigado por me ajudar nas diculdades e aprender cada dia como o "C++" é o melhor que o "R". Também, aos colegas, Henrique, Gabriel Juliano e Lilian nesta caminhada que nem sempre foi fácil, não podendo esquecer de pessoas que fazem a diferença: Carla, Ana Carolina, Ludmylla, Aline, Gabriel Lima, Elaine e os guerreiros Júlio Cecílio e Sr. Adilson! Por m, Vitória que me ajudou em cada passo, que me guiou em diversas diculdades e sempre esteve ao meu lado. Que esta etapa seja a primeira de muitas vitórias nossas. Te Amo. "Tem que ter Leveza, Discernimento, Certeza e Perseverança"(Forfun - Descendo o Rio)

5 Parametrização Adequada do Algoritmo Genético NSGA-II para Problemas de Detecção e Inferência em Clusters Espaciais Autor: Gilberto de Andrade Orientador(a): Dr. Anderson Ribeiro Duarte Resumo As técnicas de detecção e inferência de conglomerados espaciais têm sido bastante abordadas recentemente. Uma das principais utilizações é associada à problemas de saúde pública como em casos de epidemiologia e vigilância sindromica. Muitas variáveis estão associados ao problema. Por exemplo: climatologia, relevo, hidrograa, distribuição populacional e contexto socio-econômico podem acelerar de forma signicativa a propagação dos fenômenos em estudo (como doenças infecto-contagiosas). Uma proposição notoriamente eciente é formular o problema através de uma abordagem multi-objetivo de otimização. Um dos objetivos é a clássica Estatística Espacial Scan e o outro, em geral, um objetivo associado com a estrutura topológica ou geográca do conglomerado a ser detectado no mapa em estudo. Uma estratégia de otimização bem difundida para essa abordagem é a metaheurística Algoritmo Genético. O Algoritmo Genético, por se tratar de uma heurística, depende da calibração de um conjunto de parâmetros de entrada. A utilização do algoritmo genético nesse problema, até então, foi feita através de uma calibração ad-hoc desses parâmetros. Neste trabalho é testado um grande conjunto de possíveis calibrações através de um benchmark de dados reais buscando uma calibração que se adapte melhor ao problema especíco em estudo. Palavras-chave: Detecção de Conglomerados; Saúde Pública; Estratégias de Otimização; Estatística Scan; Algoritmo Genético.

6 Suitable Parameterization of Genetic Algorithm NSGA-II for Detection and Inference in Spatial Clusters Author: Gilberto de Andrade Advisor: Dr. Anderson Ribeiro Duarte Abstract Techniques for detection and inference spatial clusters have recently been widely addressed. A major use is associated with health problems such as in cases of syndromic surveillance and epidemiology. Many variables are associated with the problem, climate, relief, hydrography, population distribution and socio-economic context can signicantly accelerate the spread of the phenomena under study (like infectious diseases). A ecient remarkably proposition formulates the problem using a multi-objective optimization. One aim is the classical Spatial Scan Statistic and the other, in general, an objective associated with geographical or topological structure of the cluster to be detected on the study map. An optimization strategy for this widespread approach is the metaheuristic Genetic Algorithm. The Genetic Algorithm, because it is a heuristic depends on the calibration of a set of input parameters. The use of the genetic algorithm on this problem so far has been made through an ad-hoc calibration of the parameters. In this work we tested a large set of possible calibrations through a benchmark real data seeking a better t to the setup calibration on the specic problem under study. Keywords: Cluster Detection, Public Health, Optimization Strategies, Scan Statistic and Genetic Algorithm.

7 Lista de guras 1 Mapa do estado de São Paulo dividido em micro regiões com a área sombreada representando uma possível zona de estudo p Um cluster conexo com um grande volume de regiões (com 122 regiões, ou 50% da área em estudo) encontrado através de uma busca sem limitação para o tamanho da solução em sem utilização de funções de penalização. p Fluxograma do Algoritmo Genético clássico p Fluxograma do Algoritmo NSGA-II, descrevendo o funcionamento da etapa de seleção p Pseudo-código Processo 1 do Fast Non-Dominated Sorting p Pseudo-código Processo 2 do Fast Non-Dominated Sorting p Cálculo da distância através da crowding distance p Um cruzamento entre pais A = {a, b, c, d, e} e B = {b, c, f, g, h, i, j} no mapa (acima). A descendência gerada é formada pelas quatro zonas intermédias (abaixo). A descendência constitui um caminho aleatorio no espaço de congurações entre todos os caminhos possíveis entre as zonas extremas, que são os pais A e B p Os pais {a, b, c, d, e} e {c, f, g, h, i} dentro do mapa têm a região c em comum. A numeração dos níveis exemplicada gera os lhos {b, c, d, e, g}, {b, c, d, f, g} e {b, c, f, g, h}. Outra numeração (dentre as várias possíveis) é também exemplicada p Clusters articiais gerados no mapa do nordeste dos EUA p Gráco box-plot (LLR Compacidade Geométrica) das medidas de Poder por cluster dentre todas congurações p Gráco box-plot (LLR Compacidade Geométrica) das medidas de Sensibilidade por cluster dentre todas congurações p. 46

8 13 Gráco box-plot (LLR Compacidade Geométrica) das medidas de PPV por cluster dentre todas congurações p Gráco box-plot (LLR Compacidade Geométrica) das medidas da soma de Poder, Sensibilidade e PPV por conguração p Gráco box-plot (LLR Não-Conectividade) das medidas de Poder por cluster dentre todas congurações p Gráco box-plot (LLR Não-Conectividade) das medidas de Sensibilidade por cluster dentre todas congurações p Gráco box-plot (LLR Não-Conectividade) das medidas de PPV por cluster dentre todas congurações p Gráco box-plot (LLR Não-Conectividade) das medidas da soma de Poder, Sensibilidade e PPV por conguração p Gráco box-plot (LLR Não-Conectividade Ponderada) das medidas de Poder por cluster dentre todas congurações p Gráco box-plot (LLR Não-Conectividade Ponderada) das medidas de Sensibilidade por cluster dentre todas congurações p Gráco box-plot (LLR Não-Conectividade Ponderada) das medidas de PPV por cluster dentre todas congurações p Gráco box-plot (LLR Não-Conectividade Ponderada) das medidas da soma de Poder, Sensibilidade e PPV por conguração p Gráco box-plot (LLR Coesão Topológica) das medidas de Poder por cluster dentre todas congurações p Gráco box-plot (LLR Coesão Topológica) das medidas de Sensibilidade por cluster dentre todas congurações p Gráco box-plot (LLR Coesão Topológica) das medidas de PPV por cluster dentre todas congurações p Gráco box-plot (LLR Coesão Topológica) das medidas da soma de Poder, Sensibilidade e PPV por conguração p. 63

9 Lista de tabelas 1 Valores dos parâmetros de entrada do algoritmo genético p Combinações entre os parâmetros de entrada do algoritmo genético... p. 41

10 Sumário 1 Introdução p Organização do Trabalho p Revisão Bibliográca p Métodos de Detecção de Clusters p Algoritmos Evolucionários p Aspectos Metodologicos p Estatística Scan Circular p Detecção de Clusters Irregulares p Estratégia de Otimização p Otimização multi-objetivo p Penalização por Compacidade Geométrica p Penalização por Não-Conectividade p Penalização por Não-Conectividade Ponderada p Penalização por Coesão Topológica p Algoritmos Genéticos p Algoritmo Genético - Visão Gerão p Geração de População Inicial p Operador de Cruzamento p Operador de Mutação p Operador de Seleção p. 29

11 4.1.5 Fast Non-Dominated Sorting p Crowding Distance p Algoritmo de Otimização - Implementação para o Problema de Detecção de Clusters p Resultados Numéricos e Discussões p Conguração do Experimento p Medidas de Desempenho para Comparação entre Congurações.... p Avaliações Numéricas p Resultados de Utilização da Penalização por Compacidade Geométrica p Resultados de Utilização da Penalização por Não-Conectividade p Resultados de Utilização da Penalização por Não-Conectividade Ponderada p Resultados de Utilização da Penalização por Coesão Topológica p Considerações nais p. 64 Referências p. 66

12 11 1 Introdução No decorrer dos últimos anos, ocorreu um aumento expressivo no número de trabalhos dedicados à metodologias para detecção e avaliação de conglomerados (clusters) espaciais e temporais. Os problemas de detecção e avaliação de clusters podem tratar de dados pontuais (cada indivíduo possui uma localização na região de estudo e pode representar ou não a ocorrência de um caso do fenômeno de interesse) ou dados agregados por região (a área de estudo está subdividida em regiões das quais é conhecida sua população e quantidade de ocorrências do fenômeno de interesse). No enfoque deste trabalho, os dados estão agregados por regiões e cluster é um conjunto conexo de regiões, no qual existe uma quantidade de ocorrências discrepante para o fenômeno de interesse. Os procedimentos de detecção de clusters podem ser realizados para intervalos de tempo (clusters temporais) ou então, para localizações no espaço (clusters espaciais), ou em ambos (clusters espaçotemporais). Problemas associados à cluster espaciais encontram-se em diversas situações, tais como problemas associados à saúde pública (vigilância sindrômica e epidomiologia), criminologia, pesquisa de mercados, entre outros. Um dos mais relevantes objetivos está na determinação de modelos satisfatórios para execução de procedimentos para a detecção e avaliação destes clusters. Os métodos de detecção e inferência de clusters, em sua grande maioria, são baseados na Estatística Scan Espacial apresentada por Kulldor e Nagarwalla (1995) e Kulldor (1997). O objetivo é vericar a existência de clusters de casos sem especicar sua localização geográca antecipadamente. As denições desta Estatística serão apresentadas posteriormente neste texto. Uma primeira idéia para tentar detectar um cluster poderia levar em conta simplesmente a incidência de casos em cada região de estudo, isto é, o número de casos observados dividido pela população, ou ainda o risco relativo que é o número observado de casos dividido pelo número esperado de casos. Apesar de parecer razoável, essa análise não resolve

13 12 o problema de detecção de clusters, porque é possível que clusters com populações muito discrepantes possam apresentar uma mesma proporção de casos. Neste caso, estes candidatos seriam comparados em situação de igualdade, quando na verdade são bastante diferentes devido à discrepância entre as populações. Um aumento no risco relativo é tão mais signicativo quanto maior é a população de risco dentro do cluster candidato. Isso signica que, embora uma região possa apresentar um alto risco relativo, se sua população é pequena, ela se torna pouco signicativa. Para contornar este problema, é preciso encontrar um método que permita analisar somente os candidatos a clusters (subconjuntos conexos de regiões do mapa) mais promissores e descartar os que não parecem muito interessantes. Uma vez que não analisam todos os candidatos, esses métodos não garantem que encontraremos a solução ótima, mas um bom método deve encontrar uma boa solução na maioria das vezes. Neste sentido, existem alguns algorítmos que propõem estratégias para a detecção de clusters com formatos irregulares. Uma técnica bastante razoável e já utilizada é a incorporação de alguma função de penalização para o formato geométrico ou topologia do grafo associado ao cluster. Alguns métodos foram desenvolvidos recentemente para detectar clusters de formato irregular. Ao trabalhar com estratégias para clusters irregulares, alguns problemas podem surgir. Um primeiro problema seria a avaliação de todos os possíveis candidatos, visto que o número destes candidatos cresce exponencialmente a medida que o número de regiões no mapa em estudo aumenta. Um segundo problema é que na possibilidade de avaliarmos todos os candidatos, se avaliando através da razão de verossimilhanças, decorrente da proposta da estatística Espacial Scan, a solução obtida nem sempre seria uma solução viável. Isto se deve ao fato de ser possível existir soluções com alta razão de verossimilhança, entretanto dentre estes candidatos, alguns deles podem ter sido obtidos através da junção de regiões com elevado risco no mapa em estudo. Seriam então, conjuntos de regiões que estão espalhadas ao longo do mapa, abarcando grandes áreas de estudo. Este formato de solução tende a não ser muito informativo e em geral não é uma solução de interesse para o problema na prática. Dada a possibilidade de existência de tais soluções, o poder de detecção destes métodos seria reduzido. Neste sentido, existem algoritmos que propõem estratégias para a detecção de clusters com formatos irregulares. Muitos deles são heurísticas, portanto não vasculham todas as possíveis soluções. São analisadas apenas algumas das soluções, que seriam as mais promissoras. Ainda assim, persistiria o problema de soluções não viáveis. Existem propostas

14 13 de funções penalizadoras que buscam coibir a possibilidade destas soluções. A heurística aqui utilizada é o algoritmo genético multi-objetivo para o problema de detecção de clusters. Este método conduz a uma estratégia que busca maximizar dois objetivos, sendo eles: a Estatística Espacial Scan e alguma função de penalização associada a forma do cluster detectado. Não é apresentada uma única solução, mas sim um conjunto de soluções não-dominadas, ou seja, que não são inferiores às outras soluções nos dois objetivos simultaneamente. O algoritmo multi-objetivo apresenta uma importante vantagem: todos os clusters potenciais são considerados sem uma classicação de acordo com os valores da penalização. Assim a classicação quanto à qualidade das possíveis soluções é executada somente depois que todos os candidatos são avaliados. A avaliação quanto à signicância estatística é realizada paralelamente para todos os clusters do conjunto de soluções não-dominadas usando simulações de Monte Carlo, quebrando o laço de dependência entre elas, e determinando a melhor solução no conjunto de soluções não-dominadas. Utilizamos para a avaliação da signicância estatística a teoria de funções de aproveitamento. A utilização da função de aproveitamento no problema especíco de detecção de clusters se encontra bem detalhada em (CANÇADO et al., 2010). 1.1 Organização do Trabalho Este trabalho se encontra organizado da seguinte forma: Uma revisão bibliográca delimitando o problema em estudo é apresentada no capítulo 2. O capítulo 3 apresenta diversos aspectos metodológicos preponderantes para uma correta interpretação da proposta executada neste trabalho. O capítulo 4 ainda apresenta discussões metodológicas porém com o intuito de apresentar com maior profundidade o algoritmo genético que será utilizado como estatégia de otimização. Os resultados numéricos obtidos são discutidos e detalhados no capítulo 5. Finalmente as considerações nais são abordadas no capítulo 6.

15 14 2 Revisão Bibliográca 2.1 Métodos de Detecção de Clusters As estatísticas associados à clusters têm sido estudadas por muitas décadas. Tais estudos são de extrema utilidade para detectar e monitorar riscos potenciais de fenômenos de diversos tópicos em muitas áreas, porém existe uma grande destaque associado às aplicações em áreas de saúde, como por exemplo a epidemiologia e a vigilância sindrômica. Como um conceito mais geral e abrangente, dene-se por cluster uma área de risco com signicância discrepante, podendo ser esta muito elevada ou muito baixa. Choynowski (1959) foi um dos primeiros autores que propuseram testes para a detecção de clusters. O estudo estava relacionado ao tratamento de tumores do tipo cerebral de uma província na Polônia, abrangendo cerca de 17 municípios diferentes. Realizou-se o teste para vericar quando o número de ocorrências em cada município era signicativamente elevado comparado a algum nível pré-estabelecido. Este método apenas testava individualmente um quadrante do mapa em estudo por vez, surgindo problemas com os testes múltiplos e com a incapacidade de se detectar conglomerados nas fronteiras dos municípios da província polonesa. Openshaw et al. (1988) propôs uma ferramenta exploratória para os tipos de dados pontuais do tipo caso-controle e dados agregados por área. O método faz uso de múltiplos círculos de raio R sobrepostos, permitindo que os clusters possam ter formas diferentes daquelas impostas pelas delimitações geográcas dos municípios da região em estudo. Observa-se a contagem do número de casos e do número de pessoas em risco dentro de cada círculo, e uma proporção de incidência local para apresentar aqueles círculos com taxas excedendo algum limiar pré-estabelecido. Naus (1965b) desenvolveu estudos primitivos de detecção de clusters em processos pontuais unidimensionais propondo uma primeira versão para a Estatística Scan. Procuravase obter qual a probabilidade de se sortear N pontos independentes de uma distribuição

16 15 uniforme (a, b) e existir um subintervalo de (t, t + p) (a, b) com p < b a que contenha pelo menos n pontos dentre os N pontos observados. Posteriormente, Naus (1965a) faz uma abordagem bidimensional, mas não análoga à que foi calculada para uma dimensão, mas sim uma forma de cálculo do limite superior e inferior da probabilidade de ocorrer o evento: existe um sub-retângulo do quadrado unitário, com lados de tamanho u e v orientados paralelamente aos eixos x e y respectivamente, que contenha pelo menos n dos N pontos. Com isso, traz a situação para as duas dimensões e, consequentemente, aumenta a complexidade do problema. Turnbull et al. (1990) implementaram um método denominado CEPP - Cluster Evaluation Permutation Procedure, para detecção de clusters baseado em janelas sobrepostas no mapa, de maneira que cada conjunto tenha população constante. Este método requer a denição pelo usuário do tamanho da população de interesse. Besag e Newell (1991) propõem um mecanismo semelhante ao de Turnbull et al. (1990), com círculos sobrepostos que procuram para cada caso acumular as regiões vizinhas para redenir a área. Porém ao invés de se atingir um valor pré-determinado da população, atinge-se um valor pré-determinado de casos. Desta forma, para cada caso, obtem-se uma zona com um número de casos igual a k + 1, em que k + 1 é o número de casos a ser atingido, incluindo-se o caso já presente no centro do círculo. Para cada uma das zonas efetua-se um teste de signicância para vericar se a zona consiste em um cluster. Embora em (TURNBULL et al., 1990; BESAG; NEWELL, 1991) tenha sido introduzida uma nova abordagem para avaliar a signicância estatística na proporção de incidência máxima local, a Estatística Scan Espacial denida em (KULLDORFF, 1997) pretende abordar esta particular questão e fornecer uma estratégia de inferência para diversos valores de raios dentre os possíveis clusters. Todas as abordagens discutidas anteriormente não se preocupam com as possíveis irregularidades na forma do cluster a ser detectado. Entretanto este é um problema que efetivamente ocorre em diversos cenários. Uma vasta revisão sobre os diversos métodos que contemplam clusters irregulares pode ser obtida em (DUCZMAL; DUARTE; TAVARES, 2009). Alguns dos trabalhos contidos nessa revisão serão discutidos posteriormente neste texto. Recentemente, diversos trabalhos apresentam medidas para quanticar o desempenho dos métodos de detecção e inferência de clusters. Em geral, as medidas de poder do teste, sensibilidade do teste e valor preditivo positivo do teste são utilizadas. Huang, Kulldor e

17 16 Gregorio (2007) geraram dados aleatórios de sobrevivência das distribuições exponencial, gama e lognormal para a utilização do métodos propostos em (KULLDORFF, 1997) visando a vericação de medidas de poder, sensibilidade e valor da predição positiva. 2.2 Algoritmos Evolucionários Como mencionado anteriormente, os algoritmos evolucionários podem ser de grande utilidade na solução de problemas de otimização como os que serão tratados aqui. Desta forma se torna preponderante uma discussão prévia a respeito destes algoritmos. Algoritmos Evolucionários são basicamente algoritmos inspirados nos princípios da seleção natural e da evolução genética (FREITAS, 2008). Existe uma grande variedade de modelos computacionais propostos dentro deste paradigma, como Linden (2006) deixa claro, mas todos simulam os mecanismos de evolução natural das espécies. Partindo de operadores genéticos (seleção, cruzamento e mutação) novas espécies são criadas, assim como novas gerações, utilizando indivíduos que são avaliados segundo seu desempenho dentro de um ambiente. Durante os anos 50 e 60, alguns cientistas computacionais, como Mitchell (1996) estudaram as técnicas evolucionárias, para que se tornassem uma alternativa de ferramenta de otimização para a resolução de problemas de engenharia. O interesse era criar um conjunto de soluções candidatas à resolução do problema proposto, e utilizar operadores inspirados na genética e seleção natural para buscar as melhores soluções. De acordo com Linden (2006), os operadores genéticos são aproximações computacionais de fenômenos naturais como a reprodução sexuada (crossover ou cruzamento) e a mutação genética (mutation ou mutação). Segundo Mitchell (1996), o conceito da evolução natural é aplicado na resolução de problemas computacionais, pois os mecanismos de evolução parecem se adequar a estes problemas nas mais variadas áreas. Problemas que envolvem buscas em um espaço muito grande de solução, como por exemplo, a busca de um conjunto de regras de classicação a partir de uma base de dados, dentre outros possíveis problemas que requerem soluções difíceis de serem projetadas, podem utilizar-se do conceito da seleção e evolução natural para criarem e melhorarem soluções adaptadas a esses problemas complexos. Um caso particular de algoritmo evolucionário é o algoritmo genético. Holland (1975), com o livro Adaptation in Natural and Articial Systems, formalizou e fundamentou matematicamente os algoritmos genéticos. Mesmo não tendo sido o primeiro a aplicar

18 17 os conceitos da evolução natural à programação, Holland (1975) foi o primeiro a provar matematicamente a ecácia da estratégia evolucionária em problemas de busca. Em seu trabalho, Holland (1975) apresenta os algoritmos genéticos como uma abstração dos processos evolutivos, que permitiriam importar os conceitos de adaptação, evolução e seleção natural da vida real para o mundo computacional, a m de resolver problemas que envolvem a busca por uma solução ótima. Os algoritmos genéticos são uma técnica heurística de otimização global baseada no processo biológico da evolução natural. O grande diferencial desta técnica é a sua capacidade de não se restringir a máximos locais, como outros métodos de otimização, explorando o espaço de busca como um todo. A maioria dos algoritmos que tratam problemas de otimização não são capazes de encontrar uma solução ótima global, e se restringem a ótimos locais. Isto se deve ao fato de seguirem a derivada de uma função e facilmente se prenderem a máximos locais, desprezando o máximo global. Um algoritmo genético é fundamentado na técnica de geração e teste. Nesta técnica uma solução é gerada, e é testada sua ecácia na resolução do problema proposto, considerando limitações impostas. Se por acaso esta solução for adequada à resolução deste problema e obedecer às limitações previamente determinadas, ela é adotada. No caso em que a solução gerada se não adequa as limitações ou não soluciona de maneira satisfatória o problema proposto, ela é desprezada e o processo recomeça gerando uma nova solução a ser testada. Para Freitas (2003), um algoritmo genético é a utilização da mecânica da genética e da seleção natural à busca dirigida, encontrando os melhores conjuntos de parâmetros que descrevem uma função de adaptação ou aptidão (tness). A fundamentação para a utilização de algoritmos genéticos em problemas de otimização está nos conceitos da seleção natural e evolução das espécies. Segundo esses conceitos, os indivíduos mais adaptados ao seu ambiente tendem a viver tempo suciente para se reproduzirem, enquanto os indivíduos menos adaptados tendem a morrer antes da reprodução. Operadores genéticos da seleção natural, cruzamento, mutação e o uso de uma função de aptidão para construir sucessivas gerações de soluções são aplicados para se chegar à solução que, se não é a ótima, é uma solução próxima da ótima.

19 18 3 Aspectos Metodologicos 3.1 Estatística Scan Circular A proposição da estatística de teste Scan Espacial é baseada em um teste de razão de verossimilhanças (KULLDORFF, 1997). Para um mapa em estudo dividido em m regiões, com uma população total P, um número total de casos C para algum fenômeno de interesse e o conhecimento do volume populacional e de ocorrências de casos para cada uma das regiões que subdividem o mapa, a estatística de teste busca identicar uma zona (conjunto de regiões) conexa mais verossímil ao longo do mapa em estudo. O conceito de zona pode ser ilustrado através da gura 1. Figura 1: Mapa do estado de São Paulo dividido em micro regiões com a área sombreada representando uma possível zona de estudo. Considerando um conjunto composto por todas as zonas que serão avaliadas, ora denominado conjunto Z, busca-se determinar as zonas que podem ser considerados de maior relevância quanto ao valor do logaritmo da função de verossimilhança. É importante salientar que as zonas mais verossímeis, não são necessariamente clusters. Uma zona será dita cluster quando o valor do logaritmo da função de verossimilhança for considerado

20 19 signicativo do ponto de vista estatístico. Para tal avaliação, executa-se um teste de hipóteses com a Hipótese Nula de que não existe cluster no mapa em estudo, contra a Hipótese Alternativa de que existe pelo menos um cluster no mapa em estudo. Para alguma zona z Z em estudo, seja P (z) e C(z) respectivamente a população e o número de casos na zona z. Um modelo comumente utilizado assume que a variável aleatória Número de casos em cada região, sob a Hipótese Nula, segue distribuição Poisson com taxa proporcional à sua população. A estatística de teste Scan será denida então como o máximo da razão de verossimilhanças. Sob a validade da Hipótese Nula e assumindo o modelo Poisson, o número de casos esperados em uma possível zona z é dado por µ(z) = C P (z). Desta forma, temos o P risco relativo na zona z dado por I(z) = C(z). Já o risco relativo fora da zona z é dado por µ(z) O(z) = C C(z). Seja L C µ(z) 0 a função de verossimilhança sob a Hipótese Nula e L(z) a função de verossimilhança sob a Hipótese Alternativa. Pode-se mostrar que assumindo o modelo Poisson, o logaritmo da razão de verossimilhanças é dado por: LLR(z) = { C(z) log (I(z)) + (C C(z)) log (O(z)) se I(z) > 1 0 caso contrário (3.1) O logaritmo da razão de verossimilhança é então maximizado no conjunto Z, produzindo então a estatística de teste max LLR(z). O formato de escolha das zonas z pertencentes ao conjunto Z denirá o método em uso. Uma forma bastante usual se baseia z Z em janelas circulares e dene o Método Scan Circular. Para cada região denimos um centróide, que é um ponto arbitrário em seu interior. Utilizando a metodologia baseada no teste de verossimilhança proposta por Kulldor (1997), o método Scan Circular proposto por Kulldor e Nagarwalla (1995), busca o cluster mais verossímil dentre todas as zonas circunscritas por círculos de raios variados centrados em cada região do mapa. Uma janela circular sobre a área em estudo dene uma zona formada pelas regiões cujos centróides são interiores à janela. Partindo de janelas centradas em cada um dos centróides e de raios variando entre zero e um valor máximo pré-estabelecido, o conjunto Z será formado por todas as zonas obtidas através das janelas circulares. A busca por soluções ecientes seria feita então dentro do conjunto Z. Um dos problemas dos metódos circulares para detecção de clusters reside nas situ-

21 20 ações em que existem clusters com formatos bastante irregulares, bastante comum em situações reais. A incidência de uma doença ao longo de um rio, por exemplo daria um formato mais alongado ao cluster. Neste caso, há alternativa de utilizar outros formatos de janelas, por exemplo janelas elipticas, como critério para a denição do conjunto Z (DUCZMAL; KULLDORFF; HUANG, 2006). Existem outros critérios para a denição do conjunto Z, como por exemplo, janelas elípticas, ou até mesmo uma busca exaustiva sobre todas as possíveis zonas conexas no mapa em estudo. No caso de considerarmos Z como o conjunto de todas as zonas conexas, o problema se tornaria impraticável para mapas com m da ordem de algumas centenas. Também dentre as deciências, podemos destacar a possibilidade de que o método identique um conglomerado maior ou menor que o cluster real, nas situações em que o cluster real não apresenta formato regular (por exemplo, conjuntos não circulares). Seriam casos de superestimação ou subestimação no processo de detecção de clusters. Para concluir o teste de hipóteses, a signicância estatística de uma possível solução, obtida através da distribuição dos casos observados, em geral, é vericada através de simulações de Monte Carlo, dado o desconhecimento da distribuição exata da estatística de teste. No procedimento de Monte Carlo, casos simulados (sob a validade da Hipótese Nula) são distribuídos aleatoriamente no mapa em estudo, de forma que cada região recebe, em média, um número de casos proporcional à sua população. A signicância estatística, de uma solução obtida através da técnica Scan Circular, é considerada sem pré-especicação do número de regiões e/ou da localização do clusters mais verossímel. O processo inferêncial compara a solução mais verossímil obtida dos dados observados com as soluções mais verossímeis obtidas de cada distribuição de casos simulada. Esta comparação é feita através da distribuição empírica para a estatística de teste construída através dos dados da simulação de Monte Carlo. 3.2 Detecção de Clusters Irregulares A Estatística Scan Espacial proposta por Kulldor (1997) prevê a possibilidade de clusters de formato arbitrário, porém não propõe algoritmos para a detecção de clusters de formato irregular. Neste sentido, existem alguns algoritmos que propõem estratégias para a detecção de clusters com formatos irregulares. Uma técnica bastante razoável e já utilizada, é a incorporação de alguma função de penalização para o formato geométrico ou topologia do grafo associado ao cluster.

22 21 É muito frequente a existência de clusters com formatos bastante irregulares na maioria dos estudos. Os clusters não regulares podem ser observados em problemas de tráfego, poluição, vigilância sindrômica, entre outros. Em muitos destes casos, formatos não regulares se devem às características geográcas do mapa em estudo, tais como rios, regiões litorâneas, regiões montanhosas entre outras. Métodos foram desenvolvidos recentemente para detectar clusters de formato irregular, mesmo assim apresentam alguns problemas. Um primeiro problema seria a avaliação de todos os possíveis candidatos (subconjuntos de regiões do mapa), visto que o número destes candidatos cresce exponencialmente a medida que o número de regiões no mapa em estudo aumenta. Um segundo problema é que na possibilidade de avaliarmos todos os candidatos, se avaliando através da razão de verossimilhanças, decorrente da proposta da estatística Espacial Scan Circular, a solução obtida nem sempre seria uma solução viável. Dentre essas soluções é possivel a existência de algumas alta razão de verossimilhança, soluções estas, obtidas através da junção de regiões com elevado risco no mapa em estudo. Seriam então, conjuntos de regiões que estão espalhadas ao longo do mapa, abarcando grandes áreas de estudo. Este formato de solução tende a não ser muito informativo e em geral não é uma solução de interesse para o problema na prática. A gura 2 ilustra uma situação deste tipo. Dada a possibilidade de existência de tais soluções, o poder de detecção destes métodos seria reduzido. Figura 2: Um cluster conexo com um grande volume de regiões (com 122 regiões, ou 50% da área em estudo) encontrado através de uma busca sem limitação para o tamanho da solução em sem utilização de funções de penalização. Neste sentido, existem algoritmos que propõem estratégias para a detecção de clusters

23 22 com formatos irregulares. Entretanto tais métodos não vasculham todas as possíveis soluções, ou seja, são métodos heurísticos. São analisadas apenas algumas das soluções, que seriam as mais promissoras. Ainda assim, persistiria o problema de soluções não factíveis. Para tanto, existem propostas de funções penalizadoras que buscam coibir a possibilidade destas soluções. Dentre as funções penalizadoras já existentes, podemos citar, penalizações para a regularidade da forma geométrica do cluster ou então a regularidade da estrutura de conexidade do possível cluster. O procedimento heurístico de otimização e também algumas funções penalizadoras serão apresentas detalhadamente a seguir. 3.3 Estratégia de Otimização Os algoritmos para detecção de clusters espaciais baseados exclusivamente na Estatística Scan Espacial podem encontrar soluções em forma de árvore, que se espalham ao longo do mapa, conectando as regiões com elevada incidência. Uma forma de evitar tais soluções seria a utilização de um algoritmo que busca soluções através da LLR(z), mas utiliza também alguma estrutura de penalização para o formato do possível cluster. Seriam avaliados os candidatos em potencial segundo a LLR(z) e alguma medida de penalização Otimização multi-objetivo As abordagens heurísticas mais preliminares para o problema utilizavam um tratamento mono-objetivo (DUCZMAL et al., 2007). Posteriormente, uma outra forma de lidar com o problema de detecção de cluster surge por meio de procedimentos de otimização multi-objetivo. Como o problema de detecção de cluster pode ser formulado como um problema de otimização multi-objetivo, apresentaremos uma breve descrição dos conceitos de otimização multi-objetivo. Um problema de otimização multi-objetivo surge quando é preciso otimizar simultaneamente duas ou mais conitantes funções-objetivos, sujeitas ou não a algumas restrições. Conito aqui se refere ao fato de que não é plausível que uma escolha para as variáveis de otimização irá otimizar todos os objetivos simultaneamente. Por esse motivo, a busca da melhor solução está intimamente relacionada com o conceito de dominância. Considere uma função a ser maximizada f(x) = (f 1 (x),, f n (x)) denida em um espaço X. Um ponto x 1 X domina outro ponto x 2 X se f i (x 1 ) f i (x 2 ), i = 1,, n e f k (x 1 ) > f k (x 2 ) para, pelo menos, um valor de k 1,, n. Em outras palavras, um

24 23 ponto x 1 domina outro ponto x 2, se a avaliação de x 1 é melhor do que a avaliação de x 2 em pelo menos um objetivo e não sendo pior para os demais objetivos. Então, dadas duas soluções s 1 e s 2, um, e apenas um dos três itens a seguir irá ocorrer: (i) s 1 é não-dominado com respeito a s 2, ou (ii) s 2 é não-dominado com respeito a s 1 ou (iii) nem s 1 domina s 2 e nem s 2 domina s 1 (neste caso, dizemos que s 1 e s 2 são incomparáveis). Agora, considere um conjunto de soluções, o conjunto de Pareto é o subconjunto formado por todas as soluções que não são dominadas por alguma solução no espaço de busca X. Note que qualquer par de soluções no conjunto de Pareto são incomparáveis. Desta forma, ca claro que a solução será sim, um conjunto de soluções não-dominadas, chamado o conjunto de Pareto. Este conjunto representa um trade-o entre os objetivos. O problema aqui abordado será tratado como um problema bi-objetivo, em que um dos objetivos será a função LLR(z) e o outro objetivo será uma função de penalização associada a forma da zona z. As funções de penalização utilizadas neste trabalho são descritas a seguir Penalização por Compacidade Geométrica Esta função de penalização foi apresentada por Duczmal et al. (2007) com o objetivo de penalizar as zonas do mapa que possuem formato muito irregular. A Compacidade geométrica k(z) de uma zona z é dada pela área da zona z, denida por A(z), dividida pela área do círculo com o mesmo perímetro que o fecho convexo da zona z. O fecho convexo será aqui denido por H(z). A expressão descrita acima para k(z) é dada por: k(z) = A(z) ( ) 2 (3.2) H(z) π 2π A Compacidade geométrica é dependente da forma do objeto, mas não do seu tamanho. A Compacidade penaliza a forma que tem área pequena em relação a área da circunferência com perímetro igual ao fecho convexo. O círculo é a forma de maior compacidade (k(z) = 1). Já o quadrado, por exemplo, tem compacidade k(z) = 0,785.

25 Penalização por Não-Conectividade A medida de penalização por Não-Conectividade proposta por Yiannakoulias, Rosychuk e Hodgson (2005) se baseia em uma relação do número de vértices v(z) e de arestas a(z) do subgrafo associado à zona z, tornando bastante eciente para a detecção e inferência de clusters. Entretanto, o formato desta penalização leva em conta apenas a contagem das arestas do subgrafo associado ao cluster candidato. Não existe uma consideração quanto ao grau de importância de uma aresta na conexidade do subgrafo. A medida de penalização por Não-Conectividade é dada por: y(z) = a(z) 3 (v(z) 2) (3.3) O termo 3(v(z) 2) no denominador da expressão anterior, representa o número máximo de arestas para um grafo planar, ou seja, para o grafo planar mais conexo possível teriamos y(z) = 1. Quando se está trabalhando com subgrafos associados a conjuntos de regiões em um mapa, as arestas são conexões de vizinhança entre regiões que podem ser muito ou pouco populosas. Neste contexto, se observa que existem sim arestas mais e menos importantes para a conexidade do subgrafo associado a um cluster candidato. A mesma análise pode ser realizada para o grau de importância de cada um dos vértices do subgrafo em estudo. Apesar de existir alguma similaridade entre a Penalização por Não-Conectividade e a Penalização por Compacidade Geométrica, uma diferença importante é o fato de a Não- Conectividade buscar zonas sem uma associação direta ao formato, mas sim ao grau de conexidade do subgrafo associado à zona z Penalização por Não-Conectividade Ponderada A medida de penalização por Não-Conectividade Ponderada proposta por Duarte et al. (2011) leva em conta uma medida ponderada para os vértices e arestas do subgrafo associado a um cluster candidato. Tal ponderação é construída pensando na estrutura da distribuição populacional ao longo das regiões deste cluster candidato. A ponderação das arestas do subgrafo associado ao cluster candidato z é denida pela média entre as populações das regiões cujos vértices são conectados pela aresta em questão. Portanto para uma aresta a i;j conectando os vértices v i e v j associados às regiões R i e R j com populações pop(r i ) e pop(r j ), tem-se o seguinte peso ponderador:

26 25 P (a i;j ) = pop(r i) + pop(r j ) 2 (3.4) A ponderação dos vértices é feita através população da região associada ao respectivo vértice, ou seja, para o vértice v i associado à região R i cuja população é pop(r i ), tem-se o seguinte peso ponderador: P (v i ) = pop(r i ) (3.5) A medida de penalização por Não-Conectividade proposta por Yiannakoulias, Rosychuk e Hodgson (2005) é dada por: y(z) = a(z) 3 (v(z) 2) Para reformular a função descrita, as arestas e vértices são substituídas por seus respectivos pesos ponderadores da seguinte forma: yp(z) = k 1 k i=1 j=i+1 k 3 P (v i ) 2 i=1 P (a i,j ) k P (v i ) k i=1 (3.6) em que k é a quantidade de regiões na zona z. k P (v i ) i=1 Alguma dúvida pode pairar sobre o termo associado ao valor 2 no denominador. Entretanto, pensando na suposição de todas as populações identicas nas regiões k da zona a ser avaliada, se faz necessário este termo para que se tenha y(z) = yp(z) para esta situação especíca. Com este formato é levado em conta não somente a estrutura do subgrafo associado à zona z, mas também informações inerentes a estrutura da distribuição populacional dentro da zona z e o grau de relevância das vizinhanças entre regiões quanto às suas populações.

27 Penalização por Coesão Topológica Em (CANÇADO et al., 2010) é apresentada uma estratégia de avaliar tanto o efeito populacional nas zonas em estudo quanto sua estrutura de conectividade. Considerando uma área em um mapa em estudo com seu grafo associado G A, cada zona z corresponde a um sub-grafo correspondente G = (V, E) de G A. Os nós no conjunto V correspondem às regiões de z e cada par de regiões (i, j) adjacentes determinam uma aresta não orientada no conjunto E. Um nó x V é chamado um nó de desconexão se o sub-grafo L obtido a partir de G com os nós denidos V {x} não é conexo. Seja G D = {x 1,..., x d } V o conjunto de todos os nós de desconexão de G. Para cada x i G D, tem-se que pop(x i ) é a população da região associada ao nó x i. Tem-se µ xi como o número esperado de casos da região correspondente ao nó x i sob a hipótese nula, que é proporcional à pop(x i ). O sub-grafo com os nós do conjunto V G D, constitui L partes que permanecem conexas, de sub-grafos ẑ 1,, ẑ L, em que 2 L V d. Seja pop(ẑ j ) a população da zona conexa remanescente associado ao nó de desconexão z j. As L partes conexas ẑ 1,, ẑ L são ordenadas de forma decrescente, de acordo com suas populações, como ẑ (1),, ẑ (L). A função da coesão do sub-grafo G é denida como: ( d ( 1 e µ xi ) ) L pop(ẑ (i) ) c(g) = L i=1 i=1 j=1 pop(ẑ se G D (j)) 1 caso contrário (3.7) Se cada região tem uma população diferente de zero, então 0 < c(g) 1. Assumindo que o número de casos c xi em cada nó de desconexão x i G D é uma variável aleatória de Poisson com média µ xi, então o fator 1 e µ x i é igual a P (c xi > 0), ou seja, a probabilidade do número de casos em x i ser maior do que zero. O primeiro termo na fórmula coesão penaliza as zonas que têm nós de desconexão pouco povoados, indicado por valores mais baixos de µ xi. O segundo termo penaliza a distribuição da população homogênea entre as L partes conexas. Entende-se que a presença de nós de desconexão que quebram o cluster mais uniformemente (em relação à sua população) impactam fortemente a sua coesão. Ao invés de quebras mais heterogêneas, ou seja, deixando grandes partes do cluster original intactas, e deixando algumas partes restantes menos povoadas, é considerado menos prejudicial para a sua coesão.

28 27 4 Algoritmos Genéticos 4.1 Algoritmo Genético - Visão Gerão O algoritmo genético utiliza o princípio da evolução biológica para procurar as melhores soluções de um problema de otimização. São simulados os mecanismos de variação aleatória e de seleção adaptativa da evolução natural. O algoritmo genético é constituído por quatro etapas: Geração de População Inicial, Cruzamento, Mutação e Seleção. Através dos operadores de cruzamento, mutação e seleção, é possível melhorar os resultados entre uma geração e outra. São eles que atribuem ao algoritmo a capacidade de evoluir no procedimento de busca por soluções ótimas. O uxograma para o Algoritmo Genético Clássico se encontra apresentado na gura 3. Figura 3: Fluxograma do Algoritmo Genético clássico.

29 Geração de População Inicial Diferentemente das outras etapas, a geração de população inicial é realizada somente no começo do algoritmo e não se repete ao longo das próximas gerações. Indivíduos que codicam um grupo de n imagens distintas (isto signica que não pode haver imagens repetidas em um mesmo indivíduo) são aleatoriamente gerados dentro do algoritmo e armazenados em uma estrutura de dados. Após a geração de cada indivíduo, é vericado se aquele já existe na população. Isso é feito para evitar a ocorrência de indivíduos repetidos, é importante para o bom funcionamento do algoritmo que haja diversidade de soluções. Isto permite uma maior variabilidade genética durante as gerações e contribui para que soluções melhores sejam encontradas. Se um indivíduo atualmente gerado já existe na população, ele será ignorado e um novo indivíduo será criado am de se completar o número previamente especicado de indivíduos da população inicial Operador de Cruzamento Os indivíduos existentes na população, respeitando uma probabilidade inicialmente imposta, irão trocar sequências, aleatoriamente escolhidas, de suas informações, gerando novos indivíduos que herdam características dos indivíduos anteriores. Bastante semelhante à união cromossômica para formar novas combinações de genes. É importante ressaltar que indivíduos repetidos não serão tolerados dentro da População, ou seja, caso o indivíduo resultante do Operador de Cruzamento já existir ele será descartado e não será inserido entre os indivíduos válidos Operador de Mutação A operação de mutação não agrega novos indivíduos à população, ou seja, não aumenta numericamente a população como ocorre por intermédio do operador de cruzamento. A mutação apenas modica esses indivíduos que já existem transformando-os em outros indivíduos diferentes. Cada indivíduo, obedecendo a uma probabilidade inicialmente imposta, irá sofre alterações. Mais uma vez, é importante ressaltar que indivíduos repetidos não serão tolerados dentro da População, ou seja, caso o indivíduo resultante do Operador de Mutação já exista ele será descartado e não será inserido entre os indivíduos válidos. Isso fará com que o algoritmo consiga uma maior diversidade genética que a função

30 29 de cruzamento sozinha não seria capaz de fornecer. O operador de mutação aumenta a variabilidade genética e maior exploração do universo de possibilidades de congurações. Além do que, reduz a chance do algoritmo car estacionado em mínimos locais. Evitar mínimos locais seria a maior vantagem do operador de mutação, pois permite uma variação brusca das características que o indivíduo possui através da alteração de partes aleatoriamente selecionadas dos seus genes Operador de Seleção Esta é a etapa mais importante de um Algoritmo Genético, pois será nessa fase que será utilizada uma função objetivo que irá dar ao algoritmo padrões para selecionar os melhores indivíduos. A função objetivo é essencial para propagar às gerações futuras os melhores resultados de cada geração. Neste caso, somente as melhores soluções continuarão a existir na próxima geração. Para uma função objetivo com imagem n dimensional (n objetivos unidimensionais) é importante o conceito de dominância para determinar uma estratégia de classicação para o operador de seleção. O critério de dominância segue a seguinte regra: dado dois indivíduos p e q pertencentes a uma mesma população P, um indivíduo p domina um indivíduo q se no mínimo um valor em um dos objetivos de p é melhor que o mesmo objetivo em q e o restante dos valores dos objetivos de p não podem ser piores que o restante dos mesmos valores nos objetivos em q. Isso signica dizer que p não pode possuir nenhum objetivo com menor qualidade do que q. Ao nal de cada análise um determinado grupo de indivíduos são classicados como pertencentes a uma categoria especíca denominada front (fronteira) e ao ser concluído o processo classicatório, todos os indivíduos estarão inseridos em algum front. O front 1 é constituído de todas as soluções não-dominadas. O front 2 pode ser conseguido considerando todas as soluções não-dominadas excluídas as soluções do front 1. Para determinação do front 3, exclui-se as soluções previamente classicadas no front 1 e 2, e assim por diante, até que todos os indivíduos tenham sido classicados em algum front. Esse tipo de classicação é uma característica dos algoritmos genéticos do tipo NSGA Non-dominated Sorting Genetic Algorithm Os indivíduos que estão localizados no primeiro front são considerados as melhores soluções daquela geração, enquanto que no último front encontram-se as piores. Usando esse conceito, pode-se encontrar resultados mais consistentes e que se adaptam melhor ao tipo do problema.

31 30 Através do critério de dominância, o algoritmo agrega o conceito de Elitismo que classica a população total em diferentes categorias de qualidade ao invés de tratá-las como pertencentes a um único grupo. Isso permite ao algoritmo a priorização daquelas que foram melhores classicados. É importante notar que dentro de um mesmo front, as soluções são ditas não comparáveis pelo critério de dominância. Entretanto, em algumas situações se faz necessário estabelecer um critério de classicação para soluções pertencentes ao mesmo front. Para tanto será usada a crowding distance, distância de aglomeração, que funciona também como um operador para agregar diversidade no conjunto de soluções selecionadas. A inclusão da crowding distance leva ao formato de Algoritmo Genético denominado NSGA-II, um aprimoramento do NSGA anterior. Esse operador garante soluções melhor distribuídas ao longo da linha de pareto, evitando assim a concentração de soluções em uma mesma sub-região do espaço de soluções factíveis. Também é utilizado como método de ordenação dos indivíduos dentro de um mesmo front. A crowding distance utiliza como métrica a distância euclidiana de cada indivíduo aos seus indivíduos mais próximos. O funcionamento do NSGA-II se destaca por possuir dois mecanismos importantes no processo de seleção: o Fast Non-Dominated Sorting e a Crowding Distance. O uxograma para o funcionamento do prcedimento de seleção do algoritmo NSGA-II pode ser visto na gura 4. Figura 4: Fluxograma do Algoritmo NSGA-II, descrevendo o funcionamento da etapa de seleção.

32 31 O que existe inicialmente é uma População Inteira ainda não classicada, que irá passar por um processo em que serão atribuídos a cada indivíduo um grau de dominância em relação a todos os outros indivíduos da População Inteira. Isso é obtido comparando uns com os outros e assim classicando-os de acordo com o critério de dominância descrito anteriormente. Após os valores de dominância terem sido atribuídos a todos da população, esses indivíduos serão em seguida classicados em fronts de acordo com os seus valores de dominância. Os melhores indivíduos são classicados no primeiro front, e os piores são classicados como pertencentes ao último front. Essa etapa segue até que não haja mais indivíduos a serem classicados. Após todos os indivíduos estarem classicados dentro de um front, eles irão ser classicados pelo operador de diversidade crowding distance. Esse operador irá ordenar cada indivíduo de acordo com a sua distância em relação aos pontos vizinhos no mesmo front Fast Non-Dominated Sorting O algoritmo de seleção Fast Non-Dominated Sorting é executado em duas etapas, a primeira delas será referenciada aqui como sendo o Processo 1 (veja Pseudo-código na gura 5) e a segunda delas como o Processo 2 (veja Pseudo-código na gura 6). Em geral, o Processo 1 irá analisar todos os indivíduos da População P, comparandoos uns com os outros para classicá-los de acordo com o grau de dominância np (número de indivíduos que dominam p, em que p é um individuo da população P ). Dessa forma se um indivíduo p é dominado por um número x de indivíduos da população total P, o seu valor correspondente de np é igual a x. 1 para todo p P 2 para todo q P 3 se p domina q 4 então S p recebe q 5 senão se q domina p 6 então np = np se np = 0 8 então F 1 recebe p Figura 5: Pseudo-código Processo 1 do Fast Non-Dominated Sorting. Se ao nal do Processo 1, o indivíduo possuir o valor de np igual a 0, signica dizer que esse indivíduo não é dominado por ninguém dentro da População Total P e que tal

33 32 indivíduo fará parte do primeiro front, no qual estão os melhores indivíduos de toda a população atual. O Processo 2 irá separar cada indivíduo em diferentes categorias (os fronts) de acordo com os seus valores de dominância, indicados pelos seus respectivos valores de np. Cada indivíduo incluído em um dos fronts são retirados totalmente do contexto do sistema, decrementando os valores de np de cada indivíduo dominado por esses. Isso repete-se até que não sobrem mais indivíduos na população restante. Observando passo-a-passo o funcionamento do pseudo-código do Processo 1 (gura 5), é selecionado um indivíduo p da população P e para cada indivíduo q restante na população P é vericado se o individuo p domina o indivíduo q. Caso isso seja verdade o indivíduo q será armazenado em S p (na lista dos indivíduos dominados por p). Caso contrário, se q dominar p, o valor de np é incrementado (pois np é um contador de quantos indivíduos dominam p). Logo em seguida é testado se o np é igual a 0. Se isso for verdade signica que p não foi dominado por ninguém da população o que quer dizer que ele irá fazer parte do primeiro front. Como foi anteriormente descrito, o Fast Non-Dominated Sorting irá comparar indivíduo a indivíduo para poder determinar o grau de dominância np de cada componente da população. Ou seja, quanto menores os valores de np encontrados, melhores soluções irão representar. Já o Processo 2 pode ser representado através do Pseudo-Código representado na gura 6. 1 i = 1 2 enquanto F i 3 H = 4 para todo p F i 5 para todo q S p 6 nq = nq 1 7 se nq = 0 8 então H recebe q 9 i = i F i recebe H Figura 6: Pseudo-código Processo 2 do Fast Non-Dominated Sorting. Analisando-se agora o funcionamento do Processo 2, é observada uma variável i (que funcionará como um contador para o número de fronts), inicializada com o valor unitário enquanto houver novos fronts sendo gerados. Se o tamanho de F i (o atual front) for

34 33 diferente de 0, o Processo 2 será executado. A variável H (que será um armazenador temporário dos próximos fronts) é inicializada vazia. Posteriormente, um indivíduo p do front F i é selecionado, e uma vericação é realizada visando buscar quais os indivíduos q dominados por p (que se encontram na lista S p ). Os valores dos nq desses indivíduos são decrementados com o objetivo de se retirar do contexto os indivíduos que já foram classicados no front anterior ao atual. O decréscimo dos valores de nq tem também como objetivo que esses se aproximem cada vez mais do valor 0, pois tornar esses valores iguais a 0 signicará que em uma próxima iteração tais indivíduos com nq igual a 0 farão parte do novo front. Posteriormente o valor de i será incrementado e os valores armazenados em H serão copiados para F i (que representa o novo front) Crowding Distance Como dito anteriormente, a crowding distance é um Operador de Diversidade usado no algoritmo NSGA-II, a m de garantir uma melhor distribuição das soluções ao longo da linha de pareto. O algoritmo para o cálculo da crowding distance calcula a distância média entre um ponto central i selecionado dentro da população e dois pontos localizados nas extremidades do ponto central (i 1) e (i + 1). A idéia é que a partir de um ponto central o operador de diversidade possa encontrar pontos extremos e priorizar os pontos mais distantes durante o processo de seleção a m de espalhar os resultados ao longo do pareto. A disposição dos pontos extremos formam um cubóide em relação ao ponto central como pode ser observado na gura 7. Figura 7: Cálculo da distância através da crowding distance.

35 4.2 Algoritmo de Otimização - Implementação para o Problema de Detecção de Clusters 34 Para o problema especíco de estudo, a população inicial deve ser capaz de captar as informações do mapa como um todo. Não há razão para iniciar o algoritmo com os indivíduos concentrados em apenas uma parte do mapa, mesmo porque um cluster somente pode ser identicado se possuir valor de LLR discrepante das demais zonas, o que obriga a ter um mínimo de conhecimento sobre zonas espalhadas pelo mapa. Para tanto se utiliza uma estratégia gulosa (algoritmo guloso) visando obter zonas com alta LLR, construindo as zonas para a população partindo de cada uma das regiões do mapa em estudo, através da estratégia gulosa. Já entre os operadores se têm: 1. O operador de cruzamento cria novos indivíduos, ou seja, novas zonas, misturando as características de dois indivíduos (zonas) aleatoriamente escolhidos e denominados por A e B. Diversos novos indivíduos são produzidos assim, sendo eles, zonas intermediárias entre as duas zonas extremas A e B. No formato de implementação que foi utilizado, um cruzamento somente é possível entre duas zonas cuja interseção de regiões entre as zonas A e B seja não vazia. As novas zonas geradas por um cruzamento representam uma transição entre as caracteristicas de A e B escolhidos mantendo a conexidade nas zonas geradas. Figura 8: Um cruzamento entre pais A = {a, b, c, d, e} e B = {b, c, f, g, h, i, j} no mapa (acima). A descendência gerada é formada pelas quatro zonas intermédias (abaixo). A descendência constitui um caminho aleatorio no espaço de congurações entre todos os caminhos possíveis entre as zonas extremas, que são os pais A e B.

36 35 2. O operador de mutação introduz uma perturbação aleatória nas características de uma zona individual (adicionando ou removendo uma região ao acaso), aumentando assim a variabilidade da população. Do ponto de vista computacional, a operação de mutação tem custo elevado dada a necessidade de vericação de conexidade a cada operação. 3. O operador de seleção classica as zonas de acordo com o valor da função objetivo, no caso a Estatística Espacial Scan, escolhendo então aquelas que farão parte da geração seguinte. Esperamos encontrar os indivíduos (zonas) com valores cada vez maiores para a função objetivo a medida que as gerações vão evoluindo. Uma função de penalização como as descritas anteriormente pode ser empregada para evitar a irregularidade excessiva da possível solução. Um formato eciente para gerar indivíduos da população inicial é, a partir de cada região i do mapa, gerar uma zona que será um dos indivíduos para o algoritmo genético. Será usada a idéia do algoritmo guloso para gerar essas zonas da seguinte forma: Seja z i,0 a zona composta apenas pela região i; Seja D 0 = {d 1,..., d k } o conjunto composto pelas regiões adjacentes à zona z i,0 ; Dena o conjunto Z i,1 = {z i,0 d 1,..., z i,0 d k }; Observe que Z i,1 é um conjunto de zonas compostas por duas regiões. Seja z i,1 = arg max j {1,...,k} LLR(z i,0 d j ); Desta forma z i,1 será a zona de maior valor de LLR dentre as zonas do conjunto Z i,1. Agora seja D 1 = {d 1,..., d n } o conjunto composto por todas as regiões adjacentes à zona z i,1 ; Dena o conjunto Z i,2 = {z i,1 d 1,..., z i,1 d n }; Observe que Z i,2 é um conjunto de zonas compostas por três regiões. Seja z i,2 = arg max j {1,...,n} LLR(z i,1 d j ); Desta forma z i,2 será a zona de maior valor de LLR dentre as zonas do conjunto Z i,2. Repita este processo até obter a zona z i,w para algum valor w pré-xado.

37 36 A população inicial para um mapa dividido em m regiões que será utilizada pelo algoritmo genético será dada por z 1,w, z 2,w,..., z m,w. É importante observar que este procedimento já é uma técnica de otimização, mas, em geral, não é suciente para fornecer uma solução ótima para o problema em análise. Já o operador de cruzamento parte de duas possíveis soluções (zonas) A e B, tais que A B. Seja C = A B, serão atribuídos níveis numéricos para cada uma das regiões das soluções A e B da seguinte forma: Cada região em C receberá nível 0; Suponha A C composto por k regiões, das quais n são adjacentes à C, ou seja A C = {r 1,..., r n, q n+1,..., q k } em que as regiões r i são as regiões adjacentes à C; Escolha aleatoriamente uma região r i em A C dentre as n adjacentes à C e atribua a ela nível 1; Agora é possível considerar o conjunto A C {r i } composto por k 1 regiões. Note que uma parte destas k 1 regiões é adjacente à C {r i }. Dentre estas, escolha aleatoriamente uma para receber o nível 2; Repita este processo até que todas as regiões em A C tenham recebido algum nível. Observe que neste caso haverão níveis entre 1 e k; Utilizando o mesmo procedimento anterior, porém com níveis negativos, serão atribuídos níveis às regiões em B C. Supondo que B C é composto por d regiões, haverão níveis entre 1 e d. Note que tanto para A C quanto para B C a escolha de níveis não é única. Partindo desta enumeração em níveis, para deixar claro o procedimento de geração de lhos, cada uma das regiões nos conjuntos A C e B C será representada pelo seu nível. Então serão construídos os lhos do cruzamento entre A e B. Estes serão produzidos partindo de A com a retirada da região de maior nível dentre as de A C e a inclusão da região de maior nível dentre as de B C. Este procedimento será repetido sucessivas vezes. F ilho 1 = C { 1, 1, 2,..., k 1};

38 37 F ilho 2 = C { 2, 1, 1, 2,..., k 2};. F ilho j = C { j,..., 1, 1, 2,..., k j}; Se k < d: F ilho k 2 = C { (k 2),..., 1, 1, 2}; F ilho k 1 = C { (k 1),..., 1, 1}; F ilho k = C { k,..., 1}; F ilho k+1 = C { (k + 1),..., 1};. F ilho k+j = C { (k + j),..., 1} para 1 < j < d k 1;. F ilho d 1 = C { (d 1),..., 1}. Se k > d: F ilho d 2 = C { (d 2),..., 1, 1,..., k d + 2}; F ilho d 1 = C { (d 1),..., 1, 1,..., k d + 1}; F ilho d = C { d,..., 1, 1,..., k d}; F ilho d+1 = C { d,..., 1, 1,..., k d 1};. F ilho d+j = C { d,..., 1, 1,..., k d j} para 1 < j < k d 1;. F ilho k 1 = C { d,..., 1, 1}; Se k = d: F ilho k 2 = C { (k 2),..., 1, 1, 2}; F ilho k 1 = C { (k 1),..., 1, 1} = C { (d 1),..., 1, 1}. Está estratégia de cruzamento fornece lhos sempre conexos que determinam uma espécie de transição entre o pai A e o pai B. O fato da transição entre a geração de um lho e outro ser apenas a retirada de uma região e a adição de outra faz com que a avaliação da verossimilhança seja muito rápida: basta adicionar e subtrair a população e

39 38 Figura 9: Os pais {a, b, c, d, e} e {c, f, g, h, i} dentro do mapa têm a região c em comum. A numeração dos níveis exemplicada gera os lhos {b, c, d, e, g}, {b, c, d, f, g} e {b, c, f, g, h}. Outra numeração (dentre as várias possíveis) é também exemplicada. o número de casos das respectivas regiões adicionada e retirada da zona anterior. A gura 9 exemplica este formato de cruzamento para uma maior clareza. Já operar uma mutação em um indivíduo é simplesmente substituir alguma região deste indivíduo por um de seus vizinhos, aleatoriamente, desde que essa permaneça conexa. Por m será apresentada uma descrição do procedimento de classicação para o funcionamento do operador de seleção: No início de cada geração, construímos a lista da geração atual, que consiste no conjunto dos indivíduos da geração anterior que foram selecionados. Esta lista é completada com a adição do resultado dos cruzamentos e das mutações realizados para esta geração. A lista de geração seguinte, inicialmente vazia, armazena os indivíduos que sobreviverão para a geração seguinte. Será obtido o conjunto das soluções não-dominadas P 0 da lista da geração atual, que será transferida à lista da geração seguinte inicialmente vazia. O mesmo conjunto P 0 é removido igualmente da lista de geração atual. Um conjunto novo P 1 dos indivíduos restantes é obtido da mesma forma.

40 39 O procedimento é repetido até que a lista da geração nova contenha m indivíduos, em que m é o número de regiões do mapa original e corresponde ao tamanho da população que será constante ao longo das gerações. Após um número de etapas, o conjunto P l não será adicionado eventualmente por completo à lista de geração seguinte, porque isto faria com que a lista contivesse mais do que m indivíduos. Nesses casos, os indivíduos de P l serão transferidos segundo a crowding distance. Diante da proposição desta estratégia de implementação do algoritmo genético a ser utilizado, ca claro que são parâmetros fundamentais para sua forma, o tamanho máximo w das soluções propostas para a população inicial, a taxa de mutação a ser realizada pelo algoritmo e o número de gerações que serão realizadas pelo algoritmo.

41 40 5 Resultados Numéricos e Discussões Como já mencionado anteriormente, o principal alvo deste trabalho foi comparar diversas calibrações dos parâmetros básicos para o funcionamento do algoritmo genético. E ainda, vericar se tais calibrações provocam impactos signicativos na qualidade das soluções fornecidas. Os parâmetros de entrada do algoritmo que serão avaliados são: o tamanho máximo (quantidade de regiões) de uma possível solução gerada para a população inicial através da estratégia gulosa, que será denominado tam_cluster; a taxa de ocorrência de mutações para o operador genético de mutação, que será denominada por tax_mut e a quantidade de gerações em cada uma das execuções do algoritmo genético, que será denominada por num_gen. 5.1 Conguração do Experimento A tabela 1 apresenta os valores que foram utilizados em cada um dos parâmetros. Todas as combinações possíveis entre estes valores foram testadas. Tabela 1: Valores dos parâmetros de entrada do algoritmo genético. parâmetro valores tam_cluster tax_mut 0,05 0,10 0,20 0,30 num_gen As diferentes combinações entre os parâmetros geraram um conjunto de 64 diferentes congurações de parâmetros de entrada do algoritmo genético, que foram numeradas de 1 a 64 conforme a tabela 2. A partir desse momento as congurações serão denominadas de acordo com a numeração dessa tabela. O procedimento comparativo que será realizado entre essas congurações será descrito posteriormente através de medidas de desempenho associadas ao teste de hipóteses relacionado ao processo de detecção executado.

42 41 Tabela 2: Combinações entre os parâmetros de entrada do algoritmo genético. cong. tam_cluster tax_mut num_gen cong. tam_cluster tax_mut num_gen , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,30 60 Para cada uma das congurações o algoritmo foi executado para o benchmark de dados reais em um mapa composto por 245 condados em 10 estados e no Distrito de Columbia, no Nordeste dos EUA, com casos de câncer de mama no período de 1988 a 1992, para uma população de risco de mulheres em 1990 (mais detalhes sobre este benchmark de dados podem ser obtidos em (DUARTE et al., 2010)). Inicialmente, para cada conguração, os casos são distribuídos aleatoriamente ao longo do mapa com a probabilidade de cada caso ser alocado em uma das regiões do mapa sendo sua população relativa, ou seja, o cenário de validade da hipótese nula de não existência de cluster no mapa. O algoritmo é executado para alocações de casos distintas na validade da hipótese nula, com o intuito de construir uma distribuição empírica para a execução do teste de hipóteses.

43 42 Para avaliar a resposta do método para detecção e inferência de clusters, em cada uma das congurações, serão produzidos clusters articiais sobre o mapa, estes clusters serão denotados por clusters reais, enquanto os clusters encontrados pelo algoritmo serão denominados clusters detectados. Para cada cluster real se tem então uma possível construção de hipótese alternativa de existência de um cluster no mapa. Posteriormente, para cada uma das hipóteses alternativas, a mesma quantidade de casos da hipótese nula é distribuída aleatoriamente no mapa de acordo com uma distribuição de Poisson. Para esta distribuição o risco relativo para cada uma das regiões é ajustado de forma que fora do cluster real seja igual a um, enquanto nas regiões pertencentes ao cluster real o risco relativo seja idêntico e maior que um. A medida para este risco relativo é tal que se a posição exata do cluster real for conhecida, o Poder de detecção deve ser de 0,999 (KULLDORFF; TANGO; PARK, 2003). A gura 10 ilustra o mapa de estudo, bem como nove clusters articiais projetados para a construção deste estudo. Figura 10: Clusters articiais gerados no mapa do nordeste dos EUA. Dado um dos modelos da hipótese alternativa, execuções do algoritmo são realizadas, produzindo então conjuntos de soluções ecientes. Estes conjuntos de soluções ecientes são comparados com a distribuição empírica produzida sob a validade da hipótese nula para um nível de signicância pré-xado. Neste trabalho foi utilizado α = 0,05. O procedimento da hipótese nula e o procedimento da hipótese alternativa em cada cluster articial é executado para cada uma das congurações do algoritmo (conforme a tabela 1). Portanto cada conguração implica em execuções do algoritmo genético e o experimento completo para cada função de penalização ultrapassa 3,5 milhões de

44 43 execuções do algoritmo genético, ou seja, em todo o experimento foi executado um volume superior a 14 milhões de execuções do algoritmo genético. 5.2 Medidas de Desempenho para Comparação entre Congurações As comparações entre os resultados fornecidos pelas congurações não são construídas com base na comparação direta de uma solução proposta, mas sim através de uma estratégia mais global que considera o Poder de detecção do método, sua Sensibilidade e seu valor preditivo positivo (PPV). O Poder de detecção é estimado através da proporção de conjuntos de soluções ecientes com pelo menos uma solução signicativa estatisticamente. As medidas de Sensibilidade e de PPV (valor de predição positivo) igualmente servem para avaliar a qualidade do processo da detecção de clusters. Estas medidas são probabilidades condicionais denidas a partir dos seguintes eventos: V = Indivíduo escolhido ao acaso na população do mapa pertence a população do cluster verdadeiro; D = Indivíduo escolhido ao acaso na população do mapa pertence a população do cluster detectado; Sensibilidade = P (D V ) = P (D V ) P (V ) ( P op(cluster Detectado Cluster Real) ) = P op(mapa em estudo) ( P op(cluster Real) P op(mapa em estudo) ) (5.1) = P op(cluster Detectado Cluster Real) P op(cluster Real)

45 44 PPV = P (V D) = P (D V ) P (D) ( P op(cluster Detectado Cluster Real) ) = P op(mapa em estudo) ( P op(cluster Detectado) P op(mapa em estudo) ) (5.2) = P op(cluster Detectado Cluster Real) P op(cluster Detectado) Neste sentido, um método de detecção de clusters que apresente altas medidas para PPV detecta uma grande porção do cluster verdadeiro, enquanto um método de detecção de clusters que apresente altas medidas para Sensibilidade tem grande parte do cluster detectado pertencente ao cluster verdadeiro. Em outras palavras, para métodos de detecção de clusters, altas medidas para PPV signicam que a chance de subestimação no processo de detecção é reduzida, enquanto altas medidas de Sensibilidade signicam que a chance de superestimação no processo de detecção é reduzida. É importante vericar que considerando a prevalência para a doença em estudo, que é dada pela razão entre o número de casos observados e a população no mapa em estudo, a medida de PPV se altera. Um aumento na prevalência acarreta em aumento na medida de PPV, por outro lado a medida de Sensibilidade para o teste não é impactada por alterações na prevalência da doença em estudo. 5.3 Avaliações Numéricas As avaliações foram realizadas considerando as medidas de desempenho mencionadas anteriormente. Vale observar que não é de conhecimento imediato as distribuições associadas às variáveis aleatórias que representam essas medidas de desempenho, portanto qualquer análise estatística paramétrica poderia ser considerada um pouco leviana. Desta forma, foi realizada uma análise através de grácos box-plot comparando as medidas de desempenho em diversas situações.

46 Resultados de Utilização da Penalização por Compacidade Geométrica A gura 11 apresenta as medidas de Poder por cluster, agregando para cada cluster os resultados obtidos em cada uma das congurações. O interesse dessa comparação é vericar se existe alguma conguração que independentemente do cluster articial a ser detectado se mostra sistematicamente superior às demais, ou então sistematicamente inferior às demais congurações. LLR X Compacidade Poder para todas as configurações poder A B C D E F G H I cluster Figura 11: Gráco box-plot (LLR Compacidade Geométrica) das medidas de Poder por cluster dentre todas congurações. A análise da gura 11 deixa claro que existem congurações que se destacam positivamente e negativamente nessa análise, isto se deve pela presença de valores extremos superiores e inferiores. Em todos os casos a conguração 19 apresentou o maior Poder e a conguração 16 apresentou o segundo maior Poder. Já a conguração 18 apresentou o menor Poder em todos as situações e a conguração 33 apresentou o segundo menor Poder em 7 das 9 situações de estudo. Inicialmente é possível observar que as congurações com

47 46 um menor número de gerações apresentam um comportamento inferior. Já um aumento no tamanho máximo para um cluster na população inicial do algoritmo genético parece não ser determinante, anal a melhor e a pior conguração são cenários com tamanho máximo igual 10. As melhores congurações apresentam taxas de mutação inferiores às piores congurações. Supostamente isso se deve a uma aumento excessivo na variabilidade entre as soluções avaliadas gerado por taxas de mutação mais elevadas. A gura 12 apresenta as medidas de Sensibilidade por cluster, agregando para cada cluster os resultados obtidos em cada uma das congurações. LLR X Compacidade Sensibilidade para todas as configurações sensibilidade A B C D E F G H I cluster Figura 12: Gráco box-plot (LLR Compacidade Geométrica) das medidas de Sensibilidade por cluster dentre todas congurações. A análise da gura 12 ainda apresenta a existência de congurações que se destacam positivamente e negativamente em relação à sensibilidade, mas não existem valores extremos para todos os casos de estudo, ou seja, este efeito é menor se comparado ao cenário de avaliação da medida de Poder. Em 8 dos casos em análise, a conguração 16 apresentou a maior Sensibilidade e a conguração 30 apresentou o segundo maior valor de Sensibilidade

48 47 em 6 das situações analisadas. Já a conguração 18 apresentou a menor Sensibilidade em 5 dos cenários e nos outros 4 a pior conguração foi a 19. Quando a pior conguração foi a 18, a segunda pior foi a 19 e vice-versa, deixando claro que essas duas congurações são realmente as piores na avaliação da medida de Sensibilidade. É importante observar que a conguração 19 que aparece entre as piores em Sensibilidade se apresentou entre as melhores quando a avaliação foi em termos de Poder. A gura 13 apresenta as medidas de PPV por cluster, agregando para cada cluster os resultados obtidos em cada uma das congurações. LLR X Compacidade PPV para todas as configurações PPV A B C D E F G H I cluster Figura 13: Gráco box-plot (LLR Compacidade Geométrica) das medidas de PPV por cluster dentre todas congurações. A análise da gura 13 mostra a existência de congurações melhores e piores, porém de uma forma menos evidente, anal apenas um valor extremo é observado. Em 4 dos cenários em análise, a conguração 18 apresentou o maior valor de PPV e a conguração 52 apresentou o maior valor de PPV em outros 4 cenários. Já a conguração 30 apresentou o menor PPV em 5 das situações e nas outras 4 situações a pior conguração foi a 19.

49 48 É importante observar que a conguração 19 que já foi mencionada entre as piores em Sensibilidade novamente apresenta resultados não satisfatórios na avaliação da medida de PPV. Considerando que é previsível que algumas das congurações se comportem bem para alguma das medidas de desempenho e se comportem mal em outras medidas de desempenho, foi executada ainda uma análise considerando uma comparação entre as 64 congurações através da medida de desempenho que considera a soma das medidas de Poder, Sensibilidade e PPV. Para comparar as congurações, o efeito devido a análise de cada um dos clusters articiais foi agregado por conguração como pode ser visto na gura 14. A análise da gura 14 conrma um ligeiro destaque para a conguração 16 quando analisadas de forma simultânea as três medidas de desempenho para as 64 congurações e agrupando o efeito devido a cada um dos clusters articiais em avaliação. As congurações com o parâmetro associado ao tamanho do cluster calibrado para valores menores ( 10 e 12) apresentam valores elevados para a mediana, mas com valores extremos inferiores bastante signicativos. Apesar das congurações com tamanho do cluster calibrado para valores maiores (15 e 20) ainda apresentarem a presença de valores extremos inferiores, pode-se notar que o efeito de variabilidade na qualidade das soluções parece inferior. As alterações no parâmetro associado a taxa de mutação não parecem incluir um efeito signicativo, entretanto as conclusões anteriores detectam pequenos efeitos associados a este parâmetro. Já quando analisando o parâmetro associado ao número de gerações é possível vericar uma subida gradativa a medida que o valor desse parâmetro aumenta. Este resultado seria previsível, apesar de ser esperada a existência de uma faixa de valor para este parâmetro que leve a uma estabilização dos resultados fornecidos pelo algoritmo.

50 Figura 14: Gráco box-plot (LLR Compacidade Geométrica) das medidas da soma de Poder, Sensibilidade e PPV por conguração. 49

51 Resultados de Utilização da Penalização por Não-Conectividade A gura 15 apresenta as medidas de Poder por cluster, agregando para cada cluster os resultados obtidos em cada uma das congurações. LLR X Não Conectividade Poder para todas as configurações poder A B C D E F G H I cluster Figura 15: Gráco box-plot (LLR Não-Conectividade) das medidas de Poder por cluster dentre todas congurações. A análise da gura 15 demonstra um similaridade entre as congurações muito maior que a observada através da penalização por Compacidade Geométrica. Essa conclusão se deve à presença de somente um valor extremo superior e nenhum valor extremo inferior. Ainda assim, é possível identicar algumas congurações que se destacam positivamente e negativamente nessa análise. Em mais de 50% das situações a conguração 29 se apresentou entre as de maior Poder e a conguração 30 apresentou também valores bastante signicativos para a medida Poder. Já a conguração 52 foi a pior conguração em 7 dos 9 cenários e a conguração 20 apresentou valores de Poder entre os 3 piores em 4 situações. Um aumento no tamanho máximo para um cluster na população inicial do algoritmo genético aqui parece ser bastante relevante, anal as melhores congurações

52 51 utilizam tamanho máximo 20, já as piores utilizam tamanho máximo 10. A gura 16 apresenta as medidas de Sensibilidade por cluster, agregando para cada cluster os resultados obtidos em cada uma das congurações. LLR X Não Conectividade Sensibilidade para todas as configurações sensibilidade A B C D E F G H I cluster Figura 16: Gráco box-plot (LLR Não-Conectividade) das medidas de Sensibilidade por cluster dentre todas congurações. A análise da gura 16 mostra novamente uma quase ausência completa de valores extremos. Em 6 dos cenários em análise, as congurações 61, 62, 63 e 64 apresentaram a maior Sensibilidade e em todos estes cenários, dentre estas 4 congurações estão as 3 melhores. Já a conguração 4 apresentou uma das três menores medidas de Sensibilidade em 5 das situações, a conguração 1 apresentou a pior medida de Sensibilidade em 2 e esteve entre as três piores em 5 situações. Nota-se que trabalhando com a variável tamanho do cluster com valor baixo, associado a baixa taxa de mutação, ocorre uma piora sistemática para as medidas de Sensibilidade. As congurações 61, 62, 63 e 64 são justamente os casos de maior taxa de mutação e maior tamanho de cluster. A gura 17 apresenta as medidas de PPV por cluster, agregando para cada cluster os resultados obtidos em cada uma das congurações.

53 52 LLR X Não Conectividade PPV para todas as configurações PPV A B C D E F G H I cluster Figura 17: Gráco box-plot (LLR Não-Conectividade) das medidas de PPV por cluster dentre todas congurações. A análise da gura 17 mostra ausência completa de valores extremos. Em 3 dos cenários em análise, a conguração 52 apresentou o maior valor de PPV mostrando resultados signicativos como já havia mostrado utilizando a penalização por Compacidade Geométrica. A conguração 50 apresentou valores de PPV entre os três maiores em 4 situações. As congurações 14, 32 e 63 apresentaram o pior valor de PPV em 7 das 9 situações. Novamente considerando que é previsível que algumas das congurações se comportem bem para alguma das medidas de desempenho e se comportem mal em outras medidas de desempenho, foi executada a análise considerando a comparação entre as 64 congurações através da medida de desempenho que considera a soma das medidas de Poder, Sensibilidade e PPV como pode ser visto na gura 18.

54 Figura 18: Gráco box-plot (LLR Não-Conectividade) das medidas da soma de Poder, Sensibilidade e PPV por conguração. 53

PONDERADA DE GRAFOS. Spencer Barbosa da Silva 1, Anderson Ribeiro Duarte 1

PONDERADA DE GRAFOS. Spencer Barbosa da Silva 1, Anderson Ribeiro Duarte 1 Revista da Estatística da UFOP, Vol I, 011 - X Semana da Matemática e II Semana da Estatística, 010 ISSN 37-8111 PENALIZAÇÃO POR NÃO-CONECTIVIDADE PONDERADA DE GRAFOS Spencer Barbosa da Silva 1, Anderson

Leia mais

UTILIZAÇÃO DO PROCEDIMENTO INFERÊNCIA DATA-DRIVEN PARA A ESTATÍSTICA ESPACIAL SCAN EM CASOS DO DIABETES NO ESTADO DE MINAS GERAIS

UTILIZAÇÃO DO PROCEDIMENTO INFERÊNCIA DATA-DRIVEN PARA A ESTATÍSTICA ESPACIAL SCAN EM CASOS DO DIABETES NO ESTADO DE MINAS GERAIS Revista da Estatística da UFOP, Vol I, 2011 - XI Semana da Matemática e III Semana da Estatística, 2011 ISSN 2237-8111 UTILIZAÇÃO DO PROCEDIMENTO INFERÊNCIA DATA-DRIVEN PARA A ESTATÍSTICA ESPACIAL SCAN

Leia mais

Detecção de clusters irregulares através da Não Conectividade Ponderada de Grafos

Detecção de clusters irregulares através da Não Conectividade Ponderada de Grafos Spencer Barbosa da Silva Detecção de clusters irregulares através da Não Conectividade Ponderada de Grafos Dissertação de Mestrado apresentado ao Departamento de Estatística do Instituto de Ciências Exatas

Leia mais

Detecção de clusters irregulares para dados pontuais através da Não-conectividade Ponderada de Grafos

Detecção de clusters irregulares para dados pontuais através da Não-conectividade Ponderada de Grafos Angélica Ferreira Carvalho Detecção de clusters irregulares para dados pontuais através da Não-conectividade Ponderada de Grafos Dissertação de Mestrado apresentada ao Departamento de Estatística do Instituto

Leia mais

Inteligência Artificial. Algoritmos Genéticos. Aula I Introdução

Inteligência Artificial. Algoritmos Genéticos. Aula I Introdução Universidade Estadual do Oeste do Paraná Curso de Bacharelado em Ciência da Computação Inteligência Artificial Algoritmos Genéticos Aula I Introdução Roteiro Introdução Computação Evolutiva Algoritmos

Leia mais

3 Algoritmos Genéticos

3 Algoritmos Genéticos Técnicas de Inteligência Computacional 33 3 Algoritmos Genéticos Este capítulo resume os principais conceitos sobre o algoritmo evolucionário empregado nesta dissertação. É apresentada uma breve explicação

Leia mais

COMPACIDADE GEOMÉTRICA

COMPACIDADE GEOMÉTRICA Revista da Estatística UFOP, Vol III(2), 2014, ISSN 2237-8111 Edição especial: Aiiii 59 a Reunião Anual da Regional Brasileira da Sociedade Internacional de Biometria - RBRAS AJUSTE DA DISTRIBUIÇÃO BETA

Leia mais

3. Resolução de problemas por meio de busca

3. Resolução de problemas por meio de busca Inteligência Artificial - IBM1024 3. Resolução de problemas por meio de busca Prof. Renato Tinós Local: Depto. de Computação e Matemática (FFCLRP/USP) 1 Principais Tópicos 3. Resolução de problemas por

Leia mais

Algoritmos Genéticos. Princípio de Seleção Natural. Sub-áreas da Computação Evolutiva. Idéias básicas da CE. Computação Evolutiva

Algoritmos Genéticos. Princípio de Seleção Natural. Sub-áreas da Computação Evolutiva. Idéias básicas da CE. Computação Evolutiva Computação Evolutiva Algoritmos Genéticos A computação evolutiva (CE) é uma área da ciência da computação que abrange modelos computacionais inspirados na Teoria da Evolução das Espécies, essencialmente

Leia mais

ALGORITMO GENÉTICO COMO REPRESENTAÇÃO DAS MUTAÇÕES NA BIOLOGIA

ALGORITMO GENÉTICO COMO REPRESENTAÇÃO DAS MUTAÇÕES NA BIOLOGIA Patrocínio, MG, outubro de 2016 ENCONTRO DE PESQUISA & EXTENSÃO, 3., 2016, Patrocínio. Anais... Patrocínio: IFTM, 2016. ALGORITMO GENÉTICO COMO REPRESENTAÇÃO DAS MUTAÇÕES NA BIOLOGIA Igor Acassio Melo

Leia mais

4 Métodos Existentes. 4.1 Algoritmo Genético

4 Métodos Existentes. 4.1 Algoritmo Genético 61 4 Métodos Existentes A hibridização de diferentes métodos é em geral utilizada para resolver problemas de escalonamento, por fornecer empiricamente maior eficiência na busca de soluções. Ela pode ser

Leia mais

Um Estudo Empírico de Métodos Hiper-Heurísticos

Um Estudo Empírico de Métodos Hiper-Heurísticos Um Estudo Empírico de Métodos Hiper-Heurísticos Igor Ribeiro Sucupira (Aluno de Mestrado) Flávio Soares Corrêa da Silva (Orientador) Departamento de Ciência da Computação Instituto de Matemática e Estatística

Leia mais

Busca com informação e exploração. Capítulo 4 Russell & Norvig Seção 4.2 e 4.3

Busca com informação e exploração. Capítulo 4 Russell & Norvig Seção 4.2 e 4.3 Busca com informação e exploração Capítulo 4 Russell & Norvig Seção 4.2 e 4.3 1 Revisão da aula passada: Busca A * Idéia: evitar expandir caminhos que já são caros Função de avaliação f(n) = g(n) + h(n)

Leia mais

Um Algoritmo Enxame de Partículas Binário para Detecção de Clusters Irregulares

Um Algoritmo Enxame de Partículas Binário para Detecção de Clusters Irregulares Um Algoritmo Enxame de Partículas Binário para Detecção de Clusters Irregulares Gladston Moreira Departamento de Computação Universidade Federal de Ouro Preto Ouro Preto, Brasil 35400-000 Email: gladston@iceb.ufop.br

Leia mais

Detecção de Conglomerados Espaciais com Geometria Arbitrária

Detecção de Conglomerados Espaciais com Geometria Arbitrária Detecção de Conglomerados Espaciais com Geometria Arbitrária Marcelo A. Costa, Luciano R. Schrerrer, Renato M. Assunção Departamento de Estatística Universidade Federal de Minas Gerais (UFMG) Caixa Postal

Leia mais

Modelos Evolucionários e Tratamento de Incertezas

Modelos Evolucionários e Tratamento de Incertezas Ciência da Computação Modelos Evolucionários e Tratamento de Incertezas Aula 01 Computação Evolucionária Max Pereira Motivação Se há uma multiplicidade impressionante de algoritmos para solução de problemas,

Leia mais

Uma análise de desempenho dos métodos SCAN E BESAG & NEWELL na detecção de clusters espaciais

Uma análise de desempenho dos métodos SCAN E BESAG & NEWELL na detecção de clusters espaciais LESTE - Laboratório de Estatística Espacial, Departamento de Estatística, ICEx - UFMG Uma análise de desempenho dos métodos SCAN E BESAG & NEWELL na detecção de clusters espaciais Marcelo Aevedo Costa

Leia mais

Figura 3.1: Fluxograma do algoritmo da Programação Genética.

Figura 3.1: Fluxograma do algoritmo da Programação Genética. 3 Programação Genética O termo Programação Genética passou a ser utilizado em 1990 nos trabalhos publicados por Koza [30] e De Garis [31]. A definição de Koza para este termo passou a predominar após a

Leia mais

BCC204 - Teoria dos Grafos

BCC204 - Teoria dos Grafos BCC204 - Teoria dos Grafos Marco Antonio M. Carvalho (baseado nas notas de aula do prof. Haroldo Gambini Santos) Departamento de Computação Instituto de Ciências Exatas e Biológicas Universidade Federal

Leia mais

NOTAS DE AULA 1 METAHEURÍSTICA 13/10/2016

NOTAS DE AULA 1 METAHEURÍSTICA 13/10/2016 NOTAS DE AULA 1 METAHEURÍSTICA 13/10/2016 Metaheurística: São técnicas de soluções que gerenciam uma interação entre técnicas de busca local e as estratégias de nível superior para criar um processo de

Leia mais

Resumo. Como um agente busca de seqüência de ações para alcançar seus objetivos.

Resumo. Como um agente busca de seqüência de ações para alcançar seus objetivos. Resumo Inteligência Artificial Russel e Norvig Capítulos 3,4 e 5 Prof. MsC Ly Freitas UEG Resolução de problemas por meio de busca Como um agente busca de seqüência de ações para alcançar seus objetivos.

Leia mais

Algoritmos Genéticos. Pontos fracos dos métodos tradicionais. Características de alguns problemas. Tamanho do espaço de busca- Ex. caixeiro viajante:

Algoritmos Genéticos. Pontos fracos dos métodos tradicionais. Características de alguns problemas. Tamanho do espaço de busca- Ex. caixeiro viajante: Algoritmos Genéticos Prof. Luis Otavio Alvares INE/UFSC Características de alguns problemas Tamanho do espaço de busca- Ex. caixeiro viajante: 10 cidades: 181.000 soluções 20 cidades: 10.000.000.000.000

Leia mais

4 Modelos Propostos para Otimização de Planejamentos com Restrições de Precedência 4.1 Representação com Algoritmos Genéticos

4 Modelos Propostos para Otimização de Planejamentos com Restrições de Precedência 4.1 Representação com Algoritmos Genéticos 46 4 Modelos Propostos para Otimização de Planejamentos com Restrições de Precedência 4.1 Representação com Algoritmos Genéticos Para definir a representação de um modelo para problemas de planejamento

Leia mais

Pós-Graduação em Engenharia de Automação Industrial SISTEMAS INTELIGENTES PARA AUTOMAÇÃO

Pós-Graduação em Engenharia de Automação Industrial SISTEMAS INTELIGENTES PARA AUTOMAÇÃO Pós-Graduação em Engenharia de Automação Industrial SISTEMAS INTELIGENTES PARA AUTOMAÇÃO AULA 06 Algoritmos Genéticos Sumário Introdução Inteligência Artificial (IA) Algoritmos Genéticos Aplicações de

Leia mais

Cap. 2 Conceitos Básicos em Teoria dos Grafos

Cap. 2 Conceitos Básicos em Teoria dos Grafos Teoria dos Grafos e Aplicações 8 Cap. 2 Conceitos Básicos em Teoria dos Grafos 2.1 Grafo É uma noção simples, abstrata e intuitiva, usada para representar a idéia de alguma espécie de relação entre os

Leia mais

Problemas de otimização

Problemas de otimização Problemas de otimização Problemas de decisão: Existe uma solução satisfazendo certa propriedade? Resultado: sim ou não Problemas de otimização: Entre todas as soluções satisfazendo determinada propriedade,

Leia mais

Seleção de Atributos 1

Seleção de Atributos 1 Seleção de Atributos 1 Tópicos Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Seleção de atributos antes do aprendizado Benefícios Abordagens automáticas

Leia mais

Compressão Adaptativa de Arquivos HTML em Ambientes de Comunicação Sem Fio

Compressão Adaptativa de Arquivos HTML em Ambientes de Comunicação Sem Fio Universidade Federal de Ouro Preto - UFOP Instituto de Ciências Exatas e Biológicas - ICEB Departamento de Computação - DECOM Compressão Adaptativa de Arquivos HTML em Ambientes de Comunicação Sem Fio

Leia mais

INSTITUTO DE PÓS GRADUAÇÃO ICPG GESTÃO DA TECNOLOGIA DA INFORMAÇÃO

INSTITUTO DE PÓS GRADUAÇÃO ICPG GESTÃO DA TECNOLOGIA DA INFORMAÇÃO INSTITUTO DE PÓS GRADUAÇÃO ICPG GESTÃO DA TECNOLOGIA DA INFORMAÇÃO Prof. Msc. Saulo Popov Zambiasi (saulopz@gmail.com) Informação - ICPG - Criciuma - SC 1 Características Gerais, operadores, algoritmo.

Leia mais

CAP 254 CAP 254. Otimização Combinatória. Professor: Dr. L.A.N. Lorena. Assunto: Metaheurísticas Antonio Augusto Chaves

CAP 254 CAP 254. Otimização Combinatória. Professor: Dr. L.A.N. Lorena. Assunto: Metaheurísticas Antonio Augusto Chaves CAP 254 CAP 254 Otimização Combinatória Professor: Dr. L.A.N. Lorena Assunto: Metaheurísticas Antonio Augusto Chaves Conteúdo C Simulated Annealing (2//7). C2 Busca Tabu (22//7). C3 Colônia de Formigas

Leia mais

Cálculo diferencial de Funções de mais de uma variável

Cálculo diferencial de Funções de mais de uma variável MATERIAL DIDÁTICO Professora Sílvia Victer CÁLCULO 2 Cálculo diferencial de Funções de mais de uma variável 1. Funções de mais de uma variável 2. Limites de funções de mais de uma variável 3. Continuidade

Leia mais

Estratégias Evolutivas EEs. Prof. Juan Moisés Mauricio Villanueva

Estratégias Evolutivas EEs. Prof. Juan Moisés Mauricio Villanueva Estratégias Evolutivas EEs Prof. Juan Moisés Mauricio Villanueva jmauricio@cear.ufpb.br www.cear.ufpb.br/juan Estratégias Evolutivas Desenvolvidas por Rechenberg e Schwefel, e estendida por Herdy, Kursawe

Leia mais

Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens automáticas

Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens automáticas Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens automáticas Wrapper Filtros Muitos algoritmos de AM são projetados de modo a selecionar os

Leia mais

Abordagem Bayesiana adaptativa para Vigilância online de Clusters Espaciais. Resumo

Abordagem Bayesiana adaptativa para Vigilância online de Clusters Espaciais. Resumo Abordagem Bayesiana adaptativa para Vigilância online de Clusters Espaciais Max Sousa de Lima 1 Luiz Henrique Duczmal 2 Resumo Nesta trabalho, nós desenvolvemos um método Bayesiano para modelagem, detecção

Leia mais

Projeto de Escalonamento Alocação de médicos

Projeto de Escalonamento Alocação de médicos Projeto de Escalonamento Alocação de médicos Atol Fortin de Oliveira 15 de dezembro de 2009 1 Sumário 1 Introdução 3 2 O Problema 4 2.1 Especicação do problema................... 4 2.2 Resumo das variáveis

Leia mais

conglomerados espaciais

conglomerados espaciais Uma análise de desempenho dos métodos SCAN e BESAG&NEWELL na detecção de conglomerados espaciais MARCELO AZEVEDO COSTA RENATO MARTINS ASSUNÇÃO LESTE - Laboratório de Estatística Espacial, Departamento

Leia mais

Aula 9 Representação e Descrição. Profa. Fátima Nunes AULA 9 / 1. Profa. Fátima L. S. Nunes

Aula 9 Representação e Descrição. Profa. Fátima Nunes AULA 9 / 1. Profa. Fátima L. S. Nunes Fundamentos de Processamento Gráfico Aula 9 Representação e Descrição Profa. Fátima Nunes AULA 9 / 1 Reconhecimento de padrões AULA 9 / 2 Após a segmentação dar significado aos objetos extraídos da cena.

Leia mais

Distribuição de Frequências

Distribuição de Frequências Distribuição de Frequências Prof. Hemílio Fernandes Campos Coêlho Departamento de Estatística - Universidade Federal da Paraíba - UFPB Distribuição de Frequências É uma série estatística utilizada para

Leia mais

)XQGDPHQWRVGHSUREDELOLGDGHHHVWDWtVWLFD

)XQGDPHQWRVGHSUREDELOLGDGHHHVWDWtVWLFD )XQGDPHQWRVGHUREDELOLGDGHHHVWDWtVWLFD,QWURGXomR A história da estatística pode ser dividida em três fases. De acordo com PEANHA (00), a estatística inicialmente não mantinha nenhuma relação com a probabilidade,

Leia mais

Fundação Oswaldo Cruz Escola Nacional de Saúde Pública Departamento de Epidemiologia. Estatística espacial. Padrão Pontual

Fundação Oswaldo Cruz Escola Nacional de Saúde Pública Departamento de Epidemiologia. Estatística espacial. Padrão Pontual Fundação Oswaldo Cruz Escola Nacional de Saúde Pública Departamento de Epidemiologia Estatística espacial Padrão Pontual Padrão de Pontos A análise de padrão de pontos, é o tipo mais simples de análise

Leia mais

1. Computação Evolutiva

1. Computação Evolutiva Computação Bioinspirada - 5955010-1 1. Computação Evolutiva Prof. Renato Tinós Programa de Pós-Graduação Em Computação Aplicada Depto. de Computação e Matemática (FFCLRP/USP) 2 Computação Bioinspirada

Leia mais

Estruturas de Dados Grafos

Estruturas de Dados Grafos Estruturas de Dados Grafos Prof. Eduardo Alchieri (introdução) Grafo é um conjunto de pontos e linhas que conectam vários pontos Formalmente, um grafo G(V,A) é definido pelo par de conjuntos V e A, onde:

Leia mais

3 Extensões dos modelos matemáticos

3 Extensões dos modelos matemáticos 3 Extensões dos modelos matemáticos Os modelos matemáticos definidos por (2-1) (2-6) e (2-7) (2-13), propostos por Achuthan e Caccetta e apresentados no Capítulo 2, são reforçados neste trabalho através

Leia mais

Algoritmos Genéticos. Estéfane G. M. de Lacerda DCA/UFRN Outubro/2008

Algoritmos Genéticos. Estéfane G. M. de Lacerda DCA/UFRN Outubro/2008 Estéfane G. M. de Lacerda DCA/UFRN Outubro/2008 Introdução São técnicas de busca e otimização. É a metáfora da teoria da evolução das espécies iniciada pelo Fisiologista e Naturalista inglês Charles Darwin.

Leia mais

2 Conceitos básicos de topologia

2 Conceitos básicos de topologia 2 Conceitos básicos de topologia Neste Capítulo são introduzidos alguns conceitos básicos de topologia combinatória e da Teoria das Alças que formam a base teórica do presente trabalho. 2.1 Topologia combinatória

Leia mais

Um Estudo Empírico de Hiper-Heurísticas

Um Estudo Empírico de Hiper-Heurísticas Flávio Soares Corrêa da Silva (Orientador) Instituto de Matemática e Estatística Universidade de São Paulo Julho de 2007 Definição de Hiper-Heurística Para Que Servem Dois Exemplos Definição Uma hiper-heurística

Leia mais

Instituto Nacional de Pesquisas Espaciais - INPE. Divisão de Processamento de Imagens - DPI

Instituto Nacional de Pesquisas Espaciais - INPE. Divisão de Processamento de Imagens - DPI 1 Sumário 2 Introdução Distribuição de Pontos Caracterização de Distribuição de Pontos Estimador de Kernel Método do Vizinho Mais Próximo Função K Exemplos Práticos com o Sistema SPRING Introdução 3 Consideramos

Leia mais

Universidade Federal de Santa Maria Centro de Ciências Naturais e Exatas Departamento de Física Laboratório de Teoria da Matéria Condensada

Universidade Federal de Santa Maria Centro de Ciências Naturais e Exatas Departamento de Física Laboratório de Teoria da Matéria Condensada Universidade Federal de Santa Maria Centro de Ciências Naturais e Exatas Departamento de Física Laboratório de Teoria da Matéria Condensada Introdução à teoria de otimização Tiago de Souza Farias 23 de

Leia mais

Algoritmos Genéticos. Texto base: Stuart Russel e Peter Norving - Inteligência Artificial

Algoritmos Genéticos. Texto base: Stuart Russel e Peter Norving - Inteligência Artificial Algoritmos Genéticos Texto base: Stuart Russel e Peter Norving - Inteligência Artificial junho/2007 Algoritmo Genético Uma variante da busca em feixe estocástica Estado sucessor gerado pela combinação

Leia mais

DETECÇÃO E INFERÊNCIA DE CLUSTERS POR MEIO DO FLUXO DE PESSOAS

DETECÇÃO E INFERÊNCIA DE CLUSTERS POR MEIO DO FLUXO DE PESSOAS Universidade Federal De Minas Gerais Instituto de Ciências Exatas Departamento de Estatística Programa de Pós-Graduação em Estatística DETECÇÃO E INFERÊNCIA DE CLUSTERS POR MEIO DO FLUXO DE PESSOAS Mestrando:

Leia mais

Monte Carlo Method. Peter Frank Perroni. December 1, Monte Carlo Simulation

Monte Carlo Method. Peter Frank Perroni. December 1, Monte Carlo Simulation Monte Carlo Simulation December 1, 2015 Histórico Técnica muito antiga porém somente recentemente oficializado como método estatístico. Foi muito importante nas simulações da bomba desenvolvida no Projeto

Leia mais

Buscas Informadas ou Heurísticas - Parte III

Buscas Informadas ou Heurísticas - Parte III Buscas Informadas ou Heurísticas - Parte III Prof. Cedric Luiz de Carvalho Instituto de Informática - UFG Mestrado em Ciência da Computação / 2006 BUSCA SMA* (Simplified Memory-Bounded A*) BUSCA SMA* (Simplified

Leia mais

Árvore Geradora Mínima

Árvore Geradora Mínima GRAFOS ÁRVORE GERADORA MÍNIMA Prof. André Backes Árvore Geradora Mínima Definição Uma árvore geradora (do inglês, spanning tree) é um subgrafo que contenha todos os vértices do grafo original e um conjunto

Leia mais

Emerson Cotta Bodevan

Emerson Cotta Bodevan Emerson Cotta Bodevan DETECÇÃO SIMULTÂNEA DE MÚLTIPLAS REGIÕES DE ALTO E BAIXO RISCO EM MAPAS DE DADOS PONTUAIS DE CASO-CONTROLE Belo Horizonte/MG, Fevereiro 2012. d Universidade Federal de Minas Gerais

Leia mais

Indoor Localization without the Pain

Indoor Localization without the Pain Indoor Localization without the Pain Chintalapudi et al. (Microsoft Research India) Henrique Stagni 1 de junho de 2012 1 / 78 Objetivo Dado um ambiente fechado, construir um sistema que obtém a localização

Leia mais

Especialização em Engenharia de Processos e de Sistemas de Produção

Especialização em Engenharia de Processos e de Sistemas de Produção Especialização em Engenharia de Processos e de Sistemas de Produção Projetos de Experimento e Confiabilidade de Sistemas da Produção Prof. Claudio Luis C. Frankenberg 3ª parte Conforme foi apresentado

Leia mais

23/05/12. Consulta distribuída. Consulta distribuída. Objetivos do processamento de consultas distribuídas

23/05/12. Consulta distribuída. Consulta distribuída. Objetivos do processamento de consultas distribuídas Processamento de Consultas em Bancos de Dados Distribuídos Visão geral do processamento de consultas IN1128/IF694 Bancos de Dados Distribuídos e Móveis Ana Carolina Salgado acs@cin.ufpe.br Bernadette Farias

Leia mais

Computação Evolutiva Eduardo do Valle Simões Renato Tinós ICMC - USP

Computação Evolutiva Eduardo do Valle Simões Renato Tinós ICMC - USP Computação Evolutiva Eduardo do Valle Simões Renato Tinós ICMC - USP 1 Principais Tópicos Introdução Evolução Natural Algoritmos Genéticos Aplicações Conclusão 2 Introdução http://www.formula-um.com/ Como

Leia mais

2 Definição do Problema

2 Definição do Problema Definição do Problema. Formulação Matemática O problema do Fluxo Máximo entre todos os pares de nós surge no contexto de redes, estas representadas por grafos, e deriva-se do problema singular de fluxo

Leia mais

GA Conceitos Básicos. Capítulo 3 Prof. Ricardo Linden

GA Conceitos Básicos. Capítulo 3 Prof. Ricardo Linden GA Conceitos Básicos Capítulo 3 Prof. Ricardo Linden Algoritmos Evolucionários Algoritmos evolucionários usam modelos computacionais dos processos naturais de evolução como uma ferramenta para resolver

Leia mais

Computação Evolutiva. Computação Evolutiva. Principais Tópicos. Evolução natural. Introdução. Evolução natural

Computação Evolutiva. Computação Evolutiva. Principais Tópicos. Evolução natural. Introdução. Evolução natural Computação Evolutiva Eduardo do Valle Simões Renato Tinós ICMC - USP Principais Tópicos Introdução Evolução Natural Algoritmos Genéticos Aplicações Conclusão 1 2 Introdução Evolução natural http://www.formula-um.com/

Leia mais

Algoritmos Genéticos

Algoritmos Genéticos Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação Algoritmos Genéticos Aluno: Fabricio Aparecido Breve Prof.: Dr. André Ponce de Leon F. de Carvalho São Carlos São Paulo Maio

Leia mais

INF 1771 Inteligência Artificial

INF 1771 Inteligência Artificial INF 1771 Inteligência Artificial Aula 06 Algoritmos Genéticos Edirlei Soares de Lima Algoritmos Genéticos Método de busca local. Boa abordagem para lidar com espaços de busca muito

Leia mais

Um Algoritmo Genético para o Problema de Roteamento de Veículos com Janelas de Tempo

Um Algoritmo Genético para o Problema de Roteamento de Veículos com Janelas de Tempo Um Algoritmo Genético para o Problema de Roteamento de Veículos com Janelas de Tempo Francisco Henrique de Freitas Viana Pontifícia Universidade Católica do Rio de Janeiro PUC-Rio Departamento de Informática

Leia mais

CÁLCULO I. Aula n o 02: Funções. Denir função e conhecer os seus elementos; Listar as principais funções e seus grácos.

CÁLCULO I. Aula n o 02: Funções. Denir função e conhecer os seus elementos; Listar as principais funções e seus grácos. CÁLCULO I Prof. Marcos Diniz Prof. André Almeida Prof. Edilson Neri Júnior Aula n o 02: Funções. Objetivos da Aula Denir função e conhecer os seus elementos; Reconhecer o gráco de uma função; Listar as

Leia mais

Otimização a Múltiplos Objetivos de Dispositivos Eletromagnéticos pelo Método dos Elementos Finitos. Luiz Lebensztajn

Otimização a Múltiplos Objetivos de Dispositivos Eletromagnéticos pelo Método dos Elementos Finitos. Luiz Lebensztajn Otimização a Múltiplos Objetivos de Dispositivos Eletromagnéticos pelo Método dos Elementos Finitos Luiz Lebensztajn Otimização a Múltiplos Objetivos Quando há necessidade de Otimização a Múltiplos Objetivos?

Leia mais

Algoritmos Evolutivos Canônicos

Algoritmos Evolutivos Canônicos Algoritmos Evolutivos Canônicos Como representar os indivíduos Vetor de comprimento fixo com L características escolhidas previamente. Ex.: Definição

Leia mais

ESTUDO DOS PARAMETROS DE UM ALGORITMO GENÉTICO PARA POSTERIOR USO NA SOLUÇÃO DE PROBLEMAS DO TIPO JOB-SHOP

ESTUDO DOS PARAMETROS DE UM ALGORITMO GENÉTICO PARA POSTERIOR USO NA SOLUÇÃO DE PROBLEMAS DO TIPO JOB-SHOP ESTUDO DOS PARAMETROS DE UM ALGORITMO GENÉTICO PARA POSTERIOR USO NA SOLUÇÃO DE PROBLEMAS DO TIPO JOB-SHOP Gilson Rogério Batista, Gideon Villar Leandro Universidade Regional do Noroeste do Estado do Rio

Leia mais

Introdução aos Algoritmos Genéticos

Introdução aos Algoritmos Genéticos Introdução aos Algoritmos Genéticos Prof. Matheus Giovanni Pires EXA 868 Inteligência Artificial Não-Simbólica B Universidade Estadual de Feira de Santana 2 Algoritmos Genéticos: Introdução Introduzidos

Leia mais

Exemplo de Aplicação de Algoritmos Genéticos. Prof. Juan Moisés Mauricio Villanueva cear.ufpb.br/juan

Exemplo de Aplicação de Algoritmos Genéticos. Prof. Juan Moisés Mauricio Villanueva cear.ufpb.br/juan Exemplo de Aplicação de Algoritmos Genéticos Prof. Juan Moisés Mauricio Villanueva jmauricio@cear.ufpb.br cear.ufpb.br/juan Estrutura do Algoritmo Genético Algoritmo genético Inicio t = 0 inicializar P(t)

Leia mais

Otimização Combinatória - Parte 4

Otimização Combinatória - Parte 4 Graduação em Matemática Industrial Otimização Combinatória - Parte 4 Prof. Thiago Alves de Queiroz Departamento de Matemática - CAC/UFG 2/2014 Thiago Queiroz (DM) Parte 4 2/2014 1 / 33 Complexidade Computacional

Leia mais

Um Algoritmo Genético com Aprendizado por Reforço Simples aplicado ao problema do Mundo de Grid

Um Algoritmo Genético com Aprendizado por Reforço Simples aplicado ao problema do Mundo de Grid 1 Um Algoritmo Genético com Aprendizado por Reforço Simples aplicado ao problema do Mundo de Grid Luciana Conceição Dias Campos Resumo Este trabalho consiste da aplicação de um algoritmo genético ao método

Leia mais

IMPLEMENTAÇÃO DE UM ALGORITMO GENÉTICO PARA DETERMINAÇÃO DO PONTO DE MÁXIMO E/OU MÍNIMO DA FUNÇÃO DO 2 e 3 GRAU

IMPLEMENTAÇÃO DE UM ALGORITMO GENÉTICO PARA DETERMINAÇÃO DO PONTO DE MÁXIMO E/OU MÍNIMO DA FUNÇÃO DO 2 e 3 GRAU IMPLEMENTAÇÃO DE UM ALGORITMO GENÉTICO PARA DETERMINAÇÃO DO PONTO DE MÁXIMO E/OU MÍNIMO DA FUNÇÃO DO 2 e 3 GRAU Ana Cláudia M. SILVEIRA 1 ; Renato Machado PEREIRA 2 RESUMO A história da equação de segundo

Leia mais

1. Computação Evolutiva

1. Computação Evolutiva Computação Bioinspirada - 5955010-1 1. Computação Evolutiva Prof. Renato Tinós Depto. de Computação e Matemática (FFCLRP/USP) 1 1.7. Outras Metaheurísticas Populacionais 1.7.1. Metaheurísticas Populacionais

Leia mais

Fundação Oswaldo Cruz Escola Nacional de Saúde Pública Departamento de Epidemiologia. Estatística espacial. Áreas

Fundação Oswaldo Cruz Escola Nacional de Saúde Pública Departamento de Epidemiologia. Estatística espacial. Áreas Fundação Oswaldo Cruz Escola Nacional de Saúde Pública Departamento de Epidemiologia Estatística espacial Áreas Áreas Na análise de áreas o atributo estudado é em geral resultando de uma contagem ou um

Leia mais

Modelos Bayesianos. Ernesto F. L. Amaral Magna M. Inácio

Modelos Bayesianos. Ernesto F. L. Amaral Magna M. Inácio 1 Modelos Bayesianos Ernesto F. L. Amaral Magna M. Inácio 09 de dezembro de 2010 Tópicos Especiais em Teoria e Análise Política: Problema de Desenho e Análise Empírica (DCP 859B4) Objetivos 2 Apresentar

Leia mais

5 VNS com Filtro e Reconexão por Caminhos

5 VNS com Filtro e Reconexão por Caminhos 5 VNS com Filtro e Reconexão por Caminhos A metaheurística VNS (Variable Neighborhood Search) foi proposta por Mladenović e Hansen [40] e possui como idéia básica a mudança de vizinhanças realizada da

Leia mais

1. Computação Evolutiva

1. Computação Evolutiva Computação Bioinspirada - 5955010-1 1. Computação Evolutiva Prof. Renato Tinós Programa de Pós-Graduação Em Computação Aplicada Depto. de Computação e Matemática (FFCLRP/USP) 2 Computação Bioinspirada

Leia mais

3 Metaeurísticas e Resolvedores MIP

3 Metaeurísticas e Resolvedores MIP 3 Metaeurísticas e Resolvedores MIP A combinação entre metaeurísticas e resolvedores MIP é uma estratégia relativamente recente, tendo seus primeiros estudos realizados ao longo da última década. O survey

Leia mais

Aula 2: Resumo de Dados

Aula 2: Resumo de Dados Aula 2: Resumo de Dados Professor: José Luiz Padilha da Silva email: jlpadilha@ufpr.br Departamento de Estatística Universidade Federal do Paraná Curitiba, 2018 José Luiz Padilha da Silva (UFPR) ce003

Leia mais

Algoritmos Genéticos

Algoritmos Genéticos Universidade Federal do Paraná (UFPR) Bacharelado em Informática Biomédica Algoritmos Genéticos David Menotti www.inf.ufpr.br/menotti/ci171-182 Hoje Algoritmos Genéticos 2 Objetivos Introduzir os principais

Leia mais

MAPEAMENTO DE SÉRIES FINANCEIRAS EM REDES COMPLEXAS

MAPEAMENTO DE SÉRIES FINANCEIRAS EM REDES COMPLEXAS MAPEAMENTO DE SÉRIES FINANCEIRAS EM REDES COMPLEXAS Amanda Leite de Camargo Marcio Eisencraft Universidade Federal do ABC Universidade de São Paulo 27 de outubro de 2015 1 / 31 Sumário 1 Introdução 2 Redes

Leia mais

Introdução 20. Figura 1.1 Interseção entre malhas de superfícies [8]. Figura 1.2 Caso patológico de interseção de superfícies [6].

Introdução 20. Figura 1.1 Interseção entre malhas de superfícies [8]. Figura 1.2 Caso patológico de interseção de superfícies [6]. 1 Introdução No contexto da modelagem geométrica para elementos finitos, a malha de elementos finitos é definida a partir da descrição geométrica do domínio do problema que está sendo estudado. Sendo assim,

Leia mais

Algoritmos Randomizados: Geometria Computacional

Algoritmos Randomizados: Geometria Computacional Algoritmos Randomizados: Geometria Computacional Celina Figueiredo Guilherme Fonseca Manoel Lemos Vinicius de Sá 26º Colóquio Brasileiro de Matemática IMPA Rio de Janeiro Brasil 2007 Resumo Introdução

Leia mais

Occupancy grid based graph-slam using the distance transform, SURF features and SGD

Occupancy grid based graph-slam using the distance transform, SURF features and SGD Occupancy grid based graph-slam using the distance transform, SURF features and SGD Autores: Arturo Gil, Miguel Juliá, Óscar Reinoso Artur Segal Kaim Agenda Introdução Arquitetura Resultados Trabalho futuro

Leia mais

Segmentação local. geralmente baseados em análise de descontinuidade ou similaridade de valores digitais.

Segmentação local. geralmente baseados em análise de descontinuidade ou similaridade de valores digitais. Segmentação Segmentação local 2 Segmentação local geralmente baseados em análise de descontinuidade ou similaridade de valores digitais. descontinuidade : a abordagem é dividir a imagem baseando-se em

Leia mais

AULA 02 Distribuição de Probabilidade Normal

AULA 02 Distribuição de Probabilidade Normal 1 AULA 02 Distribuição de Probabilidade Normal Ernesto F. L. Amaral 20 de agosto de 2012 Faculdade de Filosofia e Ciências Humanas (FAFICH) Universidade Federal de Minas Gerais (UFMG) Fonte: Triola, Mario

Leia mais

UMA INTRODUÇÃO AOS ALGORITMOS GENETICOS

UMA INTRODUÇÃO AOS ALGORITMOS GENETICOS UMA INTRODUÇÃO AOS ALGORITMOS GENETICOS Uma visão geral dos GAs Um algoritmo genético é uma classe de algoritmo de busca. O algoritmo procura uma solução dentro de um espaço para um problema de otimização.

Leia mais

Algoritmo Genético. Inteligência Artificial. Professor: Rosalvo Ferreira de Oliveira Neto

Algoritmo Genético. Inteligência Artificial. Professor: Rosalvo Ferreira de Oliveira Neto Algoritmo Genético Inteligência Artificial Professor: Rosalvo Ferreira de Oliveira Neto Estrutura 1. Introdução 2. Conceitos Básicos 3. Aplicações 4. Algoritmo 5. Exemplo Introdução São técnicas de busca

Leia mais

3 Algoritmos Genéticos

3 Algoritmos Genéticos Algoritmos Genéticos Algoritmos Genéticos (AGs) constituem um mecanismo de busca adaptativa que se baseia no princípio Darwiniano de seleção natural e reprodução genética [101]. AGs são tipicamente empregados

Leia mais

Estudo da localização de maternidades em Sergipe através de simulação Monte Carlo

Estudo da localização de maternidades em Sergipe através de simulação Monte Carlo Estudo da localização de maternidades em Sergipe através de simulação Monte Carlo João Batista dos Santos-Filho 1, Tatiana Santos de Araujo Batista 2, José Carlos Rodrigues Oliveira 3,Maria Letícia da

Leia mais

Aprendizado Evolutivo: Introdução aos Algoritmos Genéticos

Aprendizado Evolutivo: Introdução aos Algoritmos Genéticos Aprendizado Evolutivo: Introdução aos Algoritmos Genéticos SCC-230 Inteligência Artificial Thiago A. S. Pardo Solange O. Rezende 1 Computação Evolutiva (CE) Trata de sistemas para a resolução de problemas

Leia mais

Otimização por Enxame de Partículas (PSO) e Otimização por Colônias de Formigas (ASO) aplicadas ao Problema do Caixeiro Viajante (TSP)

Otimização por Enxame de Partículas (PSO) e Otimização por Colônias de Formigas (ASO) aplicadas ao Problema do Caixeiro Viajante (TSP) Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação Otimização por Enxame de Partículas (PSO) e Otimização por Colônias de Formigas (ASO) aplicadas ao Problema do Caixeiro Viajante

Leia mais

Problema do Caminho Mínimo

Problema do Caminho Mínimo Departamento de Engenharia de Produção UFPR 63 Problema do Caminho Mínimo O problema do caminho mínimo ou caminho mais curto, shortest path problem, consiste em encontrar o melhor caminho entre dois nós.

Leia mais

Preenchimento de Polígonos

Preenchimento de Polígonos Preenchimento de Polígonos SCC0250 - Computação Gráca Prof. Fernando V. Paulovich http://www.icmc.usp.br/~paulovic paulovic@icmc.usp.br Instituto de Ciências Matemáticas e de Computação (ICMC) Universidade

Leia mais

Espaço amostral Ω: Conjunto enumerável de todos os possíveis resultados de um experimento aleatório. um evento elementar. E = E[X j ] X j.

Espaço amostral Ω: Conjunto enumerável de todos os possíveis resultados de um experimento aleatório. um evento elementar. E = E[X j ] X j. Universidade Tecnológica Federal do Paraná Professor Murilo V G da Silva Notas de aula Algoritmos Avançados I (Aula 04 Conteúdos da aula: [CLR09: cap 7 e 9][MIE05 4, 5] Vamos estudar nesta aula três algoritmos

Leia mais

Inteligência Artificial

Inteligência Artificial Inteligência Artificial Aula 6 Algoritmos Genéticos M.e Guylerme Velasco Roteiro Introdução Otimização Algoritmos Genéticos Representação Seleção Operadores Geneticos Aplicação Caixeiro Viajante Introdução

Leia mais

Pesquisa Operacional Aplicada à Mineração

Pesquisa Operacional Aplicada à Mineração Pesquisa Operacional Aplicada à Mineração Módulo de Otimização Parte II-b Prof. Marcone J. F. Souza Prof. Túlio A. M. Toffolo marcone.freitas@yahoo.com.br tulio@toffolo.com.br Departamento de Computação

Leia mais

Análise de Conglomerados Espaciais Via Árvore Geradora Mínim

Análise de Conglomerados Espaciais Via Árvore Geradora Mínim Revista Brasileira de Estatística(2002) Análise de Conglomerados Espaciais Via Árvore Geradora Mínima ABRIL/2010 SUMÁRIO Introdução Conglomerados Espaciais O Método da Árvore Geradora Mínima Algorítimo

Leia mais