Alinhamento múltiplo de sequências utilizando otimização dialética

Documentos relacionados
Uma abordagem para alinhamento múltiplo de sequências de DNA usando Algoritmos Genéticos e número variável de lacunas

Principais algoritmos de alinhamento de sequências genéticas. Alexandre dos Santos Cristino

TITULO: Implementação do alinhamento de proteínas em GPU utilizando OpenCL PROPOSTA DE TRABALHO DE GRADUAÇÃO

Inteligência Artificial. Algoritmos Genéticos. Aula I Introdução

Tópicos Especiais em Inteligência Artificial COS746. Vítor Santos Costa COPPE/Sistemas Universidade Federal do Rio de Janeiro

Uma Abordagem de Alinhamento Múltiplo de Sequências Utilizando Evolução Diferencial

Métodos de alinhamento de sequências biológicas. Marcelo Falsarella Carazzolle

Alinhamento de Sequências e Genômica Comparativa

3. Resolução de problemas por meio de busca

Algoritmos Genéticos e Evolucionários

Tópicos Especiais em Inteligência Artificial COS746. Vítor Santos Costa COPPE/Sistemas Universidade Federal do Rio de Janeiro

Mendeley. Maio de 2017.

Alinhamentos de Múltiplas Seqüências. Rogério T. Brito Orientador: José A. R. Soares

CAP 254 CAP 254. Otimização Combinatória. Professor: Dr. L.A.N. Lorena. Assunto: Metaheurísticas Antonio Augusto Chaves

5 Algoritmos Implementados

Algoritmos Genéticos

Estrutura comum dos AEs

Otimização com Algoritmos Evolutivos

IF-705 Automação Inteligente Algoritmos Evolucionários

Um Algoritmo Genético com Aprendizado por Reforço Simples aplicado ao problema do Mundo de Grid

DETERMINAÇÃO DE FUNÇÕES DE TRANSFERÊNCIA DE PROCESSOS QUÍMICOS ATRAVÉS DO MÉTODO DE EVOLUÇÃO DIFERENCIAL UTILIZANDO O SCILAB

Algoritmos Genéticos. Princípio de Seleção Natural. Sub-áreas da Computação Evolutiva. Idéias básicas da CE. Computação Evolutiva

Alinhamento de seqüências

TÍTULO: ANÁLISE DA SEMELHANÇA ESTRUTURAL ENTRE PROTEÍNAS ATRAVÉS DE MÉTODOS MATEMÁTICOS

Modelos Evolucionários e Tratamento de Incertezas

1. Computação Evolutiva

6 Estudos de Casos Porta Lógica OU de 4 Entradas

3 Algoritmos Genéticos

3 Aprendizado por reforço

From Sound Synthesis to Music Generation Using Biological Principals

4 Implementação Computacional

Fundamentos de Inteligência Artificial [5COP099]

1. Computação Evolutiva

Algoritmos Genéticos. Texto base: Stuart Russel e Peter Norving - Inteligência Artificial

Comunicação Científica I

Problemas de otimização

1. Computação Evolutiva

Computação Evolucionária

alinhamento global-alinhamento múltiplo de seqüências

Não esqueça de avaliar o módulo!

Algoritmos Genéticos. Pontos fracos dos métodos tradicionais. Características de alguns problemas. Tamanho do espaço de busca- Ex. caixeiro viajante:

5 Estudo de Caso e Resultados

SEMINÁRIO DOS ARTIGOS:

Computação Evolutiva Eduardo do Valle Simões Renato Tinós ICMC - USP

Descritores de Imagens

Computação Evolutiva. Computação Evolutiva. Principais Tópicos. Evolução natural. Introdução. Evolução natural

Um Algoritmo Genético para o Problema de Roteamento de Veículos com Janelas de Tempo

Transcritômica. João Carlos Setubal IQ/USP outubro de 2013

SISTEMÁTICA FILOGENÉTICA. Aula 6: inferência filogenética Parcimônia

Protein Homology detection by HMM-comparation.

Uma Análise de Desempenho de Gráficos de Controle Multivariados. Rodrigo Luiz P. Lara 1, José Ivo Ribeiro Júnior 2, Rafael L. R.

ESTIMAÇÃO DE PARÂMETROS DE SISTEMAS NÃO LINEARES UTILIZANDO ALGORITMOS GENÉTICOS

3 Extração de Regras Simbólicas a partir de Máquinas de Vetores Suporte 3.1 Introdução

UMA PROPOSTA PARA DETERMINAR A INFLUÊNCIA DOS DADOS DE POSICIONAMENTO DOS TRENS DE POUSO NO ALINHAMENTO DIRECIONAL DE UMA AERONAVE GILSON S.

5 Agregação das Reservas das Entidades

ALGORITMO GENÉTICO COMO REPRESENTAÇÃO DAS MUTAÇÕES NA BIOLOGIA

João Paulo de Freitas Araujo. Algoritmos para acelerar a computação de Árvores de corte de Gomory e Hu. Dissertação de Mestrado

Modelação Molecular no Desenho de Fármacos 2018/2019

Unidade de Matemática e Tecnologia, Universidade Federal de Goiás Regional Catalão

INF 1771 Inteligência Artificial

Algoritmos Evolutivos para Otimização

Métodos de pesquisa e Optimização

Um Estudo Empírico de Métodos Hiper-Heurísticos

Reconhecimento Ótico de Caracteres em Placas Veiculares

Aprendizado de Máquina. Combinando Classificadores

6 Aplicação do Modelo de Geração de Cenários

Análise de significância de. alinhamentos

Programa de Pós-Graduação em Modelagem e Otimização, Regional Catalão / UFG

PAULO EDUARDO BRANDÃO, PhD DEPARTAMENTO DE MEDICINA VETERINÁRIA PREVENTIVA E SAÚDE ANIMAL FACULDADE DE MEDICINA VETERINÁRIA E ZOOTECNIA UNIVERSIDADE

A matemática e o genoma. Resumo

Computação Bioinspirada PROF. PAULO SALGADO

Algoritmos Evolutivos Canônicos

Avaliando Hipóteses. George Darmiton da Cunha Cavalcanti Tsang Ing Ren CIn/UFPE

ALGORITMOS GENÉTICOS. Adair Santa Catarina Curso de Ciência da Computação Unioeste Campus de Cascavel PR

4 Métodos Existentes. 4.1 Algoritmo Genético

Algoritmo Evolutivo para o Problema de Corte de Estoque Unidimensional com Redução do Número de Padrões de Corte

FORECASTING OF EUCALYPTUS WOOD PRICES FOR CELLULOSE AND SAWMILL USING RADIAL BASIS FUNCTION NEURAL NETWORK AND CLUSTERING METHOD

RODRIGO GOMES DE SOUZA ALINHAMENTO MÚLTIPLO DE SEQUÊNCIAS UTILIZANDO OTIMIZAÇÃO DIALÉTICA

UMA ABORDAGEM DE ALINHAMENTO MÚLTIPLO DE SEQUÊNCIAS UTILIZANDO EVOLUÇÃO DIFERENCIAL

ESTUDO COMPARATIVO DOS MÉTODOS DE APTIDÃO PARA PROBLEMAS COM MÚLTIPLOS OBJETIVOS

Otimização por Colônia de Formigas (ACO)

Inteligência Artificial

Estratégias Evolutivas EEs. Prof. Juan Moisés Mauricio Villanueva

RECONHECIMENTO AUTOMÁTICO DE PADRÕES MUSICAIS UTILIZANDO OPERADORES MORFOLÓGICOS E PROGRAMAÇÃO GENÉTICA.

Alinhamentos de sequências e Busca de Similaridade

Estrutura comum dos AEs Seleção

Classificação Hierárquica Multirrótulo Utilizando Redes Neurais Artificiais

3 Algoritmos Genéticos

Elisa Boari de Lima Orientador: Thiago de Souza Rodrigues

3 Métodos de Otimização

Otimização por Enxame de Partículas (PSO) e Otimização por Colônias de Formigas (ASO) aplicadas ao Problema do Caixeiro Viajante (TSP)

PSO Particle Swarm Optimization ou Otimização por enxame de partículas Introdução Inspiração Funcionamento Parametrização

Otimização a Múltiplos Objetivos de Dispositivos Eletromagnéticos pelo Método dos Elementos Finitos. Luiz Lebensztajn

Alinhamento de sequências

Uso do Perceptron como Modelo Substituto na Otimização Multiobjetivo com Algoritmo Genético

INSTITUTO DE PÓS GRADUAÇÃO ICPG GESTÃO DA TECNOLOGIA DA INFORMAÇÃO

IN Redes Neurais

EXERCÍCIOS DE MATEMÁTICA COMPUTACIONAL: PRIMEIRO BIMESTRE: EDGARD JAMHOUR. QUESTÃO 1: Indique as afirmativas verdadeiras.

ALINHAMENTO DE SEQUÊNCIAS

Transcrição:

Alinhamento múltiplo de sequências utilizando otimização dialética Rodrigo G. de Souza 1, Antônio V. da Silva Júnior 1, Ricardo Yara 1, and Wellington P. dos Santos 1 1 Departamento de Engenharia Biomédica, Universidade Federal de Pernambuco, Brasil Email: wellington.santos@ufpe.br Abstract Multiple Sequence Alignment (MSA) of biological sequences like DNA and proteins is one of the most important problems in Bioinformatics, fundamental for the construction of phylogenetic trees, which are useful to stablish evolutionary relationships among individuals and species. From the use of MSA methods, phylogenetic analysis could be conducted in order to reveal shared evolutionary origins. However, it is a very complex computational problem. Dialectical optimization is an evolutionary method designed to solve optimization and search problems using a social-evolutive meta-heuristic, based on the interaction of poles in a generation of solution candidates. Poles interact with each other along historical and crisis stages, in such a way that population sizes vary from a historical phase to another. Herein this work we propose a dialectical approach to solve iteratively MSA problems, considering these problems as optimization tasks. We also propose an objetive function based on some biological and computational constraints, in order to obtain feasible and biologically significant alignments. Results were compared with Clustal, a state-of-the-art MSA method, and proved to be reasonably useful, once alignement performances were comparable and, in some cases, our approach reaches superior scores. Our proposed method is also able to improve Clustal results using them as seeds for the dialectical optimization method. Keywords multiple sequence alignment, bioinformatics, evolutionary computing, dialectical optimization. I. INTRODUÇÃO O alinhamento múltiplo de sequências biológicas (Multiple Sequence Alignment, MSA) é um procedimento computacional essencial à bioinformática. Isso se dá principalmente pela sua capacidade de obter informações biológicas relevantes, indispensáveis em diversas aplicações nas áreas de biologia molecular [1] [3]. A extração de informações de relevância biológica exige a utilização de algoritmos capazes de manipular o grande volume de dados existente com desejável precisão. Algoritmos baseados no método progressivo [4] [6] constituem a classe de algoritmos de alinhamento mais utilizada e seu desempenho é bastante satisfatório para lidar com volumes de dados maiores devido à sua heurística direta. Entretanto, métodos progressivos apresentam normalmente uma baixa precisão quando aplicados a sequências de baixa similaridade [1], [2]. Devido à natureza determinística do método progressivo, ferramentas de MSA que fazem uso deste método possuem também um problema relacionado com a impossibilidade de obtenção de mais de uma solução ótima, caso existam. Métodos iterativos são baseados na ideia de que a solução para um dado problema pode ser computada a partir de modificações realizadas em soluções sub-ótimas já conhecidas onde cada ocorrência de modificação é uma iteração [1]. Algoritmos baseados em métodos iterativos estocásticos diferemse completamente daqueles baseados em métodos progressivos pelo fato de apresentarem a capacidade de encontrar diferentes soluções ou ótimas ou sub-ótimas, caso existam, bastando apenas que sejam executados mais de uma vez. Este trabalho segue essa ideia ao aplicar o Método Dialético de Otimização (Optimization Dialectical Method, ODM) como método iterativo de otimização para o problema de MSA. A proposta deste trabalho segue duas estratégias: na primeira o ODM é aplicado a soluções encontradas pelo ClustalW, enquanto que na segunda o ODM é utilizado na busca por alinhamentos ótimos de forma independente. Este trabalho está organizado como segue: A seção II apresenta o método dialético de otimização e sua adaptação para resolução do problema de alinhamento múltiplo de sequências de caracteres; a seção II apresenta ainda comentários a cerca da modelagem das sequências, planejamento dos experimentos, e uma nova proposta de função objetivo que simplifica um problema multiobjetivo, para resolução do problema de alinhamento múltiplo como problema de otimização; na seção III são apresentados os resultados, enquanto na seção IV são tecidos comentários dos resultados e conclusões. II. MATERIAIS E MÉTODOS A. Método dialético de otimização O Método Dialético de Otimização (Optimization Dialectical Method, ODM) é uma classe de algoritmos evolucionários baseada em uma interpretação específica da dialética materialista para solução de problemas de busca e otimização [7] [10]. O ODM pode ser adaptado para resolver problemas de otimização e busca considerando uma abordagem onde um candidato à solução é representado por um polo, unidade fundamental do sistema dialético. Assim, a união dialética de diversos polos corresponde ao universo de candidatos à solução ao problema. A cada polo é associado um valor chamado força social, que corresponde ao valor da função objetivo quando aplicada ao polo em questão. Os polos sofrem modificações ao longo de vários períodos históricos devido a influências exercidas pelo polo de maior força social no período histórico atual, chamado hegemonia contemporânea, e pelo polo que obteve a maior força social ao longo de todos os períodos históricos transcorridos até o momento, chamado de hegemonia histórica. No sistema dialético tal modificação também é influenciada pela contradição, definida como um tipo de função distância existente entre cada polo

(3) a atribuição de uma pequena perturbação aleatória em todos os polos sobreviventes à crise. Após o momento de crise, visando garantir um elevado nível de diversidade para o próximo período histórico, polos antítese (opostos) são gerados para cada polo sobrevivente ao processo de crise [7]. B. Modelagem Neste trabalho, é sugerida uma modelagem dos candidatos à solução orientada à posição das lacunas (gaps) nas sequências. Neste modelo, polos são formados por vetores de números inteiros que correspondem às posições em cada sequência onde estão posicionadas as lacunas. A repetição de valores de posição para as diversas lacunas de uma mesma sequência é permitida e isto proporciona que o processo evolucionário defina a quantidade de lacunas que de fato são inseridas em cada sequência. O conjunto de sequências a serem alinhadas não é incluído na representação de cada candidato à solução pois trata-se de uma informação redundante uma vez que o conjunto de sequências é imutável para qualquer alinhamento construído. Assim, a definição formal de um alinhamento múltiplo de sequências neste trabalho corresponde a um par formado por uma matriz M N,λ na qual cada uma das N linhas corresponde a uma sequência de comprimento λ, e por um polo w, que corresponde às posições das lacunas em cada uma das N sequências do alinhamento. Assim, o i-ésimo candidato à solução corresponde a: w i = (w i,0,0,..., w i,0,l, w i,1,0, w i,n,l ) T, (1) com 1 w i,n,m (λ + L) onde w i,n,m corresponde à posição da m-ésima lacuna inserida na n-ésima sequência com m = 1, 2,..., L e n = 1, 2,..., N, de modo que L corresponde ao total de lacunas inseridas em cada sequência; λ é o comprimento original de cada sequência (sem a adição de lacunas) e T = N L, a dimensionalidade de w i, equivalente ao total de lacunas usadas no alinhamento. Figure 1. Fluxograma do algoritmo de otimização dialética. existente na população e os polos hegemônicos [7] [13]. A Figura 1 apresenta um fluxograma que descreve o algoritmo de otimização dialética. Ao final desse processo onde ocorrem sucessivas modificações, chamado de período histórico, tem início o momento de crise revolucionária, no qual ocorrem (1) a fusão de polos em baixa contradição em um único polo, (2) a criação de novos polos síntese (um tipo de polo intermediário) para cada par de polos em alta contradição existente na população e C. Escolha do número de lacunas a ser utilizado Na modelagem adotada, é necessária a definição de um parâmetro: a quantidade de posições em cada sequência onde serão inseridas lacunas. Para um dado conjunto de sequências, a escolha deste parâmetro não é um problema trivial uma vez que a escolha de um valor além do suficiente para produzir um alinhamento ótimo provocaria um aumento desnecessário no comprimento do vetor de posições e isso implicaria em um maior custo computacional. Neste cenário, posições de lacunas não necessárias ao alinhamento podem ser definidas para valores de posições já utilizados (onde já existem lacunas). Em outro cenário onde seja escolhido utilizar uma quantidade de lacunas inferior à necessária, a capacidade de construção de um alinhamento ótimo pode ser comprometida. Como solução para essa questão, este trabalho optou por utilizar três abordagens diferentes entre si com respeito ao número de lacunas utilizado e forma de inicialização dos candidatos à solução. Foram definidas três abordagens: DA (Algoritmo Dialético), DA-NLC (Algoritmo Dialético com Número de Lacunas Clustal) e DA- NLF (Algoritmo Dialético com Número de Lacunas Flutuante). Na primeira abordagem, chamada DA Canônico ou apenas DA, foi utilizada uma quantidade de lacunas que corresponde

a 50% do comprimento λ original máximo das sequências envolvidas. Assim, por exemplo, para um alinhamento com sequências de 60 bases foram definidas 30 lacunas para cada uma destas sequências. Na inicialização dos candidatos à solução, a posição de cada um das lacunas foi escolhida aleatoriamente com distribuição de probabilidade uniforme. No exemplo com sequências de 60 bases, os valores possíveis para uma posição de lacuna correspondem estão contidos no intervalo limitado entre 1 e 90. Em uma segunda abordagem, chamada NLC (Número de Lacunas Clustal) para realizar o alinhamento múltiplo de um determinado conjunto de sequências, este foi primeiramente alinhado com a ferramenta ClustalW2. A mesma quantidade de lacunas utilizada em cada sequência pelo Clustal foi utilizada na definição dos candidatos à solução. A inicialização aleatória das posições foi realizada da mesma forma que na abordagem anterior. Na terceira abordagem, chamada de DA-NLF ou apenas NLF, a quantidade de lacunas disponíveis para cada sequência foi mantida (50% do comprimento), porém a inicialização destas posições foi induzida para que posições repetidas fossem escolhidas de forma controlada. Assim, a quantidade de lacunas de fato inseridas variava conforme a quantidade de valores repetidos. Tal mudança permitiu a criação de uma população de alinhamentos com diferentes quantidades iniciais de lacunas. Para cada candidato à solução, a quantidade de posições repetidas foi escolhida uniformemente dentro de um intervalo definido entre 0% e 45% do comprimento das sequências. Por exemplo, para sequências de 60 bases, a quantidade de lacunas repetidas de forma controlada variava entre 0 e 27. Estes limiares (0% e 45%) foram baseados na variação da quantidade de lacunas utilizadas pelo Clustal ao longo dos experimentos. Apesar desta modificação durante a inicialização da população, o processo de atualização dos pesos se manteve inalterado e, assim, a quantidade de lacunas realmente inseridas pode ser guiada ao longo das iterações. Nesta última abordagem, a quantidade de lacunas realmente inseridas em cada alinhamento candidato variava conforme a quantidade de lacunas cujas posições foram inicializadas de forma aleatória. Durante a inicialização de cada candidato à solução, tal quantidade foi escolhida uniformemente de um intervalo definido entre 5% e 50% do comprimento λ das sequências. Estes limiares máximo (50%) e mínimo (5%) foram baseados na variação da quantidade de lacunas utilizadas pelo Clustal ao longo dos experimentos. Apesar desta modificação durante a inicialização da população, o processo de atualização dos pesos se manteve inalterado. Assim, a quantidade de lacunas realmente inseridas poderia ser guiada segundo à evolução. A Tabela I apresenta exemplos de polos utilizados em cada uma das três abordagens. D. Modelagem da função objetivo Neste trabalho, a função objetivo, responsável por avaliar matematicamente a qualidade biológica de um alinhamento múltiplo, é definida pela composição de outras quatro funções mais simples, onde cada uma busca atender um aspecto específico do problema de MSA. A ideia dessa modelagem é premiar aspectos desejáveis e penalizar os não-desejáveis. Table I. EXEMPLOS DE CANDIDATOS À SOLUÇÃO PARA CADA UMA DAS ABORDAGENS SUGERIDAS Abordagem λ L N L Clustal Polos exemplo Canônica 6 0.50λ 3 2 (1,4,3,2,3,4,0,1,2) (5,4,0,0,3,1,3,6,0) NLC 6 L Clustal 3 2 (2,3,4,1,0,1) (1,4,0,1,1,2) NLF 6 0.05λ 0.50λ 3 2 (1,4,4,2,1,1,5,3,3) (0,0,0,3,3,3,1,1,1) (3,4,1,5,0,1,1,2,3) O primeiro aspecto considerado pela função objetivo trata da necessidade de atribuir pesos às correspondências identificadas em uma mesma coluna. Este esquema de pontuação baseia-se no modelo da função sum-of-pairs [14] no qual é calculado o somatório, para cada coluna, de todas as correspondências entre bases de uma mesma coluna. O peso de cada correspondência é determinado através de uma matriz de similaridades M na qual cada elemento m i,j representa a similaridade entre a i-ésima e a j-ésima base. Neste trabalho, a matriz de similaridade utilizada foi a matriz IUB, que corresponde à matriz padrão usada pelo ClustalW em alinhamento de sequências de DNA [4] [6]. Na matriz IUB, todos os elementos da diagonal principal, os quais correspondem às correspondências ou matches, são preenchidos com 1,9 enquanto que os elementos restantes, conhecidos como nãocorrespondências ou mismatches são preenchidos com zeros [4] [6]. O segundo aspecto considerado na definição da função objetivo leva em conta o posicionamento das lacunas ao longo das sequências. De forma semelhante a outros métodos de alinhamento, a função objetivo deste trabalho trata a necessidade de desencorajar o mau posicionamento de lacunas através da aplicação de uma função de penalidade. A inserção de lacunas está relacionada à representação da ocorrência de dois tipos mutação: por inserção e por exclusão. Neste primeiro tipo, a mutação é representado geralmente pelo posicionamento de diversas lacunas em uma mesma coluna enquanto que para representar uma mutação do tipo exclusão geralmente é utilizada uma única lacuna. É interessante que a função objetivo leve em conta tais observações para que um viés contra mutações de inserções não seja inserido em sua definição. Neste trabalho, a componente da função objetivo responsável por penalizar o mau uso de lacunas é dividida em duas subfunções: uma busca penalizar o uso de lacunas de acordo com a sua posição ao longo de uma sequência (posicionamento horizontal) enquanto que outra promove penalidades de acordo com a quantidade de lacunas usadas na mesma coluna (posicionamento vertical). A penalidade pelo posicionamento horizontal de uma lacuna leva em conta a posição à esquerda. Assim, caso à esquerda da lacuna exista uma base então tal lacuna dá início a uma abertura de espaço (chamado de gap open). Caso contrário, ou seja, se na posição à esquerda existe outra lacuna então trata-se de uma extensão desta. Neste trabalho, lacunas do tipo extensão são penalizadas em -0,2 enquanto que lacunas do tipo abertura são penalizadas com -10. A penalidade por posicionamento vertical leva em conta apenas a quantidade de lacunas posicionadas em outras sequên-

cias na mesma posição. Este trabalho propôs um mecanismo no qual a penalidade diminui exponencialmente com o aumento da quantidade de lacunas na mesma posição. O terceiro aspecto considerado na função de score é o número de correspondências existentes na mesma coluna. Em métodos de otimização iterativos, como o método dialético, o processo de busca pela solução ótima é guiado pela evolução gradual dos candidatos ocorrida ao término de cada iteração [1]. Com o desejo de melhor guiar o processo evolucionário do método de otimização aplicado, a definição da função objetivo considera um terceiro aspecto o qual trata da necessidade de premiar alinhamentos à medida que cresce, em cada coluna, o total de correspondências encontradas. Para isso, foi criada uma outra função de pontuação que atribui uma pontuação extra a qual cresce exponencialmente em relação ao número de correspondências ocorridas em uma mesma coluna. O quarto aspecto levado em conta pela função objetivo trata da necessidade de privilegiar alinhamentos nos quais colunas de alta similaridade ocorram consecutivamente. Tal necessidade é motivada pelo desejo de identificar regiões de alta similaridade pois estas correspondem a indícios mais fortes de existência de homologia entre as sequências [15]. Assim, a função objetivo aplicada ao i-ésimo polo é definida como: f o (w i ) =ω SP f SP (w i ) + ω Penal f Penal (w i )+ ω Corresp f Corresp (w i ) + ω Consec f Consec (w i ), onde ω SP, ω Penal, ω Corresp, ω Consec R são os pesos das funções componentes, definidas a seguir. A componente f SP corresponde à função para cálculo das similaridades e é definida como: S N f SP (w) = IUB(w 1,s, w n,s ), (2) s=1 n=2 onde w n,s corresponde ao elemento localizado na n-ésima linha da s-ésima coluna da matriz w, que representa o alinhamento produzido pela inserção de lacunas nas posições indicadas em w. IUB é a matriz de similaridades. A componente f Penal é a função para o cálculo das penalidades pela inserção das lacunas. O valor da penalidade atribuída para cada lacuna é a soma da penalidade relativa à sua posição dentro da sequência, chamada de penalidade sob posicionamento horizontal, e da penalidade relativa à quantidade de lacunas existentes em outras sequências que sofreram penalização horizontal na mesma posição, chamada de penalidade sob posicionamento vertical, sendo definida como: f Penal (w) = ω V Penal V (w, S) + ω H Penal H (w, S) (3) onde ω H corresponde ao peso da componente de penalidade horizontal, Penal H (w, S), definida por N S Penal H (w, S) = gap H (w, n, s), (4) n=1 s=1 onde gap H (w, n, s) é a penalidade horizontal para a s-ésima linha, definida como: { 0, s C1 gap H (w, n, s) = Penal gapext, s C 2, (5) Penal gapopen, s C 3 Table II. VALORES UTILIZADOS PARA OS PESOS DAS FUNÇÕES COMPONENTES Parâmetro Valor ω SP 1,0 ω Penal 1,0 ω Corresp 2,0 ω Consec 1,0 C 1 = {s = 1 s < p FB (w, n) s > p LB (w, n)}, (6) C 2 = {s > 1 gap H (w, n, s 1) < 0}, (7) C 3 = {s > 1 gap H (w, n, s 1) 0}, (8) e ω V corresponde ao peso da componente de penalidade vertical, definida como: Penal V (w, S) = S s=1 Penal gapopen ColumnGaps(w, s), (9) onde ColumnGaps(w, s) corresponde à quantidade de lacunas posicionadas na s-ésima posição do alinhamento representado por w e que sofreram penalização horizontal, com 0 ColumnGaps(w, s) N; p FB (w, n) e p LB (w, n) são as posições da primeira e última bases posicionadas na n-ésima sequência do alinhamento w, respectivamente. As constantes Penal gapopen e Penal gapext correspondem respectivamente às penalidades por abertura de lacuna e por extensão de lacuna. Nesta aplicação foram utilizados Penal gapopen = 1 e Penal gapext = 0, 2. A componente f Corresp (w) é a função para pontuação devido à quantidade de correspondências (matches) identificadas em cada coluna do alinhamento w, sendo definida como: N ColumnGaps(w, s) f Corresp (w) = N (10) S s=2 NumCorresp(w, s), onde NumCorresp(w, s) representa o número de correspondências identificadas na s-ésima posição (coluna) do alinhamento w, com 0 ColumnGaps(w, s) N 1. A componente f Consec (w) é a função que calcula a pontuação relativa à consecutividade de colunas de alta similaridade, definida por: com Consec(w, s) = f Consec (w) = S Consec(w, s), (11) s=1 { 0, s = 1 NumCorresp(w,s 1) (N NumCorresp(w,s)), 2 s 1, (12) onde s e n são respectivamente o número de colunas (posições) e o número de sequências (linhas) do alinhamento, com 1 s S e 1 n N, sendo S o total de colunas e N o número de sequências do alinhamento. Os parâmetros ω SP, ω Penal, ω Corresp e ω Consec são usados para configurar a influência de cada função de pontuação correspondente sobre o valor total da função objetivo. Seus valores, definidos empiricamente, são apresentados na Tabela II.

E. Construção da Base de Dados Para a geração de resultados, neste trabalho foi realizado o alinhamento de 50 grupos de quatro sequências cada. Estes grupos de sequências foram construídos sinteticamente a partir de 40 sequenciamentos do genoma do fungo Phyrenophora tritici-repentis segundo um esquema onde, em cada grupo, cada uma das quatro sequências foi definida como um segmento de 60 bases aleatoriamente retirado, sem reposição, de um dos 40 sequenciamentos disponíveis [16]. Os genomas utilizados correspondem as sequencias AAXI01000001 até AAXI01000040 da base pública do EMBL-EB [17]. F. Experimentos Os experimentos foram realizados ao longo de 50 ensaios onde, para cada um deles, foi utilizado um grupo de quatro sequências construídas sinteticamente. Em cada ensaio, o conjunto de sequências é alinhado, primeiramente utilizando-se o Clustal, e em seguida pelo método proposto através de três diferentes abordagens. Os scores obtidos são comparados entre si e com o valor obtido pelo alinhamento sugerido pelo Clustal quando a este é aplicada a função objetivo proposta. As abordagens sugeridas são: (1) Forma Canônica, (2) Número de lacunas do Clustal (NLC) e (3) Número de lacunas flutuante (NLF). Para cada ensaio é anotado o melhor resultado ao longo de 20 execuções. e para cada abordagem foram realizados vinte execuções. A quantidade máxima de iterações foi 1500. A cada uma das abordagens, além da versão prevista, também foi realizada a execução de uma variação do algoritmo a qual faz uso da técnica de semeadura da população. Nela, a semente utilizada corresponde ao alinhamento sugerido pelo método ClustalW. A técnica de semeadura pode promover melhorias nos alinhamentos realizados pelo Clustal. Durante os experimentos, percebeu-se uma melhor convergência com a diminuição da quantidade de gerações para cada período histórico e, assim, com o aumento do número de momentos de crise. A quantidade de gerações por período histórico teve seu valor definido empiricamente como duas gerações para cada um dos 750 períodos históricos. Para ajudar na manutenção da diversidade durante os experimentos, sempre que o tamanho da população caia abaixo de um limiar (20% da população inicial), polos gerados aleatoriamente são inseridos à população. Este processo continua até que volte a possuir pelo menos de 20% da quantidade inicial de polos na população. III. RESULTADOS O resultado obtido por cada uma das três abordagens com (DA, NLC e NLF) e sem (DAS, NLCS e NLFS) o uso de sementes é exibido no gráfico box-plot na Figura 2. Os limites extremos correspondem aos valores de máximo e mínimo enquanto que a marca central é o valor médio e os limites laterais correspondem aos percentis 25 e 75. Na Tabela III são apresentados os valores médio, máximo, mínimo e desvio padrão para cada uma das três abordagens (DA, NLC e NLF) como também para suas variações com o Figure 2. Gráfico box-plot delimitado pelos pontos de máximo e de mínimo, percentil 75 e 25. Table III. Scores OBTIDOS EM CADA ABORDAGEM. Abordagem Mínimo Máximo Desvio padrão Média DA 833,002 1437,471 105,4498 1122,585 DAS 822,305 1670,188 201,8092 1174,007 DA-NLC 989,888 1554,622 126,5797 1218,332 DA-NLCS 814,929 1670,188 227,6168 1187,233 DA-NLF 925,278 1467,887 118,0749 1204,016 DA-NLFS 814,929 1670,188 206,3822 1149,611 uso dos resultados dos alinhamentos obtidos com Clustal como sementes (DAS, NLCS e NLFS). A análise estatística inferencial foi baseada em testes de hipóteses. Considerando a hipótese alternativa (H 1 ) contraditória à nula (H 0 ), têm-se que um valor de p abaixo de 0,05 implica na rejeição de H 0 e, portanto, na aceitação de H 1. Do contrário, para p maior ou igual a 0,05, rejeita-se H 1 enquanto que H 0 é aceita. Na Tabela IV são apresentados os resultado do teste de hipóteses de Wilcoxon para cada um das abordagens. Na Tabela IV é evidente que a hipótese alternativa, H 1, é rejeitada em ambos os casos (DA<Clustal e DA Clustal) na abordagem DA Canônico, demonstrando que os resultados obtidos pelo DA e pelo Clustal são significativamente equivalentes. Nas outras duas abordagens (NLC e NLF) é verificado que a hipótese DA < Clustal é negada enquanto que DA Clustal é aceita, o que implica que os resultados obtidos pelos DA são significativamente superiores aos obtidos pelos Clustal. IV. DISCUSSÃO E CONCLUSÃO Os resultados apresentados demonstraram a capacidade do método sugerido, quando comparado ao Clustal, de produzir alinhamentos de score elevado. O fato de sequências produzidas sinteticamente terem sido usadas nos experimentos Table IV. RESULTADOS DO TESTE DE WILCOXON. Método H 1 p H 1 aceita? DA DA < Clustal 0,595351 Não DA Clustal 0,816788 Não DAS DAS < Clustal 0,999801 Não DAS Clustal 0,000482 Sim DA-NLC NLC < Clustal 0,998820 Não NLC Clustal 0,002436 Sim DA-NLCS NLCS < Clustal 0,978837 Não NLCS Clustal 0,043819 Sim DA-NLF NLF < Clustal 0,994882 Não NLF Clustal 0,010524 Sim DA-NLFS NLFS < Clustal 0,997415 Não NLFS Clustal 0,006403 Sim

reforça a ideia de que o método proposto é capaz de produzir bons alinhamentos para grupos de sequências onde não há garantias de altos níveis de similaridade. Os resultados obtidos também demonstram a capacidade da função objetivo sugerida em guiar a construção de bons alinhamentos ao longo de um processo iterativo. Além destes resultados, o método proposto também foi capaz de promover significantes melhorias nos alinhamentos produzidos pelo Clustal. A modelagem dos candidatos à solução, apesar da vantagem de eliminar informações redundantes em todos os integrantes da população, trouxe um problema quanto à definição da quantidade de lacunas a ser utilizada. Esse problema foi resolvido com a repetição controlada do posicionamento de lacunas durante a inicialização. A função objetivo, baseada em aspectos estruturais do alinhamento avaliado, considera detalhes biológicos relevantes, ao mesmo tempo em que aproxima sua definição a funções matemáticas de fácil entendimento e reprodução em outros cenários. Quando comparado a uma abordagem semelhante, baseada em algoritmos genéticos [16], o método dialético de otimização obteve resultados equivalentes ou superiores em todos os experimentos. [12] W. P. Santos, F. M. Assis, R. E. Souza, A. C. T. C. Albuquerque, and M. L. B. Simas, A Monospectral Approach for fmri Analysis using Kohonen Self-Organized Networks and Objective Dialectical Classifiers, International Journal of Innovative Computing and Applications, vol. 1, no. 4, pp. 260 273, 2008. [13] W. P. Santos, F. M. Assis, R. E. Souza P. B. Santos Filho, and F. B. Lima Neto, Dialectical Multispectral Classification of Diffusion-Weighted Magnetic Resonance Images as an Alternative to Apparent Diffusion Coefficients Maps to Perform Anatomical Analysis, Computerized Medical Imaging and Graphics, vol. 33, no. 6, pp. 442 460, 2009. [14] S. B. Needleman and C. D. Wunsch, A general method applicable to the search for similarities in the amino acid sequence of two proteins, Journal of molecular biology, vol. 48, no. 3, pp. 443 453, 1970. [15] C. Notredame, L. Holm, and D. G. Higgins, COFFEE: an objective function for multiple sequence alignments, Bioinformatics, vol. 14, no. 5, pp. 407 422, 1998. [16] W. P. Santos, R. Yara, and R. G. Souza, Uma abordagem para alinhamento múltiplo de sequências de DNA usando Algoritmos Genéticos e número variável de lacunas, in Encontro Nacional de Inteligência Artificial e Computacional - ENIAC 2013, Fortaleza, 2013. [17] B. Birren, E. Lander, J. Galagan, C. Nusbaum, K. Devon, L. J. Ma, D. Jaffe, J. Butler, P. Alvarez, S. Gnerre, M. Grabherr, M. Kleber, E. Mauceli, W. Brockman, I. A. MacCallum, S. Young, K. LaButti, D. DeCaprio, M. Crawford, M. Koehrsen, R. Engels, P. Montgomery, M. Pearson, C. Howarth, L. Larson, J. White, C. Yandava, C. Kodira, Q. Zeng, S. O Leary, L. Alvarado, L. Ciuffetti, and I. Pandelova, Phyrenophora tritici-repentis, Broad Institute of MIT and Harvard, 2007. REFERENCES [1] C. Notredame, Recent progress in multiple sequence alignment: a survey, Pharmacogenomics, vol. 3, no. 1, pp. 131 144, 2002. [2] V. Simossis, J. Kleinjung, and J. Heringa, An overview of multiple sequence alignment, Current protocols in bioinformatics, pp. 3 7, 2003. [3] J. D. Thompson, B. Linard, O. Lecompte, and O. Poch, A comprehensive benchmark study of multiple sequence alignment methods: current challenges and future perspectives, PloS one, vol. 6, no. 3, pp. e18093, 2011. [4] D. G. Higgins and P. M. Sharp, CLUSTAL: a package for performing multiple sequence alignment on a microcomputer, Gene, vol. 73, no. 1, pp. 237 244, 1988. [5] M. A. Larkin, G. Blackshields, N. P. Brown, R. Chenna, P. A. McGettigan, H. McWilliam, F. Valentin, I. M. Wallace, A. Wilm, and R. Lopez, Clustal W and Clustal X version 2.0, Bioinformatics, vol. 23, no. 21, pp. 2947 2948, 2007. [6] F. Sievers, A. Wilm, D. Dineen, T. J. Gibson, K. Karplus, W. Li, R. Lopez, H. McWilliam, M. Remmert, and J. Söding, Fast, scalable generation of high-quality protein multiple sequence alignments using Clustal Omega, Molecular systems biology, vol. 7, no. 1, 2011. [7] W. P. Santos and F. M. Assis, Optimization based on Dialectics, in IEEE International Joint Conference on Neural Networks (IJCNN 2009), Atlanta, 2009, CIS-IEEE, pp. 2804 2811. [8] W. P. Santos, F. M. Assis, P. B. Mendes, H. S. S. Monteiro, and H. D. Alves, An Object-Oriented Approach to Design Dialectical Systems, in Horizons in Computer Science Research, T. S. Clary, Ed., New York, 2009, Nova Science. [9] W. P. Santos, F. M. Assis, and R. E. Souza, MRI Segmentation using Dialectical Optimization, in 31st Annual International Conference of the IEEE Engineering in Medicine and Biology Society, Minneapolis, USA, 2009, EMBS-IEEE, pp. 5752 5755. [10] W. P. Santos and F. M. Assis, Método Dialético de Otimização Usando o Princípio de Máxima Entropia, Learning and Nonlinear Models, vol. 7, pp. 54 64, 2009. [11] W. P. Santos, F. M. Assis, R. E. Souza, P. B. Mendes, H. S. S. Monteiro, and H. D. Alves, A Dialectical Method to Classify Alzheimer s Magnetic Resonance Images, in Evolutionary Computation, W. P. Santos, Ed., Vukovar, 2009, pp. 473 486, In-Teh.