ALINHAMENTO DE SEQUÊNCIAS

Documentos relacionados
MODELOS PROBABILÍSTICOS

Alinhamento de seqüências

alinhamento global-alinhamento múltiplo de seqüências

Alinhamento de sequências

Métodos de alinhamento de sequências biológicas. Marcelo Falsarella Carazzolle

Bioinformática. Licenciaturas em Biologia, Bioquímica, Biotecnologia, Engenharia Biológica. João Varela

Alinhamentos e Busca de Similaridade. Ariane Machado Lima

PAULO EDUARDO BRANDÃO, PhD DEPARTAMENTO DE MEDICINA VETERINÁRIA PREVENTIVA E SAÚDE ANIMAL FACULDADE DE MEDICINA VETERINÁRIA E ZOOTECNIA UNIVERSIDADE

Alinhamento local- Utilização do BLAST

Comparação e alinhamento de. sequências

Comparação e alinhamento de sequências

Análise de dados provenientes de técnicas moleculares

Bioinformática. Alinhamento de Sequências. Prof. Msc. Rommel Ramos

) UA1g UNIVERSiDADE DO ALGARVE

Textos de apoio às aulas práticas. Jaime Ramos, Francisco Miguel Dionísio

Programa Analítico de Disciplina BQI460 Bioinformática

Estatística Computacional (Licenciatura em Matemática) Duração: 2h Exame NOME:

Distribuição Normal. Apontamentos para a disciplina de Estatística I. Tomás da Silva, 2003/2006

PESQUISA DE MOTIVOS. Relatório 3. Ana Calhau Ângela Pisco Nuno Santos

Redução de ruído e Interpolação

Enunciado de Prova Escrita de Avaliação Sumativa

Encriptação de Mensagens

Alinhamento de Seqüências Biológicas

Métodos de Pesquisa Operacional

DEPARTAMENTO DE MATEMÁTICA E CIÊNCIAS EXPERIMENTAIS - Grupo 500. Planificação Anual /Critérios de avaliação. Disciplina: MACS 11º ano 2014/2015

7. Introdução à Complexidade de Algoritmos

Alinhamento de Seqüências

Conceitos de vetores. Decomposição de vetores

DEFINIÇÕES EM EPIDEMIOLOGIA MOLECULAR E CONCEITOS BÁSICOS EM BIOLOGIA MOLECULAR

- Testes Qui-quadrado - Aderência e Independência

Faculdade de Engenharia Optimização. Prof. Doutor Engº Jorge Nhambiu

Televisão Digital. Codificação de Entropia Códigos de Huffman. Hélio Manuel Gonçalves Jaco

Estatística Computacional (Licenciatura em Matemática) Duração: 2h Frequência NOME:

Resumo - capítulo 5 - Predição da estrutura secundária do RNA

Distribuição Normal. Prof a Dr a Alcione Miranda dos Santos. Abril, 2011

Estruturas Pedagógicas. Área disciplinar de Biologia e Geologia Ano letivo 2018/2019

Estruturas Pedagógicas. Área disciplinar de Biologia e Geologia Ano letivo 2018/2019

Resumo - capítulo 3 - Alinhamento de pares de sequências

Aprendizado de Máquina

Módulo 17E. Revisões de HTML. A) Noções básicas de HTML (cont.)

4 Implementação Computacional

Melhor caminho entre duas estações de metro

A síntese proteica envolve várias fases, que culminam na síntese de proteínas nos ribossomas, tendo como base a informação genética do DNA. Classifica

Análise do ponto de equilíbrio no modelo Lotka- Volterra

Planificação Anual 11º Ano Matemática Aplicada às Ciências Sociais

No quadro seguinte, está registado o número total de praticantes inscritos, distribuídos por cada uma dessas modalidades desportivas.

CAL ( ) MIEIC/FEUP Estruturas de Dados ( )

INSTITUTO SUPERIOR TÉCNICO GESTÃO E TEORIA DA DECISÃO GESTÃO DE PROJECTOS EXERCÍCIOS ANO LECTIVO 2006/2007 1º SEMESTRE

Escola Secundária com 3º ciclo D. Dinis 12º Ano de Matemática A Tema I Probabilidades e Combinatória. 1º Teste de avaliação.

4 Cálculo de Equivalentes Dinâmicos

ESCOLA SECUNDÁRIA DE LOUSADA

Número de genes versus número de proteínas em eucariotos

Carga e Descarga do Condensador em C.C.

Apresentação. CAEd versão1.0. CAEd Cálculo Acústico de Edifícios. Jorge Patrício. Luís Santos Lopes

4. Seja A o acontecimento associado a uma experiência aleatória em que o espaço amostral é Quais as igualdades necessariamente falsas?

Síntese da aula anterior

Material Teórico - Módulo de Função Exponencial. Primeiro Ano - Médio. Autor: Prof. Angelo Papa Neto Revisor: Prof. Antonio Caminha M.

Sistema de apoio à decisão M-MACBETH. Guia de utilização. Autor: João C. Bana e Costa

- Testes Qui-quadrado - Aderência e Independência

Anotação de Genomas. Fabiana G. S. Pinto

Transcrição:

Disciplina de BIOLOGIA COMPUTACIONAL Mestrado em ENGENHARIA BIOMÉDICA 4º Ano, 1º Semestre 2007/08 ALINHAMENTO DE SEQUÊNCIAS Relatório 2 Ana Calhau Ângela Pisco Nuno Santos 54605 55748 55746 Palavras-Chave: Alinhamento, Sequência, Needleman-Wunsch, Smith-Waterman, homologia, ClustalW Resumo Com este trabalho pretende abordar-se o problema do alinhamento, tanto simples como múltiplo, de sequências, recorrendo aos conceitos de alinhamento local e global. Para tal, utilizaram-se os algoritmos de Needleman-Wunsch (alinhamento global) e de Smith- Waterman (alinhamento local), tendo-se inclusive procedido à implementação do primeiro. Outro dos conceitos que se pretendeu estudar foi o de custo associado aos espaçamentos, no alinhamento simples de sequências. No caso do alinhamento simples, foi ainda explorada a forma como se pode inferir relações de homologia entre diferentes sequências tendo por base as percentagens de identidade fornecidas pelo programa que promove o alinhamento. Por último, recorreu-se a um website que disponibiliza o ClustalW. Com base neste algoritmo determinou-se o alinhamento múltiplo de cinco sequências, tendo-se visualizado as árvoresguia correspondentes, bem como a conservação das regiões. 1. FUNÇÃO DE CUSTO DE ESPAÇAMENTO Para alinhar duas sequências de nucleótidos é necessário definir quais os parâmetros que serão utilizados para calcular o score do alinhamento. O melhor alinhamento será aquele com maior score. Neste problema, a penalização dos espaçamentos foi contabilizada com base em (1) onde g corresponde ao tamanho do gap, d é o valor de cada alinhamento com um espaçamento e e i o valor atribuído a cada extensão do espaçamento. Os alinhamentos obtidos foram: Alinhamento 1 Seq1 AGTGTGAAGGTCCCGGCTAAT---CG : :: : : : ::: ::: :: Seq2 A-TGCG--GCTAATGGC-AATATACG Alinhamento 2 Seq1 AGTGTGAAGGTCCCGGCTAAT---------CG : :: :::::::: :: Seq2 A---TG-------CGGCTAATGGCAATATACG

Alinhamento de Sequências Por observação dos dois alinhamentos, conclui-se que o primeiro possui 14 match s e o segundo contém 13. Quanto ao número de mismatch s, observam-se 5 para o primeiro alinhamento e 0 para o segundo. Verifica-se ainda que no primeiro caso existem 5 gaps, com diferentes extensões, enquanto que o segundo tem 4, também com diferentes extensões. Para que o algoritmo devolva estes dois alinhamentos é porque cada um é o correspondente ao score máximo obtido em (1), para os parâmetros considerados em cada caso. Sabendo que d tem o mesmo valor, tanto num alinhamento como noutro, a diferença na resposta é função do valor de e considerado em cada caso. Dado que no primeiro alinhamento a extensão dos gaps é consideravelmente menor que no segundo, conclui-se que a variável e, responsável por penalizar o comprimento do gap, apresenta um valor bastante superior no primeiro alinhamento. Foi o facto de o custo atribuído a cada extensão do espaçamento ser menor para o segundo alinhamento que permitiu espaçamentos com extensões mais longas neste, apesar de o número de espaçamentos ser menor. Está também patente no segundo alinhamento que os parâmetros utilizados para contabilizar as penalizações neste privilegiam o espaçamento face ao mismatch. Se se considerasse que d=, o custo de espaçamentos introduzidos seria também ele infinito, pelo que se estaria a inibir a colocação de espaçamentos no alinhamento das sequências. Desta forma, não se poderiam considerar as operações de inserção e delecção mas apenas a operação de substituição. Esperar-se-ia assim, caso as sequências tivessem igual comprimento, uma total coincidência destas. Caso as sequências não tivessem o mesmo comprimento nunca alinhariam, pois comprimentos diferentes para as sequências implicaria a colocação de um número de espaçamentos igual à diferença de comprimento entre as duas sequências, o que não é viável para d=, pois o score nesta situação é igual a -. 2. ALINHAMENTO SIMPLES DE SEQUÊNCIAS Neste exercício procurou-se, através de programação dinâmica, encontrar os melhores alinhamentos, global e local, entre as sequências de nucleótidos CGATAAC e AACGTTAC. 2.1.Alinhamento global Quando o alinhamento é global significa que este se faz em toda a extensão da sequência. Para proceder a este tipo de alinhamento recorreu-se ao algoritmo de Needleman-Wunsch. Este algoritmo calcula cada entrada da matriz dos scores (matriz F) com base na expressão recursiva abaixo indicada, onde as três primeiras linhas são as condições de inicialização. Os parâmetros considerados na função de mérito são: igualdade (match) = +1; desigualdade (mismatch) = -1; espaçamento (gap) = -1. O algoritmo permite ainda conhecer qual a célula que deu origem a cada entrada na matriz. Na matriz, esta precedência é indicada por setas, enquanto que a nível computacional são guardadas as posições que deram origem à célula em questão. Tanto um método como outro permite, posteriormente, realizar o alinhamento, com base no traceback. De referir que o score máximo do alinhamento global corresponde ao valor da entrada F(i max,j max ), onde i max e j max são os comprimentos das sequências em análise. (2) 2

Ana Calhau Ângela Pisco Nuno Santos O algoritmo considerado permite retirar significado biológico do alinhamento, na medida em que permite a ocorrência de substituições, inserções e delecções. Com base em (2) construiu-se a seguinte tabela. Tabela 1 Alinhamento Global obtido pelo algoritmo Needleman-Wunsch. A azul encontra-se o caminho descrito por um dos melhores alinhamentos conseguidos pelo método. - A A C G T T A C - 0-1 -2-3 -4-5 -6-7 -8 C -1-1 -2-1 -2-3 -4-5 -4 G -2-2 -2-2 0-1 -2-3 -4 A -3-1 -1-2 -1-1 -2-1 -2 T -4-2 -2-2 -2 0 0-1 -2 A -5-3 -1-2 -3-1 -1 +1 0 A -6-4 -2-2 -3-2 -2 0 0 C -7-5 -3-1 -2-3 -3-1 +1 Para alinhar as sequências (traceback) começa-se na última entrada da matriz, onde está o score, e percorre-se a matriz pelos precedentes directos de cada célula, até à posição inicial da matriz. As regras de alinhamento são dadas pela orientação relativa das setas: Diagonal: x i alinha com y i ; Vertical: y i alinha com espaço; Horizontal: x i alinha com espaço. Por observação da tabela 2 concluiu-se que o melhor alinhamento global possível é o descrito pelos elementos nas casas azuis e corresponde a A A C G - T T A C : : : : : - - C G A T A A C Contudo, este resultado não é único, já que devido ao facto de o valor do mismatch e do gap serem iguais, é possível traçar outros caminhos na tabela 2, de modo a obter-se um score idêntico. Para o cálculo do score do alinhamento obtido consideraram-se os valores match = +1, mismatch = -1 e espaçamento = -1. Assim, o valor associado ao alinhamento global é 2.2.Alinhamento local O alinhamento ser local significa que se procura alinhar fragmentos das sequências e não toda a extensão das mesmas. Este tipo de alinhamento recorre ao algoritmo de Smith-Watterman, onde cada entrada da matriz dos scores (matriz F) é calculada com base na expressão recursiva abaixo indicada, onde as três primeiras linhas são as condições de inicialização. Os parâmetros considerados, bem como os restantes procedimentos, são idênticos aos anteriores. (3) 3

Alinhamento de Sequências A intuição biológica fornecida por este algoritmo é a existência de domínios conservados entre sequências nucleotídicas. Com base em (3) construiu-se a seguinte tabela. Tabela 2 Alinhamento Local obtido pelo algoritmo de Smith-Waterman. A verde encontra-se o melhor e mais longo caminho, a azul e a violeta encontram-se outros caminhos locais, descritos por um dos melhores alinhamentos conseguidos pelo método. - A A C G T T A C - 0 0 0 0 0 0 0 0 0 C 0 0 0 1 0 0 0 0 1 G 0 0 0 0 2 1 0 0 0 A 0 1 1 0 1 1 0 1 0 T 0 0 0 0 0 2 2 1 0 A 0 1 1 0 0 1 1 3 2 A 0 1 2 1 0 0 0 2 2 C 0 0 1 3 2 1 0 1 3 No alinhamento local procura-se na matriz a posição que tiver maior pontuação. O resto do alinhamento processa-se como no alinhamento global. Por análise da tabela anterior, é possível ver que os melhores alinhamentos locais têm score 3. Este score máximo está subjacente a três alinhamentos locais distintos. São eles CG - TTAC CGTTA AAC : : : : : : : : : : : : : CGATAAC CGATA AAC Existem outros possíveis alinhamentos locais. No entanto o score a estes associado é menor, pelo que não se considera relevante descrevê-los. Para validar o resultado da matriz, procedeu-se ao cálculo dos scores para os três alinhamentos 3. SEMELHANÇAS ENTRE ONCOGENES Com o intuito de se seguirem os passos de Russel Doolittle na sua pesquisa por módulos funcionais do v-mos oncogene do vírus Moloney Murine Sarcoma, compararam-se as sequências publicadas naquela altura relativamente ao oncogene v-src oncogene do vírus Rous Sarcoma com as obtidas por Doolittle. Para tal, recorreu-se ao site Biology WorkBench (http://workbench.sdsc.edu), onde é disponibilizado um conjunto de algoritmos. Para se carregarem os ficheiros com as sequências nucleotídicas em estudo, recorreu-se à ferramenta Add New Nucleic Sequence no menu Nucleic tools. Utilizando o algoritmo ALIGN, no mesmo menu, obteve-se o alinhamento global das duas sequências. De acordo com o resultado, existe 45,1% de identidade entre as duas sequências e o score do alinhamento é igual a -1040. Por forma a encontrar fragmentos idênticos nas duas sequências utilizou-se a ferramenta LALIGN, ainda dentro do mesmo menu. Esta devolve os dez melhores alinhamentos locais encontrados. Para relacionar estes resultados com a existência ou não de homologia entre as sequências, torna-se necessário definir a partir de qual percentagem de identidade podem as sequências ser consideradas homólogas. 4

Ana Calhau Ângela Pisco Nuno Santos Sejam s1 e s2 duas sequências de nucleótidos de comprimentos n e m, respectivamente. A maioria dos alinhamentos tem uma mistura de pares idênticos e não idênticos (mismatch ou gap) pelo que as probabilidades de alinhamento não são simples. No entanto para n e m grandes, pela Lei dos Grandes Números, a distribuição associada pode ser considerada normal. Nesta situação encontrar qualquer uma das bases, em cada posição, passa a ser equiprovável. Assim, a probabilidade de encontrar caracteres idênticos é no mínimo 25%. No entanto, dado que existem apenas quatro bases, é fácil esta probabilidade chegar aos 50%. É importante referir que estas probabilidades são inferidas com base em estudos estatísticos e não calculadas pelas leis das probabilidades. Como tal, para duas sequências nucleotídicas aleatórias, é provável que exista uma identidade entre 40% e 50%. Dado que para as sequências em estudo a probabilidade de identidade é de 45,1% no alinhamento global, nada se pode afirmar sobre a existência de homologia entre as sequências. As percentagens de identidade para os alinhamentos locais variam entre 51,8% e 66,7%, como pode ser visto na figura seguinte. O valor de E() estima a significância estatística do alinhamento. Concretamente, quanto menor o valor de E mais homólogas (semelhantes) são as sequências entre si. O primeiro alinhamento considerado apresenta um valor de E bastante pequeno, o que pode querer indicar a existência de uma possível homologia entre as sequências. Figura 1 Representação gráfica dos possíveis alinhamentos locais para as sequências de nucleótidos Como os resultados com base nas sequências nucleotídicas não são conclusivos, emerge a necessidade de estudar o alinhamento entre as proteínas codificadas pelas sequências. Ao utilizar a ferramenta SIXFRAME para traduzir cada uma das sequências de nucleótidos numa sequência de aminoácidos obtêm-se seis traduções. Três das traduções são devidas à forma como é aberta a grelha de leitura (ORF), pois esta pode iniciar o agrupamento de nucleótidos no primeiro, segundo ou terceiro nucleótido; as outras três provêm do facto de não se saber qual das cadeias nucleotídicas é a que codifica para a proteína, se a que se tem por base, se a complementar, e portanto têm que ser tidas em linha de conta as traduções de ambas as cadeias. Deverá ser escolhida a frame cuja sequência de aminoácidos seja a maior, até encontrar o primeiro codão STOP. Frames com muitos codões de STOP indicam que a grelha de leitura que se está a utilizar não é a correcta. Pode ocorrer também o caso de a sequência que está a ser traduzida ser mais longa do que a porção codificante para a proteína, 5

Alinhamento de Sequências justificando este facto a existência de um codão STOP antes do final da tradução obtida pelo programa. Para alinhar as duas sequências de aminoácidos recorreu-se às ferramentas ALIGN e LALIGN no menu Protein Tools. A matriz de score utilizada foi a Blosum50. O alinhamento global apresenta 20,9% de identidade e tem um score global de 34. Relativamente aos dez melhores alinhamentos locais, as percentagens de identidade variam entre 20,5% e 53,3%, como está indicado na figura 2. Figura 2 Representação gráfica dos possíveis alinhamentos locais para as sequências de aminoácidos Para os aminoácidos, o raciocínio a utilizar de forma a encontrar as percentagens que permitam inferir homologia é semelhante. Dado que existem 20 aminoácidos e que em cadeias muito longas pode garantir-se que se consegue alinhar pelo menos um aminoácido, a probabilidade de alinhamento é 5%. No entanto, é altamente provavelmente conseguir alinhar-se mais um aminoácido, pelo que a probabilidade de homologia entre duas sequências aleatórias ronda os 10%. Olhando para as percentagens de identidade obtidas para os alinhamentos de aminoácidos, estas são bastante grandes, pelo que com base nestes resultados é possível afirmar que existe uma relação de homologia entre as duas sequências. Esta conclusão é reforçada pela significância estatística do primeiro alinhamento local, que é um número insignificante, apesar de a percentagem de identidade não ser muito elevada. Pode então concluir-se, com base na análise computacional dos alinhamentos, que existem possivelmente regiões conservadas entre estes genes. 6

Ana Calhau Ângela Pisco Nuno Santos 4. IMPLEMENTAÇÃO DE UM ALGORITMO DE PROGRAMAÇÃO DINÂMICA PARA ALINHAMENTO GLOBAL DE DUAS SEQUÊNCIAS Neste ponto implementou-se o algoritmo de Needleman-Wunsch, recorrendo ao software MatLab. Este algoritmo de programação dinâmica devolve o melhor alinhamento global, tendo por base duas matrizes, a matriz dos scores e a matriz dos caminhos. Cada entrada da matriz dos scores é calculada de acordo com (2). A matriz dos caminhos mais não é que uma matriz de apontadores, onde em cada entrada (i,j) se tem a indicação da célula de onde provém a correspondente entrada (i,j) na matriz dos scores. Os parâmetros considerados para o algoritmo foram os indicados em [1]. Os espaçamentos foram penalizados de forma linear, ou seja, cada extensão de cada gap foi considerada independente. Para correr o programa basta clicar em menuinicial.fig, na Current Directory. O resultado é apresentado na Command Window, onde é possível ver qual o score máximo associado ao alinhamento, bem como o próprio alinhamento. O algoritmo foi testado para as sequências pedidas (seq1.fasta e seq2.fasta), entre outras. Para o primeiro ficheiro o score máximo obtido foi 2, enquanto que no segundo ficheiro o score máximo foi -64. A título ilustrativo está representado na figura abaixo o alinhamento obtido para o ficheiro seq1.fasta pelo programa desenvolvido. Figura 3 Alinhamento simples obtido pelo algoritmo de Needleman-Wunsch para o ficheiro seq1.fasta Este algoritmo, descrito de acordo com a notação do grande O, é um O(n 2 ). De forma a verificar se a implementação criada obedece a este comportamento, representou-se graficamente o tempo de execução em função do tamanho da sequência. 7

Alinhamento de Sequências Figura 4 Representação gráfica do tempo de execução em função do número de bases da sequência. Os pontos experimentais encontram-se a azul. A curva a verde é uma curva de ajustamento quadrático. Conclui-se, por observação da figura, que os dados seguem um comportamento quadrático, tal como esperado. É, portanto, razoável utilizar este algoritmo para sequências de tamanho médio, mas não para sequências muito grandes (tipicamente acima dos 10000bp). 5. ALINHAMENTO MÚLTIPLO O programa ClustalW é uma ferramenta de alinhamento múltiplo que se baseia essencialmente em três passos: Pairwise Alignment, construção de árvores guia e alinhamento progressivo. O algoritmo implementado por este programa é heurístico e utiliza uma estratégia de alinhamento progressivo, para a construção de um alinhamento múltiplo óptimo. Com este programa é possível a construção de árvores classificativas, pegando nas sequências que se pretendem alinhar. A ordem com que as sequências são adicionadas ao alinhamento múltiplo é decidida segundo a estratégia padrão do ClustalW, ou seja, todos os pares de sequências são comparados entre si agrupando-se as sequências mais similares, ou seja, as que apresentam maior score no alinhamento simples. Figura 5 Representação esquemática de uma árvore-guia Desta forma, se olharmos para a fig. 5, o que o programa ClutsalW faz é alinhar as sequências que têm maior score, nomeadamente S1 com S3 (consenso S1, S3). No fim de as alinhar, compara a sequência obtida com S4, sequência mais similar com a resultante do alinhamento anterior, e volta a alinhar (consenso (S1,3), S4). As sequências são adicionadas ao alinhamento múltiplo obedecendo à estrutura da árvore guia, das folhas para a raiz. Esta representação em árvore mostra assim a ordem pela qual as sequências são escolhidas. 8

Ana Calhau Ângela Pisco Nuno Santos Figura 6 Representação em árvore descritiva das relações consideradas no caso em estudo Conclui-se assim, que a sequência gi 80000 pir e a sequência gi80072 pir A32017 são as que apresentam maior score, sendo por isso as primeiras a ser alinhadas. Com um score inferior, encontram-se as sequências gi 2984094 e gi 115030 sp P25910 BLAB_BACFR, sendo as segundas a ser alinhadas. Após o alinhamento destas sequências procede-se ao alinhamento da resultante das duas primeiras com a resultante das duas seguintes (resultante final). Por último, alinha-se a resultante final com a sequência gi 115023 sp P10425 BLA2_BACSP. Para além do alinhamento múltiplo e da representação em árvore, o website que disponibiliza o ClustalW tem uma outra funcionalidade, o JalView, no qual é possível a observação da conservação das regiões resultantes do alinhamento, bem como da qualidade destas, ambos através de diagramas de barras. Em relação à conservação, a uma região muito conservada corresponde uma barra amarela; quanto menos conservada a região mais escura essa barra se torna. Quanto à qualidade das regiões, esta refere-se a conservações dentro da mesma categoria de aminoácidos, isto é, mesmo que o aminoácido se altere, desde que a alteração corresponda a trocas entre aminoácidos do mesmo grupo, a qualidade mantém-se; o esquema de cores funciona de forma idêntica à anterior. 6. CONCLUSÃO O problema do alinhamento de sequências é bastante actual e reveste-se do maior interesse, na medida em que a sequenciação de genomas está em crescimento e todos os estudos de possíveis relações filogenéticas, entre outros aspectos, passam por análises do tipo da realizada no ponto 3. É importante ter noção que os algoritmos, se tiverem por objectivo ser aplicados a sequências biológicas, devem estar revestidos de intuição biológica. Nesta característica devem estar incluídos todos os fenómenos possíveis de ocorrem naturalmente ao nível do DNA, como alterações nas bases, inserções ou delecções. Os algoritmos utilizados, tanto no alinhamento global, como no simples, e também no alinhamento múltiplo, contemplam este aspecto, atribuindo valores distintos a cada uma destas operações. De referir que os algoritmos utilizados no alinhamento simples têm uma complexidade quadrática, pelo que a sua utilização está fortemente limitada pelo tamanho da sequência. Mais uma vez, foi notória a quantidade de ferramentas disponíveis gratuitamente na web e que permitem fazer todos estes estudos. Finalizando, este trabalho foi bastante interessante, já que permitiu sedimentar os conhecimentos adquiridos nas aulas relativamente ao alinhamento de sequências. 7. BIBLIOGRAFIA [1] Freitas, Ana T., Alinhamento de Sequências, Guia do 2º Laboratório de Biologia Computacional, Outubro de 2007 9