BIOINFORMÁTICA Métodos Computacionais em Bioinformática Aula: Alinhamento de Sequências Prof. Dr. Michel E. B. Yamagishi Michel E. B. Yamagishi michel.yamagishi@embrapa.br
EMENTA Alinhamento de Sequências (Aspectos Algoritmicos) Alinhamento Global (Algoritmo de Needleman-Wunsch) Alinhamento Local (Algoritmo de Waterman-Smith)
Referências Deonier, R. C., Tavaré and Waterman, M. S.; Computational Genome Analysis: An Introduction, Springer, 2005 Compeau, P.,Pevzner, P.; Bioinformatics Algorithms: An Active Learning Approach; Active Learning Publishers, Vol 1 & 2, Second Edition, 2015 (Vol 1 Chapter 5) Waterman, M. S.; Introduction Computational Biology, Chapman & Hall/CRC, 1995 Pevzner, A. P.; Computational Molecular Biology: An Algorithmic Approach, MIT Press, 2000
https://www.ncbi.nlm.nih.gov/class/mlacourse/modules/molbioreview/bioinformatics.html Bioinformática? (NCBI) Bioinformatics is the field of science in which biology, computer science, and information technology merge to form a single discipline. The ultimate goal of the field is to enable the discovery of new biological insights as well as to create a global perspective from which unifying principles in biology can be discerned.
DNA (DeoxyriboNucleic Acid) Johannes Friedrich Miescher (1844-1895) 1869 Descobre o DNA Em 1866, Ernst Haeckel conjecturou que o núcleo continha elementos responsáveis pela transmissão de caractrísticas hereditárias Miescher, Friedrich (1871). "Ueber die chemische Zusammensetzung der Eiterzellen". Medicinisch-chemische Untersuchungen 4: 441 460. Sobre a composição química de células de pus http://www.americanscientist.org/issues/feature/2008/4/the-first-discovery-of-dna/1
DNA (DeoxyriboNucleic Acid) Oswald Theodore Avery (1877-1955) 1944 DNA como unidade de transmissão de caracterísicas hereditárias Avery, O. T., MacLeod, C. M., McCarty, M. (1944) Studies on the chemical nature of the substance inducing transformation of pneumococal types, J. Exp. Med., 79, 137 Não recebeu o prêmio Nobel
DNA (DeoxyriboNucleic Acid) Erwin Chargaff (1905-2002) I saw before me in dark contours the beginning of a grammar of Biology 1 REGRA: Na dupla fita, A=T e C=G 2 REGRA: Na fita simples, A T e C G? Não recebeu o prêmio Nobel Erwin Chargaff (1950)
Generalização das Regras de Chargaff
DNA (DeoxyriboNucleic Acid) 1962 Prêmio Nobel de Medicina: "for their discoveries concerning the molecular structure of nucleic acids and its significance for information transfer in living material"
DNA (DeoxyriboNucleic Acid) 1953 - Barbara McClintock - Transposons? 1983 Nobel de Medicina: "for her discovery of mobile genetic elements"
DNA (DeoxyriboNucleic Acid) 1977 Frederick Sanger 1980 Nobel de Química (Segundo!!!!!) "for their contributions concerning the determination of base sequences in nucleic acids"
DNA (DeoxyriboNucleic Acid) 1946 - John Craig Venter EST (1991) Não recebeu o prêmio Nobel ainda! Human Genome (2001) Ocean Sampling Metagenomics (2003) First Diploid Human Genome (2007) Genome transplantation in Bacteria (2007) Synthetic Chromosome (2010) Synthetic Biology: Construction of a yeast chromosome (2014) Design and Synthesis of a minimal bacterial genome (2016) Deep sequencing of 10,000 human genomes (2016)... http://www.jcvi.org
DNA (DeoxyriboNucleic Acid) Modificações no DNA Mutações (SNPs) Deleções Inserções CNVs Duplicações Inversões Complexas
Pan-genome
http://www.nature.com/news/crispr-gene-editing-is-just-the-beginning-1.19510 DNA (DeoxyriboNucleic Acid) http://www.sciencemag.org/news/2017/02/how-battle-lines-over-crispr-were-drawn
MOTIVAÇÃO Mathematics is Biology s next Microscope, only better! Biology is Mathematics next Physics, only better! (Joel E. Cohen Rockefeller and Columbia Universities)
EVOLUÇÃO DNA-based phylogenetic tree Darwin C (1859) The Origin of Species by Means of Natural Selection, or the Preservation of Favoured Races in the Struggle for Life. Penguin Books, London. Sequence comparisons have revealed that evolution of the globin proteins parallels the evolution of vertebrates. Major junctions occurred with the divergence of myoglobin from hemoglobin and the later divergence of hemoglobin into the α and β subunits.
SELEÇÃO Seleção e evolução 17/04/2007 Agência FAPESP Uma comparação feita com 14 mil genes humanos e a mesma quantidade de genes do chimpanzé trouxe um resultado inusitado, para dizer o mínimo. O estudo concluiu que quem teve maior número de genes evoluídos a partir de um ancestral comum, de acordo com os processos de seleção natural, não foi o homem, mas sim o seu parente mais próximo. A descoberta vai contra o que sempre se acreditou: que o homem, por ter cérebro relativamente maior e habilidades cognitivas mais avançadas, seria mais favorecido pela seleção natural. O estudo representa um golpe na visão antropocêntrica de que um melhoramento genético grandioso explicaria a evolução humana. O estudo será publicado esta semana no site e em breve na edição impressa da revista Proceedings of the National Academy of Sciences (Pnas). A pesquisa ressalta que os humanos têm menos genes selecionados positivamente com maior eficiência para transmitir genes a gerações seguintes do que os chimpanzés. Margaret A. Bakewell, Peng Shi, and Jianzhi Zhang (2007) More genes underwent positive selection in chimpanzee evolution than in human evolution, PNAS, 104: 7489-7494 Eu sempre achei esses humanos muito arrogantes. Eles pensam que são o topo da Evolução. Cuitados! He, He, He Quando eles descobrirem o DNA, vão tomar um baita susto. Como se faz? Alinhamento de Sequências!
SEQUÊNCIAS CONSERVADAS LEGENDA: Hs, Homo sapiens; Rn, Rattus norvegicus; Tn, Tetraodon nigroviridis; Dm, Drosophila melanogaster; Am, Apis mellifera; Ce, Caenorhabditis elegans; Mm, Mus musculus; Xt, Xenopus tropicalis; Xl, Xenopus laevis; Gg, Gallus gallus. Fonte: EMBO Journal (2005) 24, 2839 2850 Conservação Importância? Como se faz? Alinhamento de Sequências!
ANOTAÇÃO COMO SE FAZ? Em alguns casos por Alinhamento de Sequências!
Exercício 1 Faça o Alinhamento das Seqüências abaixo: ATCGGCATGCAGATCA ACGGATGCCATCA VAMOS VER AS SOLUÇÕES
Qual a MELHOR solução? O que significa a palavra melhor aplicada à alinhamentos de sequencias? Conceito intuitivo Necessidade de DEFINIR matematicamente para poder medir e comparar
Qual a melhor solução? Pareados (matches) Não-pareados (mismatches) Não-alinhados ATCGGCATGCAGATCA ACGGATGCCATCA Pareados (matches) 3 Não-pareados (mismatches) 10 Não-alinhados 3
Qual a melhor solução? ATCGGCATGCAGATCA ACGGATGCCATCA Pareados (matches) 5 Não-pareados (mismatches) 8 Não-alinhados 3
Qual a melhor solução? ATCGGCATGCAGATCA A CGGATGCCATCA Pareados (matches) 6 Não-pareados (mismatches) 7 Não-alinhados 3
Qual a melhor solução? ATCGGCATGCAGATCA A CGG ATGCC ATCA Pareados (matches) 12 Não-pareados (mismatches) 1 Não-alinhados 3
Que alinhamento é melhor? ATCGGCATGCAGATCA ACGAGA ATCGGCATGCAGATCA A CG A G A Isso faz sentido?
Modificações no DNA Substituição (mutação pontual) Inserção de pequenos segmentos Deleção de pequenos segmentos Duplicação de segmentos Inversão Inserção de transposons Translocação
INDELS ATGCATTC AT CATTC Houve uma INSERÇÃO na primeira sequência ou uma DELEÇÃO na segunda? INSERÇÃO ou DELEÇÃO? INDEL!
Redefinindo os termos Pareados = idênticos Não-pareados = substituídos Não-alinhados = indels
Função Objetivo Idênticos (match) peso= +1 Substituídos (mismatch) peso= Indels peso= PENALIZAÇÃO
Exemplo
Quantos alinhamentos há entre duas sequencias com comprimentos m e n? min(n,m) F(n,m)=σ k=0 2 k F(2,1)=F(1,2)=5 F(4,2)=F(2,4)=41 F(8,4)=F(4,8)=3649 F(16,8)=F(8,16)=39490049 n k m k Para duas sequencias com comprimento maior que 107, o número é da ordem de 10 80 Torres-Iglesias et al., An exact Formula for the number of Alignments between two DNA sequences,
Como representar alinhamentos ACTG AC A Matriz de Alinhamento - A C T G - A X C X X A X
Exemplo ACTG ACA - A C T G - A X C X A X X Michel E. B. Yamagishi michel@cnptia.embrapa.br
Exemplo AC TG AC A - A C T G - A X C X A X X X Michel E. B. Yamagishi michel@cnptia.embrapa.br
Exemplo ACTG AC A - A C T G - 0 A 1 C 2 A 2 2 Michel E. B. Yamagishi michel@cnptia.embrapa.br
Exercício 2 Construa a Matriz de Alinhamento para as sequências abaixo, e procure o melhor alinhamento possível. ATCGCTGC TCCTG
- 0 T C C T G Soluções - A T C G C T G C 1 2 2 2 3 2 4 2 5 2 53 ATCGCTGC TC CTG
Como formalizar? Será que podemos pensar numa forma algoritmica de escrever a construção da matriz de alinhamento e a identificação do melhor alinhamento?
Alinhamento Global Needleman-Wunsch/Seller Referências: S. B. Needleman and C. D. Wunsch. A general method applicable to the search for similarities in the amino acid sequence of two proteins. J. Mol. Biol., 48:443 453, 1970 P. Sellers. On the theory and computation of evolutionary distances. SIAM J. Appl. Math., 26:787 793, 1974
Algoritmo de Alinhamento Global Dadas duas sequências A e B, a similaridade entre elas é dada pelo score A B a a 1 b b 1 2 2 a b 3 3 S( A, B) a n b m O score de alinhar as i primeiras letras de A com as j primeiras letras de B é S ( a a a a, b b b b 1 2 3 i 1 2 3 i, j j )
Michel E. B. Yamagishi michel@cnptia.embrapa.br Algoritmo de Alinhamento Global c a b i2 a 1 i a i a b j2 b j1 b j CASO a: j j i b b b b b a a a a ) ( ) ( 1 3 2 1 3 2 1 CASO b: ) ( ) ( 3 2 1 1 3 2 1 j i i b b b b a a a a a CASO c: j j i i b b b b b a a a a a ) ( ) ( 1 3 2 1 1 3 2 1
Algoritmo de Alinhamento Global j i j i j i b a se b a se b a s 1 ), ( ) ( ), ( ), ( indels b s a s j i Scores para casos específicos: No Alinhamento GLOBAL, indels serão inseridos sempre que necessário em uma ou em ambas as sequências até que as sequências finais tenham o mesmo comprimento.
Algoritmo de Alinhamento Global O melhor Alinhamento até as posições i e j corresponde S i, j ao valor máximo de para os casos a, b ou c: ai2 ai 1 ai b j2 b j1 c a S i, j S S S i1, j i1, j i, j1 1 s( a i, b j ) caso caso b casoa c b j b
Exemplo de Alinhamento Global Qual é o score máximo e o alinhamento correspondente para alinhar as sequências A=ATCGT e B=TGGTG? Use os scores abaixo: j i j i j i b a se b a se b a s 1 1 ), ( ) ( 2 ), ( ), ( indels b s a s j i
Exemplo de Alinhamento Global 0-0 1 A 2 T 3 C 4 G 5 T 0 1 2 3 4 5 - T G G T G -2-4 -6-8 -10-2 -4-6 -8-10 -1-3 -5-7 -9-1 -2-4 -4-6 -3-2 -3-5 -5-5 -2-1 -3-4 -7-4 -3 0-2 Michel E. B. Yamagishi michel@cnptia.embrapa.br
Exercício de Alinhamento Global Qual é o score máximo e o alinhamento correspondente para alinhar as sequências A=ATTCT e B=TCTTCTA? Use os scores abaixo: j i j i j i b a se b a se b a s 1 1 ), ( ) ( 2 ), ( ), ( indels b s a s j i
Pseudo Código para Alinhamento Input: seqüências A e B Global FaçaS i,0 i FaçaS0, j j Para i 1 até n Para j 1 até S i, j Max m S, S s( a, b ), S i1, j i1, j1 i j i, j1
Exercício Usando uma linguagem de programação de sua escolha, implemente o algoritmo de alinhamento global.
Alguns problemas O que aconteceria de fizessemos o alinhamento das duas sequencias abaixo? ATTACGGCGATGACGTGCACAATGGATG GATGACGTG Respostas?
Alguns problemas ATTACGGCGATGACGTGCACAATGGATG GATGACGTG A segunda sequência é uma substring da primeira Biologicamente faz sentido?
Algoritmo de Alinhamento Local REFERÊNCIA: Smith T. F. and Waterman, M. S. (1981) The identification of common molecular subsequences, J. Mol. Bio., 147: 195-197 4700 citações até 12/03/2018
Como resolver o problema? Como adaptar o algoritmo de alinhamento global para realizar alinhamentos locais? Michel E. B. Yamagishi Michel.Yamagishi@embrapa.br
Exercícios - Extras 1) Qual é o score máximo e o alinhamento correspondente para alinhar as sequências A=TCCAT e B=TTACA? Use match=+1, mismatch=-1 e indel = -2 2) Qual é o score máximo e o alinhamento correspondente para alinhar as sequências A=TGCTT e B=TAAGT? Use match=+1, mismatch=-1 e indel = -1 3) Qual é o score máximo e o alinhamento correspondente para alinhar as sequências A=TAGATGC e B=AGATC? Use match=+1, mismatch=-2 e indel = -1 4) Qual é o score máximo e o alinhamento correspondente para alinhar as sequências A=AAATCG e B=ATACA? Use match=+1, mismatch=-1 e indel = -1