BIOINFORMÁTICA. Métodos Computacionais em Bioinformática Aula: Alinhamento de Sequências

Documentos relacionados
Principais algoritmos de alinhamento de sequências genéticas. Alexandre dos Santos Cristino

TITULO: Implementação do alinhamento de proteínas em GPU utilizando OpenCL PROPOSTA DE TRABALHO DE GRADUAÇÃO

BIOINFORMÁTICA. Métodos Computacionais em Bioinformática Aula: Alinhamento de Sequências

Tópicos Especiais em Inteligência Artificial COS746. Vítor Santos Costa COPPE/Sistemas Universidade Federal do Rio de Janeiro

Alinhamento de Sequências e Genômica Comparativa

O que é Bioinformática?

Alinhamentos de sequências e Busca de Similaridade

Protein Homology detection by HMM-comparation.

Tópicos Especiais em Inteligência Artificial COS746. Vítor Santos Costa COPPE/Sistemas Universidade Federal do Rio de Janeiro

Modelação Molecular no Desenho de Fármacos 2018/2019

Biologia Molecular da Célula 1 Parte 2

Programa Analítico de Disciplina BQI460 Bioinformática

Alinhamento de seqüências

Métodos de alinhamento de sequências biológicas. Marcelo Falsarella Carazzolle

Alinhamentos de Múltiplas Seqüências. Rogério T. Brito Orientador: José A. R. Soares

TÍTULO: ANÁLISE DA SEMELHANÇA ESTRUTURAL ENTRE PROTEÍNAS ATRAVÉS DE MÉTODOS MATEMÁTICOS

BANCO DE DADOS BIOLÓGICOS Aula 11

Turma de terça-feira 14 hs. Total: 31 alunos

Alinhamento de sequências

Estudando partes das plantas ao microscópio descobre o núcleo das células.

A matemática e o genoma. Resumo

Bioinformática e Genética Animal. Pâmela A. Alexandre Doutoranda

Nucleotídeos, ácidos nucleicos e informação genética

Análise de dados provenientes de técnicas moleculares

Análises de DNA. O DNA e sua história. DNA nos remete a Hereditariedade. -Hipócrates ( a.c.): pangênese

PAULO EDUARDO BRANDÃO, PhD DEPARTAMENTO DE MEDICINA VETERINÁRIA PREVENTIVA E SAÚDE ANIMAL FACULDADE DE MEDICINA VETERINÁRIA E ZOOTECNIA UNIVERSIDADE

Biologia Genômica. 2º Semestre, Recombinação Homóloga e Sítio-Específica. Prof. Marcos Túlio

Sequenciamento do DNA e suas aplicações

Substituição de títulos da bibliografia do curso Engenharia Biomédica

Introdução à Bioinformática e Aplicações

Algoritmos Paralelos Exatos e Otimizações para Alinhamento de Sequências Biológicas Longas em Plataformas de Alto Desempenho

MODELOS PROBABILÍSTICOS

ALINHAMENTO DE SEQUÊNCIAS

Biologia evolutiva. Origem da variabilidade genética

* 1943 Oswald Avery provou que o DNA carregava

Algoritmos em Strings

Otimização com Algoritmos Evolutivos

ORGANIZAÇÃO DO GENOMA HUMANO. Departamento de Genética. Nilce M. Martinez Rossi

Bases de dados de interesse biológico

Bases de dados de interesse biológico

Bases da análise genômica

introdução ao curso

Estatística Computacional II

ESCLEROSE LATERAL AMIOTRÓFICA ANÁLISES IN SILICO DAS MUTAÇÕES A4V E A4F DA PROTEÍNA SOD1

Prof. Dr. Rodrigo Matheus Pereira. Faculdade de Ciências Biológicas e Ambentais FCBA-UFGD

Estudos das ômicas: Genômica; Transcriptomica; Metagenômica. Aula 7

Modelos Evolucionários e Tratamento de Incertezas

Bases da análise genômica: estado da arte

Bases da análise genômica: estado da arte

Montagem de regiões gênicas

Universidade Estadual de Maringá - UEM

Explorando genomas: predição de genes e elementos transponíveis Proporção de diferentes sequências no genoma

Bioinformática. Licenciaturas em Biologia, Bioquímica, Biotecnologia, Engenharia Biológica. João Varela

PCC104 - Projeto e Análise de Algoritmos

SISTEMÁTICA FILOGENÉTICA. Aula 6: inferência filogenética Parcimônia

Créditos. Introdução. Sumário. Agradecimento. Introdução. Análise de Expressão Gênica. Tecnologia de Microarray

Sumário. Parte I: O DNA Contém A Informação Biológica

Felipe Rodrigues da Silva. Fases da História da Genética

Comunicação Científica I

Origem da variação. Conceitos importantes. Diversidade Genética. Variação genética

Alinhamentos e Busca de Similaridade. Ariane Machado Lima

Bases de Dados. Freqüentemente usadas em. Bioinformática

IN-1131 Computação Evolucionária. Aluizio Fausto Ribeiro Araújo Universidade Federal de Pernambuco Centro de Informática

Montagem de Genomas. Prof. Dr. Alessandro Varani UNESP - FCAV

Técnicas para Comparação e Visualização de Similaridades entre Seqüências Genéticas

Alinhamento de Seqüências

1838: lê Ensaio sobre o princípio da população, de Thomas Malthus (1798)

MARCADORES MOLECULARES

ANÁLISE DE TANDEM REPEATS CODIFICANTES EM GENOMAS BACTERIANOS

Capítulo 4. Versão 0.7. Alinhamento entre duas sequências

IN Redes Neurais

Identificação de Padrões em Proteínas Utilizando a Ferramenta de Bioinformática CD- Search

Algoritmos Genéticos e Evolucionários

Origem da variação. Conceitos importantes. Variação Genética e Evolução. Deriva. Seleção. Mutação. Migração

English version at the end of this document

Aula Prática N 4. Gastrulação Protocolo da Aula 8 (08/05)

Unidade 5 Crescimento e Renovação Celular

Professor: Ricardo Lehtonen R. de Souza. Professora Daniela Morais Leme.

Dados Moleculares x Morfológicos

Motantagem de Contigs de sequências de genomas e Transcriptomas. Introdução

ESTUDOS DAS ÔMICAS: GENÔMICA VS TRANSCRIPTÔMICA E METAGENÔMICA. Aula 7. Maria Carolina Quecine Departamento de Genética

ENGENHARIA GENÉTICA 2016/2017

João Paulo de Freitas Araujo. Algoritmos para acelerar a computação de Árvores de corte de Gomory e Hu. Dissertação de Mestrado

Nada em Biologia faz sentido senão à luz da evolução.

Genômica. Desenvolvimento e Aplicações. Prof. Manoel Victor

Dimensionamento de ensaios de não inferioridade para o caso de grupos paralelos e resposta binária: algumas comparações

Computação Evolucionária

Aula Prática No 1. Introdução aos conceitos gerais de Biologia do Desenvolvimento

Unidade de Matemática e Tecnologia, Universidade Federal de Goiás Regional Catalão

Bioinformática 1. Prof. Dr. Walter F. de Azevedo Jr. Laboratório de Sistemas BioMoleculares. Departamento de Física. UNESP São José do Rio Preto. SP.

Organização Gênica de Eucariotos. Prof. Odir A. Dellagostin

DNA: estrutura. Johann Friedrich Miescher 1868 nucleína. Griffith F princípio transformante. Avery e col 1944 DNA - princípio transformante.

Histórico da Genética:

Nucleotídeos e Ácidos Nucleicos. Maiara Paparele dos Santos

Inteligência Artificial

Sequenciamento de genomas: princípios e métodos clássicos

O Ensino de Ciência da Computação. Práticas de ensino de algoritmos (Hazzan, Cap. 3 / EAD Cap. 2) Péricles Miranda

Prova de Seleção Mestrado LINGUA INGLESA 15/02/2016

Representação Interação-Transformação para Regressão Simbólica

Transcrição:

BIOINFORMÁTICA Métodos Computacionais em Bioinformática Aula: Alinhamento de Sequências Prof. Dr. Michel E. B. Yamagishi Michel E. B. Yamagishi michel.yamagishi@embrapa.br

EMENTA Alinhamento de Sequências (Aspectos Algoritmicos) Alinhamento Global (Algoritmo de Needleman-Wunsch) Alinhamento Local (Algoritmo de Waterman-Smith)

Referências Deonier, R. C., Tavaré and Waterman, M. S.; Computational Genome Analysis: An Introduction, Springer, 2005 Compeau, P.,Pevzner, P.; Bioinformatics Algorithms: An Active Learning Approach; Active Learning Publishers, Vol 1 & 2, Second Edition, 2015 (Vol 1 Chapter 5) Waterman, M. S.; Introduction Computational Biology, Chapman & Hall/CRC, 1995 Pevzner, A. P.; Computational Molecular Biology: An Algorithmic Approach, MIT Press, 2000

https://www.ncbi.nlm.nih.gov/class/mlacourse/modules/molbioreview/bioinformatics.html Bioinformática? (NCBI) Bioinformatics is the field of science in which biology, computer science, and information technology merge to form a single discipline. The ultimate goal of the field is to enable the discovery of new biological insights as well as to create a global perspective from which unifying principles in biology can be discerned.

DNA (DeoxyriboNucleic Acid) Johannes Friedrich Miescher (1844-1895) 1869 Descobre o DNA Em 1866, Ernst Haeckel conjecturou que o núcleo continha elementos responsáveis pela transmissão de caractrísticas hereditárias Miescher, Friedrich (1871). "Ueber die chemische Zusammensetzung der Eiterzellen". Medicinisch-chemische Untersuchungen 4: 441 460. Sobre a composição química de células de pus http://www.americanscientist.org/issues/feature/2008/4/the-first-discovery-of-dna/1

DNA (DeoxyriboNucleic Acid) Oswald Theodore Avery (1877-1955) 1944 DNA como unidade de transmissão de caracterísicas hereditárias Avery, O. T., MacLeod, C. M., McCarty, M. (1944) Studies on the chemical nature of the substance inducing transformation of pneumococal types, J. Exp. Med., 79, 137 Não recebeu o prêmio Nobel

DNA (DeoxyriboNucleic Acid) Erwin Chargaff (1905-2002) I saw before me in dark contours the beginning of a grammar of Biology 1 REGRA: Na dupla fita, A=T e C=G 2 REGRA: Na fita simples, A T e C G? Não recebeu o prêmio Nobel Erwin Chargaff (1950)

Generalização das Regras de Chargaff

DNA (DeoxyriboNucleic Acid) 1962 Prêmio Nobel de Medicina: "for their discoveries concerning the molecular structure of nucleic acids and its significance for information transfer in living material"

DNA (DeoxyriboNucleic Acid) 1953 - Barbara McClintock - Transposons? 1983 Nobel de Medicina: "for her discovery of mobile genetic elements"

DNA (DeoxyriboNucleic Acid) 1977 Frederick Sanger 1980 Nobel de Química (Segundo!!!!!) "for their contributions concerning the determination of base sequences in nucleic acids"

DNA (DeoxyriboNucleic Acid) 1946 - John Craig Venter EST (1991) Não recebeu o prêmio Nobel ainda! Human Genome (2001) Ocean Sampling Metagenomics (2003) First Diploid Human Genome (2007) Genome transplantation in Bacteria (2007) Synthetic Chromosome (2010) Synthetic Biology: Construction of a yeast chromosome (2014) Design and Synthesis of a minimal bacterial genome (2016) Deep sequencing of 10,000 human genomes (2016)... http://www.jcvi.org

DNA (DeoxyriboNucleic Acid) Modificações no DNA Mutações (SNPs) Deleções Inserções CNVs Duplicações Inversões Complexas

Pan-genome

http://www.nature.com/news/crispr-gene-editing-is-just-the-beginning-1.19510 DNA (DeoxyriboNucleic Acid) http://www.sciencemag.org/news/2017/02/how-battle-lines-over-crispr-were-drawn

MOTIVAÇÃO Mathematics is Biology s next Microscope, only better! Biology is Mathematics next Physics, only better! (Joel E. Cohen Rockefeller and Columbia Universities)

EVOLUÇÃO DNA-based phylogenetic tree Darwin C (1859) The Origin of Species by Means of Natural Selection, or the Preservation of Favoured Races in the Struggle for Life. Penguin Books, London. Sequence comparisons have revealed that evolution of the globin proteins parallels the evolution of vertebrates. Major junctions occurred with the divergence of myoglobin from hemoglobin and the later divergence of hemoglobin into the α and β subunits.

SELEÇÃO Seleção e evolução 17/04/2007 Agência FAPESP Uma comparação feita com 14 mil genes humanos e a mesma quantidade de genes do chimpanzé trouxe um resultado inusitado, para dizer o mínimo. O estudo concluiu que quem teve maior número de genes evoluídos a partir de um ancestral comum, de acordo com os processos de seleção natural, não foi o homem, mas sim o seu parente mais próximo. A descoberta vai contra o que sempre se acreditou: que o homem, por ter cérebro relativamente maior e habilidades cognitivas mais avançadas, seria mais favorecido pela seleção natural. O estudo representa um golpe na visão antropocêntrica de que um melhoramento genético grandioso explicaria a evolução humana. O estudo será publicado esta semana no site e em breve na edição impressa da revista Proceedings of the National Academy of Sciences (Pnas). A pesquisa ressalta que os humanos têm menos genes selecionados positivamente com maior eficiência para transmitir genes a gerações seguintes do que os chimpanzés. Margaret A. Bakewell, Peng Shi, and Jianzhi Zhang (2007) More genes underwent positive selection in chimpanzee evolution than in human evolution, PNAS, 104: 7489-7494 Eu sempre achei esses humanos muito arrogantes. Eles pensam que são o topo da Evolução. Cuitados! He, He, He Quando eles descobrirem o DNA, vão tomar um baita susto. Como se faz? Alinhamento de Sequências!

SEQUÊNCIAS CONSERVADAS LEGENDA: Hs, Homo sapiens; Rn, Rattus norvegicus; Tn, Tetraodon nigroviridis; Dm, Drosophila melanogaster; Am, Apis mellifera; Ce, Caenorhabditis elegans; Mm, Mus musculus; Xt, Xenopus tropicalis; Xl, Xenopus laevis; Gg, Gallus gallus. Fonte: EMBO Journal (2005) 24, 2839 2850 Conservação Importância? Como se faz? Alinhamento de Sequências!

ANOTAÇÃO COMO SE FAZ? Em alguns casos por Alinhamento de Sequências!

Exercício 1 Faça o Alinhamento das Seqüências abaixo: ATCGGCATGCAGATCA ACGGATGCCATCA VAMOS VER AS SOLUÇÕES

Qual a MELHOR solução? O que significa a palavra melhor aplicada à alinhamentos de sequencias? Conceito intuitivo Necessidade de DEFINIR matematicamente para poder medir e comparar

Qual a melhor solução? Pareados (matches) Não-pareados (mismatches) Não-alinhados ATCGGCATGCAGATCA ACGGATGCCATCA Pareados (matches) 3 Não-pareados (mismatches) 10 Não-alinhados 3

Qual a melhor solução? ATCGGCATGCAGATCA ACGGATGCCATCA Pareados (matches) 5 Não-pareados (mismatches) 8 Não-alinhados 3

Qual a melhor solução? ATCGGCATGCAGATCA A CGGATGCCATCA Pareados (matches) 6 Não-pareados (mismatches) 7 Não-alinhados 3

Qual a melhor solução? ATCGGCATGCAGATCA A CGG ATGCC ATCA Pareados (matches) 12 Não-pareados (mismatches) 1 Não-alinhados 3

Que alinhamento é melhor? ATCGGCATGCAGATCA ACGAGA ATCGGCATGCAGATCA A CG A G A Isso faz sentido?

Modificações no DNA Substituição (mutação pontual) Inserção de pequenos segmentos Deleção de pequenos segmentos Duplicação de segmentos Inversão Inserção de transposons Translocação

INDELS ATGCATTC AT CATTC Houve uma INSERÇÃO na primeira sequência ou uma DELEÇÃO na segunda? INSERÇÃO ou DELEÇÃO? INDEL!

Redefinindo os termos Pareados = idênticos Não-pareados = substituídos Não-alinhados = indels

Função Objetivo Idênticos (match) peso= +1 Substituídos (mismatch) peso= Indels peso= PENALIZAÇÃO

Exemplo

Quantos alinhamentos há entre duas sequencias com comprimentos m e n? min(n,m) F(n,m)=σ k=0 2 k F(2,1)=F(1,2)=5 F(4,2)=F(2,4)=41 F(8,4)=F(4,8)=3649 F(16,8)=F(8,16)=39490049 n k m k Para duas sequencias com comprimento maior que 107, o número é da ordem de 10 80 Torres-Iglesias et al., An exact Formula for the number of Alignments between two DNA sequences,

Como representar alinhamentos ACTG AC A Matriz de Alinhamento - A C T G - A X C X X A X

Exemplo ACTG ACA - A C T G - A X C X A X X Michel E. B. Yamagishi michel@cnptia.embrapa.br

Exemplo AC TG AC A - A C T G - A X C X A X X X Michel E. B. Yamagishi michel@cnptia.embrapa.br

Exemplo ACTG AC A - A C T G - 0 A 1 C 2 A 2 2 Michel E. B. Yamagishi michel@cnptia.embrapa.br

Exercício 2 Construa a Matriz de Alinhamento para as sequências abaixo, e procure o melhor alinhamento possível. ATCGCTGC TCCTG

- 0 T C C T G Soluções - A T C G C T G C 1 2 2 2 3 2 4 2 5 2 53 ATCGCTGC TC CTG

Como formalizar? Será que podemos pensar numa forma algoritmica de escrever a construção da matriz de alinhamento e a identificação do melhor alinhamento?

Alinhamento Global Needleman-Wunsch/Seller Referências: S. B. Needleman and C. D. Wunsch. A general method applicable to the search for similarities in the amino acid sequence of two proteins. J. Mol. Biol., 48:443 453, 1970 P. Sellers. On the theory and computation of evolutionary distances. SIAM J. Appl. Math., 26:787 793, 1974

Algoritmo de Alinhamento Global Dadas duas sequências A e B, a similaridade entre elas é dada pelo score A B a a 1 b b 1 2 2 a b 3 3 S( A, B) a n b m O score de alinhar as i primeiras letras de A com as j primeiras letras de B é S ( a a a a, b b b b 1 2 3 i 1 2 3 i, j j )

Michel E. B. Yamagishi michel@cnptia.embrapa.br Algoritmo de Alinhamento Global c a b i2 a 1 i a i a b j2 b j1 b j CASO a: j j i b b b b b a a a a ) ( ) ( 1 3 2 1 3 2 1 CASO b: ) ( ) ( 3 2 1 1 3 2 1 j i i b b b b a a a a a CASO c: j j i i b b b b b a a a a a ) ( ) ( 1 3 2 1 1 3 2 1

Algoritmo de Alinhamento Global j i j i j i b a se b a se b a s 1 ), ( ) ( ), ( ), ( indels b s a s j i Scores para casos específicos: No Alinhamento GLOBAL, indels serão inseridos sempre que necessário em uma ou em ambas as sequências até que as sequências finais tenham o mesmo comprimento.

Algoritmo de Alinhamento Global O melhor Alinhamento até as posições i e j corresponde S i, j ao valor máximo de para os casos a, b ou c: ai2 ai 1 ai b j2 b j1 c a S i, j S S S i1, j i1, j i, j1 1 s( a i, b j ) caso caso b casoa c b j b

Exemplo de Alinhamento Global Qual é o score máximo e o alinhamento correspondente para alinhar as sequências A=ATCGT e B=TGGTG? Use os scores abaixo: j i j i j i b a se b a se b a s 1 1 ), ( ) ( 2 ), ( ), ( indels b s a s j i

Exemplo de Alinhamento Global 0-0 1 A 2 T 3 C 4 G 5 T 0 1 2 3 4 5 - T G G T G -2-4 -6-8 -10-2 -4-6 -8-10 -1-3 -5-7 -9-1 -2-4 -4-6 -3-2 -3-5 -5-5 -2-1 -3-4 -7-4 -3 0-2 Michel E. B. Yamagishi michel@cnptia.embrapa.br

Exercício de Alinhamento Global Qual é o score máximo e o alinhamento correspondente para alinhar as sequências A=ATTCT e B=TCTTCTA? Use os scores abaixo: j i j i j i b a se b a se b a s 1 1 ), ( ) ( 2 ), ( ), ( indels b s a s j i

Pseudo Código para Alinhamento Input: seqüências A e B Global FaçaS i,0 i FaçaS0, j j Para i 1 até n Para j 1 até S i, j Max m S, S s( a, b ), S i1, j i1, j1 i j i, j1

Exercício Usando uma linguagem de programação de sua escolha, implemente o algoritmo de alinhamento global.

Alguns problemas O que aconteceria de fizessemos o alinhamento das duas sequencias abaixo? ATTACGGCGATGACGTGCACAATGGATG GATGACGTG Respostas?

Alguns problemas ATTACGGCGATGACGTGCACAATGGATG GATGACGTG A segunda sequência é uma substring da primeira Biologicamente faz sentido?

Algoritmo de Alinhamento Local REFERÊNCIA: Smith T. F. and Waterman, M. S. (1981) The identification of common molecular subsequences, J. Mol. Bio., 147: 195-197 4700 citações até 12/03/2018

Como resolver o problema? Como adaptar o algoritmo de alinhamento global para realizar alinhamentos locais? Michel E. B. Yamagishi Michel.Yamagishi@embrapa.br

Exercícios - Extras 1) Qual é o score máximo e o alinhamento correspondente para alinhar as sequências A=TCCAT e B=TTACA? Use match=+1, mismatch=-1 e indel = -2 2) Qual é o score máximo e o alinhamento correspondente para alinhar as sequências A=TGCTT e B=TAAGT? Use match=+1, mismatch=-1 e indel = -1 3) Qual é o score máximo e o alinhamento correspondente para alinhar as sequências A=TAGATGC e B=AGATC? Use match=+1, mismatch=-2 e indel = -1 4) Qual é o score máximo e o alinhamento correspondente para alinhar as sequências A=AAATCG e B=ATACA? Use match=+1, mismatch=-1 e indel = -1