Alinhamentos de sequências e Busca de Similaridade

Documentos relacionados
Alinhamentos e Busca de Similaridade. Ariane Machado Lima

Métodos de alinhamento de sequências biológicas. Marcelo Falsarella Carazzolle

Principais algoritmos de alinhamento de sequências genéticas. Alexandre dos Santos Cristino

Alinhamento de seqüências

Alinhamento de sequências

Protein Homology detection by HMM-comparation.

Identificação de genes por similaridade de seqüência

Comparação entre sequências biológicas

TITULO: Implementação do alinhamento de proteínas em GPU utilizando OpenCL PROPOSTA DE TRABALHO DE GRADUAÇÃO

Nada em Biologia faz sentido senão à luz da evolução.

alinhamento global-alinhamento múltiplo de seqüências

Programas de Alinhamento. Sumário

ALINHAMENTO DE SEQUÊNCIAS

Biologia Molecular Computacional Homologia

Análise de significância de. alinhamentos

Tópicos Especiais em Inteligência Artificial COS746. Vítor Santos Costa COPPE/Sistemas Universidade Federal do Rio de Janeiro

Alinhamento local- Utilização do BLAST

Tópicos Especiais em Inteligência Artificial COS746. Vítor Santos Costa COPPE/Sistemas Universidade Federal do Rio de Janeiro

Resumo - capítulo 3 - Alinhamento de pares de sequências

Alinhamento de Seqüências

Comparação e alinhamento de. sequências

Bioinformática. Licenciaturas em Biologia, Bioquímica, Biotecnologia, Engenharia Biológica. João Varela

Busca em banco de dados

Dados Moleculares x Morfológicos

Marcelo Reis. Centro APTA Citros Sylvio Moreira. 18 de julho de 2007

Explorando genomas: predição de genes e elementos transponíveis Proporção de diferentes sequências no genoma

Alinhamento de Sequências e Genômica Comparativa

PAULO EDUARDO BRANDÃO, PhD DEPARTAMENTO DE MEDICINA VETERINÁRIA PREVENTIVA E SAÚDE ANIMAL FACULDADE DE MEDICINA VETERINÁRIA E ZOOTECNIA UNIVERSIDADE

Comparação e alinhamento de sequências

Programa Analítico de Disciplina BQI460 Bioinformática

Busca em banco de dados

Elisa Boari de Lima Orientador: Thiago de Souza Rodrigues

DEFINIÇÕES EM EPIDEMIOLOGIA MOLECULAR E CONCEITOS BÁSICOS EM BIOLOGIA MOLECULAR

Bioinformática. Alinhamento de Sequências. Prof. Msc. Rommel Ramos

Alinhamento de Seqüências Biológicas

Bioinformática para o Citrus EST Project (CitEST)

Capítulo 4. Versão 0.7. Alinhamento entre duas sequências

P E R N AMBUCO UMA FERRAMENTA WEB PARA INFERÊNCIA DE HAPLÓTIPOS PROPOSTA DE TRABALHO DE GRADUAÇÃO

Alinhamentos de Múltiplas Seqüências. Rogério T. Brito Orientador: José A. R. Soares

English version at the end of this document

MARCADORES MOLECULARES

Prof. João Carlos Setubal

Explorando bancos de dados genômicos e introdução à bioinformática. Guilherme Targino Valente Marcos Tadeu Geraldo. Bioinformática

UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS BIOLÓGICAS E DA SAÚDE PROGRAMA DE PÓS-GRADUAÇÃO EM GENÉTICA E EVOLUÇÃO

Ancoragem de genomas incompletos em genomas completos

Identificação de Padrões em Proteínas Utilizando a Ferramenta de Bioinformática CD- Search

Cap. 6: Métodos para alinhamento de múltiplas seqüências

Análise de dados provenientes de técnicas moleculares

Estrutura covalente de proteínas estrutura tridimensional. Proteina: estrutura covalente com muitas restrições conformacionais

A ABSTRACÇÃO É NOSSA AMIGA

Anotação de Genomas. Fabiana G. S. Pinto

Técnicas para Comparação e Visualização de Similaridades entre Seqüências Genéticas

UFPel CDTec Biotecnologia. Anotação de genomas. MSc. Frederico schmitt Kremer

Sequenciamento Montagem Anotação

Capítulo 8. Versão 0.4. Filogenômica

Capítulo 6. Alinhamentos múltiplos de sequências macromoleculares.

Resumo - capítulo 4 - Alinhamento múltiplo de sequências

MARCADORES MOLECULARES: DO MELHORAMENTO A CONSERVAÇÃO. Aula 10. Maria Carolina Quecine Departamento de Genética

Comparação de sequências

Transcritômica. João Carlos Setubal IQ/USP outubro de 2013

Este capítulo possui uma discussão preliminar do contexto biológico necessário para o entendimento e motivação deste trabalho.

2 Contexto e Motivações

Universidade Federal do Espírito Santo Centro de Ciências da Saúde Programa de Pós-Graduação em Biotecnologia

VIVIAN MAYUMI YAMASSAKI PEREIRA. Reconstrução filogenética de procariotos com base em famílias de genes

Alinhamento de Sequências de Proteínas. Modelagem por homologia Estratégia/aplicação Etapas do processo Exemplo

Identificação de fatores de transcrição a partir de dados de expressão.

IBM1029 Introdução à Bioinformática. O Início da Bioinformática 27/03/2017. Aula 2. O Início. Bioionformática: definição

Princípios de Sistemática Molecular

1164 BIOLOGIA ESTRUTURAL Aula 4 Prof. Dr. Valmir Fadel

2 Contexto Biológico Genômica

PRISCILLA KOCH WAGNER. Uma nova abordagem para identificação da provável origem de genes exclusivos de bactérias

Motantagem de Contigs de sequências de genomas e Transcriptomas. Introdução

Predição Computacional de alvos de mirnas. Predição Computacional de de alvos de de mirnas

Busca de motivos em sequências. João Carlos Setubal IQ-USP 2014

Nome da atividade: Identificação de uma proteína a partir da sua seqüência nucleotídica e determinação da sua estrutura e função

Bioinformática. João Varela Aula T7

Protein Classification Tool: Uma ferramenta para anotação de proteínas utilizando bases secundárias

Bioinformática DCC/FCUP

Anotação de genomas II

Profa. Dra. Cecília Dias Flores

MODELOS PROBABILÍSTICOS

A matemática e o genoma. Resumo

Universidade Federal do Espírito Santo Programa de Pós Graduação em Biotecnologia Bioinformática. Kellyn Joselyn Andino Lopez Mariana Lugon Lima

Banco de Dados Biológicos

O que é Bioinformática?

Instruções 6 Técnicas

ANÁLISE ESTRUTURAL IN SILICO

Universidade Estadual de Maringá - UEM

IACB 1º Semestre de 2014/2015. Exercicios de Preparação para o Teste 1

3 Análise do programa BlastP

Codificação de Seqüências de Aminoácidos e sua Aplicação na Classificação de Proteínas com Redes Neurais Artificiais. Thiago de Souza Rodrigues

Busca de motivos em sequências. João Carlos Setubal 2015

IDENTIFICAÇÃO ESTRUTURAL EM REDES DE PROTEÍNAS

Resumo - capítulo 5 - Predição da estrutura secundária do RNA

Introdução a Bioinformática

CONHECIMENTOS ESPECÍFICOS

Sequenciamento de genoma e transcriptomas

ESCLEROSE LATERAL AMIOTRÓFICA ANÁLISES IN SILICO DAS MUTAÇÕES A4V E A4F DA PROTEÍNA SOD1

Turma de terça-feira 14 hs. Total: 31 alunos

Transcrição:

Alinhamentos de sequências e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e Humanidades - USP

Contexto http://www.ekac.org/gene.html http://www.fuzzco.com/news/wp-content/uploads/27//genome.jpg

Contexto

Buscas por sequências (o sentido biológico) Busca de identidade: SABER o que é, onde está, etc. Busca de similaridade: INFERIR o que é

Busca de identidade Comparar 2 sequências para saber se: são iguais possuem uma subsequência em comum

Exemplo Localização de subsequência sequência genoma

Exemplo Localização de subsequência sequência genoma

Exemplo Localização de subsequência sequência genoma BUSCA POR IDENTIDADE

Exemplo 2 Como faço para saber que proteína é essa? MMETERLVLPPPDPLDLPLRAVELGCTGHWELLNLPGAPESSLPHGLPPCAPDLQQEAEQLFLSSPAWLPLHGVEHSARKW QRKTDPWSLLAVLGAPVPSDLQAQRHPTTGQILGYKEVLLENTNLSATTSLSLRRPPGPASQSLWGNPTRYPFWPGGM DEPTITDLNTREEAEEEIDFEKDLLTIPPGFKKGMDFAPKDCPTPAPGLLSLSCLLEPLDLGGGDEDENEAVGQPGGPRG DTVSASPCSAPLARASSLEDLVLKEASTAVSTPEAPEPPSQEQWAIPVDATSPVGDFYRLIPQPAFQWAFEPDVFQKQAI LHLERHDSVFVAAHTSAGKTVVAEYAIALAQKHMTRTIYTSPIKALSNQKFRDFRNTFGDVGLLTGDVQLHPEASCLIMTT EILRSMLYSGSDVIRDLEWVIFDEVHYINDVERGVVWEEVLIMLPDHVSIILLSATVPNALEFADWIGRLKRRQIYVISTVTR PVPLEHYLFTGNSSKTQGELFLLLDSRGAFHTKGYYAAVEAKKERMSKHAQTFGAKQPTHQGGPAQDRGVYLSLLASL RTRAQLPVVVFTFSRGRCDEQASGLTSLDLTTSSEKSEIHLFLQRCLARLRGSDRQLPQVLQMSELLNRGLGVHHSGILP ILKEIVEMLFSRGLVKVLFATETFAMGVNMPARTVVFDSMRKHDGSTFRDLLPGEYVQMAGRAGRRGLDPTGTVILLCK GRVPEMADLHRMMMGKPSQLQSQFRLTYTMILNLLRVDALRVEDMMKRSFSEFPSRKDSKAHEQALAELTKRLGALEE PDMTGQLVDLPEYYSWGEELTETQHMIQRRIMESVNGLKSLSAGRVVVVKNQEHHNALGVILQVSSNSTSRVFTTLVLC DKPLSQDPQDRGPATAEVPYPDDLVGFKLFLPEGPCDHTVVKLQPGDMAAITTKVLRVNGEKILEDFSKRQQPKFKKDP PLAAVTTAVQELLRLAQAHPAGPPTLDPVNDLQLKDMSVVEGGLRARKLEELIQGAQCVHSPRFPAQYLKLRERMQIQK EMERLRFLLSDQSLLLFPEYHQRVEVLRTLGYVDEAGTVKLAGRVACAMSSHELLLTELMFDNALSTLRPEEIAALLSGLV CQSPGDAGDQLPNTLKQGIERVRAVAKRIGEVQVACGLNQTVEEFVGELNFGLVEVVYEWARGMPFSELAGLSGTPEG LVVRCIQRLAEMCRSLRGAARLVGEPVLGAKMETAATLLRRDIVFAASLYTQ

Exemplo 2 Como faço para saber que proteína é essa? MMETERLVLPPPDPLDLPLRAVELGCTGHWELLNLPGAPESSLPHGLPPCAPDLQQEAEQLFLSSPAWLPLHGVEHSARKW QRKTDPWSLLAVLGAPVPSDLQAQRHPTTGQILGYKEVLLENTNLSATTSLSLRRPPGPASQSLWGNPTRYPFWPGGM DEPTITDLNTREEAEEEIDFEKDLLTIPPGFKKGMDFAPKDCPTPAPGLLSLSCLLEPLDLGGGDEDENEAVGQPGGPRG DTVSASPCSAPLARASSLEDLVLKEASTAVSTPEAPEPPSQEQWAIPVDATSPVGDFYRLIPQPAFQWAFEPDVFQKQAI LHLERHDSVFVAAHTSAGKTVVAEYAIALAQKHMTRTIYTSPIKALSNQKFRDFRNTFGDVGLLTGDVQLHPEASCLIMTT EILRSMLYSGSDVIRDLEWVIFDEVHYINDVERGVVWEEVLIMLPDHVSIILLSATVPNALEFADWIGRLKRRQIYVISTVTR PVPLEHYLFTGNSSKTQGELFLLLDSRGAFHTKGYYAAVEAKKERMSKHAQTFGAKQPTHQGGPAQDRGVYLSLLASL RTRAQLPVVVFTFSRGRCDEQASGLTSLDLTTSSEKSEIHLFLQRCLARLRGSDRQLPQVLQMSELLNRGLGVHHSGILP ILKEIVEMLFSRGLVKVLFATETFAMGVNMPARTVVFDSMRKHDGSTFRDLLPGEYVQMAGRAGRRGLDPTGTVILLCK GRVPEMADLHRMMMGKPSQLQSQFRLTYTMILNLLRVDALRVEDMMKRSFSEFPSRKDSKAHEQALAELTKRLGALEE PDMTGQLVDLPEYYSWGEELTETQHMIQRRIMESVNGLKSLSAGRVVVVKNQEHHNALGVILQVSSNSTSRVFTTLVLC DKPLSQDPQDRGPATAEVPYPDDLVGFKLFLPEGPCDHTVVKLQPGDMAAITTKVLRVNGEKILEDFSKRQQPKFKKDP PLAAVTTAVQELLRLAQAHPAGPPTLDPVNDLQLKDMSVVEGGLRARKLEELIQGAQCVHSPRFPAQYLKLRERMQIQK EMERLRFLLSDQSLLLFPEYHQRVEVLRTLGYVDEAGTVKLAGRVACAMSSHELLLTELMFDNALSTLRPEEIAALLSGLV CQSPGDAGDQLPNTLKQGIERVRAVAKRIGEVQVACGLNQTVEEFVGELNFGLVEVVYEWARGMPFSELAGLSGTPEG LVVRCIQRLAEMCRSLRGAARLVGEPVLGAKMETAATLLRRDIVFAASLYTQ Posso procurá-la em bancos de proteínas anotadas (procuro por ela, ou seja, por uma sequência idêntica)

Exemplo 2 Como faço para saber que proteína é essa? MMETERLVLPPPDPLDLPLRAVELGCTGHWELLNLPGAPESSLPHGLPPCAPDLQQEAEQLFLSSPAWLPLHGVEHSARKW QRKTDPWSLLAVLGAPVPSDLQAQRHPTTGQILGYKEVLLENTNLSATTSLSLRRPPGPASQSLWGNPTRYPFWPGGM DEPTITDLNTREEAEEEIDFEKDLLTIPPGFKKGMDFAPKDCPTPAPGLLSLSCLLEPLDLGGGDEDENEAVGQPGGPRG DTVSASPCSAPLARASSLEDLVLKEASTAVSTPEAPEPPSQEQWAIPVDATSPVGDFYRLIPQPAFQWAFEPDVFQKQAI LHLERHDSVFVAAHTSAGKTVVAEYAIALAQKHMTRTIYTSPIKALSNQKFRDFRNTFGDVGLLTGDVQLHPEASCLIMTT EILRSMLYSGSDVIRDLEWVIFDEVHYINDVERGVVWEEVLIMLPDHVSIILLSATVPNALEFADWIGRLKRRQIYVISTVTR PVPLEHYLFTGNSSKTQGELFLLLDSRGAFHTKGYYAAVEAKKERMSKHAQTFGAKQPTHQGGPAQDRGVYLSLLASL RTRAQLPVVVFTFSRGRCDEQASGLTSLDLTTSSEKSEIHLFLQRCLARLRGSDRQLPQVLQMSELLNRGLGVHHSGILP ILKEIVEMLFSRGLVKVLFATETFAMGVNMPARTVVFDSMRKHDGSTFRDLLPGEYVQMAGRAGRRGLDPTGTVILLCK GRVPEMADLHRMMMGKPSQLQSQFRLTYTMILNLLRVDALRVEDMMKRSFSEFPSRKDSKAHEQALAELTKRLGALEE PDMTGQLVDLPEYYSWGEELTETQHMIQRRIMESVNGLKSLSAGRVVVVKNQEHHNALGVILQVSSNSTSRVFTTLVLC DKPLSQDPQDRGPATAEVPYPDDLVGFKLFLPEGPCDHTVVKLQPGDMAAITTKVLRVNGEKILEDFSKRQQPKFKKDP PLAAVTTAVQELLRLAQAHPAGPPTLDPVNDLQLKDMSVVEGGLRARKLEELIQGAQCVHSPRFPAQYLKLRERMQIQK EMERLRFLLSDQSLLLFPEYHQRVEVLRTLGYVDEAGTVKLAGRVACAMSSHELLLTELMFDNALSTLRPEEIAALLSGLV CQSPGDAGDQLPNTLKQGIERVRAVAKRIGEVQVACGLNQTVEEFVGELNFGLVEVVYEWARGMPFSELAGLSGTPEG LVVRCIQRLAEMCRSLRGAARLVGEPVLGAKMETAATLLRRDIVFAASLYTQ Posso procurá-la em bancos de proteínas anotadas (procuro por ela, ou seja, por uma sequência idêntica) BUSCA POR IDENTIDADE

Exemplo 3 Como faço para saber que proteína é essa? MMETERLVLPPPDPLDLPLRAVELGCTGHWELLNLPGAPESSLPHGLPPCAPDLQQEAEQLFLSSPAWLPLHGVEHSARKW QRKTDPWSLLAVLGAPVPSDLQAQRHPTTGQILGYKEVLLENTNLSATTSLSLRRPPGPASQSLWGNPTRYPFWPGGM DEPTITDLNTREEAEEEIDFEKDLLTIPPGFKKGMDFAPKDCPTPAPGLLSLSCLLEPLDLGGGDEDENEAVGQPGGPRG DTVSASPCSAPLARASSLEDLVLKEASTAVSTPEAPEPPSQEQWAIPVDATSPVGDFYRLIPQPAFQWAFEPDVFQKQAI LHLERHDSVFVAAHTSAGKTVVAEYAIALAQKHMTRTIYTSPIKALSNQKFRDFRNTFGDVGLLTGDVQLHPEASCLIMTT EILRSMLYSGSDVIRDLEWVIFDEVHYINDVERGVVWEEVLIMLPDHVSIILLSATVPNALEFADWIGRLKRRQIYVISTVTR PVPLEHYLFTGNSSKTQGELFLLLDSRGAFHTKGYYAAVEAKKERMSKHAQTFGAKQPTHQGGPAQDRGVYLSLLASL RTRAQLPVVVFTFSRGRCDEQASGLTSLDLTTSSEKSEIHLFLQRCLARLRGSDRQLPQVLQMSELLNRGLGVHHSGILP ILKEIVEMLFSRGLVKVLFATETFAMGVNMPARTVVFDSMRKHDGSTFRDLLPGEYVQMAGRAGRRGLDPTGTVILLCK GRVPEMADLHRMMMGKPSQLQSQFRLTYTMILNLLRVDALRVEDMMKRSFSEFPSRKDSKAHEQALAELTKRLGALEE PDMTGQLVDLPEYYSWGEELTETQHMIQRRIMESVNGLKSLSAGRVVVVKNQEHHNALGVILQVSSNSTSRVFTTLVLC DKPLSQDPQDRGPATAEVPYPDDLVGFKLFLPEGPCDHTVVKLQPGDMAAITTKVLRVNGEKILEDFSKRQQPKFKKDP PLAAVTTAVQELLRLAQAHPAGPPTLDPVNDLQLKDMSVVEGGLRARKLEELIQGAQCVHSPRFPAQYLKLRERMQIQK EMERLRFLLSDQSLLLFPEYHQRVEVLRTLGYVDEAGTVKLAGRVACAMSSHELLLTELMFDNALSTLRPEEIAALLSGLV CQSPGDAGDQLPNTLKQGIERVRAVAKRIGEVQVACGLNQTVEEFVGELNFGLVEVVYEWARGMPFSELAGLSGTPEG LVVRCIQRLAEMCRSLRGAARLVGEPVLGAKMETAATLLRRDIVFAASLYTQ Posso procurá-la em bancos de proteínas anotadas (procuro por ela, ou seja, por uma sequência idêntica) E SE EU NÃO ENCONTRASSE UMA IDÊNTICA, MAS UMA SIMILAR?

Inferência de função a partir de similaridade

Inferência de função a partir de similaridade

Inferência de função a partir de similaridade

Nem sempre funciona...

2 sequências cacttttaactctctttccaaagtccttttcatctttccttcacagtacttgttcactat cacttttaactctctttccaaagaacttttcatctttccctcacggtacttgtttgctat

Processo evolutivo

Homologia, paralogia e ortologia Homologia: 2 sequências são homólogas se elas possuem uma sequência ancestral comum Ortologia Paralogia

Ortologia: homologia por especiação

Paralogia: homologia por duplicação

Homologia, paralogia e ortologia Paralogia Ortologia

Aplicações de busca de similaridade Predição de genes Predição de estrutura de proteínas de RNA/DNA Inferência de árvores filogenéticas Busca de polimorfismos / marcadores

Identidade, similaridade e homologia CUIDADO: Se duas (ou mais) sequências são parecidas: elas podem ser homólogas elas podem ter funções similares elas podem ter a mesma estrutura

Como encontrar identidade e similaridade?

Como encontrar identidade e similaridade? ALINHAMENTOS!

Alinhamentos de 2 sequências Deixar 2 sequências o mais parecidas possível Ajustando as posições de suas letras, se necessário usando espaços: ROSAVERMELHA AMOROSOVERME

Alinhamentos de 2 sequências Deixar 2 sequências o mais parecidas possível Ajustando as posições de suas letras, se necessário usando espaços: ROSAVERMELHA AMOROSOVERME ---ROSAVERMELHA AMOROSOVERME---

ROSAVERMELHA AMOROSOVERME ---ROSAVERMELHA AMOROSOVERME--- Alinhamentos permitem comparações entre as sequências Identidade Similaridade

ROSAVERMELHA AMOROSOVERME ---ROSAVERMELHA AMOROSOVERME--- Identidade: 8% (/2) Identidade: 53% (8/5)

Sistema de scores Pontos para match (ex: +2) Penalidades para mismatch (ex: ) Penalidades para gap abertura (ex: ) extensão (ex: )

ROSAVERMELHA AMOROSOVERME ---ROSAVERMELHA AMOROSOVERME--- Identidade: 8% (/2) SCORE:??? Identidade: 53% (8/5) SCORE:???

ROSAVERMELHA AMOROSOVERME ---ROSAVERMELHA AMOROSOVERME--- Identidade: 8% (/2) SCORE: -9 Identidade: 53% (8/5) SCORE:???

ROSAVERMELHA AMOROSOVERME ---ROSAVERMELHA AMOROSOVERME--- Identidade: 8% (/2) SCORE: -9 Identidade: 53% (8/5) SCORE: +3

ROSAVERMELHA AMOROSOVERME ---ROSAVERMELHA AMOROSOVERME--- Identidade: 8% (/2) SCORE: -9 Identidade: 53% (8/5) SCORE: +3 Para um dado sistema de score, calculo o alinhamento de maior score (alinhamento ótimo) PROBLEMA DE OTIMIZAÇÃO

Similaridade entre os aminoácidos

Matrizes de score (matrizes de substituição de aa) Matrizes 2x2 Algumas matrizes: PAMs BLOSUMs

Reference: Henikoff, S. and Henikoff, J. G. (992). Amino acid substitution matrices from protein blocks. Proc. Natl. Acad. Sci. USA 89: 9599. A R N D C Q E G H I L K M F P S T W Y V B Z X * A 4 R 5 2 N 6 3 D 6 2 4 C 9 Q 5 2 3 E 2 2 5 4 G 6 H 8 2 I 4 2 3 L 2 4 2 K 2 5 M 2 5 F 6 3 P 7 S 4 T 5 W 2 Y 2 3 2 7 V 3 4 B 3 4 4 Z 3 4 4 X *

Matrizes de score (matrizes de substitição de aa) Matrizes 2x2 Algumas matrizes: PAMs BLOSUMs Também pode usar matrizes de nucleotídeos...

Matrizes de score (matrizes de substitição de aa) Matrizes 2x2 Algumas matrizes: PAMs BLOSUMs Veremos sobre essas matrizes mais adiante... Também pode usar matrizes de nucleotídeos...

Identidade, similaridade e homologia Tipo de Medida Sentido Identidade Quantitativa quantos idênticos Similaridade Quantitativa quantos parecidos Homologia QUALITATIVA TEM ou NÃO TEM um ancestral comum

Alinhamentos Pairwise: 2 sequências Múltiplo: mais de 2 sequências

Tipos de alinhamentos Global Semi-global Local

Alinhamento global QUERIDA---ROSAVERMELHA QUEROUMAMOROSOVERME---

Alinhamento global Aplicação: comparar 2 proteínas (ex. para inferir estrutura secundária)

Estrutura 3D de proteínas

Alinhamento global Aplicação: comparar 2 proteínas (ex. para inferir estrutura secundária)

Alinhamento múltiplo

Alinhamento pairwise global Algoritmo Exato: Needleman-Wunsch (pairwise) Programas: needle (EMBOSS) stretcher (EMBOSS) (demora mais, mas economiza memória) FASTA Outros de alinhamento múltiplo

Alinhamento múltiplo (global) Ferramentas normalmente usadas NÃO SÃO EXATAS! Necessita alguma edição manual Parece não haver um consistentemente melhor que todos

Alinhamento múltiplo (global) Algumas ferramentas: ClustalW / ClustalX T-Coffee Muscle

ClustalX Alinhar helicases_humanas.fasta Alinhar dicers.fasta

Alinhamento global Outras aplicações Identificação de SNPs (single nucleotide polimorphism) e outros polimorfismos Identificação de domínios proteicos mais conservados Identificação de isoformas Construção de árvores filogenéticas

Helicases humanas (SNPs)

Várias helicases (domínios)

Várias helicases (domínios)

Identificação de isoformas

Identificação de isoformas

Outra aplicação Criação de modelos e identificação de RNAs não codificantes (ou outros elementos) com estrutura secundária Ex: micrornas

Alinhamento estrutural

Alinhamento semi-global ---ROSAVERMELHA AMOROSOVERME---

Alinhamento semi-global Aplicação: montagem de genomas!

Sequenciamento shot-gun

Alinhamento semi-global Aplicação: montagem de genomas!

Alinhamento local QUERIDA---ROSAVERMELHA QUEROUMAMOROSOVERME--QUER QUER ROSAVERME ROSOVERME

Alinhamento local Aplicações: Encontrar um gene em um genoma sequência genoma

Alinhamento local Aplicações: Identificar possíveis homólogos em um banco de dados MMETERLVLPPPDPLDLPLRAVELGCTGHWELLNLPGAPESSLPHGLPPCAPDLQQEAEQLFLSSPAWLPLHGVEHSARKW QRKTDPWSLLAVLGAPVPSDLQAQRHPTTGQILGYKEVLLENTNLSATTSLSLRRPPGPASQSLWGNPTRYPFWPGGMDEP TITDLNTREEAEEEIDFEKDLLTIPPGFKKGMDFAPKDCPTPAPGLLSLSCLLEPLDLGGGDEDENEAVGQPGGPRGDTVSAS PCSAPLARASSLEDLVLKEASTAVSTPEAPEPPSQEQWAIPVDATSPVGDFYRLIPQPAFQWAFEPDVFQKQAILHLERHDSV FVAAHTSAGKTVVAEYAIALAQKHMTRTIYTSPIKALSNQKFRDFRNTFGDVGLLTGDVQLHPEASCLIMTTEILRSMLYSGSDV IRDLEWVIFDEVHYINDVERGVVWEEVLIMLPDHVSIILLSATVPNALEFADWIGRLKRRQIYVISTVTRPVPLEHYLFTGNSSKT QGELFLLLDSRGAFHTKGYYAAVEAKKERMSKHAQTFGAKQPTHQGGPAQDRGVYLSLLASLRTRAQLPVVVFTFSRGRCD EQASGLTSLDLTTSSEKSEIHLFLQRCLARLRGSDRQLPQVLQMSELLNRGLGVHHSGILPILKEIVEMLFSRGLVKVLFATETF AMGVNMPARTVVFDSMRKHDGSTFRDLLPGEYVQMAGRAGRRGLDPTGTVILLCKGRVPEMADLHRMMMGKPSQLQSQF RLTYTMILNLLRVDALRVEDMMKRSFSEFPSRKDSKAHEQALAELTKRLGALEEPDMTGQLVDLPEYYSWGEELTETQHMIQ RRIMESVNGLKSLSAGRVVVVKNQEHHNALGVILQVSSNSTSRVFTTLVLCDKPLSQDPQDRGPATAEVPYPDDLVGFKLFLP EGPCDHTVVKLQPGDMAAITTKVLRVNGEKILEDFSKRQQPKFKKDPPLAAVTTAVQELLRLAQAHPAGPPTLDPVNDLQLKD MSVVEGGLRARKLEELIQGAQCVHSPRFPAQYLKLRERMQIQKEMERLRFLLSDQSLLLFPEYHQRVEVLRTLGYVDEAGTV KLAGRVACAMSSHELLLTELMFDNALSTLRPEEIAALLSGLVCQSPGDAGDQLPNTLKQGIERVRAVAKRIGEVQVACGLNQT VEEFVGELNFGLVEVVYEWARGMPFSELAGLSGTPEGLVVRCIQRLAEMCRSLRGAARLVGEPVLGAKMETAATLLRRDIVF AASLYTQ

Alinhamento Local Algoritmo Smith-Waterman (exato) Programas BLAST (NCBI / WU) BLAT (mais preciso bom para localização) water (EMBOSS - exato) matcher (demora mais, mas economiza memória exato) cross_match (swat) bom para mascaramento FASTA

BLAST Basic Local Alignment Search Tool NCBI BLAST ou WU-BLAST Heurísticas

Palavras do BLAST (W) MLIIKRDELVISWASHERE MLI LII IIK IKR KRD RDE DEL ELV LVI VIS ISW SWA WAS ASH SHE HER ERE sequência query todas as palavras de tamanho 3 com sobreposição

Palavras do BLAST (W) Valores default para aminoácidos e para nucleotídeos CUIDADO!!!!! Veja se isso não é muito para o seu caso!

Exercício Primeiro usar ClustalX (alinhamento global) para alinhar mouse_hemoglobinas.fasta (uma sequência genômica e um transcrito) Depois usar bl2seq (Blast) para alinhar as mesmas sequências Qual a diferença?

Exercício Localizar onde está (no genoma do camundongo) o gene da hemoglobina Qual programa blast usar? Qual sequência usar? (gene todo ou transcrito?)

Exercício Encontrar hemoglobinas parecidas Quais programas blast usar? Qual sequência usar? (gene todo ou transcrito?)

Formato FASTA >Identificador da sequência GCCCCCGGCCCCGCCCCGGCCCCGCCCCCGGCCCCGCCCCGCAAGGGTC ACAGGTCACGGGGCGGGGCCGAGGCGGAAGCGCCCGCAGCCCGGTACCG GCTCCTCCTGGGCTCCCTCTAGCGCCTTCCCCCCGGCCCGACTCCGCTG GTCAGCGCCAAGTGACTTACGCCCCCGACCTCTGAGCCCGGACCGCTAG

Significância de scores E-value (s): número de hits com score tão bom ou melhor que s puramente por chance em um banco de dados aleatório, do mesmo tamanho e com a mesma composição de bases Quanto menor...

Significância de scores E-value (s): número de hits com score tão bom ou melhor que s puramente por chance em um banco de dados aleatório, do mesmo tamanho e com a mesma composição de bases Quanto menor...... melhor!!!!

Significância de scores E-value (s): número de hits com score tão bom ou melhor que s puramente por chance em um banco de dados aleatório, do mesmo tamanho e com a mesma composição de bases P-value (s): probabilidade de obter um score tão bom ou melhor que s puramente por chance em um banco de dados aleatório, do mesmo tamanho e com a mesma composição de bases

Significância de scores E-value é um número real não negativo Quanto menor...... melhor!!!! E-value depende de... E(S) = Kmne-λS... por isso não existe número mágico

Programas standalone Programas como Blast, BLAT e muuuuitos outros: via web server standalone (linha de comando) Perl scripts!!!! NCBI x WU BLAST netblast: linha de comando, mas executa remotamente

BLAT Blast Like Alignment Tool Mais rápido e mais preciso (para sequências altamente similares) Aplicação: mapeamento de sequências (ex: transcritos) Mantém um índice de todo o banco em memória (non-overlapping k-mers)

SIM4 e outros Para alinhar regiões sequências em nucleotídeos de regiões codificantes (alinhamento de códons)

Cuidado com anotações erradas!!! Cuidado com bancos não curados

Voltando ao sistema de score... Match/mismatch pode ser substituído por uma matriz 4x4 (nucleotídeos) uma matriz 2x2 (aminoácidos)

Similaridade entre os aminoácidos

Matrizes de score (matrizes de substituição)

Reference: Henikoff, S. and Henikoff, J. G. (992). Amino acid substitution matrices from protein blocks. Proc. Natl. Acad. Sci. USA 89: 9599. A R N D C Q E G H I L K M F P S T W Y V B Z X * A 4 R 5 2 N 6 3 D 6 2 4 C 9 Q 5 2 3 E 2 2 5 4 G 6 H 8 2 I 4 2 3 L 2 4 2 K 2 5 M 2 5 F 6 3 P 7 S 4 T 5 W 2 Y 2 3 2 7 V 3 4 B 3 4 4 Z 3 4 4 X *

Matrizes de score (matrizes de substituição) qij: probabilidade do aminoácido i ser substituído pelo aminoácido j pi: probabilidade do aminoácido i mij = log (qij / pi pj) = mij

Matrizes de score (matrizes de substituição) qij: probabilidade do aminoácido i ser substituído pelo aminoácido j pi: probabilidade do aminoácido i mij = log (qij / pi pj) = mij

Matrizes de score (matrizes de substituição) qij: probabilidade do aminoácido i ser substituído pelo aminoácido j pi: probabilidade do aminoácido i mij = /λ log (qij / pi pj) = mij

Matrizes de score (matrizes de substitição) Como achar qij, pi e pj? Algumas matrizes: PAMs BLOSUMs

Matrizes PAM de aminoácidos Point Accepted Mutation Dayhoff, 978 Processo: Alinhamento de conjuntos de sequências relacionadas (85% id) Construção de árvores filogenéticas Cálculo da frequência de substituição de cada par de aminoácido Normalização das frequências: % de mudança ~ 5 milhões de anos (PAM)

Matrizes PAM de aminoácidos Point Accepted Mutation Em um período de 2 PAMs, pode ter havido A?, e então? D Extrapolação: PAM2 = PAM x PAM PAMy = PAM x PAM x... x PAM PAM2: 4% de identidade PAM25: 2% de identidade

Diagonal PAM25 Hidrofóbicos Hidrofílicos

Problemas das PAMs Inferida por um conjunto restrito de proteínas Extrapolação Muitas novas proteínas foram sequenciadas desde 78...

Matrizes BLOSUM de aminoácidos Henikoff & Henikoff, 992 Alinhamentos de blocos de vários grupos de proteínas relacionadas (banco de dados BLOCKS) Cálculo de frequência de substituição de cada par de aminoácido BLOSUMx: blocos de sequências com no máximo x% de identidade Ex: BLOSUM62 e BLOSUM85

BLOSUM62 Reference: Henikoff, S. and Henikoff, J. G. (992). Amino acid substitution matrices from protein blocks. Proc. Natl. Acad. Sci. USA 89: 9599. A R N D C Q E G H I L K M F P S T W Y V B Z X * A 4 R 5 2 N 6 3 D 6 2 4 C 9 Q 5 2 3 E 2 2 5 4 G 6 H 8 2 I 4 2 3 L 2 4 2 K 2 5 M 2 5 F 6 3 P 7 S 4 T 5 W 2 Y 2 3 2 7 V 3 4 B 3 4 4 Z 3 4 4 X *

PAMs e BLOSUMs Para encontrar alinhamentos mais curtos e com maior similaridade: PAMs BLOSUMs Para encontrar alinhamentos mais longos e com menor similaridade: PAMs BLOSUMs

PAMs e BLOSUMs Para encontrar alinhamentos mais curtos e com maior similaridade: PAMs mais baixas BLOSUMs mais altas Para encontrar alinhamentos mais longos e com menor similaridade: PAMs BLOSUMs

PAMs e BLOSUMs Para encontrar alinhamentos mais curtos e com maior similaridade: PAMs mais baixas BLOSUMs mais altas Para encontrar alinhamentos mais longos e com menor similaridade: PAMs mais altas BLOSUMs mais baixas

Papel dos gaps Inserções / deleções MUITO ALTAS GLOBAL LOCAL Inibir trechos de gap Inibir trechos de gap maior alinhamentos ruins (muitos número de blocos mismatches) MUITO Muitos gaps espalhados pelo Muitos gaps espalhados pelo BAIXAS alinhamento (alinhamento alinhamento (alinhamento ruim) ruim e possivelmente maior do que deveria)

Exercícios

Ex: Identidade e similaridade Qual é o melhor alinhamento? a) % b) 9% c) 74% d) 53% (/) (95/4) (8/8) (59/)

Ex - Matrizes BLOSUM Usando a matriz de escore default BLOSUM62, você encontrou duas proteínas que divergiram bem recentemente. Se você quiser refinar seu alinhamento, que matriz você deveria usar (com número mais alto ou mais baixo)?

Ex - Sequências de proteína x DNA Sequências de DNA são menos conservadas que sequências de aminoácidos, que por sua vez são menos conservadas que a estrutura de uma proteína Se você quer inferir função, qual das duas usar? Se você quer detalhes mais finos (ex: distância evolutiva), qual usar?

Referências Básico: O'Reilly - http://www.oreilly.com/catalog/bioskills/ Caprichado (geral): Mount - http://www.bioinformaticsonline.org/ Durbin R, Eddy S, Krogh A, Mitchison G. (998). Biological sequence analysis: probabilistic models of proteins and nucleic acids, Cambridge University Press, 998. BLAST: http://www.oreilly.com/catalog/blast/