Alinhamentos de sequências e Busca de Similaridade

Tamanho: px
Começar a partir da página:

Download "Alinhamentos de sequências e Busca de Similaridade"

Transcrição

1 Alinhamentos de sequências e Busca de Similaridade Ariane Machado Lima ariane.machado@usp.br Escola de Artes, Ciências e Humanidades - USP

2 Contexto

3 Contexto

4 Buscas por sequências (o sentido biológico) Busca de identidade: SABER o que é, onde está, etc. Busca de similaridade: INFERIR o que é

5 Busca de identidade Comparar 2 sequências para saber se: são iguais possuem uma subsequência em comum

6 Exemplo Localização de subsequência sequência genoma

7 Exemplo Localização de subsequência sequência genoma

8 Exemplo Localização de subsequência sequência genoma BUSCA POR IDENTIDADE

9 Exemplo 2 Como faço para saber que proteína é essa? MMETERLVLPPPDPLDLPLRAVELGCTGHWELLNLPGAPESSLPHGLPPCAPDLQQEAEQLFLSSPAWLPLHGVEHSARKW QRKTDPWSLLAVLGAPVPSDLQAQRHPTTGQILGYKEVLLENTNLSATTSLSLRRPPGPASQSLWGNPTRYPFWPGGM DEPTITDLNTREEAEEEIDFEKDLLTIPPGFKKGMDFAPKDCPTPAPGLLSLSCLLEPLDLGGGDEDENEAVGQPGGPRG DTVSASPCSAPLARASSLEDLVLKEASTAVSTPEAPEPPSQEQWAIPVDATSPVGDFYRLIPQPAFQWAFEPDVFQKQAI LHLERHDSVFVAAHTSAGKTVVAEYAIALAQKHMTRTIYTSPIKALSNQKFRDFRNTFGDVGLLTGDVQLHPEASCLIMTT EILRSMLYSGSDVIRDLEWVIFDEVHYINDVERGVVWEEVLIMLPDHVSIILLSATVPNALEFADWIGRLKRRQIYVISTVTR PVPLEHYLFTGNSSKTQGELFLLLDSRGAFHTKGYYAAVEAKKERMSKHAQTFGAKQPTHQGGPAQDRGVYLSLLASL RTRAQLPVVVFTFSRGRCDEQASGLTSLDLTTSSEKSEIHLFLQRCLARLRGSDRQLPQVLQMSELLNRGLGVHHSGILP ILKEIVEMLFSRGLVKVLFATETFAMGVNMPARTVVFDSMRKHDGSTFRDLLPGEYVQMAGRAGRRGLDPTGTVILLCK GRVPEMADLHRMMMGKPSQLQSQFRLTYTMILNLLRVDALRVEDMMKRSFSEFPSRKDSKAHEQALAELTKRLGALEE PDMTGQLVDLPEYYSWGEELTETQHMIQRRIMESVNGLKSLSAGRVVVVKNQEHHNALGVILQVSSNSTSRVFTTLVLC DKPLSQDPQDRGPATAEVPYPDDLVGFKLFLPEGPCDHTVVKLQPGDMAAITTKVLRVNGEKILEDFSKRQQPKFKKDP PLAAVTTAVQELLRLAQAHPAGPPTLDPVNDLQLKDMSVVEGGLRARKLEELIQGAQCVHSPRFPAQYLKLRERMQIQK EMERLRFLLSDQSLLLFPEYHQRVEVLRTLGYVDEAGTVKLAGRVACAMSSHELLLTELMFDNALSTLRPEEIAALLSGLV CQSPGDAGDQLPNTLKQGIERVRAVAKRIGEVQVACGLNQTVEEFVGELNFGLVEVVYEWARGMPFSELAGLSGTPEG LVVRCIQRLAEMCRSLRGAARLVGEPVLGAKMETAATLLRRDIVFAASLYTQ

10 Exemplo 2 Como faço para saber que proteína é essa? MMETERLVLPPPDPLDLPLRAVELGCTGHWELLNLPGAPESSLPHGLPPCAPDLQQEAEQLFLSSPAWLPLHGVEHSARKW QRKTDPWSLLAVLGAPVPSDLQAQRHPTTGQILGYKEVLLENTNLSATTSLSLRRPPGPASQSLWGNPTRYPFWPGGM DEPTITDLNTREEAEEEIDFEKDLLTIPPGFKKGMDFAPKDCPTPAPGLLSLSCLLEPLDLGGGDEDENEAVGQPGGPRG DTVSASPCSAPLARASSLEDLVLKEASTAVSTPEAPEPPSQEQWAIPVDATSPVGDFYRLIPQPAFQWAFEPDVFQKQAI LHLERHDSVFVAAHTSAGKTVVAEYAIALAQKHMTRTIYTSPIKALSNQKFRDFRNTFGDVGLLTGDVQLHPEASCLIMTT EILRSMLYSGSDVIRDLEWVIFDEVHYINDVERGVVWEEVLIMLPDHVSIILLSATVPNALEFADWIGRLKRRQIYVISTVTR PVPLEHYLFTGNSSKTQGELFLLLDSRGAFHTKGYYAAVEAKKERMSKHAQTFGAKQPTHQGGPAQDRGVYLSLLASL RTRAQLPVVVFTFSRGRCDEQASGLTSLDLTTSSEKSEIHLFLQRCLARLRGSDRQLPQVLQMSELLNRGLGVHHSGILP ILKEIVEMLFSRGLVKVLFATETFAMGVNMPARTVVFDSMRKHDGSTFRDLLPGEYVQMAGRAGRRGLDPTGTVILLCK GRVPEMADLHRMMMGKPSQLQSQFRLTYTMILNLLRVDALRVEDMMKRSFSEFPSRKDSKAHEQALAELTKRLGALEE PDMTGQLVDLPEYYSWGEELTETQHMIQRRIMESVNGLKSLSAGRVVVVKNQEHHNALGVILQVSSNSTSRVFTTLVLC DKPLSQDPQDRGPATAEVPYPDDLVGFKLFLPEGPCDHTVVKLQPGDMAAITTKVLRVNGEKILEDFSKRQQPKFKKDP PLAAVTTAVQELLRLAQAHPAGPPTLDPVNDLQLKDMSVVEGGLRARKLEELIQGAQCVHSPRFPAQYLKLRERMQIQK EMERLRFLLSDQSLLLFPEYHQRVEVLRTLGYVDEAGTVKLAGRVACAMSSHELLLTELMFDNALSTLRPEEIAALLSGLV CQSPGDAGDQLPNTLKQGIERVRAVAKRIGEVQVACGLNQTVEEFVGELNFGLVEVVYEWARGMPFSELAGLSGTPEG LVVRCIQRLAEMCRSLRGAARLVGEPVLGAKMETAATLLRRDIVFAASLYTQ Posso procurá-la em bancos de proteínas anotadas (procuro por ela, ou seja, por uma sequência idêntica)

11 Exemplo 2 Como faço para saber que proteína é essa? MMETERLVLPPPDPLDLPLRAVELGCTGHWELLNLPGAPESSLPHGLPPCAPDLQQEAEQLFLSSPAWLPLHGVEHSARKW QRKTDPWSLLAVLGAPVPSDLQAQRHPTTGQILGYKEVLLENTNLSATTSLSLRRPPGPASQSLWGNPTRYPFWPGGM DEPTITDLNTREEAEEEIDFEKDLLTIPPGFKKGMDFAPKDCPTPAPGLLSLSCLLEPLDLGGGDEDENEAVGQPGGPRG DTVSASPCSAPLARASSLEDLVLKEASTAVSTPEAPEPPSQEQWAIPVDATSPVGDFYRLIPQPAFQWAFEPDVFQKQAI LHLERHDSVFVAAHTSAGKTVVAEYAIALAQKHMTRTIYTSPIKALSNQKFRDFRNTFGDVGLLTGDVQLHPEASCLIMTT EILRSMLYSGSDVIRDLEWVIFDEVHYINDVERGVVWEEVLIMLPDHVSIILLSATVPNALEFADWIGRLKRRQIYVISTVTR PVPLEHYLFTGNSSKTQGELFLLLDSRGAFHTKGYYAAVEAKKERMSKHAQTFGAKQPTHQGGPAQDRGVYLSLLASL RTRAQLPVVVFTFSRGRCDEQASGLTSLDLTTSSEKSEIHLFLQRCLARLRGSDRQLPQVLQMSELLNRGLGVHHSGILP ILKEIVEMLFSRGLVKVLFATETFAMGVNMPARTVVFDSMRKHDGSTFRDLLPGEYVQMAGRAGRRGLDPTGTVILLCK GRVPEMADLHRMMMGKPSQLQSQFRLTYTMILNLLRVDALRVEDMMKRSFSEFPSRKDSKAHEQALAELTKRLGALEE PDMTGQLVDLPEYYSWGEELTETQHMIQRRIMESVNGLKSLSAGRVVVVKNQEHHNALGVILQVSSNSTSRVFTTLVLC DKPLSQDPQDRGPATAEVPYPDDLVGFKLFLPEGPCDHTVVKLQPGDMAAITTKVLRVNGEKILEDFSKRQQPKFKKDP PLAAVTTAVQELLRLAQAHPAGPPTLDPVNDLQLKDMSVVEGGLRARKLEELIQGAQCVHSPRFPAQYLKLRERMQIQK EMERLRFLLSDQSLLLFPEYHQRVEVLRTLGYVDEAGTVKLAGRVACAMSSHELLLTELMFDNALSTLRPEEIAALLSGLV CQSPGDAGDQLPNTLKQGIERVRAVAKRIGEVQVACGLNQTVEEFVGELNFGLVEVVYEWARGMPFSELAGLSGTPEG LVVRCIQRLAEMCRSLRGAARLVGEPVLGAKMETAATLLRRDIVFAASLYTQ Posso procurá-la em bancos de proteínas anotadas (procuro por ela, ou seja, por uma sequência idêntica) BUSCA POR IDENTIDADE

12 Exemplo 3 Como faço para saber que proteína é essa? MMETERLVLPPPDPLDLPLRAVELGCTGHWELLNLPGAPESSLPHGLPPCAPDLQQEAEQLFLSSPAWLPLHGVEHSARKW QRKTDPWSLLAVLGAPVPSDLQAQRHPTTGQILGYKEVLLENTNLSATTSLSLRRPPGPASQSLWGNPTRYPFWPGGM DEPTITDLNTREEAEEEIDFEKDLLTIPPGFKKGMDFAPKDCPTPAPGLLSLSCLLEPLDLGGGDEDENEAVGQPGGPRG DTVSASPCSAPLARASSLEDLVLKEASTAVSTPEAPEPPSQEQWAIPVDATSPVGDFYRLIPQPAFQWAFEPDVFQKQAI LHLERHDSVFVAAHTSAGKTVVAEYAIALAQKHMTRTIYTSPIKALSNQKFRDFRNTFGDVGLLTGDVQLHPEASCLIMTT EILRSMLYSGSDVIRDLEWVIFDEVHYINDVERGVVWEEVLIMLPDHVSIILLSATVPNALEFADWIGRLKRRQIYVISTVTR PVPLEHYLFTGNSSKTQGELFLLLDSRGAFHTKGYYAAVEAKKERMSKHAQTFGAKQPTHQGGPAQDRGVYLSLLASL RTRAQLPVVVFTFSRGRCDEQASGLTSLDLTTSSEKSEIHLFLQRCLARLRGSDRQLPQVLQMSELLNRGLGVHHSGILP ILKEIVEMLFSRGLVKVLFATETFAMGVNMPARTVVFDSMRKHDGSTFRDLLPGEYVQMAGRAGRRGLDPTGTVILLCK GRVPEMADLHRMMMGKPSQLQSQFRLTYTMILNLLRVDALRVEDMMKRSFSEFPSRKDSKAHEQALAELTKRLGALEE PDMTGQLVDLPEYYSWGEELTETQHMIQRRIMESVNGLKSLSAGRVVVVKNQEHHNALGVILQVSSNSTSRVFTTLVLC DKPLSQDPQDRGPATAEVPYPDDLVGFKLFLPEGPCDHTVVKLQPGDMAAITTKVLRVNGEKILEDFSKRQQPKFKKDP PLAAVTTAVQELLRLAQAHPAGPPTLDPVNDLQLKDMSVVEGGLRARKLEELIQGAQCVHSPRFPAQYLKLRERMQIQK EMERLRFLLSDQSLLLFPEYHQRVEVLRTLGYVDEAGTVKLAGRVACAMSSHELLLTELMFDNALSTLRPEEIAALLSGLV CQSPGDAGDQLPNTLKQGIERVRAVAKRIGEVQVACGLNQTVEEFVGELNFGLVEVVYEWARGMPFSELAGLSGTPEG LVVRCIQRLAEMCRSLRGAARLVGEPVLGAKMETAATLLRRDIVFAASLYTQ Posso procurá-la em bancos de proteínas anotadas (procuro por ela, ou seja, por uma sequência idêntica) E SE EU NÃO ENCONTRASSE UMA IDÊNTICA, MAS UMA SIMILAR?

13 Inferência de função a partir de similaridade

14 Inferência de função a partir de similaridade

15 Inferência de função a partir de similaridade

16 Nem sempre funciona...

17 2 sequências cacttttaactctctttccaaagtccttttcatctttccttcacagtacttgttcactat cacttttaactctctttccaaagaacttttcatctttccctcacggtacttgtttgctat

18

19 Processo evolutivo

20 Homologia, paralogia e ortologia Homologia: 2 sequências são homólogas se elas possuem uma sequência ancestral comum Ortologia Paralogia

21 Ortologia: homologia por especiação

22 Paralogia: homologia por duplicação

23 Homologia, paralogia e ortologia Paralogia Ortologia

24 Aplicações de busca de similaridade Predição de genes Predição de estrutura de proteínas de RNA/DNA Inferência de árvores filogenéticas Busca de polimorfismos / marcadores

25 Identidade, similaridade e homologia CUIDADO: Se duas (ou mais) sequências são parecidas: elas podem ser homólogas elas podem ter funções similares elas podem ter a mesma estrutura

26 Como encontrar identidade e similaridade?

27 Como encontrar identidade e similaridade? ALINHAMENTOS!

28 Alinhamentos de 2 sequências Deixar 2 sequências o mais parecidas possível Ajustando as posições de suas letras, se necessário usando espaços: ROSAVERMELHA AMOROSOVERME

29 Alinhamentos de 2 sequências Deixar 2 sequências o mais parecidas possível Ajustando as posições de suas letras, se necessário usando espaços: ROSAVERMELHA AMOROSOVERME ---ROSAVERMELHA AMOROSOVERME---

30 ROSAVERMELHA AMOROSOVERME ---ROSAVERMELHA AMOROSOVERME--- Alinhamentos permitem comparações entre as sequências Identidade Similaridade

31 ROSAVERMELHA AMOROSOVERME ---ROSAVERMELHA AMOROSOVERME--- Identidade: 8% (/2) Identidade: 53% (8/5)

32 Sistema de scores Pontos para match (ex: +2) Penalidades para mismatch (ex: ) Penalidades para gap abertura (ex: ) extensão (ex: )

33 ROSAVERMELHA AMOROSOVERME ---ROSAVERMELHA AMOROSOVERME--- Identidade: 8% (/2) SCORE:??? Identidade: 53% (8/5) SCORE:???

34 ROSAVERMELHA AMOROSOVERME ---ROSAVERMELHA AMOROSOVERME--- Identidade: 8% (/2) SCORE: -9 Identidade: 53% (8/5) SCORE:???

35 ROSAVERMELHA AMOROSOVERME ---ROSAVERMELHA AMOROSOVERME--- Identidade: 8% (/2) SCORE: -9 Identidade: 53% (8/5) SCORE: +3

36 ROSAVERMELHA AMOROSOVERME ---ROSAVERMELHA AMOROSOVERME--- Identidade: 8% (/2) SCORE: -9 Identidade: 53% (8/5) SCORE: +3 Para um dado sistema de score, calculo o alinhamento de maior score (alinhamento ótimo) PROBLEMA DE OTIMIZAÇÃO

37 Similaridade entre os aminoácidos

38 Matrizes de score (matrizes de substituição de aa) Matrizes 2x2 Algumas matrizes: PAMs BLOSUMs

39 Reference: Henikoff, S. and Henikoff, J. G. (992). Amino acid substitution matrices from protein blocks. Proc. Natl. Acad. Sci. USA 89: A R N D C Q E G H I L K M F P S T W Y V B Z X * A 4 R 5 2 N 6 3 D C 9 Q E G 6 H 8 2 I L K 2 5 M 2 5 F 6 3 P 7 S 4 T 5 W 2 Y V 3 4 B Z X *

40 Matrizes de score (matrizes de substitição de aa) Matrizes 2x2 Algumas matrizes: PAMs BLOSUMs Também pode usar matrizes de nucleotídeos...

41 Matrizes de score (matrizes de substitição de aa) Matrizes 2x2 Algumas matrizes: PAMs BLOSUMs Veremos sobre essas matrizes mais adiante... Também pode usar matrizes de nucleotídeos...

42 Identidade, similaridade e homologia Tipo de Medida Sentido Identidade Quantitativa quantos idênticos Similaridade Quantitativa quantos parecidos Homologia QUALITATIVA TEM ou NÃO TEM um ancestral comum

43 Alinhamentos Pairwise: 2 sequências Múltiplo: mais de 2 sequências

44 Tipos de alinhamentos Global Semi-global Local

45 Alinhamento global QUERIDA---ROSAVERMELHA QUEROUMAMOROSOVERME---

46 Alinhamento global Aplicação: comparar 2 proteínas (ex. para inferir estrutura secundária)

47 Estrutura 3D de proteínas

48 Alinhamento global Aplicação: comparar 2 proteínas (ex. para inferir estrutura secundária)

49 Alinhamento múltiplo

50 Alinhamento pairwise global Algoritmo Exato: Needleman-Wunsch (pairwise) Programas: needle (EMBOSS) stretcher (EMBOSS) (demora mais, mas economiza memória) FASTA Outros de alinhamento múltiplo

51 Alinhamento múltiplo (global) Ferramentas normalmente usadas NÃO SÃO EXATAS! Necessita alguma edição manual Parece não haver um consistentemente melhor que todos

52 Alinhamento múltiplo (global) Algumas ferramentas: ClustalW / ClustalX T-Coffee Muscle

53

54 ClustalX Alinhar helicases_humanas.fasta Alinhar dicers.fasta

55 Alinhamento global Outras aplicações Identificação de SNPs (single nucleotide polimorphism) e outros polimorfismos Identificação de domínios proteicos mais conservados Identificação de isoformas Construção de árvores filogenéticas

56 Helicases humanas (SNPs)

57 Várias helicases (domínios)

58 Várias helicases (domínios)

59 Identificação de isoformas

60 Identificação de isoformas

61 Outra aplicação Criação de modelos e identificação de RNAs não codificantes (ou outros elementos) com estrutura secundária Ex: micrornas

62 Alinhamento estrutural

63 Alinhamento semi-global ---ROSAVERMELHA AMOROSOVERME---

64 Alinhamento semi-global Aplicação: montagem de genomas!

65 Sequenciamento shot-gun

66 Alinhamento semi-global Aplicação: montagem de genomas!

67 Alinhamento local QUERIDA---ROSAVERMELHA QUEROUMAMOROSOVERME--QUER QUER ROSAVERME ROSOVERME

68 Alinhamento local Aplicações: Encontrar um gene em um genoma sequência genoma

69 Alinhamento local Aplicações: Identificar possíveis homólogos em um banco de dados MMETERLVLPPPDPLDLPLRAVELGCTGHWELLNLPGAPESSLPHGLPPCAPDLQQEAEQLFLSSPAWLPLHGVEHSARKW QRKTDPWSLLAVLGAPVPSDLQAQRHPTTGQILGYKEVLLENTNLSATTSLSLRRPPGPASQSLWGNPTRYPFWPGGMDEP TITDLNTREEAEEEIDFEKDLLTIPPGFKKGMDFAPKDCPTPAPGLLSLSCLLEPLDLGGGDEDENEAVGQPGGPRGDTVSAS PCSAPLARASSLEDLVLKEASTAVSTPEAPEPPSQEQWAIPVDATSPVGDFYRLIPQPAFQWAFEPDVFQKQAILHLERHDSV FVAAHTSAGKTVVAEYAIALAQKHMTRTIYTSPIKALSNQKFRDFRNTFGDVGLLTGDVQLHPEASCLIMTTEILRSMLYSGSDV IRDLEWVIFDEVHYINDVERGVVWEEVLIMLPDHVSIILLSATVPNALEFADWIGRLKRRQIYVISTVTRPVPLEHYLFTGNSSKT QGELFLLLDSRGAFHTKGYYAAVEAKKERMSKHAQTFGAKQPTHQGGPAQDRGVYLSLLASLRTRAQLPVVVFTFSRGRCD EQASGLTSLDLTTSSEKSEIHLFLQRCLARLRGSDRQLPQVLQMSELLNRGLGVHHSGILPILKEIVEMLFSRGLVKVLFATETF AMGVNMPARTVVFDSMRKHDGSTFRDLLPGEYVQMAGRAGRRGLDPTGTVILLCKGRVPEMADLHRMMMGKPSQLQSQF RLTYTMILNLLRVDALRVEDMMKRSFSEFPSRKDSKAHEQALAELTKRLGALEEPDMTGQLVDLPEYYSWGEELTETQHMIQ RRIMESVNGLKSLSAGRVVVVKNQEHHNALGVILQVSSNSTSRVFTTLVLCDKPLSQDPQDRGPATAEVPYPDDLVGFKLFLP EGPCDHTVVKLQPGDMAAITTKVLRVNGEKILEDFSKRQQPKFKKDPPLAAVTTAVQELLRLAQAHPAGPPTLDPVNDLQLKD MSVVEGGLRARKLEELIQGAQCVHSPRFPAQYLKLRERMQIQKEMERLRFLLSDQSLLLFPEYHQRVEVLRTLGYVDEAGTV KLAGRVACAMSSHELLLTELMFDNALSTLRPEEIAALLSGLVCQSPGDAGDQLPNTLKQGIERVRAVAKRIGEVQVACGLNQT VEEFVGELNFGLVEVVYEWARGMPFSELAGLSGTPEGLVVRCIQRLAEMCRSLRGAARLVGEPVLGAKMETAATLLRRDIVF AASLYTQ

70 Alinhamento Local Algoritmo Smith-Waterman (exato) Programas BLAST (NCBI / WU) BLAT (mais preciso bom para localização) water (EMBOSS - exato) matcher (demora mais, mas economiza memória exato) cross_match (swat) bom para mascaramento FASTA

71 BLAST Basic Local Alignment Search Tool NCBI BLAST ou WU-BLAST Heurísticas

72 Palavras do BLAST (W) MLIIKRDELVISWASHERE MLI LII IIK IKR KRD RDE DEL ELV LVI VIS ISW SWA WAS ASH SHE HER ERE sequência query todas as palavras de tamanho 3 com sobreposição

73 Palavras do BLAST (W) Valores default para aminoácidos e para nucleotídeos CUIDADO!!!!! Veja se isso não é muito para o seu caso!

74 Exercício Primeiro usar ClustalX (alinhamento global) para alinhar mouse_hemoglobinas.fasta (uma sequência genômica e um transcrito) Depois usar bl2seq (Blast) para alinhar as mesmas sequências Qual a diferença?

75 Exercício Localizar onde está (no genoma do camundongo) o gene da hemoglobina Qual programa blast usar? Qual sequência usar? (gene todo ou transcrito?)

76 Exercício Encontrar hemoglobinas parecidas Quais programas blast usar? Qual sequência usar? (gene todo ou transcrito?)

77

78

79 Formato FASTA >Identificador da sequência GCCCCCGGCCCCGCCCCGGCCCCGCCCCCGGCCCCGCCCCGCAAGGGTC ACAGGTCACGGGGCGGGGCCGAGGCGGAAGCGCCCGCAGCCCGGTACCG GCTCCTCCTGGGCTCCCTCTAGCGCCTTCCCCCCGGCCCGACTCCGCTG GTCAGCGCCAAGTGACTTACGCCCCCGACCTCTGAGCCCGGACCGCTAG

80

81

82 Significância de scores E-value (s): número de hits com score tão bom ou melhor que s puramente por chance em um banco de dados aleatório, do mesmo tamanho e com a mesma composição de bases Quanto menor...

83 Significância de scores E-value (s): número de hits com score tão bom ou melhor que s puramente por chance em um banco de dados aleatório, do mesmo tamanho e com a mesma composição de bases Quanto menor melhor!!!!

84 Significância de scores E-value (s): número de hits com score tão bom ou melhor que s puramente por chance em um banco de dados aleatório, do mesmo tamanho e com a mesma composição de bases P-value (s): probabilidade de obter um score tão bom ou melhor que s puramente por chance em um banco de dados aleatório, do mesmo tamanho e com a mesma composição de bases

85 Significância de scores E-value é um número real não negativo Quanto menor melhor!!!! E-value depende de... E(S) = Kmne-λS... por isso não existe número mágico

86

87 Programas standalone Programas como Blast, BLAT e muuuuitos outros: via web server standalone (linha de comando) Perl scripts!!!! NCBI x WU BLAST netblast: linha de comando, mas executa remotamente

88 BLAT Blast Like Alignment Tool Mais rápido e mais preciso (para sequências altamente similares) Aplicação: mapeamento de sequências (ex: transcritos) Mantém um índice de todo o banco em memória (non-overlapping k-mers)

89 SIM4 e outros Para alinhar regiões sequências em nucleotídeos de regiões codificantes (alinhamento de códons)

90 Cuidado com anotações erradas!!! Cuidado com bancos não curados

91 Voltando ao sistema de score... Match/mismatch pode ser substituído por uma matriz 4x4 (nucleotídeos) uma matriz 2x2 (aminoácidos)

92 Similaridade entre os aminoácidos

93 Matrizes de score (matrizes de substituição)

94 Reference: Henikoff, S. and Henikoff, J. G. (992). Amino acid substitution matrices from protein blocks. Proc. Natl. Acad. Sci. USA 89: A R N D C Q E G H I L K M F P S T W Y V B Z X * A 4 R 5 2 N 6 3 D C 9 Q E G 6 H 8 2 I L K 2 5 M 2 5 F 6 3 P 7 S 4 T 5 W 2 Y V 3 4 B Z X *

95 Matrizes de score (matrizes de substituição) qij: probabilidade do aminoácido i ser substituído pelo aminoácido j pi: probabilidade do aminoácido i mij = log (qij / pi pj) = mij

96 Matrizes de score (matrizes de substituição) qij: probabilidade do aminoácido i ser substituído pelo aminoácido j pi: probabilidade do aminoácido i mij = log (qij / pi pj) = mij

97 Matrizes de score (matrizes de substituição) qij: probabilidade do aminoácido i ser substituído pelo aminoácido j pi: probabilidade do aminoácido i mij = /λ log (qij / pi pj) = mij

98 Matrizes de score (matrizes de substitição) Como achar qij, pi e pj? Algumas matrizes: PAMs BLOSUMs

99 Matrizes PAM de aminoácidos Point Accepted Mutation Dayhoff, 978 Processo: Alinhamento de conjuntos de sequências relacionadas (85% id) Construção de árvores filogenéticas Cálculo da frequência de substituição de cada par de aminoácido Normalização das frequências: % de mudança ~ 5 milhões de anos (PAM)

100 Matrizes PAM de aminoácidos Point Accepted Mutation Em um período de 2 PAMs, pode ter havido A?, e então? D Extrapolação: PAM2 = PAM x PAM PAMy = PAM x PAM x... x PAM PAM2: 4% de identidade PAM25: 2% de identidade

101 Diagonal PAM25 Hidrofóbicos Hidrofílicos

102 Problemas das PAMs Inferida por um conjunto restrito de proteínas Extrapolação Muitas novas proteínas foram sequenciadas desde 78...

103 Matrizes BLOSUM de aminoácidos Henikoff & Henikoff, 992 Alinhamentos de blocos de vários grupos de proteínas relacionadas (banco de dados BLOCKS) Cálculo de frequência de substituição de cada par de aminoácido BLOSUMx: blocos de sequências com no máximo x% de identidade Ex: BLOSUM62 e BLOSUM85

104 BLOSUM62 Reference: Henikoff, S. and Henikoff, J. G. (992). Amino acid substitution matrices from protein blocks. Proc. Natl. Acad. Sci. USA 89: A R N D C Q E G H I L K M F P S T W Y V B Z X * A 4 R 5 2 N 6 3 D C 9 Q E G 6 H 8 2 I L K 2 5 M 2 5 F 6 3 P 7 S 4 T 5 W 2 Y V 3 4 B Z X *

105 PAMs e BLOSUMs Para encontrar alinhamentos mais curtos e com maior similaridade: PAMs BLOSUMs Para encontrar alinhamentos mais longos e com menor similaridade: PAMs BLOSUMs

106 PAMs e BLOSUMs Para encontrar alinhamentos mais curtos e com maior similaridade: PAMs mais baixas BLOSUMs mais altas Para encontrar alinhamentos mais longos e com menor similaridade: PAMs BLOSUMs

107 PAMs e BLOSUMs Para encontrar alinhamentos mais curtos e com maior similaridade: PAMs mais baixas BLOSUMs mais altas Para encontrar alinhamentos mais longos e com menor similaridade: PAMs mais altas BLOSUMs mais baixas

108 Papel dos gaps Inserções / deleções MUITO ALTAS GLOBAL LOCAL Inibir trechos de gap Inibir trechos de gap maior alinhamentos ruins (muitos número de blocos mismatches) MUITO Muitos gaps espalhados pelo Muitos gaps espalhados pelo BAIXAS alinhamento (alinhamento alinhamento (alinhamento ruim) ruim e possivelmente maior do que deveria)

109 Exercícios

110

111 Ex: Identidade e similaridade Qual é o melhor alinhamento? a) % b) 9% c) 74% d) 53% (/) (95/4) (8/8) (59/)

112 Ex - Matrizes BLOSUM Usando a matriz de escore default BLOSUM62, você encontrou duas proteínas que divergiram bem recentemente. Se você quiser refinar seu alinhamento, que matriz você deveria usar (com número mais alto ou mais baixo)?

113 Ex - Sequências de proteína x DNA Sequências de DNA são menos conservadas que sequências de aminoácidos, que por sua vez são menos conservadas que a estrutura de uma proteína Se você quer inferir função, qual das duas usar? Se você quer detalhes mais finos (ex: distância evolutiva), qual usar?

114 Referências Básico: O'Reilly - Caprichado (geral): Mount - Durbin R, Eddy S, Krogh A, Mitchison G. (998). Biological sequence analysis: probabilistic models of proteins and nucleic acids, Cambridge University Press, 998. BLAST:

Alinhamentos e Busca de Similaridade. Ariane Machado Lima

Alinhamentos e Busca de Similaridade. Ariane Machado Lima Alinhamentos e Busca de Similaridade Ariane Machado Lima Busca de identidade Identificar o que é determinada seqüência Ex.acabou de seqüenciar, seria contaminante? Outras fases de um projeto de seqüenciamento

Leia mais

Métodos de alinhamento de sequências biológicas. Marcelo Falsarella Carazzolle

Métodos de alinhamento de sequências biológicas. Marcelo Falsarella Carazzolle Métodos de alinhamento de sequências biológicas Marcelo Falsarella Carazzolle Resumo - Introdução - Alinhamentos ótimos - Global - Local (Smith-Waterman) - Semi global - Matrizes de alinhamento (BLOSUM)

Leia mais

Principais algoritmos de alinhamento de sequências genéticas. Alexandre dos Santos Cristino

Principais algoritmos de alinhamento de sequências genéticas. Alexandre dos Santos Cristino Principais algoritmos de alinhamento de sequências genéticas Alexandre dos Santos Cristino http://www.ime.usp.br/~alexsc e-mail: alexsc@ime.usp.br Definição de alinhamento de sequências Comparação de duas

Leia mais

Alinhamento de seqüências

Alinhamento de seqüências Alinhamento de seqüências Qual a importância do alinhamento de seqüências Permite estabelecer identidades entre sequências Permite a dedução de função de proteínas baseado em similaridade Permite a definição

Leia mais

Alinhamento de sequências

Alinhamento de sequências Pontifícia Universidade Católica de Goiás Departamento de Biologia Alinhamento de sequências Prof. Macks Wendhell Gonçalves, Msc mackswendhell@gmail.com Definição O alinhamento de sequências consiste no

Leia mais

Protein Homology detection by HMM-comparation.

Protein Homology detection by HMM-comparation. UNIVERSIDADE FEDERAL DE PERNAMBUCO Cin Centro de Informática Pós-Graduação em Ciência da Computação Protein Homology detection by HMM-comparation. Johannes Soding Vol. 21 no. 7 2005, BIOINFORMATICS Recife,

Leia mais

Identificação de genes por similaridade de seqüência

Identificação de genes por similaridade de seqüência Identificação de genes por similaridade de seqüência Evolução do genoma Os genes evoluem a partir de genes ancestrais comuns acumulando mutações Homologia Genes ancestrais estão presentes nas espécies

Leia mais

Comparação entre sequências biológicas

Comparação entre sequências biológicas Comparação entre sequências biológicas Extraíndo e analisando os sinais contidos em biopolímeros ( Alinhamentos ) Prof. Dr. Alessandro Varani UNESP - FCAV Objetivos Abordagens práticas para comparação

Leia mais

TITULO: Implementação do alinhamento de proteínas em GPU utilizando OpenCL PROPOSTA DE TRABALHO DE GRADUAÇÃO

TITULO: Implementação do alinhamento de proteínas em GPU utilizando OpenCL PROPOSTA DE TRABALHO DE GRADUAÇÃO 1 U NIVERSIDADE FEDERAL DE PERNAMBUCO GRADUAÇÃO EM ENGENHARIA DA COMPUTAÇÃO CENTRO DE INFORMÁTICA 2 0 1 6. 1 TITULO: Implementação do alinhamento de proteínas em GPU utilizando OpenCL PROPOSTA DE TRABALHO

Leia mais

Nada em Biologia faz sentido senão à luz da evolução.

Nada em Biologia faz sentido senão à luz da evolução. Marcos T. Geraldo ADAPTABILIDADE Nada em Biologia faz sentido senão à luz da evolução. Theodosius Dobzhansky (1973) 1 Processo de evolução em moléculas de DNA, RNA e proteínas Reconstrução das relações

Leia mais

alinhamento global-alinhamento múltiplo de seqüências

alinhamento global-alinhamento múltiplo de seqüências alinhamento global-alinhamento múltiplo de seqüências Alinhamento múltiplos de seqüências Qual a importância de se realizar alinhamentos múltiplos em oposição a alinhamentos em pares? Alinhamento múltiplos

Leia mais

Programas de Alinhamento. Sumário

Programas de Alinhamento. Sumário Programas de Alinhamento Departamento de Genética FMRP- USP Alynne Oya Chiromatzo alynne@lgmb.fmrp.usp.br Sumário Introdução para buscas em base de dados Fasta Blast Programa para alinhamento Clustal 1

Leia mais

ALINHAMENTO DE SEQUÊNCIAS

ALINHAMENTO DE SEQUÊNCIAS Disciplina de BIOLOGIA COMPUTACIONAL Mestrado em ENGENHARIA BIOMÉDICA 4º Ano, 1º Semestre 2007/08 ALINHAMENTO DE SEQUÊNCIAS Relatório 2 Ana Calhau Ângela Pisco Nuno Santos 54605 55748 55746 Palavras-Chave:

Leia mais

Biologia Molecular Computacional Homologia

Biologia Molecular Computacional Homologia Biologia Molecular Computacional Homologia Luiz Thibério Rangel O que é homologia? Conceito básico para estudos de genômica comparativa; Passo inicial para estudos de filogenia(omica); Importante para

Leia mais

Análise de significância de. alinhamentos

Análise de significância de. alinhamentos Análise de significância de alinhamentos Análise de significância de um alinhamento Tão importante como escolher o método de scoring ou encontrar o alinhamento que maximiza o score é saber avaliar a significância

Leia mais

Tópicos Especiais em Inteligência Artificial COS746. Vítor Santos Costa COPPE/Sistemas Universidade Federal do Rio de Janeiro

Tópicos Especiais em Inteligência Artificial COS746. Vítor Santos Costa COPPE/Sistemas Universidade Federal do Rio de Janeiro Tópicos Especiais em Inteligência Artificial COS746 Vítor Santos Costa COPPE/Sistemas Universidade Federal do Rio de Janeiro Agradecimento Copiado dos slides de Mark Craven/C. David Page para BMI/CS 576,

Leia mais

Alinhamento local- Utilização do BLAST

Alinhamento local- Utilização do BLAST Alinhamento local- Utilização do BLAST BLAST Tipos de BLAST (blastn) Compara nucleotídeos (blastp) Compara proteínas Utiliza nucleotídeo como query, este é traduzido nos seus 6 quadros de leitura e é comparado

Leia mais

Tópicos Especiais em Inteligência Artificial COS746. Vítor Santos Costa COPPE/Sistemas Universidade Federal do Rio de Janeiro

Tópicos Especiais em Inteligência Artificial COS746. Vítor Santos Costa COPPE/Sistemas Universidade Federal do Rio de Janeiro Tópicos Especiais em Inteligência Artificial COS746 Vítor Santos Costa COPPE/Sistemas Universidade Federal do Rio de Janeiro Agradecimento Copiado dos slides de Mark Craven para BMI/CS 576, UW-Madison

Leia mais

Resumo - capítulo 3 - Alinhamento de pares de sequências

Resumo - capítulo 3 - Alinhamento de pares de sequências Resumo - capítulo 3 - Alinhamento de pares de sequências Pedro Ivo Gomes de Faria Sumário 1 Introdução 3 1.1 Definição de alinhamento de sequências............. 3 1.1.1 Alinhamento global....................

Leia mais

Alinhamento de Seqüências

Alinhamento de Seqüências 18 CAPÍTULO 3 Alinhamento de Seqüências 3.1. Introdução O alinhamento de seqüências consiste no processo de comparar duas seqüências (de nucleotídeos ou proteínas) de forma a se observar seu nível de identidade.

Leia mais

Comparação e alinhamento de. sequências

Comparação e alinhamento de. sequências Comparação e alinhamento de sequências Comparar sequências A comparação de sequências de proteínas ou DNA/RNA é uma ferramenta essencial na procura da existência de relações de semelhança entre o todo

Leia mais

Bioinformática. Licenciaturas em Biologia, Bioquímica, Biotecnologia, Engenharia Biológica. João Varela

Bioinformática. Licenciaturas em Biologia, Bioquímica, Biotecnologia, Engenharia Biológica. João Varela Bioinformática Licenciaturas em Biologia, Bioquímica, Biotecnologia, Engenharia Biológica João Varela jvarela@ualg.pt Docentes João Varela (bioinformática: conceitos, bases de dados, aplicações, pesquisa

Leia mais

Busca em banco de dados

Busca em banco de dados Busca em banco de dados Busca em banco de dados A quantidade imensa de dados existentes nos bancos públicos torna critica a existência de ferramentas eficientes que permitam a recuperação de dados desejados

Leia mais

Dados Moleculares x Morfológicos

Dados Moleculares x Morfológicos Evolução Molecular Dados Moleculares x Morfológicos Hereditários Descrição não ambígua Mais fácil estabelecer homologia Permite comparações de espécies distantes Abundantes Fatores ambientais Diferenças

Leia mais

Marcelo Reis. Centro APTA Citros Sylvio Moreira. 18 de julho de 2007

Marcelo Reis. Centro APTA Citros Sylvio Moreira. 18 de julho de 2007 I n t r o d u ç ã o à B i o i n f o r m á t i c a Marcelo Reis Centro APTA Citros Sylvio Moreira 18 de julho de 2007 Duração estimada: ~ 2,5h (manhã) ~ 2,5h (tarde) A g e n d a Manhã: Que trem é esse,

Leia mais

Explorando genomas: predição de genes e elementos transponíveis Proporção de diferentes sequências no genoma

Explorando genomas: predição de genes e elementos transponíveis Proporção de diferentes sequências no genoma Explorando genomas: predição de genes e elementos transponíveis Proporção de diferentes sequências no genoma 1 Especies Genoma Genes 11 O número de genes varia entre as espécies 2 Anotação do Genoma 1

Leia mais

Alinhamento de Sequências e Genômica Comparativa

Alinhamento de Sequências e Genômica Comparativa Encontro França-Brasil de Bioinformática Universidade Estadual de Santa Cruz (UESC) Ilhéus-BA - Brasil Alinhamento de Sequências e Genômica Comparativa Maria Emília M. T. Walter Departamento de Ciência

Leia mais

PAULO EDUARDO BRANDÃO, PhD DEPARTAMENTO DE MEDICINA VETERINÁRIA PREVENTIVA E SAÚDE ANIMAL FACULDADE DE MEDICINA VETERINÁRIA E ZOOTECNIA UNIVERSIDADE

PAULO EDUARDO BRANDÃO, PhD DEPARTAMENTO DE MEDICINA VETERINÁRIA PREVENTIVA E SAÚDE ANIMAL FACULDADE DE MEDICINA VETERINÁRIA E ZOOTECNIA UNIVERSIDADE CONCEITOS EM EPIDEMIOLOGIA E FILOGENIA MOLECULARES PAULO EDUARDO BRANDÃO, PhD DEPARTAMENTO DE MEDICINA VETERINÁRIA PREVENTIVA E SAÚDE ANIMAL FACULDADE DE MEDICINA VETERINÁRIA E ZOOTECNIA UNIVERSIDADE DE

Leia mais

Comparação e alinhamento de sequências

Comparação e alinhamento de sequências Comparação e alinhamento de sequências Comparar sequências A comparação de sequências de proteínas ou DNA/RNA é uma ferramenta essencial na procura da existência de relações de semelhança entre o todo

Leia mais

Programa Analítico de Disciplina BQI460 Bioinformática

Programa Analítico de Disciplina BQI460 Bioinformática 0 Programa Analítico de Disciplina Departamento de Bioquímica e Biologia Molecular - Centro de Ciências Biológicas e da Saúde Número de créditos: Teóricas Práticas Total Duração em semanas: 15 Carga horária

Leia mais

Busca em banco de dados

Busca em banco de dados Busca em banco de dados Busca em banco de dados A quantidade imensa de dados existentes nos bancos públicos torna critica a existência de ferramentas eficientes que permitam a recuperação de dados desejados

Leia mais

Elisa Boari de Lima Orientador: Thiago de Souza Rodrigues

Elisa Boari de Lima Orientador: Thiago de Souza Rodrigues Uma Metodologia para Identificação de Módulos Formadores de Sequências de Proteínas Mosaicas do Trypanosoma cruzi a partir do Transcriptoma do Parasito Utilizando a Ferramenta BLAST Elisa Boari de Lima

Leia mais

DEFINIÇÕES EM EPIDEMIOLOGIA MOLECULAR E CONCEITOS BÁSICOS EM BIOLOGIA MOLECULAR

DEFINIÇÕES EM EPIDEMIOLOGIA MOLECULAR E CONCEITOS BÁSICOS EM BIOLOGIA MOLECULAR DEFINIÇÕES EM E DEFINIÇÕES EM E CONCEITOS BÁSICOS EM BIOLOGIA PARA QUE SERVE ESTA AULA 1. DEFINIÇÕES EM CONCEITUAÇÃO DE DIFERENCIAÇÃO ENTRE, TAXONOMIA E FILOGENIA 2. CONCEITOS EM BIOLOGIA APRESENTAR (REVER)

Leia mais

Bioinformática. Alinhamento de Sequências. Prof. Msc. Rommel Ramos

Bioinformática. Alinhamento de Sequências. Prof. Msc. Rommel Ramos Bioinformática Alinhamento de Sequências Prof. Msc. Rommel Ramos 2013 Sumário 1. Comparação de Sequências 2. O que é alinhamento? 3. Tipos de Alinhamento 4. Algoritmos 5. Métodos de Alinhamento Comparação

Leia mais

Alinhamento de Seqüências Biológicas

Alinhamento de Seqüências Biológicas O que se cmpara? Alinhament de Seqüências Bilógicas A cmparaçã de seqüências de DNA, RNA e prteínas é uma das bases da biinfrmática. Citsina Uracila Timina Prfª Drª Silvana Giuliatti Departament de Genética

Leia mais

Bioinformática para o Citrus EST Project (CitEST)

Bioinformática para o Citrus EST Project (CitEST) Bioinformática para o Citrus EST Project (CitEST) Marcelo da Silva Reis 1 1 Instituto de Matemática e Estatística, Universidade de São Paulo 20 de maio de 2009 Organização da Apresentação Esta apresentação

Leia mais

Capítulo 4. Versão 0.7. Alinhamento entre duas sequências

Capítulo 4. Versão 0.7. Alinhamento entre duas sequências Capítulo 4 Versão 0.7 Alinhamento entre duas sequências Teoria Um dos procedimentos centrais da Bioinformática é o alinhamento entre os monômeros de duas sequências macromoleculares. Ao fazer esse alinhamento,

Leia mais

P E R N AMBUCO UMA FERRAMENTA WEB PARA INFERÊNCIA DE HAPLÓTIPOS PROPOSTA DE TRABALHO DE GRADUAÇÃO

P E R N AMBUCO UMA FERRAMENTA WEB PARA INFERÊNCIA DE HAPLÓTIPOS PROPOSTA DE TRABALHO DE GRADUAÇÃO U NIVERSIDADE FEDERAL DE P E R N AMBUCO GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO CENTRO DE INFORMÁTICA UMA FERRAMENTA WEB PARA INFERÊNCIA DE HAPLÓTIPOS PROPOSTA DE TRABALHO DE GRADUAÇÃO Aluno Ranieri Valença

Leia mais

Alinhamentos de Múltiplas Seqüências. Rogério T. Brito Orientador: José A. R. Soares

Alinhamentos de Múltiplas Seqüências. Rogério T. Brito Orientador: José A. R. Soares 1 Alinhamentos de Múltiplas Seqüências Rogério T. Brito Orientador: José A. R. Soares 2 Motivação Problema em Biologia: saber qual é o grau de parentesco entre um conjunto de espécies (construção de árvores

Leia mais

English version at the end of this document

English version at the end of this document English version at the end of this document Ano Letivo 2016-17 Unidade Curricular FUNDAMENTOS DE BIOINFORMÁTICA Cursos CIÊNCIAS BIOMÉDICAS (1.º ciclo) Unidade Orgânica Reitoria - Centro de Novos Projectos

Leia mais

MARCADORES MOLECULARES

MARCADORES MOLECULARES ESALQ/USP MARCADORES MOLECULARES Base genética dos marcadores e usos no melhoramento de plantas e em estudos de diversidade genética e conservação Departamento de Genética ESTUDO DIRIGIDO 1. O que são

Leia mais

Prof. João Carlos Setubal

Prof. João Carlos Setubal Prof. João Carlos Setubal QBQ 102 Aula 5 (biomol) Sequenciamento de DNA, genomas e bioinformática Replicação de DNA 5ʹ 3ʹ A replicação pára Reação da DNA Polimerase com dntps síntese de DNA Purina ou

Leia mais

Explorando bancos de dados genômicos e introdução à bioinformática. Guilherme Targino Valente Marcos Tadeu Geraldo. Bioinformática

Explorando bancos de dados genômicos e introdução à bioinformática. Guilherme Targino Valente Marcos Tadeu Geraldo. Bioinformática Explorando bancos de dados genômicos e introdução à bioinformática Guilherme Targino Valente Marcos Tadeu Geraldo 22/07/2011 Bioinformática É a aplicação de estatística e ciência da computação no campo

Leia mais

UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS BIOLÓGICAS E DA SAÚDE PROGRAMA DE PÓS-GRADUAÇÃO EM GENÉTICA E EVOLUÇÃO

UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS BIOLÓGICAS E DA SAÚDE PROGRAMA DE PÓS-GRADUAÇÃO EM GENÉTICA E EVOLUÇÃO UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS BIOLÓGICAS E DA SAÚDE PROGRAMA DE PÓS-GRADUAÇÃO EM GENÉTICA E EVOLUÇÃO ALINHAMENTO DE SEQÜÊNCIAS BIOLÓGICAS COM O USO DE ALGORITMOS GENÉTICOS Sabrina

Leia mais

Ancoragem de genomas incompletos em genomas completos

Ancoragem de genomas incompletos em genomas completos Ancoragem de genomas incompletos em genomas completos André Chastel Lima Dissertação de Mestrado Orientação: Prof. Dr. Nalvo Franco de Almeida Junior Área de Concentração: Biologia Computacional Dissertação

Leia mais

Identificação de Padrões em Proteínas Utilizando a Ferramenta de Bioinformática CD- Search

Identificação de Padrões em Proteínas Utilizando a Ferramenta de Bioinformática CD- Search 4ª Jornada Científica e Tecnológica e 1º Simpósio de Pós-Graduação do IFSULDEMINAS 16, 17 e 18 de outubro de 2012, Muzambinho MG Identificação de Padrões em Proteínas Utilizando a Ferramenta de Bioinformática

Leia mais

Cap. 6: Métodos para alinhamento de múltiplas seqüências

Cap. 6: Métodos para alinhamento de múltiplas seqüências Cap. 6: Métodos para alinhamento de múltiplas seqüências Organização O que é um alinhamento múltiplo Escores para alinhamentos múltiplos Relação entre alinhamento múltiplo e análise filogenética Métodos

Leia mais

Análise de dados provenientes de técnicas moleculares

Análise de dados provenientes de técnicas moleculares CIIMAR Curso de formação Análise de dados provenientes de técnicas moleculares Formadores: Filipe Pereira e Filipe Lopes Manual do Curso 1 Índice Objetivo Geral do Curso... 3 Público-alvo... 3 Objetivos

Leia mais

Estrutura covalente de proteínas estrutura tridimensional. Proteina: estrutura covalente com muitas restrições conformacionais

Estrutura covalente de proteínas estrutura tridimensional. Proteina: estrutura covalente com muitas restrições conformacionais Estrutura covalente de proteínas estrutura tridimensional Proteina: estrutura covalente com muitas restrições conformacionais M. Teresa Machini IQ/USP Análise de sequência de aminoácidos Conteúdo de aminoácidos

Leia mais

A ABSTRACÇÃO É NOSSA AMIGA

A ABSTRACÇÃO É NOSSA AMIGA A ABSTRACÇÃO É NOSSA AMIGA Prever estruturas, comparar e procurar motivos no RNA [Robert Giegerich, Faculty of Technology Bielefeld University, Vienna 2007] Bioinformática DCC - FCUP Teresa Costa 03/06/2011

Leia mais

Anotação de Genomas. Fabiana G. S. Pinto

Anotação de Genomas. Fabiana G. S. Pinto Anotação de Genomas Fabiana G. S. Pinto Obtenção de Seqüências geradas pelo MegaBace 1000 Dados brutos (medidas analógicas) de saída do seqüênciamento Base calling BIOINFORMÁTICA * PHRED: - Transforma

Leia mais

Técnicas para Comparação e Visualização de Similaridades entre Seqüências Genéticas

Técnicas para Comparação e Visualização de Similaridades entre Seqüências Genéticas Técnicas para Comparação e Visualização de Similaridades entre Seqüências Genéticas Felipe Fernandes Albrecht (FURB/DSC) albrecht@inf.furb.br Resumo. Este artigo apresentará técnicas para comparação e

Leia mais

UFPel CDTec Biotecnologia. Anotação de genomas. MSc. Frederico schmitt Kremer

UFPel CDTec Biotecnologia. Anotação de genomas. MSc. Frederico schmitt Kremer UFPel CDTec Biotecnologia Anotação de genomas MSc. Frederico schmitt Kremer A anotação de um genoma consiste na identificação de suas regiões funcionais ou de relevância biológico, o que pode incluir:

Leia mais

Sequenciamento Montagem Anotação

Sequenciamento Montagem Anotação O GENOMA HUMANO Sequenciamento Montagem Anotação Conceitos Conceitos Sequência bruta: sequências de nucleotídeos originadas de cada inserto clonado (reads) Sequências de final pareado: leituras obtidas

Leia mais

Capítulo 8. Versão 0.4. Filogenômica

Capítulo 8. Versão 0.4. Filogenômica Capítulo 8 Versão 0.4 Filogenômica O termo "Filogenômica" é definido de várias maneiras, mas, em geral, a definição é relacionada com a intersecção dos campos da Genômica e da evolução biológica. Aqui,

Leia mais

Capítulo 6. Alinhamentos múltiplos de sequências macromoleculares.

Capítulo 6. Alinhamentos múltiplos de sequências macromoleculares. Capítulo 6. Alinhamentos múltiplos de sequências macromoleculares. versão 0.5 Como vimos no capítulo anterior, o procedimento de alinhamento entre sequências de macromoléculas equivale ao estabelecimento

Leia mais

Resumo - capítulo 4 - Alinhamento múltiplo de sequências

Resumo - capítulo 4 - Alinhamento múltiplo de sequências Resumo - capítulo 4 - Alinhamento múltiplo de sequências Pedro Ivo Gomes de Faria Sumário 1 Introdução 3 1.1 Sequenciamento de genomas................... 3 1.2 Usos de alinhamentos múltiplos de sequências.........

Leia mais

MARCADORES MOLECULARES: DO MELHORAMENTO A CONSERVAÇÃO. Aula 10. Maria Carolina Quecine Departamento de Genética

MARCADORES MOLECULARES: DO MELHORAMENTO A CONSERVAÇÃO. Aula 10. Maria Carolina Quecine Departamento de Genética MARCADORES MOLECULARES: DO MELHORAMENTO A CONSERVAÇÃO Aula 10 LGN232 Genética Molecular Maria Carolina Quecine Departamento de Genética mquecine@usp.br RELEMBRANDO. kit de genética molecular ENZIMAS DE

Leia mais

Comparação de sequências

Comparação de sequências Comparação de sequências João Carlos Setubal IQ-USP 2013 9/26/2013 J. C. Setubal 1 Referência J.C. Setubal Chapter A05 Similarity Search http://www.ncbi.nlm.nih.gov/books/nbk6831 Motivação: Por que comparar

Leia mais

Transcritômica. João Carlos Setubal IQ/USP outubro de 2013

Transcritômica. João Carlos Setubal IQ/USP outubro de 2013 Transcritômica João Carlos Setubal IQ/USP outubro de 2013 Objetivo Obter, analisar, e interpretar dados de expressão gênica mrnas (que vão virar proteína) RNAs (que não vão virar proteína; ncrnas) O gene

Leia mais

Este capítulo possui uma discussão preliminar do contexto biológico necessário para o entendimento e motivação deste trabalho.

Este capítulo possui uma discussão preliminar do contexto biológico necessário para o entendimento e motivação deste trabalho. 17 2 Preliminares Este capítulo possui uma discussão preliminar do contexto biológico necessário para o entendimento e motivação deste trabalho. Na discussão do contexto biológico serão apresentados os

Leia mais

2 Contexto e Motivações

2 Contexto e Motivações 2 Contexto e Motivações Existem duas principais famílias de algoritmos que realizam comparações de biosseqüências, a FASTA (Pearson, 1991) e a BLAST (Altschul et al., 1990). Estas ferramentas realizam

Leia mais

Universidade Federal do Espírito Santo Centro de Ciências da Saúde Programa de Pós-Graduação em Biotecnologia

Universidade Federal do Espírito Santo Centro de Ciências da Saúde Programa de Pós-Graduação em Biotecnologia Universidade Federal do Espírito Santo Centro de Ciências da Saúde Programa de Pós-Graduação em Biotecnologia Mestrandas: Jucimara e Lígia Ramos Disciplina: Bioinformática Vitória 2016 Índice Introdução

Leia mais

VIVIAN MAYUMI YAMASSAKI PEREIRA. Reconstrução filogenética de procariotos com base em famílias de genes

VIVIAN MAYUMI YAMASSAKI PEREIRA. Reconstrução filogenética de procariotos com base em famílias de genes UNIVERSIDADE DE SÃO PAULO ESCOLA DE ARTES, CIÊNCIAS E HUMANIDADES PROGRAMA DE PÓS-GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO VIVIAN MAYUMI YAMASSAKI PEREIRA Reconstrução filogenética de procariotos com base em

Leia mais

Alinhamento de Sequências de Proteínas. Modelagem por homologia Estratégia/aplicação Etapas do processo Exemplo

Alinhamento de Sequências de Proteínas. Modelagem por homologia Estratégia/aplicação Etapas do processo Exemplo Objetivos FFI0776 Modelagem e Engenharia de Proteínas Prof. Rafael V. C. Guido rvcguido@ifsc.usp.br Aula 06 Alinhamento de Sequências de Proteínas Determinação da sequência de aa Características do alinhamento

Leia mais

Identificação de fatores de transcrição a partir de dados de expressão.

Identificação de fatores de transcrição a partir de dados de expressão. Identificação de fatores de transcrição a partir de dados de expressão. Márcio Augusto Afonso de Almeida Laboratório de Genética e Cardiologia Molecular InCor. Introdução Técnicas de expressão global permitem

Leia mais

IBM1029 Introdução à Bioinformática. O Início da Bioinformática 27/03/2017. Aula 2. O Início. Bioionformática: definição

IBM1029 Introdução à Bioinformática. O Início da Bioinformática 27/03/2017. Aula 2. O Início. Bioionformática: definição IBM1029 Introdução à Bioinformática Profa Dra Silvana Giuliatti Departamento de Genética FMRP silvana@fmrp.usp.br O Início da Bioinformática Aula 2 O Início Trabalho de Margaret Dayhoff e colaboradores:

Leia mais

Princípios de Sistemática Molecular

Princípios de Sistemática Molecular ! Ciências teóricas e sistemática biológica "! DNA, genes, código genético e mutação! Alinhamento de seqüências! Mudanças evolutivas em seqüências de nucleotídeos! Otimização em espaços contínuos e discretos!

Leia mais

1164 BIOLOGIA ESTRUTURAL Aula 4 Prof. Dr. Valmir Fadel

1164 BIOLOGIA ESTRUTURAL Aula 4 Prof. Dr. Valmir Fadel Apesar da grande quantidade de seqüências determinadas (260.175 seqüências e 3.874.166 transcrições no UniProtKB/TrEMBL em 06/03/2007) a quantidade de estruturas tridimensionais determinadas é significativamente

Leia mais

2 Contexto Biológico Genômica

2 Contexto Biológico Genômica 15 2 Contexto Biológico Neste capítulo abordaremos o contexto biológico para o entendimento deste trabalho. Serão abordados os aspectos gerais da genômica, expostos os processos do sequenciamento genético

Leia mais

PRISCILLA KOCH WAGNER. Uma nova abordagem para identificação da provável origem de genes exclusivos de bactérias

PRISCILLA KOCH WAGNER. Uma nova abordagem para identificação da provável origem de genes exclusivos de bactérias UNIVERSIDADE DE SÃO PAULO ESCOLA DE ARTES, CIÊNCIAS E HUMANIDADES PROGRAMA DE PÓS-GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO PRISCILLA KOCH WAGNER Uma nova abordagem para identificação da provável origem de genes

Leia mais

Motantagem de Contigs de sequências de genomas e Transcriptomas. Introdução

Motantagem de Contigs de sequências de genomas e Transcriptomas. Introdução Motantagem de Contigs de sequências de genomas e Transcriptomas Introdução As novas tecnologias de sequenciamento conseguem produzir uma quantidade de dados muito grande com custos baixos. A velocidade

Leia mais

Predição Computacional de alvos de mirnas. Predição Computacional de de alvos de de mirnas

Predição Computacional de alvos de mirnas. Predição Computacional de de alvos de de mirnas Curso de Verão 2011 Bioinformática - USP Predição Computacional de de alvos de de mirnas Amanda Rusiska Piovezani Interunidades em Bioinformática/Mestrado IME USP Orientadora: Profa.Dra. Ariane Machado

Leia mais

Busca de motivos em sequências. João Carlos Setubal IQ-USP 2014

Busca de motivos em sequências. João Carlos Setubal IQ-USP 2014 Busca de motivos em sequências João Carlos Setubal IQ-USP 2014 Motivos do tipo I AACT(G A)N 12 AGTT Q-[LIV]-H-H-[SA]-x(2)-D-G-[FY]-H Chloramphenicol acetyltransferase active site (do PROSITE) Posições

Leia mais

Nome da atividade: Identificação de uma proteína a partir da sua seqüência nucleotídica e determinação da sua estrutura e função

Nome da atividade: Identificação de uma proteína a partir da sua seqüência nucleotídica e determinação da sua estrutura e função Caros Alunos, Para desenvolver a atividade abaixo vocês precisarão de um computador conectado à internet banda larga, do arquivo.txt (bloco de notas) disponível no Constructore e deste arquivo com as coordenadas

Leia mais

Bioinformática. João Varela Aula T7

Bioinformática. João Varela Aula T7 Bioinformática C U R S O S E M B I O L O G I A, B I O Q U Í M I C A, B I O T E C N O L O G I A, C I Ê N C I A S B I O M É D I C A S E E N G E N H A R I A B I O L Ó G I C A João Varela jvarela@ualg.pt Aula

Leia mais

Protein Classification Tool: Uma ferramenta para anotação de proteínas utilizando bases secundárias

Protein Classification Tool: Uma ferramenta para anotação de proteínas utilizando bases secundárias João de Abreu e Tôrres Protein Classification Tool: Uma ferramenta para anotação de proteínas utilizando bases secundárias Dissertação apresentada ao Departamento de Ciência da Computação da UFMG como

Leia mais

Bioinformática DCC/FCUP

Bioinformática DCC/FCUP Bioinformática DCC/FCUP 2012/2013 Pedro Ribeiro Unidade 3 Alinhamento de Sequências (baseado nos slides de Vítor Costa/DCC-FCUP e Sushmita Roy/UWisconsin) Objectivos desta unidade Homologia Alinhamento

Leia mais

Anotação de genomas II

Anotação de genomas II Anotação de genomas II Anotação de genomas Uma vez descrito a seqüência do genoma de um organismo e realizada a anotação dos genes presentes obtemos uma extensa lista de potenciais transcritos. Como vimos

Leia mais

Profa. Dra. Cecília Dias Flores

Profa. Dra. Cecília Dias Flores Profa. Dra. Cecília Dias Flores Regente pela Disciplina de Bioinformática - Curso de Biomedicina Depto. Ciências Exatas e Sociais Aplicadas Coordenadora do curso Informática Biomédica PPG em Ciências da

Leia mais

MODELOS PROBABILÍSTICOS

MODELOS PROBABILÍSTICOS Disciplina de BIOLOGIA COMPUTACIONAL Mestrado em ENGENHARIA BIOMÉDICA 4º Ano, 1º Semestre 2007/08 MODELOS PROBABILÍSTICOS Relatório 4 Ana Calhau Ângela Pisco Nuno Santos 54605 55748 55746 Palavras-Chave:

Leia mais

A matemática e o genoma. Resumo

A matemática e o genoma. Resumo I Coloquio Regional da Região Centro-Oeste, 3 a 6 de novembro de 2009 Universidade Federal de Mato Grosso do Sul Mini-curso A matemática e o genoma Nalvo F. Almeida Jr. Resumo Os avanços da biotecnologia

Leia mais

Universidade Federal do Espírito Santo Programa de Pós Graduação em Biotecnologia Bioinformática. Kellyn Joselyn Andino Lopez Mariana Lugon Lima

Universidade Federal do Espírito Santo Programa de Pós Graduação em Biotecnologia Bioinformática. Kellyn Joselyn Andino Lopez Mariana Lugon Lima Universidade Federal do Espírito Santo Programa de Pós Graduação em Biotecnologia Bioinformática Kellyn Joselyn Andino Lopez Mariana Lugon Lima Alinhamento é...... Comparação de sequências oriundas de

Leia mais

Banco de Dados Biológicos

Banco de Dados Biológicos Pontifícia Universidade Católica de Goiás Departamento de Biologia Disciplina: Bioinformática Bio1015 Banco de Dados Biológicos Prof. Macks Wendhell Gonçalves, Msc mackswendhell@gmail.com INTRODUÇÃO BANCO

Leia mais

O que é Bioinformática?

O que é Bioinformática? Bioinformática O que é Bioinformática? O que é Bioinformática? The mathematical, statistical and computing methods that aim to solve biological problems using DNA and amino acid sequences and related Information.

Leia mais

Instruções 6 Técnicas

Instruções 6 Técnicas Instruções 6 Técnicas ISSN Dezembro, 2001 Campinas, SP Entendendo e Interpretando os Parâmetros Utilizados por BLAST Roberto Hiroshi Higa 1 O advento da tecnologia de obtenção rápida de seqüências de DNA,

Leia mais

ANÁLISE ESTRUTURAL IN SILICO

ANÁLISE ESTRUTURAL IN SILICO ANÁLISE ESTRUTURAL IN SILICO INTRODUÇÃO Este estudo visa apresentar as bases de dados repositórias de estruturas (primária, terciária e quaternária) de proteínas de diversos organismos e, a partir delas,

Leia mais

Universidade Estadual de Maringá - UEM

Universidade Estadual de Maringá - UEM Universidade Estadual de Maringá - UEM Disciplina: Biologia Molecular 6855 T1 e T2 Ciências Biológicas Transcriptoma metodologia ORESTES Profa. Dra. Maria Aparecida Fernandez Estratégia ORESTES ESTs de

Leia mais

IACB 1º Semestre de 2014/2015. Exercicios de Preparação para o Teste 1

IACB 1º Semestre de 2014/2015. Exercicios de Preparação para o Teste 1 IACB 1º Semestre de 2014/2015 Exercicios de Preparação para o Teste 1 Introdução (0 ou 1 questão no teste 1) 1. O que é a BioInformática? Resposta: Bioinformática é um campo interdisciplinar que aplica

Leia mais

3 Análise do programa BlastP

3 Análise do programa BlastP 27 3 Análise do programa BlastP Este capítulo inicia-se com a apresentação das principais características do programa BLAST e continua com uma visão detalhada da implementação do NCBI-BLAST. Também será

Leia mais

Codificação de Seqüências de Aminoácidos e sua Aplicação na Classificação de Proteínas com Redes Neurais Artificiais. Thiago de Souza Rodrigues

Codificação de Seqüências de Aminoácidos e sua Aplicação na Classificação de Proteínas com Redes Neurais Artificiais. Thiago de Souza Rodrigues Codificação de Seqüências de Aminoácidos e sua Aplicação na Classificação de Proteínas com Redes Neurais Artificiais Thiago de Souza Rodrigues Universidade Federal de Minas Gerais Instituto de Ciências

Leia mais

Busca de motivos em sequências. João Carlos Setubal 2015

Busca de motivos em sequências. João Carlos Setubal 2015 Busca de motivos em sequências João Carlos Setubal 2015 Cadeias exatas Podem ser encontradas com o mecanismo de busca de qualquer editor de textos Que algoritmo é executado? O mais simples (e que é muito

Leia mais

IDENTIFICAÇÃO ESTRUTURAL EM REDES DE PROTEÍNAS

IDENTIFICAÇÃO ESTRUTURAL EM REDES DE PROTEÍNAS IDENTIFICAÇÃO ESTRUTURAL EM REDES DE PROTEÍNAS Tópicos Especiais em Redes Complexas II Professor: Daniel Ratton Figueiredo Aluno: Vitor Borges Coutinho da Silva Artigos Comparative Analysis of Protein

Leia mais

Resumo - capítulo 5 - Predição da estrutura secundária do RNA

Resumo - capítulo 5 - Predição da estrutura secundária do RNA Resumo - capítulo 5 - Predição da estrutura secundária do RNA Pedro Ivo Gomes de Faria Sumário 1 Introdução 2 1.1 Fundamentos da predição da estrutura do RNA........ 2 1.2 Características da estrutura

Leia mais

Introdução a Bioinformática

Introdução a Bioinformática Pontifícia Universidade Católica de Goiás Departamento de Biologia Disciplina: Bioinformática Bio1015 Introdução a Bioinformática Prof. Macks Wendhell Gonçalves, Msc mackswendhell@gmail.com EMENTA Introdução

Leia mais

CONHECIMENTOS ESPECÍFICOS

CONHECIMENTOS ESPECÍFICOS CONHECIMENTOS ESPECÍFICOS Tendo em vista que a busca pela identificação de genes e o estudo das funções da Arabidopsis thaliana que, no ano 2000, foi a primeira planta a ter seu genoma sequenciado muito

Leia mais

Sequenciamento de genoma e transcriptomas

Sequenciamento de genoma e transcriptomas Sequenciamento de genoma e transcriptomas Por que seqüenciar genomas? O seqüenciamento de genomas é o primeiro passo para obter uma descrição completa da composição molecular de cada organismo, pois todas

Leia mais

ESCLEROSE LATERAL AMIOTRÓFICA ANÁLISES IN SILICO DAS MUTAÇÕES A4V E A4F DA PROTEÍNA SOD1

ESCLEROSE LATERAL AMIOTRÓFICA ANÁLISES IN SILICO DAS MUTAÇÕES A4V E A4F DA PROTEÍNA SOD1 ESCLEROSE LATERAL AMIOTRÓFICA ANÁLISES IN SILICO DAS MUTAÇÕES A4V E A4F DA PROTEÍNA SOD1 Aloma Nogueira Rebello da Silva Bióloga (UNIRIO) Programa de Pós-Graduação em Biologia Molecular e Celular aloma.nogueira@gmail.com

Leia mais

Turma de terça-feira 14 hs. Total: 31 alunos

Turma de terça-feira 14 hs. Total: 31 alunos n. alunos Turma de terça-feira 14 hs 14 Distribuição de notas 12 10 8 6 4 2 Média = 6,7 0 0 -- 2 2 -- 4 4 -- 6 6 -- 8 8 -- 10 notas 18 alunos Total: 31 alunos BANCO DE DADOS BIOLÓGICOS Aula 12 Estudo dirigido

Leia mais