O que se cmpara? Alinhament de Seqüências Bilógicas A cmparaçã de seqüências de DNA, RNA e prteínas é uma das bases da biinfrmática. Citsina Uracila Timina Prfª Drª Silvana Giuliatti Departament de Genética FMRP/USP silvana@rge.fmrp.usp.br A C G T nucletídes Guanina Adenina Prfª Drª Silvana Giuiatti 1 Prfª Drª Silvana Giuliatti 2 O que se cmpara? O que se cmpara? A cmparaçã de seqüências de DNA, RNA e prteínas é uma das bases da biinfrmática. Citsina Uracila Timina A cmparaçã de seqüências de DNA, RNA e prteínas é uma das bases da biinfrmática. A C G U Guanina Adenina G A S T C V I L P F Y M W N Q H D E K R Aminácids Prfª Drª Silvana Giuliatti 3 Prfª Drª Silvana Giuliatti 4 1
Cmparaçã de Seqüências É necessári realizar um alinhament de sequências. identidade Questã: cm alinhar e cm classificar esse alinhament? similaridade Prfª Drª Silvana Giuliatti 5 Prfª Drª Silvana Giuliatti 6 Hmlgia Alinhaments de Seqüências Gene Event: duplicaçã d gene Gene - α Gene β Especiaçã Celh α Pássar α Hmem α Hmem β Pássar β Celh β Alinhaments pdem ser entre: Pares de seqüências Múltiplas seqüências Glbal: similaridade é cnsiderada a lng de tda as seqüências SSGYTCA--SKMGLG SSKQTGKGSSR- ILG Lcal: similaridade é cnsiderada apenas nas melhres regiões ------SSGYT------ ------SSKYT------ Prfª Drª Silvana Giuliatti 7 Prfª Drª Silvana Giuliatti 8 2
Históric Matrizes de Pnts 1970 Matrizes de Pnts Prgramaçã Dinâmica Alinhament Glbal 1981 Prgramaçã Dinâmica Alinhament lcal 1988 Alinhament cm Banc de dads FASTA 1990 BLAST 1994 Alinhament múltipl CLUSTAL Descrit pela primeira vez pr Gibbs e McIntyre (1970). Métd usad para alinhar duas seqüências Tdas as regiões pssíveis de serem alinhadas sã encntradas Nã permite a inclusã de gaps Prfª Drª Silvana Giuliatti 9 Prfª Drª Silvana Giuliatti 10 Matrizes de Pnts Matrizes de Pnts Clcar uma seqüência em uma linha e a utra seqüência em uma cluna Clcar um pnt em tdas as psições nde huver similaridade Diagnais revelam a similaridade entre as duas seqüências G G T T A C G G T C A C G T A C G T A C Prfª Drª Silvana Giuliatti 11 Prfª Drª Silvana Giuliatti 12 3
Prgramas para Matrizes de Pnts Prgramaçã Dinâmica Prblema d caixeir viajante Dtlet www.isrec.isb-sib.ch/java/dtlet/dtlet.html Sequências curtas: até 10.000 caracteres Prcura pr tdas as sluções pssíveis Encntra a sluçã ótima Dtter www.cgr.ki.se/cgr/grups/snnhammer/dtter.html Sequências até 100.000 caracteres EMBOSS Dttup, Dtmatcher www.embss.rg Sequências maires de 100.000 caracteres Prfª Drª Silvana Giuliatti 13 Prfª Drª Silvana Giuliatti 14 Alinhament cm Prgramaçã Dinâmica Scre Alinhament de pares de seqüências Glbal e Lcal Pde cnsiderar lacunas (gaps) a lng d alinhament Encntrar melhr alinhament pssível alinhament ótim Pde existir mais de um alinhament ótim Cnsiderar as seqüências ACGGACT e ATCGGATCT A C G G A C T A T C G G A T C T A C G G A CT A T C G G A T C T Limitaçã: pde se trnar lent dependend d tamanh das seqüências Qual destes é melhr alinhament? Prfª Drª Silvana Giuliatti 15 Prfª Drª Silvana Giuliatti 16 4
Scre (Pntuaçã) Scre (Pntuaçã) Qual é melhr alinhament? Scre u Pntuaçã: Medida pela qual s alinhaments sã quantificads Cnsidere seguinte esquema simples de pntuaçã +1 para igualdade (match) -1 para desigualdade (mismatch) -2 para lacunas (gap) Alinhament 1 Alinhament 2 A C G G A C T A T C G G A T C T A C G G A CT A T C G G A T C T +1-2 +1 +1 +1 +1-2 +1 +1 = +2 +1-2 +1-2 +1-1 -2-2 +1+1 = - 4 Melhr Alinhament: Alinhament 1 Prfª Drª Silvana Giuliatti 17 Prfª Drª Silvana Giuliatti 18 Prgramaçã Dinâmica Prgramaçã Dinâmica Alinhament Glbal Alinhament Glbal - Algritm de Needleman-Wunsch (1970). Alinhament Lcal Smith-Waterman (1981) Mdificaçã d Algritm de Needleman-Wunsch Gerar uma matriz -G T A - A C T T A G A -2-1 +1 +1-2 +1 = -2 Encntrar tds s pssíveis alinhaments Prfª Drª Silvana Giuliatti 19 Prfª Drª Silvana Giuliatti 20 5
Prgramaçã Dinâmica Matrizes de Substituiçã Alinhament Lcal Sistema de pntuaçã bilgicamente relevantes Para prduzir alinhaments bilgicamente significativs Matrizes PAM BLOSUM Aminácids Nucletídes Prfª Drª Silvana Giuliatti 21 Prfª Drª Silvana Giuliatti 22 Matrizes de Substituiçã Matrizes de Substituiçã Matrizes de Substituiçã PAM Matriz PAM 250 PAM Percent Accept Mutatin Desenvlvida pr Margaret Dayhff et al (1978) Cnsideru seqüências de aminácids cm pel mens 85% de similaridade As substituições de aminácids fram estimads 1572 mudanças em 71 grups de seqüências de prteínas. Matriz mais utilizada PAM 250 Prfª Drª Silvana Giuliatti 23 Prfª Drª Silvana Giuliatti 24 6
Matrizes de Substituiçã Matrizes de Substituiçã Matriz PAM Valr Zer freqüência de substituiçã entre dis aminácids é esperada a acas Valr menr que zer freqüência é menr que a esperada. Substituiçã de dis aminácids a acas. Valr mair que Zer freqüência mair que a esperada. Substituiçã nã é a acas. Indica mair prbabilidade de relaçã cm ancestral Matriz de Substituiçã BLOSUM BLOSUM Blcks Substitutin Matrix Desenvlvidas pr Henikff e Henikff, (1992) Aminácids sã rganizads em blcs Utilizu-se 500 famílias de prteínas Matriz mais utilizada BLOSUM62 Prfª Drª Silvana Giuliatti 25 Prfª Drª Silvana Giuliatti 26 Matrizes de Substituiçã Matrizes de Substituiçã Matriz BLOSUM62 Matriz BLOSUM Valr Zer prbabilidade de substituiçã entre dis aminácids iguais Valr menr que zer mair prbabilidade de substituiçã de dis aminácids ser a acas Valr mair que Zer mair prbabilidade de substituiçã entre dis aminácids nã ser pr acas. Indica mair prbabilidade de relaçã cm ancestral Prfª Drª Silvana Giuliatti 27 Prfª Drª Silvana Giuliatti 28 7
Matrizes de Substituiçã Métds de Palavras PAM X BLOSUM Calculadas de alinhaments glbais Seqüências utilizadas cm pel mens 85% de similaridade Calculadas de alinhaments lcais Pde-se selecinar a similaridade entre as seqüências Alinham sequências mais rapidamente. Prcuram pr partes curtas idênticas (palavras u k- tuplas). Pesquisas em bancs de dads: FASTA e BLAST Seguem um métd heurístic. As matrizes sã extraplações da PAM 1 Usada para traçar rigens da Evluçã das prteínas Cada matriz é gerada d resultad de uma análise Usadas para encntrar dmínis cnservads Prfª Drª Silvana Giuliatti 29 Prfª Drª Silvana Giuliatti 30 FASTA FASTA - Desenvlvid pr Pearsn e Lipman (1988). - Uma sequência de prteína u DNA cm tdas as sequências num banc de dads. - Apresenta s alinhaments lcais da sequência analisada cm as sequências d banc. Algritm escrit em linguagem C. Mais lent que BLAST. Prcura pr um númer k de cnsecutivas letras (aminácids u nucletídes): palavras u k- tuplas. Prfª Drª Silvana Giuliatti 31 Prfª Drª Silvana Giuliatti 32 8
FASTA A sequência de entrada deve estar n frmat FASTA. O algritm pde ser dividid em 4 etapas: a) seleçã das 10 melhres regiões. b) re-classificaçã das 10 melhres regiões. c) seleçã das seqüências mais semelhantes. d) alinhament das seqüências selecinadas. Métds de Palavras BLAST Basic Lcal Aligment Sequence Tl Alinhament de uma sequência de prteína u DNA cm tdas as sequências num banc de dads. Apresenta s alinhaments lcais da sequência analisada cm as sequências d banc. Mais rápid que FASTA. Algritm escrit em linguagem C. Prcura pr um númer k de cnsecutivas letras (aminácids u nucletídes): palavras u k-tuplas. Prfª Drª Silvana Giuliatti 33 Prfª Drª Silvana Giuliatti 34 BLAST BLAST Prcura pr palavras que sã mais significantes A significância é incrprada a algritm através de matrizes de pntuaçã. Buscar pr identidades de cmpriment k: 11 para nucletídes 3 para aminácids O algritm pde ser dividid em 4 etapas: a) mntagem da lista de palavras. b) prcura pelas palavras em cada sequência d banc. c) extensã. d) alinhament das seqüências. Prfª Drª Silvana Giuliatti 35 Prfª Drª Silvana Giuliatti 36 9
BLAST d) Alinhament das seqüências Determina se cada HSP é estatisticamente significante. Depis de determinar se HSP é estatisticamente significante, faz alinhament ds melhres segments. EVALUE O mais usad scre é Evalue: prprcina uma estimativa d númer de falss psitivs esperads. Interpretaçã d Valr Esperad: Evalue E<10-100 valr muit baix. Genes hmólgs u idêntics. E<10-3 valr mderad. Genes pdem estar relacinads. E>1 valr alt. Prváveis genes sem relaçã. 0,5 < E < 1 Regiã duvidsa - Twilight zne Twilight zne: nessa regiã, nada é garantid sbre significad das similaridades bservadas. Hmlgia u nã, nunca é garantida nessa área. Prfª Drª Silvana Giuliatti 37 Prfª Drª Silvana Giuliatti 38 Alinhament Múltipl O alinhament múltipl de sequências identifica resídus u regiões cnservadas u equivalentes em estruturas. CLUSTALW Métd heurístic Rápid e eficiente. Faz alinhament prgressiv ds perfis e sequências mais distantes O mais usad: ClustalW (Thmpsn et al, 1994) Prfª Drª Silvana Giuliatti 39 Prfª Drª Silvana Giuliatti 40 10
CLUSTALW Algritm de 3 etapas: Alinhament em pares de tdas as sequências para determinar similaridade entre elas. Definir a rdem d alinhament prgressiv basead na similaridade. Cnstruir alinhament múltipl basead na rdem definida. seq seq CLUSTALW Etapa 1: Alinhament em pares de tdas sequências para determinar similaridade entre elas. Usa métd de alinhament (glbal) de pares de sequências Usa matriz de substituiçã e penalidade pr gaps. alinh ams alinh alinh Qual a rdem d alinhament? ams Prfª Drª Silvana Giuliatti 41 Prfª Drª Silvana Giuliatti 42 CLUSTALW Usa s alinhaments em pares para calcular uma distância genética entre tds s pares de sequências. Cnstrói uma matriz de valres de distâncias. CLUSTALW Etapa 2: Definir a rdem d alinhament prgressiv basead na similaridade. Definir as sequências mais próximas: árvre de similaridade. Usa matriz de distâncias para calcular a árvre. Métd de junçã pr vizinhs (neighbr-jining) Prfª Drª Silvana Giuliatti 43 Prfª Drª Silvana Giuliatti 44 11
CLUSTALW Etapa 3: Cnstruir alinhament múltipl basead na rdem definida. Cmbinar s alinhaments cmeçand cm s grups mais próxims para s mais distantes Referências http://www.sxc.hu http://creative.gettyimages.cm/surce/hme/hme.aspx Munt, D. W., Biinfrmatics - Sequence and Genme Analysis, ed. CSHL, 2ª ediçã. Gibas, C e Jambeck, P., Desenvlvend a Biinfrmática. Ed. Campus. Prfª Drª Silvana Giuliatti 45 Prfª Drª Silvana Giuliatti 46 12