Alinhamento de Seqüências Biológicas

Documentos relacionados
alinhamento global-alinhamento múltiplo de seqüências

10. Escreva um programa que leia um texto e duas palavras e substitua todas as ocorrências da primeira palavra com a segunda palavra.

AL 1.1 Movimento num plano inclinado: variação da energia cinética e distância percorrida. Nome dos membros do grupo: Data de realização do trabalho:

COMPARAÇÃO DE CURVAS DE SOBREVIVÊNCIA

A) O volume de cada bloco é igual à área da base multiplicada pela altura, isto é, 4 1

Organização de Computadores Digitais. Cap.10: Conjunto de Instruções: Modos de Endereçamento e Formatos

Deseja-se mostrar que, se o Método de Newton-Raphson converge, esta convergência se dá para a raiz (zero da função). lim

2 Modelagem da previsão de atenuação por chuvas em enlaces GEO

4 Extensão do modelo de Misme e Fimbel para a determinação da distribuição cumulativa da atenuação diferencial entre dois enlaces convergentes

Comunicado Cetip n 091/ de setembro de 2013

TIPO DE PROVA: A. Questão 1. Questão 3. Questão 4. Questão 2. alternativa B. alternativa A. alternativa D. alternativa C

MATEMÁTICA APLICADA RESOLUÇÃO

Escola Secundária com 3º ciclo D. Dinis 12º Ano de Matemática A Tema II Introdução ao Cálculo Diferencial II. TPC nº 8 entregar em

UFSC. Matemática (Amarela) 21) Resposta: 14. Comentário e resolução. 01. Incorreta. Como 1 rd 57 o, então 10 rd 570 o. f(x) = sen x.

Alinhamento de seqüências

Nome dos membros do grupo: Data de realização do trabalho:

Técnica do Fluxograma

Métodos de alinhamento de sequências biológicas. Marcelo Falsarella Carazzolle

Classificações ECTS. - Resultados da aplicação experimental às disciplinas do IST - Carla Patrocínio

O uso de amostras. Desvantagens: Perda no nível de confiança; Diminuição da precisão dos resultados. POPULAÇÃO (N) AMOSTRA(n)

TIPO DE PROVA: A. Questão 1. Questão 2. Questão 4. Questão 3. alternativa A. alternativa B. alternativa C

Cartografia e Geoprocessamento Parte 1. Geoide, Datum e Sistema de Coordenadas Geográficas

Variáveis e Tipo de Dados

Estudo do efeito de sistemas de forças concorrentes.

Tema: Estudo do Comportamento de Funções usando Cálculo Diferencial. Seja definida em um intervalo e sejam e pontos deste intervalo.

34

As informações apresentadas neste documento não dispensam a consulta da legislação em vigor e o Programa da disciplina.

Casa Eficiente c. Promoção da eficiência energética na iluminação

Alinhamento de sequências

CÁLCULO I. Aula n o 02: Funções. Denir função e conhecer os seus elementos; Listar as principais funções e seus grácos.

Sistemas de coordenadas tridimensionais. Translação e rotação de sistemas. Prof. Dr. Carlos Aurélio Nadal. Translação e rotação de sistemas

Bioinformática. Alinhamento de Sequências. Prof. Msc. Rommel Ramos

DISSERTAÇÃO ou PROJECTO FINAL NORMAS PARA O SEU FUNCIONAMENTO

Questão 2. Questão 1. Questão 3. alternativa C. alternativa D

Alinhamentos e Busca de Similaridade. Ariane Machado Lima

Algoritmos e Estruturas de Dados 1 Lista de Exercícios 2

Sistemas de coordenadas tridimensionais. Translação e rotação de sistemas. Prof. Dr. Carlos Aurélio Nadal. Translação e rotação de sistemas

Transição escola mercado de trabalho: duração da procura do 1º emprego

Proposta de teste de avaliação 4 Matemática 9

Sondagem do Bem-Estar

LÓGICA FORMAL parte 2 QUANTIFICADORES, PREDICADOS E VALIDADE

S3 - Explicação sobre endereço e/ou número de telefone dos EUA

SISTEMA GALGO FATURAMENTO CONSULTA AO DEMONSTRATIVO DE TRANSAÇÕES TARIFADAS PRODUTO PROCESSO GUIA DO USUÁRIO

Elaboração de sínteses de evidência

PROGRAMA NACIONAL DE GINÁSTICA AERÓBICA CÓDIGO BASE (ADAPTADO) 2015/2016. Versão 21 de janeiro Programa Nacional Código Base (Adaptado) 1

1. Propósito. Permite definir o custo das operações realizadas por segundo pelo trabalhador, durante todo o dia de trabalho.

Trabalhos Práticos. Programação II Curso: Engª Electrotécnica - Electrónica e Computadores

Energia Cinética e Trabalho

4 MÉTODO DE CONTROLE DE CUSTOS

Caixas Ativas e Passivas. SKY 3000, SKY 2200, SKY 700, SKY 600 e NASH Áreas de Cobertura e Quantidade de Público

grau) é de nida por:

Aula 3 Expressões. 1. Introdução. 2. Operadores. Operador Tipo Operação Prioridade

matemática 2 Questão 7

Bias de AM. Bias e Variância Estatísticos

REGULAMENTO CIRCUITO FEDEESP DE GINÁSTICA ARTÍSTICA

Aluno(a): Código: 04. Sabendo que log 2 = x e log 3 = y, calcule o valor de: a) log 120. b) log 3 2 5

Matemática E Extensivo V. 2

MATEMÁTICA APLICADA NP2. Conceitos Econômicos

Cite situações em que contamos, fazendo agrupamentos diferentes de dez. CUBOS DE PLACAS DE 700 BARRAS DE 70 CUBOS

111 OJ OJ. o que você entende por: "Fulano é um zero à esquerda"? OJOJ OJ. Cite situações em que contamos, fazendo agrupamentos diferentes de dez.

FACULDADE INTEGRADA DA GRANDE FORTALEZA FEIRA TECNOLÓGICA. TEMA: Cidades Inteligentes

Modelos GAMLSS - Associações entre marcadores e QTL

Casa Eficiente b. Circulação e retorno de água quente sanitária

Transcrição:

O que se cmpara? Alinhament de Seqüências Bilógicas A cmparaçã de seqüências de DNA, RNA e prteínas é uma das bases da biinfrmática. Citsina Uracila Timina Prfª Drª Silvana Giuliatti Departament de Genética FMRP/USP silvana@rge.fmrp.usp.br A C G T nucletídes Guanina Adenina Prfª Drª Silvana Giuiatti 1 Prfª Drª Silvana Giuliatti 2 O que se cmpara? O que se cmpara? A cmparaçã de seqüências de DNA, RNA e prteínas é uma das bases da biinfrmática. Citsina Uracila Timina A cmparaçã de seqüências de DNA, RNA e prteínas é uma das bases da biinfrmática. A C G U Guanina Adenina G A S T C V I L P F Y M W N Q H D E K R Aminácids Prfª Drª Silvana Giuliatti 3 Prfª Drª Silvana Giuliatti 4 1

Cmparaçã de Seqüências É necessári realizar um alinhament de sequências. identidade Questã: cm alinhar e cm classificar esse alinhament? similaridade Prfª Drª Silvana Giuliatti 5 Prfª Drª Silvana Giuliatti 6 Hmlgia Alinhaments de Seqüências Gene Event: duplicaçã d gene Gene - α Gene β Especiaçã Celh α Pássar α Hmem α Hmem β Pássar β Celh β Alinhaments pdem ser entre: Pares de seqüências Múltiplas seqüências Glbal: similaridade é cnsiderada a lng de tda as seqüências SSGYTCA--SKMGLG SSKQTGKGSSR- ILG Lcal: similaridade é cnsiderada apenas nas melhres regiões ------SSGYT------ ------SSKYT------ Prfª Drª Silvana Giuliatti 7 Prfª Drª Silvana Giuliatti 8 2

Históric Matrizes de Pnts 1970 Matrizes de Pnts Prgramaçã Dinâmica Alinhament Glbal 1981 Prgramaçã Dinâmica Alinhament lcal 1988 Alinhament cm Banc de dads FASTA 1990 BLAST 1994 Alinhament múltipl CLUSTAL Descrit pela primeira vez pr Gibbs e McIntyre (1970). Métd usad para alinhar duas seqüências Tdas as regiões pssíveis de serem alinhadas sã encntradas Nã permite a inclusã de gaps Prfª Drª Silvana Giuliatti 9 Prfª Drª Silvana Giuliatti 10 Matrizes de Pnts Matrizes de Pnts Clcar uma seqüência em uma linha e a utra seqüência em uma cluna Clcar um pnt em tdas as psições nde huver similaridade Diagnais revelam a similaridade entre as duas seqüências G G T T A C G G T C A C G T A C G T A C Prfª Drª Silvana Giuliatti 11 Prfª Drª Silvana Giuliatti 12 3

Prgramas para Matrizes de Pnts Prgramaçã Dinâmica Prblema d caixeir viajante Dtlet www.isrec.isb-sib.ch/java/dtlet/dtlet.html Sequências curtas: até 10.000 caracteres Prcura pr tdas as sluções pssíveis Encntra a sluçã ótima Dtter www.cgr.ki.se/cgr/grups/snnhammer/dtter.html Sequências até 100.000 caracteres EMBOSS Dttup, Dtmatcher www.embss.rg Sequências maires de 100.000 caracteres Prfª Drª Silvana Giuliatti 13 Prfª Drª Silvana Giuliatti 14 Alinhament cm Prgramaçã Dinâmica Scre Alinhament de pares de seqüências Glbal e Lcal Pde cnsiderar lacunas (gaps) a lng d alinhament Encntrar melhr alinhament pssível alinhament ótim Pde existir mais de um alinhament ótim Cnsiderar as seqüências ACGGACT e ATCGGATCT A C G G A C T A T C G G A T C T A C G G A CT A T C G G A T C T Limitaçã: pde se trnar lent dependend d tamanh das seqüências Qual destes é melhr alinhament? Prfª Drª Silvana Giuliatti 15 Prfª Drª Silvana Giuliatti 16 4

Scre (Pntuaçã) Scre (Pntuaçã) Qual é melhr alinhament? Scre u Pntuaçã: Medida pela qual s alinhaments sã quantificads Cnsidere seguinte esquema simples de pntuaçã +1 para igualdade (match) -1 para desigualdade (mismatch) -2 para lacunas (gap) Alinhament 1 Alinhament 2 A C G G A C T A T C G G A T C T A C G G A CT A T C G G A T C T +1-2 +1 +1 +1 +1-2 +1 +1 = +2 +1-2 +1-2 +1-1 -2-2 +1+1 = - 4 Melhr Alinhament: Alinhament 1 Prfª Drª Silvana Giuliatti 17 Prfª Drª Silvana Giuliatti 18 Prgramaçã Dinâmica Prgramaçã Dinâmica Alinhament Glbal Alinhament Glbal - Algritm de Needleman-Wunsch (1970). Alinhament Lcal Smith-Waterman (1981) Mdificaçã d Algritm de Needleman-Wunsch Gerar uma matriz -G T A - A C T T A G A -2-1 +1 +1-2 +1 = -2 Encntrar tds s pssíveis alinhaments Prfª Drª Silvana Giuliatti 19 Prfª Drª Silvana Giuliatti 20 5

Prgramaçã Dinâmica Matrizes de Substituiçã Alinhament Lcal Sistema de pntuaçã bilgicamente relevantes Para prduzir alinhaments bilgicamente significativs Matrizes PAM BLOSUM Aminácids Nucletídes Prfª Drª Silvana Giuliatti 21 Prfª Drª Silvana Giuliatti 22 Matrizes de Substituiçã Matrizes de Substituiçã Matrizes de Substituiçã PAM Matriz PAM 250 PAM Percent Accept Mutatin Desenvlvida pr Margaret Dayhff et al (1978) Cnsideru seqüências de aminácids cm pel mens 85% de similaridade As substituições de aminácids fram estimads 1572 mudanças em 71 grups de seqüências de prteínas. Matriz mais utilizada PAM 250 Prfª Drª Silvana Giuliatti 23 Prfª Drª Silvana Giuliatti 24 6

Matrizes de Substituiçã Matrizes de Substituiçã Matriz PAM Valr Zer freqüência de substituiçã entre dis aminácids é esperada a acas Valr menr que zer freqüência é menr que a esperada. Substituiçã de dis aminácids a acas. Valr mair que Zer freqüência mair que a esperada. Substituiçã nã é a acas. Indica mair prbabilidade de relaçã cm ancestral Matriz de Substituiçã BLOSUM BLOSUM Blcks Substitutin Matrix Desenvlvidas pr Henikff e Henikff, (1992) Aminácids sã rganizads em blcs Utilizu-se 500 famílias de prteínas Matriz mais utilizada BLOSUM62 Prfª Drª Silvana Giuliatti 25 Prfª Drª Silvana Giuliatti 26 Matrizes de Substituiçã Matrizes de Substituiçã Matriz BLOSUM62 Matriz BLOSUM Valr Zer prbabilidade de substituiçã entre dis aminácids iguais Valr menr que zer mair prbabilidade de substituiçã de dis aminácids ser a acas Valr mair que Zer mair prbabilidade de substituiçã entre dis aminácids nã ser pr acas. Indica mair prbabilidade de relaçã cm ancestral Prfª Drª Silvana Giuliatti 27 Prfª Drª Silvana Giuliatti 28 7

Matrizes de Substituiçã Métds de Palavras PAM X BLOSUM Calculadas de alinhaments glbais Seqüências utilizadas cm pel mens 85% de similaridade Calculadas de alinhaments lcais Pde-se selecinar a similaridade entre as seqüências Alinham sequências mais rapidamente. Prcuram pr partes curtas idênticas (palavras u k- tuplas). Pesquisas em bancs de dads: FASTA e BLAST Seguem um métd heurístic. As matrizes sã extraplações da PAM 1 Usada para traçar rigens da Evluçã das prteínas Cada matriz é gerada d resultad de uma análise Usadas para encntrar dmínis cnservads Prfª Drª Silvana Giuliatti 29 Prfª Drª Silvana Giuliatti 30 FASTA FASTA - Desenvlvid pr Pearsn e Lipman (1988). - Uma sequência de prteína u DNA cm tdas as sequências num banc de dads. - Apresenta s alinhaments lcais da sequência analisada cm as sequências d banc. Algritm escrit em linguagem C. Mais lent que BLAST. Prcura pr um númer k de cnsecutivas letras (aminácids u nucletídes): palavras u k- tuplas. Prfª Drª Silvana Giuliatti 31 Prfª Drª Silvana Giuliatti 32 8

FASTA A sequência de entrada deve estar n frmat FASTA. O algritm pde ser dividid em 4 etapas: a) seleçã das 10 melhres regiões. b) re-classificaçã das 10 melhres regiões. c) seleçã das seqüências mais semelhantes. d) alinhament das seqüências selecinadas. Métds de Palavras BLAST Basic Lcal Aligment Sequence Tl Alinhament de uma sequência de prteína u DNA cm tdas as sequências num banc de dads. Apresenta s alinhaments lcais da sequência analisada cm as sequências d banc. Mais rápid que FASTA. Algritm escrit em linguagem C. Prcura pr um númer k de cnsecutivas letras (aminácids u nucletídes): palavras u k-tuplas. Prfª Drª Silvana Giuliatti 33 Prfª Drª Silvana Giuliatti 34 BLAST BLAST Prcura pr palavras que sã mais significantes A significância é incrprada a algritm através de matrizes de pntuaçã. Buscar pr identidades de cmpriment k: 11 para nucletídes 3 para aminácids O algritm pde ser dividid em 4 etapas: a) mntagem da lista de palavras. b) prcura pelas palavras em cada sequência d banc. c) extensã. d) alinhament das seqüências. Prfª Drª Silvana Giuliatti 35 Prfª Drª Silvana Giuliatti 36 9

BLAST d) Alinhament das seqüências Determina se cada HSP é estatisticamente significante. Depis de determinar se HSP é estatisticamente significante, faz alinhament ds melhres segments. EVALUE O mais usad scre é Evalue: prprcina uma estimativa d númer de falss psitivs esperads. Interpretaçã d Valr Esperad: Evalue E<10-100 valr muit baix. Genes hmólgs u idêntics. E<10-3 valr mderad. Genes pdem estar relacinads. E>1 valr alt. Prváveis genes sem relaçã. 0,5 < E < 1 Regiã duvidsa - Twilight zne Twilight zne: nessa regiã, nada é garantid sbre significad das similaridades bservadas. Hmlgia u nã, nunca é garantida nessa área. Prfª Drª Silvana Giuliatti 37 Prfª Drª Silvana Giuliatti 38 Alinhament Múltipl O alinhament múltipl de sequências identifica resídus u regiões cnservadas u equivalentes em estruturas. CLUSTALW Métd heurístic Rápid e eficiente. Faz alinhament prgressiv ds perfis e sequências mais distantes O mais usad: ClustalW (Thmpsn et al, 1994) Prfª Drª Silvana Giuliatti 39 Prfª Drª Silvana Giuliatti 40 10

CLUSTALW Algritm de 3 etapas: Alinhament em pares de tdas as sequências para determinar similaridade entre elas. Definir a rdem d alinhament prgressiv basead na similaridade. Cnstruir alinhament múltipl basead na rdem definida. seq seq CLUSTALW Etapa 1: Alinhament em pares de tdas sequências para determinar similaridade entre elas. Usa métd de alinhament (glbal) de pares de sequências Usa matriz de substituiçã e penalidade pr gaps. alinh ams alinh alinh Qual a rdem d alinhament? ams Prfª Drª Silvana Giuliatti 41 Prfª Drª Silvana Giuliatti 42 CLUSTALW Usa s alinhaments em pares para calcular uma distância genética entre tds s pares de sequências. Cnstrói uma matriz de valres de distâncias. CLUSTALW Etapa 2: Definir a rdem d alinhament prgressiv basead na similaridade. Definir as sequências mais próximas: árvre de similaridade. Usa matriz de distâncias para calcular a árvre. Métd de junçã pr vizinhs (neighbr-jining) Prfª Drª Silvana Giuliatti 43 Prfª Drª Silvana Giuliatti 44 11

CLUSTALW Etapa 3: Cnstruir alinhament múltipl basead na rdem definida. Cmbinar s alinhaments cmeçand cm s grups mais próxims para s mais distantes Referências http://www.sxc.hu http://creative.gettyimages.cm/surce/hme/hme.aspx Munt, D. W., Biinfrmatics - Sequence and Genme Analysis, ed. CSHL, 2ª ediçã. Gibas, C e Jambeck, P., Desenvlvend a Biinfrmática. Ed. Campus. Prfª Drª Silvana Giuliatti 45 Prfª Drª Silvana Giuliatti 46 12