UNIVERSIDADE FEDERAL DE VIÇOSA BIOINFORMÁTICA ESTRUTURAL: PREDIÇÃO DE ESTRUTURA 3D DE PROTEÍNAS
2 BIOINFORMÁTICA ESTRUTURAL Área da bioinformática que se aplica ao estudo da estrutura das moléculas Desafio da era pós-genômica: compreender as funções observar a estrutura das proteínas Técnicas experimentais: Cristalografia de raios X RMN
3 POR QUE MODELAR? Aumento do número de projetos de seqüenciamento Limitação da predição experimental de estruturas protéicas Aumento das técnicas de predição teórica
4 TÉCNICAS IN SILICO Modelagem Comparativa: Usa como molde a estrutura 3D de outra proteína de referência (resolvida experimentalmente e com coordenadas cartesianas depositadas em banco dedados de estruturas) Predição de Enovelamento de Proteínas (Threading): Tenta-se ajustar a estrutura da proteína de interesse aos tipos de enovelamentos de proteínas conhecidas (atualmente mais de 1000 tipos já foram registrados) e depositados em bibliotecas de enovelamentos Predição por Primeiros Princípios (ab initio): Baseia-se nas propriedades físico-químicas conhecidas de cada aminoácido para a construção de funções de energia. Estas funções são minimizadas por algoritmos que realizam buscas no espaço de conformações que a proteína de interesse possa assumir
5 LIMITE DOS MÉTODOS DE PREDIÇÃO DE ESTRUTURAS 3D
6 O enovelamento protéico permite que aminoácidos seqüencialmente distantes interajam em uma mesma região espacial da proteína, formando distintos padrões conformacionais, dependendo das condições físico-químicas do ambiente. O alinhamento estrutural entre proteínas consideradas de uma mesma família, mesmo que seja apenas na região do sitio ativo, pode ser um importante método para se inferir a função da seqüência em estudo. A evolução tende a conservar funções que dependem mais diretamente das estruturas 3D que das similaridades entre as seqüências de aminoácidos das proteínas.
7 A metodologia se baseia no fato de que duas proteínas com função similar possuem similaridade estrutural. Por isso e possível usar estruturas resolvidas experimentalmente como moldes para construção de um modelo estrutural da seqüência da proteína de interesse. Lp1NTPDase e RnNTPDase2: 26% de identidade
8
9
10 Identificação de Referências e Seleção de Molde(s): >Seqüência alvo (formato FASTA) MADNAMTRGSRACYNCGQPGHLSRECPTRPPGVMGDRACYNCGR MGHLSRECPTRPPGVMGDRACYNCGRMGHLSRECPNRPAGGFRGVA RGACYHCQQEGHLARDCPNAPPGGERACYNCGQTGHTSRACPVK Busca por proteínas homologas no PDB (via BLAST): Para uma seqüência ser considerada como candidata a estrutura de referencia, é necessário que haja no mínimo 25-30% de identidade entre as seqüência primarias. Estudo estrutural detalhado das moléculas homologas: Busca por domínios, região catalítica, sítios alostéricos, etc.
11 http://www.rcsb.org/pdb/search/advsearch.do?st=sequencequery
12 http://www.rcsb.org/pdb/search/advsearch.do?st=sequencequery
13 Análise da Estrutura Secundária
14 Alinhamento Estrutural Cálculo do RMSD (Root Mean Square Deviation): É a medida da distância média entre os átomos de proteínas sobreposta. Lp1NTPDase e RnNTPDase2: RMSD=3,73Â
15
16 Alinhamento simples (formato PIR) 1) Alinha a segunda seqüência ao longo de toda a extensão da primeira, de forma a coincidir o maior numero de resíduos idênticos e similares. 3) Resulta na abertura de tantos gaps quantos forem necessários. 4) Atenção para a presença de heteroatomos, águas e ligantes.
17 Alinhamento Múltiplo (formato PIR) Código P1 Informação sobre a estrutura Estrutura desconhecida
18
19 Modelagem simples
20 Modelagem múltipla
21 Modelagem com pontes dissulfeto
22
23
24
25
26
27