Bancos de dados de biomacromoléculas e recuperação de informação O fluxo da informação genética cirauqui@pharma.ufrj.br Bancos de dados Bancos de dados Ferramenta de extração de informação 1
Bancos de dados Bancos de dados Definição de Banco de Dados: conjunto de registros dispostos em estrutura regular que possibilita a reorganização dos mesmos e produção de informação Definição de Banco de Dados: conjunto de registros dispostos em estrutura regular que possibilita a reorganização dos mesmos e produção de informação Doistiposdebancosdedados: Primário: são simples repositórios de dados(ex. seqüências de proteínas) Secundário: mais completos, informação adicional, mais critérios de busca (ex. seqüências de proteínas, junto com a função delas, a localização celular, características estruturais,...) Processo de anotação principalmente manual Bancos de dados Características de um bom banco de dados: Completos e atualizados Interconexão com outros bancos de dados: plataforma base de buscas avançadas Permita colocar novas sequencias e corrigir as existentes Accessíveis na internet Bancos de dados Classificados em função dos dados: Bancos de dados de seqüências de nucleotídeos Bancos de dados de seqüências de proteínas Bancos de dados de nomenclatura Bancos de dados de estruturas de proteínas Bancos de dados de famílias de proteínas Bancos de dados de domínios de proteínas Bancos de dados de integrados e comparativos Bancos de dados de identificação de proteínas Etc... 2
Bancos de dados de seqüências de nucleotídeos PRACTICA 1. Busca de sequencias de genes EMBL/DDBJ/GenBank RefSeq Do NCBI (national center for biotecnology information) Primario, redundante Do NCBI Secundário, interconectado Contém DNA genomico, RNA e proteínas Abrir: RefSeq, ou NCBI Buscar por nucleotide: MCHR1 Refinar a busca por filtro: RefSeq Selecionar HOMO SAPIENS, mrna. Ensembl Secundário Banco de dados de GENOMAS Genome Reviews Secundário, interconectado GENOMAS COMPLETOS 3
Bancos de dados de sequências de proteínas PRACTICA 2. Busca de sequencias de proteínas Entrez protein Uniprot Derivadas ou pegas de outros bancos de dados Primario, redundante Secundário, com MUITA informação adicional Links a MUITOS bancos de dados Abrir: Uniprot Buscar: MCHR1 Pegar human com estrelha amarela (confirmado) Salva a sequencia da proteína em formato fasta Entra nos modelos de homología e baixa o arquivo de coordenadas de um deles, para uma outra prática 4
5
Bancos de dados de nomenclatura Genew Nomens e símbolos aprovados para genes GO/GOA Vocabulário para descrever proteoma, função, localização,... Bancos de dados de estrutura de proteínas PRACTICA 3. Busca de estruturas de proteínas Protein Data Bank (PDB) Resid Estruturas 3D de proteínas, ácidos nucléicos e carboidratos, obtidas por experimentos de cristalografia de raios X e ressonância magnética nuclear(nmr) Modificações de proteínas Abrir: pdb Procurar o nome de alguma proteína Olhar o artigo onde foi publicada, a sequencia, a referencia em UNIPROT, as condicoes experimentais,... Baixa as coordenadas da estrutura (arquivo PDB) Molecular Modeling DataBase (MMDB) Modelos de homología 6
Bancos de dados de famílias de proteínas Pfam Classificados por sequencia e domínios Procura dominios no PDB Prosite Banco de dados de domínios, motivos, sitos funcionais,... SCOP ( Structural Classification of Proteins ) CATH ( Protein Structure Classification ) Classificados por estrutura secundária(sóα,sóβ,α/β,...) 7
PRACTICA 4. Busca de famílias de proteínas Abrir: pfam Cola a sequencia do MCHR1 (formato Fasta) Bancos de dados integrados y comparativos InterPro Combina vários bancos de dados de famílias de proteínas, unindo os pontos fortes de cada um deles. Pfam(baseado em domínios) PROSITE (baseado em sitos funcionais) PRINTS (baseado em motivos conservados) PANTHER (baseado em função) Superfamily, Gene3D, Smart,... Integr8 8
Bancos de dados de identificação de proteínas Ferramentas de extração de dados Classificadas em função do termo de busca: IntAct Repositório e sistema de análise de Interações entre proteínas Busca baseada em texto Busca baseada em seqüência SWISS-2DPAGE Resultados dos experimentos de Twodimensional polyacrylamidegel electrophoresis (2D PAGE) e SodiumDodecylSulfate PAGE (SDS PAGE), com referencias para outros registros em UniProtKB Busca baseada em motivo estrutural Busca baseada em estrutura Outras ferramentas de análise Busca baseada em texto PRACTICA 5. Busca baseada em texto Entrez Procura dados do NCBI (nucleotídeos, genomas, sequências e estruturas de proteínas, literatura,...) Abrir: NCBI ou Entrez Buscar: MCHR1 Olhar os diferentes dados produzidos na busca SRS Procura no EMBL, SWISS-PROT, TrEMBL, PIR, PDB,... 9
Busca baseada em sequencia Busca baseada em sequencia Busca baseada em sequência Identidade Presença do mesmo ácido nucléico ou aminoácido na mesma posição em duas seqüências alinhadas Métodos de busca por sequência: Similaridade Apenas quando ocorrer substituições Dois aminoácidos são considerados similares se um puder ser substituído por outro com propriedades químicas similares Homologia Relação evolutiva Duas seqüências são homólogas se derivarem da mesma seqüência ancestral Genes Ortólogos Tem a mesma função mas ocorrem em espécies diferentes Genes Parálogos Possuem ancestral comum e existem num mesmo genoma mas com funções diferentes 10
Busca baseada em sequência Busca baseada em sequência Métodos de busca por sequência: Identidade VS Similaridade Métodos de busca por sequência: Seqüência completa VS por fragmentos Si / Não Pontuação (score) Seq A Seq B -1,-1,1,1,0,1,0 0,2,1,2,4,4,1,0 Busca baseada em sequência Busca baseada em sequência Métodos de busca por sequência: Seqüência completa VS por fragmentos Seq A Seq B Métodos de busca por sequência: Seqüência completa VS por fragmentos Seq A Seq B Seq A Seq B Lacunas (gaps) 11
Busca baseada em sequência Busca baseada em sequência Métodos de busca por sequência: Seqüência completa VS por fragmentos Seq A Seq B Métodos de busca por sequência: Seqüência completa VS por fragmentos Seq A Seq B Busca baseada em sequência Busca baseada em sequência Métodos de busca por sequência: Seqüência completa VS por fragmentos Seq A Seq B Métodos de busca por sequência: Seqüência completa VS por fragmentos Seq A Seq B 12
Busca baseada em sequência Busca baseada em sequencia Métodos de busca por sequência: Seqüência completa VS por fragmentos Seq A Seq B Blast Fasta Similaridade, por fragmentos Proteínas e nucleotídeos PSI-BLAST (homologos distantes) (http://en.wikipedia.org/wiki/blast) Parecido Formato.fasta aceito em muitos buscadores PRACTICA 6. Busca por sequência Abrir: expasy / Blast at ncbi / Blastp Buscar: inserir sequência de MCHR1, Run Blast Refaz a busca mas desta vez pedindo soluções com estrutura no pdb Selecionar várias estruturas de diferentes proteínas com boa homologia Baixar o alinhamento entre esas proteínas em formato fasta e salvar (selecionar / multiple alignment / download / fasta with gaps) Olhar informação sobre domínios e motivos conhecidos, árvore filogenética 13
Exporta alinhamento em formato FASTA Busca baseada em motivo Busca baseada em estrutura ScanProsite Procura na sua sequência a existência ou não de domínios no PROSITE e motivos no UNIPROT Busca por estrutura 3D Busca por sequencia 14
Busca baseada em estrutura Busca baseada em estrutura Alinhamento estrutural definido pelo RMSD (root mean square distance) onde di é a distância entre o par de átomos i, e n é o número total de pontos (átomos) Cadeias laterais nao sao consideradas O RMSD é feito entre os átomos Cαdo esqueleto Precisamos saber qual Cαda proteína 1 corresponde a qual Cαda proteína 2: alinhamento de sequencia Que outras possibilidades além do RMSD temos? Comparação de estruturas secundárias (SSEs), mapas de contato ou interações, medidas de empacotamento das cadeias laterais, conservação de ligações de hidrogênio. Busca baseada em estrutura Busca baseada em estrutura Estrutura representada por uma matriz de distancia Distancias comparativas e não distancias absolutas sujeitas a coordenadas fixas no espaço 2D e não 3D VAST ( Vector Alignment Search Tool ) Do NCBI Procura vizinhos estruturais numa base de dados, começando com um set de coordenadas 3D Resíduos com contato espacial DALI Do EBI Similar com VAST Residuos contíguos na sequencia a : pode ser distancias entre Cα, entre grupos de átomos, estruturas ecundárias (SSEs), 15
PRACTICA 7. Busca por estrutura Abrir: VAST / VAST search Buscar: abrir uma estrutura.pdb (por exemplo um modelo de homología do MCHR1 pego na prática 2, no link do MMDB no UNIPROT) Esperar que o programa procure os homólogos estruturai e observar os resultados (para o alinhamento gráfico em 3D precisamos baixar um programa indicado no site: Cn3D http://www.ncbi.nlm.nih.gov/structure/vast/vsmmdb.cgi?cmdvsmmdb= StrText&grpid=8473483687603842245&ViewNbr=Yes 16
Ferramentas de análise Ácidos nucléicos Alinhamento de seqüências: Clustaw, LALIGN Procurar sitos de restrição de enzimas: Webcutter Desenhar primers: PRIDE Procurar elementos de fatores de transcrição no DNA: SignalScan Predição de interações RNA-RNA: FAStRNA Procurar genes: ORF finder, GeneMachine Translação da sequencia de nucleotídeos á aminoácidos: Translate Etc... PRACTICA 8. Achar a sequencia de aminoácidos a partir da sequencia de nucleotídeos Abrir: Expasy tools / Translate Introducir a sequencia de DNA ou RNA at gtcagtggga gccatgaaga agggagtggg 301 gagggcagtt gggcttggag gcggcagcgg ctgccaggct acggaggaag acccccttcc 361 caactgcggg gcttgcgctc cgggacaagg tggcaggcgc tggaggctgc cgcagcctgc 421 gtgggtggag gggagctcag ctcggttgtg ggagcaggcg accggcactg gctggatgga 481 cctggaagcc tcgctgctgc ccactggtcc caacgccagc aacacctctg atggccccga 541 taacctcact tcggcaggat cacctcctcg cacggggagc atctcctaca tcaacatcat 601 catgccttcg gtgttcggca ccatctgcct cctgggcatc atcgggaact ccacggtcat 661 cttcgcggtc gtgaagaagt ccaagctgca ctggtgcaac aacgtccccg acatcttcat 721 catcaacctc tcggtagtag atctcctctt tctcctgggc atgcccttca tgatccacca 781 gctcatgggc aatggggtgt ggcactttgg ggagaccatg tgcaccctca tcacggccat 841 ggatgccaat agtcagttca ccagcaccta catcctgacc gccatggcca ttgaccgcta 901 cctggccact gtccacccca tctcttccac gaagttccgg aagccctctg tggccaccct 961 ggtgatctgc ctcctgtggg ccctctcctt catcagcatc acccctgtgt ggctgtatgc 1021 cagactcatc cccttcccag gaggtgcagt gggctgcggc atacgcctgc ccaacccaga 1081 cactgacctc tactggttca ccctgtacca gtttttcctg gcctttgccc tgccttttgt 1141 ggtcatcaca gccgcatacg tgaggatcct gcagcgcatg acgtcctcag tggcccccgc 1201 ctcccagcgc agcatccggc tgcggacaaa gagggtgacc cgcacagcca tcgccatctg 1261 tctggtcttc tttgtgtgct gggcacccta ctatgtgcta cagctgaccc agttgtccat 1321 cagccgcccg accctcacct ttgtctactt atacaatgcg gccatcagct tgggctatgc 1381 caacagctgc ctcaacccct ttgtgtacat cgtgctctgt gagacgttcc gcaaacgctt 1441 ggtcctgtcg gtgaagcctg cagcccaggg gcagcttcgc gctgtcagca acgctcagac 1501 ggctgacgag gagaggacag aaagcaaagg cacctgatac ttcccctgcc accctgcaca Determinar a sequencia correta de aminoácidos e a qué proteína corresponde 17
Ferramentas de análise Proteínas Predição de propriedades fisico-químicas: ProtParam Alinhamento de seqüências: Clustaw, LALIGN, Jalview Análise de seqüência primaria: SignalP(seqüência sinal), TargetP (localização subcelular),... Analisar estrutura 3D: RasMole Pymol(visualização), LOCK (comparação e sobreposição de várias estruturas), Previsão de estrutura secundária: PredictProtein Cómo pode saber qual é a proteína? Qué ferramenta das estudadas pode usar? Previsão de estrutura terciaria: Swiss-Model(modelos de homología) Predizer a função da proteína: ConSurf, BINDBLAST,... Etc... Ferramentas de análise Proteínas Predição de propriedades fisico-químicas: ProtParam Alinhamento de seqüências: Clustaw, LALIGN, Jalview Análise de seqüência primaria: SignalP(seqüência sinal), TargetP (localização subcelular),... Analisar estrutura 3D: RasMole Pymol(visualização), LOCK (comparação e sobreposição de várias estruturas), PRACTICA 9. Previsão de Propriedades físicoquímicas das proteínas Abrir: Expasy tools / ProtParam Colocar a sequencia de Aminoácidos do MCHR1 Olhar as propriedades calculadas para esta proteína Previsão de estrutura secundária: PredictProtein Previsão de estrutura terciaria: Swiss-Model(modelos de homología) Predizer a função da proteína: ConSurf, BINDBLAST,... Etc... 18
Ferramentas de análise Proteínas Predição de propriedades fisico-químicas: ProtParam Alinhamento de seqüências: Clustaw, LALIGN, Jalview Análise de seqüência primaria: SignalP(seqüência sinal), TargetP (localização subcelular),... Analisar estrutura 3D: RasMole Pymol(visualização), LOCK (comparação e sobreposição de várias estruturas), Previsão de estrutura secundária: PredictProtein Previsão de estrutura terciaria: Swiss-Model(modelos de homología) Predizer a função da proteína: ConSurf, BINDBLAST,... Etc... PRACTICA 10. Alinhamento manual de sequencias Download: Jalview Abrir o alinhamento em Fasta que salvamos na prática 5 (Blast) Brincar de modificar ele, marcar os resíduos por cores segundo conservacao, 19
Ferramentas de análise PRACTICA 11. Visualização de estruturas 3D Proteínas Predição de propriedades fisico-químicas: ProtParam Alinhamento de seqüências: Clustaw, LALIGN, Jalview Análise de seqüência primaria: SignalP(seqüência sinal), TargetP (localização subcelular),... Analisar estrutura 3D: RasMole Pymol(visualização), LOCK (comparação e sobreposição de várias estruturas), Download: Pymol Abrir uma estrutura em pdb Criar um cartoon dela, selecionar residuos e mostrar-os em outras cores,... Previsão de estrutura secundária: PredictProtein Previsão de estrutura terciaria: Swiss-Model(modelos de homología) Predizer a função da proteína: ConSurf, BINDBLAST,... Etc... Ferramentas de análise Proteínas Predição de propriedades fisico-químicas: ProtParam Alinhamento de seqüências: Clustaw, LALIGN, Jalview Análise de seqüência primaria: SignalP(seqüência sinal), TargetP (localização subcelular),... Analisar estrutura 3D: RasMole Pymol(visualização), LOCK (comparação e sobreposição de várias estruturas), Previsão de estrutura secundária: PredictProtein, Jnet, Jpred,... Previsão de estrutura terciaria: Swiss-Model(modelos de homología) Predizer a função da proteína: ConSurf, BINDBLAST,... Etc... 20
Previsão de estrutura secundária Existem diferentes métodos para prever a estrutura secundaria (α hélice, β sheet,...) a partir da sequencia de aminoácidos. Hoje pode se ter uma correção de 80% na previsão. Previsão de estrutura secundária Método Chou-Fasman Baseado na propensão de cada aminoácido de adotar uma estrutura secundaria. Pouco exato. Previsão de estrutura secundária Método GOR A propriedade intrínseca de aminoácidos para adotar determinada estrutura secundária é influenciada tanto pela sequência quanto pela organização estrutural da proteína; Dessa forma, a propensão para determinada estrutura secundária não deve ser considerada uma propriedade realmente intrínseca de cada aminoácido edeveseravaliadadeacordocomocontexto Previsão de estrutura secundária Redes neurais Mais além da sequencia de Aminoácidos, aa estrutura secundária depende de outros fatores, como o médio onde a proteína está, a exposicao ao solvente de cada aminoácido, ou mesmo o organismo. Métodos mais recetes incluem informacao sobre a classe estrutural de proteínas, accesibilidade dos aminoácidos ao solvente, número de contato,... O método GOR também considera os aminoácidos que estão perto na sequencia. As redes neurais usam informacao conhecida (nos bancos de dados de proteínas) para prever a estrutura secundária. É bem mais exato. 21
Previsão de estrutura secundária Outras considerações É aceito que padrões de conservação de resíduos são indicativos de uma estrutura secundária particular. alpha-hélices apresentam uma periodicidade de 3.6, que significa que para hélices com uma face voltada para o cerne protéico e a outra exposta ao solvente, teremos resíduos nas posições i, i+3, i+4 e i+7 (onde i é um resíduo nahélice) emumafacedahélice. Previsão de estrutura secundária Outras considerações Similarmente, a geometria de fitas beta indica que resíduos adjacentes possuem suas cadeias laterais apontando para direções opostas. Fitas beta que estão semi enterradas no cerne protéico deverão apresentar resíduos hidrofóbicos nas posições i,i+2,i+4,i+8 etc,eresíduos polares nasposições i+1,i+3,i+5, etc. Fitas beta que estão completamente inseridas no cerne protéico geralmente apresentam uma linha de resíduos hidrofóbicos, uma vez que ambas as faces estão protegidas do contado com o solvente Dessa forma, padrões de conservação de resíduos hidrofóbicos mostrando o padrão i, i+3, i+4, i+7 são altamente indicativos de uma a-hélice. Previsão de estrutura secundária A melhor estratégia O ideal é utilizar todas as abordagens de bioinformática possíveis e combiná-las com seu conhecimento sobre a questão para ter uma predição consenso para determinada família de proteínas. Se você então alinha todas as suas predições (incluindo suas próprias ideias com base na conservação dos resíduos) com seu alinhamento múltiplo de sequências, você pode obter uma figura consenso da estrutura Previsão de estrutura secundária Programas gerais e especializados Existem muitos programas para previsão de estruturas secundárias, entre eles SSPRED(precisa de um alinhamento de múltiplas sequencias), NNPREDICT(usa redes neurais), Jpred(Procura no PDB possíveis homólogos antes de fazer a previsão), Jnet(previsão por aminoácido e redes neurais) Existem algoritmos para buscas específicas, como proteínas de membrana (TMHMM), segmentos coiled-coil (COILS),... 22
PRACTICA 12. Previsão de estrutura secundária Dentro do programa Jalview, está incorporado o Jnet: web service / secondary structure prediction / Jnet Aparece uma nova janela com a previsão do Jnet Ferramentas de análise Proteínas Predição de propriedades fisico-químicas: ProtParam Alinhamento de seqüências: Clustaw, LALIGN, Jalview Análise de seqüência primaria: SignalP(seqüência sinal), TargetP (localização subcelular),... Analisar estrutura 3D: RasMole Pymol(visualização), LOCK (comparação e sobreposição de várias estruturas), Previsão de estrutura secundária: PredictProtein Previsão de estrutura terciaria: Swiss-Model(modelos de homología) Predizer a função da proteína: ConSurf, BINDBLAST,... Etc... RESUMO DO ESTUDADO Sabemos como buscar la sequencia de un gen o una proteina (blast) y como convertir el gen a proteina (translate). Una vez conocidos, sabemos buscar info sobre ellos (refseq do ncbi, uniprot). Sabemos fazer previsoes das propriedades fisico quimicas da proteina (protparam) e da sua estrutura secundária (PredictProtein, jnet no jalview). Sabemos procurar pela estrutura 3D se conhecida (pdb) ou por homologos (blast) para fazer modelos de homología. Sabemos calcular informacoes de familias de proteínas e árvore fologenética destes homólogos (pfam no blast). Sabemos como visualizar as estruturas 3D (pymol) Sabemos alinhar sequencias computacionalmente (blast, lalign, clustaw) ou manualmente (Jalview). 23
O QUE VAMOS ESTUDAR AGORA Fazer previsoes de estrutura TERCIARIA (3D) a partir da sequencia de nucleotídeos, usando ou nao um homólogo estrutural 24