Bancos de dados de biomacromoléculas e recuperação de informação

Documentos relacionados

Anotação de Genomas. Fabiana G. S. Pinto

UNIVERSIDADE FEDERAL DE VIÇOSA BIOINFORMÁTICA ESTRUTURAL: PREDIÇÃO DE ESTRUTURA 3D DE PROTEÍNAS

Introdução ao SRS Sequence Retrieval System. Marcelo Falsarella Carazzolle

Banco de Dados aplicado a Sistemas Biológicos

Miguel Rocha Dep. Informática - Universidade do Minho. BIOINFORMÁTICA: passado, presente e futuro!!

Bioinformática. Licenciaturas em Biologia, Bioquímica, Biotecnologia, Ciências Biomédicas, Engenharia Biológica. João Varela

O que são domínios protéicos

Bioinformática. João Varela Aula T4 CURSOS EM BIOLOGIA, BIOQUÍMICA, BIOTECNOLOGIA, CIÊNCIAS BIOMÉDICAS E ENGENHARIA BIOLÓGICA

MOODLE NA PRÁTICA PEDAGÓGICA

Bioinformática. Alinhamento de Sequências. Prof. Msc. Rommel Ramos

Portal do Projeto Tempo de Ser

Explorando bancos de dados genômicos e introdução à bioinformática. Guilherme Targino Valente Marcos Tadeu Geraldo. Bioinformática

Modelagem por Homologia passo-a-passo. Prof. Rommel Ramos

Arquitetura de domínios proteícos

Bases de Dados. Freqüentemente usadas em. Bioinformática

Bioinformática Aula 01

MODELAGEM VISUAL DE OBJETOS COM UML DIAGRAMA DE CLASSES.

Tutorial Introdução a anotação e comparação de genomas Tiago Mendes Doutorando em Bionformática

EATON Fácil V1.00 Guia de utilização

Bioinformática. Tipos de Bases de Dados (BD) Principais BD Primárias. Bases de dados Não-Redundantes. 3 - Bases de dados

O surgimento da Bioinformática Banco de Dados Biológicos

CADERNOS DE INFORMÁTICA Nº 1. Fundamentos de Informática I - Word Sumário

Dezembro Bioinformática. e Anotação. Eduardo Fernandes Formighieri Laboratório de Genômica e Expressão / UNICAMP

Sumário. 1 Introdução ao Excel

Bioinformática. Trabalho prático enunciado complementar. Notas complementares ao 1º enunciado

MANUAL DA SECRETARIA

MANUAL. Certificado de Origem Digital PERFIL ENTIDADE. Versão

7.012 Conjunto de Problemas 5

Balanço Energético Nacional Manual do Sistema de Coleta de Dados para o BEN 2012

BLOG ESCOLAS. Após acessar o seu respectivo blog, você será direcionado a tela a seguir. Vamos conhecê-la um pouco melhor.

NOTA FISCAL DE SERVIÇO ELETRÔNICA (NFS-e) Manual de Utilização Envio de arquivos RPS. Versão 2.1

Manual das planilhas de Obras v2.5

Primeiros passos das Planilhas de Obra v2.6

Site Fácil. Guia do Usuário. PROCERGS Divisão 5

UNIPAMPA Universidade Federal do Pampa. Núcleo de Tecnologia da Informação (NTI)

GUIA DO USUÁRIO TEXTUS

Olá, Professores e Professoras. É um prazer estar aqui com vocês novamente. Sejam bem-vindos!

UNIVERSIDADE FEDERAL DO AMAPÁ PRÓ REITORIA DE ADMINISTRAÇÃO E PLANEJAMENTO DEPARTAMENTO DE INFORMÁTICA. Manual do Moodle- Sala virtual

COMO COLABORAR NO WIKI DO MOODLE 1. Orientações para produção escolar colaborativa no wiki do Moodle:

BEM-VINDO AO dhl PROVIEW

A pesquisa de termos usando (Espaço) ou &, significa que os dois termos deverão constar no mesmo documento.

Tutorial Gerenciador de Conteúdo Site FCASA

Como criar um blog. Será aberta uma janela onde você deverá especificar o título do blog, o endereço do blog, e o modelo.

Sistema topograph 98. Tutorial Módulo Fundiário

Manual do Usuário - ProJuris Web - Biblioteca Jurídica Página 1 de 20

SEI Superintendência de Estudos Econômicos e Sociais da Bahia Av Luiz Viana Filho, 435-4ª avenida, 2º andar CAB CEP Salvador - Bahia Tel.

SÍNTESES NUCLEARES. O DNA éo suporte da informação genética. Parte 1 Replicação

PRACTICO LIV! FINANCEIRO DRE DEMONSTRATIVO DE RESULTADO DO EXERCÍCIO

Universidade Federal de Pelotas Faculdade de Agronomia Eliseu Maciel Programa de Pós-Graduação em Agronomia CENTRO DE GENOMICA E FITOMELHORAMENTO

Bem-vindo ao tópico sobre administração de listas de preços.

LASERTECK SOFTECK FC MANUAL DO USUÁRIO

Manual Sistema Débito Web Adsis/Disao Criado em 23/04/2012

Identificação de Padrões em Proteínas Utilizando a Ferramenta de Bioinformática CD- Search

WordPress Instruções de integração com PayPal

CONTACTOS/ANIVERSÁRIOS FACEBOOK

Tutorial Moodle ESDM - professores

Metadados. 1. Introdução. 2. O que são Metadados? 3. O Valor dos Metadados

Manual de Utilizador. Caderno. Recursos da Unidade Curricular. Gabinete de Ensino à Distância do IPP.

Passo a Passo Educação Especial

Manual do Usuário CMS WordPress Versão atual: 3.0

Manual Operacional RIGNER. [Digite seu endereço] [Digite seu telefone] [Digite seu endereço de ]

Curso Juventude Brasileira e Ensino Médio Inovador. Manual do ambiente Moodle

PROGRAMAÇÃO ORIENTADA A OBJETO EM PHP

SERVIÇOS REQUERIMENTO

Modelos Pioneiros de Aprendizado

MANUAL MOODLE - PROFESSORES

RASTREAMENTO E LOCALIZAÇÃO DE VEÍCULOS

MANUAL DE UTILIZAÇÃO DOMINIO ATENDIMENTO

BIOTECNOLOGIA. 2. Conceito de clonagem molecular

O Sistema foi inteiramente desenvolvido em PHP+Javascript com banco de dados em MySQL.

UNIDADE 4 - ESTRUTURA CRISTALINA

TRABALHO PRÁTICO Nro. 02 (Atualizado em 29/10/2008)

ÍNDICE INTRODUÇÃO...3

PROCON-PR EM NÚMEROS. Guia de Uso

Introdução à Filogenética para Professores de Biologia

Sumário Executivo Pegada de carbono

Perfil Chefe de Transporte

SECRETARIA DE ESTADO DE EDUCAÇÃO SUPERINTENDÊNCIA REGIONAL DE ENSINO NOVA ERA DIRETORIA EDUCACIONAL NÚCLEO DE TECNOLOGIA EDUCACIONAL

Estatística no EXCEL

Lógica de Programação

Tutorial para criação de blog

Aula 4 Estatística Conceitos básicos

Turma de terça-feira 14 hs. Total: 31 alunos

Status. Barra de Título. Barra de Menu. Barra de. Ferramentas Padrão. Caixa de nomes. Barra de. Ferramentas de Formatação. Indicadores de Coluna

Dicas para você trabalhar o livro Mamãe, como eu nasci? com seus alunos.

Introdução à Computação. Uma breve revisão das primeiras aulas

Oficina 1A Faça uma busca preliminar e selecione publicações sobre Apontador Laser, com Controle de Tempo

Manual do Portal do Fornecedor. isupplier

TUTORIAL PARA UTILIZAÇÃO DA PLATAFORMA LMS

PERGUNTAS FREQUENTES (FAQS) Como posso entrar com dados geométricos da edificação?

Manual do Sistema. Página 1/14

Wordpress - Designtec. Manual básico de gerenciamento Práticas de Geografia

3 Estratégia para o enriquecimento de informações

IBM CONTENT MANAGER MANUAL DE PESQUISA E-CLIENT (GERENCIAMENTO ELETRONICO DE DOCUMENTOS)

Interface e Operação Officina de Mydia Ed. Ltda., Brazil. - vendas@mydia.com

SIGA-CEIVAP MANUAL DO USUÁRIO 1

PROGRAMA PARA LOCAÇÃO DE SEÇÕES DIAGONAIS AUTOPORTANTES

Replicação do DNA a Nível Molecular

Transcrição:

Bancos de dados de biomacromoléculas e recuperação de informação O fluxo da informação genética cirauqui@pharma.ufrj.br Bancos de dados Bancos de dados Ferramenta de extração de informação 1

Bancos de dados Bancos de dados Definição de Banco de Dados: conjunto de registros dispostos em estrutura regular que possibilita a reorganização dos mesmos e produção de informação Definição de Banco de Dados: conjunto de registros dispostos em estrutura regular que possibilita a reorganização dos mesmos e produção de informação Doistiposdebancosdedados: Primário: são simples repositórios de dados(ex. seqüências de proteínas) Secundário: mais completos, informação adicional, mais critérios de busca (ex. seqüências de proteínas, junto com a função delas, a localização celular, características estruturais,...) Processo de anotação principalmente manual Bancos de dados Características de um bom banco de dados: Completos e atualizados Interconexão com outros bancos de dados: plataforma base de buscas avançadas Permita colocar novas sequencias e corrigir as existentes Accessíveis na internet Bancos de dados Classificados em função dos dados: Bancos de dados de seqüências de nucleotídeos Bancos de dados de seqüências de proteínas Bancos de dados de nomenclatura Bancos de dados de estruturas de proteínas Bancos de dados de famílias de proteínas Bancos de dados de domínios de proteínas Bancos de dados de integrados e comparativos Bancos de dados de identificação de proteínas Etc... 2

Bancos de dados de seqüências de nucleotídeos PRACTICA 1. Busca de sequencias de genes EMBL/DDBJ/GenBank RefSeq Do NCBI (national center for biotecnology information) Primario, redundante Do NCBI Secundário, interconectado Contém DNA genomico, RNA e proteínas Abrir: RefSeq, ou NCBI Buscar por nucleotide: MCHR1 Refinar a busca por filtro: RefSeq Selecionar HOMO SAPIENS, mrna. Ensembl Secundário Banco de dados de GENOMAS Genome Reviews Secundário, interconectado GENOMAS COMPLETOS 3

Bancos de dados de sequências de proteínas PRACTICA 2. Busca de sequencias de proteínas Entrez protein Uniprot Derivadas ou pegas de outros bancos de dados Primario, redundante Secundário, com MUITA informação adicional Links a MUITOS bancos de dados Abrir: Uniprot Buscar: MCHR1 Pegar human com estrelha amarela (confirmado) Salva a sequencia da proteína em formato fasta Entra nos modelos de homología e baixa o arquivo de coordenadas de um deles, para uma outra prática 4

5

Bancos de dados de nomenclatura Genew Nomens e símbolos aprovados para genes GO/GOA Vocabulário para descrever proteoma, função, localização,... Bancos de dados de estrutura de proteínas PRACTICA 3. Busca de estruturas de proteínas Protein Data Bank (PDB) Resid Estruturas 3D de proteínas, ácidos nucléicos e carboidratos, obtidas por experimentos de cristalografia de raios X e ressonância magnética nuclear(nmr) Modificações de proteínas Abrir: pdb Procurar o nome de alguma proteína Olhar o artigo onde foi publicada, a sequencia, a referencia em UNIPROT, as condicoes experimentais,... Baixa as coordenadas da estrutura (arquivo PDB) Molecular Modeling DataBase (MMDB) Modelos de homología 6

Bancos de dados de famílias de proteínas Pfam Classificados por sequencia e domínios Procura dominios no PDB Prosite Banco de dados de domínios, motivos, sitos funcionais,... SCOP ( Structural Classification of Proteins ) CATH ( Protein Structure Classification ) Classificados por estrutura secundária(sóα,sóβ,α/β,...) 7

PRACTICA 4. Busca de famílias de proteínas Abrir: pfam Cola a sequencia do MCHR1 (formato Fasta) Bancos de dados integrados y comparativos InterPro Combina vários bancos de dados de famílias de proteínas, unindo os pontos fortes de cada um deles. Pfam(baseado em domínios) PROSITE (baseado em sitos funcionais) PRINTS (baseado em motivos conservados) PANTHER (baseado em função) Superfamily, Gene3D, Smart,... Integr8 8

Bancos de dados de identificação de proteínas Ferramentas de extração de dados Classificadas em função do termo de busca: IntAct Repositório e sistema de análise de Interações entre proteínas Busca baseada em texto Busca baseada em seqüência SWISS-2DPAGE Resultados dos experimentos de Twodimensional polyacrylamidegel electrophoresis (2D PAGE) e SodiumDodecylSulfate PAGE (SDS PAGE), com referencias para outros registros em UniProtKB Busca baseada em motivo estrutural Busca baseada em estrutura Outras ferramentas de análise Busca baseada em texto PRACTICA 5. Busca baseada em texto Entrez Procura dados do NCBI (nucleotídeos, genomas, sequências e estruturas de proteínas, literatura,...) Abrir: NCBI ou Entrez Buscar: MCHR1 Olhar os diferentes dados produzidos na busca SRS Procura no EMBL, SWISS-PROT, TrEMBL, PIR, PDB,... 9

Busca baseada em sequencia Busca baseada em sequencia Busca baseada em sequência Identidade Presença do mesmo ácido nucléico ou aminoácido na mesma posição em duas seqüências alinhadas Métodos de busca por sequência: Similaridade Apenas quando ocorrer substituições Dois aminoácidos são considerados similares se um puder ser substituído por outro com propriedades químicas similares Homologia Relação evolutiva Duas seqüências são homólogas se derivarem da mesma seqüência ancestral Genes Ortólogos Tem a mesma função mas ocorrem em espécies diferentes Genes Parálogos Possuem ancestral comum e existem num mesmo genoma mas com funções diferentes 10

Busca baseada em sequência Busca baseada em sequência Métodos de busca por sequência: Identidade VS Similaridade Métodos de busca por sequência: Seqüência completa VS por fragmentos Si / Não Pontuação (score) Seq A Seq B -1,-1,1,1,0,1,0 0,2,1,2,4,4,1,0 Busca baseada em sequência Busca baseada em sequência Métodos de busca por sequência: Seqüência completa VS por fragmentos Seq A Seq B Métodos de busca por sequência: Seqüência completa VS por fragmentos Seq A Seq B Seq A Seq B Lacunas (gaps) 11

Busca baseada em sequência Busca baseada em sequência Métodos de busca por sequência: Seqüência completa VS por fragmentos Seq A Seq B Métodos de busca por sequência: Seqüência completa VS por fragmentos Seq A Seq B Busca baseada em sequência Busca baseada em sequência Métodos de busca por sequência: Seqüência completa VS por fragmentos Seq A Seq B Métodos de busca por sequência: Seqüência completa VS por fragmentos Seq A Seq B 12

Busca baseada em sequência Busca baseada em sequencia Métodos de busca por sequência: Seqüência completa VS por fragmentos Seq A Seq B Blast Fasta Similaridade, por fragmentos Proteínas e nucleotídeos PSI-BLAST (homologos distantes) (http://en.wikipedia.org/wiki/blast) Parecido Formato.fasta aceito em muitos buscadores PRACTICA 6. Busca por sequência Abrir: expasy / Blast at ncbi / Blastp Buscar: inserir sequência de MCHR1, Run Blast Refaz a busca mas desta vez pedindo soluções com estrutura no pdb Selecionar várias estruturas de diferentes proteínas com boa homologia Baixar o alinhamento entre esas proteínas em formato fasta e salvar (selecionar / multiple alignment / download / fasta with gaps) Olhar informação sobre domínios e motivos conhecidos, árvore filogenética 13

Exporta alinhamento em formato FASTA Busca baseada em motivo Busca baseada em estrutura ScanProsite Procura na sua sequência a existência ou não de domínios no PROSITE e motivos no UNIPROT Busca por estrutura 3D Busca por sequencia 14

Busca baseada em estrutura Busca baseada em estrutura Alinhamento estrutural definido pelo RMSD (root mean square distance) onde di é a distância entre o par de átomos i, e n é o número total de pontos (átomos) Cadeias laterais nao sao consideradas O RMSD é feito entre os átomos Cαdo esqueleto Precisamos saber qual Cαda proteína 1 corresponde a qual Cαda proteína 2: alinhamento de sequencia Que outras possibilidades além do RMSD temos? Comparação de estruturas secundárias (SSEs), mapas de contato ou interações, medidas de empacotamento das cadeias laterais, conservação de ligações de hidrogênio. Busca baseada em estrutura Busca baseada em estrutura Estrutura representada por uma matriz de distancia Distancias comparativas e não distancias absolutas sujeitas a coordenadas fixas no espaço 2D e não 3D VAST ( Vector Alignment Search Tool ) Do NCBI Procura vizinhos estruturais numa base de dados, começando com um set de coordenadas 3D Resíduos com contato espacial DALI Do EBI Similar com VAST Residuos contíguos na sequencia a : pode ser distancias entre Cα, entre grupos de átomos, estruturas ecundárias (SSEs), 15

PRACTICA 7. Busca por estrutura Abrir: VAST / VAST search Buscar: abrir uma estrutura.pdb (por exemplo um modelo de homología do MCHR1 pego na prática 2, no link do MMDB no UNIPROT) Esperar que o programa procure os homólogos estruturai e observar os resultados (para o alinhamento gráfico em 3D precisamos baixar um programa indicado no site: Cn3D http://www.ncbi.nlm.nih.gov/structure/vast/vsmmdb.cgi?cmdvsmmdb= StrText&grpid=8473483687603842245&ViewNbr=Yes 16

Ferramentas de análise Ácidos nucléicos Alinhamento de seqüências: Clustaw, LALIGN Procurar sitos de restrição de enzimas: Webcutter Desenhar primers: PRIDE Procurar elementos de fatores de transcrição no DNA: SignalScan Predição de interações RNA-RNA: FAStRNA Procurar genes: ORF finder, GeneMachine Translação da sequencia de nucleotídeos á aminoácidos: Translate Etc... PRACTICA 8. Achar a sequencia de aminoácidos a partir da sequencia de nucleotídeos Abrir: Expasy tools / Translate Introducir a sequencia de DNA ou RNA at gtcagtggga gccatgaaga agggagtggg 301 gagggcagtt gggcttggag gcggcagcgg ctgccaggct acggaggaag acccccttcc 361 caactgcggg gcttgcgctc cgggacaagg tggcaggcgc tggaggctgc cgcagcctgc 421 gtgggtggag gggagctcag ctcggttgtg ggagcaggcg accggcactg gctggatgga 481 cctggaagcc tcgctgctgc ccactggtcc caacgccagc aacacctctg atggccccga 541 taacctcact tcggcaggat cacctcctcg cacggggagc atctcctaca tcaacatcat 601 catgccttcg gtgttcggca ccatctgcct cctgggcatc atcgggaact ccacggtcat 661 cttcgcggtc gtgaagaagt ccaagctgca ctggtgcaac aacgtccccg acatcttcat 721 catcaacctc tcggtagtag atctcctctt tctcctgggc atgcccttca tgatccacca 781 gctcatgggc aatggggtgt ggcactttgg ggagaccatg tgcaccctca tcacggccat 841 ggatgccaat agtcagttca ccagcaccta catcctgacc gccatggcca ttgaccgcta 901 cctggccact gtccacccca tctcttccac gaagttccgg aagccctctg tggccaccct 961 ggtgatctgc ctcctgtggg ccctctcctt catcagcatc acccctgtgt ggctgtatgc 1021 cagactcatc cccttcccag gaggtgcagt gggctgcggc atacgcctgc ccaacccaga 1081 cactgacctc tactggttca ccctgtacca gtttttcctg gcctttgccc tgccttttgt 1141 ggtcatcaca gccgcatacg tgaggatcct gcagcgcatg acgtcctcag tggcccccgc 1201 ctcccagcgc agcatccggc tgcggacaaa gagggtgacc cgcacagcca tcgccatctg 1261 tctggtcttc tttgtgtgct gggcacccta ctatgtgcta cagctgaccc agttgtccat 1321 cagccgcccg accctcacct ttgtctactt atacaatgcg gccatcagct tgggctatgc 1381 caacagctgc ctcaacccct ttgtgtacat cgtgctctgt gagacgttcc gcaaacgctt 1441 ggtcctgtcg gtgaagcctg cagcccaggg gcagcttcgc gctgtcagca acgctcagac 1501 ggctgacgag gagaggacag aaagcaaagg cacctgatac ttcccctgcc accctgcaca Determinar a sequencia correta de aminoácidos e a qué proteína corresponde 17

Ferramentas de análise Proteínas Predição de propriedades fisico-químicas: ProtParam Alinhamento de seqüências: Clustaw, LALIGN, Jalview Análise de seqüência primaria: SignalP(seqüência sinal), TargetP (localização subcelular),... Analisar estrutura 3D: RasMole Pymol(visualização), LOCK (comparação e sobreposição de várias estruturas), Previsão de estrutura secundária: PredictProtein Cómo pode saber qual é a proteína? Qué ferramenta das estudadas pode usar? Previsão de estrutura terciaria: Swiss-Model(modelos de homología) Predizer a função da proteína: ConSurf, BINDBLAST,... Etc... Ferramentas de análise Proteínas Predição de propriedades fisico-químicas: ProtParam Alinhamento de seqüências: Clustaw, LALIGN, Jalview Análise de seqüência primaria: SignalP(seqüência sinal), TargetP (localização subcelular),... Analisar estrutura 3D: RasMole Pymol(visualização), LOCK (comparação e sobreposição de várias estruturas), PRACTICA 9. Previsão de Propriedades físicoquímicas das proteínas Abrir: Expasy tools / ProtParam Colocar a sequencia de Aminoácidos do MCHR1 Olhar as propriedades calculadas para esta proteína Previsão de estrutura secundária: PredictProtein Previsão de estrutura terciaria: Swiss-Model(modelos de homología) Predizer a função da proteína: ConSurf, BINDBLAST,... Etc... 18

Ferramentas de análise Proteínas Predição de propriedades fisico-químicas: ProtParam Alinhamento de seqüências: Clustaw, LALIGN, Jalview Análise de seqüência primaria: SignalP(seqüência sinal), TargetP (localização subcelular),... Analisar estrutura 3D: RasMole Pymol(visualização), LOCK (comparação e sobreposição de várias estruturas), Previsão de estrutura secundária: PredictProtein Previsão de estrutura terciaria: Swiss-Model(modelos de homología) Predizer a função da proteína: ConSurf, BINDBLAST,... Etc... PRACTICA 10. Alinhamento manual de sequencias Download: Jalview Abrir o alinhamento em Fasta que salvamos na prática 5 (Blast) Brincar de modificar ele, marcar os resíduos por cores segundo conservacao, 19

Ferramentas de análise PRACTICA 11. Visualização de estruturas 3D Proteínas Predição de propriedades fisico-químicas: ProtParam Alinhamento de seqüências: Clustaw, LALIGN, Jalview Análise de seqüência primaria: SignalP(seqüência sinal), TargetP (localização subcelular),... Analisar estrutura 3D: RasMole Pymol(visualização), LOCK (comparação e sobreposição de várias estruturas), Download: Pymol Abrir uma estrutura em pdb Criar um cartoon dela, selecionar residuos e mostrar-os em outras cores,... Previsão de estrutura secundária: PredictProtein Previsão de estrutura terciaria: Swiss-Model(modelos de homología) Predizer a função da proteína: ConSurf, BINDBLAST,... Etc... Ferramentas de análise Proteínas Predição de propriedades fisico-químicas: ProtParam Alinhamento de seqüências: Clustaw, LALIGN, Jalview Análise de seqüência primaria: SignalP(seqüência sinal), TargetP (localização subcelular),... Analisar estrutura 3D: RasMole Pymol(visualização), LOCK (comparação e sobreposição de várias estruturas), Previsão de estrutura secundária: PredictProtein, Jnet, Jpred,... Previsão de estrutura terciaria: Swiss-Model(modelos de homología) Predizer a função da proteína: ConSurf, BINDBLAST,... Etc... 20

Previsão de estrutura secundária Existem diferentes métodos para prever a estrutura secundaria (α hélice, β sheet,...) a partir da sequencia de aminoácidos. Hoje pode se ter uma correção de 80% na previsão. Previsão de estrutura secundária Método Chou-Fasman Baseado na propensão de cada aminoácido de adotar uma estrutura secundaria. Pouco exato. Previsão de estrutura secundária Método GOR A propriedade intrínseca de aminoácidos para adotar determinada estrutura secundária é influenciada tanto pela sequência quanto pela organização estrutural da proteína; Dessa forma, a propensão para determinada estrutura secundária não deve ser considerada uma propriedade realmente intrínseca de cada aminoácido edeveseravaliadadeacordocomocontexto Previsão de estrutura secundária Redes neurais Mais além da sequencia de Aminoácidos, aa estrutura secundária depende de outros fatores, como o médio onde a proteína está, a exposicao ao solvente de cada aminoácido, ou mesmo o organismo. Métodos mais recetes incluem informacao sobre a classe estrutural de proteínas, accesibilidade dos aminoácidos ao solvente, número de contato,... O método GOR também considera os aminoácidos que estão perto na sequencia. As redes neurais usam informacao conhecida (nos bancos de dados de proteínas) para prever a estrutura secundária. É bem mais exato. 21

Previsão de estrutura secundária Outras considerações É aceito que padrões de conservação de resíduos são indicativos de uma estrutura secundária particular. alpha-hélices apresentam uma periodicidade de 3.6, que significa que para hélices com uma face voltada para o cerne protéico e a outra exposta ao solvente, teremos resíduos nas posições i, i+3, i+4 e i+7 (onde i é um resíduo nahélice) emumafacedahélice. Previsão de estrutura secundária Outras considerações Similarmente, a geometria de fitas beta indica que resíduos adjacentes possuem suas cadeias laterais apontando para direções opostas. Fitas beta que estão semi enterradas no cerne protéico deverão apresentar resíduos hidrofóbicos nas posições i,i+2,i+4,i+8 etc,eresíduos polares nasposições i+1,i+3,i+5, etc. Fitas beta que estão completamente inseridas no cerne protéico geralmente apresentam uma linha de resíduos hidrofóbicos, uma vez que ambas as faces estão protegidas do contado com o solvente Dessa forma, padrões de conservação de resíduos hidrofóbicos mostrando o padrão i, i+3, i+4, i+7 são altamente indicativos de uma a-hélice. Previsão de estrutura secundária A melhor estratégia O ideal é utilizar todas as abordagens de bioinformática possíveis e combiná-las com seu conhecimento sobre a questão para ter uma predição consenso para determinada família de proteínas. Se você então alinha todas as suas predições (incluindo suas próprias ideias com base na conservação dos resíduos) com seu alinhamento múltiplo de sequências, você pode obter uma figura consenso da estrutura Previsão de estrutura secundária Programas gerais e especializados Existem muitos programas para previsão de estruturas secundárias, entre eles SSPRED(precisa de um alinhamento de múltiplas sequencias), NNPREDICT(usa redes neurais), Jpred(Procura no PDB possíveis homólogos antes de fazer a previsão), Jnet(previsão por aminoácido e redes neurais) Existem algoritmos para buscas específicas, como proteínas de membrana (TMHMM), segmentos coiled-coil (COILS),... 22

PRACTICA 12. Previsão de estrutura secundária Dentro do programa Jalview, está incorporado o Jnet: web service / secondary structure prediction / Jnet Aparece uma nova janela com a previsão do Jnet Ferramentas de análise Proteínas Predição de propriedades fisico-químicas: ProtParam Alinhamento de seqüências: Clustaw, LALIGN, Jalview Análise de seqüência primaria: SignalP(seqüência sinal), TargetP (localização subcelular),... Analisar estrutura 3D: RasMole Pymol(visualização), LOCK (comparação e sobreposição de várias estruturas), Previsão de estrutura secundária: PredictProtein Previsão de estrutura terciaria: Swiss-Model(modelos de homología) Predizer a função da proteína: ConSurf, BINDBLAST,... Etc... RESUMO DO ESTUDADO Sabemos como buscar la sequencia de un gen o una proteina (blast) y como convertir el gen a proteina (translate). Una vez conocidos, sabemos buscar info sobre ellos (refseq do ncbi, uniprot). Sabemos fazer previsoes das propriedades fisico quimicas da proteina (protparam) e da sua estrutura secundária (PredictProtein, jnet no jalview). Sabemos procurar pela estrutura 3D se conhecida (pdb) ou por homologos (blast) para fazer modelos de homología. Sabemos calcular informacoes de familias de proteínas e árvore fologenética destes homólogos (pfam no blast). Sabemos como visualizar as estruturas 3D (pymol) Sabemos alinhar sequencias computacionalmente (blast, lalign, clustaw) ou manualmente (Jalview). 23

O QUE VAMOS ESTUDAR AGORA Fazer previsoes de estrutura TERCIARIA (3D) a partir da sequencia de nucleotídeos, usando ou nao um homólogo estrutural 24