Bases de dados de interesse biológico Pedro Fernandes Instituto Gulbenkian de Ciência Oeiras, Portugal 15-9-2005 LEBM - Bioinformática 1
Bases de dados em Biologia Antes do aparecimento da Biologia Molecular Bases de dados taxonómicas Colecções biológicas Observações de campo Bases de dados de bibliografia científica Os meios computacionais eram primitivos 15-9-2005 LEBM - Bioinformática 2
Com a Biologia Molecular A comunidade científica apercebeu-se da real dimensão dos conjuntos de dados a que tinha acesso e da sua complexidade dos requisitos computacionais do que a Biologia iria representar em termos de organização de informação e de aquisição de conhecimentos dos impactos no mundo clínico, ambiente, indústria, etc. 15-9-2005 LEBM - Bioinformática 3
Tipologia de bases de dados de interesse biológico Conteúdo: Bibliografia Sequências Genomas e Proteomas Clínicas Homologia 15-9-2005 LEBM - Bioinformática 4
Divisão temática de bases de dados de interesse biológico Sequências: nucleotídicas, RNA, Proteínas Estruturais Genómicas (não-vertebrados) Vias Metabólicas e de Sinalização (Signaling) Genomas (Humano e de outros vertebrados) Genes Humanos e Doenças Dados de Microarrays e Expressão Génica Proteomica Biologia Molecular (outras) Organelos Plantas Imunologia (adaptado de Nucleic Acids Research, DB Issue 2005) 15-9-2005 LEBM - Bioinformática 5
O interesse das bases de dados em Biologia aumenta Se forem acessíveis pela www indexadas instaláveis localmente (actualização) interligadas integradas 15-9-2005 LEBM - Bioinformática 6
Com Bioinformática, a utilização de bases de dados de proteínas permite - Detectar num conjunto de proteínas uma possível relação evolutiva, se existir - Detectar semlhanças locais que permitam atribuir função - Explorar estruturas tridimensionais preditas ou encontradas experimentalmente e com elas predizer o papel de proteínas - Explorar possíveis interacções de proteínas com proteínas ou de proteínas com outras moléculas - Explorar a possibilidade de desenhar inspiradamente novas proteínas para fins específicos - Explorar a possibilidade de modificar proteínas existentes, modificando as suas funções 15-9-2005 LEBM - Bioinformática 7
A Biologia, uma grande fonte de informação? Há 10 11 galáxias no Universo observável Há 4 x 10 22 estrelas no Universo observável P: Quantos grãos de areia tem esta praia? R: Assumindo que a praia tem 5km x 500m x 5m e que um grão de areia tem 1 micron de diâmetro, a praia terá 12.5x10 25 partículas Conhecemos cerca de 10 5 mas as regras que conhecemos fazem prever que poderão formar-se 10 66 espécies moleculares diferentes, a maioria delas com um papel biológico relevante 15-9-2005 LEBM - Bioinformática 8
Tipos de bases de dados com sequências biológicas Primárias: contêm dados laboratoriais (sequências) em registos revistos, validados e comentados em registos gerados automaticamente Secundárias: de padrões, resultantes de análises de material das primárias 15-9-2005 LEBM - Bioinformática 9
Bases de dados primárias Entradas submetidas pelos investigadores, revistas e validadas Com accession number único por entrada De Nucleótidos (N): Genbank, EMBL, DDBJ Sincronizadas (depósito em paralelo) De Proteinas (P): Swissprot, PIR, PDB 15-9-2005 LEBM - Bioinformática 10
Crescimento de bases de dados primárias N Thousands 45000 40000 35000 30000 25000 20000 15000 10000 5000 0 Nucleotide databases: EMBL, Genebank, DDBJ 7 Set 2005 1997 2004 http://www3.ebi.ac.uk/services/dbstats/ This morning the EMBL Database contained 107,573,768,148 nucleotides in 58,160,970 entries. Breakdown by entry type: Entry Type Entries Nucleotides Change in 1 year Standard 47,527,188 52,172,771,562 +20% Constructed (CON) 333,717 n/a Third Party Annotation (TPA) 4,649 331,476,604 + 1M Whole Genome Shotgun (WGS) 10,294,618 54,793,749,562 2x 15-9-2005 LEBM - Bioinformática 11
Crescimento de bases de dados primárias P http://au.expasy.org/sprot/relnotes/relstat.html 15-9-2005 LEBM - Bioinformática 12
Crescimento de bases de dados primárias P PDB: base de dados primária de proteínas com informação estrutural (de origem experimental e obtida com modelos) 15-9-2005 LEBM - Bioinformática 13
O dilúvio de informação vem Dos projectos de sequenciação de genomas Dos projectos de Proteómica De experimentação de alto débito: Microarrays Arrays de Proteínas Teste paralelizado de fármacos Outros testes em larga escala 15-9-2005 LEBM - Bioinformática 14
O tamanho dos genomas ORGANISMO CROMOSOMAS Tam. GENOMA # GENES Homo sapiens 23 3,200,000,000 ~ 30,000 Mus musculus 20 2,600,000,000 ~30,000 D. melanogaster 4 180,000,000 ~18,000 Sa. cerevisiae 16 14,000,000 ~6,000 Zea mays 10 2,400,000,000??? Tabela elaborada por Silke Sperling, 2005 15-9-2005 LEBM - Bioinformática 15
O déficit de conhecimento Podemos, em certos casos, predizer propriedades de protínas e até a sua função a partir do conhecimento da estrutura. Quase nunca se consegue fazer o mesmo com apenas a sequência. Sabemos mais de sequências do que de estrutura (e função) Conhecemos 50*10 6 sequências nucleotídicas (EMBL), das quais 22*10 6 são ESTs. Conhecemos 35*10 3 estruturas de proteínas (PDB), das quais apenas 8*10 3 estão confirmadas experimentalmente (NMR, difracção dos raios X, etc.) O rácio é 28*10 6 / 8*10 3 (> 3*10 3 ) Em proteínas conhecemos 194*10 3 sequências (Swissprot) O rácio é 194*10 3 / 8*10 3 (> 24) 15-9-2005 LEBM - Bioinformática 16
Melhoramentos N não-redundante: RefSeq Publicada pelo NCBI como a Genbenk Contém mrna, Contigs genómicos, traduções conhecidas, etc. Contém registos que provêm da anotação de genomas 15-9-2005 LEBM - Bioinformática 17
Melhoramentos P não-redundante: RefSeqP Base de anotação funcional para o projecto do Genoma Humano Suporte básico para o Dogma Central da Biologia Molecular 15-9-2005 LEBM - Bioinformática 18
Subconjuntos TrEMBL Translated EMBL Nº de registos 2,105,517 Complemento da Swissprot com sequências de proteínas que se sabe resultarem da tradução de sequências nucleotídicas entradas na EMBL SpTrEMBL Sequências de proteínas prontas a entrar na Swissprot. Por exemplo, a aguardar uma evidência experimental RmTrEMBL Sequências de proteínas que não vão entrar na Swissprot: fragmentos, sequências sintéticas, etc. 15-9-2005 LEBM - Bioinformática 19
Primárias unificadas UNIPROT (EBI, Dec 2003) Base de dados de proteínas unificada e não-redundante, resultante da reunião supervisionada de: SwissProt, TrEMBL e PIR Nº de registos: ~2M 15-9-2005 LEBM - Bioinformática 20
Primárias unificadas UNIParc (UNIPROT Archive, EBI, Jan 2005) Base de dados de proteínas unificada e não-redundante, resultante da reunião supervisionada de: UniProtKB/Swiss-Prot, UniProtKB/TrEMBL, PIR-PSD, EMBL, Ensembl, IPI, PDB, RefSeq, FlyBase, WormBase, European Patent Office proteins, United States Patent and Trademark Office (USPTO) e Japan Patent Office Nº de registos: ~5.7M 15-9-2005 LEBM - Bioinformática 21
A interoperabilidade Tem obrigado a que o formato mais prático de usar seja o de FLAT FILE, um formato de texto em que os registos são constituídos por linhas que começam com um código que indica o tipo de informação que a linha contém. É arcaico mas muito fácil de manipular. Tem vantagens de simplificação, mas obriga a um esforço permanente de reformatação para utilização com software específico. 15-9-2005 LEBM - Bioinformática 22
Um registo na EMBL ID U83981 standard; RNA; HUM; 2331 BP. AC U83981; SV U83981.1 DT 29-JUN-1998 (Rel. 56, Created) DT 04-MAR-2000 (Rel. 63, Last updated, Version 4) DE Homo sapiens apoptosis associated protein (GADD34) mrna, complete cds. KW. OS Homo sapiens (human) OC Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; OC Eutheria; Primates; Catarrhini; Hominidae; Homo. RN [1] RP 1-2331 RX MEDLINE; 97298078. RA Hollander M.C., Zhan Q., Bae I., Fornace A.J. Jr.; RT "Mammalian GADD34, an apoptosis- and DNA damage-inducible gene"; " XX SQ Sequence 2331 BP; 543 A; 666 C; 712 G; 410 T; 0 other; cccagttgtt gatcttatgc aagacgctgc acgaccccgc gcccgcttgt cgccacggca 60 cttgaggcag ccggagatac tctgagttac tcggagcccg acgcctgagg gtgagatgaa 120 cgcgctggcc tccctaaccg tccggacctg tgatcgcttc tggcagaccg aaccggcgct 180 cctgcccccg gggtgacgcg cagctcccag ccgcccagac acatggcccc aggccaagca 240 ccccatcagg ctaccccgtg gagggatgcc caccctttct tcctcctgtc cccagtgatg 300 ggcctcctca gccgcgcctg gagccgcctg aggggcctgg gacctctaga gccctggctg 360 gtggaagcag taaaaggagc agctctggta gaagctggcc tggagggaga agctaggact 420 15-9-2005 LEBM - Bioinformática 23
Cabeçalho contendo a anotação EMBL:U83981 ID U83981 standard; RNA; HUM; 2331 BP. XX AC U83981; EMBL XX SV U83981.1 XX DT 29-JUN-1998 (Rel. 56, Created) DT 04-MAR-2000 (Rel. 63, Last updated, Version 4) XX DE Homo sapiens apoptosis associated protein (GADD34) mrna, complete cds. XX KW. XX OS Homo sapiens (human) OC Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; OC Eutheria; Primates; Catarrhini; Hominidae; Homo. XX RN [1] RP 1-2331 RX MEDLINE; 97298078. RA Hollander M.C., Zhan Q., Bae I., Fornace A.J. Jr.; RT "Mammalian GADD34, an apoptosis- and DNA damage-inducible gene"; RL J. Biol. Chem. 272(21):13731-13737(1997). XX RN [2] RP 1-2331 (more...) 15-9-2005 LEBM - Bioinformática 24
Cabeçalho contendo a anotação LOCUS HSU83981 2331 bp mrna linear PRI 07-JUL-1998 DEFINITION Homo sapiens apoptosis associated protein (GADD34) mrna, complete cds. ACCESSION U83981 VERSION U83981.1 GI:3258617 KEYWORDS. SOURCE Homo sapiens (human) ORGANISM Homo sapiens Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Primates; Catarrhini; Hominidae; Homo. REFERENCE 1 (bases 1 to 2331) AUTHORS Hollander,M.C., Zhan,Q., Bae,I. and Fornace,A.J. Jr. TITLE Mammalian GADD34, an apoptosis- and DNA damage-inducible gene JOURNAL J. Biol. Chem. 272 (21), 13731-13737 (1997) MEDLINE 97298078 PUBMED 9153226 REFERENCE 2 (bases 1 to 2331) AUTHORS Hollander,M.C. and Fornace,A.J. Jr. TITLE Direct Submission (more...) Genbank 15-9-2005 LEBM - Bioinformática 25
Registo na EMBL (sequência) SQ Sequence 2331 BP; 543 A; 666 C; 712 G; 410 T; 0 other; cccagttgtt gatcttatgc aagacgctgc acgaccccgc gcccgcttgt cgccacggca 60 cttgaggcag ccggagatac tctgagttac tcggagcccg acgcctgagg gtgagatgaa 120 cgcgctggcc tccctaaccg tccggacctg tgatcgcttc tggcagaccg aaccggcgct 180 cctgcccccg gggtgacgcg cagctcccag ccgcccagac acatggcccc aggccaagca 240 ccccatcagg ctaccccgtg gagggatgcc caccctttct tcctcctgtc cccagtgatg 300 ggcctcctca gccgcgcctg gagccgcctg aggggcctgg gacctctaga gccctggctg 360 gtggaagcag taaaaggagc agctctggta gaagctggcc tggagggaga agctaggact 420 cctctggcaa tcccccatac cccttggggc agacgccctg aagaggaggc tgaagacagt 480.. cgggatcgca gccgcttcgc acgccgcatc acccaggccc aggaggagct gagcccctgc 2040 ctcacccctg ctgcccgggc cagagcctgg gcacgcctca ggaacccacc tttagccccc 2100 atccctgccc tcacccagac cttgccttcc tcctctgtcc cttcgtcccc agtccagacc 2160 acgcccttga gccaagctgt ggccacacct tcccgctcgt ctgctgctgc agcggctgcc 2220 ctggacctca gtgggaggcg tggctgagac caactggttt gcctataatt tattaactat 2280 ttattttttc taagtgtggg tttatataag gaataaagcc ttttgatttg t 2331 // 15-9-2005 LEBM - Bioinformática 26
Acesso livre e universal BD Bibliográficas Títulos, autores, palavraschave, sumários, referências 12 M registos Vocabulário controlado (MESH) Pesquiza com ENTREZ Iniciativa política 15-9-2005 LEBM - Bioinformática 27
Vocabulário controlado MESH Organização hieráriquica Decisão consensual Hemoglobin ou haemoglobin? NMR é uma técnica de espectroscopia Nuclear Magnetic Resonance é uma técnica de imagiologia 15-9-2005 LEBM - Bioinformática 28
Mais BD Bibliográficas Web of Knowledge, ISI, b-on PubCrawler (alertas) http://www.pubcrawler.ie 15-9-2005 LEBM - Bioinformática 29
BD Estruturais Para cada proteína, as coordenadas 3D dos átomos tal como são submetidas por experimentalistas (difracção dos raios X, NMR). Estas coordenadas permitem a visualização como objecto gráfico usando software apropriado (RasMol, Swiss PDB Viewer, VMD, Chemscape Chime, etc.) 1FGB ATOM 1 N ALA D 1 14.023-18.754 3.091 1.00 14.50 N ATOM 2 CA ALA D 1 13.751-18.777 4.557 1.00 13.42 C ATOM 3 C ALA D 1 12.429-19.500 4.748 1.00 15.38 C ATOM 4 O ALA D 1 11.631-19.583 3.809 1.00 15.75 O ATOM 5 CB ALA D 1 13.655-17.368 5.099 1.00 12.17 C ATOM 6 N PRO D 2 12.204-20.112 5.928 1.00 15.99 N ATOM 7 CA PRO D 2 10.940-20.819 6.172 1.00 18.53 C ATOM 8 C PRO D 2 9.793-19.836 6.031 1.00 18.62 C 15-9-2005 LEBM - Bioinformática 30
BD Estruturais PDB http://www.rcsb.org/pdb/ Research Collaboratory for Structural Bioinformatics (RCSB) Molecule of the Month Cholera Toxin 15-9-2005 LEBM - Bioinformática 31
BD Estruturais com Classificação CATH Classification, Architecture, Topology, Homology http://www.biochem.ucl.ac.uk/bsm/cath_new/ SCOP Structural Classification of Proteins http://scop.mrc-lmb.cam.ac.uk/scop/ 15-9-2005 LEBM - Bioinformática 32
BD integradas Informação proveniente de múltiplas bases de dados, beneficiando de interconexão e anotação supervisada. GeneCards http://bioinformatics.weizmann.ac.il/cards Informação detalhada por gene com ligações a várias bases de dados com informação laboratorial, clínica, etc. 15-9-2005 LEBM - Bioinformática 33
BD integradas Interpro http://www.ebi.ac.uk/interpro Resultado da integração de diversos recursos como PRINTS; PROSITE; SMART; ProDom; Pfam; TIGRfam 15-9-2005 LEBM - Bioinformática 34
BD Clínicas HGMD http://www.hgmd.org Mutações e doenças associadas dbsnp http://ncbi.nlm.nih.gov/snp/ O maior repositório público de SNPs 15-9-2005 LEBM - Bioinformática 35
BD de interesse biológico Que esperar do futuro? Maior integração Maior controlo de qualidade Melhores interfaces de utilizador Melhor interoperabilidade XML 15-9-2005 LEBM - Bioinformática 36
FIM 15-9-2005 LEBM - Bioinformática 37