Bancos de Dados Biológicos. CCM205 Sistema de Bancos de Dados Ugo Henrique Pereira da Silva Professora Maria Camila N. Barioni

Bancos de Dados Biológicos CCM205 Sistema de Bancos de Dados Ugo Henrique Pereira da Silva Professora Maria Camila N. Barioni

Banco de Dados Cientificos Bancos de Dados Biológicos Introdução Conceitos fundamentais DNA, RNA Proteína Dogma Central da Biologia Bancos de Dados de Sequências Genbank, PDB, Considerações finais Referências

Introdução A análise da expressão dos genes é de grande interesse para as Ciências Biológicas. Esse tipo de análise pode fornecer informações importantes sobre as funções de uma célula, uma vez que as mudanças na fisiologia de um organismo são geralmente acompanhadas por mudancas nos padrões de expressão dos genes (Alberts et al., 1997).

Introdução No início da década de 1970, Ben Hesper e Paulien Hogeweg começaram a usar o termo "bioinformática" para a pesquisa que queriam fazer, definindo-o como ''o estudo dos processos computacionais nos sistemas bióticos'' (Hogeweg,.

Introdução A pesquisa de similaridade em bancos de dados seqüência de DNA e proteínas é um campo essencial na pesquisa genômica (MOUNT, 2001; WEBB-ROBERTSON et al., 2008). O método fundamental para encontrar as funções de DNA e seqüências de proteína é medir as semelhanças entre os dois seqüências.

Introdução Existem muitos métodos para realizar uma verificação inteira na bases de dados de seqüência de DNA para uma busca de similaridade. Os métodos que são normalmente utilizados são o algoritmo Smith-Waterman (Smith e Waterman, 1981) e BLAST (Altschul et al.,1990, 1997).

Introdução O GenBank, banco de dados de seqüências genéticas continha somente 15 milhões de nucleotídeos em 1987, dobrou de tamanho nos 5 anos subseqüentes. Em 1992 atingiu mais de 120 milhões utilizando sequenciadores dedna automáticos (ADAMS, et. Al, p. 4).

Conceitos Fundamentais DNA - deoxyribonucleic acid O ácido desoxirribonucleico: é um composto orgânico cujas moléculas contêm as instruções genéticas que coordenam o desenvolvimento e funcionamento de todos os seres vivos e alguns vírus. O seu principal papel é armazenar as informações necessárias para a construção das proteínas e RNAs. A estrutura dodna foi descoberta conjuntamente pelo norte-americano James Watson e pelo britânico Francis Crick em 7 de Março de 1953, o que lhes valeu o Prêmio Nobel de Fisiologia/Medicina em 1962, juntamente com Maurice Wilkins.

Conceitos Fundamentais DNA - deoxyribonucleic acid Açucares Bases nitrogenadas Adenina (A), Guanina (G) - (Purinas) Timina (T), Citosina (C) - (Pirimidinas) Grupo fosfato Uma sequência de DNA é formada por dupla hélice emligação antiparalela

Conceitos Fundamentais DNA - deoxyribonucleic acid

Conceitos Fundamentais RNA - ribonucleic acid A composição do RNA é muito semelhante ao do DNA (ácido desoxirribonucleico) contudo apresenta algumas diferenças:é formado por uma cadeia simples de nucleotídeos, e não uma de dupla hélice como o DNA; O RNA tem o açúcar ribose em seus nucleotídeos em vez da desoxirribose encontrada no DNA. as bases adenina (A), guanina (G), citosina (C) e uracila (U),

Conceitos Fundamentais RNA - ribonucleic acid

Conceitos Fundamentais Proteína são compostos de alto peso molecular; sintetizadas pelos organismos vivos através da condensação de um grande número de moléculas de alfa-aminoácidos, através de ligações denominadas ligações peptídicas; Uma proteína é um conjunto de no minimo 20 aminoácidos, mas sabemos que uma proteína possui muito mais que essa quantidade, sendo os conjuntos menores denominados Polipeptídeos.

Conceitos Fundamentais Proteína

Conceitos Fundamentais Dogma Central da Biologia

Bancos de Dados Biológicos Os bancos de dados envolvendo seqüências de nucleotídeos, de aminoácidos ou estruturas de proteínas podem ser classificados em bancos de seqüências primários e secundários. Os primeiros são formados pela deposição direta de seqüências de nucleotídeos, aminoácidos ou estruturas protéicas, sem qualquer processamento ou análise.

Bancos de Dados Biológicos Os principais bancos de dados primários são o GenBank, o EBI (European Bioinformatics Institute), o DDBJ (DNA Data Bank of Japan) e o PDB (Protein Data Bank). Os três primeiros bancos são membros do INSDC (International Nucleotide Sequence Database Colaboration) e cada um desses centros possibilita a submissão individual de seqüências de DNA. Trocam informações entre si diariamente, de modo que todos os três possuem informações atualizadas de todas as seqüências de DNA depositadas em todo o mundo

Bancos de Dados Biológicos Com o crescente número de dados biológicos que vem sendo gerados, vários bancos de dados têm surgido e anualmente a revista Nucleic Acids Research database publica uma lista atualizada com a classificação de todos os bancos de dados biológicos disponíveis.

Genbank banco de dados público de seqüências de nucleotídeos e apoio bibliográfico e anotação biológica, criado e distribuído pela National Center for Biotechnology Information (NCBI), uma divisão da National Library of Medicine (NLM); Construido basicamente a partir da submissão de dados da seqüência de autores e da maior parte de submissão de expressed sequence tag (EST), genome survey sequences (GSS), e outros de altas transferência de dados dos centros de sequenciamento.

Genbank Há aproximadamente 126.551.501.141 bases em 135.440.924 registros seqüência na divisão tradicional, 191.401.393.188 bases em 62.715.288 registros seqüência na divisão WGS em abril de 2011.

Genbank Sequência baseada em taxonomia Colaboração com EMBL e DDBJ e curadorias externas, o que necessita de padrão para troca de dados Adoção de uma Feature Table

Genbank Adoção de uma Feature Table O objetivo geral do design da tabela é fornecer um extenso vocabulário para descrever características de uma estrutura flexível para manipulá-los. A documentação representa a regras comuns que permitem que as três bases de dados para troca de dados em uma base diária.a gama de recursos para ser representado é diversificado, incluindo as regiões que: Executar uma função biológica, Afetam ou são o resultado da expressão de uma função biológica, Interagir com outras moléculas, Afetam a replicação de uma seqüência, Afetam ou são o resultado de recombinação de seqüências diferentes, são uma unidade reconhecível repetida,te m estrutura secundária ou terciária, variação de exposição, ou que tenham sido revistos ou corrigidos

Genbank Feature table format (EMBL): Feature table format example (EMBL): FT source 1..1859 FT /db_xref="taxon:3899" FT /organism="trifolium repens" FT /tissue_type="leaves" FT /clone_lib="lambda gt10" FT /clone="tre361" FT /mol_type="genomic DNA" FT CDS 14..1495 FT /db_xref="mendel:11000" FT /db_xref="uniprotkb/swiss-prot:p26204" FT /note="non-cyanogenic" FT /EC_number="3.2.1.21" FT /product="beta-glucosidase" FT /protein_id="caa40058.1" FT /translation="mdfivaifalfvissftitstnaveastlldignlsr... ---------+---------+---------+---------+---------+---------+---------+--------1 10 20 30 40 50 60 70 79

Genbank Feature table format (Genbank): Feature table format example (GenBank): source 1..8959 /organism="homo sapiens" /db_xref="taxon:9606" /mol_type="genomic DNA" gene 212..8668 /gene="nf1" CDS 212..8668 /gene="nf1" /note="putative" /codon_start=1 /product="gap-related protein" /protein_id="aaa59924.1" /translation="maahrpvewvqavvsrfdeqlpiktgqqnthtkvste... ---------+---------+---------+---------+---------+---------+---------+--------1 10 20 30 40 50 60 70 79

Genbank Feature table format (DDBJ): Feature table format example (DDBJ): source 1..2136 /clone="pk28" /organism="rattus norvegicus" /strain="sprague-dawley" /tissue_type="kidney" /mol_type="genomic DNA" mrna 19..2128 CDS 31..1212 /codon_start=1 /function="dual specificity protein tyrosine/threonine kinase" /product="map kinase kinase" /protein_id="baa02603.1" /translation="mpkkkptpiqlnpapdgsavngtssaetnlealqkkl... ---------+---------+---------+---------+---------+---------+---------+--------1 10 20 30 40 50 60 70 79

Genbank Divisões e registros Cada entrada inclui uma concisa descrição da sequência, o nome cientifico e taxonomia do organismo de origem, referencias bibliográficas e uma feature table por áreas de importancia biológica; Os arquivos são particionados em divisões correspondem a grupos taxonômicos como: que Bactérias (BCT), vírus(vrl), primatas (PRI) e roedores (ROD), expressed seqüência tag (EST), pesquisa do genoma (GSS), genômica de alto rendimento (HTG), cdna de alto rendimento (HTC) e seqüências da amostra ambientais (ENV)

Genbank Divisões e registros the BCT division is now composed of 72 files (+4) - the CON division is now composed of 149 files (+1) - the ENV division is now composed of 40 files (-1) - the EST division is now composed of 445 files (+10) - the GSS division is now composed of 247 files (+10) - the INV division is now composed of 30 files (+1) - the PAT division is now composed of 164 files (+23) - the PLN division is now composed of 48 files (+2) - the TSA division is now composed of 30 files (+8) - the VRL division is now composed of 18 files (+1) - the VRT division is now composed of 24 files (+1)

Genbank Divisões e registros Cada um destes arquivos tem o mesmo formato e é composto por duas partes: informações de cabeçalho e seqüência de entradas daquela divisão

Genbank Recuperação de Dados Os registros de seqüência no GenBank são acessíveis através do Entrez (www.ncbi.nlm.nih.gov / sites / gquery), uma flexível sistema de banco de dados de recuperação que abrange 35 bancos de dados biológicas. Bases de dados Entrez contêm DNA e proteínas seqüências derivadas do GenBank e outras fontes, mapas genomicos, população, conjunto de sequencias filogenéticas e ambiental, os dados de expressão gênica, taxonomia, informações de domínio de proteína e estruturas do banco de dados Modelagem Molecular MMDB. Cada banco de dados está ligado a literatura científica via PubMed Central e PubMed.

Genbank

PDB Protein Data Bank O Protein Data Bank (PDB) é o único repositório mundial de informações sobre as estruturas 3D de grandes moléculas biológicas, incluindo proteínas e ácidos nucléicos. Estas são as moléculas da vida que são encontrados em todos os organismos, incluindo bactérias, fungos, plantas, moscas, outros animais e seres humanos.

PDB Protein Data Bank Compreender a forma de uma molécula ajuda a entender como ele funciona. Esse conhecimento pode ser usado para ajudar a deduzir papel de uma estrutura na saúde humana e doenças, e no desenvolvimento de medicamentos. As estruturas na faixa de arquivo a partir de proteínas pequenas e pedaços de DNA de máquinas moleculares complexas como o ribossoma.

PDB Protein Data Bank restritos a coordenadas atômicas que são substancialmente determinados por medições experimentais contendo amostra real de macromoleculas biológicas. Atualmente, conjuntos produzidos por cristalografia de raios X, NMR, microscopia eletrônica, difração de nêutrons, difração de pó, difração de fibra, e espalhamento de solução pode ser depositado no PDB, desde a molécula estudada atende ao requisito de tamanho mínimo.

PDB Protein Data Bank Para cada coordenada atômica e entrada bibliográfica o arquivo consiste de registros com 80 caracteres: Exemplo de registro: HEADER : Date entered into Data Bank; identification code OBSLTE : Identifies entries which have been replaced Cols.1-6 HEADER 11-50 Functional classification of macromolecule 51-59 Date of deposition into Data Bank(i) 63-66 Identification code

PDB Protein Data Bank Exemplo de registro: Cols. 1-6 OBSLTE 9-10 Continuation field (this field will be blank for the first OBSLTE record in each entry and numbered 2, 3, etc. for continuation records) 12-20 Date this entry was replaced 22-25 Identification code of this entry which is now obsolete 32-35 Identification code of a new entry which has replaced this old entry 37 40... 67 70 Identification code of a new entry which has replaced thisold entry

PDB Protein Data Bank Bancos de dados armazenam as coordenadas atomicas e informações sobre a estrutura molecular; Necessidade de programas de visualização de imagens moleculares como o rasmol ou Jmol

PDB Protein Data Bank

Considerações Finais Muitos dados e formatos de dados de sequências biologicas; Necessidade de implementação de métodos de pesquisas de domínio especifico Ferramentas de integração de multiplas fontes de dados e integradas aos SGBDs; Comunidade preocupada com os novos requisitos de armazenamento de dados; Desafios para analises dos grandes volumes de dados gerados e depositados

Referências ALBERTS, Bruce, et. Al, Fundamentos da Biologia Molecular. 2. ed. Porto Alegre:Artmed, 2006. ALTSCHUL, S.F., MADDEN, T.L., SCHAFFER, A.A., ZHANG, J., ZHANG, Z., MILLER, W., LIPMAN, D.J., 1997. Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. Nucleic Acids Res. 25, 3389 3402. BENSON,D.A., KARSCH-MIZRACHI,I., Lipman,D.J., Ostell,J. And Wheeler,D.L. (2007) GenBank. Nucleic Acids Res., 35(Database issue), 21 25. HOGEWEG, P (2011) The Roots of Bioinformatics in Theoretical Biology. PLoS Comput Biol 7(3):e1002021. doi:10.1371/journal.pcbi.1002021 MOUNT, D.W., 2001. Bioinformatics: Sequence and Genome Analysis. Cold Spring Harbor Laboratory Press, New York. WEBB-ROBERTSON, B.J., OEHMEN, C.S., SHAH, A.R., 2008. A feature vector integration approach for a generalized support vector machine pairwise homology algorithm. Comput. Biol. Chem. 32, 458 461. LIFISCHITZ, Sérgio, Gerenciadores de Dados Biológicos:Genéricos ou AdHoc,Anais XXVII Congresso SBC-Sociedade Brasileira da Computação, Rio de Janeiro, 2007