Bancos de Dados Biológicos. CCM205 Sistema de Bancos de Dados Ugo Henrique Pereira da Silva Professora Maria Camila N. Barioni

Documentos relacionados
Bioinformática. Tipos de Bases de Dados (BD) Principais BD Primárias. Bases de dados Não-Redundantes. 3 - Bases de dados

COMPOSIÇÃO QUÍMICA DOS ÁCIDOS NUCLEICOS

Hoje estudaremos a bioquímica dos ácidos nucléicos. Acompanhe!

Carboidratos No momento em que você está lendo e procurando entender suas células nervosas estão realizando um trabalho e, para isso, utilizam a

Banco de Dados aplicado a Sistemas Biológicos

Anotação de Genomas. Fabiana G. S. Pinto

BANCO DE QUESTÕES - BIOLOGIA - 1ª SÉRIE - ENSINO MÉDIO ==============================================================================================

A matemática e o genoma. Resumo

COMPARAÇÃO DE SEQÜÊNCIAS DE DNA

Equipe de Biologia. Biologia

Biologia molecular é uma disciplina híbrida

O surgimento da Bioinformática Banco de Dados Biológicos

Estrutura e Função de Ácidos Nucléicos

Estrutura e função dos ácidos nucléicos. Profa. Melissa de Freitas Cordeiro-Silva

Os primeiros indícios de que o DNA era o material hereditário surgiram de experiências realizadas com bactérias, sendo estas indicações estendidas

> ESTUDO DO RNA. (C) O ácido nucléico I é DNA e o II, RNA. (D) O ácido nucléico I é RNA e o II, DNA. (E) I é exclusivo dos seres procariontes.

DNA A molécula da vida. Prof. Biel Série: 9º ano

Núcleo Celular. Biomedicina primeiro semestre de 2012 Profa. Luciana Fontanari Krause

Prof. Daniela Barreiro Claro

Motantagem de Contigs de sequências de genomas e Transcriptomas. Introdução

A síntese de DNA tem como objetivo replicar, de modo exato, o genoma. Já a síntese de RNA está relacionada com a própria expressão gênica.

Ácidos Nucléicos Duplicação do DNA e Síntese de PROTEÍNAS. Paulo Dutra

Bioinformática. Licenciaturas em Biologia, Bioquímica, Biotecnologia, Ciências Biomédicas, Engenharia Biológica. João Varela

As bactérias operárias

DO GENE À PROTEÍNA ALGUNS CONCEITOS BASICOS COMO SE ORGANIZAM OS NUCLEÓTIDOS PARA FORMAR O DNA?

Bases Moleculares da Hereditariedade

Criado e Desenvolvido por: Todos os direitos são reservados

Princípios moleculares dos processos fisiológicos

O DNA é formado por pedaços capazes de serem convertidos em algumas características. Esses pedaços são

Universidade Federal de Pelotas Faculdade de Agronomia Eliseu Maciel Programa de Pós-Graduação em Agronomia CENTRO DE GENOMICA E FITOMELHORAMENTO

Bioinformática Histórico e conceitos básicos

Unidade 1: O Computador

GABARITO BIOLOGIA REVISÃO 01 3 ANO A/B ENSINO MÉDIO

Sistemática dos seres vivos

Criado e Desenvolvido por: RONNIELLE CABRAL ROLIM Todos os direitos são reservados

Bioinformática Aula 01

1838: lê Ensaio sobre o princípio da população, de Thomas Malthus (1798)

Curso: Integração Metabólica

ADMINISTRAÇÃO DE BANCOS DE DADOS MÓDULO 8

Versão 0.3 Capítulo 5. Bancos de dados. Estrutura e modelos de dados

Aula 4 Estrutura do RNA

COMUNICAÇÃO DA INFORMAÇÃO NAS MOLÉCULAS DE DNA E RNA

Curso - Psicologia. Disciplina: Genética Humana e Evolução. Resumo Aula 2- Organização do Genoma

1. (Unesp) A ilustração apresenta o resultado de um teste de paternidade obtido pelo método do DNA-Fingerprint, ou "impressão digital de DNA".

Inteligência de negócios do laboratório DESCUBRA INFORMAÇÕES ÚTEIS DE DADOS OPERACIONAIS DO LABORATÓRIO

ESTRUTURA DO DNA E ORGANIZAÇAO DA ATIVIDADE BIOLÓGICA

Aula 7 Ácidos nucléicos

Deswik.Sched. Sequenciamento por Gráfico de Gantt

Genes. Menor porção do DNA capaz de produzir um efeito que pode ser detectado no organismo. Região do DNA que pode ser transcrita em moléculas de RNA.

CARACTERÍSTICAS GERAIS DOS SERES VIVOS PROF. PANTHERA

Biologia Professor Vianna 1ª série / 1º trimestre

Introdução de XML. Dados da Web. Gerência de Dados da Web. A Web representa, nos dias de hoje, um repositório universal de dados, onde:

DNA: Passado, Presente e Futuro

Manual do Desenvolvedor Geração de Tokens

MANUAL DO INSTALADOR XD EM AMBIENTES MICROSOFT WINDOWS

Geralmente é arredondado e único por célula, mas existem núcleos com outras formas e células com mais de um núcleo

Bioinformática. Conceitos Fundamentais de Biologia Molecular. Paulo Henrique Ribeiro Gabriel

BASES NITROGENADAS DO RNA

Dra. Kátia R. P. de Araújo Sgrillo.

Teoria dos erros em medições

Miguel Rocha Dep. Informática - Universidade do Minho. BIOINFORMÁTICA: passado, presente e futuro!!

BIOLOGIA MOLECULAR. Ácidos Nucléicos e Síntese de Proteínas

16/04/2015 ÁCIDOS NUCLEICOS DNA E RNA DNA E RNA DNA E RNA BREVE HISTÓRICO DA DESCOBERTA DO DNA BREVE HISTÓRICO DA DESCOBERTA DO DNA

Bancos de dados de biomacromoléculas e recuperação de informação

Inteligência Artificial

10. CPU (Central Processor Unit) Conjunto das instruções Estrutura interna Formato das instruções...

M3D4 - Certificados Digitais Aula 2 Certificado Digital e suas aplicações

ECOLOGIA. Conceitos fundamentais e relações alimentares

Genética e Evolução: Profa. Gilcele

Objetivo do Portal da Gestão Escolar

Modelo Lógico: Tabelas, Chaves Primárias e Estrangeiras

Escola Secundária do Monte de Caparica Disciplina de Biologia 10 º Ano

GEOMETRIA. sólidos geométricos, regiões planas e contornos PRISMAS SÓLIDOS GEOMÉTRICOS REGIÕES PLANAS CONTORNOS

ÁCIDOS NUCLEICOS DNA - ÁCIDO DESOXIRRIBONUCLEICO RNA - ÁCIDO RIBONUCLEICO

CÓDIGO GENÉTICO E SÍNTESE PROTEICA

Painéis Do Organismo ao Genoma

8/18/2015. IFSC Campus Lages. Biologia Molecular. Prof. Silmar Primieri. O que é Biologia Molecular?

Banco de Dados I. Prof. Edson Thizon

Faculdade de Tecnologia de Araçatuba. Curso Superior de Tecnologia em Bioenergia Sucroalcooleira

O BANCO DE DADOS. QUADRO I- Formas de acesso às informações disponíveis no Banco de Dados

Programação para Internet I 4. XML. Nuno Miguel Gil Fonseca nuno.fonseca@estgoh.ipc.pt

Rota de Aprendizagem 2015/16 8.º Ano

Sérgio Luisir Díscola Junior

REVISÃO E AVALIAÇÃO DA UNIDADE III

COMO ELABORAR UM CURRÍCULO

Explorando bancos de dados genômicos e introdução à bioinformática. Guilherme Targino Valente Marcos Tadeu Geraldo. Bioinformática

Obtenção Experimental de Modelos Matemáticos Através da Reposta ao Degrau

Avaliação Econômica Projeto de Inclusão Digital. Naercio Aquino Menezes Filho Centro de Políticas Públicas Insper FEA-USP e Fundação Itaú Social

BIOLOGIA - 1 o ANO MÓDULO 08 RIBOSSOMOS E SÍNTESE PROTEICA

Do D.N.A. à síntese proteica. Descoberta do D.N.A. e da sua estrutura

PESQUISA OPERACIONAL -PROGRAMAÇÃO LINEAR. Prof. Angelo Augusto Frozza, M.Sc.

O que é um banco de dados? Banco de Dados. Banco de dados

MEDICINA VETERINÁRIA. Disciplina: Genética Animal. Prof a.: D rd. Mariana de F. Gardingo Diniz

CONHECIMENTOS ESPECÍFICOS

UNIVERSIDADE ESTADUAL DO CENTRO-OESTE - UNICENTRO CURSO DE PÓS GRADUAÇÃO EM MÍDIAS NA EDUCAÇÃO JULIANA LEME MOURÃO ORIENTADOR: PAULO GUILHERMETI

PROGRAMA TEÓRICO. 2. O Dogma Central da Biologia Molecular

Grupo Tchê Química Análise de Moléculas de DNA

A natureza química do material genético Miescher nucleínas. ácidos nucleicos. ácido desoxirribonucleico ácido ribonucleico Avery MacLeod McCarty

Exercício. Exercício

Transcrição:

Bancos de Dados Biológicos CCM205 Sistema de Bancos de Dados Ugo Henrique Pereira da Silva Professora Maria Camila N. Barioni

Banco de Dados Cientificos Bancos de Dados Biológicos Introdução Conceitos fundamentais DNA, RNA Proteína Dogma Central da Biologia Bancos de Dados de Sequências Genbank, PDB, Considerações finais Referências

Introdução A análise da expressão dos genes é de grande interesse para as Ciências Biológicas. Esse tipo de análise pode fornecer informações importantes sobre as funções de uma célula, uma vez que as mudanças na fisiologia de um organismo são geralmente acompanhadas por mudancas nos padrões de expressão dos genes (Alberts et al., 1997).

Introdução No início da década de 1970, Ben Hesper e Paulien Hogeweg começaram a usar o termo "bioinformática" para a pesquisa que queriam fazer, definindo-o como ''o estudo dos processos computacionais nos sistemas bióticos'' (Hogeweg,.

Introdução A pesquisa de similaridade em bancos de dados seqüência de DNA e proteínas é um campo essencial na pesquisa genômica (MOUNT, 2001; WEBB-ROBERTSON et al., 2008). O método fundamental para encontrar as funções de DNA e seqüências de proteína é medir as semelhanças entre os dois seqüências.

Introdução Existem muitos métodos para realizar uma verificação inteira na bases de dados de seqüência de DNA para uma busca de similaridade. Os métodos que são normalmente utilizados são o algoritmo Smith-Waterman (Smith e Waterman, 1981) e BLAST (Altschul et al.,1990, 1997).

Introdução O GenBank, banco de dados de seqüências genéticas continha somente 15 milhões de nucleotídeos em 1987, dobrou de tamanho nos 5 anos subseqüentes. Em 1992 atingiu mais de 120 milhões utilizando sequenciadores dedna automáticos (ADAMS, et. Al, p. 4).

Conceitos Fundamentais DNA - deoxyribonucleic acid O ácido desoxirribonucleico: é um composto orgânico cujas moléculas contêm as instruções genéticas que coordenam o desenvolvimento e funcionamento de todos os seres vivos e alguns vírus. O seu principal papel é armazenar as informações necessárias para a construção das proteínas e RNAs. A estrutura dodna foi descoberta conjuntamente pelo norte-americano James Watson e pelo britânico Francis Crick em 7 de Março de 1953, o que lhes valeu o Prêmio Nobel de Fisiologia/Medicina em 1962, juntamente com Maurice Wilkins.

Conceitos Fundamentais DNA - deoxyribonucleic acid Açucares Bases nitrogenadas Adenina (A), Guanina (G) - (Purinas) Timina (T), Citosina (C) - (Pirimidinas) Grupo fosfato Uma sequência de DNA é formada por dupla hélice emligação antiparalela

Conceitos Fundamentais DNA - deoxyribonucleic acid

Conceitos Fundamentais RNA - ribonucleic acid A composição do RNA é muito semelhante ao do DNA (ácido desoxirribonucleico) contudo apresenta algumas diferenças:é formado por uma cadeia simples de nucleotídeos, e não uma de dupla hélice como o DNA; O RNA tem o açúcar ribose em seus nucleotídeos em vez da desoxirribose encontrada no DNA. as bases adenina (A), guanina (G), citosina (C) e uracila (U),

Conceitos Fundamentais RNA - ribonucleic acid

Conceitos Fundamentais Proteína são compostos de alto peso molecular; sintetizadas pelos organismos vivos através da condensação de um grande número de moléculas de alfa-aminoácidos, através de ligações denominadas ligações peptídicas; Uma proteína é um conjunto de no minimo 20 aminoácidos, mas sabemos que uma proteína possui muito mais que essa quantidade, sendo os conjuntos menores denominados Polipeptídeos.

Conceitos Fundamentais Proteína

Conceitos Fundamentais Dogma Central da Biologia

Bancos de Dados Biológicos Os bancos de dados envolvendo seqüências de nucleotídeos, de aminoácidos ou estruturas de proteínas podem ser classificados em bancos de seqüências primários e secundários. Os primeiros são formados pela deposição direta de seqüências de nucleotídeos, aminoácidos ou estruturas protéicas, sem qualquer processamento ou análise.

Bancos de Dados Biológicos Os principais bancos de dados primários são o GenBank, o EBI (European Bioinformatics Institute), o DDBJ (DNA Data Bank of Japan) e o PDB (Protein Data Bank). Os três primeiros bancos são membros do INSDC (International Nucleotide Sequence Database Colaboration) e cada um desses centros possibilita a submissão individual de seqüências de DNA. Trocam informações entre si diariamente, de modo que todos os três possuem informações atualizadas de todas as seqüências de DNA depositadas em todo o mundo

Bancos de Dados Biológicos Com o crescente número de dados biológicos que vem sendo gerados, vários bancos de dados têm surgido e anualmente a revista Nucleic Acids Research database publica uma lista atualizada com a classificação de todos os bancos de dados biológicos disponíveis.

Genbank banco de dados público de seqüências de nucleotídeos e apoio bibliográfico e anotação biológica, criado e distribuído pela National Center for Biotechnology Information (NCBI), uma divisão da National Library of Medicine (NLM); Construido basicamente a partir da submissão de dados da seqüência de autores e da maior parte de submissão de expressed sequence tag (EST), genome survey sequences (GSS), e outros de altas transferência de dados dos centros de sequenciamento.

Genbank Há aproximadamente 126.551.501.141 bases em 135.440.924 registros seqüência na divisão tradicional, 191.401.393.188 bases em 62.715.288 registros seqüência na divisão WGS em abril de 2011.

Genbank Sequência baseada em taxonomia Colaboração com EMBL e DDBJ e curadorias externas, o que necessita de padrão para troca de dados Adoção de uma Feature Table

Genbank Adoção de uma Feature Table O objetivo geral do design da tabela é fornecer um extenso vocabulário para descrever características de uma estrutura flexível para manipulá-los. A documentação representa a regras comuns que permitem que as três bases de dados para troca de dados em uma base diária.a gama de recursos para ser representado é diversificado, incluindo as regiões que: Executar uma função biológica, Afetam ou são o resultado da expressão de uma função biológica, Interagir com outras moléculas, Afetam a replicação de uma seqüência, Afetam ou são o resultado de recombinação de seqüências diferentes, são uma unidade reconhecível repetida,te m estrutura secundária ou terciária, variação de exposição, ou que tenham sido revistos ou corrigidos

Genbank Feature table format (EMBL): Feature table format example (EMBL): FT source 1..1859 FT /db_xref="taxon:3899" FT /organism="trifolium repens" FT /tissue_type="leaves" FT /clone_lib="lambda gt10" FT /clone="tre361" FT /mol_type="genomic DNA" FT CDS 14..1495 FT /db_xref="mendel:11000" FT /db_xref="uniprotkb/swiss-prot:p26204" FT /note="non-cyanogenic" FT /EC_number="3.2.1.21" FT /product="beta-glucosidase" FT /protein_id="caa40058.1" FT /translation="mdfivaifalfvissftitstnaveastlldignlsr... ---------+---------+---------+---------+---------+---------+---------+--------1 10 20 30 40 50 60 70 79

Genbank Feature table format (Genbank): Feature table format example (GenBank): source 1..8959 /organism="homo sapiens" /db_xref="taxon:9606" /mol_type="genomic DNA" gene 212..8668 /gene="nf1" CDS 212..8668 /gene="nf1" /note="putative" /codon_start=1 /product="gap-related protein" /protein_id="aaa59924.1" /translation="maahrpvewvqavvsrfdeqlpiktgqqnthtkvste... ---------+---------+---------+---------+---------+---------+---------+--------1 10 20 30 40 50 60 70 79

Genbank Feature table format (DDBJ): Feature table format example (DDBJ): source 1..2136 /clone="pk28" /organism="rattus norvegicus" /strain="sprague-dawley" /tissue_type="kidney" /mol_type="genomic DNA" mrna 19..2128 CDS 31..1212 /codon_start=1 /function="dual specificity protein tyrosine/threonine kinase" /product="map kinase kinase" /protein_id="baa02603.1" /translation="mpkkkptpiqlnpapdgsavngtssaetnlealqkkl... ---------+---------+---------+---------+---------+---------+---------+--------1 10 20 30 40 50 60 70 79

Genbank Divisões e registros Cada entrada inclui uma concisa descrição da sequência, o nome cientifico e taxonomia do organismo de origem, referencias bibliográficas e uma feature table por áreas de importancia biológica; Os arquivos são particionados em divisões correspondem a grupos taxonômicos como: que Bactérias (BCT), vírus(vrl), primatas (PRI) e roedores (ROD), expressed seqüência tag (EST), pesquisa do genoma (GSS), genômica de alto rendimento (HTG), cdna de alto rendimento (HTC) e seqüências da amostra ambientais (ENV)

Genbank Divisões e registros the BCT division is now composed of 72 files (+4) - the CON division is now composed of 149 files (+1) - the ENV division is now composed of 40 files (-1) - the EST division is now composed of 445 files (+10) - the GSS division is now composed of 247 files (+10) - the INV division is now composed of 30 files (+1) - the PAT division is now composed of 164 files (+23) - the PLN division is now composed of 48 files (+2) - the TSA division is now composed of 30 files (+8) - the VRL division is now composed of 18 files (+1) - the VRT division is now composed of 24 files (+1)

Genbank Divisões e registros Cada um destes arquivos tem o mesmo formato e é composto por duas partes: informações de cabeçalho e seqüência de entradas daquela divisão

Genbank Recuperação de Dados Os registros de seqüência no GenBank são acessíveis através do Entrez (www.ncbi.nlm.nih.gov / sites / gquery), uma flexível sistema de banco de dados de recuperação que abrange 35 bancos de dados biológicas. Bases de dados Entrez contêm DNA e proteínas seqüências derivadas do GenBank e outras fontes, mapas genomicos, população, conjunto de sequencias filogenéticas e ambiental, os dados de expressão gênica, taxonomia, informações de domínio de proteína e estruturas do banco de dados Modelagem Molecular MMDB. Cada banco de dados está ligado a literatura científica via PubMed Central e PubMed.

Genbank

Genbank

Genbank

PDB Protein Data Bank O Protein Data Bank (PDB) é o único repositório mundial de informações sobre as estruturas 3D de grandes moléculas biológicas, incluindo proteínas e ácidos nucléicos. Estas são as moléculas da vida que são encontrados em todos os organismos, incluindo bactérias, fungos, plantas, moscas, outros animais e seres humanos.

PDB Protein Data Bank Compreender a forma de uma molécula ajuda a entender como ele funciona. Esse conhecimento pode ser usado para ajudar a deduzir papel de uma estrutura na saúde humana e doenças, e no desenvolvimento de medicamentos. As estruturas na faixa de arquivo a partir de proteínas pequenas e pedaços de DNA de máquinas moleculares complexas como o ribossoma.

PDB Protein Data Bank restritos a coordenadas atômicas que são substancialmente determinados por medições experimentais contendo amostra real de macromoleculas biológicas. Atualmente, conjuntos produzidos por cristalografia de raios X, NMR, microscopia eletrônica, difração de nêutrons, difração de pó, difração de fibra, e espalhamento de solução pode ser depositado no PDB, desde a molécula estudada atende ao requisito de tamanho mínimo.

PDB Protein Data Bank Para cada coordenada atômica e entrada bibliográfica o arquivo consiste de registros com 80 caracteres: Exemplo de registro: HEADER : Date entered into Data Bank; identification code OBSLTE : Identifies entries which have been replaced Cols.1-6 HEADER 11-50 Functional classification of macromolecule 51-59 Date of deposition into Data Bank(i) 63-66 Identification code

PDB Protein Data Bank Exemplo de registro: Cols. 1-6 OBSLTE 9-10 Continuation field (this field will be blank for the first OBSLTE record in each entry and numbered 2, 3, etc. for continuation records) 12-20 Date this entry was replaced 22-25 Identification code of this entry which is now obsolete 32-35 Identification code of a new entry which has replaced this old entry 37 40... 67 70 Identification code of a new entry which has replaced thisold entry

PDB Protein Data Bank Bancos de dados armazenam as coordenadas atomicas e informações sobre a estrutura molecular; Necessidade de programas de visualização de imagens moleculares como o rasmol ou Jmol

PDB Protein Data Bank

PDB Protein Data Bank

Considerações Finais Muitos dados e formatos de dados de sequências biologicas; Necessidade de implementação de métodos de pesquisas de domínio especifico Ferramentas de integração de multiplas fontes de dados e integradas aos SGBDs; Comunidade preocupada com os novos requisitos de armazenamento de dados; Desafios para analises dos grandes volumes de dados gerados e depositados

Referências ALBERTS, Bruce, et. Al, Fundamentos da Biologia Molecular. 2. ed. Porto Alegre:Artmed, 2006. ALTSCHUL, S.F., MADDEN, T.L., SCHAFFER, A.A., ZHANG, J., ZHANG, Z., MILLER, W., LIPMAN, D.J., 1997. Gapped BLAST and PSI-BLAST: a new generation of protein database search programs. Nucleic Acids Res. 25, 3389 3402. BENSON,D.A., KARSCH-MIZRACHI,I., Lipman,D.J., Ostell,J. And Wheeler,D.L. (2007) GenBank. Nucleic Acids Res., 35(Database issue), 21 25. HOGEWEG, P (2011) The Roots of Bioinformatics in Theoretical Biology. PLoS Comput Biol 7(3):e1002021. doi:10.1371/journal.pcbi.1002021 MOUNT, D.W., 2001. Bioinformatics: Sequence and Genome Analysis. Cold Spring Harbor Laboratory Press, New York. WEBB-ROBERTSON, B.J., OEHMEN, C.S., SHAH, A.R., 2008. A feature vector integration approach for a generalized support vector machine pairwise homology algorithm. Comput. Biol. Chem. 32, 458 461. LIFISCHITZ, Sérgio, Gerenciadores de Dados Biológicos:Genéricos ou AdHoc,Anais XXVII Congresso SBC-Sociedade Brasileira da Computação, Rio de Janeiro, 2007