Busca em banco de dados
Busca em banco de dados A quantidade imensa de dados existentes nos bancos públicos torna critica a existência de ferramentas eficientes que permitam a recuperação de dados desejados Existem diversas formas através das quais os bancos podem ser interrogados para obtenção da informação desejada
NCBI Um dos maiores repositórios de informações biológicas existentes Parte do NIH (National Institutes of Health) dos EUA. http://www.ncbi.nlm.nih.gov/
Estrutura do NCBI
Bancos de dados do NCBI
PubMed Busca por palavra chave ou nome de autor (sobrenome seguido de iniciais) Busca por referencias bibliográfica
PubMed Acesso ao artigo completo Titulo do artigo, nome dos autores e resumo do artigo Artigos relacionados
PubMed Permite acesso a seqüências descritas no artigo, artigos citados por este artigo, entre outros
Entrez nucleotide
Bases de dados de nucleotídeos A base de dados de nucleotídeos é subdividida em diversas bancos dependendo da origem da seqüência (DNA, RNA) e da metodologia utilizada na obtenção desta seqüência Estes bancos podem ser pesquisados em conjunto através da primeira pagina de busca do ENTREZ nucleotide ou separadamente
Bases de dados de nucleotídeos GenBank Seqüências de cdna ou DNA anotadas e divididas em bancos relacionados com a taxonomia (invertebrados (INV),primatas (PRI),roedores (ROD), etc..) Alem disso existem bancos a parte que refletem certas estratégias de seqüenciamento
Bases de dados de nucleotídeos Bancos a parte do GenBank: EST (Expressed Sequence Tag)- Resultante de seqüenciamento em larga escala de mrna. Seqüências são single pass, podendo ter baixa qualidade e só representam parte da molécula. STS (Sequence-Tagged Sites) Seqüências únicas em um genoma, utilizadas no mapeamento físico de cromossomos GSS (Genome Survey sequences)- Seqüência de amostragem do genoma, normalmente single pass,. Mais da metade das seqüências são de pontas de BACs (Bacterial Artificial Chromosome)
Bases de dados de nucleotídeos Bancos a parte do GenBank: ENV (environmental sample sequences)amostragem de seqüência de uma amostra ambiental sem que se determine os organismos que estão sendo seqüenciados HTG (High-throughput genomic)- Derivadas se seqüenciamento em larga escala de genoma, mas que ainda não foram finalizadas. HTC (high-throughput cdna)-derivadas de seqüenciamento em larga escala de moléculas completas de mrna,, mas que ainda não foram finalizadas.
Bases de dados de nucleotídeos WGS (Whole Genome Shotgun)- Genomas produzidos utilizando a estratégia de WGS TPA (Thrid party anotation)- Re-anotação de seqüências por grupos que não produziram o dado original (é necessário uma publicação relacionada) RefSeq (Reference sequences)- Banco inclusivo, não redundante de seqüências anotadas (DNA, proteína e mrna).
Resultado busca nucleotídeos Seqüências derivadas de mrna Seqüências do tipo single-pass Seqüências de referencia
Exemplo de um registro Detalhes do registro Numero de acesso Organismo Publicação
Exemplo de um registro Atributo da seqüência Descrição de trecho codificante para uma proteína
Seqüência em formato FASTA Formato mais utilizado para reconhecimento de seqüências por programa de bioinformática Primeira linha possui um sinal > seguido pela descrição da seqüência Linhas seguinte contem a seqüência Alguns programas aceitam formato multi-fasta
Bases de dados de proteínas Ao contrario do DNA, proteínas não são facilmente seqüenciáveis Praticamente não existem depósitos em bancos de dados de seqüenciamento direto destas moléculas Entretanto devido ao fato de poder se deduzir facilmente seqüências protéicas a partir da informação do mrna existem diversos bancos de seqüências protéicas deduzidas.
Resultado busca proteína Seqüências que possuem seqüências similares com estrutura tridimensional resolvida Seqüências de referencia
Exemplo de um registro Link para seqüência de nucleotídeo a partir da qual este proteína foi deduzida
Buscando entender a função de uma proteína através dos dados disponíveis Exemplo de um deposito Qual será a função desta proteína?
Buscando entender a função de uma proteína através dos dados disponíveis Depósitos de alguns bancos (Swiss-prot por exemplo) já possuem no deposito uma descrição da função da proteína
Buscando entender a função de uma proteína através dos dados disponíveis Muitos depósitos apontam para referencias que realizaram estudos com a proteína em questão
Buscando entender a função de uma proteína através dos dados disponíveis É possível obter informações sobre a proteína depositada em outros bancos do NCBI, no exemplo é mostrado o OMIM que é um catalogo de genes humanos e desordens geneticas
Busca por organismo no taxonomy browser Depósitos nos diferentes bancos de dados de informações relacionadas a este organismo