Bioinformática para o Citrus EST Project (CitEST) Marcelo da Silva Reis 1 1 Instituto de Matemática e Estatística, Universidade de São Paulo 20 de maio de 2009
Organização da Apresentação Esta apresentação terá a duração de 3 horas Faremos um intervalo de meia hora às 10:00h Das 8:30h - 10:00h será apresentada a estrutura de bioinformática do Citros EST Project (CitEST) Das 10:30h - 12:00h teremos: uma introdução à duas ferramentas de identificação de sequências (BLAST e Pfam) uma visita ao Laboratório de Bioinfo do Centro APTA Citros
Sobre o apresentador trabalhou de 2001 à 2004 no Laboratório de Bioinformática da UNICAMP (projetos genoma de Leptospira, transcriptoma de Gracilaria e outros em 2004-2005 fez pós-graduação em Bioinformática na Universidade de Colônia, na área de Redes Gênicas Regulatórias trabalhou de 2005 à 2007 no Centro APTA Citros, em projetos e sistemas que serão mostrados aqui em breve... :-) desde 2007 é aluno de doutorado do IME-USP, novamente na área de Redes Gênicas Regulatórias
Agenda Apresentação O que é Bioinformática? O papel da Bioinformática no Centro APTA Citros O Portal CitEST Sistema de submissão de sequências Gene Projects Editor de Unigenes Digital Northern Genômica Comparativa BLAST Pfam Referências
Agenda Apresentação O que é Bioinformática? O papel da Bioinformática no Centro APTA Citros O Portal CitEST Sistema de submissão de sequências Gene Projects Editor de Unigenes Digital Northern Genômica Comparativa BLAST Pfam Referências
O que é Bioinformática? Existem diversas definições para o termo Bioinformática ; Para os tópicos aqui apresentados, utilizaremos a seguinte: Bioinformática é a aplicação da Tecnologia da Informação (T.I.) no campo da Biologia Molecular.
Exemplos de aplicações processamento de arquivos produzidos por sequenciadoras extração da sequência de DNA / RNA eliminação de contaminantes produção de Unigenes montagem de genoma (fragmento ou cromossomo completo) análise de sequências armazenamento e organização da informação taxonomia, predição de estrutura de proteínas, etc.
O papel da Bioinformática no Centro APTA Citros auxilia em quase todos os processos exemplificados várias análises (automatizadas) disponíveis via Portal CitEST as demais realizadas através de pipelines específicos
Agenda Apresentação O que é Bioinformática? O papel da Bioinformática no Centro APTA Citros O Portal CitEST Sistema de submissão de sequências Gene Projects Editor de Unigenes Digital Northern Genômica Comparativa BLAST Pfam Referências
O Portal CitEST Página web do Citrus EST Project Também hospeda diversos projetos relacionados, como Phytophthora, Liberibacter, etc. http://biotecnologia.centrodecitricultura.br
Sistema de submissão de sequências Recebe pacotes de cromatogramas do Laboratório de Sequenciamento e: transforma os arquivo binários em fastas (prog. phredphrap) elimina contaminantes (vetores, adaptadores, etc.) armazena tanto os binários quanto os fastas limpos
Sistema de submissão de sequências (2) ao enviar um pacote de binários, o sistema produz um relatório sobre a qualidade dos fastas produzidos pesquisador tem a opção de confirmar ou rejeitar o armazenamento Vamos ao CitEST ver alguns exemplos...
Agora que temos os fastas......vamos analisar as sequências obtidas: para isso vamos fazer uso dos Editores Editores servem ao pesquisador como ferramenta para: data mining, montagem e anotação de uma pequena porção de transcritos data mining e anotação de todos os transcritos de uma determinada espécie
Gene Projects e UniGene Editor Os editores utilizados no Centro APTA Citros são: para pequenas montagens de projetos em andamento: Gene Projects para análise de montagens globais de transcritos de uma determinada espécie: UniGene Editor Agora vamos conhecer um pouco dos dois editores
Gene Projects editor desenvolvido pela equipe de bioinfo do LGE-UNICAMP permite a criação de projetos o pesquisador pode selecionar trascritos, montar, BLASTar e anotar observações Vamos mexer um pouco no Gene Projects!
UniGene Editor editor desenvolvido pela equipe de bioinfo do LBI-UNICAMP banco de dados de UniGenes, contendo análises pré-processadas de BLASTs, Pfam, PSORT, etc. o pesquisador tem o opção de: pesquisar um UniGene (cópia única de um transcrito) analisar as informações pré-processadas anotar observações em um Notepad Vamos dar uma espiada no UniGene Editor!
Ferramenta de Hibridização in silico análise da expressão diferencial entre genes de duas ou mais bibliotecas ferramenta analisa a abundância de transcritos, utilizando um critério estatístico dois módulos: um que produz os dados de saída de forma tabular outro para visualização gráfica, agrupando os transcritos de forma hierárquica
Digital Northern (2) Exemplo de uma figura produzida pelo segundo módulo: Agora vamos verificar as tabelas produzidas no primeiro módulo e brincar um pouco com o segundo...
Coffee Break
Agenda Apresentação O que é Bioinformática? O papel da Bioinformática no Centro APTA Citros O Portal CitEST Sistema de submissão de sequências Gene Projects Editor de Unigenes Digital Northern Genômica Comparativa BLAST Pfam Referências
Genômica Comparativa identificação de uma sequência através da comparação com outras sequências no processo obtemos uma lista de sequências similares, das quais podemos importar a anotação normalmente as sequências com as quais comparamos fazem parte se um banco de dados biológico
BLAST Basic Local Alignment Search Tool compara sequências contra um banco biológico através de alinhamentos locais diversos sabores : blastx, blastn, blastp, etc. disponível tanto via Web quanto por linha de comando
Bancos do BLAST Alguns dos principais bancos utilizados: GenBank maior e mais abrangente, mas menos preciso http://www.ncbi.nlm.nih.gov/genbank SwissProt menor, mas com comprovação proteômica http://www.expasy.ch/sprot
BLAST local x BLAST NCBI segurança de informações (sequências) sigilosas utilizar o BLAST em máquinas públicas (e.g. NCBI) nem sempre é desejável rodar em terminal permite: maior controle sobre as opções da ferramenta incluir a sua execução em pipelines
Utilizando o BLAST Agora vamos rodar o BLAST, tanto a versão Web quanto a por linha de comando.
Pfam Protein Families serve para a identificação utilizando famílias de domínios de proteínas ou seja, a identificação é obtida através de homologia com motivos de domínios de proteínas
Pfam local x Pfam Web mesma questão das sequências sigilosas versão Web do Pfam (e seus bancos) disponível em: http://pfam.sanger.ac.uk rodar em terminal (ferramenta hmmer) permite: maior controle sobre as opções da ferramenta incluir a sua execução em pipelines
Utilizando o Pfam Agora vamos rodar o Pfam, tanto a versão Web quanto a por linha de comando.
Agenda Apresentação O que é Bioinformática? O papel da Bioinformática no Centro APTA Citros O Portal CitEST Sistema de submissão de sequências Gene Projects Editor de Unigenes Digital Northern Genômica Comparativa BLAST Pfam Referências
Referências 1. A.M. Amaral, M.S. Reis e F.R. Silva. O Programa BLAST: guia prático de utilização. EMBRAPA, dezembro de 2007. 2. BLAST: Basic Local Alignment Search Tool. http://blast.ncbi.nlm.nih.gov/blast.cgi. Acesso em 10 de maio de 2009. 3. GenBank. http://www.ncbi.nlm.nih.gov/genbank. Acesso em 11 de maio de 2009. 4. Laboratório de Biotecnologia. http://biotecnologia.centrodecitricultura.br. Acesso em 20 de maio de 2009. 5. M.S. Reis, M.A. Takita, D.A. Palmieri e M.A. Machado. Bioinformatics for the Citrus EST Project (CitEST). Genet.Mol.Biol. 30:3:0, São Paulo 2007. 6. Pfam: Home Page. http://pfam.sanger.ac.uk. Acesso em 7 de maio de 2009.
Perguntas?
Obrigado!