Anotação de Genomas Fabiana G. S. Pinto
Obtenção de Seqüências geradas pelo MegaBace 1000 Dados brutos (medidas analógicas) de saída do seqüênciamento Base calling BIOINFORMÁTICA * PHRED: - Transforma os dados brutos em seqüências de bases, atribuí valores de qualidade a cada base na seqüência e gera arquivos de saída FASTA e PHD * PHRAP: - Leitura Montagem dos pequenos fragmentos de DNA seqüenciados em seqüências maiores: CONTIG * CONSED: - Visualização e edição das montagens das seqüências de alta qualidade
Valores de qualidade gerados pelo PHRED Quando arquivos de seqüências de DNA são analisados pelo phred a cada base é assinada um valor de qualidade, o qual é uma estimativa da probabilidade de erro para essa base. Bases com um valor de qualidade de 20 são consideradas com um alto valor de qualidade. q = -10 log 10 (pe) onde pe= erro estimado q20 = 1/100 probabilidade de erro q30= 1/1000 probabilidade de erro q40= 1/10000 probabilidade de erro
Regiões genômicas que podem ser melhoradas re-seqüênciamento.
Análise e Montagem das Seqüências Seqüências shotgun analisadas Phred, Phrap e Consed Resultado Seqüências ordenadas com consenso formam um CONTIG
Anotação de Genomas Fabiana G. S. Pinto ANOTAÇÃO DE NUCLEOTÍDEOS ANOTAÇÃO DE PROTEÍNAS ANOTAÇÃO DE PROCESSOS Onde estão os genes? Quais são os genes? Cómo os genes interagem? GLIMMER - GENEMARK Predições de ORF Open Reading Frame 6 frames
Gerar todas as possíveis ORFs (open reading frames) nos seis sentidos e sobrepostas CONTIG GERADO APÓS ANOTAÇÃO PELO GLIMMER OU GENEMARK...
CONTIG APÓS A ANOTAÇÃO MANUAL... O anotador decide qual ORF tem que eliminar ou validar. Requere-se de conhecimento e de muito critério.
Análise de Seqüências: Bioinformática Fabiana G. S. Pinto
CONTIG APÓS A ANOTAÇÃO MANUAL... O anotador decide qual ORF tem que eliminar ou validar. Requere-se de conhecimento e de muito critério.
Banco de Dados Biológicos Fabiana G. S. Pinto Banco de Dados (DataBase) Banco de Dados Públicos Bancos Primários INSDC International Nucleotide Sequence Database Colaboration Bancos Secundários Bancos Funcionais Sistema de Gerenciamento de Banco de Dados - SGBD Bancos primários Bancos secundários GenBank EBI - European Bioinformatics Institute DDBJ DNA DataBase of Japan PDB - Protein Data Bank PIR Protein Information Resource SIWSS-PROT. InterPro. COG Orthologous KEGG Kyoto Encyclopedia of Genes and Genomes Atualizações em Nucleic Acids Research http:// www3.oup.co.uk/nar/database/
Procurar pelo gene polc (dnae, DNA Polimerase III)
Procurar pelo gene polc (dnae,dna Polimerase III)
Entrez: procurar pelo gene polc (dnae) AND E coli
Entrez: procurar pelo gene polc (dnae) AND E coli
Resgatar seqüências de genes em formato FASTA
Resgatar seqüências de genes em formato FASTA Seqüência FASTA em nucleotídeos Seqüência FASTA do produto gênico em aminoácidos Coordenadas do gene no contexto do genoma total
seqüência FASTA do gene dnae Fabiana G. S. Pinto Começa com codon de iniciação, no caso ATG (metionina) e continua sem espaços até um codon de finalização Começa com símbolo maior e descrição do gene e do organismo sem espaços
Informação adicional do gene dnae, Polimerase III subunidade alfa Link para referencias bibliográficas no PubMed Processo celular envolvido e localização do produto gênico
Informação adicional do gene dnae, Polimerase III subunidade alfa EcoCyc. Informação do site de enciclopédia e genes de E coli http://ecocyc.org/ Classificação de COG. Genes Ortólogos Classificação EC number. Número de Enzima
CONCEITOS PARA LEMBRAR HOMÓLOGOS Fabiana G. S. Pinto ORTÓLOGOS PARÁLOGOS ORTÓLOGOS E. coli S.meliloti R. tropici R. tropici S.meliloti E coli Gene dnae Alpha subunit Gene dnae Delta subunit Duplicação gênica Gene DNA Polimerase III inicial
Classificação de Gene Ortólogo para dnae COG0587 Relação Filogenética para COG0587 entre 50 espécies
Link para Procurar números de enzimas http://www.genome.jp/dbget-bin/get_htext?ectable
EC para Polimerase III : 2.7.7.7 Fabiana G. S. Pinto
EC para Polimerase III : 2.7.7.7 Fabiana G. S. Pinto
EC para Polimerase III: 2.7.7.7 Fabiana G. S. Pinto
Alinhamento das Seqüências Fabiana G. S. Pinto Finalidade: procurar determinar o grau de similaridade entre duas ou mais seqüências. Alinhamento entre mais de uma seqüência é Múltiplo. Programas on-line: ClustalW, Multialin, FASTA, BLAST... Qualidade: soma dos pontos obtidos por cada unidade (match) menos a penalidades pela introdução dos gaps (mismatch) Alinhamento global ou Local Global: ClustalW-X Multialin Local: BLAST (Basic Local Alignment Search Tool)
Blast no NCBI: http://www.ncbi.nlm.nih.gov/blast/
Vamos procurar similaridades através do Blastx do gene dnae de E coli (resgatar seq FASTA do entrez gene)
Colar a seqüência FASTA com os dados iniciais. Este é nosso query
Blastar Fabiana G. S. Pinto
Clicar Format para abrir nova janela Fabiana G. S. Pinto
Qualidade do Alinhamento
Score elevado Ver Subject: Salmonella typhymurium E value máximo: 0.0. Fabiana G. S. Pinto Ótimo: a partir de e-60 (e diminuindo para mais negativo) Aceitável: entre e-30 a e-60 E value maiores indicam alinhamento ao acaso: maior a 0.0 até e-10 - e-30 Identidade difere de positivos. Positivo procura analogia do aminoácido na seq da proteína
http://www.ebi.ac.uk/clustalw/ Fabiana G. S. Pinto
http://www.ebi.ac.uk/clustalw/ Fabiana G. S. Pinto
Resgatar seq FASTA em Entrez Genes: RNA Polymerase sigma subunit AND alpha proteobacteria
Copiar quatro seqüências FASTA (1, 6, 10 e 17) e colar em bloco de notas
Selecionar tudo copiar e colar na janela do ClastalW. Run!
O asterisco mostra identidade. Este alinhamento auxilia quando é preciso desenhar primers PCR para amplificar um gene de interesse. Buscamos seqüências do gene em espécies próxima da que estamos estudando
No final mostra uma árvore filogenética Fabiana G. S. Pinto
Banco de proteínas http://us.expasy.org/sprot/sprot-top.html Fabiana G. S. Pinto
Banco Funcional: enciclopédia de genes e genomas http://www.genome.jp/kegg/kegg2.html
Procariotos Polimerase III subunidade alfa Fabiana G. S. Pinto
Genes para 2.7.7.7 seqüenciados em vários organismos Fabiana G. S. Pinto
Gene dnae em E. coli K-12 com muita informação e links! Fabiana G. S. Pinto
Seqüência FASTA em aminoácidos Seqüência FASTA em nucleotídeos
Também podem navegar na lista de genomas seqüenciados http://www.genome.jp/kegg/catalog/org_list.html