Montagem de Genomas e Metagenomas

Documentos relacionados
Montagem de Genomas. Prof. Dr. Alessandro Varani UNESP - FCAV

Sequenciamento de genoma e transcriptomas

Organização Gênica de Eucariotos. Prof. Odir A. Dellagostin

Motantagem de Contigs de sequências de genomas e Transcriptomas. Introdução

Introdução às Tecnologias de Sequeciamento: Sanger e Nova Geração (NGS)

Sequenciamento de genoma e transcriptomas

Metagenômica e sequenciamento de nova geração. Fabrício Campos 25 de junho de 2015

GENOMAS. Prof. Dr. Marcelo Ricardo Vicari

Universidade Estadual de Maringá - UEM

Introdução a Bioinformática Curso de Verão Nivelamento na área de Biológicas

UFPel CDTec PPGB. Plataformas de NGS. Frederico Kremer

RNA-Seq parte II: Análise SEM um genoma de referência

Bioinformática DCC/FCUP

Genes e Genomas Eucariotos

- Sequenciamento de genomas nada mais é que a determinação da ordem linear dos nucleotídeos ou bases nitrogenadas de um genoma.

Universidade Tiradentes Mestrado em Biotecnologia Industrial Biologia Molecular I. Prof. Odir Dellagostin

# phd2fasta -id phd_dir -os e d i t _ d i r / output.fasta -oq edit_dir/ output.fasta.qual

Genes e Genomas Procarióticos

Introdução às Tecnologias de Sequeciamento: Sanger e Nova Geração (NGS)

Estudos das ômicas: Genômica; Transcriptomica; Metagenômica. Aula 7

Perguntas para o roteiro de aula. 1) Descreva as principais características estruturais gerais das moléculas de DNA e

Transcrição e tradução QBQ 102

UNIVERSIDADE FEDERAL DE JUIZ DE FORA DEPARTAMENTO DE PARASITOLOGIA, MICROBIOLOGIA E IMUNOLOGIA

Replicação do DNA. Experimentos de Meselson-Stahl demonstraram a natureza semi-conservativa da replicação

Sequenciamento de Nova Geração (NGS) Msc. Frederico Schmitt Kremer // doutorando PPGB

Bases da análise genômica: estado da arte

Análise de SNPs. MSc. Frederico Schmitt Kremer Doutorando do PPGB (UFPel)

Bioinformática. Licenciaturas em Biologia, Bioquímica, Biotecnologia, Engenharia Biológica. João Varela

Busca em banco de dados

Universidade Federal de Pelotas Programa de Pós-Graduação em Biotecnologia Biologia Molecular. Prof. Odir Dellagostin

Bases de Dados. Freqüentemente usadas em. Bioinformática

Universidade Federal de Pelotas Centro de Biotecnologia Graduação em Biotecnologia REPLICAÇÃO DE DNA

DESVENDANDO O GENOMA HUMANO

BIBLIOTECAS DE DNA E HIBRIDIZAÇÃO. FABIANA SEIXAS

Transcrição e tradução QBQ 204 Aula 4 (biomol)

ORGANIZAÇÃO DO GENOMA HUMANO. Departamento de Genética. Nilce M. Martinez Rossi

4 Velvet 4.1. Estrutura VelvetH VelvetG

Número de genes versus número de proteínas em eucariotos

Tecnologia do DNA recombinante. John Wiley & Sons, Inc.

GENOMAS. Prof. Dr. Marcelo Ricardo Vicari

UNIVERSIDADE FEDERAL DO PARANÁ DIEVAL GUIZELINI. G-FINISHER: Uma nova estratégia para refinar e finalizar montagens de genomas bacterianos

Replicação de DNA. Priscila M. M. de Leon. Universidade Federal de Pelotas CDTec - Graduação em Biotecnologia Disciplina de Biologia Molecular

ADRIANO DONATO COUTO PROPOSTA DE UMA NOVA ABORDAGEM PARA O PROCESSO DE MONTAGEM DE NOVO DE SEQUÊNCIAS DE DNA OBTIDAS DE SEQUENCIADORES DE NOVA GERAÇÃO

Transcritômica. João Carlos Setubal IQ/USP outubro de 2013

Metagenômica. João Carlos Setubal IQ/USP

ESTUDOS DAS ÔMICAS: GENÔMICA VS TRANSCRIPTÔMICA E METAGENÔMICA. Aula 7. Maria Carolina Quecine Departamento de Genética

Transcrição do DNA. Dogma central. O fluxo da informação é unidirecional. Refutação definitiva da herança dos caracteres adquiridos 26/04/2015

Bioinformática Aplicada ao Estudo e Análise de Genes e Genomas. Prof. Dr. Alessandro de M. Varani Dep. de Tecnologia - UNESP, FCAV

Bioinformática para o Citrus EST Project (CitEST)

Prof. João Carlos Setubal

Biologia Molecular e Celular- 2019

Profa. Dra. Viviane Nogaroto

a) Baseando-se nos resultados acima, qual é a sequência mais provável desses 4 genes no cromossomo, a partir do gene A? b) Justifique sua resposta.

Introdução à Bioquímica

DOGMA CENTRAL DA BIOLOGIA MOLECULAR

Estrutura. Seqüenciador. Phred. Ferramentas de Bioinformática: Dos Cromatogramas ao Agrupamento

MARCADORES MOLECULARES

DNA, cromossomos e organização dos genes do genoma

Biologia Molecular Computacional Homologia

Algoritmos Genéticos e o Problema da Montagem de Reads

Bioinformática e Genética Animal. Pâmela A. Alexandre Doutoranda

A matemática e o genoma. Resumo

DNA recombinante. Nilce M. Martinez Rossi Depto de Genética

Profa. Dra. Cecília Dias Flores

Transcrição é a primeira etapa da expressão do gene. Envolve a cópia da sequência de DNA de um gene para produzir uma molécula de RNA

Teoria dos Grafos Aula 3

BANCO DE DADOS BIOLÓGICOS Aula 11

Bases e aplicações. da tecnologia do DNA recombinante

MARCADORES MOLECULARES: DO MELHORAMENTO A CONSERVAÇÃO. Aula 10. Maria Carolina Quecine Departamento de Genética

DNA, Cromossomos e Replicação. Capítulos 5 e 6 (pág ) - Fundamentos da Biologia Celular - Alberts- 2ª edição

BIOLOGIA. Moléculas, células e tecidos. Uma visão geral da célula. Professor: Alex Santos

Organização de Genomas e Estrutura Fina dos Genes

Transcrição:

Montagem de Genomas e Metagenomas

Outline Revendo Conceitos; Princípios da montagem de genomas; Termos técnicos (N50 e etc); Como aferir a qualidade de uma montagem; Como funciona o processo computacional; Programas montadores: Velvet, Metaplatanus e MaSuRCa SuperReads (DICAS!)

Conceitos da Genômica O que é um genoma? O conjunto de DNA que compõe um determinado (micro) organismo - Cromossomos; Organelas: Mitocôndria e Cloroplasto; Plasmídeos; Vírus (alguns são de RNA e não de DNA); Bacteriófagos (fagos) Essencialmente um conjunto de strings - Usando as 4 letras do alfabeto de DNA (A,G,C,T)

Conceitos da Genômica Genomas procariontes Genoma: um cromossomo e plasmídeos; Genoma compacto: poucos genes; Íntrons são raros;

Tamanhos dos Genomas (procariotos) http://www.sci.sdsu.edu/~smaloy/microbialgenetics/topics/chroms-genes-prots/genomes.html

Tamanhos dos Genomas e Número de Genes (procariotos e vírus) Há uma relação entre tamanho do genoma e número de genes

Conceitos da Genômica Genomas Eucariontes Genoma: em várias moléculas (cromossomos, cloroplasto e mitocôndria); Tamanho variável e não se relaciona com número de genes; Muitas sequencias repetitivas; Muitos Íntrons (trans-splicing - em organelas);

E o que foi feito até agora? http://www.genomesonline.org/cgi-bin/gold/index.cgi?page_requested=statistics

E o que foi feito até agora? Motivações http://www.genomesonline.org/cgi-bin/gold/index.cgi?page_requested=statistics

E o que foi feito até agora? Bactérias na base de dados RefSeq Tatusova et al., 2013

Montagem de Genomas Conceitos

Cópias do genoma Sequenciamento Processamento dos dados Leituras ou Montagem reads" Aula de hoje Como montar?

Objetivos Reconstruir a sequência do genoma, a partir de abordagens computacionais Como? Quais os problemas que podem ocorrer? Como solucioná-los?

Montagem de Genoma em uma figura Ideal Leituras não ambíguas e em erros Mundo Real Leituras ambíguas e pequenas e com com problemas de qualidade ou erros

Reads: Single-end

Reads: Single-end

Reads: paired-end

Reads: mate-pair

Reads: sobreposições -> Montagem

Contigs

Scaffolds

O objetivo (princípio) O inverso do picador de papel... Genoma Reconstituído ou montado Montagem Reads (leituras)

Montadores

Reads curtos Shotgun/frag mentação Sequenciadores Leituras curtas (~500bp - fragmento) montagem - Qual o melhor algoritmo? - Quais as melhores abordagens de sequenciamento? - Depois de montado o genoma, como poderemos inferir se a montagem reflete realmente a biologia? Dentre outros problemas: regiões repetidas (duplicações, tandens), variação de GC%, poliploidia e limitações técnicas das tecnologias. Bioinformática Você! Um dos mais complexos procedimentos computacionais na biologia.

Reads Longos Sequenciadores Leituras curtas (~500bp) Sequenciadores Leituras longas (~15.000bp) montagem A promessa de um processo menos custoso Em um futuro (presente?) não muito distante... Bioinformática Você!

Reads: Formato FASTQ (o papel picado)

Reads: Formato FASTQ (o papel picado)

Como avaliar a qualidade do sequenciamento (reads)? Progama FastQC FastQC - http://www.bioinformatics.babraham.ac.uk/projects/fastqc/

Trimagem (arrumando os reads) Trimagem de qualidade: - Baseado nos scores de qualidade; Trimagem de ambiguidade: - Remover NNs; Remoção de adaptadores e/ou contaminantes; Remoção de bases: - Remove um número específicos de bases na posição 5 ou 3 ; Trimagem por tamanho - Remove reads um tamanho específico (por exemplo, menores que 50 pb)

Programas para Trimagem Seqyclean (https://github.com/ibest/seqyclean); prinseqlite.pl (http://prinseq.sourceforge.net) ; platanus_trim (http://platanus.bio.titech.ac.jp); FASTX ToolKit (http://hannonlab.cshl.edu/fastx_toolkit/) Outros...

http://prinseq.sourceforge.net

Abordagem de Montagem de Genomas/Metagenomas (1) De novo (2) Montagem usando uma referência (3) Metagenomas

Montando um genoma (a analogia do ferro velho)... Pavel A. Pevzner - Computational Molecular Biology: An Algorithmic Approach

Montando um genoma (a analogia do ferro velho)... Filtragem - Remoção de baixa qualidade; -Contaminantes. Pavel A. Pevzner - Computational Molecular Biology: An Algorithmic Approach

Montando um genoma (a analogia do ferro velho) O resultado da montagem esperado Pavel A. Pevzner - Computational Molecular Biology: An Algorithmic Approach

Montando um genoma (a analogia do ferro velho) O resultado da montagem inesperado!? Pavel A. Pevzner - Computational Molecular Biology: An Algorithmic Approach

Montando um genoma (a analogia do ferro velho) Abordagem comparativa Procurando um Genoma de Referência Pavel A. Pevzner - Computational Molecular Biology: An Algorithmic Approach

Montando um genoma (a analogia do ferro velho) Abordagem comparativa Genoma de Referência Pavel A. Pevzner - Computational Molecular Biology: An Algorithmic Approach

Montando um genoma (a analogia do ferro velho) Abordagem comparativa Genoma Referência Pavel A. Pevzner - Computational Molecular Biology: An Algorithmic Approach

Montando um genoma (a analogia do ferro velho) Os problemas de usar um Genoma Referência Referências Disponíveis Nem sempre existe um genoma referência próximo e parecido ao seu. E muitas vezes não fazemos idéia destas diferenças. Essas diferenças vão influenciar na montagem por referência! Pavel A. Pevzner - Computational Molecular Biology: An Algorithmic Approach

Montando um genoma (a analogia do ferro velho) Os problemas de usar um Genoma Referência? referência Pavel A. Pevzner - Computational Molecular Biology: An Algorithmic Approach

Montando um Metagenoma (a analogia do ferro velho) Metagenoma? Pavel A. Pevzner - Computational Molecular Biology: An Algorithmic Approach

Montando um genoma (a analogia do ferro velho) Em resumo, alguns princípios: 1) Quanto menores forem as peças (reads curtos/pequenos) mais complicado será o processo; 2) Peças maiores facilitam o processo de montagem; 3) Utilizar uma referência pode ajudar o processo. Tem que ser muito parecida (colinearidade, conteúdo gênico, repetições e etc); 4) Um genoma de referência distante vai certamente induzir a montagens erradas; 5) Montar Metagenomas nunca é um processo trivial (mescla de genes e genomas parecidos).

Termos Técnicos em Montagem Read: Fragmento sequenciado, produto do laboratório e do sequenciador. É um arquivo texto, geralmente no formato FASTQ; Contig/Consenso: Sequência contigua, formada pela sobreposição de um conjunto de reads (alinhamento semi-global programa de computador para montagem) ; Singlet: Read que não apresenta nenhuma sobreposição. No resultado final da montagem está sozinho e solto nos arquivos gerados. Pode representar uma região do genoma com baixa cobertura; Gap: Região do genoma que ainda não foi sequenciada; Cobertura: Quantidade de bases sequenciadas dividido pelo tamanho do genoma. De 8X a 10X para Sanger. 15X para 454 e mais de

Termos Técnicos em Montagem Genoma Draft: Em geral é feito o sequenciamento e montagem, porém não são resolvidos os gaps, repetições, duplicações. Portanto o resultado final geralmente é um arquivo FASTA com centenas ou milhares de contigs representando o genoma bruto. Nada de cromossomos, replicons e plasmídeos separados, esta tudo junto e misturado e as regiões repetidas geralmente estão colapsadas em únicos contigs; Genoma Fechado: Cromosssomos, replicons, plasmídeos já estão montados em 1 contig para cada, porém ainda pode existir pequenos gaps, regiões repetidas ou não 100% resolvidas e regiões de baixa cobertura. A próxima etapa é a finalização (finishing); Genoma Completo e Finalizado: Cromosssomos, replicons, plasmídeos montados em 1 contig para cada, sem gaps, com alta cobertura e qualidade.

Fatores Técnicos a serem considerados na escolha do organismo/micro-organismo Total de bases: Quanto maior o genoma a ser sequenciado provavelmente (99,99%) mais difícil será o processo de montagem; Número de cromossomos: Quantos mais cópias dos cromossomos mais complicado fica o processo. Fase dicariótioca (fungos); Projeto procariotos: cultura axénica (pura); Projeto eucariotos: Genoma haplóide se possível; Experimentos de bancada que podem ajudar a resolver estas questões: PFGE e ensaios de restrição; Conhecer o número de genes (esperado): Auxilia no processo de montagem e a estimar o tamanho do genoma.? METAGENOMAS

Exemplo: Visualização do resultado da montagem (CONSED) e cobertura

Quanto maior a cobertura menor será o número de contigs Lander-Waterman estimation

Resolvendo o problema dos repeats Vínculos entre os reads: Importância

Resolvendo o problema dos repeats Vínculos entre os reads: Importância

Resolvendo o problema dos repeats Vínculos entre os reads: Importância

Resolvendo o problema dos repeats Vínculos entre os reads: Importância

Exemplo: Vínculos entre os reads Ordenação dos contigs -> Scaffold Auxílio na ordenação da montagem e resolução de regiões repetidas -> Gaps Virtuais: Sabe-se o tamanho ao qual ele corresponde (tamanho do inserto); -> Gaps Reais: Não sabe-se nada a respeito (tamanho). Difícil resolução (primer walking ou re-sequenciamento)

Quais os problemas que podem ocorrer? Repetições ou repeats Ocorrem em praticamente todos genomas já sequenciados! -> Podem representar mais de 20% em genomas de bactérias; Quem são: Profagos, transposons e outros EGMs, duplicações e etc. -> Em algumas plantas e vertebrados podem compor a maior parte do genoma. Quem são: retrotransposons e outros EGMs, duplicações (poliploidia), microsatélites.

Repetições ou repeats (A analogia do quebra cabeça)

Repetições ou repeats (A analogia do quebra cabeça)

Repetições ou repeats (A analogia do quebra cabeça)

Visualizando Repetições ou repeats em uma montagem

Erros de montagem causados por repeats

Resolvendo o problema dos repeats Vínculos entre os reads: jumping library

Complexidade dos Genomas Bacterianos depositados no NCBI Classe I: poucas repetições (rrnas) (~5kb) -> 69% Classe II: transposons, duplicações, tandem repeats (~5kb a 7kb) -> 8% Classe III: profagos, grandes duplicações e tandem repeats (> 7kb) -> 23% Koren et al., 2013

Programas para Montagem de Genomas 1 a geração: Phrap, TIGR assembler, CAP3; 2 a geração: Celera Assembler, Arachne, Mira Novos : Velvet, Euler, ABySS, CLCBio, ALLPATHSLG, Newbler, platanus vários, dezenas! Algoritmos: de Bruijn Graph e Overlap/Layout/consensus SuperReads Uma lista com vários programas montadores: http://en.wikipedia.org/wiki/sequence_assembly

Overlap/Layout/consensus Overlap: sobreposição de todos os reads através do alinhamento par-a-par; Layout: ordenação e orientação dos reads de acordo com os overlaps; Consensus: Obedecendo o Layout e através de alinhamentos múltiplos o genoma é montado; Ex.: phrap, CAP3, TIGR assembler (Sanger) Cada programa um resultado diferente

Overlap/Layout/consensus

Termos Técnicos em Montagem Grafos Grafo é uma estrutura G(V,A) onde V é um conjunto não vazio de objetos denominados nós ou vértices e A é um conjunto de pares não ordenados de V, chamado aresta ou arcos. Vértices=reads Arestas=overlap

de Bruijn Graph Os vértices (reads) são sequências de k-1 caracteres (nucleotídeos); As arestas (overlaps) [A] acontecem em pares de vértices (reads) (U,V) quando o sufixo de tamanho k-2 de U é igual ao prefixo de tamanho k-2 de V ;

Termos Técnicos em Montagem -> K-mers Subsequências de tamanho k Em uma sequência de tamanho L há (L-k+1) k-mers Por exemplo: Sequência de tamanho L=7 tem 4 k-mers com k=4

de Bruijn Graph

de Bruijn Graph Valores K-mer tem que ser menores que o tamanho do read; K-mer alto= mais especificidade K-mer baixo= mais sensibilidade Como resolver? VelvetOptimizer.pl -> Você escolhe o melhor índice de montagem (N50, L50, maior contig e etc) e o programa realiza a melhor montagem para você! Spades, platanus, CLC e outros -> Selecionam automaticamente

de Bruijn Graph Problemas (1)

de Bruijn Graph - Problemas (2)

de Bruijn Graph Problemas (3)

de Bruijn Graph Problemas (4)

SuperReads (Masurca) Extend each original read forwards and backwards, base by base, as long as the extension is unique. k-mer count look-up table o An efficient hash table o Determine quickly how many times each k-mer occurs in our reads Given a k-mer found at the end of a read, there are four possible k-mers for the next k-mer. o The strings formed by appending A, C, G or T to the last k-1 bases in the read If only one of the four possible k-mers occurs, we say the read has a unique following k-mer and we append that base to the read.

Como avaliar uma montagem? Avaliação do número e tamanho dos contigs; 1) Tamanho do maior contig; 2) N50/L50: 50% do total de pb esteja contida em contigs/scaffolds. Ex. cálculo N50 em um genoma de 300 Mb 8 Contigs: 3Mb, 3Mb, 15Mb, 24Mb, 39Mb, 45Mb, 54Mb e 117Mb N50 = 54Mb

Como avaliar uma montagem? Recomendações RefSeq http://www.ncbi.nlm.nih.gov/refseq/ Estatísticas Globais de Montagem -> Tamanho total da montagem; -> Tamanho total dos gaps; ->Gaps entre os scaffolds; ->Scaffold L50; ->Número de Contigs; -> Contigs N50. Tatusova et al., 2013

Como avaliar uma montagem? assemblathon_stats.pl http://korflab.ucdavis.edu/datasets/assemblathon/assemblathon2/basic_metrics/assemblathon_stats.pl

Como avaliar uma montagem? assemblathon_stats.pl http://korflab.ucdavis.edu/datasets/assemblathon/assemblathon2/basic_metrics/assemblathon_stats.pl

- Como os repeats são representados nos grafos de Bruijn? - Leituras 50pb, 1.000bp e 5.000pb de Bruijn graphs for E. coli K12 A - K=50 B - K=1.000 C K=5.000 Koren et al., 2013

Programas de Montagem Metaplatanus & MaSuRCa SuperReads

Metaplatanus http://platanus.bio.titech.ac.jp

Metaplatanus http://platanus.bio.titech.ac.jp

Metaplatanus http://platanus.bio.titech.ac.jp

Masurca SuperReads http://www.genome.umd.edu/masurca.html

Leitura Recomendada