Montagem de Genomas e Metagenomas
Outline Revendo Conceitos; Princípios da montagem de genomas; Termos técnicos (N50 e etc); Como aferir a qualidade de uma montagem; Como funciona o processo computacional; Programas montadores: Velvet, Metaplatanus e MaSuRCa SuperReads (DICAS!)
Conceitos da Genômica O que é um genoma? O conjunto de DNA que compõe um determinado (micro) organismo - Cromossomos; Organelas: Mitocôndria e Cloroplasto; Plasmídeos; Vírus (alguns são de RNA e não de DNA); Bacteriófagos (fagos) Essencialmente um conjunto de strings - Usando as 4 letras do alfabeto de DNA (A,G,C,T)
Conceitos da Genômica Genomas procariontes Genoma: um cromossomo e plasmídeos; Genoma compacto: poucos genes; Íntrons são raros;
Tamanhos dos Genomas (procariotos) http://www.sci.sdsu.edu/~smaloy/microbialgenetics/topics/chroms-genes-prots/genomes.html
Tamanhos dos Genomas e Número de Genes (procariotos e vírus) Há uma relação entre tamanho do genoma e número de genes
Conceitos da Genômica Genomas Eucariontes Genoma: em várias moléculas (cromossomos, cloroplasto e mitocôndria); Tamanho variável e não se relaciona com número de genes; Muitas sequencias repetitivas; Muitos Íntrons (trans-splicing - em organelas);
E o que foi feito até agora? http://www.genomesonline.org/cgi-bin/gold/index.cgi?page_requested=statistics
E o que foi feito até agora? Motivações http://www.genomesonline.org/cgi-bin/gold/index.cgi?page_requested=statistics
E o que foi feito até agora? Bactérias na base de dados RefSeq Tatusova et al., 2013
Montagem de Genomas Conceitos
Cópias do genoma Sequenciamento Processamento dos dados Leituras ou Montagem reads" Aula de hoje Como montar?
Objetivos Reconstruir a sequência do genoma, a partir de abordagens computacionais Como? Quais os problemas que podem ocorrer? Como solucioná-los?
Montagem de Genoma em uma figura Ideal Leituras não ambíguas e em erros Mundo Real Leituras ambíguas e pequenas e com com problemas de qualidade ou erros
Reads: Single-end
Reads: Single-end
Reads: paired-end
Reads: mate-pair
Reads: sobreposições -> Montagem
Contigs
Scaffolds
O objetivo (princípio) O inverso do picador de papel... Genoma Reconstituído ou montado Montagem Reads (leituras)
Montadores
Reads curtos Shotgun/frag mentação Sequenciadores Leituras curtas (~500bp - fragmento) montagem - Qual o melhor algoritmo? - Quais as melhores abordagens de sequenciamento? - Depois de montado o genoma, como poderemos inferir se a montagem reflete realmente a biologia? Dentre outros problemas: regiões repetidas (duplicações, tandens), variação de GC%, poliploidia e limitações técnicas das tecnologias. Bioinformática Você! Um dos mais complexos procedimentos computacionais na biologia.
Reads Longos Sequenciadores Leituras curtas (~500bp) Sequenciadores Leituras longas (~15.000bp) montagem A promessa de um processo menos custoso Em um futuro (presente?) não muito distante... Bioinformática Você!
Reads: Formato FASTQ (o papel picado)
Reads: Formato FASTQ (o papel picado)
Como avaliar a qualidade do sequenciamento (reads)? Progama FastQC FastQC - http://www.bioinformatics.babraham.ac.uk/projects/fastqc/
Trimagem (arrumando os reads) Trimagem de qualidade: - Baseado nos scores de qualidade; Trimagem de ambiguidade: - Remover NNs; Remoção de adaptadores e/ou contaminantes; Remoção de bases: - Remove um número específicos de bases na posição 5 ou 3 ; Trimagem por tamanho - Remove reads um tamanho específico (por exemplo, menores que 50 pb)
Programas para Trimagem Seqyclean (https://github.com/ibest/seqyclean); prinseqlite.pl (http://prinseq.sourceforge.net) ; platanus_trim (http://platanus.bio.titech.ac.jp); FASTX ToolKit (http://hannonlab.cshl.edu/fastx_toolkit/) Outros...
http://prinseq.sourceforge.net
Abordagem de Montagem de Genomas/Metagenomas (1) De novo (2) Montagem usando uma referência (3) Metagenomas
Montando um genoma (a analogia do ferro velho)... Pavel A. Pevzner - Computational Molecular Biology: An Algorithmic Approach
Montando um genoma (a analogia do ferro velho)... Filtragem - Remoção de baixa qualidade; -Contaminantes. Pavel A. Pevzner - Computational Molecular Biology: An Algorithmic Approach
Montando um genoma (a analogia do ferro velho) O resultado da montagem esperado Pavel A. Pevzner - Computational Molecular Biology: An Algorithmic Approach
Montando um genoma (a analogia do ferro velho) O resultado da montagem inesperado!? Pavel A. Pevzner - Computational Molecular Biology: An Algorithmic Approach
Montando um genoma (a analogia do ferro velho) Abordagem comparativa Procurando um Genoma de Referência Pavel A. Pevzner - Computational Molecular Biology: An Algorithmic Approach
Montando um genoma (a analogia do ferro velho) Abordagem comparativa Genoma de Referência Pavel A. Pevzner - Computational Molecular Biology: An Algorithmic Approach
Montando um genoma (a analogia do ferro velho) Abordagem comparativa Genoma Referência Pavel A. Pevzner - Computational Molecular Biology: An Algorithmic Approach
Montando um genoma (a analogia do ferro velho) Os problemas de usar um Genoma Referência Referências Disponíveis Nem sempre existe um genoma referência próximo e parecido ao seu. E muitas vezes não fazemos idéia destas diferenças. Essas diferenças vão influenciar na montagem por referência! Pavel A. Pevzner - Computational Molecular Biology: An Algorithmic Approach
Montando um genoma (a analogia do ferro velho) Os problemas de usar um Genoma Referência? referência Pavel A. Pevzner - Computational Molecular Biology: An Algorithmic Approach
Montando um Metagenoma (a analogia do ferro velho) Metagenoma? Pavel A. Pevzner - Computational Molecular Biology: An Algorithmic Approach
Montando um genoma (a analogia do ferro velho) Em resumo, alguns princípios: 1) Quanto menores forem as peças (reads curtos/pequenos) mais complicado será o processo; 2) Peças maiores facilitam o processo de montagem; 3) Utilizar uma referência pode ajudar o processo. Tem que ser muito parecida (colinearidade, conteúdo gênico, repetições e etc); 4) Um genoma de referência distante vai certamente induzir a montagens erradas; 5) Montar Metagenomas nunca é um processo trivial (mescla de genes e genomas parecidos).
Termos Técnicos em Montagem Read: Fragmento sequenciado, produto do laboratório e do sequenciador. É um arquivo texto, geralmente no formato FASTQ; Contig/Consenso: Sequência contigua, formada pela sobreposição de um conjunto de reads (alinhamento semi-global programa de computador para montagem) ; Singlet: Read que não apresenta nenhuma sobreposição. No resultado final da montagem está sozinho e solto nos arquivos gerados. Pode representar uma região do genoma com baixa cobertura; Gap: Região do genoma que ainda não foi sequenciada; Cobertura: Quantidade de bases sequenciadas dividido pelo tamanho do genoma. De 8X a 10X para Sanger. 15X para 454 e mais de
Termos Técnicos em Montagem Genoma Draft: Em geral é feito o sequenciamento e montagem, porém não são resolvidos os gaps, repetições, duplicações. Portanto o resultado final geralmente é um arquivo FASTA com centenas ou milhares de contigs representando o genoma bruto. Nada de cromossomos, replicons e plasmídeos separados, esta tudo junto e misturado e as regiões repetidas geralmente estão colapsadas em únicos contigs; Genoma Fechado: Cromosssomos, replicons, plasmídeos já estão montados em 1 contig para cada, porém ainda pode existir pequenos gaps, regiões repetidas ou não 100% resolvidas e regiões de baixa cobertura. A próxima etapa é a finalização (finishing); Genoma Completo e Finalizado: Cromosssomos, replicons, plasmídeos montados em 1 contig para cada, sem gaps, com alta cobertura e qualidade.
Fatores Técnicos a serem considerados na escolha do organismo/micro-organismo Total de bases: Quanto maior o genoma a ser sequenciado provavelmente (99,99%) mais difícil será o processo de montagem; Número de cromossomos: Quantos mais cópias dos cromossomos mais complicado fica o processo. Fase dicariótioca (fungos); Projeto procariotos: cultura axénica (pura); Projeto eucariotos: Genoma haplóide se possível; Experimentos de bancada que podem ajudar a resolver estas questões: PFGE e ensaios de restrição; Conhecer o número de genes (esperado): Auxilia no processo de montagem e a estimar o tamanho do genoma.? METAGENOMAS
Exemplo: Visualização do resultado da montagem (CONSED) e cobertura
Quanto maior a cobertura menor será o número de contigs Lander-Waterman estimation
Resolvendo o problema dos repeats Vínculos entre os reads: Importância
Resolvendo o problema dos repeats Vínculos entre os reads: Importância
Resolvendo o problema dos repeats Vínculos entre os reads: Importância
Resolvendo o problema dos repeats Vínculos entre os reads: Importância
Exemplo: Vínculos entre os reads Ordenação dos contigs -> Scaffold Auxílio na ordenação da montagem e resolução de regiões repetidas -> Gaps Virtuais: Sabe-se o tamanho ao qual ele corresponde (tamanho do inserto); -> Gaps Reais: Não sabe-se nada a respeito (tamanho). Difícil resolução (primer walking ou re-sequenciamento)
Quais os problemas que podem ocorrer? Repetições ou repeats Ocorrem em praticamente todos genomas já sequenciados! -> Podem representar mais de 20% em genomas de bactérias; Quem são: Profagos, transposons e outros EGMs, duplicações e etc. -> Em algumas plantas e vertebrados podem compor a maior parte do genoma. Quem são: retrotransposons e outros EGMs, duplicações (poliploidia), microsatélites.
Repetições ou repeats (A analogia do quebra cabeça)
Repetições ou repeats (A analogia do quebra cabeça)
Repetições ou repeats (A analogia do quebra cabeça)
Visualizando Repetições ou repeats em uma montagem
Erros de montagem causados por repeats
Resolvendo o problema dos repeats Vínculos entre os reads: jumping library
Complexidade dos Genomas Bacterianos depositados no NCBI Classe I: poucas repetições (rrnas) (~5kb) -> 69% Classe II: transposons, duplicações, tandem repeats (~5kb a 7kb) -> 8% Classe III: profagos, grandes duplicações e tandem repeats (> 7kb) -> 23% Koren et al., 2013
Programas para Montagem de Genomas 1 a geração: Phrap, TIGR assembler, CAP3; 2 a geração: Celera Assembler, Arachne, Mira Novos : Velvet, Euler, ABySS, CLCBio, ALLPATHSLG, Newbler, platanus vários, dezenas! Algoritmos: de Bruijn Graph e Overlap/Layout/consensus SuperReads Uma lista com vários programas montadores: http://en.wikipedia.org/wiki/sequence_assembly
Overlap/Layout/consensus Overlap: sobreposição de todos os reads através do alinhamento par-a-par; Layout: ordenação e orientação dos reads de acordo com os overlaps; Consensus: Obedecendo o Layout e através de alinhamentos múltiplos o genoma é montado; Ex.: phrap, CAP3, TIGR assembler (Sanger) Cada programa um resultado diferente
Overlap/Layout/consensus
Termos Técnicos em Montagem Grafos Grafo é uma estrutura G(V,A) onde V é um conjunto não vazio de objetos denominados nós ou vértices e A é um conjunto de pares não ordenados de V, chamado aresta ou arcos. Vértices=reads Arestas=overlap
de Bruijn Graph Os vértices (reads) são sequências de k-1 caracteres (nucleotídeos); As arestas (overlaps) [A] acontecem em pares de vértices (reads) (U,V) quando o sufixo de tamanho k-2 de U é igual ao prefixo de tamanho k-2 de V ;
Termos Técnicos em Montagem -> K-mers Subsequências de tamanho k Em uma sequência de tamanho L há (L-k+1) k-mers Por exemplo: Sequência de tamanho L=7 tem 4 k-mers com k=4
de Bruijn Graph
de Bruijn Graph Valores K-mer tem que ser menores que o tamanho do read; K-mer alto= mais especificidade K-mer baixo= mais sensibilidade Como resolver? VelvetOptimizer.pl -> Você escolhe o melhor índice de montagem (N50, L50, maior contig e etc) e o programa realiza a melhor montagem para você! Spades, platanus, CLC e outros -> Selecionam automaticamente
de Bruijn Graph Problemas (1)
de Bruijn Graph - Problemas (2)
de Bruijn Graph Problemas (3)
de Bruijn Graph Problemas (4)
SuperReads (Masurca) Extend each original read forwards and backwards, base by base, as long as the extension is unique. k-mer count look-up table o An efficient hash table o Determine quickly how many times each k-mer occurs in our reads Given a k-mer found at the end of a read, there are four possible k-mers for the next k-mer. o The strings formed by appending A, C, G or T to the last k-1 bases in the read If only one of the four possible k-mers occurs, we say the read has a unique following k-mer and we append that base to the read.
Como avaliar uma montagem? Avaliação do número e tamanho dos contigs; 1) Tamanho do maior contig; 2) N50/L50: 50% do total de pb esteja contida em contigs/scaffolds. Ex. cálculo N50 em um genoma de 300 Mb 8 Contigs: 3Mb, 3Mb, 15Mb, 24Mb, 39Mb, 45Mb, 54Mb e 117Mb N50 = 54Mb
Como avaliar uma montagem? Recomendações RefSeq http://www.ncbi.nlm.nih.gov/refseq/ Estatísticas Globais de Montagem -> Tamanho total da montagem; -> Tamanho total dos gaps; ->Gaps entre os scaffolds; ->Scaffold L50; ->Número de Contigs; -> Contigs N50. Tatusova et al., 2013
Como avaliar uma montagem? assemblathon_stats.pl http://korflab.ucdavis.edu/datasets/assemblathon/assemblathon2/basic_metrics/assemblathon_stats.pl
Como avaliar uma montagem? assemblathon_stats.pl http://korflab.ucdavis.edu/datasets/assemblathon/assemblathon2/basic_metrics/assemblathon_stats.pl
- Como os repeats são representados nos grafos de Bruijn? - Leituras 50pb, 1.000bp e 5.000pb de Bruijn graphs for E. coli K12 A - K=50 B - K=1.000 C K=5.000 Koren et al., 2013
Programas de Montagem Metaplatanus & MaSuRCa SuperReads
Metaplatanus http://platanus.bio.titech.ac.jp
Metaplatanus http://platanus.bio.titech.ac.jp
Metaplatanus http://platanus.bio.titech.ac.jp
Masurca SuperReads http://www.genome.umd.edu/masurca.html
Leitura Recomendada