Motantagem de Contigs de sequências de genomas e Transcriptomas Introdução As novas tecnologias de sequenciamento conseguem produzir uma quantidade de dados muito grande com custos baixos. A velocidade e quantidade de informação gerada por essas novas tecnologias de sequenciamento estão revolucionando a investigação biológica e permitindo o acesso a genomas de diferentes espécies e sequenciamentos de diferentes linhagens. O NGS permite o resequenciamentos de genomas inteiros aumentando confiança dos dados. Os genomas de organismos modelo Drosophila melanogasters e Caenorhabditis elegans, e também o genoma de cânceres humanos já estão sendo produzidos usando NGS. Os fragmentos (reads) gerados por esses sequenciadores de próxima geração (Next generation DNA sequencing - NGS) são fragmentos curtos (short read sequence - SRS) comparados com os fragmentos produzido pela tecnologia Sanger. O tamanho dos fragmentos produzidos pelos NGS representa um desafio para a bioinformática na montagem de genomas. Os SRS apresentam problemas na distinção entre regiões repetitivas, formando fragmentos genômicos. O método aplicado para análises de SRS devem ser robustos para lidar com uma grande quantidade de sequencias. Analisando a Qualidade do sequenciamento Devemos observar a qualidade do sequenciamento para evitar erros de montagem e erros de alinhamento. Aumentando a acurácia do genoma e dos SNPs encontradas. Podemos usar o software Quality Assessment (HTTP://qualevaluato.sourceforge.net). Esse programa avalia a frequência do tamanho dos fragmentos, informação útil para sequenciadores que apresentam aproximadamente o mesmo tamanho para os fragmentos gerados. O programa também avalia a qualidade dos fragmentos baseados no valore de qualidade PHRED. Ressequenciamento O resesequeciamento de genomas já finalizados era usado para análises de genes específicos ou regiões de interesse, aumentando a confiança dos resultados e permitindo a identificação de SNPs no genoma de outros indivíduos. O NGS permite agora o ressequenciamento de genomas inteiros, devido a produção de grande quantidade de dados. A aplicação do ressquenciamento genômico depende dos SRS serem longos o suficiente para aplicação do mapeamento no genoma referência. O mapeamento durante o sequenciamento deve ser capaz de lidar com polimorfismos e erros durante o sequenciamento. O mapeamento genômico dos SRS pode ser realizado usando o programa BLAST ou BLAT. Entretanto existem outros
programas desenvolvidos especificamente para lidar com mapeamento de SRS como Illumina s Eland short-read aligner e o prgrama PET-tool. Montagem referência. A montagem de genomas baseados em referência utiliza de um genoma já montado como base para construção do novo genoma. Deve se utilizar o genoma de um organismo relacionado filogenéticamente para usar como referência Objetivos 1. Montar genoma hipotético usando técnicas de bioinformática e avaliar o tamanho dos contigs 2. Comparar os resultados da montagem de um genoma hipotetico usando diferentes coberturas do sequenciamento Métodos Usaremos o programa phrap para fazer a montagem dos contigs nas diferntes condições. Montagem de contigs DNA Genoma O arquivo usado para montagem de um genoma ou região de um genoma contem muitas sequecias curtas chamadas reads. Os reads sao o resultado da reação de sequenciamento e posteriomente leitura das bases que estao na sequencia. Primeiro vamos observar quantas sequências (reads) existem no arquivo. Vamos usar o comando grep novamente para fazer a busca por um padrao. Como o formato fasta sempre começa com o sinal >, podemos usar esse sinal para recuperar todas as linhas que apresentam esse sinal. Posteriormente iremos contar quantas linhas foram recuperadas e saberemos quantas vezes ele aparece dentro de um arquivo. Logo saberemos quantas sequências existem. Entre no seu diretório $cd seunome
Copiar os arquivos que vamos trabalhar nessa aula $cp../reads.fasta. $cp../genome.zip. Verificando o numero de reads $grep ">" reads.fasta wc Agora usaremos o arquivo reads.fasta para fazer a montagem de uma região de um genoma. A montagem de contigs sera realizada com o programa CAP3. Artigo publicado faz um comparativo do programa CAP3 e Phrap (usado na montagem do genoma humano). Linha de comando para rodar o CAP3 $cap3 reads.fasta Esse comando ira criar uma serie de arquivos. Os mais importantes são: reads.cap.singlets reads que não foram usados na montagem de contigs por não apresentarem sobreposição. reads.cap.contigs.qual apresenta a quaidade de cada base na seqüência do contig. Para isso e necessário usar na montagem do contig arquivo contendo a informacao da qualidade das bases nos reads. reads.cap.contigs arquivo contendo os contigs que foram montados Tarefas O programa CAP3 foi rodado com os parametros padrões, mas isso não significa que sao os melhores paramentros. Vamos agora rodar com paramentros mais restritivos para montagem de contigs. Vamos usar os seguintes paramentros. Paramentro bem relaxados. $cap3 reads.fasta -i 30 -j 31 -o 16 -s 251
Tarefas Vamos usar os seguintes paramentros. Paramentro bem restritivos.../cap3 reads.fasta -i 50 -j 51 -o 60 -s 300 Tarefas Agora vamos trabalhar com uma maior quantidade de reads. Todos os dados trabalhados nessa atividade abaixo sao reads simulados de uma mesma região de um genoma. A diferença entre arquivos e a cobertura de sequenciamento. Cobertura de sequenciamento é uma media de quantas vezes cada base foi sequenciada. Figura 1. Montagem de uma região de um genoma. Algumas regiões foram sequenciadas varias vezes (alta cobertura, região em verde), outra regiões foram sequenciadas poucas vezes (baixa cobertura, região em vermelho). Descompactar o arquivo genome.zip $unzip genome.zip Você deve fazer as seguintes tarefas.
Montar os contigs para os arquivos com sequenciamento em diferentes coberturas. Para cada tipo de cobertura você ira montar contigs e singlets e fazer um comparativo. Quantas seqüências existem no arquivo? Faca a montagem do genoma.