Motantagem de Contigs de sequências de genomas e Transcriptomas. Introdução



Documentos relacionados
Sequenciamento de Nova Geração (NGS) Msc. Frederico Schmitt Kremer // doutorando PPGB

UFPel CDTec PPGB. Plataformas de NGS. Frederico Kremer

Universidade Estadual de Maringá - UEM

Sequenciamento de genoma e transcriptomas

Montagem de Genomas. Prof. Dr. Alessandro Varani UNESP - FCAV

Transcritômica. João Carlos Setubal IQ/USP outubro de 2013

# phd2fasta -id phd_dir -os e d i t _ d i r / output.fasta -oq edit_dir/ output.fasta.qual

Sequenciamento de genoma e transcriptomas

Bioinformática para o Citrus EST Project (CitEST)

Biotecnologia Bioinformática IMS029 ROTEIRO DE AULA PRÁTICA CONSTRUÇÃO DE ÁRVORES FILOGENÉTICA

Introdução às Tecnologias de Sequeciamento: Sanger e Nova Geração (NGS)

Tutorial Introdução a anotação e comparação de genomas Tiago Mendes Doutorando em Bionformática

RNA-Seq parte II: Análise SEM um genoma de referência

Análise de SNPs. MSc. Frederico Schmitt Kremer Doutorando do PPGB (UFPel)

Metagenômica e sequenciamento de nova geração. Fabrício Campos 25 de junho de 2015

Organização Gênica de Eucariotos. Prof. Odir A. Dellagostin

SEQUENCIAMENTO DE DNA

- Sequenciamento de genomas nada mais é que a determinação da ordem linear dos nucleotídeos ou bases nitrogenadas de um genoma.

Introdução às Tecnologias de Sequeciamento: Sanger e Nova Geração (NGS)

Metagenômica. João Carlos Setubal IQ/USP

5.1. Fluxo para geração do Roadmap

UFPel CDTec Biotecnologia. Anotação de genomas. MSc. Frederico schmitt Kremer

Estrutura. Seqüenciador. Phred. Ferramentas de Bioinformática: Dos Cromatogramas ao Agrupamento

Busca em banco de dados

Metagenoma de áreas sob plantio direto e plantio convencional do Cerrado ao Sul do Brasil

Bases da análise genômica: estado da arte

Sequenciamento de DNA

O Sequenciamento genômico

Genômica. Mapeamento Molecular

Validação e implementação do diagnóstico molecular em cancro coloretal hereditário (CCRH) por sequenciação de nova geração

Bioinformática e Genética Animal. Pâmela A. Alexandre Doutoranda

4 Velvet 4.1. Estrutura VelvetH VelvetG

BANCO DE DADOS BIOLÓGICOS Aula 11

Montagem de Genomas e Metagenomas

IDENTIFICAÇÃO DE SEQUÊNCIAS POR HIBRIDIZAÇÃO E SEQUENCIAMENTO. Aula 5. Maria Carolina Quecine Departamento de Genética

Introdução a Bioinformática

Sequenciamento de DNA e PCR QBQ 102 Aula 6 (biomol)

Prof. Dr. Rodrigo Matheus Pereira. Faculdade de Ciências Biológicas e Ambentais FCBA-UFGD

Prof. João Carlos Setubal

Estudo Dirigido Sequenciamento de DNA

Métodos de alinhamento de sequências biológicas. Marcelo Falsarella Carazzolle

A matemática e o genoma. Resumo

Introdução a Bioinformática Curso de Verão Nivelamento na área de Biológicas

Alinhamento de sequências

Seqüenciamento de DNA

MARCADORES MOLECULARES

Bioinformática. Licenciaturas em Biologia, Bioquímica, Biotecnologia, Engenharia Biológica. João Varela

LGN215 - Genética Geral

Bioinformática Aplicada ao Estudo e Análise de Genes e Genomas. Prof. Dr. Alessandro de M. Varani Dep. de Tecnologia - UNESP, FCAV

FILOGENIA. Leva em consideração as relações de ancestralidade comum entre grupos de espécies, representando uma hipótese das relações evolutivas

O Sequenciamento de DNA

MARCADORES MOLECULARES: DO MELHORAMENTO A CONSERVAÇÃO. Aula 10. Maria Carolina Quecine Departamento de Genética

Tutorial para Phred/Phrap/Consed Tutorial

Sequenciamento de DNA e PCR 2018 s1

Sessão 1: Os Princípios e as Técnicas da Biologia Molecular do Séc XXI

5- O software: criar o script não será nada mais nada menos que traduzir para uma linguagem compreensível pela máquina, a solução manual encontrada.

Introdução a Bioinformática

Estudos das ômicas: Genômica; Transcriptomica; Metagenômica. Aula 7

Sequenciamento do DNA e suas aplicações

DNA recombinante. Nilce M. Martinez Rossi Depto de Genética

DESVENDANDO O GENOMA HUMANO

Bioinformática aplicada ao estudo e análise de Genes e Genomas Aula Teórico e Prá/ca

O que é Bioinformática?

Transcrição:

Motantagem de Contigs de sequências de genomas e Transcriptomas Introdução As novas tecnologias de sequenciamento conseguem produzir uma quantidade de dados muito grande com custos baixos. A velocidade e quantidade de informação gerada por essas novas tecnologias de sequenciamento estão revolucionando a investigação biológica e permitindo o acesso a genomas de diferentes espécies e sequenciamentos de diferentes linhagens. O NGS permite o resequenciamentos de genomas inteiros aumentando confiança dos dados. Os genomas de organismos modelo Drosophila melanogasters e Caenorhabditis elegans, e também o genoma de cânceres humanos já estão sendo produzidos usando NGS. Os fragmentos (reads) gerados por esses sequenciadores de próxima geração (Next generation DNA sequencing - NGS) são fragmentos curtos (short read sequence - SRS) comparados com os fragmentos produzido pela tecnologia Sanger. O tamanho dos fragmentos produzidos pelos NGS representa um desafio para a bioinformática na montagem de genomas. Os SRS apresentam problemas na distinção entre regiões repetitivas, formando fragmentos genômicos. O método aplicado para análises de SRS devem ser robustos para lidar com uma grande quantidade de sequencias. Analisando a Qualidade do sequenciamento Devemos observar a qualidade do sequenciamento para evitar erros de montagem e erros de alinhamento. Aumentando a acurácia do genoma e dos SNPs encontradas. Podemos usar o software Quality Assessment (HTTP://qualevaluato.sourceforge.net). Esse programa avalia a frequência do tamanho dos fragmentos, informação útil para sequenciadores que apresentam aproximadamente o mesmo tamanho para os fragmentos gerados. O programa também avalia a qualidade dos fragmentos baseados no valore de qualidade PHRED. Ressequenciamento O resesequeciamento de genomas já finalizados era usado para análises de genes específicos ou regiões de interesse, aumentando a confiança dos resultados e permitindo a identificação de SNPs no genoma de outros indivíduos. O NGS permite agora o ressequenciamento de genomas inteiros, devido a produção de grande quantidade de dados. A aplicação do ressquenciamento genômico depende dos SRS serem longos o suficiente para aplicação do mapeamento no genoma referência. O mapeamento durante o sequenciamento deve ser capaz de lidar com polimorfismos e erros durante o sequenciamento. O mapeamento genômico dos SRS pode ser realizado usando o programa BLAST ou BLAT. Entretanto existem outros

programas desenvolvidos especificamente para lidar com mapeamento de SRS como Illumina s Eland short-read aligner e o prgrama PET-tool. Montagem referência. A montagem de genomas baseados em referência utiliza de um genoma já montado como base para construção do novo genoma. Deve se utilizar o genoma de um organismo relacionado filogenéticamente para usar como referência Objetivos 1. Montar genoma hipotético usando técnicas de bioinformática e avaliar o tamanho dos contigs 2. Comparar os resultados da montagem de um genoma hipotetico usando diferentes coberturas do sequenciamento Métodos Usaremos o programa phrap para fazer a montagem dos contigs nas diferntes condições. Montagem de contigs DNA Genoma O arquivo usado para montagem de um genoma ou região de um genoma contem muitas sequecias curtas chamadas reads. Os reads sao o resultado da reação de sequenciamento e posteriomente leitura das bases que estao na sequencia. Primeiro vamos observar quantas sequências (reads) existem no arquivo. Vamos usar o comando grep novamente para fazer a busca por um padrao. Como o formato fasta sempre começa com o sinal >, podemos usar esse sinal para recuperar todas as linhas que apresentam esse sinal. Posteriormente iremos contar quantas linhas foram recuperadas e saberemos quantas vezes ele aparece dentro de um arquivo. Logo saberemos quantas sequências existem. Entre no seu diretório $cd seunome

Copiar os arquivos que vamos trabalhar nessa aula $cp../reads.fasta. $cp../genome.zip. Verificando o numero de reads $grep ">" reads.fasta wc Agora usaremos o arquivo reads.fasta para fazer a montagem de uma região de um genoma. A montagem de contigs sera realizada com o programa CAP3. Artigo publicado faz um comparativo do programa CAP3 e Phrap (usado na montagem do genoma humano). Linha de comando para rodar o CAP3 $cap3 reads.fasta Esse comando ira criar uma serie de arquivos. Os mais importantes são: reads.cap.singlets reads que não foram usados na montagem de contigs por não apresentarem sobreposição. reads.cap.contigs.qual apresenta a quaidade de cada base na seqüência do contig. Para isso e necessário usar na montagem do contig arquivo contendo a informacao da qualidade das bases nos reads. reads.cap.contigs arquivo contendo os contigs que foram montados Tarefas O programa CAP3 foi rodado com os parametros padrões, mas isso não significa que sao os melhores paramentros. Vamos agora rodar com paramentros mais restritivos para montagem de contigs. Vamos usar os seguintes paramentros. Paramentro bem relaxados. $cap3 reads.fasta -i 30 -j 31 -o 16 -s 251

Tarefas Vamos usar os seguintes paramentros. Paramentro bem restritivos.../cap3 reads.fasta -i 50 -j 51 -o 60 -s 300 Tarefas Agora vamos trabalhar com uma maior quantidade de reads. Todos os dados trabalhados nessa atividade abaixo sao reads simulados de uma mesma região de um genoma. A diferença entre arquivos e a cobertura de sequenciamento. Cobertura de sequenciamento é uma media de quantas vezes cada base foi sequenciada. Figura 1. Montagem de uma região de um genoma. Algumas regiões foram sequenciadas varias vezes (alta cobertura, região em verde), outra regiões foram sequenciadas poucas vezes (baixa cobertura, região em vermelho). Descompactar o arquivo genome.zip $unzip genome.zip Você deve fazer as seguintes tarefas.

Montar os contigs para os arquivos com sequenciamento em diferentes coberturas. Para cada tipo de cobertura você ira montar contigs e singlets e fazer um comparativo. Quantas seqüências existem no arquivo? Faca a montagem do genoma.