RNA-Seq parte II: Análise SEM um genoma de referência

Documentos relacionados
Transcritômica. João Carlos Setubal IQ/USP outubro de 2013

Sequenciamento de genoma e transcriptomas

Sequenciamento de Nova Geração (NGS) Msc. Frederico Schmitt Kremer // doutorando PPGB

Sequenciamento de genoma e transcriptomas

Montagem de Genomas. Prof. Dr. Alessandro Varani UNESP - FCAV

Motantagem de Contigs de sequências de genomas e Transcriptomas. Introdução

Metagenômica e sequenciamento de nova geração. Fabrício Campos 25 de junho de 2015

UFPel CDTec PPGB. Plataformas de NGS. Frederico Kremer

Introdução às Tecnologias de Sequeciamento: Sanger e Nova Geração (NGS)

Montagem de Genomas e Metagenomas

Universidade Estadual de Maringá - UEM

4 Velvet 4.1. Estrutura VelvetH VelvetG

Créditos. Introdução. Sumário. Agradecimento. Introdução. Análise de Expressão Gênica. Tecnologia de Microarray

IDENTIFICAÇÃO DE SEQUÊNCIAS POR HIBRIDIZAÇÃO E SEQUENCIAMENTO. Aula 5. Maria Carolina Quecine Departamento de Genética

Bioinformática para o Citrus EST Project (CitEST)

BIBLIOTECAS DE DNA E HIBRIDIZAÇÃO. FABIANA SEIXAS

# phd2fasta -id phd_dir -os e d i t _ d i r / output.fasta -oq edit_dir/ output.fasta.qual

Número de genes versus número de proteínas em eucariotos

Introdução às Tecnologias de Sequeciamento: Sanger e Nova Geração (NGS)

Análise de SNPs. MSc. Frederico Schmitt Kremer Doutorando do PPGB (UFPel)

UFPel CDTec Biotecnologia. Anotação de genomas. MSc. Frederico schmitt Kremer

Bases da análise genômica: estado da arte

Estudos das ômicas: Genômica; Transcriptomica; Metagenômica. Aula 7

Introdução à Bioquímica

GENOMAS. Prof. Dr. Marcelo Ricardo Vicari

Validação e implementação do diagnóstico molecular em cancro coloretal hereditário (CCRH) por sequenciação de nova geração

Algoritmos Genéticos e o Problema da Montagem de Reads

Princípios de Sistemática Molecular

Desenho de Estudos. Enrico A. Colosimo/UFMG enricoc. Depto. Estatística - ICEx - UFMG 1/28

Tipos de estudos e processos de produção de dados (Notas de aula) Idemauro Antonio Rodrigues de Lara

Biologia Molecular Computacional Homologia

Introdução a Bioinformática

Bioinformática e Genética Animal. Pâmela A. Alexandre Doutoranda

Organização Gênica de Eucariotos. Prof. Odir A. Dellagostin

BIOLOGIA COMPUTACIONAL. by

Conceitos de Genética William S. Klug, Michael R. Cummings, Charlotte A. Spencer & Michael A. Palladino

Organização de Genomas e Estrutura Fina dos Genes

EMENTAS DAS DISCIPLINAS DO PROGRAMA DE PÓS-GRADUAÇÃO EM GENÉTICA E MELHORAMENTO

Bioestatística F Desenho de Estudos na Área da Saúde

UNIVERSIDADE TECNÓLOGICA FEDERAL DO PARANÁ DACOM - DEPARTAMENTO ACADÊMICO DE COMPUTAÇÃO JULIANA COSTA SILVA

Introdução a Bioinformática

Identificação de fatores de transcrição a partir de dados de expressão.

Introdução a Bioinformática Curso de Verão Nivelamento na área de Biológicas

Determinação da Estrutura de Proteínas

Genômica. Mapeamento Molecular

Introdução à Bioinformática

Análise de Dados Longitudinais Desenho de Estudos Longitudinais

BANCO DE DADOS BIOLÓGICOS Aula 11

5.1. Fluxo para geração do Roadmap

- Sequenciamento de genomas nada mais é que a determinação da ordem linear dos nucleotídeos ou bases nitrogenadas de um genoma.

Técnicas Experimentais Aplicadas à Zootecnia UNIDADE 1. NOÇÕES DE PLANEJAMENTO EXPERIMENTAL

9 Conclusões e Sugestões para Trabalhos Futuros

Triagem Virtual em Larga Escala. Profa. Dra. Rafaela Ferreira Dept. de Bioquímica e Imunologia 10 de outubro de 2014

Programa de Pós-Graduação em Genética e Melhoramento de Plantas

Metagenômica. João Carlos Setubal IQ/USP

Genes e Genomas Eucariotos

TIAGO TAMBONIS ANÁLISE DO MÉTODO SUVREL NA EXPRESSÃO DIFERENCIAL A PARTIR DA MATRIZ DE CONTAGENS GERADA COM DADOS DE RNA-SEQ

Análise de dados provenientes de técnicas moleculares

Alinhamento local- Utilização do BLAST

JACIANE COELHO GONÇALVES INFLUÊNCIA DO NÚMERO DE REPETIÇÕES NA IDENTIFICAÇÃO DE GENES DIFERENCIALMENTE EXPRESSOS EM EXPERIMENTOS DE RNA-SEQ

Metagenoma de áreas sob plantio direto e plantio convencional do Cerrado ao Sul do Brasil

Programa Analítico de Disciplina BQI460 Bioinformática

DOGMA CENTRAL DA BIOLOGIA MOLECULAR

Transcrição:

RNA-Seq parte II: Análise SEM um genoma de referência Mauricio Wolf Wilwerth Seminários LGMV 2013

BLOCO 1 RNA-Seq Priscilla Tecnologia de Sequenciamento 03/04 Mauricio Análise sem genoma de referência 17/04 Sinara Análise com genoma de referência 24/04 Marta Análise da expressão diferencial 08/05

Tópicos Para um bom RNA-Seq Delineamento experimental para RNA-Seq Cuidados e etapas críticas Normalização Estratégias computacionais Montagem de novo Aplicações

PARA UM BOM RNA-Seq Delineamento Experimental

Delineamento R.A. Fisher (1935) Conceitos importantes para um bom delineamento de experimentos Replicação Randomização Blocagem Michael Schena (1995): Após o surgimento do microarranjo papel essencial das ideias de Fisher

A variação observada é...? Variação técnica Uma variação proveniente de erros e ausência de padronização técnica, não representativa de diferença biológica real Variação biológica A real diferença que existe entre os tecidos/organismos estudados frente a diferentes tratamentos

Delineamento Replicação Biológica: amostragem de mais de um indivíduo em cada tratamento Técnica: repetição do método/técnica utilizada, com as mesmas amostras biológicas *Em RNA-Seq: Barcodes como controle de qualidade em delineamentos em bloco e balanceados

Delineamento Randomização Escolha de indivíduos e atribuição de tratamentos de forma aleatória, sem nenhum tipo de viés por parte do investigador ou do investigado Não utilização de parâmetros de seleção Coleta de tecidos de uma planta, escolha de pacientes para um estudo etc

Delineamento Blocagem Método aconselhável para evitar confusão de fatores Exemplo: efeitos de linha (flowcell) confundidos com expressão diferencial Também podem ocorrer batch effects (artefatos de PCR e transcrição reversa)

CUIDADOS Etapas Críticas

Etapas críticas Escolha da plataforma Custos X Aplicação

Etapas críticas Purificação e fragmentação do RNA

Etapas críticas Escolha do método de análise Dependente de genoma Alinhamento primeiro (Align-first) Com genoma de referência Menor poder computacional necessário Independente de genoma Montagem primeiro (Assemble-first) Possível comparação com genoma de sp próxima (se disponível) Algoritmos de OLC (Overlapping layout consensus) e eulerianos

NORMALIZAÇÃO

Por que fazer Normalização? Maneira de aumentar a precisão da comparação de níveis de expressão entre amostras Ajuste de vieses sistemáticos Microarranjo: efeitos de corante e artefatos de hibridização RNA-Seq: efeitos relacionados ao tamanho e conteúdo GC de genes

Métodos de Normalização Baseados em tamanho (Sequencing depth) Total Count (TC) Upper Quartile (UQ) Median (Med) DESeq Trimmed Mean of M-values (TMM) Métodos Alternativos Quantile (Q) Reads per Kilobase per Million Mapped Reads (RPKM)

RNA-Seq SEM GENOMA DE REFERÊNCIA Como faz?

Qual método usar?? Montagem guiada por X independente de genoma? Significativa diferença de requerimento computacional Com referência: ~4 horas de CPU e <4 Gbytes de RAM De novo: ~650 horas de CPU e >16 Gbytes de RAM! Em casos sem genoma de referência: não há escolha! Metodologias híbridas Genoma incompleto/muito fragmentado Tecidos alterados câncer

Desafios do RNA-Seq Desafios computacionais do RNA-Seq Mapeamento de reads Reconstrução de transcriptoma Principal desafio quando não existe genoma de referência! Quantificação da expressão

A Montagem De Novo Necessária no sequenciamento sem genoma de referência disponível Tarefa computacional extremamente complexa Diferença extremamente grande na representatividade de transcritos mrnas maduros e RNAs precursores misturados Atribuição de reads a diferentes isoformas Algoritmos independentes de genoma

Montagem De Novo Reconstrução independente de genoma Montagem de transcritos consenso diretamente a partir dos reads ABySS, TransABySS, Velvet, Oases, SOAPdenovo e Trinity Gráfico de Bruijn Geração de k-mers representativos de isoformas Redução de complexidade associada Análise de sobreposição e avaliação de branching (sequências possíveis) Confirmação por reads e coverage cutoff

Maiores complicações do método Distinção de erros de sequenciamento e variação Utilizar confirmação e coverage cutoff Equilibrar sensibilidade com complexidade do gráfico Tamanho de k-mers X cobertura

Eulerianos X OLC Eulerianos: ideais para grandes coberturas, são baseados em construção de gráficos de Bruijn através de k-mers OLC: recomendados em casos de menor cobertura e maior tamanho de reads sobreposição

Reads a Contigs a Scaffolds A montagem é uma estrutura hierárquica em que sequências de fragmentos são mapeados para reconstruir o transcrito original Reads contigs scaffolds Só é possível quando o alvo é excessivamente sequenciado

Informação e Anotação Uma vez montados os transcritos: Buscar informações acerca das funções gênicas (GO) Duas formas: Comparação a genomas aparentados Apenas em alguns casos Insights sobre splicing alternativo Busca por homologia em bancos de dados (BLAST) Função, local e nível expressão Informativo mesmo em casos de genomas sequenciados sem anotação

PARÂMETROS DE AVALIAÇÃO

Alguns parâmetros N = n de reads totais L = tamanho dos reads G = tamanho do genoma T = mínimo de sobreposição Cobertura (Sequencing depth) Quantas vezes o genoma foi sequenciado em média. c = (N*L)/G *N50 = é o tamanho do menor contig no conjunto dos maiores contigs que combinados representam 50% da montagem

Validação qpcr Extensivamente utilizada para confirmação da expressão de genes em estudos de microarranjo RNA-Seq: Ainda necessária em algumas revistas para publicação, porém muito discutido Muitos estudos mostraram consistência entre resultados de RNA-Seq e qpcr RNA-Seq possui uma alta capacidade poderá excluir a necessidade de qpcr

Validação A validação deve seguir os mesmos parâmetros de delineamento experimental do RNA-Seq UTRs (principalmente 3 ) reduzem a consistência entre RNA-Seq e qpcr Sondas que incluem essas regiões em microarranjo mostraram os mesmos resultados Exclusão dessas regiões aumenta a precisão da validação

Estudo de caso

Chen et al., 2011 Resumo Transcriptoma gerado por sequenciamento Illumina de uma espécie de mangue altamente resistente a salinidade, Sonneratia alba Plataforma: Illumina Genome Analyzer Mais de 15 milhões de reads Paired-end, 75pb Montagem = 30628 sequências únicas Objetivos: comparar codon bias, buscar regiões repetitivas e identificar genes responsivos a salinidade

Chen et al., 2011 Sonneratia alba Família Lythraceae Distribuição: Pacífico Oeste Gênero Sonneratia 6 espécies diplóides e 4 híbridos interespecíficos S. alba é a espécie mais tolerante a salinidade Genoma não sequenciado

Chen et al., 2011 Sequenciamento Illumina Genome Analyzer Paired end, 75pb >15 milhões de reads De novo assembly 3 softwares para reads curtos: ABySS, Velvet e Edena Representação em gráficos de Bruijn Pequenas diferenças (erros, ambiguidades e informação pareada)

Chen et al., 2011 Resultados Os 3 softwares apresentaram desempenhos similares Porcentagem de clusters únicos diferiu: 8,3% (ABySS), 7,8% (Edena) e 37,4% (Velvet)

Chen et al., 2011 Considerações finais Montagem de novo 30 mil sequências Tamanho médio 661pb 273 loci responsivos a salinidade, mais da metade com boa cobertura Comparação com outros estudos de mangue mostrou pouca consistência importância da cobertura e genes pouco transcritos Diferentes tolerâncias a salinidade podem ser foco de estudo de expressão desses genes

Considerações Finais Reconstrução de transcriptoma tarefa computacional pesada Referência de espécies aparentadas pode fornecer insights de splicing e funções Não há programas de reconstrução ideais Avaliar necessidades de cobertura e informação Capacidade computacional disponível Atentar para vieses de pré-sequenciamento Bom delineamento e estratégias de normalização e validação podem ser decisivas na confiabilidade de resultados de RNA-Seq principalmente SEM genoma!

OBRIGADO!