RNA-Seq parte II: Análise SEM um genoma de referência

RNA-Seq parte II: Análise SEM um genoma de referência Mauricio Wolf Wilwerth Seminários LGMV 2013

BLOCO 1 RNA-Seq Priscilla Tecnologia de Sequenciamento 03/04 Mauricio Análise sem genoma de referência 17/04 Sinara Análise com genoma de referência 24/04 Marta Análise da expressão diferencial 08/05

Tópicos Para um bom RNA-Seq Delineamento experimental para RNA-Seq Cuidados e etapas críticas Normalização Estratégias computacionais Montagem de novo Aplicações

PARA UM BOM RNA-Seq Delineamento Experimental

Delineamento R.A. Fisher (1935) Conceitos importantes para um bom delineamento de experimentos Replicação Randomização Blocagem Michael Schena (1995): Após o surgimento do microarranjo papel essencial das ideias de Fisher

A variação observada é...? Variação técnica Uma variação proveniente de erros e ausência de padronização técnica, não representativa de diferença biológica real Variação biológica A real diferença que existe entre os tecidos/organismos estudados frente a diferentes tratamentos

Delineamento Replicação Biológica: amostragem de mais de um indivíduo em cada tratamento Técnica: repetição do método/técnica utilizada, com as mesmas amostras biológicas *Em RNA-Seq: Barcodes como controle de qualidade em delineamentos em bloco e balanceados

Delineamento Randomização Escolha de indivíduos e atribuição de tratamentos de forma aleatória, sem nenhum tipo de viés por parte do investigador ou do investigado Não utilização de parâmetros de seleção Coleta de tecidos de uma planta, escolha de pacientes para um estudo etc

Delineamento Blocagem Método aconselhável para evitar confusão de fatores Exemplo: efeitos de linha (flowcell) confundidos com expressão diferencial Também podem ocorrer batch effects (artefatos de PCR e transcrição reversa)

CUIDADOS Etapas Críticas

Etapas críticas Escolha da plataforma Custos X Aplicação

Etapas críticas Purificação e fragmentação do RNA

Etapas críticas Escolha do método de análise Dependente de genoma Alinhamento primeiro (Align-first) Com genoma de referência Menor poder computacional necessário Independente de genoma Montagem primeiro (Assemble-first) Possível comparação com genoma de sp próxima (se disponível) Algoritmos de OLC (Overlapping layout consensus) e eulerianos

NORMALIZAÇÃO

Por que fazer Normalização? Maneira de aumentar a precisão da comparação de níveis de expressão entre amostras Ajuste de vieses sistemáticos Microarranjo: efeitos de corante e artefatos de hibridização RNA-Seq: efeitos relacionados ao tamanho e conteúdo GC de genes

Métodos de Normalização Baseados em tamanho (Sequencing depth) Total Count (TC) Upper Quartile (UQ) Median (Med) DESeq Trimmed Mean of M-values (TMM) Métodos Alternativos Quantile (Q) Reads per Kilobase per Million Mapped Reads (RPKM)

RNA-Seq SEM GENOMA DE REFERÊNCIA Como faz?

Qual método usar?? Montagem guiada por X independente de genoma? Significativa diferença de requerimento computacional Com referência: ~4 horas de CPU e <4 Gbytes de RAM De novo: ~650 horas de CPU e >16 Gbytes de RAM! Em casos sem genoma de referência: não há escolha! Metodologias híbridas Genoma incompleto/muito fragmentado Tecidos alterados câncer

Desafios do RNA-Seq Desafios computacionais do RNA-Seq Mapeamento de reads Reconstrução de transcriptoma Principal desafio quando não existe genoma de referência! Quantificação da expressão

A Montagem De Novo Necessária no sequenciamento sem genoma de referência disponível Tarefa computacional extremamente complexa Diferença extremamente grande na representatividade de transcritos mrnas maduros e RNAs precursores misturados Atribuição de reads a diferentes isoformas Algoritmos independentes de genoma

Montagem De Novo Reconstrução independente de genoma Montagem de transcritos consenso diretamente a partir dos reads ABySS, TransABySS, Velvet, Oases, SOAPdenovo e Trinity Gráfico de Bruijn Geração de k-mers representativos de isoformas Redução de complexidade associada Análise de sobreposição e avaliação de branching (sequências possíveis) Confirmação por reads e coverage cutoff

Maiores complicações do método Distinção de erros de sequenciamento e variação Utilizar confirmação e coverage cutoff Equilibrar sensibilidade com complexidade do gráfico Tamanho de k-mers X cobertura

Eulerianos X OLC Eulerianos: ideais para grandes coberturas, são baseados em construção de gráficos de Bruijn através de k-mers OLC: recomendados em casos de menor cobertura e maior tamanho de reads sobreposição

Reads a Contigs a Scaffolds A montagem é uma estrutura hierárquica em que sequências de fragmentos são mapeados para reconstruir o transcrito original Reads contigs scaffolds Só é possível quando o alvo é excessivamente sequenciado

Informação e Anotação Uma vez montados os transcritos: Buscar informações acerca das funções gênicas (GO) Duas formas: Comparação a genomas aparentados Apenas em alguns casos Insights sobre splicing alternativo Busca por homologia em bancos de dados (BLAST) Função, local e nível expressão Informativo mesmo em casos de genomas sequenciados sem anotação

PARÂMETROS DE AVALIAÇÃO

Alguns parâmetros N = n de reads totais L = tamanho dos reads G = tamanho do genoma T = mínimo de sobreposição Cobertura (Sequencing depth) Quantas vezes o genoma foi sequenciado em média. c = (N*L)/G *N50 = é o tamanho do menor contig no conjunto dos maiores contigs que combinados representam 50% da montagem

Validação qpcr Extensivamente utilizada para confirmação da expressão de genes em estudos de microarranjo RNA-Seq: Ainda necessária em algumas revistas para publicação, porém muito discutido Muitos estudos mostraram consistência entre resultados de RNA-Seq e qpcr RNA-Seq possui uma alta capacidade poderá excluir a necessidade de qpcr

Validação A validação deve seguir os mesmos parâmetros de delineamento experimental do RNA-Seq UTRs (principalmente 3 ) reduzem a consistência entre RNA-Seq e qpcr Sondas que incluem essas regiões em microarranjo mostraram os mesmos resultados Exclusão dessas regiões aumenta a precisão da validação

Estudo de caso

Chen et al., 2011 Resumo Transcriptoma gerado por sequenciamento Illumina de uma espécie de mangue altamente resistente a salinidade, Sonneratia alba Plataforma: Illumina Genome Analyzer Mais de 15 milhões de reads Paired-end, 75pb Montagem = 30628 sequências únicas Objetivos: comparar codon bias, buscar regiões repetitivas e identificar genes responsivos a salinidade

Chen et al., 2011 Sonneratia alba Família Lythraceae Distribuição: Pacífico Oeste Gênero Sonneratia 6 espécies diplóides e 4 híbridos interespecíficos S. alba é a espécie mais tolerante a salinidade Genoma não sequenciado

Chen et al., 2011 Sequenciamento Illumina Genome Analyzer Paired end, 75pb >15 milhões de reads De novo assembly 3 softwares para reads curtos: ABySS, Velvet e Edena Representação em gráficos de Bruijn Pequenas diferenças (erros, ambiguidades e informação pareada)

Chen et al., 2011 Resultados Os 3 softwares apresentaram desempenhos similares Porcentagem de clusters únicos diferiu: 8,3% (ABySS), 7,8% (Edena) e 37,4% (Velvet)

Chen et al., 2011 Considerações finais Montagem de novo 30 mil sequências Tamanho médio 661pb 273 loci responsivos a salinidade, mais da metade com boa cobertura Comparação com outros estudos de mangue mostrou pouca consistência importância da cobertura e genes pouco transcritos Diferentes tolerâncias a salinidade podem ser foco de estudo de expressão desses genes

Considerações Finais Reconstrução de transcriptoma tarefa computacional pesada Referência de espécies aparentadas pode fornecer insights de splicing e funções Não há programas de reconstrução ideais Avaliar necessidades de cobertura e informação Capacidade computacional disponível Atentar para vieses de pré-sequenciamento Bom delineamento e estratégias de normalização e validação podem ser decisivas na confiabilidade de resultados de RNA-Seq principalmente SEM genoma!

OBRIGADO!