RNA-Seq parte II: Análise SEM um genoma de referência Mauricio Wolf Wilwerth Seminários LGMV 2013
BLOCO 1 RNA-Seq Priscilla Tecnologia de Sequenciamento 03/04 Mauricio Análise sem genoma de referência 17/04 Sinara Análise com genoma de referência 24/04 Marta Análise da expressão diferencial 08/05
Tópicos Para um bom RNA-Seq Delineamento experimental para RNA-Seq Cuidados e etapas críticas Normalização Estratégias computacionais Montagem de novo Aplicações
PARA UM BOM RNA-Seq Delineamento Experimental
Delineamento R.A. Fisher (1935) Conceitos importantes para um bom delineamento de experimentos Replicação Randomização Blocagem Michael Schena (1995): Após o surgimento do microarranjo papel essencial das ideias de Fisher
A variação observada é...? Variação técnica Uma variação proveniente de erros e ausência de padronização técnica, não representativa de diferença biológica real Variação biológica A real diferença que existe entre os tecidos/organismos estudados frente a diferentes tratamentos
Delineamento Replicação Biológica: amostragem de mais de um indivíduo em cada tratamento Técnica: repetição do método/técnica utilizada, com as mesmas amostras biológicas *Em RNA-Seq: Barcodes como controle de qualidade em delineamentos em bloco e balanceados
Delineamento Randomização Escolha de indivíduos e atribuição de tratamentos de forma aleatória, sem nenhum tipo de viés por parte do investigador ou do investigado Não utilização de parâmetros de seleção Coleta de tecidos de uma planta, escolha de pacientes para um estudo etc
Delineamento Blocagem Método aconselhável para evitar confusão de fatores Exemplo: efeitos de linha (flowcell) confundidos com expressão diferencial Também podem ocorrer batch effects (artefatos de PCR e transcrição reversa)
CUIDADOS Etapas Críticas
Etapas críticas Escolha da plataforma Custos X Aplicação
Etapas críticas Purificação e fragmentação do RNA
Etapas críticas Escolha do método de análise Dependente de genoma Alinhamento primeiro (Align-first) Com genoma de referência Menor poder computacional necessário Independente de genoma Montagem primeiro (Assemble-first) Possível comparação com genoma de sp próxima (se disponível) Algoritmos de OLC (Overlapping layout consensus) e eulerianos
NORMALIZAÇÃO
Por que fazer Normalização? Maneira de aumentar a precisão da comparação de níveis de expressão entre amostras Ajuste de vieses sistemáticos Microarranjo: efeitos de corante e artefatos de hibridização RNA-Seq: efeitos relacionados ao tamanho e conteúdo GC de genes
Métodos de Normalização Baseados em tamanho (Sequencing depth) Total Count (TC) Upper Quartile (UQ) Median (Med) DESeq Trimmed Mean of M-values (TMM) Métodos Alternativos Quantile (Q) Reads per Kilobase per Million Mapped Reads (RPKM)
RNA-Seq SEM GENOMA DE REFERÊNCIA Como faz?
Qual método usar?? Montagem guiada por X independente de genoma? Significativa diferença de requerimento computacional Com referência: ~4 horas de CPU e <4 Gbytes de RAM De novo: ~650 horas de CPU e >16 Gbytes de RAM! Em casos sem genoma de referência: não há escolha! Metodologias híbridas Genoma incompleto/muito fragmentado Tecidos alterados câncer
Desafios do RNA-Seq Desafios computacionais do RNA-Seq Mapeamento de reads Reconstrução de transcriptoma Principal desafio quando não existe genoma de referência! Quantificação da expressão
A Montagem De Novo Necessária no sequenciamento sem genoma de referência disponível Tarefa computacional extremamente complexa Diferença extremamente grande na representatividade de transcritos mrnas maduros e RNAs precursores misturados Atribuição de reads a diferentes isoformas Algoritmos independentes de genoma
Montagem De Novo Reconstrução independente de genoma Montagem de transcritos consenso diretamente a partir dos reads ABySS, TransABySS, Velvet, Oases, SOAPdenovo e Trinity Gráfico de Bruijn Geração de k-mers representativos de isoformas Redução de complexidade associada Análise de sobreposição e avaliação de branching (sequências possíveis) Confirmação por reads e coverage cutoff
Maiores complicações do método Distinção de erros de sequenciamento e variação Utilizar confirmação e coverage cutoff Equilibrar sensibilidade com complexidade do gráfico Tamanho de k-mers X cobertura
Eulerianos X OLC Eulerianos: ideais para grandes coberturas, são baseados em construção de gráficos de Bruijn através de k-mers OLC: recomendados em casos de menor cobertura e maior tamanho de reads sobreposição
Reads a Contigs a Scaffolds A montagem é uma estrutura hierárquica em que sequências de fragmentos são mapeados para reconstruir o transcrito original Reads contigs scaffolds Só é possível quando o alvo é excessivamente sequenciado
Informação e Anotação Uma vez montados os transcritos: Buscar informações acerca das funções gênicas (GO) Duas formas: Comparação a genomas aparentados Apenas em alguns casos Insights sobre splicing alternativo Busca por homologia em bancos de dados (BLAST) Função, local e nível expressão Informativo mesmo em casos de genomas sequenciados sem anotação
PARÂMETROS DE AVALIAÇÃO
Alguns parâmetros N = n de reads totais L = tamanho dos reads G = tamanho do genoma T = mínimo de sobreposição Cobertura (Sequencing depth) Quantas vezes o genoma foi sequenciado em média. c = (N*L)/G *N50 = é o tamanho do menor contig no conjunto dos maiores contigs que combinados representam 50% da montagem
Validação qpcr Extensivamente utilizada para confirmação da expressão de genes em estudos de microarranjo RNA-Seq: Ainda necessária em algumas revistas para publicação, porém muito discutido Muitos estudos mostraram consistência entre resultados de RNA-Seq e qpcr RNA-Seq possui uma alta capacidade poderá excluir a necessidade de qpcr
Validação A validação deve seguir os mesmos parâmetros de delineamento experimental do RNA-Seq UTRs (principalmente 3 ) reduzem a consistência entre RNA-Seq e qpcr Sondas que incluem essas regiões em microarranjo mostraram os mesmos resultados Exclusão dessas regiões aumenta a precisão da validação
Estudo de caso
Chen et al., 2011 Resumo Transcriptoma gerado por sequenciamento Illumina de uma espécie de mangue altamente resistente a salinidade, Sonneratia alba Plataforma: Illumina Genome Analyzer Mais de 15 milhões de reads Paired-end, 75pb Montagem = 30628 sequências únicas Objetivos: comparar codon bias, buscar regiões repetitivas e identificar genes responsivos a salinidade
Chen et al., 2011 Sonneratia alba Família Lythraceae Distribuição: Pacífico Oeste Gênero Sonneratia 6 espécies diplóides e 4 híbridos interespecíficos S. alba é a espécie mais tolerante a salinidade Genoma não sequenciado
Chen et al., 2011 Sequenciamento Illumina Genome Analyzer Paired end, 75pb >15 milhões de reads De novo assembly 3 softwares para reads curtos: ABySS, Velvet e Edena Representação em gráficos de Bruijn Pequenas diferenças (erros, ambiguidades e informação pareada)
Chen et al., 2011 Resultados Os 3 softwares apresentaram desempenhos similares Porcentagem de clusters únicos diferiu: 8,3% (ABySS), 7,8% (Edena) e 37,4% (Velvet)
Chen et al., 2011 Considerações finais Montagem de novo 30 mil sequências Tamanho médio 661pb 273 loci responsivos a salinidade, mais da metade com boa cobertura Comparação com outros estudos de mangue mostrou pouca consistência importância da cobertura e genes pouco transcritos Diferentes tolerâncias a salinidade podem ser foco de estudo de expressão desses genes
Considerações Finais Reconstrução de transcriptoma tarefa computacional pesada Referência de espécies aparentadas pode fornecer insights de splicing e funções Não há programas de reconstrução ideais Avaliar necessidades de cobertura e informação Capacidade computacional disponível Atentar para vieses de pré-sequenciamento Bom delineamento e estratégias de normalização e validação podem ser decisivas na confiabilidade de resultados de RNA-Seq principalmente SEM genoma!
OBRIGADO!