Curso de Verão em Bioinformatica 2013 IME - USP Bioinformática Aplicada ao Estudo de Transcriptomas Eduardo M. Reis Departamento de Bioquímica IQ-USP Fevereiro 2013
O que é o transcriptoma? Transcriptoma = Coleção de RNAs (transcritos) presentes em uma célula/tecido em um dado momento. O transcriptoma corresponde a fração do código genético (DNA) que é transcrita pela RNA polimerase em moléculas de RNA. Depende do estágio do desenvolvimento, estado fisiológico e tipo de tecido.
O mundo omics DNA Genômica (Genoma) Genótipo mrna Proteina substrato Transcrição Tradução Papéis estruturais e metabólicos (enzimas) produto Transcriptômica (Transcriptoma) Proteômica (Proteoma) Metabolômica (Metaboloma) Fenótipo morfologia fisiologia comportamento ecologia
Transcrição do DNA Bolha de transcrição Fita codificadora (senso) RNA polimerase Re-enovelamento Desenovelamento Fita molde (antisenso) Direção da transcrição
Principais Tipos de RNA codificados no Genoma RNAs mensageiros (mrna): contém a informação genética que codifica a sequência de aminoácidos das proteínas RNAs transportadores (trna): identifica e transporta os aminoácidos até o ribossomo. Responsáveis pela leitura do código genético. RNAs ribosomais (rrna): constituinte dos ribossomos. Síntese protéica. Pequenos RNAs nucleares envolvidos no processamento de outros RNAs (snrnas, snornas) Pequenos RNAs regulatórios: micro RNAs, pirnas, pasrnas Longos RNAs regulatórios (RNAs não-codificadores)
Análise de Transcriptomas em larga-escala identificação de todos os RNAs expressos em um dado organismo ou tecido. compararação de perfis de expressão gênica em diferentes condições ambientais, estados patológicos, fisiológicos ou de desenvolvimento. caracterização de polimorfismos associados aos genes transcritos: formas alternativas de splicing e SNPs.
Que informações podem ser obtidas através da análise de transcriptomas? Identificação de genes e vias moleculares envolvidas em processos biológicos : guilt by association : genes com perfil de expressão semelhante podem estar funcionalmente relacionados ou sob o mesmo mecanismo e controle. Fornecer pistas sobre as funções de genes ainda não caracterizados a partir do estudo do padrão espacial (localização sub-celular) e temporal de expressão. Identificar marcadores para diagnóstico molecular de doenças Os padrões de expressão gênica podem indicar eventos de regulação em cis- e em trans-, permitindo assim a inferência acerca de diferenças genéticas entre indivíduos. Podem ainda indicar alterações no proteoma e/ou metaboloma.
Métodos para estudo de transcriptomas Differential display (RT-PCR) Sequenciamento de ESTs SAGE (Serial Analysis of Gene Expression) Massive Paralel Signature Sequencing (MPSS) Microarrays de DNA RNA-seq
O que são microarranjos de DNA? Microarranjo de DNA depositado spotted array
Agilent 60-mer Ink-jet oligoarrays 244 k elementos
Agilent 44k element oligoarray SurePrint Technology Zoom in
Como são utilizados os microarranjos de DNA? Dupla-hélice de DNA
ID Experimentos com microarranjos de DNA (2 cores) Clones DNA /PCR oligonucleotídeos Marcação de mrna/cdna Análise de dados contrôle amostra 1000000 900000 800000 700000 600000 500000 400000 300000 200000 100000 0 0 100000 200000 300000 400000 500000 600000 700000 800000 900000 1000000 Cye 3 Cye 5
Construção de matrizes de expressão gênica Microarrays Amostras Genes Extração dos valores numéricos das intensidades de expressão de cada amostra. Filtragem e normalização dos dados para tornar os experimentos comparáveis Fold repressão Fold indução >9 >3 1 >3 >9
Z-score representação das intensidades normalizadas em função da média e SD Para cada gene, em cada amostra: Valor normalizado = intensidade do gene na amostra (ou razão) Média amostras Amostras Desvio amostras Genes Unidades de desvio-padrão em relação à media Diminuição da expressão Aumento da expressão -3 0 3
Normalização entre experimentos Objetivo: tornar dados comparáveis entre hibridizações Ex: normalização pela mediana, média trimada. quantil
Identificação de genes diferencialmente expressos Expressão Gene X Expressão média Tumor Normal
Identificação de genes diferencialmente expressos Utilização de testes de hipóteses para avaliar existência de expressão diferencial do gene: Teste-t = Média Tumor Média Normal Variância Tumor + Variância Normal A significância estatística do teste-t (p-value) pode ser determinada: a partir das da distribuição dos valores de t (assume uma distribuição normal dos dados) a partir de testes de bootstrapping.
Teste de Hipótese: teste-t e P-valor O teste de hipótese constrói um modelo probabilístico para testar a existência de diferença na expressão do gene X entre dois grupos de amostra. Exemplo: teste-t não-pareado: Hipótese nula (H 0 ): gene X não é diferencialmente expresso entre os grupos de pacientes A e B 1. Calcula a estatística t para o gene X (incorpora a média, desvio-padrão e tamanho amostral de A e B) 2. Compara a estatística-t observada com a distribuição de probabilidades t correspondente aos graus de liberdade apropriados ao tamanho da amostra. 3. Se a estatística-t observada for mais extrema que a estatística-t crítica no nível de significância escolhido (ex. p < 0.05), rejeita H 0. Se p 0.05 não se pode rejeitar a hipótese de que o gene não é diferencialmente expresso. Distribuição de probabilidades t (df, p=0.05)
Teste de Hipótese: teste de bootstrap Exemplo: Hipótese nula (H 0 ): gene X não é diferencialmente expresso entre os grupos de pacientes A e B 1. A partir dos dados originais, gerar múltiplos conjuntos de dados onde o valor de expressão do gene é aleatoriamente atribuído as amostras. 2. Comparar uma propriedade estatística do dado real (ex. estatística-t) com a distribuição dessa mesma propriedade nos conjuntos aleatórios. 3. Calcular a proporção de estatísticas-t que possui um valor mais extremo do que o valor observado no dado real (= p- valor) 4. Um p-valor pequeno indica a expressão diferencial do gene X. Distribuição de estatíticas-t por bootstrapping t-statistic of real data Maioria das estatísticas de bootstrap são menos extremas que a estatística do dado real (p<0.001) Técnicas de bootstrapping são robustas e não assumem uma distribuição normal dos dados.
Problema dos testes múltiplos Exemplo: Microarranjo com 40.000 genes Nível de significância: p < 0.01 (= 1% Taxa de Falsos Positivos) 400 genes ao acaso!! Estratégias: Correção Bonferroni (muito estrita): 0.01 = 0.00000025 40.000 Determinação da taxa de falsos-positivos a partir de permutação dos dados de expressão: SAM (Significance analysis of Microarrays, Tusher et al., 2001):
Significance analysis of Microarrays www-stat.stanford.edu/~tibs/sam/
Aplicações de microarranjos de DNA na análise de transcriptomas Detecção de regiões transcricionalmente ativas em genomas Detecção splicing alternativo em mrnas Comparação global de perfis de expressão gênica em diferentes estados fisiológicos, patológicos ou do desenvolvimento
Detecção de regiões transcricionalmente ativas em genomas Análise de transcrição em larga-escala utilizando tiling arrays genômicos Johnson et al, Trends in Genetics, 21:93-102, 2005
Genoma humano ~2% do genoma ocupado por regiões codificantes para proteínas Transcrição documentada nas 2 fitas do genoma Regiões transcritas do genoma (60-70%) incluindo introns Mattick and Makunin 2006, Hum. Mol. Genet. 15:R17-R29
Splicing alternativo em genes eucarióticos
Detecção de splicing alternativo utilizando microarranjos de DNA Pan et al., Mol. Cell 16:929-941, 2004
Comparação global de perfis de expressão gênica Aplicações dos microarrays de DNA na pesquisa em câncer Monitoramento simultâneo dos níveis de expressão de milhares de genes em um único experimento Detecção com alto grau de resolução de alterações no número de cópias de DNA. Custo compatível com estudos clínicos populacionais. Identificação de marcadores moleculares associados a: Oncogênese Progressão tumoral Evolução clínica da doença Resposta a terapias adjuvantes. Análises não-supervisionadas vs. Análises supervisionadas
Identificação de genes associados a agressividade do tumor de próstata Grau de Gleason (GS) Gleason Grau de ## de of Gleason Grade amostras samples G 5 1 G 6 5 G7 16 G9 1 G10 4 Total 27 Gleason Risco de for recorrência do tumor 2-6 Baixo 7 Intermediário 8-10 Alto Diagrama esquemático do sistema de classificação de Gleason
Classificação não-supervisionada: Clusterização hierárquica de 27 amostras de câncer de próstata a partir dos dados de 3.355 genes
Classificação supervisionada: Ex.: distinção de classes com "baixo/alto Gleason score A utilizando uma medida de associação (ex. correlação de pearson) 27 exons de genes conhecidos 23 sequências intrônicas (em azul) 6 sequências intergênicas Conjunto classificador A B -1 0 1 B Low GS GS 7 (3 + 4) GS 7 (4 + 3) High GS st. dev. from mean -2 2-1 0 1-1 0 1 r
Grau de Gleason tem valor preditivo limitado como preditor de recorrência do câncer de próstata 48 amostras de tumor de próstata de pacientes com seguimento mínimo de 5 anos Colaboradores: Dra. Kátia Leite Dr. Luiz H. Câmara-Lopes Laboratório de Patologia Cirúrgica e Molecular, Hospital Sírio e Libanês
Preditores de evolução clínica identificados a partir de perfis globais de expressão gênica Moreira et al., manuscrito em preparação
Análise de enriquecimento de categorias entre genes diferencialmente expressos Funções moleculares Processos biológicos Componentes celulares Vias metabólicas Interações com mesmos genes Sequências/Estruturas moleculares comuns Regulados pelos mesmos fatores de transcrição Alvejados pelos mesmos micrornas Involvidos em uma mesma doença Goene Ontology Gerar hipóteses para experimentação adicional
http://www.geneontology.org/
Programas para análises de enriquecimento de categorias funcionais: DAVID (http://david.abcc.ncifcrf.gov/) Cytoscape (http://www.cytoscape.org/) GOTerm BiNGO GSEA (Gene Set Enrichment Analysis - www.broadinstitute.org/gsea/) Ingenuity Pathway Analysis (Commercial)
Identificação de categorias enriquecidas utiliza conhecimento a priori (ex. GO, vias moleculares, anotações funcionais, outras ) Testa a probabibilidade de determinada categoria estar sobrerepresentada na lista de genes selecionada em relação ao universo de genes: Teste exato de Fisher (chi-quadrado) Categoria Funcional X Genes selecionados Pertencem a categoria 10 70 Não pertencem a categoria 90 930 Total 100 1000 Genes totais Testar se a frequência 10/100 (10%) é diferente de 70/1000 (7%)
Análise de enriquecimento no Ingenuity Pathway Analysis Genes Funções, vias e redes gênicas enriquecidas
Identificação de vias metabólicas/regulatórias enriquecidas em assinaturas de expressão gênica (Bingo, Cytoscape) Transcritos intrônicos mais abundantes são originados em regiões intrônicas de genes relacionados com regulação da transcrição 123 genes Em pelo menos 1 tecido categoria GO 'Regulation of transcription, DNA-dependent' (GO:006355) está significativamente enriquecida (p < 0.002) entre os 40% antisenso TINs mais abundantes nos 3 tecidos estudados Nakaya et al., Genome Biology 2007, 8:R43
Abundância de RNAs em eucariotos é regulada por fatores de transcrição, proteínas que se ligam ao DNA e a RNA polimerase e ativam ou reprimem a transcrição Promotor do gene codificador da strictosidina sintase, enzima da via de síntese de alcaloides em plantas.
Modificações covalentes de histonas afetam a expressão gênica Modelo 1: Mudança estrutural na cromatina Modelo 2: Inibe a ligação de um fator de regulação negativa Modelo 3: Recruta um fator de regulação positiva
Modificações pós-tradução de histonas e o controle da expressão gênica
Mapeamento de sítios de ligação de proteínas no DNA ChIP-Chip Mapeamento de sítios de ligação de : Fatores de transcrição RNA Polimerases Histonas
Mapas de estados da cromatina gerados por ChIP-chip
Novas tecnologias de (Re-)sequenciamento de DNA/RNA Sequenciamento por hibridização Affymetrix Sequenciamento por síntese massivamente paralelizado ( next generation sequencing ) 2ª geração: pirosequenciamento 454 - Roche Solexa - Illumina SOLiD Applied Biosystems 3ª geração: Single Molecule Real Time (SMRT ) DNA sequencing technology Pacific Bioscience True Single Molecule Sequencing (tsms ) - Helicos BioSciences Redução de 1.000-10.000 x no custo de sequenciamento por base
Impacto das novas tecnologias de sequenciamento em estudos genômicos Projeto Genoma Humano (Consórcio público): 3 bilhões de bases 2.7 bilhões de dólares 13 anos (1990 2003) Sequenciamento do genoma diploide humano (James Watson) com a tecnologia de pirosequenciamento 454: 6 bilhões de bases Menos de 1.5 milhões de dólares 4 mêses (2007)
http://genomics.xprize.org/ Prêmio de $10 milliões de dólares para o primeiro grupo que sequenciar 100 genomas de indivíduos com 100 + anos a um custo abaixo de 1 mil dólares por genoma
Perspectivas de aplicações do sequenciamento de alta-capacidade e baixo custo Sequenciamento de genomas individuais como ferramenta de medicina preventiva personalizada Estudos de associação genótipo-fenótipo em larga-escala Estudos de expressão gênica de alta resolução em todos os estágios de desenvolvimento de organismos multi-celulares, e em diferentes condições patológicas. Análise de mutações em genes de baixa penetrância envolvidos em doenças humanas Estudos metagenômicos de diversidade microbiana
Bibliotecas para RNAseq Direcionadas ou não-direcionadas Sequenciamento de uma ou ambas as fitas (paired-end)
454 Life Sciences Deep sequencing technology Sequenciamento da bactéria Mycoplasma genitalium (2.1 Mb) em uma corrida de 4h aproximadamente 8 mêses para sequenciar o genoma humano com uma única máquina Margulies et al, Nature, 437:376-380, 2005
PCR em emulsão de óleo (8h) Amplificação de moléculas individuais
Sequenciamento em microplacas (7h) 1.200.000 sequencias 400 bp em média 480 milhões de bases em 1 dia
PPi + adenosine 5 fosfosulfato (APS) ATP sulfurilase ATP ATP + luciferina Luciferase Oxiluciferina Apirase para degradação de ATP e nucleotídeos não utilizados
Pirogramas 4-mer T A C G Ordem de bases no fluxo Flowgram 3-mer T T C T G C G A A 2-mer 1-mer sequência TCAG para calibração do sinal
Qualidade do sequenciamento Probabilidade p da base identificada estar errada Qualidade 10 20 30 40 50 p 0,1 0,01 0,001 0,0001 0,00001
Arquivos em formato FASTQ 1 2 3 4 @SEQ_ID GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT +!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65 1. Caractere @ seguido de um identificador único da sequência 2. Sequencia de bases obtidas a partir do sequenciamento 3. Caractere + seguido do identificador único da sequência (opcional) 4. Qualidade associada a cada base em ASCII
Solexa (Illumina) polony sequencing
Solexa (Illumina) polony sequencing
Solexa (Illumina) polony sequencing
Solexa (Illumina): 3 bilhões de bases/corrida (mais barato!) Reads curtos: ~100 bp (menos versátil!)
Single Molecule Real Time (SMRT ) DNA sequencing technology Pacific Bioscience Sintese contínua, com detecção do nucleotídeo incorporado em tempo real Sequencias com milhares de nucleotídeos Maior velocidade Custo reduzido
Ion Torrent Life technologies Não utiliza fluoróforos. Baixo custo Próton liberado após incorporação de nucleotídeo cause mudança de ph que é detectada pelo equipamento
Detecção e quantificação do transcriptoma através de RNA-Seq
Reconstrução de transcriptomas a partir de dados de RNAseq Haas and Zody, 2010 Nature Biotechnology 28, 421 423
Quantificação de transcritos utilizando por RNA-Seq FPKM Fragments per kilobase of exon model per million mapped reads RPKM = n º de sequencias que mapeiam em exons do transcrito n º total de sequencias (milhões) x tamanho dos exons (KB) Mortazavi, A. et.al. (2008). Mapping and quantifying mammalian transcriptomes by RNA seq. Nat Methods, 5(7):621 628
Quantificação da expressão gênica através de RNA seq Normalização pelo tamanho do transcrito e da biblioteca permite a quantificação acurada dos níveis de expressão gênica Fragments per kilobase of exon model per million mapped reads FPKM = n º de fragmentos (reads) que mapeiam em exons do transcrito n º total de sequencias (milhões) x tamanho dos exons (KB) Mortazavi, A. et.al. (2008). Mapping and quantifying mammalian transcriptomes by RNA seq. Nat Methods, 5(7):621 628
Quantificação da expressão gênica através de RNA seq Detecção acurada da expressão diferencial de formas alternativas de splicing
Microarranjos vs. Sequenciamento
1,1 x 10 15 bases depositadas no banco SRA desde 2009
https://main.g2.bx.psu.edu/
Departamento de Bioquímica Laboratório de Genômica e Expressão Gênica em Câncer emreis@iq.usp.br