Bioinformática Aplicada ao Estudo de Transcriptomas



Documentos relacionados
Sequenciamento de genomas

Análise de expressão gênica

ACESSO VESTIBULAR QUESTÕES DE PROCESSAMENTO DE RNA OU SPLICING 01. (MAMA ) PÁGINAS OCULTAS NO LIVRO DA VIDA

The next generation sequencing

ANÁLISE GENÔMICA, MAPEAMENTO E ANÁLISE DE QTLs

Seqüenciamento (continuação )

Biologia Avançada Jatropha curcas L.

O fluxo da informação é unidirecional

UNIVERSIDADE FEDERAL DE ALAGOAS INSTITUTO DE CIÊNCIAS BIOLÓGICAS E DA SAÚDE SETOR DE BIOLOGIA CELULAR E MOLECULAR

Análise de Dados de Expressão Gênica

Sequenciamento de DNA

BIOLOGIA MOLECULAR. Prof. Dr. José Luis da C. Silva

TRANSCRIÇÃO DO DNA: Tipos de RNA

Novas Tecnologias de Sequenciamento

Organização do Material Genético nos Procariontes e Eucariontes

Genômica. O que chamou mais atenção no filme?

RNA: transcrição e processamento

Uso do calcário no solo Desenvolvimento de pesticidas e fertilizantes. Máquinas a vapor substituindo a força animal

Bioinformática Aula 01

Ácidos nucléicos. São polímeros compostos por nucleotídeos. Açúcar - pentose. Grupo fosfato. Nucleotídeo. Base nitrogenada

Projeto Genoma e Proteoma

TRANSCRICAO E PROCESSAMENTO DE RNA

Sibele Borsuk

Transcrição e Tradução. Profa. Dra. Juliana Garcia de Oliveira Disciplina: Biologia Celular e Molecular Turmas: Biologia, enfermagem, nutrição e TO.

MEDICINA VETERINÁRIA. Disciplina: Genética Animal. Prof a.: D rd. Mariana de F. Gardingo Diniz

Análise genômica 2013

Construção de Bibliotecas de cdna

RNA: extrema. plasticidade... funcional. Estrutura do RNA: extrema plasticidade. Estrutura do RNA: um mundo de. diferenças. & extrema plasticidade

Biotecnologia: principais me todos moleculares

Como a vida funciona? O processo de Transcrição. Prof. Dr. Francisco Prosdocimi

Controle da expressão gênica

Metabolismo de RNA: Transcrição procarioto/eucarioto

Núcleo Celular. Biomedicina primeiro semestre de 2012 Profa. Luciana Fontanari Krause

Replicação Quais as funções do DNA?

Universidade Federal de Pelotas Faculdade de Agronomia Eliseu Maciel Programa de Pós-Graduação em Agronomia CENTRO DE GENOMICA E FITOMELHORAMENTO

CONHECIMENTOS ESPECÍFICOS

BIOTECNOLOGIA E ENGENHARIA GENÉTICA. Profa. Maria Paula

ANÁLISE GENÔMICA, MAPEAMENTO E ANÁLISE DE QTLs

VI Congresso Brasileiro de Biossegurança Simpósio Latino-Americano de Produtos Biotecnológicos

PCR Real-time thermal cycler Standard thermal cycler

Mitocôndrias e Cloroplastos

PROGRAMA TEÓRICO. 2. O Dogma Central da Biologia Molecular

objetivos Complexidade dos genomas II AULA Pré-requisitos

Genética Humana. Prof. João Ronaldo Tavares de Vasconcellos Neto

Equipe de Biologia. Biologia

Transcritômica. João Carlos Setubal IQ/USP outubro de 2013

Sequenciamento de genomas procariotos utilizando tecnologia de nova geração. Introdução ao sequenciamento de nova geração 4/11/14

Do Corpo Humano ao DNA. Noções de Biologia Molecular. Nucleotídeos - DNA RNA. Dogma central. Prof a. Dr a. Mônica B.

Programa Interunidades de Pós-Graduação em Bioinformática - Universidade de São Paulo

Estrutura e função dos ácidos nucléicos. Profa. Melissa de Freitas Cordeiro-Silva

Criado e Desenvolvido por: RONNIELLE CABRAL ROLIM Todos os direitos são reservados

Os primeiros indícios de que o DNA era o material hereditário surgiram de experiências realizadas com bactérias, sendo estas indicações estendidas

Caracterização genética dos recursos animais autóctones com novas. genotipagem. Antonio Marcos Ramos

Hoje estudaremos a bioquímica dos ácidos nucléicos. Acompanhe!

Programa de Pós-Graduação Stricto Sensu em Biologia Computacional e Sistemas. Seleção de Mestrado 2012-B

CONTROLE DO METABOLISMO GENES

DOCUMENTO DE APOIO AO ESTUDO BIOLOGIA E GEOLOGIA 11.º

ISOLAMENTO E MANIPULAÇÃO DE UM GENE

Curso - Psicologia. Disciplina: Genética Humana e Evolução. Resumo Aula 2- Organização do Genoma

PUCRS CURSO DE CIÊNCIAS BIOLÓGICAS Genética I AULA PRÁTICA APLICAÇÕES DAS TÉCNICAS DE PCR E ELETROFORESE DE DNA

PCR tempo real. PCR quantitativo. 52º Congresso Nacional de Genética Foz do Iguaçu

Colónias satélite: ao fim de 2 dias (a e b) e de 4 (c)


Bioinformática. Licenciaturas em Biologia, Bioquímica, Biotecnologia, Ciências Biomédicas, Engenharia Biológica. João Varela

Universidade Federal de Pelotas Faculdade de Agronomia Eliseu Maciel Programa de Pós-Graduação em Agronomia CENTRO DE GENOMICA E FITOMELHORAMENTO

BASES MACROMOLECULARES DA CONSTITUIÇÃO CELULAR

FUNDAÇÃO UNIVERSIDADE FEDERAL DE RONDÔNIA - UNIR NÚCLEO DE CIÊNCIAS E TECNOLOGIA - NCT DEPARTAMENTO DE BIOLOGIA. Carga Horária: 100 horas/aula

O processo fisiológico que está representado no gráfico é

Bioinformática. Trabalho prático enunciado complementar. Notas complementares ao 1º enunciado

Criado e Desenvolvido por: Todos os direitos são reservados

Curso: Integração Metabólica

ÁCIDOS NUCLEÍCOS RIBOSSOMO E SÍNTESE PROTEÍCA

Painéis Do Organismo ao Genoma

Questões complementares

Antes da descoberta dos sirnas oligonucleotídeos antisenso (ASO) eram usados para silenciar genes

Rachel Siqueira de Queiroz Simões, Ph.D

Genética Bacteriana. Prof (a) Dra. Luciana Debortoli de Carvalho

Princípios moleculares dos processos fisiológicos

MÓDULO III AULA 2: CONTROLE DA EXPRESSÃO GÊNICA EM EUCARIOTOS

Introdução às Tecnologias de Sequeciamento: Sanger e Nova Geração (NGS)

CURSO DE GENÔMICA, PROTEÔMICA, LIPIDÔMICA E METABOLÔMICA

DNA E SÍNTESE PROTEICA

Variabilidade genética. Variabilidade Genética. Variação genética e Evolução. Conceitos importantes

Bioinformática. Conceitos Fundamentais de Biologia Molecular. Paulo Henrique Ribeiro Gabriel

BANCO DE QUESTÕES - BIOLOGIA - 1ª SÉRIE - ENSINO MÉDIO ==============================================================================================

7.012 Conjunto de Problemas 5

Resumos do 56º Congresso Nacional de Botânica.

Sequenciamento de Nova Geração (NGS) Msc. Frederico Schmitt Kremer // doutorando PPGB

Abordagens moleculares no estudo da diversidade microbiana

Técnicas de análise de proteínas. Estrutura secundária da enzima COMT

Introdução à Bioinformática

SEQÜENCIAMENTO ENCIAMENTO DE DNA: MÉTODOS E PRINCÍPIOS

A partícula viral infectante, chamada vírion, consiste de um ácido nucléico e de uma capa protéica externa (capsídeo). O conjunto do genoma mais o

NÚCLEO e DIVISÃO CELULAR

PROGRAMA DE DISCIPLINA: BIOQUÍMICA

PLANO DE AULAS - MÓDULO CÉLULA E GENOMA Unidade Núcleo e Controle Celular

Bases Moleculares da Hereditariedade

Avanços da nutrigenômica nos casos de câncer

Transcrição:

Curso de Verão em Bioinformatica 2013 IME - USP Bioinformática Aplicada ao Estudo de Transcriptomas Eduardo M. Reis Departamento de Bioquímica IQ-USP Fevereiro 2013

O que é o transcriptoma? Transcriptoma = Coleção de RNAs (transcritos) presentes em uma célula/tecido em um dado momento. O transcriptoma corresponde a fração do código genético (DNA) que é transcrita pela RNA polimerase em moléculas de RNA. Depende do estágio do desenvolvimento, estado fisiológico e tipo de tecido.

O mundo omics DNA Genômica (Genoma) Genótipo mrna Proteina substrato Transcrição Tradução Papéis estruturais e metabólicos (enzimas) produto Transcriptômica (Transcriptoma) Proteômica (Proteoma) Metabolômica (Metaboloma) Fenótipo morfologia fisiologia comportamento ecologia

Transcrição do DNA Bolha de transcrição Fita codificadora (senso) RNA polimerase Re-enovelamento Desenovelamento Fita molde (antisenso) Direção da transcrição

Principais Tipos de RNA codificados no Genoma RNAs mensageiros (mrna): contém a informação genética que codifica a sequência de aminoácidos das proteínas RNAs transportadores (trna): identifica e transporta os aminoácidos até o ribossomo. Responsáveis pela leitura do código genético. RNAs ribosomais (rrna): constituinte dos ribossomos. Síntese protéica. Pequenos RNAs nucleares envolvidos no processamento de outros RNAs (snrnas, snornas) Pequenos RNAs regulatórios: micro RNAs, pirnas, pasrnas Longos RNAs regulatórios (RNAs não-codificadores)

Análise de Transcriptomas em larga-escala identificação de todos os RNAs expressos em um dado organismo ou tecido. compararação de perfis de expressão gênica em diferentes condições ambientais, estados patológicos, fisiológicos ou de desenvolvimento. caracterização de polimorfismos associados aos genes transcritos: formas alternativas de splicing e SNPs.

Que informações podem ser obtidas através da análise de transcriptomas? Identificação de genes e vias moleculares envolvidas em processos biológicos : guilt by association : genes com perfil de expressão semelhante podem estar funcionalmente relacionados ou sob o mesmo mecanismo e controle. Fornecer pistas sobre as funções de genes ainda não caracterizados a partir do estudo do padrão espacial (localização sub-celular) e temporal de expressão. Identificar marcadores para diagnóstico molecular de doenças Os padrões de expressão gênica podem indicar eventos de regulação em cis- e em trans-, permitindo assim a inferência acerca de diferenças genéticas entre indivíduos. Podem ainda indicar alterações no proteoma e/ou metaboloma.

Métodos para estudo de transcriptomas Differential display (RT-PCR) Sequenciamento de ESTs SAGE (Serial Analysis of Gene Expression) Massive Paralel Signature Sequencing (MPSS) Microarrays de DNA RNA-seq

O que são microarranjos de DNA? Microarranjo de DNA depositado spotted array

Agilent 60-mer Ink-jet oligoarrays 244 k elementos

Agilent 44k element oligoarray SurePrint Technology Zoom in

Como são utilizados os microarranjos de DNA? Dupla-hélice de DNA

ID Experimentos com microarranjos de DNA (2 cores) Clones DNA /PCR oligonucleotídeos Marcação de mrna/cdna Análise de dados contrôle amostra 1000000 900000 800000 700000 600000 500000 400000 300000 200000 100000 0 0 100000 200000 300000 400000 500000 600000 700000 800000 900000 1000000 Cye 3 Cye 5

Construção de matrizes de expressão gênica Microarrays Amostras Genes Extração dos valores numéricos das intensidades de expressão de cada amostra. Filtragem e normalização dos dados para tornar os experimentos comparáveis Fold repressão Fold indução >9 >3 1 >3 >9

Z-score representação das intensidades normalizadas em função da média e SD Para cada gene, em cada amostra: Valor normalizado = intensidade do gene na amostra (ou razão) Média amostras Amostras Desvio amostras Genes Unidades de desvio-padrão em relação à media Diminuição da expressão Aumento da expressão -3 0 3

Normalização entre experimentos Objetivo: tornar dados comparáveis entre hibridizações Ex: normalização pela mediana, média trimada. quantil

Identificação de genes diferencialmente expressos Expressão Gene X Expressão média Tumor Normal

Identificação de genes diferencialmente expressos Utilização de testes de hipóteses para avaliar existência de expressão diferencial do gene: Teste-t = Média Tumor Média Normal Variância Tumor + Variância Normal A significância estatística do teste-t (p-value) pode ser determinada: a partir das da distribuição dos valores de t (assume uma distribuição normal dos dados) a partir de testes de bootstrapping.

Teste de Hipótese: teste-t e P-valor O teste de hipótese constrói um modelo probabilístico para testar a existência de diferença na expressão do gene X entre dois grupos de amostra. Exemplo: teste-t não-pareado: Hipótese nula (H 0 ): gene X não é diferencialmente expresso entre os grupos de pacientes A e B 1. Calcula a estatística t para o gene X (incorpora a média, desvio-padrão e tamanho amostral de A e B) 2. Compara a estatística-t observada com a distribuição de probabilidades t correspondente aos graus de liberdade apropriados ao tamanho da amostra. 3. Se a estatística-t observada for mais extrema que a estatística-t crítica no nível de significância escolhido (ex. p < 0.05), rejeita H 0. Se p 0.05 não se pode rejeitar a hipótese de que o gene não é diferencialmente expresso. Distribuição de probabilidades t (df, p=0.05)

Teste de Hipótese: teste de bootstrap Exemplo: Hipótese nula (H 0 ): gene X não é diferencialmente expresso entre os grupos de pacientes A e B 1. A partir dos dados originais, gerar múltiplos conjuntos de dados onde o valor de expressão do gene é aleatoriamente atribuído as amostras. 2. Comparar uma propriedade estatística do dado real (ex. estatística-t) com a distribuição dessa mesma propriedade nos conjuntos aleatórios. 3. Calcular a proporção de estatísticas-t que possui um valor mais extremo do que o valor observado no dado real (= p- valor) 4. Um p-valor pequeno indica a expressão diferencial do gene X. Distribuição de estatíticas-t por bootstrapping t-statistic of real data Maioria das estatísticas de bootstrap são menos extremas que a estatística do dado real (p<0.001) Técnicas de bootstrapping são robustas e não assumem uma distribuição normal dos dados.

Problema dos testes múltiplos Exemplo: Microarranjo com 40.000 genes Nível de significância: p < 0.01 (= 1% Taxa de Falsos Positivos) 400 genes ao acaso!! Estratégias: Correção Bonferroni (muito estrita): 0.01 = 0.00000025 40.000 Determinação da taxa de falsos-positivos a partir de permutação dos dados de expressão: SAM (Significance analysis of Microarrays, Tusher et al., 2001):

Significance analysis of Microarrays www-stat.stanford.edu/~tibs/sam/

Aplicações de microarranjos de DNA na análise de transcriptomas Detecção de regiões transcricionalmente ativas em genomas Detecção splicing alternativo em mrnas Comparação global de perfis de expressão gênica em diferentes estados fisiológicos, patológicos ou do desenvolvimento

Detecção de regiões transcricionalmente ativas em genomas Análise de transcrição em larga-escala utilizando tiling arrays genômicos Johnson et al, Trends in Genetics, 21:93-102, 2005

Genoma humano ~2% do genoma ocupado por regiões codificantes para proteínas Transcrição documentada nas 2 fitas do genoma Regiões transcritas do genoma (60-70%) incluindo introns Mattick and Makunin 2006, Hum. Mol. Genet. 15:R17-R29

Splicing alternativo em genes eucarióticos

Detecção de splicing alternativo utilizando microarranjos de DNA Pan et al., Mol. Cell 16:929-941, 2004

Comparação global de perfis de expressão gênica Aplicações dos microarrays de DNA na pesquisa em câncer Monitoramento simultâneo dos níveis de expressão de milhares de genes em um único experimento Detecção com alto grau de resolução de alterações no número de cópias de DNA. Custo compatível com estudos clínicos populacionais. Identificação de marcadores moleculares associados a: Oncogênese Progressão tumoral Evolução clínica da doença Resposta a terapias adjuvantes. Análises não-supervisionadas vs. Análises supervisionadas

Identificação de genes associados a agressividade do tumor de próstata Grau de Gleason (GS) Gleason Grau de ## de of Gleason Grade amostras samples G 5 1 G 6 5 G7 16 G9 1 G10 4 Total 27 Gleason Risco de for recorrência do tumor 2-6 Baixo 7 Intermediário 8-10 Alto Diagrama esquemático do sistema de classificação de Gleason

Classificação não-supervisionada: Clusterização hierárquica de 27 amostras de câncer de próstata a partir dos dados de 3.355 genes

Classificação supervisionada: Ex.: distinção de classes com "baixo/alto Gleason score A utilizando uma medida de associação (ex. correlação de pearson) 27 exons de genes conhecidos 23 sequências intrônicas (em azul) 6 sequências intergênicas Conjunto classificador A B -1 0 1 B Low GS GS 7 (3 + 4) GS 7 (4 + 3) High GS st. dev. from mean -2 2-1 0 1-1 0 1 r

Grau de Gleason tem valor preditivo limitado como preditor de recorrência do câncer de próstata 48 amostras de tumor de próstata de pacientes com seguimento mínimo de 5 anos Colaboradores: Dra. Kátia Leite Dr. Luiz H. Câmara-Lopes Laboratório de Patologia Cirúrgica e Molecular, Hospital Sírio e Libanês

Preditores de evolução clínica identificados a partir de perfis globais de expressão gênica Moreira et al., manuscrito em preparação

Análise de enriquecimento de categorias entre genes diferencialmente expressos Funções moleculares Processos biológicos Componentes celulares Vias metabólicas Interações com mesmos genes Sequências/Estruturas moleculares comuns Regulados pelos mesmos fatores de transcrição Alvejados pelos mesmos micrornas Involvidos em uma mesma doença Goene Ontology Gerar hipóteses para experimentação adicional

http://www.geneontology.org/

Programas para análises de enriquecimento de categorias funcionais: DAVID (http://david.abcc.ncifcrf.gov/) Cytoscape (http://www.cytoscape.org/) GOTerm BiNGO GSEA (Gene Set Enrichment Analysis - www.broadinstitute.org/gsea/) Ingenuity Pathway Analysis (Commercial)

Identificação de categorias enriquecidas utiliza conhecimento a priori (ex. GO, vias moleculares, anotações funcionais, outras ) Testa a probabibilidade de determinada categoria estar sobrerepresentada na lista de genes selecionada em relação ao universo de genes: Teste exato de Fisher (chi-quadrado) Categoria Funcional X Genes selecionados Pertencem a categoria 10 70 Não pertencem a categoria 90 930 Total 100 1000 Genes totais Testar se a frequência 10/100 (10%) é diferente de 70/1000 (7%)

Análise de enriquecimento no Ingenuity Pathway Analysis Genes Funções, vias e redes gênicas enriquecidas

Identificação de vias metabólicas/regulatórias enriquecidas em assinaturas de expressão gênica (Bingo, Cytoscape) Transcritos intrônicos mais abundantes são originados em regiões intrônicas de genes relacionados com regulação da transcrição 123 genes Em pelo menos 1 tecido categoria GO 'Regulation of transcription, DNA-dependent' (GO:006355) está significativamente enriquecida (p < 0.002) entre os 40% antisenso TINs mais abundantes nos 3 tecidos estudados Nakaya et al., Genome Biology 2007, 8:R43

Abundância de RNAs em eucariotos é regulada por fatores de transcrição, proteínas que se ligam ao DNA e a RNA polimerase e ativam ou reprimem a transcrição Promotor do gene codificador da strictosidina sintase, enzima da via de síntese de alcaloides em plantas.

Modificações covalentes de histonas afetam a expressão gênica Modelo 1: Mudança estrutural na cromatina Modelo 2: Inibe a ligação de um fator de regulação negativa Modelo 3: Recruta um fator de regulação positiva

Modificações pós-tradução de histonas e o controle da expressão gênica

Mapeamento de sítios de ligação de proteínas no DNA ChIP-Chip Mapeamento de sítios de ligação de : Fatores de transcrição RNA Polimerases Histonas

Mapas de estados da cromatina gerados por ChIP-chip

Novas tecnologias de (Re-)sequenciamento de DNA/RNA Sequenciamento por hibridização Affymetrix Sequenciamento por síntese massivamente paralelizado ( next generation sequencing ) 2ª geração: pirosequenciamento 454 - Roche Solexa - Illumina SOLiD Applied Biosystems 3ª geração: Single Molecule Real Time (SMRT ) DNA sequencing technology Pacific Bioscience True Single Molecule Sequencing (tsms ) - Helicos BioSciences Redução de 1.000-10.000 x no custo de sequenciamento por base

Impacto das novas tecnologias de sequenciamento em estudos genômicos Projeto Genoma Humano (Consórcio público): 3 bilhões de bases 2.7 bilhões de dólares 13 anos (1990 2003) Sequenciamento do genoma diploide humano (James Watson) com a tecnologia de pirosequenciamento 454: 6 bilhões de bases Menos de 1.5 milhões de dólares 4 mêses (2007)

http://genomics.xprize.org/ Prêmio de $10 milliões de dólares para o primeiro grupo que sequenciar 100 genomas de indivíduos com 100 + anos a um custo abaixo de 1 mil dólares por genoma

Perspectivas de aplicações do sequenciamento de alta-capacidade e baixo custo Sequenciamento de genomas individuais como ferramenta de medicina preventiva personalizada Estudos de associação genótipo-fenótipo em larga-escala Estudos de expressão gênica de alta resolução em todos os estágios de desenvolvimento de organismos multi-celulares, e em diferentes condições patológicas. Análise de mutações em genes de baixa penetrância envolvidos em doenças humanas Estudos metagenômicos de diversidade microbiana

Bibliotecas para RNAseq Direcionadas ou não-direcionadas Sequenciamento de uma ou ambas as fitas (paired-end)

454 Life Sciences Deep sequencing technology Sequenciamento da bactéria Mycoplasma genitalium (2.1 Mb) em uma corrida de 4h aproximadamente 8 mêses para sequenciar o genoma humano com uma única máquina Margulies et al, Nature, 437:376-380, 2005

PCR em emulsão de óleo (8h) Amplificação de moléculas individuais

Sequenciamento em microplacas (7h) 1.200.000 sequencias 400 bp em média 480 milhões de bases em 1 dia

PPi + adenosine 5 fosfosulfato (APS) ATP sulfurilase ATP ATP + luciferina Luciferase Oxiluciferina Apirase para degradação de ATP e nucleotídeos não utilizados

Pirogramas 4-mer T A C G Ordem de bases no fluxo Flowgram 3-mer T T C T G C G A A 2-mer 1-mer sequência TCAG para calibração do sinal

Qualidade do sequenciamento Probabilidade p da base identificada estar errada Qualidade 10 20 30 40 50 p 0,1 0,01 0,001 0,0001 0,00001

Arquivos em formato FASTQ 1 2 3 4 @SEQ_ID GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT +!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65 1. Caractere @ seguido de um identificador único da sequência 2. Sequencia de bases obtidas a partir do sequenciamento 3. Caractere + seguido do identificador único da sequência (opcional) 4. Qualidade associada a cada base em ASCII

Solexa (Illumina) polony sequencing

Solexa (Illumina) polony sequencing

Solexa (Illumina) polony sequencing

Solexa (Illumina): 3 bilhões de bases/corrida (mais barato!) Reads curtos: ~100 bp (menos versátil!)

Single Molecule Real Time (SMRT ) DNA sequencing technology Pacific Bioscience Sintese contínua, com detecção do nucleotídeo incorporado em tempo real Sequencias com milhares de nucleotídeos Maior velocidade Custo reduzido

Ion Torrent Life technologies Não utiliza fluoróforos. Baixo custo Próton liberado após incorporação de nucleotídeo cause mudança de ph que é detectada pelo equipamento

Detecção e quantificação do transcriptoma através de RNA-Seq

Reconstrução de transcriptomas a partir de dados de RNAseq Haas and Zody, 2010 Nature Biotechnology 28, 421 423

Quantificação de transcritos utilizando por RNA-Seq FPKM Fragments per kilobase of exon model per million mapped reads RPKM = n º de sequencias que mapeiam em exons do transcrito n º total de sequencias (milhões) x tamanho dos exons (KB) Mortazavi, A. et.al. (2008). Mapping and quantifying mammalian transcriptomes by RNA seq. Nat Methods, 5(7):621 628

Quantificação da expressão gênica através de RNA seq Normalização pelo tamanho do transcrito e da biblioteca permite a quantificação acurada dos níveis de expressão gênica Fragments per kilobase of exon model per million mapped reads FPKM = n º de fragmentos (reads) que mapeiam em exons do transcrito n º total de sequencias (milhões) x tamanho dos exons (KB) Mortazavi, A. et.al. (2008). Mapping and quantifying mammalian transcriptomes by RNA seq. Nat Methods, 5(7):621 628

Quantificação da expressão gênica através de RNA seq Detecção acurada da expressão diferencial de formas alternativas de splicing

Microarranjos vs. Sequenciamento

1,1 x 10 15 bases depositadas no banco SRA desde 2009

https://main.g2.bx.psu.edu/

Departamento de Bioquímica Laboratório de Genômica e Expressão Gênica em Câncer emreis@iq.usp.br