Transformando a medicina com abordagem sistemá2ca de dados gené2cos. Mauricio Carneiro Broad Ins2tute of MIT and Harvard



Documentos relacionados
Relação, perfil de resistência e procedência dos isolados de M. tuberculosis estudados.

CERTIFICADO No. 113/2013 Insumos para diagnósticos laboratoriais de Influenza por Biologia Molecular

BIOLOGIA. Biologia Molecular (segunda parte) Professora: Brenda Braga

Material e Métodos Resultados e Discussão

2 Desvendando a codificação de aminoácidos

Clonagem Molecular. Esta tecnologia permite estudar os genes e os seus produtos, obter organismos transgênicos e realizar terapia gênica.

I N S T R U Ç Õ E S PA R A O P R E PA R O E E N V I O D E A M O S T R A S O LABORATÓRIO DA MYLEUS TEM A TECNOLOGIA QUE VOCÊ PRECISA.

I N S T R U Ç Õ E S PA R A O P R E PA R O E E N V I O D E A M O S T R A S O LABORATÓRIO DA MYLEUS TEM A TECNOLOGIA QUE VOCÊ PRECISA.

Explorando bancos de dados genômicos e introdução à bioinformática. Guilherme Targino Valente Marcos Tadeu Geraldo. Bioinformática

Análise da eficiência do repovoamento utilizando marcadores genéticos

Similaridade genética em acessos de Aegilops tauschii, Triticum durum e híbridos interespecíficos

ANEXO ÚNICO DO DECRETO Nº , DE 21/09/2006

I N S T R U Ç Õ E S PA R A O P R E PA R O E E N V I O D E A M O S T R A S O LABORATÓRIO DA MYLEUS TEM A TECNOLOGIA QUE VOCÊ PRECISA.

PADRONIZAÇÃO DA AMPLIFICAÇÃO CRUZADA DE REGIÕES MICROSSATÉLITES CLOROPLASTIDIAL EM Tibouchina papyrus (Pohl) Toledo

VALIDAÇÃO DE MARCADORES MOLECULARES LIGADOS A GENES DE RESISTÊNCIA DA FERRUGEM MARROM PARA A FERRUGEM LARANJA DA CANA-DE-AÇUCAR

Que tal calcular distâncias genéticas? Quanto mais próximo geneticamente, maior é a proximidade evolutiva.

Biologia Molecular II

Novas Tecnologias de Sequenciamento

XXIX CONGRESSO NACIONAL DE MILHO E SORGO - Águas de Lindóia - 26 a 30 de Agosto de 2012

Biologia - Grupos A - B - Gabarito

PAULO CESAR NAOUM AC&T- 2013

Introdução à genética quantitativa usando os recursos do R

COLÉGIO PEDRO II CAMPUS TIJUCA II

Primers para PCR: Primers : oligonucleotídeos com 18 a 28 bases (fita única) escritos sempre na direção 5 3. São necessários dois primers :

WHO GLOBAL SALM-SURV NÍVEL III

Sequenciamento de Nova Geração (NGS) Msc. Frederico Schmitt Kremer // doutorando PPGB

A meus. A meus e e. e e. meus

22 DICAS para REDUZIR O TMA DO CALL CENTER. em Clínicas de Imagem

SERVIÇO PÚBLICO FEDERAL UNIVERSIDADE FEDERAL DE SERGIPE PRÓ-REITORIA DE PÓS-GRADUAÇÃO E PESQUISA PROGRAMA DE INICIAÇÃO CIENTÍFICA VOLUNTÁRIA PICVOL

Caracterização genética dos recursos animais autóctones com novas. genotipagem. Antonio Marcos Ramos

As bactérias operárias

Disciplina: Introdução à Informática Profª Érica Barcelos

CONSULTE A LISTAGEM DE TESTES MAIS ATUALIZADA NA

Uso do calcário no solo Desenvolvimento de pesticidas e fertilizantes. Máquinas a vapor substituindo a força animal

Introdução à Bioinformática. Prof.

PUCRS CURSO DE CIÊNCIAS BIOLÓGICAS Genética I AULA PRÁTICA APLICAÇÕES DAS TÉCNICAS DE PCR E ELETROFORESE DE DNA

IDENTIFICAÇÃO ESPECÍFICA E QUANTIFICAÇÃO DOS EVENTOS BT11, YIELDGARD E YIELDGARD VT PRO EM GRÃOS E FOLHAS DE MILHO.

A TERRA. Como Euclides ajudou os aliados na Segunda Guerra

Avaliando o que foi Aprendido

POLIMORFISMO DO CÓDON 72 DO GENE TP53 EM PACIENTES COM LEUCEMIA MIELÓIDE

Aula 04 Método de Monte Carlo aplicado a análise de incertezas. Aula 04 Prof. Valner Brusamarello

Introdução à Qualidade de Software. Profº Aldo Rocha

Análise de técnicas de selecção de atributos em Bioinformática

Clonagem de genes e fragmentos de DNA de interesse

AVALIAÇÃO DO USO DE AGENTES OSMÓTICOS E MICROSSATÉLITES NA SELEÇÃO DE GENÓTIPOS DE TRIGO TOLERANTES À SECA LARISSA GIROTTO

ilupas da informação e comunicação na área de Saúde entrevista

Tecnologia em Gestão Pública Desenvolvimento de Projetos - Aula 9 Prof. Rafael Roesler

(11) (21) PI A

UFG - Instituto de Informática

Variabilidade genética. Variabilidade Genética. Variação genética e Evolução. Conceitos importantes

Algoritmos Genéticos em Mineração de Dados. Descoberta de Conhecimento. Descoberta do Conhecimento em Bancos de Dados

O Impacto dos Aceleradores Expand no Consumo de Banda do Citrix Metraframe

Caracterização genômica de um vírus dengue tipo 3, isolado de paciente com dengue clássico.

Capítulo 3. Avaliação de Desempenho. 3.1 Definição de Desempenho

Preparando sua empresa para o forecasting:

1

MUTAÇÃO. O que é mutação? - Alteração no material genético.

4 Avaliação Econômica

Revista Ciência Agronômica ISSN: Universidade Federal do Ceará Brasil

Projeto de Sistemas I


3 0 ENCONTRO DE USUÁRIOS DE BI

DESENVOLVIMENTO DE UM SOFTWARE NA LINGUAGEM R PARA CÁLCULO DE TAMANHOS DE AMOSTRAS NA ÁREA DE SAÚDE

The next generation sequencing

DATA WAREHOUSE NO APOIO À TOMADA DE DECISÕES

Go To Market Estratégias de Otimização de Resultados Porque Educação Executiva Insper Cursos de Curta e Média Duração

6 Construção de Cenários

Manifolds de Distribuição

48 Como produzimos a insulina?

Simulação Computacional de Sistemas, ou simplesmente Simulação

TRAJECTA NEURO LABS G5

O que é a ciência de dados (data science). Discussão do conceito. Luís Borges Gouveia Universidade Fernando Pessoa Versão 1.

Humberto Brito R3 CCP

Os princípios e valores do ágil são a chave para o escalonamento!

Prof. Raul Sidnei Wazlawick UFSC-CTC-INE. Fonte: Análise e Projeto de Sistemas de Informação Orientados a Objetos, 2ª Edição, Elsevier, 2010.

Reduza os riscos. Reduza os custos. Aumente o desempenho.


memmolde Norte: uma contribuição para a salvaguarda da memória colectiva da indústria de moldes do Norte de Portugal

INF Introdução a Interação Humano-Computador (IHC)

Prof. Raul Sidnei Wazlawick UFSC-CTC-INE. Fonte: Análise e Projeto de Sistemas de Informação Orientados a Objetos, 2ª Edição, Elsevier, 2010.

Fábrica de Software 29/04/2015

Projeto Genoma e Proteoma

Planejamento Estratégico de TI. Prof.: Fernando Ascani

BIOLOGIA - 1 o ANO MÓDULO 08 RIBOSSOMOS E SÍNTESE PROTEICA

São Paulo (SP), 20 de julho de 2015.

MEEMF Aula 08. Inferência de tempos de divergência entre espécies

Genômica. O que chamou mais atenção no filme?

1. Avaliação de impacto de programas sociais: por que, para que e quando fazer? (Cap. 1 do livro) 2. Estatística e Planilhas Eletrônicas 3.

Prof. Daniela Barreiro Claro

COLIVRE Cooperativa de Tecnologias Livres Telefone: (71) CNPJ:

Teoria de Filas. Prof. Gustavo Leitão. Campus Natal Central. Planejamento de Capacidade de Sistemas

Farmacogenética em Transplantação

GARANTIA DA QUALIDADE DE SOFTWARE

No E-book anterior 5 PASSOS PARA MUDAR SUA HISTÓRIA, foi passado. alguns exercícios onde é realizada uma análise da sua situação atual para

4 Arquitetura básica de um analisador de elementos de redes

Protocolo em Rampa Manual de Referência Rápida

1.264 Aula 1. Introdução ao curso Lição de casa 1 Métodos de desenvolvimento de software

Transcrição:

Transformando a medicina com abordagem sistemá2ca de dados gené2cos Mauricio Carneiro Broad Ins2tute of MIT and Harvard

Sequenciadores no mercado Illumina HiSeq 2500 Padrão do mercado, maior volume de dados e qualidade por base. Referencia para sequenciamento humano. (MiSeq) Versão de bancada do HiSeq com menor volume para projetos pequenos (1 exoma por rodada) Life Technologies Ion Proton Sequenciamento por semicondutores é o principal compe2dor no mercado. Tecnologia é acurada para iden2ficação de mutações pontuais mas sofre de erros sistemá2cos em inserções e deleções. (Ion) Versão de bancada do Ion Proton. Pacific Biosciences RS II Único sequenciador com reads de até 20,000 bases e capaz de iden2ficar me2lação de bases. Excelente para montagens de pequenos genomas (microorganismos). Futuros sequenciadores com potencial de mudar o mercado Oxford Nanopores, GNUBio e QIAGEN. Histórico (em desuso) Solid, 454 e Sanger.

Total Gb produced 70 60 50 40 30 20 Sequenciamento no Broad Institute" Total Gb produced 3000 2500 2000 1500 1000 500 0 2006 2007 2008 Total Gb produced 120000 100000 80000 60000 40000 20000 0 2008 2009 2010 2011 = 500,000 Gb 2013 = 1.5 Pb 10 0 1999 2000 2001 2002 2003 2004 2005 2006 Stacey Gabriel

Sequenciamento humano para projetos de pesquisa clinica vem em 4 modelos Sequenciamento de alvos especificos (targeted) Geralmente u2lizado para iden2ficar alvos de interesse específico (ex: APOE para alzheimer) Exoma completo (WES) Típico projeto para avaliação correlação gené2ca para doenças e pequisa. (ex: diabetes, au2smo, distrofia muscular ) Genoma completo em baixa cobertura (low pass WGS) Usado para iden2ficar variação de baixa frequência em população (ex: 1000 genomes project) Genoma completo em alta cobertura (high pass WGS) Quando é preciso entender tudo* sobre um paciente (ex: avaliação clínica).

Desenho para captura de exoma Inter-genic" Exon I" Intron I" Exon II" Inter-genic" Variant site" 150x reads" Nenhuma cobertura fora do alvo" Bases sequenciadas" ~32Mb" Variantes por amostra" ~20K" Cobertura" Produção" 80%@20x" 5 Gb" % variação no genoma" 0.5%" Pr{singleton discovery}" ~95%" # lanes de HiSeq 2500" ~0.33" Pr{common allele discovery}" ~95%"

Genoma completo em baixa cobertura Inter-genic" Exon I" Intron I" Variant site" Exon II" Inter-genic" ~4x reads" Heterozigotos podem ser confundidos com homozigotos" Variantes perdidas por amostragem" Poder suficiente para encontrar sites heterozigotos" Bases sequenciadas" ~3 Gb" Variantes por amostra" ~3M" Cobertura" Avg. 4x" % variação no genoma" ~90%" Produção" 20 Gb" Pr{singleton discovery}" <50%" # lanes de HiSeq 2500" ~1.25" Pr{common allele discovery}" ~99%"

Genoma completo em alta cobertura Inter-genic" Exon I" Intron I" Variant site" Exon II" Inter-genic" ~30x reads" Excelente sensibilidade para hetero- e homozigotos" Alta cobertura permite alta definição em genotipagem" Bases sequenciadas" ~3 Gb" Variantes por amostra" ~3-5M" Cobertura" Produção" ~30x" 100 Gb" % variação no genoma" >99%" Pr{singleton discovery}" >99%" # lanes de HiSeq 2500" ~8 lanes" Pr{common allele discovery}" >99%"

Usando uma variedade de desenhos experimentais, de acordo com o obje2vo do projeto Validação de gens candidatos FHS, Pfizer, EOMI, muitos outros Cobertura por amostra Alta cobertura Alzheimer, Esquizofrenia e desenvolvimento de tecnologia Projetos de exoma completo ESP, AuDsmo, diabetes Target size ~100 genes Whole exome Whole genome Baixa cobertura 1000 Genomes, T2D GO Number of samples

ENTENDENDO DADOS DE SEQUENCIAMENTO 10

NGS cria uma oportunidade sem precedentes de caracterizar variação genética em milhares de pacientes a um custo accessível" Bases não referência são coloridas; bases referência são cinza heterozigoto C/T Primeiro e segundo par da read OBJETIVO: desenvolver algorilmos eficazes, eficientes, escaláveis e confiáveis para iden2car variantes (SNPs, indels e variação estrutural) de reads alinhadas Individual reads aligned to the genome Genoma referência

Como descobrir sites envolvidos em doença em três passos simples 1. Obter milhares de pacientes afetados e dezenas de milhares de indivíduos não afetados. 2. Sequenciar amostras Descobrir polimorfismos (SNPs, indels, etc) entre as amostras. Determinar o genó2po de todas as amostras em cada site variante. 3. Buscar diferenças sistemá2cas em genó2pos de pacientes vs individuos em todos os sites. Pacientes Amostra 1 Sequenciador NGS data 1 Amostra N Dados para todas as amostras Análise conjunta SNP Individuos NGS data N Polimorfismos Indel Pacientes 10/1000 10/1000 Individuos 25/2000 1/2000 Associação (P) 0.72 0.0001

A análise de todos os projetos começa com uma matriz quadrada de variantes x amostras Todas as amostras (casos e controles) ~3M variantes SNP Site Variante 1:10 A/C Amosra 1 0/0 0,10,100 Amostra 2 0/1 20,0,200 Amostra N 0/0 0,100,255 GenóLpos: 0/0 ref 0/1 het 1/1 hom- alt Indel CNV 1:100 T/TC 1:1000 T/<del> 0/0 0,10,100 0/0 0,10,100 0/0 0,20,200 0/1 20,0,200 1/0 255,0,255 0/0 0,100,255 X:1234 G/T 0/1 10,0,100 0/1 20,0,200 1/1 255,100,0 Verosimilhança: A probabilidade A/B/C (phred- scaled) de a amostra ser hom (A), het (B), hom- alt (C).

mas esses genomas tem que ser analisados consistentemente Genomica Clínica Um paciente afetado Comparado com vários controles vs Encontrar variantes consistentes com o modelo da doença (dominante, recessivo), normalmente condicionado nas variantes estarem ausentes / raras nos controles Genomica Muitos pacientes afetados Pesquisa Comparado com vários controles vs Encontrar variantes enriquecidos/depletados em individuos afetados, rela2vo aos controles Todos individuos devem ser consistentemente analisados, para que as diferenças entre groupos sejam por diferenças genélcas reais

Infelizmente a análise não é tão simples Processo de amostragem dificulta a análise direta Distribuição de leituras (reads) não é uniforme ou independente Algumas regiões tem redundância muito grande enquanto outras regiões possuem quase nenhuma. Sequenciadores cometem erros e tem limites Erros podem ser sistemá2cos ou aleatórios. Sequências com alto conteúdo de G/C são dirceis de manipular/ amplificar e portanto, sequenciar. Alinhamento não é perfeito O genoma tem muitas regiões copiadas, de rápida mutação e mutações estruturais (recombinações, grandes deleções, etc.)

Regiões dirceis do genoma não podem ser trivialmente análisadas manualmente

VIABILIZANDO A ANÁLISE DE DADOS GENÉTICOS 18

1000 Genomes Project Consórcio com a missão de mapear todas as variantes com frequência superior a 1% na população mundial. Começou em 2007 e influenciou a maneira de fazer pesquisa na área com 22 ins2tuições internacionais, involvendo indústria e academia. Iden2ficou imediatamente a necessidade de uma conduta mais sistemá2ca da análise e processamento de dados e 11 grupos iniciaram o desenvolvimento colabora2vo de algori2mos. Nosso grupo (GATK) representou o Broad Ins2tute nesse consórcio. Em dois anos de projeto, se tornou o padrão internacional. Nenhum individuo da america la2na

GATK (Genome Analysis Toolkit)" O que é o GATK:" Um kit de ferramentas para análise de dados genéticos produzido e distribuído lívre e aberto pelo Broad Institute." O GATK também é uma plataforma de desenolvimento." Impacto! uso do GATK desde 9/10 5M jobs, 50K CPU/dias em Dez Mais de 700 ferramentas (muitas desenvolvidas fora do Broad Institute)." Várias ferramentas do GATK são hoje o padrão na indústria para análise de dados genéticos." Mais de 3,000 visitas únicas por dia no site do GATK." Principal tecnologia em grandes projetos: 1000 Genomes, TCGA, ESP e a maioria dos grandes projetos financiados pelo NHGRI" Base para o Archon X Prize, Genomes in a Bottle e outros padrões internacionais de referência"! Publicações! DePristo et al. A framework for variation discovery and genotyping using next-generation DNA sequencing data. (2011) Nat. Genet." McKenna et al. (2010) The Genome Analysis Toolkit: a MapReduce framework for analyzing next-generation DNA sequencing data. Genome Res.!

Análise de variação de SNP e Indels é um 4 problema SNP calling de modelagem bayesiana" Prior do Verossimilhança do 4.1 Simple genotype likelihoods for presentations genótipo" genótipo" Modelo Bayesiano Pr{G} Pr{D G} Pr{G D} =, [Bayes rule] premissa i Pr{G i } Pr{D G i } diplóide" Pr{D G} = Pr{D j H 1 } + Pr{D j H 2 } where G = H 1 H 2 2 2 j Pr{D H} is the haploid likelihood function 21" Inferencia: 4.1.1 SNP qual haploid é o genó2po likelihood G de cada amostra dado a observação das reads D para cada amostra? Calcula- se via lei Pr{D de Bayes j H} a = probabilidade Pr{D j b}, [single de todos base os pileup] G possíveis Expansão produtorial assume que 1 as reads são independentes j D Pr{D j b} = j = b, Depende de uma função de versossimilhançapara j otherwise. es2mar a probabilidade de cada amostra dado um haplo2po candidato 4.1.2 Indel haploid likelihood Veja http://www.broadinstitute.org/gatk para mais informações

Análise de multiplas amostras integra as verossimilhanças para estimar a frequência de variação" Reads de todas as amostras! Amostra 1" Verossimilhança de genótipos" Frequência alélica" Amostra 2" Estimativa conjunta de amostras" SNPs " e" Indels" Amostra N" Frequência genotípica" Es2ma2va simultânea de: Espectro de frequência alélica Pr{AF = i D} A probabilidade que a variante existe Pr{AF > 0 D} Designação de genó2pos para cada amostra Demostração matemática em: Li, Heng (2011) Bioinformatics 22"

Dificuldades da avaliação dos genó2pos usando a modelagem Bayesiana O alinhamento das reads não concordam em eventos de inserção/deleção principalmente em zonas de alta ambiguidade (ex: homo- polímeros) A função de verossimilhança (que depende da eslmalva de erro para cada base nas reads) não possuía a acurácia necessária para dis2nguir erro de variação real Apesar do rigor esta}s2co, falsas variantes são impossíveis de ser detectadas com uma visão local dos dados.

Melhor alinhamento através de realinhamento local de inserções e deleções" Phase 1:! NGS data processing! Effect of MSA on alignments NA12878, chr1:1,510,530-1,510,589 Input Raw reads rs28782535 rs28783181 rs28788974 rs34877486 rs28788974 Mapping Local realignment 1,000 Genomes Pilot 2 data, raw MAQ alignments 1,000 Genomes Pilot 2 data, after MSA Duplicate marking Base quality recalibration Output Analysis-ready reads HiSeq data, raw BWA alignments HiSeq data, after MSA DePristo, M., Banks, E., Poplin, R. et. al, (2011) A framework for variation discovery and genotyping using next-generation DNA sequencing data. Nat Genet.! 24"

Melhor estimativa de erro através de análise sistemática de probabilidades de cada base" Empirical Quality 0 10 20 30 40 Phase 1:! NGS data processing! Input Roche/454 Illumina/GenomeAnalyzer Life/SOLiD Illumina/HiSeq Roche/454 2000 Raw reads Mapping Original, RMSE = 2.556 Recalibrated, RMSE = 0.213 Local 0 10 realignment 20 30 40 Reported Quality Empirical Quality 0 10 10 20 20 30 30 40 40 Original, RMSE = 5.242 1.215 Recalibrated, RMSE = 0.196 0.756 0 10 20 30 40 Reported Quality Empirical Quality 0 10 10 20 20 30 30 40 40 Original, RMSE = 2.556 5.634 Recalibrated, RMSE = 0.213 0.135 0 10 20 30 40 Reported Quality Empirical Quality 0 10 20 30 40 0 Accuracy (Empirical Reported Quality) 10 5 0 5 10 Duplicate marking Original, RMSE = 1.784 Recalibrated, RMSE = 0.136 Base quality recalibration 0 50 Analysis-ready 100 150 200 Output reads Machine Cycle Accuracy (Empirical Reported Quality) 10 5 5 0 5 10 10 Second of pair reads Original, RMSE = 2.207 1.688 Recalibrated, RMSE = 0.186 0.213 0 305 20 10 10 15 020 10 25 20 30 30 35 Machine Cycle First of pair reads Accuracy (Empirical Reported Quality) 10 5 5 0 5 10 10 Second of pair reads Original, RMSE = 1.784 2.609 Recalibrated, RMSE = 0.136 0.089 100 0 50 1000 150 200 100 Machine Cycle First of pair reads Ryan 25" Poplin DePristo, M., Banks, E., Poplin, R. et. al, (2011) A framework for variation discovery and genotyping using next-generation DNA sequencing data. Nat Genet.! Accuracy (Empirical Reported Quality) 10 5 0 5 10 S 30 Quality) 10 Original, RMSE = 2.169 Recalibrated, RMSE = 0.135 d Quality) 10 10 Original, RMSE = 2.598 1.656 Recalibrated, RMSE = 0.052 0.088 d Quality) 10 10 Original, RMSE = 2.169 2.469 Recalibrated, RMSE = 0.135 0.083 d Quality) 10

Usando machine learning para iden2ficar falsas variantes devido a erro/bias de sequenciamento" Treina- se Gaussian mixture model de covariantes de erro usando sites de variantes validadas Re- avaliação de novos sites através de consistência com GMM clusters DePristo, M., Banks, E., Poplin, R. et. al, (2011) A framework for variation discovery and genotyping using next-generation DNA sequencing data. Nat Genet.! 26"

Enfim, um best prac2ces pipeline para análise Extended BQSR * X! Haplotype Caller * Reduce Reads * Veja http://www.broadinstitute.org/gatk para mais informações

QUEBRANDO AS LIMITAÇÕES DE HOJE 28

Associação gené2ca de esquizofrenia Projeto começou logo após o sequenciamento do genoma humano com ~100 pacientes e não encontrou nenhuma correlação gené2ca significa2va. Após segunda etapa de financiamento, projeto expandiu para 700 pacientes e 4 gens (figura abaixo) se mostraram potenciais candidatos significa2vos, outros ainda sem evidencia suficiente Limitações computacionais impediram a análise da 3ª fase do projeto com ~18,000 pacientes que confirmaria os gens candidatos.

Entendendo as limitações computacionais Processamento de 14,000 exomas precisa manipular 280,000 Gb de dados (280Tb) Outros projetos no Broad Ins2tute já estão sequenciando mais de 30,000 exomas para estudos de associação (ex: Diabetes 2po 2), isso equivale a 600Tb de dados. O obje2vo de processar 1M de exomas até o final de 2013 traduzem em 20Pb. Cada amostra precisa passar por todas as etapas de processamento (best prac2ces pipeline) que envolve aproximadamente 2-4 cpus/dia de computação por exoma, traduzindo em 28,000-60,000 cpus/dia só de processamento (fora análise conjunta que é inviável em termos de memória e processamento atualmente). Esses números seriam na ordem de petabytes (18Pb para diabetes) se os dados fossem do genoma completo. PerspecLva: A base de dados completa de busca web do Google é de 850Tb Tipo de dado Exoma completo Genoma completo (30x) Tamanho em disco ~20Gb ~600Gb

Um algoritimo para reduzir a representação de dados genéticos! Tamanho original ~ 20 GB (exome) Tamanho reduzido ~ 100-200 MB Compressão ~ 50x- 100x SNP calling mesmo Indel calling mesmo Tempo de execução >50x faster Consistent reads are reduced to consensus Full BAM" Reduced BAM" Diversity among reads is preserved for further analysis Usando esse algorilmo, o projeto de esquizofrenia idenlficou 78 gens com alta confiança (p < 10^- 20) e iniciou um projeto de análise de genoma completo. M. Carneiro and M. DePristo patent number: PCT/US13/31429 (2012)!

Quais são as dificuldades que enfrentamos hoje? Limitações técnicas Falta de cobertura em regiões importantes do genoma (gens associados a doenças!) Processo de erro complexo Ainda confunde- se erro de sequenciamento com variantes reais. (falso posi2vos) Procedimento tem que ser muito conservador, e força a perda de variantes reais em regiões dirceis (falso nega2vos) Limitações analílcas Mal interpretação de regiões dirceis com os modelos atuais. Inserções, deleções e variantes estruturais ainda são o grande desafio. Não há poder estapslco para iden2ficar associação em estudos gené2cos. Precisamos analizar mais amostras Para isso, é necessário que abaixe o custo de sequenciamento e o agregamento de dados já existentes no mundo. Variante SNPs Indels curtos Indels longos Taxa de validação média 99% 80% 50%

AAAAA context suffix Empirical gap open penalty 0 10 20 30 40 50 AAA AAC AAG AAT ACA ACC ACG ACT AGA AGC AGG AGT ATA ATC ATG ATT CAA CAC CAG CAT CCA CCC CCG CCT CGA CGC CGG CGT CTA CTC CTG CTT GAA GAC GAG GAT GCA GCC GCG GCT GGA GGC GGG GGT GTA GTC GTG GTT TAA TAC TAG TAT TCA TCC TCG TCT TGA TGC TGG TGT TTA TTC TTG TTT ReadGroup 20FUK.1 20FUK.2 20FUK.3 20FUK.4 20FUK.5 20FUK.6 20FUK.7 20FUK.8 PacBio 33" HiSeq" PacBio" Taxa de erro de indel varia em diferentes plataformas! R. Roberts, M. Carneiro. Genome Biology, In Print 2013.

Expandindo o conceito de probabilidade de erro empírica em cada base para indels! Base Substitution Base Insertion Base Deletion Recalibration Recalibrated Empirical Quality Score 50 40 30 20 10 BQSRv2 log10(nbases) 4 5 6 7 8 10 20 30 40 50 10 20 30 40 50 Reported Quality Score 10 20 30 40 50 9 Base Substitution Base Insertion Base Deletion Quality Score Accuracy 4 2 0 2 4 6 Recalibration Recalibrated BQSRv2 log10(nbases) 6.75 6.80 6.85 100 50 0 50 100 100 50 0 Cycle Covariate 50 100 100 50 0 50 100 Quality Score Accuracy 2 0 2 4 6 8 34 Base Substitution AAA AAC AAG AAT ACA ACC ACG ACT AGA AGC AGG AGT ATA ATC ATG ATT CAA CAC CAG CAT CCA CCC CCG CCT CGA CGC CGG CGT CTA CTC CTG CTT GAA GAC GAG GAT GCA GCC GCG GCT GGA GGC GGG GGT GTA GTC GTG GTT TAA TAC TAG TAT TCA TCC TCG TCT TGA TGC TGG TGT TTA TTC TTG TTT Base Insertion AAA AAC AAG AAT ACA ACC ACG ACT AGA AGC AGG AGT ATA ATC ATG ATT CAA CAC CAG CAT CCA CCC CCG CCT CGA CGC CGG CGT CTA CTC CTG CTT GAA GAC GAG GAT GCA GCC GCG GCT GGA GGC GGG GGT GTA GTC GTG GTT TAA TAC TAG TAT TCA TCC TCG TCT TGA TGC TGG TGT TTA TTC TTG TTT Context Covariate Base Deletion AAA AAC AAG AAT ACA ACC ACG ACT AGA AGC AGG AGT ATA ATC ATG ATT CAA CAC CAG CAT CCA CCC CCG CCT CGA CGC CGG CGT CTA CTC CTG CTT GAA GAC GAG GAT GCA GCC GCG GCT GGA GGC GGG GGT GTA GTC GTG GTT TAA TAC TAG TAT TCA TCC TCG TCT TGA TGC TGG TGT TTA TTC TTG TTT Recalibration Recalibrated BQSRv2 log10(nbases) 6.5 7.0 7.5 8.0

Usando de novo assembly local para propor haplotypes para o modelo de identificação de variantes! Travessia do grafo enumera os possiveis haplo2pos. Cada aresta contém o peso do número de reads que dão evidencia para cada k- mer 35 Assembly of large genomes using second- generadon sequencing. Schatz. Genome Research. 2010.

We often find consistent (artifactual) alleles at the sites of larger events because they cannot be properly modeled by the mappers! Original BWA alignments Mul2ple caller ar2facts that are hard to filter out, since they are well supported by read data Alignments showing the actual allele Validated 30bp deletion! Chr12:15296246 GTGTGTATGTAAATATATACATACACACAT/- 36

Novos algori2mos aumentam significa2vamente a precisão de regiões dirceis e indels Tipo de variante Validação anlga (gold standard) SNPs 99% 99% Indels curtos 80% 97% Indels longos 50% 93% Novos algorilmos (2013) Todos esses programas já estão disponíveis na úllma distribuição do GATK (versão 2.5), e o desenvolvimento tem sido intenso nos úllmos meses.

Agregando dados O FUTURO DO SEQUENCIAMENTO DE DADOS MÉDICOS

O maior limite hoje é o tamanho da amostra Suponha o sequenciamento de 500 pacientes com Alzheimer. A descoberta de um indel que causa perda de função em um gene ligado ao cérebro está presente em 10 pacientes O que eu posso dizer sobre a relação da variante com a doença? Associação da variante 20:12345 C/CAT indel com risco de Alzheimer's (exemplo fic}cio) Comparação Usando só 500 pacientes Contra 500 controles Contra 1K controles Contra 10K controles Contra 100K controles Pacientes afetados 10/1000 10/1000 10/1000 10/1000 10/1000 Controles None 0/1000 1/2000 10/20000 100/200000 Associação (P- value) None 10^- 2 10^- 4 10^- 8 10^- 10 O que eu aprendi? Eu deveria ter sequenciado controles Nem remotamente significa2vo Indis2nguível do ruído Pra2camente significa2vo! Descoberta importante!!

Agregação de dados gené2cos em massa: o futuro da medicina gené2ca Custo de sequenciamento já caiu 1 milhão de vezes, e permi2u a explosão de sequenciamento sobre a base gené2ca de doenças Através da agregação de todos os dados clínicos sequenciados do mundo, será possível acelerar dras2camente o processo de descoberta. exemplo, doenças gené2cas raras afetam 100 crianças nascidas por ano. Cada hospital vê zero ou um caso. Sozinhos, nada é aprendido. Combinados, o resultado é evidente. exemplo, o poder de associar variantes com doenças aumenta dras2camente com o número de amostras de controle. Amostras afetadas podem ser usadas como controle para outras doenças. Dados gené2cos agregados vão ser necessários para guiar a interpretação da medicina diagnós2ca do futuro para toda a prá2ca clínica

O desafio dessa geração Comunidades cien}fica, médica e de pacientes ainda não estão organizadas para concre2zar essa oportunidade e nem sequer estão seguindo esse caminho. Dados vivem em silos: por ins2tuições, doenças, tecnologia u2lizada, projetos, sem visibilidade mútua. Não existem procedimentos regulatórios para viabilizar o compar2lhamento de informação médica e gené2ca, nem sequer para pesquisa. Não existe exper2se e capacitação computacional nem padronização mundial para que os resultados tenham relevância em compar2lhamento Como uma comunidade precisamos construir uma plataforma para armazenar, processar, analisar e interpretar uma quan2dade extraordinária de dados gené2cos para pesquisa e aplicações clínicas