Uso do sequenciamento genômico no melhoramento de bovinos leiteiros Flávio Schenkel Professor e Diretor XI Simpósio Brasileiro de Melhoramento Animal Santa Maria, Brasil 7 de Setembro de 2015
APS Localização Departamento de Animal & Poultry Science (APS) Novo nome: Departamento de Animal Biosciences Food Agriculture Communities Environment www.aps.uoguelph.ca
APS Departamento Disciplinas básicas do APS Nutrição Animal Fisiologia Animal Incl. Biol. Mol. Comportamento & Bem-estar Animal Melhoramento Genética & Genômica Qualidade de Produto Animal Fan McBride Li Bedecarrats Widowski Mason Schenkel Karrow Mandell Squires Smith Bureau Squires Karrow Harlander De Vries Robinson Baes McBride Cant De Lange De Vries Cant McBride Fan Merkies Canovas Mallard Squires Bureau Osborne France 10 Adjuntos
APS Pesquisa e Ensino O departamento mais intensivo em termos de número de estudantes e pesquisa na Universidade de Guelph Graduação 700 BSc Biologia Animal 98 BSc Agricultura 98 BBRM Equino Pós-graduação 43 PhD 39 MSc por tese 38 MSc por curso (50% domésticos) (90% domésticos) (~100 domésticos) Pesquisa $6-8 milhões anualmente, colaboração próxima com a indústria
CGIL Nosso Centro Centro para Melhoramento Genético de Animais de Produção http://cgil.uoguelph.ca https://www.facebook.com/cgil.group
CGIL Docentes/Pesquisadores
Introdução Grande potencial para: Sequenciamento Desvendar estrutura genética e ação gênica. Identificação de variantes/haplótipos recessivos/ deletérios e os animais portadores. Selecionar SNPs/haplótipos para predição genômica. Adaptar painéis de genotipagem comerciais. Reduzir o viés devido a seleção das SNPs em painéis comerciais.
Introdução Sequenciamento Limitantes: Grande investimento financeiro inicial. Muito exigência computacional e de armazenamento. Necessidade de ferramentas novas para uso prático e rotineiro.
Genômica Eventos Chaves Evento Ano Sequenciamento completo do genoma bovino (vaca Hereford) 2004 Painel de 10k SNP da Parallele 2006 - Pesquisa genômica básica; Primeiras predições genômicas 2006/07 Painel de 50k SNP da Illunina 2007 - Primeira avaliação genômica oficial (HO, JE) 2009 Painel de 3k SNP da Illumina 2010 - Primeira avaliação genômica oficial com genótipos imputados 2010 Painel de 777k e 6k SNP da Illumina 2011 - Imputação de genótipos de alta densidade 2011 Sequenciamento dos primeiros ancetrais chaves de HO 2012
Genômica Eventos Chaves Evento Ano Sequenciamento > 2012-25 animais sequenciados por raça (n=10) - Pesquisa básica; Primeiros testes de imputação - Colaboração com o projeto Genoma de 1000 touros - Mais pesquisa e desenvolvimento em imputação e reconstrução de haplótipos Mapeamento usando haplótipos ao nível de sequência 2015 - Primeiros resultados Avaliação genômica melhorada pela informação do sequenciamento - Muito por fazer > 2015
Projetos de Sequenciamento Seleção Genômica via imputação genômica ampla Touros chave Touros elite Sequenciamento 25/raça Genotipagem de alta densidade 480/raça Animais com fenótipos diferenciados Genotipagem de baixa densidade 560/raça Colaboração com o projeto Genoma de 1000 touros
Pesquisa Processamento Dados brutos de sequência 1000 Bull Genomes Project Arquivos BAM WestGrid HPC Dados brutos NCBI SRA Arquivos VCF contendo genótipos dos animals do projeto além de centenas de outros Imputação Arquivos VCF Mapeamento, predição genômica, etc.
Projeto 1000 Bull Genomes Resultados Rodada 5 Rodada 5 Taurus 39.7 milhões de variantes filtradas ~ 34 raças 38.1 milhões SNPs 1.7 milhões indels Rodada 5 Taurus + Indicus 67.3 milhões de variantes filtradas ~ 55 raças 64.8 milhões SNPs 2.5 milhões indels (Fonte: Hayes et al. 2015. Slides)
Projeto 1000 Bull Genome Resultados Rodada 5 (Fonte: Hayes et al. 2015. Slides)
Resultados Armazenamento Cada amostra sequenciada exige: - 60 GB de dados (30 GB arquivo FASTQ and 30 GB arquivo BAM) para armazenamento de dados brutos e fragmentos mapeados. - 0,5 GB Para arquivos adicionais, tais como relatórios de CQ e arquivo de genótipos (arquivos VCF) Total para 100 animais: ~ 6 TB
Resultados Tempo de processamento Cada amostra com cobertura de 10x exige ~ 300 horas de núcleo de processamento (core) para alinhamento dos fragmentos. Descoberta de variantes e genotipagem exige ~3.000 horas de núcleo de processamento. Total para 100 animais: ~ 33.000 horas de núcleo de processamento.
Computação Evolução dos servidores no APS Antes da genômica (2008) - 1 servidor principal ( 64 Gb ram, Intel(R) Xeon(R) CPU @ 2.93GHz, 16 núcleos de processamento) - 24 Tb de armazenamento Atual (2015) - 5 servidores principais (96-256 Gb ram, Intel(R) Xeon(R) CPUs @ 2.80-3.47 GHz, 24-32 núcleos de processamento) - 2 phi co-processadores com 240 núcleos de processamento cada um. - 236 Tb de armazenamento
Resultados Cobertura Alta x Baixa Depende do objetivo da pesquisa/uso, mas: Cobertura alta permite: - Obter genótipos acurados para os animais sequenciados - População referência para imputação - Permite validação da imputação Entretanto é ainda muito cara: ~ $ 2,500-3000/animal (10x) Poucos animais sequenciados Variantes raras não são amostradas
Cobertura Cobertura Alta x Baixa NCBI Sample ID Reads Fold Coverage HD Panel Concordance SAMN01758080 2,841,382,492 36.31 99.09% SAMN01758046 2,528,112,108 31.03 98.72% SAMN01758070 756,626,530 9.48 95.98% SAMN01758055 702,001,174 9.24 95.90% SAMN01758053 674,237,812 8.39 94.31% SAMN01758064 576,441,084 8.13 94.30% SAMN01758054 628,636,350 8.04 94.29% SAMN01758048 618,550,964 7.91 94.45% SAMN01758049 612,347,522 7.60 93.08% SAMN01758050 580,876,782 7.53 94.05% SAMN01758091 536,980,248 7.38 93.96% SAMN01758090 509,582,292 7.04 93.67% SAMN01758101 533,606,072 7.02 93.04% SAMN01758093 505,796,680 6.90 93.70% SAMN01758103 510,247,444 6.86 93.33% SAMN01758095 507,536,290 6.72 92.42% SAMN01758092 488,411,580 6.68 93.00% SAMN01758096 503,725,634 6.65 92.61% SAMN01758083 494,417,658 6.54 91.80% SAMN01758102 477,614,052 6.39 92.54% SAMN01758058 506,217,984 6.33 91.23% SAMN01758089 471,917,448 6.31 92.35% SAMN01758057 487,158,392 6.08 90.87% SAMN01758086 460,583,410 5.96 92.02% SAMN01758094 429,695,948 5.80 91.79% SAMN01758059 448,783,690 5.72 90.97% SAMN01758081 429,560,564 5.66 90.96% SAMN01758087 441,228,360 5.63 91.52% SAMN01758069 445,437,312 5.53 91.11% SAMN01758052 412,856,350 5.27 89.23% SAMN01758062 403,662,558 5.08 89.95% SAMN01758063 389,097,066 4.84 90.13% SAMN01832036 442,797,050 4.72 82.88%
Resultados Cobertura Alta x Baixa Cobertura baixa: - Genótipos dos animais sequenciados não são acurados - Não permite validação da imputação Entretanto é barato: ~ $ 250-300/animal (<1x) Muitos animais sequenciados - Imputação acurada - Amostragem de variantes raras
Resultados Acurácia da imputação De alta densidade (Affymetrix 777k) para sequência Raça REF IMP VAL Tempo Concordância R 2 alélico Alberta Composto 1133 379 13 15:48:31 94.91 92.30 Angus 1125 469 21 17:19:35 95.67 93.37 BeefBooster 1121 478 25 15:33:17 94.15 91.44 Charolês 1121 474 25 15:24:19 89.98 85.09 Gelbvieh 1120 417 26 15:48:47 93.69 90.48 Guelph Composto 1116 504 30 14:48:39 94.78 92.21 Hereford 1121 476 25 14:56:53 91.48 86.27 Holandês 1119 446 27 15:09:17 96.07 94.31 Limousin 1116 461 30 15:46:38 91.32 87.09 Simental 1125 417 21 16:20:06 91.25 87.11 Todas as estatísticas baseadas em SNPs with MAF>0 dentro de cada raça.
Resultados População de referência: n= ~1120 Multiracial, alta cobertura (~ 8x) Variantes raras provavelmente ausentes Tamanho da amostra
Resultados Acurácia da imputação Usando sequenciamento de baixa cobertura
Resultados (Fonte: VanRaden et al. 2015 BMC Genetics 16:82)
Resultados População de referência: Baixa cobertura (~ 1-2x) n= grande Variantes raras estão mais provavelmente presentes
Haplótipos Com dados de sequência, haplótipos estão tornando-se ainda mais relevantes: - Mutações recentes (haplótipos longos) versus antigas (haplótipos curtos) - Identificação de variantes recessivas/deletérias - Parentesco genômico baseado em haplótipos - Predições genômicas utilizando haplótipos - Mapeamento fino/análise de associação utilizando haplótipos
Reconstrução de Haplótipos Comparação da acurácia FImpute Findhap Beagle Impute2 (160 states) Shapeit (100 states) Shapeit (200 states) Base + Anc 99.44 97.46 99.49 99.46 98.12 98.90 Base + Touros + Anc 99.86 97.43 99.67 99.46 98.02 98.85 Base + Touros + Vacas + Anc 99.97 97.42 99.83 99.42 97.64 98.63 Base + Anc + Ped 99.44 97.46 99.49-98.13 99.50 Base + Touros + Anc + Ped 99.67 99.31 99.71-98.94 99.74 Base + Tpuros + Vacas + Anc + Ped 99.99 99.72 99.90-99.11 99.80 Base= Animais referência básicos (n=9266); Anc= ancestrais com 40 filhos (n=404); Touros= touros pais do animais Base (n=453); Vacas= vacas mães dos animais Base (n=3377); Ped= animais do pedigree (Fonte: Younes Miar, manuscrito em preparação)
Reconstrução de Haplótipos Eficiência de computação (BTA 13 somente) FImpute Findhap Beagle Impute2 (160 states) Shapeit (100 states) Shapeit (200 states) Base + Anc 0:1:57 0:0:21 1:26:00 21:55:14 10:40:37 32:25:56 Base + Touros + Anc 0:1:58 0:0:29 1:58:00 23:15:23 11:25:50 44:23:21 Base + Touros + Vacas + Anc 0:2:09 0:0:32 4:39:00 36:38:03 18:38:26 46:58:17 Base + Anc + Ped 0:2:35 0:0:22 1:30:00-20:04:10 49:59:20 Base + Touros + Anc + Ped 0:2:24 0:0:27 1:40:00-21:13:14 48:29:52 Base + Tpuros + Vacas + Anc+ Ped 0:3:09 0:0:31 4:17:00-44:55:11 83:10:50 Base= Animais referência básicos (n=9266); Anc= ancestrais com 40 filhos (n=404); Touros= touros pais do animais Base (n=453); Vacas= vacas mães dos animais Base (n=3377); Ped= animais do pedigree (Fonte: Younes Miar, manuscrito em preparação)
Genômica LPI médio Impacto da Seleção Genômica Gado Holandês no Canada (Fonte: CDN) 2400 2200 2000 1800 1600 1400 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 Ano de nascimento Ganho genético realizado de 0.15 DP (2009) a 0.33 DP (2014) por ano
Genômica Seleção Genômica Oportunidades e Dificuldades Com genômica, mais oportunidade para identificar famílias previamente ignoradas para gerar futuros touros Um gama maior de touros oferecidos ao produtores leiteiros Entretanto, maior progresso genético associado com: Intervalo de gerações menor Taxa de endogamia por ano mais alta Sem tempo para a seleção contra-balançar os efeitos negativos da endogamia Netos de avós ainda não provados
Genômica Seleção Genômica Consequências Esquema de seleção Endogamia por geração (%) Intervalo de gerações (anos) Endogamia por ano (%) Mudança genética por geração Convencional 1.15 4.74 0.24 22.38 Genômico: Turbo 0.74 2.38 0.31 45.11 (Adaptado de Buch et al. 2012. J. Anim. Breed. Gen. 129: 138 151)
Genômica Impacto da Seleção Genômica Co-seleção de haplótipos Pedigree Genômico ctgtagcgatcg atgtcgctcacg Animal 1 Animal 2 ctgtctagatcg atggatcgatcg ctgtagcgatcg Touro cgatctagatcc agagatcgatcg Vaca atgtcgctcacg atagatcgatcg Pai do Touro ctgtagcttagg agggcgcgcagt Mãe do Touro cgatctagatcc cggtagatcagt Pai da Vaca agagatcgatcg atggcgcgaacg Mãe da Vaca ctatcgctcagg Pressão de seleção maior em partes do genoma (haplótipos)
Genômica Impacto da Seleção Genômica Co-seleção de haplótipos Calcular endogamia por segmentos cromossômicos ao invés de por locus individuais (Pryce et al. 2012). (Fonte: Pryce et al. 2012. JDS 95 :377 388)
Endogamia Genômica Genomic Research Impacto da Seleção Genômica Endogamia genômica (pedigree x verdadeira) 0,25 IBD_T F ave IBD_Q h 2 = 0.30 0,2 0,15 0,1 0,05 0 1 1 2 3 3 4 5 6 7 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 25 26 28 29 Genoma IBD_T= IBD verdadeira, F= endogamia-pedigree, AVE IBD_Q= IBD média nos QTLs (Fonte: Stachowicz (2010) Ph.D. thesis, U of Guelph)
Genômica Seleção Genômica Sob seleção genômica controlar endogamia usando relações de pedigree ou genômicas tem eficácias diferentes no controle da endogamia genômica Endogamia Target Mudança Genetic Pedigree Endogamia Genomic Endogamia Inbreeding alvo genética Change Inbreeding pedigree Inbreeding genômica Controlando endogamia baseada no pedigree 0.010 3.3 0.010 0.030 Controlando endogamia baseada no genoma 0.010 2.4 0.007 0.010 (Adaptado de Sonesson et al. 2010. 9 th WCGALP)
Detecção de variantes Esquemas de teste de progênie estão em desuso + Intervalo de gerações curto + Taxa de endogamia mais alta Touros jóvens usados mais intesivamente sem progênie avaliada Detecção e teste para variantes recessivas/ deletérias tornou-se fundamental
Mapeamento Estudo de associação genômica ampla usando genótipos do sequenciamento Produção de leite, BTA 14, usando 50k, 777k ou sequência e genótipos ou haplótipos
Arquitetura genética Resposta imunológica Mediada por Anti-corpo Mediada pela célula Genes maiores + Poligenes Poligenes (Fonte: Thompson-Crispi et al. BMC Genomics 2014, 15 :559)
Predições Genômicas é = vetor de efeitos das SNPs = vetor de efeitos genômicos é = Matriz the parentesco genômico
Predições Genômicas A acurácia dos valores genômicos preditos podem resultar completamente do parentesco genético capturado pelos marcadores e, portanto, pode variar através das gerações devido ao desequilíbrio de ligação capturado dentro das famílias.
GBS Genotipagem por Sequenciamento Baixo custo, muito promissora - Aleatória Animais com um conjunto de genótipos para diferentes SNPs Imputação - Em areas pré-determinadas Animais com um conjunto mais similar de genótipos das SNPs
GBS Genotipagem por Sequenciamento Na Nova Zelândia: AgResearch esta desenvolvendo uma plataforma para genotipagem por sequenciamento capaz de genotipar 16 mil animais por dia para > 60 mil marcadores. Custo sem Bioinformática: ~ $15-20/animal Imputação será necessária para conectar painéis e plataformas diferentes próximo passo
Ferramentas Novas SNPPLD + Gebv + Sleuth + edição de dados Fimpute será incluído
Ferramentas Novas SNP1101 permite: Avaliação da qualidade dos genótipos Análise de pedigree, incluindo teste de parentesco Análise de disequilibrio de ligação Cálculo do parentesco baseado no pedigree e na informação genômica Estimação de valores genéticos genômicos por Gblup e Rblup
Ferramentas Novas SNP1101 permite: Aproximação da acurácia dos valores genômicos preditos Análise de componentes principais rápida Análise de associação genômica ampla Estimação de componentes de variância (REML)
Considerações Finais O uso de informação do sequenciamento permitirá: Obtenção de valores genéticos estimados optimizados pela: - Incorporação de informação funcional na predições genômicas - Uso de informação de haplótipos Estimação de efeitos de variantes raras - Maior número de animais sequenciados
Considerações Finais O uso de informação do sequenciamento permitirá: Identificar e manejar variantes/haplótipos recessivos/deletérios Utilizar informação da endogamia genômica nas decisões seletivas Desvendar a arquitetura genética das diferentes características
Considerações Finais O uso de informação do sequenciamento exige: Grande capacidade computatiocal e de armazenamento instaladas Habilidade em genômica quantitativa e bioinformática Novas ferramentas Recursos financeiros Colaboração entre grupos nacionais e internacionais é uma condição necessária
Agradecimentos - Organizadores do Simpósio - Aos colegas e colaboradores e agências financiadoras dos projetos
Muito Obrigado Perguntas?