Estudo da Variabilidade Genética com Apoio do R Joanlise Marco de Leon Andrade UNB Júlia Maria Pavan Soler IME/USP Suely Ruiz Giolo Dest/UFPR Mariza de Andrade - Mayo Clinic, Rochester, USA
Dogma da Biologia: Entender Variabilidade
Variabilidade em Populações Resposta a Medicamentos Distribuição de Pacientes em que o Medicamento Não é Eicaz Ensaios Clínicos Farmacológicos Medicina (Mais) Personalizada http://www.cpgr.org.za/precision-medicine-in-south-arica-a-cost-beneit-analysis-ramework/
Variabilidade em Populações Peris Individuais Pressão Sistólica de Ratos F no Basal, Após Dieta com Sal e Após Tratamento com Captopril (Projeto do LGCM-InCor)
Objetivos Entender Varialibidade Genética Oicina 1: Delineamentos com Indivíduos Não Relacionados e Fenótipos Quantitativos Oicina : Delineamentos com Indivíduos Relacionados (Famílias) e Fenótipos Quantitativos 1 3 4 5 6 7
Amostragem em Duas Fases População Alvo Indivíduos são amostrados de P Marcadores Moleculares são amostrados dos indivíduos (Plataormas comerciais) Em breve: Censo do genoma/sequenciamento (WGS - Whole Genome Sequencing) 6
Estrutura do Genoma Humano Projetos Genoma Humano 30.000 genes (.500 cm) 3 bilhões bases ( 6 bilhões bp) Variações genômicas (10 7 SNPs)
http://projects.tcag.ca/variation/ Existem Variações ancestrais no genoma que podem ser usadas como Marcadores Moleculares úteis para Amostrar o Genoma Variante do comprimento de uma sequência (Microsatélites) ATGGCCTTAACCCACACACCGATTATCAG ATGGCCTTAACCCA... CACCGATTATCAG Variante de inserção/deleção ATGGCCTTAACCCGATCCGATTATCAG ATGGCCTTAACCC _CCGATTATCAG Substituição de Bloco ATGGCCTTAACCCCCGATTATCAG ATGGCCTTAACAGTGGATTATCAG Variante de Inversão ATGGCCTTAACCCCCGATTATCAG ATGGCCTTCGGGGGTTATTATCAG Variante do número de cópias (CNVs) Variante de único nucleotídeo (SNPs) ATGGCCTTAACCCGATTATCAG ATGGCCTTAACCCGATTATCAG ATGGCCTTAACCCGATTATCAG ATGGCCTTAACCCCCGATTATCAG ATGGCCTTAACCTCCGATTATCAG
Marcadores Moleculares - SNPs Single Nucleotide Polymorphisms Chips de marcadores/genes para cada indivíduo SNP: common variants (MAF>1%) 10 6, 10 6 SNPs Processamento da Imagem Capacidade: 96 chips por vez AA Genotipagem para cada SNP: Aa aa X i 0 se aa 1se Aa se AA
Estrutura do Genoma Equilíbrio de Hardy-Weinberg (EHW): independência dentro do loco: A a P P P aa Pa Aa PAPa AA PA (Falconer e Mackay, 1996) Testes usados no Controle de Qualidade dos dados genéticos Equilíbrio de Ligação (LD): independência entre locos P Aa Bb PAa PBb PAPaPBPb Teste entre genótipos (n) A B a b P P P P A B PAPB A b PAPb a B PaPB a b PaPb Teste de ligação entre alelos (n) (cromossomos/haplótipos) 10
Estrutura do Genoma Variabilidade entre Populações Dependência entre Locos: Estimativas do Tamanho de Janelas de Dependência Genômica em Dierentes Populações (no. Médio de SNPs em LD)
Estrutura do Genoma Variabilidade ENTRE Populações Variabilidade DENTRO do Genoma Indicação das janelas de tamanho maior que 1 SNPs.
Oicina 1: Entendendo Variabilidade Genética Estudos com Indivíduos Independentes Gerar dados de genótipos de uma variável SNP (como?) Gerar variáveis quantitativas a partir dos genótipos (como?) Testar o eeito (FIXO) do SNP Ajustar modelos Uni e Multi Locos! 13
Banco de Dados Estudos Genômicos E(Y X), Cov(Y X) Estrutura das U.E. (Indivíduos) Dados Fenotípicos (Y) Dados Genômicos (X) Amostra de Indiv Independentes Etudos Caso-Controle Estudos com Famílias (Cruzamentos Controlados de animais e plantas) Variáveis Quantitativas Variáveis Categóricas Variáveis de Sobrevivência SNPs Expressão gênica
Mapeamento de Genes Y E Y X Y E Y X Componente Fixo Componente Aleatório Modelado como Eeito Fixo Componente Genético Modelado como Eeito Aleatório Mapear genes comuns na população Mapear genes raros, que expliquem a covariância entre indivíduos (relacionados/amílias) 15
Gerar Dados de SNPs em Eq-HW X i 0 se aa 1se Aa se AA Alelo A = Presença da Adenina/Timina A/T G/C X i ~ Binomial n ; p P( AT P P P X i 0 (1 X i 1 p X p i p) (1 p) )
Gerar Dados Fenotípicos (Y) Y Xj 150.00 190.00 0 135.46 1 148.7 178.00 0...... 16.49 1 164.54 168.64 0 179.58 Dados de pressão arterial (Y) gerados em unção de eeitos de um marcador SNP. Eeito Aditivo do marcador molecular (SNP) sobre Y Eeito de Dominância do marcador molecular sobre Y 0 X j 1 aa Aa AA j=1,,m 17
Eeito Genético Fator Fixo Modelos ANOVA : 1 ator em três níveis (genótipo do SNP=aa, Aa, AA). Temos graus de liberdade para estudar o eeito do gene (SNP) X ai y i ax -1 para aa 0 para Aa 1 para AA ai dx 0 para aa 1 para Aa 0 para AA Eeito do Gene na Média de Y X di di e i V E H y V e 0 y i i : a d aa Aa AA i 0 a d a e AA aa a AA aa aa Aa AA aa Aa AA aa Aa AA Aditivo Dominante(+) Dominante(-) d Aa AA aa 18
Eeito Genético Dominância Fuga da Linearidade Y Y aa Aa AA aa Aa AA Aa aa AA aa AA Aa d a a a a d Modelos Gerais (interpretação?) 19
Eeitos Genéticos: 1 ator em 3 níveis Ajustar modelos para estimar o eeito do marcador molecular (variável SNP: número de alelos A ) y j = + a X a + d X d + e ; e ij ~ N( j, ² ) Parametrização 1: modelo com eeito aditivo e de dominância do marcador X a = 0 (aa), 1 (Aa), (AA) X d = 0 (aa), 1 (Aa), 0 (AA) E(Y aa)= aa = E(Y Aa)= Aa = + a + d E(Y AA)= AA = + a a = ( AA - aa )/ d = Aa ( AA + aa )/ = aa 0
Eeitos Genéticos: 1 ator em 3 níveis Ajustar modelos para estimar o eeito do marcador molecular (variável SNP: número de alelos A ) y j = + a X a + d X d + e ; e ij ~ N( j, ² ) Parametrização : modelo com eeito aditivo e de dominância do marcador X a = -1 (aa), 0 (Aa), 1 (AA) E(Y aa)= aa = - a E(Y Aa)= Aa = + d E(Y AA)= AA = + a a = ( AA - aa )/ d = Aa ( AA + aa )/ = ( AA + aa )/ X d = 0 (aa), 1 (Aa), 0 (AA) 1
Eeitos Genéticos: 1 ator em 3 níveis Ajustar modelos para estimar o eeito do marcador molecular (variável SNP: número de alelos A ) y j = + a X a + d X d + e ; e ij ~ N( j, ² ) Parametrização 3: modelo com eeito linear e quadrático X a = 0 (aa), 1 (Aa), (AA) E(Y aa)= aa = E(Y Aa)= Aa = + a + d E(Y AA)= AA = + a + 4d a =? d =? X d = 0 (aa), 1 (Aa), 4 (AA) Como os parâmetros a e d estão deinidos?
Eeitos Genéticos: 1 ator em 3 níveis Ajustar modelos para estimar o eeito do marcador molecular (SNP: var. quantitativa discreta número de alelos de risco) y j = + a X a + e ; e ij ~ N( j, ² ) Parametrização 4: Modelo com somente o eeito linear/aditivo do marcador X a = 0 (aa), 1 (Aa), (AA) E(Y aa)= aa = Mais usada! E(Y Aa)= Aa = + a E(Y AA)= AA = + a Solução de mínimos quadrados (ou máxima verossimilhança) ˆ a X Y 1 ai i a X a' X a X a' Y ˆ Y ˆ a X a ( n 1) s nx X a Y 3
Eeitos Genéticos: 1 ator em 3 níveis Ajustar modelos para estimar o eeito do marcador molecular (SNP: 1 ator em 3 níveis de resposta) y j = + 1 X 1 + X + e ; e ij ~ N( j, ² ) Parametrização 5: genótipo homozigoto como casela de reerência X 1 = 0 (aa), 1 (Aa), 0 (AA) E(Y aa)= aa = X = 0 (aa), 0 (Aa), 1 (AA) E(Y Aa)= Aa = + 1 E(Y AA)= AA = + 1 = Aa - aa = AA aa = aa 4
Padrão de Variação Fenotípica Gene (X) Ambiente Fenótipo (Y) Monogênicos Pleiotropia Epistasia (Y 1,Y ) (G 1,G ) 1,, 1 Fenótipo (Y) = Gene (X) + Ambiente (E)
Modelos para Pares de Locos y a 1 X a d 1 1 X d a * * 1 X a d X d i aa X a X 1 a i dd X d X 1 d Loco1 Loco Epistasia e. aditivo Epistasia e. de dominância i * ad X a X * 1 d i da X d X 1 a Epistasia e. Aditivo com e. dominância Loco1 e Loco em Equilíbrio de Ligação (LD) Modelo com Locos: 8 graus de liberdade (Fatorial 3²)
Eeito de Epistasia Gráicos de Peris de Médias Main Eects Plot (data means) or Traco Interaction Plot (data means) or Traco 3 GenoL1 GenoL 6 4 GenoL 0 1 1 Mean o Traco 0 19 18 17 Mean 0 18 16 14 16 15 14 0 1 0 1 1 10 0 1 GenoL1 Há evidência de eeito de interação entre os locos 1 e na variação da resposta Y?
Eeito de Epistasia Gráicos de Peris de Médias do Traço Main Eects Plot (data means) or traco Interaction Plot (data means) or traco 18 17 GenoL1 GenoL 6 4 GenoL 0 1 16 0 Mean o traco 15 14 13 1 11 10 Mean 18 16 14 1 10 9 0 1 0 1 0 1 GenoL1 Há evidência de eeito de interação entre os locos 1 e?
Estudo da Variabilidade Genética com Apoio do R Joanlise Marco de Leon Andrade UNB Júlia Maria Pavan Soler IME/USP Suely Ruiz Giolo Dest/UFPR Mariza de Andrade - Mayo Clinic, Rochester, USA
Objetivos Entender Varialibidade Genética Oicina 1: Delineamentos com Indivíduos Não Relacionados e Fenótipos Quantitativos Oicina : Delineamentos com Indivíduos Relacionados (Famílias) e Fenótipos Quantitativos 1 3 4 5 6 7
Padrão de Resposta Geral e Especíico Variantes Comuns e Raras genes comuns genes comuns + componentes C1 Imagine que os indivíduos em uma população estão estruturados em suas especíicas amílias. genes comuns + componentes C Pacientes da população com mesmo diagnóstico genes comuns + componentes C1 e C Entre os indivíduos aetados, alguns são parentes e outros não. A doença ocorre devido ao eeito de componentes genéticos comuns e especíicos (raros). Como estes componentes podem ser identiicados?
Delineamentos com Famílias Dados de Pedigrees, Heredogramas Fundadores... Probando Amostragem de dados de amílias: oportunidade de coletar simultaneamente dados de indivíduos correlacionados (parentes) e não correlacionados Amostragem por Probandos: indivíduos que abrem a amostragem da amília Indivíduos parentes: compartilham grandes regiões genômicas em comum Indivíduos não relacionados: compartilham regiões muito pequenas
Mapeamento de Genes Dados de Famílias Delineamentos ótimos : para n ixo é melhor poucas amílias o mais extensas possível Exemplo: estudos de simulação mostram que (d) é o mais poderoso* (a) (b) (c) 3 núcleos amiliares 15 pares de relativos (d) núcleos amiliares 18 pares de relativos núcleos amiliares relacionados 30 pares de relativos 1 núcleo amiliar 7 pares de relativos*
Modelo Linear Misto Eeitos Genéticos Modelo Esporádico (sem eeito genético/correlação) Y ; μ X β e ; e ~ N 0 Ω Valor esperado de Y para a amília (covariáveis) Ω Modelo Poligênico: adicionar o eeito de um poligene I σ e Componente de variância residual Var(Y) E Componentes de variância residual e poligênico Y μ X β g e g g i 1 n G E g ~ 0 ; i N g e N 0; i ~ e Var(Y) Ω Φ g I e Covariância: depende do grau de parentesco
Modelo Linear Misto Poligênico Família 1 Y μ X Ω β g e Φ g I e 3 4 5 6 7 ij 1 r r: grau de parentesco 1 3 4 5 6 7 1 1 0 ½ ½ ½ 0 ¼ 0 1 ½ ½ ½ 0 ¼ 3 ½ ½ 1 ½ ½ 0 ¼ 4 ½ ½ ½ 1 ½ 0 ¼ 5 ½ ½ ½ ½ 1 0 ½ 6 0 0 0 0 0 1 ½ 7 ¼ ¼ ¼ ¼ ½ ½ 1 Para o cálculo é necessário conhecer a estrutura amiliar Cov y i y 1 r g 0 ; i j i j j
Heredogramas FamID IID FaID MoID Sex 1 1 0 0 1 1 0 0 0 1 3 1 0... F 98 97 96 1... Arquivos PED Matriz de relacionamento 1 0... 81 1 1 g e 1666x1666 0... 1 1666x1666 Matriz de variâncias e covariâncias
Modelo Linear Misto Poligênico Y j X j j g e Covariá veis Poligene Resí duo enótipo eeitos ixos eeitos aleatórios Var(Y) E Var covariáveis Y X ; Y X ; j g j X j e Poligene e Resíduo Cov Y Y X i ; j ij g Teste do Eeito Poligênico: H 0 : g 0 H 1 : g 0 Parâmetro de Interesse: h g g g e Herdabilidade Poligênica (coe. de correlação intra-classe)
Modelo Misto Poligênico Testes de Hipóteses sob o modelo Poligênico: Estatística Razão de Verossimilhanças (sob o modelo Normal) 0 : 0 H g 0 ln ˆ ln L L ~ Mistura 1 0 1 1 Rejeição de H 0 herdabilidade poligênica signiicante Interesse no mapeamento dos genes candidatos (Almasy and Blangero, 1998; de Andrade et al., 1999) ; ~ e n g n I N Y Y Y n Y L e g 1 1 ln 1 ln 1,, ln (Sel and Liang, 1989)
Mapeamento de Genes via Dados de Famílias e SNPs SNPs são compartilhados pela população geral não explicam correlação amiliar e por isso são modelados como ator ixo no modelo linear misto Y Y X Eeito de covariáveis X SNP Eeito do SNP (Fixo) SNP ~ N X X SNP SNP ; V g I e g Eeito do poligene e Eeito do resíduo H : 0 Testar o eeito de cada SNP via o 0 SNP SNP: Eeito ixo, modela E(Y) modelo poligênico Problemas: Grande esorço computacional: teste de cerca de 10 6 SNPs Correção para múltiplos testes (F+) Eeito individual do SNP é pequeno (muitos F-) análises multilocos 39
Oicina : Entendendo Variabilidade Genética Estudos com Indivíduos Relacionados (Famílias) Gerar dados de genótipos de uma variável SNP respeitando o grau de parentesco (como?) Gerar variáveis quantitativas a partir dos genótipos por meio de um modelo normal de componentes de variância poligênica e residual (como?) Testar o eeito (ALEATÖRIO) do SNP 40
Variabilidade Fenotípica Aeitos Genéticos, Eeitos Ambientais e suas Interações Estudos de Simulação: Facilitadores do Entendimento da Variabilidade Fenotípica em Função do Genoma, do Ambiente e de suas Interações Planejamento de Experimentos nas Duas Fases de Amostragem Estrutura de correlação entre indivíduos é inevitável: Somos todos parentes em algum grau!
Bibliograia 1. Balding, D.J.; Bishop, M.; Cannings, C. (001). Handbook o Statistical Genetics. Willey.. Falconer, D.S.; Mackay, T.F.C. (1996). Introduction to Quantitative Genetics. Prentice Hall. 3. Foulkes, A.S. (009). Applied Statistical Genetics with R: For Population-based Association Studies. Springer. 4. Lange, K. (1997). Mathematical and Statistical Methods or Genetic Analysis. Springer. 5. Lynch, M.; Walsh, B. (1998). Genetics and Analysis o Quantitative Traits. Sinauer. 6. Thomas, D. (004). Statistical Methods in Genetic Epidemiology. Oxord University Press. 7. Ziegler, A.; Konig, I.R. (008). A Statistical Approach to Genetic Epidemiology. Wiley-VCH.
Agradeço a atenção :) Júlia Maria Pavan Soler pavan@ime.usp.br Equipe de Trabalho: Joanlise Marco de Leon UNB Júlia Maria Pavan Soler IME/USP Suely Giolo UFPR, Curitiba Mariza de Andrade Mayo Clinic, MN, USA