MAE54-Genética de Populações MAE5757-Métodos Estatísticos em Genética e Genômica Júlia Maria Pavan Soler pavan@ime.usp.br IME/USP - Sem/6
O genoma é um sistema estruturado/organizado. Duas importantes leis contribuem para a caracterização e organização do genoma: Lei do Euilíbrio de Hardy-Weinberg Lei do Euilíbrio de Ligação Objetivo Como o efeito de um gene pode ser mensurado? Caso: diploide e locos dialélicos Modelos de Efeitos fixos
Marcadores Moleculares Pontos de referência no genoma variações comuns/raras na seuência de DNA entre indivíduos Posição conhecida Passíveis de Genotipagem Alu repeat no Chr 8 Padrão de Bandas (eletroforese em gel): +/+ presença do repeat nos dois alelos (pesado) -/+ presença do repeat em somente um alelo -/- ausência do repeat nos dois alelos (leve) 3
Marcadores Moleculares - SNPs Single Nucleotide Polymorphisms Chips de informação de marcadores para cada indivíduo 6 SNPs SNP: common variants (MAF>%) Imagem (Scanner) Capacidade: Placas com x8 posições (96 chips por vez) AA Aa aa Genotype calls para cada SNP: X i if aa if Aa if AA
Genotipagem de SNPs AA Aa aa Dados da intensidade dos alelos A e a para o SNP rs359 Amostra da população brasileira Referência (verde): dados HapMap Os dados (x,y) podem ser transformados para serem melhor representados: Coordenadas polares: inclinação e distância à origem Rotacionar 45: (x-y) versus ½(x+y) (conhecido como gráfico MA, gráfico de Blend-Altman, semelhante ao gráfico do desvio padrão pela média)
Genotipagem de SNPs Organismos Poliplóides: Ploidia k (k+) genótipos Ex. Cana de açúcar: SNP com ploidia 5 A a No gráfico com as intensidades de cada alelo (nucleotídeo): O número de raios define a ploidia (os genótipos): AAAAA, AAAAa,..., aaaaa A posição no raio define o número de réplicas: indivíduo com o genótipo AAAaa sendo ue no loco de SNP pode haver duplicação ou deleção de alelos.
Genotipagem de SNPs Transformação de Variáveis Organismos Poliplóides: Ploidia k (k+) genótipos A Distribuição da variável U: multimodal (dados simulados) Projeção dos dados na combinação convexa x+y=: x U k x y a
Leis de Segregação de Alelos Euilíbrio de Hardy-Weinberg (EHW) A a P P P aa Pa Aa PAPa AA PA (Falconer e Mackay, 996) Independência entre alelos dentro do loco. Probabilidade de genótipos é descrita em termos de probabilidades alélicas. Euilíbrio de Ligação (LD): independência entre locos A B a b P P P P A B PAPB A b PAPb a B PaPB a b PaPb Independência entre alelos de locos diferentes (haplótipos)
Euilíbrio de H-W - Sistema MN (%) MM MN NN Total Greenland 83.5 5.6.9 569 Iceland 3. 5.5 7.3 747 American Whites 9. 5.. 69 Falconer & Mackay, 996 O sistema MN em Iceland está em euilíbrio de H-W? # total de alelos = x747=494 # alelos M = (x33)+385=85 p(m)=.5696 p(n)=.434 (estimativa!!) MM MN NN Total O 33 385 9 747 Probab. Estimada.345.493.85 E 4.37 366.6 38.37 747 p Pr.9555. 376 Refaça o teste para as demais populações. H :? o sistema está em euilíbrio suportando o modo de herança Mendeliano 9
Euilíbrio de Hardy-Weinberg Genótipo aa Aa AA Total Trinomial P(aa) P(Aa) P(AA), Distribuição sob E. H-W: Simplex Outras alternativas de teste: - Singer et al., 99 - FBST(Pereira e Stern, 999) - J. Graffelman (8, 5) Aa aa AA aa AA Aa Gráfico ternário com a região de aceitação do teste em função de n dado α=5% (à esuerda) e de α dado n=5 (à direita). Graffelman and Camarena (8), Human Heredity 65: 77-84.
Euilíbrio de Ligação Distribuição dos genótipos Multinomial (8 g.l) Análise no nível de indivíduos (n) bb Bb BB Total aa P(aa,bb) P(aa,Bb) P(aa,BB) P(aa) Aa P(Aa,bb) P(Aa,Bb)* P(Aa,BB) P(Aa) AA P(AA,bb) P(AA,Bb) P(AA,BB) P(AA) Total P(bb) P(Bb) P(BB), P(AA,BB)=P(AB) =[P(A).P(B)+D AB ] ; D AB =P(AB)-P(A)P(B) Distribuição dos haplótipos Multinomial (3 g.l) Análise no nível cromossômico (n) b B Total a P(ab) P(aB) P(a) A P(Ab) P(AB) P(A) Total P(b) P(B), H : D AB *: incerteza sobre o arranjo dos haplótipos (em cis ou trans?) - Teste clássico - Teste da razão de verossimilhanças
Euilíbrio de Ligação Distribuição dos genótipos Multinomial (8 g.l) Distribuição dos haplótipos Multinomial (3 g.l) Modelo Saturado ln L ln L PA, PB, D AB Dados Modelo Restrito Euilíbrio de Ligação H : D AB ln L ln L PA, PB, D AB Dados Estatística da razão de verossimilhanças: ln L ln L ~
Exemplo: Teste de Deseuilíbrio de Ligação Distribuição de genótipos nos Locos e Loco Loco BB Bb bb Total AA 5 5 3 Aa 5 3 73 aa 3 3 6 Total 3 78 8 9 Estimativas Censuradas dos Parâmetros (eliminando obs AaBb) # haplótipos AB = ()++5=45 # haplótipos ab = +(3)+3 =9 # haplótipos Ab = 5+(5)+3 =38 # haplótipos ab = 3+3+()=46 A a B 45 (.848) 38 (.45) 9 (.835) 46 (.9) b Teste de Independência Clássico Pˆ Dˆ A.553 AB 3.83 ( p.5) Pˆ B.4684.848 (.553)(.4684).3878 estimativas viciadas Concl.?
Teste de Deseuilíbrio de Ligação Distribuição de genótipos nos Locos e Loco Loco BB Bb bb Total AA 5 5 3 Aa 5 3 73 aa 3 3 6 Total 3 78 8 9 Estimativas dos Parâmetros com Dados Completos incorporando a incerteza sobre o arranjo dos haplótipos nos casos duplo heterozigoto Algoritmo EM ou uso das informações do HapMap A a P(AB)=()+5+5x)/(9) B b.377.878.59.336 x? Algoritmo EM convergiu em x=.9 Pˆ Dˆ A (3 73/ ) /9 AB ln[ L( P, P, D ) / L( P, P )] 8.89 ( p.799 A B AB.3).555 A B Concl.? Pˆ B 8.89.486
Coeficiente de Deseuilíbrio de Ligação D A B P AB P A P B D é uma Medida de Covariância se A está presente X caso contrário E X P( X ) A se B está presente Y caso contrário E XY P( X ; Y ) AB X Y E XY EX EY AB A B E Y P( Y ) B
Coeficientes de Deseuilíbrio de Ligação, min, min ' D se D D se D D b a B A B a b A ; r D r b a B A ' D D = r = : Euilíbrio de ligação (independência entre locos) B A AB D (Lewontin, 964; Hill and Weir, 968; Lin, 5)
Estrutura do Genoma Eventos de Recombinação (Ligação): Medida de distância citogenética (cm) Material de indivíduo (meiose) Material de indivíduo (meiose) Recombinantes Sem Ligação (Locos Distantes ) Não Recombinantes Ligação (Locos Próximos ) 7
Declínio do Deseuilíbrio theta: fração de Recombinação Fontes de Deseuilíbrio (fuga da independência/associação) Ligação Genética Variação Amostral ( deriva em populações finitas) Mutação, Seleção Efeito de Fundador: pop. isolada com único ancestral Estratificação ou Miscigenação (Paradoxo de Simpson): o deseuilíbrio pode ocorrer entre locos não ligados (distantes)
Como definir e estimar o efeito de um gene sobre uma variável de interesse?
Padrão de Variação Fenotípica Gene (X) Ambiente Fenótipo (Y) Monogênicos Pleiotropia Epistasia (Y,Y ) (G,G ),, Fenótipo (Y) = Gene (X) + Ambiente (E)
Padrão de Variação Fenotípica Y n X G G Y n X E E X G G Y n X EE XG G X E XG EG Y n X X X X E E G G G G Y Y X n G Modelos considerando o gene como um fator de efeito fixo sobre Y Modelos mais gerais podem ser definidos com o gene como aleatório! X
Mapeamento de Genes Y E Y X Y E Y X Componente Fixo Componente Aleatório Modelado como Efeito Fixo Componente Genético Modelado como Efeito Aleatório Mapear variantes ( genes ) comuns na população Mapear variantes raras, ue expliuem a covariância entre indivíduos (parentesco)
Mapeamento de Genes Fator Fixo Y X 5. 9. 3 35.46 48.7 78. 3...... 6.49 64.54 68.64 79.58 Dados de pressão arterial (Y) e genótipo de um marcador SNP (X) para uma amostra aleatória de 69 funcionários de uma empresa. Delineamento com Indivíduos não relacionados e variável de interesse uantitativa (delineamento pouco utilizado). Há evidência de algum efeito do SNP sobre o fenótipo Y?
Efeito Genético Fator Fixo Modelos ANOVA : fator em três níveis (genótipo do SNP=aa, Aa, AA). Temos graus de liberdade para estudar o efeito do gene (SNP) X ai y i ax - para aa para Aa para AA ai dx para aa para Aa para AA Efeito do Gene na Média de Y X di di e i V E H y V e y i i : a d aa Aa AA i a d a e AA aa a AA aa aa Aa AA aa Aa AA aa Aa AA Aditivo Dominante(+) Dominante(-) d Aa AA aa
Modo Recessivo de Herança Modo Dominante de Herança 6 Média Y 6 Média Y 5 5 4 4 3 3 a d a a d a Modo Codominante de Herança Média Y 6 5 4 3 a d a
Efeito Genético Y Y d a a a a d Modelos Gerais (interpretação?)
PS PS 5. 9. 3 35.46 48.7 78. 3...... 6.49 64.54 68.64 79.58 M 9 8 7 6 5 4 3 Boxplot of PS by M M Analysis of Variance Source DF SS MS F p Regression 349 574 6.49. Residual Error 66 4366 49 Total 68 755 Exemplo Estimação dos Ef Genéticos Y X e X a d MM mm PS = 6 + 6.3 Xa - 7.9 Xd Predictor Coef SE Coef T p Constant 6.39.486 8.54. Adit 6.3.486.98. Domi -7.89.86 -.53. ˆ mm aˆ 6.3 dˆ 7.89 45. ˆ Mm 54. ˆ 6.39 ˆ MM 77.6
LAB: Exercício de Simulação de Dados e Estimação de Efeitos Genéticos Gerar dados de marcadores SNP em E. H-W: X i se aa se Aa se AA X i ~ Binomial n ; p P( A) P P P X i ( X i p X p i p) ( p) Gerar variáveis uantitativas Y tal ue: Y ij ~ N( j, ² ); j = + a X a + d X d Realizar análises dos dados
LAB: Resultados para n=6, m= e 5 runs Y ij ~ N( j, ²=4 ) j = + 5 X aj ; d=
LAB: Efeitos Genéticos (Fixos) Ajustar modelos para estimar o efeito do marcador molecular (variável SNP: número de alelos A ) y j = + a X a + d X d + e ; e ij ~ N( j, ² ) Parametrização : modelo com efeito aditivo e de dominância do marcador X a = (aa), (Aa), (AA) X d = (aa), (Aa), (AA) E(Y aa)= aa = E(Y Aa)= Aa = + a + d E(Y AA)= AA = + a a = ( AA - aa )/ d = Aa ( AA + aa )/ = aa
LAB: Efeitos Genéticos (Fixos) Ajustar modelos para estimar o efeito do marcador molecular (variável SNP: número de alelos A ) y j = + a X a + d X d + e ; e ij ~ N( j, ² ) Parametrização : modelo com efeito aditivo e de dominância do marcador X a = - (aa), (Aa), (AA) E(Y aa)= aa = - a E(Y Aa)= Aa = + d E(Y AA)= AA = + a a = ( AA - aa )/ d = Aa ( AA + aa )/ = ( AA + aa )/ X d = (aa), (Aa), (AA)
LAB: Efeitos Genéticos (Fixos) Ajustar modelos para estimar o efeito do marcador molecular (variável SNP: número de alelos A ) y j = + a X a + d X d + e ; e ij ~ N( j, ² ) Parametrização 3: modelo com efeito linear e uadrático X a = (aa), (Aa), (AA) E(Y aa)= aa = E(Y Aa)= Aa = + a + d E(Y AA)= AA = + a + 4d a =? d =? X d = (aa), (Aa), 4 (AA) Como os parâmetros a e d estão definidos?
LAB: Efeitos Genéticos (Fixos) Ajustar modelos para estimar o efeito do marcador molecular (SNP: var. uantitativa discreta número de alelos de risco) y j = + a X a + e ; e ij ~ N( j, ² ) Parametrização 4: Modelo com somente o efeito linear/aditivo do marcador X a = (aa), (Aa), (AA) E(Y aa)= aa = E(Y Aa)= Aa = + a Mais usada! a = AA - Aa E(Y AA)= AA = + a Solução de mínimos uadrados (ou máxima verossimilhança) ˆ ˆ a AA ˆ aa X Y ai i a X a' X a X a' Y ˆ Y ˆ a X a ( n ) s nx X a Y
LAB: Efeitos Genéticos (Fixos) Ajustar modelos para estimar o efeito do marcador molecular (SNP: fator em 3 níveis de resposta) y j = + X + X + e ; e ij ~ N( j, ² ) Parametrização 5: genótipo homozigoto como casela de referência X = (aa), (Aa), (AA) E(Y aa)= aa = X = (aa), (Aa), (AA) E(Y Aa)= Aa = + E(Y AA)= AA = + = Aa - aa = AA aa = aa
Fenótipo (Y) uantitativo Efeito Genético de um Marcador Molecular (X) Modelos de Regressão (ANOVA) Outros modelos a serem testados: Valores de X G Genótipo H : EY G X G Modelo AA Aa aa EfeitoDominante Efeito Recessivo H : EY G Efeito Aditivo Efeito Aditivo - Efeito Aditivo,5 uso de um grau de liberdade para testar o efeito do gene Testes de H : = : Estatística F, Estatística Razão de Verossimilhanças
Efeitos Genéticos Ajuste de Modelos de Regressão para dados de um mapa ou plataforma de marcadores moleculares Modelo Genético Modelo Esporádico : H H : E Y GM GM : E Y X g Testar o Efeito Linear do Marcador via Estatísticas F: MMod F ~ F g. l. Mod; g. l. Res M Re s Testes via Estatísticas da Razão de Verossimilhança (Estatísticas Lod Score) RV Lod log L L L ˆ ln ln ~ p ˆ ˆ L ˆ L L ˆ ˆ Estatística LogScore: mudança de escala na estatística razão de verossimilhanças p: diferença no número de parâmetros sob o modelos completo (H) e reduzido (H)
Tabela de ANOVA H:... k F.V. g l S M F p Modelo k- n j ( y y j ) SMod / (k-) MMod / MRes Resíduo N-k TOTAL N- ij ij ( y ij y j ( y ij y) ) SRes / (N-k) F MMod M Re s ~ F k ; N k Suposições clássicas (análise de diagnóstico?): normalidade, homocedasticidade e independência
Modelos Genéticos Euivalência entre Estatísticas n n y j y j STotal y j y j SR ˆ Resíduo j j S S Total Residual n/ Estatística Lod Score: Lod log Sob condições de regularidade válidas Estatística Razão de Verossimilhanças: RV ln Lod log e.7 RV Lod 4.6 Lod log e Estatística F: F n k k S S S Total Resíduo Resíduo n k k / n
Mapas e Plataformas de Marcadores Passo : Modelos Uni-Locos no Mapeamento Genético Testar o efeito de cada marcador separadamente Modelo Genético Modelo Esporádico : H H g : E Y GM GM : E Y X g ; g,..., G Problema de alta dimensão Problemas: - Definir como o efeito do loco será testado (com ou g.l. no caso de locos bialélicos) - Adotar um nível de significância global para o conjunto de locos testados: correção para múltiplos testes (Bonferroni, FDR) - GWAS (Genome Wide Association Studies): adotar α c = -8
Gráfico Manhattan Estatísticas Lod Score (ou F, ou AIC, ou log(p-valor) ) na ordenada e a posição de marcadores na abscissa Mapeamento da pressão basal: mapa com 3 marcadores Testes com g.l. e dados completos. E Y G X g X,, g Chr4 - Marcador NPYa Chr Marcadores R56 R46
Gráfico Manhattan Chr MTPB R36 Chr4 TGFAA Mapeamento da pressão arterial sistólica: mapa com 3 marcadores Testes com g.l. e dados completos. E Y G X g X,, g
Mapeamento Genético Liu, Ajuste de modelos unilocos para estudar o efeito de milhares de SNPs Poucos sinais significantes estudar efeitos mais gerais (multilocos e interação com o ambiente, pleiotropia)
Modelos para Pares de Locos Epistasia Gene (X) Ambiente Fenótipo (Y) Genótipos Conjuntos de Múltiplos Locos Loco E G G G Loco G G G Y G G G G M M M M* M Alternativas de Análise: Análise por Loco Análise por Haplótipo (conhecer/estimar a fase haplotípica) Análise por Loco: considerar os efeitos principais de cada loco (aditivo e de dominância) bem como os efeitos de interação entre pares de locos ( Epistasia ) G G G
Modelos para Pares de Locos a a : H Efeitos Aditivos Marginais Efeito de Interação (Aditivo/Aditivo)
Modelos para Pares de Locos Como pesuisar o espaço Biloco? M odelo Esporádico (Nulo) Modelo Loco Modelo Loco M odelo Aditivo (Conjunto) * M odelo Completo(Epistasia) M M M M M G Y E M G Y E M G Y E M M G E Y M M M M G Y E 3 Testes para uma seüência de Pares de Locos Teste do efeito de interação (com g.l.) pode-se adotar testes com ou 3 g.l 3 Comparação do modelo aditivo conjunto com cada modelo de um único Loco 3
Modelos para Pares de Locos Efeito de Epistasia Genótipo Ambiente Fenótipo Interação entre Genes Y AA Aa aa Y AA Aa aa bb Bb BB Efeitos Genéticos Aditivos bb Bb BB Efeitos Genéticos Não Aditivos
Modelos para Pares de Locos (Kao and Zeng, ) y a X a d X d a * * X a d X d i aa X a X a i dd X d X d Loco Loco Epistasia ef. aditivo Epistasia ef. de dominância i * ad X a X * d i da X d X a Epistasia ef. Aditivo com ef. dominância Loco e Loco em Euilíbrio de Ligação (LD) Modelo com Locos: 8 graus de liberdade (Fatorial 3²)
Mean of Traco Mean Efeito de Epistasia Gráficos de Perfis de Médias Main Effects Plot (data means) for Traco Interaction Plot (data means) for Traco 3 GenoL GenoL 6 4 GenoL 9 8 8 6 7 4 6 5 4 GenoL Há evidência da existência de efeito de interação entre os locos e na variação da resposta Y?
Ajuste do Modelo de Epistasia Traco = 8, + 3,9 a -,44 d + 4,3 a -, d -,88 aa +,3 ad -,76 da -,4 dd Predictor Coef SE Coef T P Constant 7,966,367 56,73, a 3,96,4554 8,56, d -,437,6334 -,7,945 a 4,84,4554 9,6, d -,99,6334 -,7,863 aa -,879,4963 -,8,86 ad,8,99,3,893 da -,759,99 -,8,934 dd -,4,67 -,,9 S =,978754 R-S = 9,% R-S(adj) = 9,3% Analysis of Variance Source DF SS MS F P Regression 8 889,5,3 6,, Residual Error 9 87,7,96 Total 99 976,
Mean of traco Mean Efeito de Epistasia Gráficos de Perfis de Médias do Traço Main Effects Plot (data means) for traco Interaction Plot (data means) for traco 8 7 6 5 4 3 9 GenoL GenoL 6 4 8 6 4 GenoL GenoL Há evidência da existência de efeito de interação entre os locos e?
Ajuste do Modelo de Epistasia traco = 3,6 + 3,5 a +,57 d + 3,75 a -,544 d + 4, aa,876 ad +,45 da +,3 dd Predictor Coef SE Coef T P Constant 3,685,95 46,7, a 3,59,49 8,37, d,575,583,98,33 a 3,7476,49 8,94, d -,544,583 -,93,353 aa 4,55,4568 8,99, ad -,8756,8385 -,4,99 da,446,8385,9,77 dd,36,66,,66 S =,9965 R-S = 96,% R-S(adj) = 95,7% Analysis of Variance Source DF SS MS F P Regression 8 87,47 5,93 78,33, Residual Error 9 73,87,8 Total 99 88,33
Exercício no R: Gerar n=5 observaçõesde dados genotípicos e fenotípicos Loco: PA=.5 PT=.5 PC=.45 PG=.45 Loco: PA=.5 PT=.5 PC=.35 PG=.35 mi=65, a= 5, a=, aa= 5, d=, d=, dd=, ad=, da=, s=8 Médias amostrais [,] [,] [,3] [,] 73.69 6.377 54.57 [,] 59.6 66.853 67.44 [3,] 44.5349 69.63 83.355 > fit <- glm(fenotipos[,3] ~ ad + ad + adad, x=true) Coefficients Estimate Std. Error t value Pr(> t ) (Intercept) 64.93.9539 7.897 < e-6 *** ad 5.553.748 4.686 3.6e-6 *** ad.56.7.473.38 * adad 5.776.686.38 < e-6 *** Signif. codes: ***. **. *.5..
Fenótipo 5 6 7 8 Exercício no R: Gerar n=5 observaçõesde dados genotípicos e fenotípicos Loco: PA=.5 PT=.5 PC=.45 PG=.45 Loco: PA=.5 PT=.5 PC=.35 PG=.35 mi=65, a= 5, a=, aa= 5, d=, d=, dd=, ad=, da=, s=8 Perfis médios - Efeitos genéticos epistáticos 3 3 3..5..5. Loco
Modelos Genéticos Gerais Controle de ualidade dos Dados Modelos Uniloco Univariados: definir os efeitos genéticos e o nível de significância conjunto (correção para múltiplos testes) Modelos Multilocos Univariado: Como pesuisar o espaço multilocos (locos em LD)? Como selecionar o conjunto ótimo de locos (busca exaustiva, condicional ou conjunta)? Como definir os efeitos multilocos (modelos aditivos, epistáticos, haplotípicos)? Modelos Multivariados Modelos de efeitos genéticos aleatórios ou mistos