Explorando a Flexibilidade do Modelo Linear Misto - Aplicações no Mapeamento de Genes Nubia Esteban Duarte Suely R. Giolo 2 Mariza de Andrade 3 Julia M. Paván Soler 4 INCOR-USP 2 UFPR 3 Mayo Clinic, MN, USA 4 IME-USP (RBras) Presidente Prudente Julho de 205 / 39
Conteúdo Introdução Formulação do modelo misto Poligênico Decomposição do estimador do efeito fixo Prática no R Índice para discriminar variáveis preditoras Índice para discriminar famílias influentes Prática no R (RBras) Presidente Prudente Julho de 205 2 / 39
Introdução Motivação A motivação para a formulação das metodologias estatísticas propostas decorre da necessidade na literatura de se explorar a flexibilidade do modelo linear misto no mapeamento genético. Sendo esta uma área de interesse na análise estatística de dados genômicos de alta dimensão e útil para pesquisas em medicina personalizada. (RBras) Presidente Prudente Julho de 205 3 / 39
Metodologias Estatísticas Modelo Misto (Verbeke e Molenberghs, 2000) O modelo misto pode ser escrito em forma matricial como segue: Y = Xβ + Zγ + ɛ. () com Y = (Y,..., Y c ), X = (X,..., X c ), Z = diag(z,..., Z c ), γ = (γ,..., γ c ) e ɛ = (ɛ,..., ɛ c ), Comunmente, assume-se que E [γ] = 0 e E [ɛ] = 0, com matriz de covariância [ ] [ ] γ 0 cq n Cov =, ɛ 0 n cq Σ onde e Σ são matrizes positivas definidas de ordem cq e n (n = c i= n i), as quais correspondem as matrizes de covariância dos vetores γ e ɛ, respectivamente. (RBras) Presidente Prudente Julho de 205 4 / 39
Metodologias Estatísticas Tomando ξ = Zγ + ɛ, tem-se o modelo marginal onde E[ξ] = 0 e Var[ξ] = V = Z Z + Σ. Y = Xβ + ξ, (2) Se e Σ são conhecidas, então o modelo marginal é o modelo com matriz de ponderação V. Pode-se escalar e Σ supondo = σ 2 D e Σ = σ 2 R, onde R e D são matrizes positivas definidas. Portanto, V = (ZDZ + R)σ 2. Para o caso de homocedasticidade, R = I n. (RBras) Presidente Prudente Julho de 205 5 / 39
Metodologias Estatísticas Definindo M como M = σ 2 V = (ZDZ + R), segue que Também, define-se a matriz Q como M = (σ 2 ) V = (ZDZ + R). (3) ( Q = M MX X MX) X M = (I P) M, com as seguintes propriedades, QM Q = Q and QX = 0, onde P = X ( X MX ) X M. Essas duas matrizes, M e Q, serão muito importantes no desenvovimento teórico das metodologias propostas. (RBras) Presidente Prudente Julho de 205 6 / 39
Metodologias Estatísticas Modelo Misto Poligênico (Amos, 994; Almasy and Blangero, 998) Y f = X f β + g f + e f, f =,..., F, (4) Y f Vetor que representa a variável resposta. X f β Matrix de efeitos fixos. g f representa o efeito genético exercido sobre Y. e f representa os efeitos residuais. g f e e f são não correlacionados, com distribuição normal, com média zero e variância σg 2 e σe, 2 respectivamente. Sendo 2Φ a matriz de relacionamento entre indivíduos, a matriz de covariância é V: V = 2Φσg 2 + Iσe 2 = σy 2 ( 2Φh 2 g + Ihe 2 ), (5) h 2 g = σ2 g σ 2 y e h 2 e = σ2 e σ 2 y são as herdabilidades genéticas e residuais, respectivamente. (RBras) Presidente Prudente Julho de 205 7 / 39
Metodologias Estatísticas Matriz de parentesco Coeficiente de relacionamento φ ij = (/2) r (grau de parentesco). 2Φ = 0 2 2 0 2 4 4 4 2 2 0 2 4 4 4 2 0 2 4 4 4 0 2 4 4 4 0 2 2 2 2 2 2 2 2 2, ( (RBras) Presidente Prudente Julho de 205 8 / 39
Metodologias Estatísticas Herdabilidade (coeficiente de correlação intraclasse): Define-se como a proporção da variância total que é devida a componentes genéticos. h 2 g = σ2 g. σg 2 + σe 2 Se h 2 g for pequena, pode-se inferir que a variável resposta não é regulada determinantemente por fatores genéticos. (RBras) Presidente Prudente Julho de 205 9 / 39
Metodologias Estatísticas Figura: Arquitetura Genética de doenças. Existem ao menos dois tipos de efeitos genéticos: População (variantes comuns) modelam E[Y ], Famílias (variantes raras) modelam Cov[Y ]. Y = E[Y X ] + [Y E[Y X ]]. (7) }{{}}{{} Efeitos fixos Efeitos aleatórios (RBras) Presidente Prudente Julho de 205 0 / 39
Metodologias Estatísticas Delineamento de famílias e plataformas de snps (RBras) Presidente Prudente Julho de 205 / 39
Metodologias Estatísticas Codificação dos SNPs como variáveis preditoras 2, se o indivíduo é homozigoto AA, SNP j =, se o indivíduo é heterozigoto Aa, 0, se o indivíduo é homozigoto aa. (8) j =, 2,...K, K = 0 6. (RBras) Presidente Prudente Julho de 205 2 / 39
Considerando o modelo misto poligênico dado em 4 Y f = X f β + g f + e f, f =,..., F, O objetivo é particionar o efeito de um SNP em duas componentes associadas com g f e e f usando a teoria associada ao Gráfico da Variável Adicionada. Formular um critério de seleção de variáveis preditoras. Propor um índice para detectar famílias influentes. Avaliação da metodologia nos dados simulados do Genetic Analysis Workshop 7, GAW7 (Almasy et al., 20). (RBras) Presidente Prudente Julho de 205 3 / 39
Gráfico da Variável Adicionada em modelos mistos (Hodges, 998; Hilden-Minton, 995) Y = X β + X SNP β SNP + ɛ; ɛ = g + e, (9) Estimativa do efeito do SNP ˆβ SNP = ( X SNP V X SNP ) X SNP V Y (0) Y = X β + ɛ, ɛ = g + e r 2 (residuos) () X SNP = X β + ɛ r (residuos) (2) (RBras) Presidente Prudente Julho de 205 4 / 39
O efeito da variável adicionada pode ser escrito em função dos resíduos, r e r2 ˆβ 2 = = ( ) X 2 Q X 2 X 2 Q Y (3) ( ) r r r 2 r 2, (4) Portanto, ˆβ 2 pode ser interpretado como o estimador de mínimos quadrados ( ) (ordinários) do coeficiente angular. Var ˆβ 2 = (r r ) σ 2 Plot { } r 2 r ˆβ SNP Gráfico da variável adicionada marginal. (RBras) Presidente Prudente Julho de 205 5 / 39
Decomposição do Gráfico da Variável Adicionada (Hilden-Minton, 995; Nobre, 2004). Y = X β + X SNP β SNP + ɛ (5) = X β + X SNP β SNP + g + e. (6) r = ( rg r e ), r2 = ( r2g r 2e ). Plots r 2g r g ˆβ g SNP, r 2e r e ˆβ e SNP. (RBras) Presidente Prudente Julho de 205 6 / 39
M = B B [ B = R /2 D /2 Z ]. (7) B pode ser particionada em matrizes associadas ao componente residual (R) e ao efeito aleatório (D). e [ r y = BQ Y = R /2 Q Y D /2 Z Q Y ] [ R = /2 (Y X ˆβ Zˆγ) D /2ˆγ ] [ ] ry. =, (8) r y.2 r x2 = BQ X 2 = [ R /2 Q X 2 D /2 Z Q X 2 ] [ R = /2 (X 2 X β ˆ Zγˆ ) D /2 γˆ ] [ ] rx2. =. (9) r x2.2 (RBras) Presidente Prudente Julho de 205 7 / 39
Assim, ˆβ SNP é particionado em efeitos poligênicos e residuais: ˆβ SNP }{{} SNP effect = w g ˆβ g SNP }{{} + w e ˆβ SNP e }{{}. efeitos poligênicos efeitos residuais w g + w e = Regiões genômicas associadas à estrutura familiar (variantes genéticas raras). SNPs com efeitos principalmente associados ao componente residual os quais estão segregando principalmente na população geral (variantes genéticas comuns). (RBras) Presidente Prudente Julho de 205 8 / 39
Graficamente, pode-se representar esta partição: ˆβ SNP }{{} SNP effect = w g ˆβ g SNP }{{} + w e ˆβ SNP e }{{}. efeitos poligênicos efeitos residuais (RBras) Presidente Prudente Julho de 205 9 / 39
Índice para discriminar SNPs O mapeamento de genes, por exemplo, considera plataformas de SNPs que incluem um número muito grande de variáveis preditoras a serem estudadas. No intuito de tornar mais operacional a seleção e discriminação de variáveis preditoras em espaços de alta dimensão é apresentado um índice obtido a partir de estimativas do componente de variância poligênico sob os modelos reduzido e completo (que inclui a variável adicionada). (RBras) Presidente Prudente Julho de 205 20 / 39
Modelo reduzido Y = X i β + g + e (20) Estimativas dos parâmetros em (20) wg0 + we0 = Modelo completo (incluíndo a variável adicionada) Y = X i β + SNP i β SNP + g + e (2) Estimativas dos parametros em (2) wg + we = Estimativas das diferenças dos modelos na parte poligênica e na parte residual: dg = wg0-wg de = we0-we (RBras) Presidente Prudente Julho de 205 2 / 39
Indice para discriminar SNPs negativo,se a maior mudança ocorre sob a variância residual, d gj = 0,se a variável adicionada não causa mudanças, positivo,se a maior mudança ocorre sob a variância poligênica. (RBras) Presidente Prudente Julho de 205 22 / 39
índice para detectar famílias influentes. Na formulação do modelo linear misto de componentes de variância, um nível adicional de decomposição é proposto considerando o componente poligênico do efeito total da variável adicionada. Este índice especifica a contribuição de cada família em termos de pesos e coeficientes angulares. (RBras) Presidente Prudente Julho de 205 23 / 39
índice para detectar famílias influentes. ˆβ SNP }{{} SNP effect = w g ˆβ g SNP }{{} + w e ˆβe }{{ SNP }. efeitos poligênicos efeitos residuais β SNP ˆ = w ˆ g β g SNP + w e ˆ β e SNP F = w g w gf ˆβ g SNPf + w e f = F w gf ˆβ SNPf e. (22) f = I f = w gf ˆβg SNPf, f =,..., F. (23) Discriminar famílias caudais, a saber, famílias que apresentam altos coeficientes angulares (em módulo). (RBras) Presidente Prudente Julho de 205 24 / 39
índice para detectar famílias influentes. I f = w gf ˆβ g SNPf, f =,..., F. (24) Discriminar famílias caudais, a saber, famílias que apresentam altos coeficientes angulares (em módulo). (RBras) Presidente Prudente Julho de 205 25 / 39
Aplicações nos dados do GAW7 O banco de dados do Genetic Analysis Workshop 7 (GAW7) (Almasy et al., 20) consiste de: - 697 indivíduos distribuídos em 8 famílias extendidas,(média = 87.2, s.e. = 9.33) - 24.487 SNPs, 3.784 são não monomórficos, - Uma doença comum com prevalência de 30 % foi simulada junto com três variáveis quantitativas, Q, Q2 e Q4. 7 snps foram usados para simular o fenótipo Q, o fenótipo de interesse. (RBras) Presidente Prudente Julho de 205 26 / 39
(RBras) Presidente Prudente Julho de 205 27 / 39
SNP com efeito poligênico e residual - partição do efeito do snp C6S298 (RBras) Presidente Prudente Julho de 205 28 / 39
Componente genético por famílias - snp C6S298 (RBras) Presidente Prudente Julho de 205 29 / 39
Tabela: Resultados para os dados do GAW7 usando o fenótipo Q como variável resposta e 4 snps como variáveis preditoras, incluíndo os valores de ˆβ 2, a decomposição de ˆβ 2, os pvalores associados e o índice d g. Gene SNP ˆβ 2 w g0 w e0 w g w e p value d g (se) VEGFA C6S298.378 0.488 0.53 0.449 0.55 2.e-5 0.039 (0.74) Decomposition ˆβ 2 = w g ˆβg 2 + we ˆβ 2 e ˆβ g 2 p-value w g ˆβg 2 ˆβ 2 e p value (se) (se) w e ˆβe 2 VEGFA C6S298.465 5.5e-2 0.658.307.4e- 0.72 (0.068) (0.05) (RBras) Presidente Prudente Julho de 205 30 / 39
Tabela: Resultados da decomposição de ˆβ g 2 para as 8 famílias.. SNP família w g,f ˆβ g 2,f I f C6S298 f 0.05300 2.59875 0.27365 f2 0.435762.283 0.5593 f3 0.00756 6.9433 0.0220 f4 0.00439 5.20073 0.00749 f5 0.00459-4.8594-0.00709 f6 0.00460 0.4626 0.0528 f7 0.45362.32948 0.60008 f8 0.00458 2.78540 0.00406 (RBras) Presidente Prudente Julho de 205 3 / 39
SNP sem efeito poligênico nem residual - partição do efeito do snp C3S32 (RBras) Presidente Prudente Julho de 205 32 / 39
Componente genético por famílias - snp C3S32 (RBras) Presidente Prudente Julho de 205 33 / 39
SNP com efeito poligênico negativo - partição do efeito do snp C6S584 (RBras) Presidente Prudente Julho de 205 34 / 39
Componente genético por famílias - snp C6S584 (RBras) Presidente Prudente Julho de 205 35 / 39
(RBras) Presidente Prudente Julho de 205 36 / 39
PERSPECTIVAS (RBras) Presidente Prudente Julho de 205 37 / 39
A Tabela 2 mostra a estrutura da contribuição de cada família para o estudo de estructuras de variação para discriminar efeitos de SNPs. Tabela: Decomposiçãn dos efeitos de SNPs SNP SNP 2... SNP j... SNP K β g 2, βe 2, β g 2,2 βe 2,2... β g 2,j β2,2 e... β g 2,K βe 2,K Fam l w β g 2, w 2 β g 2,2 w j β g 2,j w K β g 2,K.. Fam f w f β g 2,f w f 2 β g 2,f 2 w fj β g 2,fj w fk β g 2,fK.. Fam F w F β g 2,F w F 2 β g 2,F 2... w Fj β g 2,Fj w FK β g 2,FK ** Possibilidades de achar padrões de variação (RBras) Presidente Prudente Julho de 205 38 / 39
** Encontrar a distribuição do índice dg. (RBras) Presidente Prudente Julho de 205 39 / 39
Referências Bibliográficas Referências Bibliográficas. Almasy, L. and Blangero, J. (998). Multipoint Quantitative-Trait Linkage Analysis in General Pedigrees. Am. J. Hum. Genet., 62, 98-2. Almasy, L., Dyer, T. D., Peralta, J. M., Kent, J. W., Charlesworth, J. C., Curran, J. E. and Blangero, J. (20). Genetic Analysis Workshop 7 mini-exome simulation. BMC Proceedings, 5, (suppl 9):S2. Amos, C. I. (994). Robust Variance-Components Approach for Assessing Genetic Linkage in Pedigrees. Am. J. Hum. Genet, 54(3), 535-543. Blangero, J., Williams, J. & Almasy, L. (2000). Quantitative Trait Locus Mapping Using Human Pedigrees. Human Biology. 72(), 35-62. de Andrade, M., Amos, C. I. and Thiel, T. J. (999). Methods to estimate genetic components of variance for quantitative traits in family studies. Genet. Epidemiol., 7, 64-76. (RBras) Presidente Prudente Julho de 205 40 / 39
Referências Bibliográficas Referências Bibliográficas. Duarte, N. E. (202). Mapeamento Genético utilizando a teoria do gráfico da variável em modelos lineares mistos. Tesse para obtenção do grau de Doutor em Ciências. Área de concentração Estatística. Instituto de Matemática e Estatística da Universidade de São Paulo. São Paulo. Duarte, N. E., Giolo, S. R., Pereira, A. C., de Andrade M., and Soler, J. P. (204). Using the theory of added-variable plot for linear mixed models to decompose genetic effects in family data. Stat Appl Genet Mol Biol., 3, 359-378. Hilden-Minton, J. A. (995): Multilevel Diagnostics for Mixed and Hierarchical Linear Models, PhD Thesis, University of California, Los Angeles, Ed Moderna. (RBras) Presidente Prudente Julho de 205 4 / 39
Referências Bibliográficas Referências Bibliográficas. Johnson, B. W. and McCulloch, R. E. (987). Added-Variable Plots in Linear Regression. Technometrics, 29, 427-433. Nobre, S. J. (2004). Métodos de Diagnóstico para Modelos Lineares Mistos. Dissertação para obtenção do grau de Mestre em Ciências. Área de concentração Estatística. Instituto de Matemática e Estatística da Universidade de São Paulo. São Paulo. Nobre, J. S. and Singer, J. M. (2007). Residuals analysis for linear mixed models. Biometrical. J., 49, 863-875. Nobre, J. S. and Singer, J. M. (20). Leverage analysis for linear mixed models. J. Appl. Stat., 38(5), 063-072. Wang, P. C. (985). Adding a Variable in generalized linear models. Technometrics, 27, 273-276. (RBras) Presidente Prudente Julho de 205 42 / 39