Mapeamento de QTL s utilizando variáveis latentes Nubia Esteban Duarte 1, Alexandre C Pereira 2, Suely R Giolo 2, 3 e Júlia Maria Pavan Soler (Orientadora) 1 1 Universidade de São Paulo (USP) nubiaest@imeuspbr,pavan@imeuspbr 2 Laboratório de Genética e Cardiologia Molecular (USP) lbmpereira@incoruspbr 3 Universidad Federal de Paraná (UFPR) giolo@ufprbr 1 Introdução Recentemente, a análise haplotípica está sendo umas das áreas mais ativas em estudos genômicos Como uma combinação de alelos ligados próximos sobre um cromossomo, o haplótipo é mais informativo para inferências sobre genes funcionais do que análises uniloco de alelos de marcadores ou genótipos [1] Um assunto relevante em análise haplotípica é a determinação de qual combinação de marcadores deve ser usada para a construção de haplótipos Para explorar completamente a associação entre um conjunto de marcadores e uma doença fenotípica, varias combinações de marcadores necessitam ser consideradas Espera-se que usando um arranjo mais denso de marcadores seja possível identificar os genes, (QTL s), que controlam a doença fenotípica em questão O enfoque de mapeamento por associação ou desequilíbrio de ligação (LD) é uma ferramenta forte para o mapeamento de QTL s Vários métodos utilizando LD em populações de indivíduos não relacionados têm sido propostos para mapear QTL s usando marcadores genéticos [9], [4], [6] Muitos desses métodos assumem que o potencial QTL está localizado sobre os marcadores, mas, dado o fato que só é possível observar genótipos de marcadores e não o genótipo do QTL, esta restrição pode conduzir à estimação viesada de parâmetros tais como frequências alélicas de QTL e seus efeitos genéticos O poder de testes também pode ser substancialmente reduzido pelo incompleto desequilíbrio de frequências alélicas entre QTL e marcadores Z W Luo et al (2000) ([11]), desenvolveu um método de LD em populações de indivíduos não relacionados para inferir QTL s considerando os genótipos do QTL como dados não observáveis (variável latente) O método considera o desequilíbrio de ligação entre o possível QTL e um marcador de cada vez No seu enfoque a existência do QTL pode ser testada baseada na hipótese nula de nenhum efeito genético do QTL Entretanto o LD entre o loco da doença e do marcador provê informação para localizar o loco da doença Neste estudo será abordado o método de mapeamento de QTL s apresentado em Tao Wang et al (2007) ([11]), o qual é uma extensão do modelo de variável latente apresentado em [11] O método é apresentado para mapeamento por associação de QTL s usando múltiplos marcadores com dados genotípicos de fase não conhecida Sob uma estrutura de verossimilhança são calculados os estimadores de máxima verossimilhança dos efeitos de QTL s e frequências haplotípicas de QTL s e marcadores conjuntamente Das frequências haplotípicas entre QTL s e marcadores é possível calcular várias medidas de associação entre QTL s e marcadores e então inferir as posições do QTL Através do uso de múltiplos marcadores simultâneamente, o método pode ajudar na separação de forte LD entre os marcadores ligados dentro de uma pequena região no genoma Pela incorporação do QTL como variável latente no modelo de mapeamento, o QTL tem a flexibilidade para caracterizar tanto o alelo da doença em um loco, ou um haplótipo/subhaplótipo de risco entre os marcadores No contexto deste novo método, o objetivo do trabalho é revisar a metodologia associada para o mapeamento de QTL s sob o modelo de variável latente, implementá-la computacionalmente e aplicá-la em dados reais Na seção 2 será apresentado o modelo de variável latente para descrever a relação entre um traço quantitativo e o genótipo do QTL assim como a função de verossimilhança associada ao modelo Também coeficientes de correlação parcial entre QTL e marcadores são introduzidos como medidas de associação para explorar o efeito de "pegar carona"dos marcadores para inferir posições de QTL s Na seção 3 descreve-se de forma suscinta os dados que serão utilizados para as respectivas aplicações deste novo método junto com algumas análises descritivas 2 Modelo de variável latente Em estudos de genética quantitativa, um traço quantitativo é assumido ser afetado por QTL s e por fatores ambientais Esta relação fenótipo-qtlgenótipo pode usualmente ser descrita através de um modelo genético Suponha que temos uma amostra de N indiví- 185
duos não relacionados de uma população de interesse Considera-se o modelo descrito a seguir: Y = Zα + Qβ + e (1) Y NX1 = (Y 1, Y 2,, Y N ), vetor de respostas fenotípicas, Z NXp = (Z 1, Z 2,, Z N ), matriz das covariáveis associadas a cada indivíduo, α px1 = (α 1, α 2,, α p ), vetor dos efeitos fixos das covariáveis, Q NXq = (Q 1, Q 2,, Q N ), matriz de variáveis latentes associadas aos efeitos de QTL; ignorando interacões, cada Q i é um vetor tal que: Q i = (w i1, v i1, w i2, v i2,, w il, v il ) Supondo conhecidos os genótipos do QTL, tem-se: 1, genótipo A j0 A j0 no j-ésimo QTL w ij = 0, genótipo A j0 A j1 no j-ésimo QTL 1, genótipo A j1 A j1 no j-ésimo QTL, v ij = 1, genótipo homozigoto no j-ésimo QTL 0, genótipo heterozigoto no j-ésimo QTL, para j= 1, 2,, l e i= 1,, N l é o número de QTL s afetando o traço, (nota-se que q = 2l) β = (a 1, d 1,, a l, d l ), onde a j e d j são os efeitos aditivos e de dominância do j-ésimo QTL, respectivamente, e NX1 é o vetor dos erros residuais o qual usualmente segue uma distribuição normal (e i N(0, σ 2 )) Sob o modelo (1), os genótipos do QTL, representados por q i (i = 1, 2,, N), serão considerados como dados não observáveis Como resultado a matriz Q no modelo (1) não pode ser explicitamente especificada A distribuição dos genótipos de QTL s não observados, no entanto, é suposta estar associada com a distribuição dos genótipos, x i, dos marcadores observados Considerando os efeitos do vetor β como fixos, o propósito é estimar os efeitos dos QTL s junto com a distribuição conjunta, P (q i, x i ), de QTL e marcadores P (q i, x i ) contém informação sobre as frequências alélicas do QTL assim como a associação entre QTL e marcadores Isto é de grande valor para inferir posições do QTL 21 Função de verossimilhança O método, que inclui variáveis latentes, poderia ser considerado como uma extensão do clássico método de mapeamento por intervalo [5], o qual tem sido amplamente usado em modelos animais para fazer uma pesquisa de ligação do genoma completo Dentro de um intervalo, flanqueado por dois marcadores, o método de mapeamento por intervalo forma uma mistura de distribuiçoes normais correspondentes aos três possíveis genótipos do QTL Analogamente, no modelo (1) para a função de verossimilhança é estabelecida uma mistura de distribuições normais similar, com as ponderações sendo determinadas pela distribuição genotípica do QTL condicional aos genótipos dos marcadores ou à frequência haplotípica conjunta de QTL e marcadores A estimação dos parâmetros de máxima verossimilhança é realizada na distribuição haplotípica de QTL e marcadores e nas componentes da mistura de normais, através do algoritmo EM O método permite o uso de múltiplos marcadores ligados, simultaneamente, e é aplicável a populações naturais assim como também a alguns delineamentos controlados como Backcrosses e F2 Para a formulação da função de verossimilhança serão feitas as seguintes suposições: - Dado o genótipo do QTL, cada fenótipo Y i é condicionalmente independente dos genótipos dos marcadores, -A distribuição genotípica de QTL e marcadores é independente das covariáveis não genéticas Baseados no modelo de variáveis latentes (1) a função de verossimilhança para os dados observados Y obs = (Y i, x i ) condicional à informação das covariáveis Z = z i i = 1, 2,, N é dada por: L (Θ; Y obs Z) = N i=1 q i P (x i, q i ) Φ (Y i q i, z i ), (2) onde a soma é sobre todos os possíveis genótipos do QTL; Φ (Y i q i, z i ) é a probabilidade de penetrância e a componente P (x i, q i ) é determinada pela frequência genotípica conjunta de QTL e marcadores Considera-se m marcadores ligados próximos, localizados em uma região candidata de interesse e genotipicamente associados com um único QTL dentro dessa região Denota-se k 1 k 1k m k m e q = jj os genótipos dos marcadores e QTL de fase não conhecida respectivamente Os pares ordenados, paternais/maternais, serão denotados por η = jk 1 k m /j k 1k m para especificar a fase conjunta conhecida dos genótipos de QTL e marcadores Os alelos do QTL denotam-se como A j e os alelos dos marcadores M 1 k 1 M m k m no gameta paterno; A j e M 1 k 1M m k m no gameta materno Sob o equilíbrio de Hardy-Weinberg, ou mais precisamente equilíbrio de fase gamética, [7], sabe-se que a frequência de genótipos de fase-conhecida η = jk 1 k m /j k 1k m é um produto de suas duas frequências haplotípicas, ou seja, 186
P (η) = P jk1k m P j k 1 m, k onde P jk1k m é a frequência haplotípica conjunta de QTL e marcadores (Assume-se que os gametas maternais e paternais têm a mesma distribuição haplotípica) Levando em consideração as fases, pode-se reescrever a função de verossimilhança de (2) como: L (Θ; Y obs Z) = N P (x i, η) Φ (Y i q i, z i ), (3) i=1 η onde a soma é sobre todas as fases conhecidas, η, de QTL e marcadores Quando uma configuração de fase-conhecida η = jk 1 k m /j k 1k m é compatível com os genótipos dos marcadores observados x i, ou seja, x i = k 1 k 1k m k m tem-se que: P (x i, η) = P (jk1 k m )P (j k 1k m), 0, si η não é compatível com x i Na função de verossimilhança descrita em (3) temse que, [ Φ (Y i q i, z i ) = 1 2πσ exp (Yi z iα Q iβ) 2, 2σ 2 ] onde β = (a, d) sendo a e d os efeitos aditivos e de dominância do QTL e Q i é codificado pelos genótipos do QTL jj Note que o modelo Φ (Y i q i, z i ) depende de η através dos genótipos do QTL, q=jj, e não depende dos genótipos dos marcadores, x i =k 1 k 1k m k m A função de verossimilhança (3) representa um modelo de mistura de normais finito com parâmetros desconhecidos envolvidos nas ponderações e nas componentes da densidade normal Para a estimação dos parâmentros de maximização usa-se o algoritmo EM, [2] O vetor de parâmetros desconhecidos Θ consiste de duas partes: os parâmetros do modelo fenotípico que relaciona os parâmetros Θ 1 = (α, β, σ 2 ) e os parâmetros relacionados com os haplótipos, Θ 2, envolvidos na frequência haplotípica conjunta P jk1k m de QTL s e marcadores Em geral, assume-se que P jk1k m segue uma distribuição multinomial, com categorias correspondentes aos haplótipos de QTL e marcadores [3] 22 Correlação parcial Em estudos de mapeamento por associação, a posição do QTL deve ser inferida com base nas posições dos marcadores e a estrutura de associação entre os QTL s e marcadores Várias medidas de associacão têm sido propostas para descrever o LD entre QTL e marcadores Duas medidas de associação amplamente utilizadas são, o coeficiente de correlação r 2 e a medida de Lewontin, D A medida de associação r 2 entre um alelo A i do QTL e um alelo M j em um marcador é definido como [3]: r 2 = D 2 ij p i (1 p i )q j (1 q j ), onde D ij = P ij p i q j é o LD entre os alelos A i e M j Para um gameta aleatório, define-se as seguintes variáveis indicadoras de acordo com os alelos do QTL e o marcador: zi 1, Ai no QTL = 0, cc, 1, Mj no marcador z j = 0, cc Tem-se que D ij = Cov(z i, z j) e assim, D r = ij é o coeficiente de correlação pi(1 p i)q j(1 q j) entre z i e z j A medida de associação de Lewontin, D, entre os alelos A i e M j é definida como: D = D ij minp i(1 q j),(1 p i)q j}, D ij > 0 D ij minp iq j,(1 p i)(1 p j)}, D ij < 0 As medidas de associação D e r 2 ignoram a informação de correlação entre marcadores É conhecido que a correlação parcial é útil para separar a dependência entre variáveis correlacionadas Das frequências haplotípicas conjuntas entre QTL e marcadores é possível calcular a correlação parcial entre um QTL e um marcador, condicional a um conjunto de marcadores Uma estratégia conveniente para se inferir as posições do QTL é primeiro selecionar o marcador que mostre mais forte associação com o QTL e então escolher uma região ao redor de acordo com o modelo de associação de outros marcadores 3 Aplicação Nas aplicações são usados os dados do "Genetics Analysis Workshop 16, Problema 1"(GAW16) Os dados foram disponibilizados para identificar genes associados com o risco de artrite reumatóide (RA) a 187
qual é uma doença infecciosa comum com variantes genéticas e fatores ambientais, [8] Os dados consistem de medições fenotípicas e genotípicas de um grupo de indivíduos não relacionados caso e controle Neste trabalho considerase o fenótipo quantitativo Anti-CCP, que é um preditor do risco para o desenvolvimento de artrite reumatóide, como variável resposta e como covariável a variável qualitativa sexo Oefeito de 4743 SNPs do cromosssomo 6 é avaliado Na Tabela 1 descreve-se, de forma geral, o banco de dados dos 868 indivíduos caso genotipados para os SNPs que serão utilizados no estudo Figura 1: Diagrama de barras para as categorias considerando três SNP s Tabela 1: Banco de dados(gaw16) Fenótipos e Genótipos Fen 1 Fen 2 SNP 1 SNP 4743 AnCC Sexo rs1033 rs6458 Ind l 84,7 F 1 0 Ind 2 79 F 0 2 Ind 3 413 F 0 1 Ind 867 361,97 M 2 0 Ind 868 344,223 M 0 1 Figura 2: Boxplots para as categorias que incluem mais do que um heterozigoto Uma região que tem evidências de associações genéticas com a doença é conhecida como HLA- DRB1 e está localizada no interior do cromossomo 6 Esta região tem sido identificada em numerosos estudos e há evidência consistente de que os alelos DR contribuem para o risco de RA Os 4743 SNPs pertencem a esta região e o intuito é identificar locos específicos (ou haplótipos) efeitos de genes ou haplótipos associados com o risco de artrite reumatóide Inicialmente foi realizada uma análise descritiva dos dados considerando haplótipos de três locos Para tanto os 4743 SNPs foram divididos em 1581 trios, os quais podem ser classificados em 27 categorias: 222, 221, 220,, 000 (2:AA, 1:Aa, 0:aa) A Figura 1 apresenta o número de trios que pertencem às 27 possíveis categorias, (incluí-se a categoria 28 para descrever dados faltantes) Percebese uma grande quantidade de trios que pertencem às categorías onde há mais do que um heterozigoto (barras destacadas) Estes trios levam à formação de haplótipos de fase não conhecida Na Figura 2, apresentam-se os boxplots das categorias onde há mais do que um heterozigoto Percebe-se que, em média, cada indivíduo possui um número alto dos trios que envolvem mais do que um heterozigoto O próximo passo da análise é o ajuste do modelo de variável latente descrito anteriormente A implementação do algoritmo para ajuste do modelo (1) está sendo feita utilizando o aplicativo R Os dados de artrite reumatóide apresentam muitos trios de fase não conhecida que merecem ser incluídos na análise Deste modo estamos trabalhando na generalização da função de verossimilhança (2) no sentido de acomodar fase desconhecida 4 Agradecimentos Ao Genetics Analysis Workshop 16 (GAW16), os dados utilizados nas análises estatísticas (NIH grant R01 GM031575) Ao CNPq pelo apoio financeiro Referências [1] Andrew G Clark, The Role of haplotypes in candidate gene studies, Genetic Epidemiology 27 (2004), 321-333 [2] A P Dempster, N M Laird, and D B Rubin, Maximumlikelihood from incomplete data via the EM algorithm, J Roy Stat Soc B 39 (1977), 1-38 [3] Bruce Weir, Genetic data analysis II, Sianuer Associates, Inc Massachusetts, USA, 1996 188
[4] Bruce Rannala and Montgomery Slatkin, Likelihood analysis o disequilibrium mapping, and related problems, Am J Hum Genet 62 (1998), 459-473 [5] Eric Lander and David Botstein, Mapping Mendelian factors underlying quantitative traits using RELP linkage maps, Genetics 121 (1989), 185-199 [6] Joseph D Terwilliger, A powerful likelihood method for the analysis of linkage disequilibrium between trait loci and one or more polymorphic marker loci, Am J Hum Genet 56 (1995), 777-787 [7] Michael Lynch and Bruce Walsh, Genetics and analysis of quantitative traits, Sianuer Associates, Inc Sunderland, Massachusetts, USA, 1998 [8] Robert M Plenge et al, TRAF1-C5 as a risk locus for rheumatoid arthritis - a genomewide study, The NEW ENGLAND JOURNAL of MEDICINE (NEJM) 357 (2007), 1199-1209 [9] T H Meuwissen and Mike E Goddard, Fine mapping of quantitative trait loci using linkage disequilibria whith closely linked marker loci, Genetics 155 (2000), 421-430 [10] Tao Wang, Bruce Weir, and Zhao-Bang Zeng, A Population-based Latent Variable Aproach for Association Mapping of Quantitative Trait Loci, Annals of Human Genetics 70 (2006), 506-523 [11] Z W Luo, S H Tao, and Zhao-Bang Zeng, Inferring Linkage Disequilibrium Between a Polymorphic Marker Locus and a Trait Locus In a Natural Populations, Genetics 156 (2000), 457-467 189