POLIMORFISMOS E ESTUDOS DO GENOMA José Francisco Diogo da Silva Junior Mestrando CMANS/UECE Relação genótipo fenótipo Os polimorfismos surgem devido à mutação, normalmente devido à uma má incorporação de um nucleotídeo durante a replicação, ou por mutagênese química ou física. Variação na sequência de DNA: Mudança de apenas uma base no DNA, Pequenas inserções e deleções de um número de bases através de expansões e contrações no número de repetições em tandem das sequências de DNA, Inserções de elementos transpostos, Inserções, deleções e duplicações de segmentos de DNA, Mudanças no número de cromossomos (ALBERTS et al., 2010). 1
Polimorfismos gênicos A presença, em uma população de dois ou mais formas relativamente comuns de um gene ou cromossomo é chamado de polimorfismo Um tipo prevalente de polimorfismo é uma diferença em um único par de base, o polimorfismo de nucleotídeo único (SNP) Os SNPs em sítios de restrição formam polimorfismos de comprimento de fragmentos de restrição (RFLP) Polimorfismos resultantes de uma sequência curta de DNA repetida em tandem é chamada de sequência curta de repetição (SSR) 3 Polimorfismos de número de cópias (CNPs) Uma parte substancial do genoma humano pode ser duplicada ou deletada em porções bastante largas, variando entre 1 kb até 1 Mb Esse tipo de variação é chamada de polimorfismos de número de cópias (copy number polymorphism CNP) As cópias extras ou faltantes do genoma nos CNPs podem ser detectadas por hibridação com oligonucleotídeos nos microarranjos de DNA 4 2
Polimorfismo de nucleotídeo único (SNP) É a variação genética de apenas um nucleotídeo entre sequências de DNA. 90% da variação genética humana é através dos SNPs. Um SNP ocorre aproximadamente a cada 300 bases no DNA. Isso significa que há cerca de 10 milhões de SNPs entre os 3 bilhões de nucleotídeos do genoma humano. 94% C T TA G C T T 99,9% C T TA G C T T 6% C T TA G T T T 0,1% C T TA G T T T SNP MUTAÇÃO http://learn.genetics.utah.edu/content/pharma/snips/ Polimorfismo de nucleotídeo único (SNP) 3
Polimorfismo de nucleotídeo único (SNP) Normal mrna Proteína A U G Met A A G Lys U U U Phe G G C Gly G C A Ala U U G Leu C A A Gln Variante mrna Proteína A U G Met A A G Lys U U U Phe G G U Gly G C A Ala U U G Leu C A A Gln Relação genótipo fenótipo Os polimorfismos de nucleotídeo único (single nucleotide polymorphisms, SNPs) envolvem a substituição de apenas um nucleotídeo em uma posição específica no genoma (ALBERTS et al., 2010). Novos SNPs são continuamente gerados entre cada célula dos organismos, porém a maioria é removida através da ação de reparação de DNA durante a replicação (KUNKEL et al., 2005). Quando um SNP ocorre em pelo menos uma porcentagem relativamente grande de uma população (em torno de 5% a 10%), ele é considerado um SNP comum (BROOKES, 1999). 4
Relação genótipo fenótipo Os SNPs encontrados em regiões codificantes de um gene são chamados de SNPs codificantes (csnp). SNPs não sinônimos (nssnps) exercem um efeito na estrutura e/ou na função de uma proteína por causa de uma substituição de um aminoácido. SNPs codificantes não sinônimos incluem um grupo de SNPs que, juntamente com os SNPs de regiões regulatórias, possuem o maior impacto no fenótipo. Polimorfismo de nucleotídeo único (SNP) Os SNPs são espaçados de forma irregular em intervalos de 500 a 1000 bases Dois em cada três SNPs envolve a substituição da citocina (C) com a timina (T) Os SNPs podem ocorrer tanto nas regiões codificantes como não codificantes do genoma O SNP Consortium estima que até 300.000 SNPs podem ser necessários para estudos Mais de 100.000 SNPs podem ser necessários para a descoberta de genes de doenças complexas 5
Polimorfismo de nucleotídeo único (SNP) Um SNP geralmente é uma variável binária. A probabilidade de uma mutação se repetir no mesmo locus é bastante pequena Casos de tri alelos são geralmente considerados ser efeito de erro na genotipagem O nucleotídeo em um SNP é chamado de Alelo maior (se a frequência alélica é > 50%), ou Alelo menor (se a frequência alélica é < 50%) 94% 6% C T TA G C T T C T TA G T TT C: alelo maior T: alelo menor Tipos de SNPs (SNPs não codificantes) 5 UTR 3 UTR Íntrons Regiões intergênicas Pseudogenes Regulatório Splicing Regulação transcricional (promoter e sítios de ligação dos FT) Regulação traducional (iniciação ou terminação) Sítios alvos regulatórios de mirna 6
Tipos de SNPs (SNPs codificantes) SNPs sinônimos (variação de terceira posição) SNPs de substituição (mudança de aminoácido) SNPs funcionais (substituição aceitável de aminoácido) SNPs não funcionais (traços e doenças) SNPs possuem várias funções promoter G/T G/T G/C A/G TFBS G/T 5 UTR atggacgtactggtg GU AG tctgagtgctccgcg 3 UTR Sítios de ligação Fat. transcrição Transcrito tipo 1 Transcrito tipo 2 Transcrito tipo 3 1. Alterando a proteína codificada 2. Alterando o splicing 3. Terminação prematura 4. Regulação da transcrição M D V L V S E C S A M D V L V S E S SA Proteína tipo 1 Proteína tipo 2 Proteína tipo 3 7
Figure 4.18: SNP genotype of an individual 15 SNPs podem ou não alterar a estrutura proteica 8
Haplótipos Um haplótipo é um conjunto de SNPs ligados em um mesmo cromossomo Um haplótipo poder ser considerado um conjunto binário já que cada SNP é binário Haplótipos 9
Genetics Home Reference http://ghr.nlm.nih.gov/ Penetrância e Fatores ambientais Alta penetrância doenças mendelianas de gene único Autossômico dominante, 100% de penetrância Anemia falciforme, daltonismo, fibrose cística Penetrância reduzida, alguns genes levam à predisposição à doença Genes BRCA1 & BRCA2 podem levarr à cancer de mama ou ovário Doenças complexas que necessitam de alelos em vários genes Câncer influenciado pelo ambiente (fumo, exposição aos raios UV) Aterosclerose (obesidade, genética e colesterol) Algumas doenças complexas possuem múltiplas causas Genética vs. ambiente vs. comportamento Algumas doenças complexas pode ser causadas por múltiplas vias metabólicas DMT2 função reduzida das células β pancreática, produção reduzida da insulina, resistência à insulina, bem como condições ambientais (obesidade, sedentarismo, fumo, etc.) 10
Herdabilidade dos SNPs Anemia falciforme Fibrose Cística Daltonismo Doenças complexas Manolio et al. Nature 461, 747 753 (2009) Herdabilidade de algumas condições MANOLIO, T. A et al. Finding the missing heritability of complex diseases. Nature, v. 461, n. 7265, p. 747 753, 2009. 11
Genes de interesse em nutrigenética Doença Diabetes, Tipo II Diabetes, Tipo II Obesidade Doença cardiovascular DHGNA Dislipidemia Hipercolesterolemia Hipertensão Doença Celíaca Colite ulcerativa Doença de Crohn Gene ou Loci CDKAL1, WFS1, KCNQ1, IL2Rα, JA2F1 KIAA0350 FTO, MC4R, PCSK1 6q25, 2q36 PNPLA3 MLX1PL CELSR2 SLC12A3, SLC12A1,KCNJ1 IL 2, IL 21, ECM1, PTPN2, HERC2, STAT3 JAK2, CDKAL1, ITLN1, IRGM Projeto Internacional HapMap http://www.hapmap.org/ 12
Estudos de Associação Pan Genômica (GWAS) Catálogo de estudos GWAS http://www.genome.gov/gwastudies/ 13
GWAS Central http://www.gwascentral.org/ dbgap 14
Estudos de Associação pan genômica (GWAS) Busca por associações a partir de variantes Geração de dados em larga escala (high throughput) Geração de dados em larguíssima escala (next gen sequencing) Ferramentas analíticas de data mining Descoberta de novas relações biológicas BILLINGS et al., 2010 Estudos de Associação pan genômica (GWAS) Os estudos de associação pan genômica, ou Genome wide Association Studies (GWAS), examina as variações genéticas em diferentes indivíduos para encontrar quais dessas variantes estão associadas à fenótipo em particular. A variante mais comum utilizada pelo GWAS é o polimorfismo de nucleotídeo único (SNP). Identifica regiões dos genes que podem predizer informações de desequilíbrio de ligação comparado com o projeto HapMap. National Human Genome Research Institute (2011) 15
Estudos de Associação pan genômica (GWAS) Geralmente analisa de 100.000 1.000.000 de SNPs no genoma. Cobre aproximadamente 80% do genoma. Aproximadamente 1.200 GWAS foram feitos sobre mais de 200 doenças e traços e foram encontrados mais de 4.000 associações de SNPs. https://www.genome.gov/ Abordagem GWAS para doenças complexas Identificação de todos os 10 milhões de SNPs comuns. Coleta de 1.000 casos e 1.000 controles. Genotipagem de todo o DNA para todos os SNPs. 20 bilhões de genótipos. Em 2002, essa abordagem custava US$ 0,50 por genótipo. Isso daria US$ 10 bilhões para cada doença impraticável. COLLINS, et al. JAMA. 2008;299(11):1351 1352 16
Abordagem GWAS para doenças complexas Identificação de um conjunto de 300.000 tag SNPs. Coleta de 1.000 casos e 1.000 controles. Genotipagem de todo o DNA para todos os SNPs. 600 milhões de genótipos. Em 2008, o custo da genotipagem caiu para US$ 0,0010, totalizando US$ 600.000 para cada doença. COLLINS, et al. JAMA. 2008;299(11):1351 1352 Custo do sequenciamento de DNA Sequenciamento de nova geração: US$ 1.000 e 1 2 semanas Custo por genoma (US$ milhões) 100.000,00 10.000,00 Tempo de sequenciamento Next Generation Sequencing 1.000,00 100,00 10,00 1,00 Projeto Genoma Humano 13 anos US$ 3.000.000.000,00 anos meses 0,10 0,01 0,001 semanas 2003 2005 2011 17
www.genome.gov/gwastudies 18
Estudos GWAS publicados, 2005 6/2012 1400 1350 Número Total de Publicações 1200 1000 800 600 400 200 0 2005 2006 2007 2008 2009 2010 2011 2012 www.genome.gov/gwastudies Manolio T. N Engl J Med 2010;363:166 176 19
Manolio T. N Engl J Med 2010;363:166 176 20
Estudos de Associação pan genômica (GWAS) Escanear o genoma - 500.000 SNPs * * Identificar as regiões de interesse, examinar os genes, a densidade dos SNPs, regiões regulatórias, etc. * ** Replicar os achados Estudos de Associação pan genômica (GWAS) Associação direta Locus diretamente genotipado Associação indireta (guilt by association) Marcador relacionado com o locus da doença Gene Candidato ou GWAS Hirschhorn & Daly, Nat Rev Genet (2005) 21
Desequilíbrio de Ligação e Associação alélica Marcador LD 1 2 3 D n Marcadores próximos nos cromossomos são normalmente transmitidos em conjunto, produzindo uma correlação entre os alelos. Esse fenômeno é chamado de Desequilíbrio de Ligação Isto é importante para a associação alélica porque significa que não é necessário acessar a variante etiológica exata, mas procurar por associação em um tag SNP com uma variante próxima. Desequilíbrio de ligação 22
Desequilíbrio de ligação Figura: http://www.molvis.org/molvis/v14/a205/images/mv v14 1727 f2.jpg Estudos de Associação pan genômica (GWAS) Manolio T. N Engl J Med 2010;363:166 176 23
Análise genética de SNPs relacionados com DCV Fator de risco para DCV Gene SNPs Genótipo Lipídios APOAI 75G A GA Lipídios APOC3 3175C G GG Lipídios APOE ε2, ε3, ε4 2, 3 Lipídios CETP 279G A GG Pressão arterial ACE Ins/Del ID Pressão arterial AGT 6C A AA Inflamação IL1B 511C T TT Inflamação IL6 174G C GC Metilação (folato) MTHFR 677C T TT Metilação (B12) TCN2 776C T CT DCV doença cardiovascular Food and nutrition in 21 st century, Warsaw, 8 9.09.2011 Estudos de Associação de Módulo Gênico (GMAS) 24
Estudo de Associação de Módulo Gênico (GMAS) Difícil análise genética de fenótipos multifatoriais Expressão gênica Variantes polimórficas (SNPs e CNVs) dos genes de interesse Frequências alélicas Anormalidades cromossômicas Dieta e fatores ambientais e comportamentais Alterações epigenéticas (metilação de DNA) DAI et al., 2013; MOORE et al., 2013 Estudo de Associação de Módulo Gênico (GMAS) GWAS vs. GMAS Métodos reducionistas da complexidade e do volume Módulos Eigengenes Representam grupos gênicos baseados em redes de interação Combinação linear normalizada de genes com a maior variância em uma população LANGFELDER et al., 2007; WEISS et al., 2012 25
Eigengenes Representam as expressões características de módulos Associações ponderadas representam as relações entre os módulos Redes eigengenes fornecem um quadro natural de relações entre módulos gênicos e traços clínicos LANGFELDER; HORVATH, 2007; WEISS et al., 2012 Coexpressão gênica Comparação entre tecidos, linhagens, indivíduos, amostras Coeficiente da correlação de Pearson ( 1 até 1) Base da construção da rede ponderada Figura 2. Modelo de forte co expresão entre dois genes (A e B) Fonte: ATTED v7.1 (http://atted.jp/overview.shtml) 26
Módulos de coexpressão Agrupamentos de genes com o padrão de expressão semelhante Pode fornecer informações cruciais na compreensão dos sistemas biológicos complexos KINOSHITA; OBAYASHI, 2009 Figura 3. Visualização gráfica de redes de coexpressão de genes humanos. A figura inclui 615 genes nós e 2190 ramos de coexpressão numa rede produzida no formato Cytoscape com anotações completas sobre os 615 genes Fonte: PRIETO et al., 2008 27
Estudo de Associação de Módulo Gênico (GMAS) Ampliação de estudos do tipo GWAS Cenário de como os grupos de genes funcionam em conjunto Soluções boas o suficiente Suscetibilidade às doenças comuns pode ser bem mais relacionada à maneira pela qual os genes normais interagem uns com os outros do que com efeitos adicionais de múltiplas mutações gênicas WEISS et al., 2012 Redes Ponderadas de Eigengenes Maneira de reduzir a complexidade da análise gênica A ideia é tratar da relação entre os eigengenes no lugar de todos os genes Maior facilidade para testar a associação dos eigengenes com os fenótipos de interesse O padrão eigengene deve ser capaz de predizer uma resposta fenotípica WEISS et al., 2012 28
Construir a rede Ferramentas: correlação de Pearson, limiar frouxo Justificativa: usar os padrões de interação entre genes Identificar os módulos Ferramentas: TOM, clustering hierárquico Justificativa: análise baseada em módulo ou pathway Achar o representativo de cada módulo Ferramentas: eigengene (1 o Componente Principal) Justificativa: Condensar cada módulo num só perfil Análise Posterior módulo de relações, módulo de significância de traços, análise causal Construindo uma rede de coexpressão Gerar/obter dados de expressão por microarray Fazer filtração preliminar Mensurar a concordância dos perfis de expressão de genes pela correlação de Pearson A matriz de correlação de Pearson deve ser continuamente considerando a função de adjacência rede ponderada 29
Redes consensuais eigengene Módulos individuais Módulos Consensuais Eigengenes Consenso Redes eigengene consensuais 30