Identificação de fatores de transcrição a partir de dados de expressão. Márcio Augusto Afonso de Almeida Laboratório de Genética e Cardiologia Molecular InCor.
Introdução Técnicas de expressão global permitem o monitoramento simultâneo de milhares de genes. Podem ser divididas em dois grupos: Identificação de novos genes ( EST, SAGE e MPSS ). Monitoramento de expressão (Microarrays e SAGE)
Largamente aplicados em estudos focados em doenças de caráter complexo ( poligenicas). Câncer. Hipertensão. Dibetes Estudos de respostas fisiológicas.
Dados de expressão podem ser entendidos como sinais pontuais em um vetor tempo. É muito difícil identificar vias gênicas envolvidas em um processo, a partir de experimentos simples de microarray. Experimentos temporais de microarray tentam estabelecer relações entre esses sinais.
Analisar somente o RNAm traz algumas limitações. É difícil de definir quais são as reais variáveis biológicas agindo nos genes. O controle da expressão dos genes é um fenômeno continuo. Limitações técnicas. Custo alto.
Algumas soluções foram criadas para tornar os dados de expressão mais próximos da realidade. Mapeamento de sítios de fatores de transcrição. Busca de sítios de ligação de micro RNAs. Cruzamentos funcionais. Cruzamento com bancos de variantes genéticas. Clusterização de dados de expressão.
Mapeamento de sítios de fatores de transcrição. O grupo dos fatores de transcrição é considerado muito conservado. O homem, outros mamíferos, fungos e até bactérias utilizam se de alguns fatores de transcrição em comum. Essas proteínas praticamente co evoluiram com os genomas.
Os fatores de transcrição são responsáveis pelo controle cis dos genes. Funções: Auxiliam a localização gênica para o complexo transcricional. Interagem com a RNA polimerase alterando a expressão do gene.
A interação DNA Proteína é extremamente eficiente. Se ligam a pequenas seqüências de DNA (6 a 20 pb) localizadas nas regiões promotoras dos genes. Tais seqüências são conhecidas como sítios de ligação.
Um fator da família Zinc Finger www.wikipedia.org
Interação DNA Proteínas Sítio 1 S í tio 5 S í tio 2 Sítio 3 Fator de Sítio 4 Transcrição
Tais sítios são muito similares entre si. Diversos algoritmos foram desenvolvidos para a identificação de tais padrões de DNA. Siítios Sítio 1 Sítio 2 Sítio 3 Sítio 4 FATOR 1 Sequencias ACTGGGATG ATTGGAGGG ACTGGAATG CCTGGAATG
Algoritmos de detecção Existem basicamente dois tipos de algoritmos de busca. String Search. Matrizes posicionais. String search: Procuram diretamente por padrões de sítios conhecidos em um processo muito similar á um alinhamento.
Matrizes Posicionais Podem ser entendidos como uma representação estatística dos padrões de seqüências dos sítios Cada posição da matriz representa as preferências do fator para a mesma. Muito poderosas. Adaptadas a variabilidade biológica
Montagem de uma Matriz Posicional FATOR 1 Sítio 1 Sítio 2 Sítio 3 Sítio 4 Sítio 5 ACTGGGATG ATTGGAGGG ACTGGAATG CCTGGAATG ATTGGAGCG Conservação [0% 100%]
Desvantagens do uso de algoritmos de detecção de sítios. Tanto algoritmos de string search quanto as matrizes têm baixa especificidade. Geram uma grande quantidade de sítios falsos positivos. Outros algoritmos foram propostos Matrizes Biposicionais. Matrizes Familiares Problema de difícil solução.
O problema combinatório Os sítios de interação são em sua maioria curtos( menos de 10 pb). Devido ao alfabeto pequeno (ACTG) e o grande tamanho das seqüências genômicas. Existe uma grande chance combinatória da ocorrência desses sítios. Ex: Sítio de 6 pb. Uma ocorrência a cada 4096 pb ao acaso em uma string search.
Localização dos sítios Devido a estrutura tridimensional da cromatina teoricamente os sítios podem estar a grande distância do gene. Aproximadamente 85% dos sítios de transcrição já associados a genes estavam relativamente próximos ao TSS. Já foram identificados sítios associados a distâncias muito maiores.
A região que compreende 2000 pb anteriores ao TSS até o fim do primeiro ESTRUTURA intron é a GÊNICA região preferencial para a busca. 85% 2º Exon + 2000 pb 1º Exon 1 Intron
Mesmo se utilizando se da localização genômica, a seqüência alvo ainda é considerada grande. Outros critérios adicionais de conservação podem ser combinados para restringir ainda mais a busca.
Seleção positiva de seqüências As mutações em um genoma são totalmente randômicas. A grande maioria delas são em regiões intergênicas ( 98% do genoma). Mutações em bases importantes de DNA podem ter conseqüências drásticas.
Devido as essas graves conseqüências dispomos de uma grande gama de sistemas de reparos de mutações. Mutações em regiões promotores podem causar grandes alterações na expressão de um gene. Regiões conservadas inter espécies devem conter importantes informações e provavelmente sítios de interação.
Nossos cromossomos apresentam trechos conservados em espécies próximas evolutivamente. Algumas regiões possuem conservação em espécies distantes como peixes por exemplo.
Hipótese do enriquecimento de sítios Genes apresentam múltiplas ESTRUTURA cópias de sítios GÊNICA de fatores imprescindíveis para o seu funcionamento. FATOR O eriquecimento já foi comprovado em diversos genes importantes. Sítio 1 º EXON
Um método para a identificação de elementos de ligação de fatores de transcrição enriquecidos em grupos de genes corregulados. Aluno: Márcio Augusto Afonso de Almeida Orientador: Paulo Sérgio Lopes de Oliveira Co orientador: Alair Pereira do Lago
Problema biológico A hipertensão é uma doença multifatorial com grande interesse financeiro. Muitos trabalhos científicos são focados em investigar genes ou fatores genéticos( SNPs) associados a essa doença.
É considerada uma doença extremamente associada a variáveis ambientais. Tabagismo Stress Poluição Sal Hipertensos são mais suscetíveis a infartos e derrames.
Linhagem congênica Ratos espontaneamente hipertensos (SHR) foram cruzados com ratos brown norway. Dos cruzamentos foram definidas linhagens com fenótipos hipertensivos específicos. A cada linhagem são definidos trechos cromossomicos herdados parentalmente. Experimentos de congenia permitem a identificação de regiões cromossomicas associadas a doenças de interesse.
A linhagem 16 é constítuida por ratos com background genético SHR que receberam um pequeno trecho do cromossomo 16 do rato BN. Esses ratos ao serem expostos a uma alimentação hipersódica não apresentaram variação em sua pressão sangüínea. Ratos C16 são menos suscetíveis a variação de pressão.
Procura de genes candidatos Para buscar genes de interesse foram realizados chips de microarray. SHR X C16 5 animais de cada grupo. Lâminas Whole Genome Codelink@ com 35129 Spots. As lâminas foram normalizadas usando um algoritmo LOESS cíclico.
Inferência estatística Teste T Student Controles Excluídos. Foram considerados significantes genes com razão de variação maior que 2. 24 genes com aumento. 24 genes com diminuição.
Métodos Genes Corregulados Blocos Conservados Mapeamento de Sítios Teste de enriquecimento Identificar Sítios Enriquecidos Genes Randômicos Blocos Conservados Mapeamento de Sítios
Resultados A análise de enriquecimento identificou diferenças significativas nos seguintes fatores de transcrição: STAT3 MSX1 V.MyB Tel 2 Os três primeiros já foram associados a doenças cardiovasculares.
Próximos Passos Definir uma distribuição nula para a avaliação mais robusta do enriquecimento de TFBS a partir de todos genes sem diferença de expressão nos experimentos microarray. Anotação funcional dos fatores de transcrição detectados.