Resumo - capítulo 10 - Análise de genomas

Documentos relacionados
Capítulo 8. Versão 0.4. Filogenômica

Replicação do DNA. Experimentos de Meselson-Stahl demonstraram a natureza semi-conservativa da replicação

Número de genes versus número de proteínas em eucariotos

Genes e Genomas Eucariotos

GENOMAS. Prof. Dr. Marcelo Ricardo Vicari

UNIVERSIDADE FEDERAL DE JUIZ DE FORA Departamento de Imunologia, Microbiologia e Parasitologia. Genética bacteriana. Prof.

Prof. Marcelo Langer. Curso de Biologia. Aula 26 Genética

UNIVERSIDADE FEDERAL DE JUIZ DE FORA Departamento de Imunologia, Microbiologia e Parasitologia. Genética bacteriana. Prof.

Genética Bacteriana. Julliane Dutra Medeiros

Gene: evolução do conceito

Estudos das ômicas: Genômica; Transcriptomica; Metagenômica. Aula 7

Sequenciamento de genoma e transcriptomas

Genes e Genomas Procarióticos

Uso de microarrays e RNA-seq para a medida de níveis relativos de transcrição

Transcrição e tradução QBQ 102

Universidade Federal de Pelotas Programa de Pós-Graduação em Biotecnologia Biologia Molecular. Prof. Odir Dellagostin

UNIVERSIDADE FEDERAL DE JUIZ DE FORA Departamento de Imunologia, Microbiologia e Parasitologia. Genética bacteriana. Prof.

Biologia Molecular Computacional Homologia

Prof. João Carlos Setubal

introdução ao curso

Transcrição e tradução QBQ 204 Aula 4 (biomol)

a) Baseando-se nos resultados acima, qual é a sequência mais provável desses 4 genes no cromossomo, a partir do gene A? b) Justifique sua resposta.

Predição de novo de genes

ESTUDOS DAS ÔMICAS: GENÔMICA VS TRANSCRIPTÔMICA E METAGENÔMICA. Aula 7. Maria Carolina Quecine Departamento de Genética

Introdução à Bioquímica

Transcrição do DNA. Dogma central. O fluxo da informação é unidirecional. Refutação definitiva da herança dos caracteres adquiridos 26/04/2015

UNIVERSIDADE FEDERAL DE OURO PRETO INSTITUTO DE CIÊNCIAS EXATAS E BIOLÓGICAS DEPARTAMENTO DE CIÊNCIAS BIOLÓGICAS

Identificação de fatores de transcrição a partir de dados de expressão.

Transcrição é a primeira etapa da expressão do gene. Envolve a cópia da sequência de DNA de um gene para produzir uma molécula de RNA

DNA RNA Proteínas. Organização estrutural e funcional do núcleo 04/04/2017. Processamento (Splicing) Tradução (citoplasma) Replicação.

Evolução Molecular. "Nothing in Biology Makes Sense Except in the Light of Evolution. Theodosius Dobzhansky

Sequenciamento de genoma e transcriptomas

Conceito: qualquer modificação súbita e hereditária no conjunto gênico de um organismo, que não é explicada pela recombinação da variabilidade

Anotação de genomas II

GENÉTICA BACTERIANA. Ana Caroline Lopes

Resoluções das atividades

Do DNA à Proteína: Síntese protéica. Profa. Dra. Viviane Nogaroto

Biologia Molecular e Celular- 2019

Origem da variação. Conceitos importantes. Variação Genética e Evolução. Deriva. Seleção. Mutação. Migração

Organização de Genomas e Estrutura Fina dos Genes

Organização Gênica de Eucariotos. Prof. Odir A. Dellagostin

15/10/2009 GENÉTICA BACTERIANA. Disciplina: Microbiologia Geral Curso: Nutrição Prof. Renata Fernandes Rabello. Informação genética essencial.

Estrutura típica de um vírus?

DNA, Cromossomos e Replicação. Capítulos 5 e 6 (pág ) - Fundamentos da Biologia Celular - Alberts- 2ª edição

PRINCÍPIOS GERAIS DA RECOMBINAÇÃO DO DNA

Relembrando: Material genético

PROCESSAMENTO DE RNA. Prof. Marcelo A. Soares. Universidade Federal do Rio de Janeiro

- Sequenciamento de genomas nada mais é que a determinação da ordem linear dos nucleotídeos ou bases nitrogenadas de um genoma.

Elementos de Transposição

Anabolismo Nuclear e Divisão Celular

Organização do genoma e variação individual

IBM1029 Introdução à Bioinformática. O Início da Bioinformática 27/03/2017. Aula 2. O Início. Bioionformática: definição

Transcrição gênica. Prof. Mateus Grangeiro

Controle da Expressão Gênica em Eucariotes

UN.2 -PATRIMÓNIO GENÉTICO E ALTERAÇÕES AO MATERIAL GENÉTICO

Ribose. Púricas (dois anéis): Adenina e Guanina. Bases nitrogenadas Pirimídicas (um anel): Timina, Citosina e Uracila

DOGMA CENTRAL DA BIOLOGIA MOLECULAR

Profa. Dra. Viviane Nogaroto

Nada em Biologia faz sentido senão à luz da evolução.

RAPD RAPD. Estimando diversidade entre genomas

Bases Genéticas da Síntese e da Diversidade dos Anticorpos

Regulação da expressão gênica. John Wiley & Sons, Inc.

Genômica. Desenvolvimento e Aplicações. Prof. Manoel Victor

Nome: Curso: Nº. 1 º Teste Engenharia Genética 22 de Novembro de 2012 Duração: 2h.

Princípios de Sistemática Molecular

Lista de Exercícios - Monitorias

Regulação da expressão gênica em Procariotos. John Wiley & Sons, Inc.

BIBLIOTECAS DE DNA E HIBRIDIZAÇÃO. FABIANA SEIXAS

DESVENDANDO O GENOMA HUMANO

Universidade Tiradentes Mestrado em Biotecnologia Industrial Biologia Molecular I. Prof. Odir Dellagostin

Transcrição: Síntese de RNA Tradução: Síntese Proteica

Recursos Genéticos Vegetais

UNIVERSIDADE FEDERAL DE JUIZ DE FORA DEPARTAMENTO DE PARASITOLOGIA, MICROBIOLOGIA E IMUNOLOGIA

Duplicação do DNA & Síntese de proteínas

AGRONÔMICA GENÉTICA MICROBIANA

TRANSCRIÇÕES GÊNICAS. BIOLOGIA Keffn Arantes

Tecnologia do DNA recombinante. John Wiley & Sons, Inc.

DEFINIÇÕES EM EPIDEMIOLOGIA MOLECULAR E CONCEITOS BÁSICOS EM BIOLOGIA MOLECULAR

CAPÍTULO 6: COMPOSTOS ORGÂNICOS PROTEÍNAS CAP. 7: COMPOSTOS ORGÂNICOS ÁCIDOS NUCLEICOS E VITAMINAS

Prof. Marcelo Langer. Curso de Biologia. Aula 16 Genética

Nucléolo, cromatina e cromossomos

Unidade 2 PATRIMÓNIO GENÉTICO

Princípios Básicos de Genética Molecular Parte II. Profª Ana Claudia 17/02/2017

Montagem de regiões gênicas

Regulação da Expressão Gênica em Eucariotos

PAULO EDUARDO BRANDÃO, PhD DEPARTAMENTO DE MEDICINA VETERINÁRIA PREVENTIVA E SAÚDE ANIMAL FACULDADE DE MEDICINA VETERINÁRIA E ZOOTECNIA UNIVERSIDADE

APÊNDICE I - Versão original das tabelas 4, 5 e 6 e a lista com os conteúdos mantidos e eliminados nas tabelas finais apresentadas no corpo da tese

Universidade Estadual de Maringá - UEM

ESTRUTURA E FUNÇÃO DOS GENES E CROMOSSOMOS

genética molecular genética clássica DNA RNA polipeptídio GENÉTICA Exercícios 1. Julgue os itens que se seguem.

MARCADORES MOLECULARES: DO MELHORAMENTO A CONSERVAÇÃO. Aula 10. Maria Carolina Quecine Departamento de Genética

Conceitos de Genética William S. Klug, Michael R. Cummings, Charlotte A. Spencer & Michael A. Palladino

GENOMAS. Prof. Dr. Marcelo Ricardo Vicari

Origem da variação. Conceitos importantes. Variabilidade genética. Variabilidade Genética. Variação genética e Evolução

Enzimas de restrição

BIOLOGIA. Moléculas, células e tecidos. Núcleo interfásico e código genético. Professor: Alex Santos

Programa de Pós-Graduação em Genética e Melhoramento de Plantas

DNA e Cromossomos. Capitulo 5 - Fundamentos da Biologia Celular- Alberts- 2ª edição

7.012 Conjunto de Problemas 4

Transcrição:

Resumo - capítulo 10 - Análise de genomas Pedro Ivo Gomes de Faria Sumário 1 Introdução 2 1.1 Anatomia de genomas...................... 2 1.1.1 Genomas procarióticos.................. 2 1.1.2 Genomas eucarióticos................... 3 1.2 Montagem de sequências e identificação de genes........ 4 2 Métodos 5 2.1 Genômica comparativa...................... 5 2.1.1 Análise do proteoma................... 5 2.1.2 Regiões conservadas antigas............... 8 2.1.3 Transferência horizontal de genes............ 8 2.2 Classificação funcional de genes................. 8 2.3 A ordem dos genes (sintenia) é conservada em cromossomos de organismos relacionados.................... 9 2.4 Regulação gênica global..................... 11 2.5 Predição da função gênica baseada na análise de compostos.. 12 2.6 Genômica funcional........................ 13 2.7 Juntando todas as informações em um banco de dados de genomas................................ 13 1

1 Introdução Uma das maiores aplicações da bioinformática é a análise de genomas inteiros de organismos que foram sequenciados no final dos anos 1990, como os organismos modelo C. elegans e A. thaliana. Vários outros projetos de sequenciamento de genomas estão sendo planejados ou já estão em andamento. A genética tradicional e a biologia molecular foram direcionadas para o entendimento do papel de um gene em particular ou de uma proteína em um processo biológico importante. Um gene é seqüenciado para a predição de sua função ou para a manipulação de sua atividade ou expressão. A disponibilidade de sequências de genomas fornece oportunidades sem precedentes para explorar a variabilidade genética entre organismos ou dentro de um organismo em particular. Uma das maiores tarefas na comparação de genomas é identificar os genes que codificam proteínas e descobrir a função do maior número possível dessas proteínas (por buscas de similaridade em um banco de dados). 1.1 Anatomia de genomas A análise microscópica de células de plantas ou de animais (eucarióticas) revelou um núcleo com um número específico de cromossomos compactados de tamanho e morfologia variáveis, que podiam ser vistos em determinados estágios da divisão celular. Os núcleos e os cromossomos não foram detectados inicialmente em células bacteriais (procarióticas), mas posteriormente observou-se que o DNA bacterial era normalmente circular e também estava em uma forma compactada. 1.1.1 Genomas procarióticos O sucesso do sequenciamento de Hemophilus influenzae (um patógeno humano moderado), feito num tempo relativamente curto e com orçamento modesto, estimulou o sequenciamento de um grande número de organismos procariontes. Eles foram selecionados com base em pelo menos três critérios: 1. eram organismos modelos (como E. coli), submetidos a uma grande carga de análises biológicas; 2. eram patógenos humanos importantes (como Mycoplasma pneumoniae, causador da pneumonia); 3. eram de interesse filogenético. 2

As sequências genômicas foram anotadas conforme eram obtidas. A anotação envolve a identificação de fases de leitura abertas (ORFs) usando a proteína prevista como consulta em uma busca num banco de dados, seguida da adição dos resultados significantes ao registro do genoma no banco de dados (outros métodos para busca de famílias proteicas também são usados). Na análise dos resultados, é importante observar qual o método utilizado, a significância estatística dos resultados e o nível geral de confiança dos alinhamentos. 1.1.2 Genomas eucarióticos Além de ter cromossomos lineares dentro de um núcleo, genomas eucarióticos comumente possuem repetições em tandem de sequências e seus genes possuem íntrons (regiões que não são traduzidas). Repetições de sequências Regiões que possuem repetições são conhecidas como DNA satélite (comumente encontrados perto do centrômero), cujo comprimento da unidade de repetição varia entre 5 e 200 bp. Algumas subcategorias são os minissatélites (monômeros de até 25 bp) e os microssatélites (monômeros de 4 bp ou menos). Microssatélites são encontrados nos telômeros de cromossomos eucarióticos. Elementos de transposição (ETs) Esses elementos compõem uma grande porcentagem dos genomas eucarióticos, e acredita-se que possuem um papel evolutivo importante. Os elementos de transposição (transposons ou ETs) são sequências de DNA que podem se mover de uma localização cromossômica para outra, de modo mais rápido do que a replicação dos cromossomos. Eles são basicamente divididos em duas classes, de acordo com o mecanismo de transposição ( copiar e colar - classe I - ou cortar e colar - classe II). A classe I é a dos retrotransposons, que inicialmente são transcritos para RNA e depois para uma cópia de DNA por transcrição reversa (a enzima necessária normalmente é codificada pelo próprio retrotransposon). A cópia é então inserida no genoma em uma nova posição (isso faz com que se comportem de modo semelhante ao dos retrovírus, como o HIV). A classe II é a dos transposons que não utilizam uma molécula de RNA intermediária para a transposição. A enzima transposase corta o transposon e o religa em outra parte do genoma (de acordo com uma sequência alvo), seguida pela atuação das enzimas DNA polimerase e ligase (que completam a inserção do transposon). 3

Ainda existe uma terceira categoria de ETs que possui características das classes I e II. Essas ETs de repetições invertidas em miniatura (MITES) possuem comprimento de 400 bp e foram descobertas em angiospermas diversas, onde estão frequentemente associadas a regiões reguladoras de genes (e, portanto, poderiam exercer influência na expressão gênica). A estrutura gênica varia em eucariontes Genes eucarióticos que codificam proteínas são interrompidos por íntrons de tamanhos e quantidades variáveis. A origem dos íntrons ainda não é conhecida, mas existem duas teorias evolutivas a respeito: a dos íntrons precoces (propõe que os íntrons formaram os primeiros genes unindo éxons conservados) e a dos íntrons tardios (propõe que os íntrons interromperam genes que eram contínuos, inserindo-se neles). A estrutura intrônica dos genes em um eucarionte em particular é usada para prever a localização dos genes em sequências genômicas. Outras características úteis para isso são as sequências de consenso das junções éxoníntron, a composição das bases, a utilização dos códons e preferência por códons vizinhos. Apesar de não estarem sempre corretas essas estimativas fornecem uma anotação útil para uma sequência genômica e, combinadas a buscas de similaridade em bancos de dados, dão uma indicação do potencial genético de um organismo. Pseudogenes Acredita-se que novas funções gênicas são adquiridas pela duplicação de um gene existente (criando duas cópias em tandem), seguida por mutação e seleção (que causam a diferenciação). Porém, como a maioria das mutações é deletéria (e apenas uma cópia do gene pode ser necessária), existe uma tendência forte de uma cópia acumular mutações que inibam a função do gene (tornando-se pseudogenes). Pseudogenes processados são os derivados de um gene funcional, mas não contém íntrons e nem um promotor (e, portanto, não são expressos). 1.2 Montagem de sequências e identificação de genes O sequenciamento de genomas depende da montagem de um grande número de leituras de DNA para formar uma sequência contígua. O custo e a eficiência desse processo foram melhorados por métodos automáticos de montagem de sequências. Cada sequência genômica é analisada para a busca de genes que codificam proteínas, usando modelos treinados a partir sequências gênicas conhecidas do mesmo organismo. Para um genoma novo, cada gene previsto é traduzido 4

em uma sequência proteica (o conjunto de proteínas de um organismo é chamado de proteoma). Cada proteína do proteoma é então usada como consulta numa busca de similaridade em um banco de dados. Os resultados da busca são realinhados com a consulta para avaliar a extensão e a significância do alinhamento. A comparação das sequências proteicas previstas com uma biblioteca de etiquetas de sequência expressa (ESTs) confirma a predição e a expressão do gene. A informação sobre a função do proteoma pode ser analisada por autocomparação para encontrar genes duplicados (parálogos) ou por comparação com outro proteoma para identificar ortólogos (genes que mantiveram a mesma função após a especiação) e outras relações evolutivas. 2 Métodos 2.1 Genômica comparativa A genômica comparativa inclui uma comparação do número, conteúdo e localização dos genes em grupos de organismos procarióticos. A disponibilidade de sequências genômicas completas torna possível a comparação entre proteomas de organismos diferentes. Como a sequência genômica fornece tanto a composição quanto a localização de cada gene, ambas as informações podem ser comparadas. Comparações entre sequências dão informações sobre as relações entre os genes: se um conjunto deles estiver agrupado em uma dada localização cromossômica, e se um conjunto de genes similares também estiver agrupado no genoma de outro organismo, então esses grupos compartilham uma história evolutiva. 2.1.1 Análise do proteoma Uma comparação de todas com todas revela o número de famílias gênicas e genes duplicados Uma comparação de cada proteína do proteoma (usada como consulta no busca de similaridade) com as outras distingue proteínas únicas de proteínas que surgiram por duplicação gênica, além de revelar o número de famílias proteicas. Um casamento entre a consulta e um resultado que tenha a mesma estrutura de domínios produz um alinhamento de alta pontuação e significante (nesse caso, provavelmente as proteínas são parálogas). Análise de agrupamentos. Para classificar as relações entre as proteínas já sabidamente relacionadas, elas são submetidas a uma análise de 5

agrupamentos. Ela organiza as proteínas em grupos de acordo com critérios objetivos, como a significância estatística do alinhamento (são considerados significantes os que tiverem E valor < 0, 01 0, 05) e a distância entre cada par de sequências num alinhamento múltiplo (medida pelo número de mudanças nos aminoácidos). Agrupamento por subgrafos. Um dos modos de agrupar sequências relacionadas é um grafo, no qual cada vértice é uma sequência e cada aresta possui um peso de acordo com a significância estatística do alinhamento. Um jeito de identificar os agrupamentos mais prováveis é remover as arestas de menor peso (maior pontuação P/E). Conforme as ligações mais fracas são removidas, as combinações restantes de arestas e vértices representam sequências relacionadas mais fortemente. Agrupamento por ligação única. Outro método é baseado no critério de distâncias entre sequências. Primeiramente, um grupo de sequências relacionadas é sujeito a um alinhamento múltiplo, e então é construída uma matriz de distâncias que mostra o número de mudanças nos aminoácidos entre cada par de sequências (usada para agrupar as sequências por um algoritmo de união de vizinhos). Esses métodos produzem uma árvore geradora mínima (pois minimiza o número de mudanças que geraria o grupo de sequências), que divide as sequências em grupos mais intimamente relacionados. Proteoma central. As análises do tipo todos com todos acima dão uma indicação do número de proteínas/famílias gênicas de um organismo. Esse número representa o proteoma central do organismo, a partir do qual todas as funções biológicas se diferenciaram. Comparações entre proteomas identificam ortólogos, famílias gênicas e domínios Nessa análise, cada proteína do proteoma é usada como consulta numa busca de similaridade feita em outro proteoma (ou conjunto de proteomas). Quando o proteoma não estiver disponível, a busca pode ser feita em um banco ESTs (embora ela seja menos informativa do que uma comparação com um genoma completa). Duas proteínas que possuem um bom alinhamento (de alta similaridade e significância) provavelmente são ortólogas (compartilham um ancestral em comum e mantiveram a mesma função após a especiação). Em um método para identificar ortólogos verdadeiros, os pares do sequências mais intimamente relacionados dos proteomas A e B são identificados. 6

Duas proteínas (X no proteoma A e Y no proteoma B) são classificadas como ortólogas se buscas recíprocas (de Y em A e X em B) produzirem a outra proteína como resultado de maior pontuação. Além disso, o E valor para cada alinhamento deve ser < 0, 01 e o alinhamento deve se estender a mais de 60% de cada proteína. Agrupamento de grupos de ortólogos. Em muitos casos, os ortólogos identificados pelos métodos acima pertence a uma família de parálogos (relacionados por eventos de duplicação gênica). Portanto, o casamento de uma busca recíproca não irá envolver apenas a sequência ortóloga no outro proteoma, mas também aquelas que forem parálogas à ortóloga encontrada. O objetivo da abordagem de agrupamento de grupos de ortólogos (COG) é identificar todas as proteínas compatíveis nos organismos, definidas como grupo de ortólogos relacionados tanto pela especiação como por eventos de duplicação gênica. Grupos de ortólogos relacionados em diferentes organismos são agrupados para formar um COG que irá incluir tanto ortólogos quanto parálogos, com cada COG correspondendo a uma classe de funções metabólicas. Comparação entre proteomas e bancos de ESTs de um organismo. Para muitos organismos eucarióticos, a sequência genômica completa não está disponível, mas existe uma grande coleção de ESTs (obtidos pelo sequenciamento aleatório de cdna) que pode servir para a busca. Uma proteína de levedura ou de mosca (por exemplo) pode ser usada como consulta em um banco de ESTs humanos, traduzindo cada EST nas seis fases de leituras possíveis. As limitações dessa abordagem são causadas pelo tamanho pequeno das EST (equivalente a 100 150 aminoácidos), que irá casar com uma porção reduzida da proteína. Portanto, não é possível impor a condição de alinhamento com 60 80% da consulta (que aumenta consideravelmente a predição de ortólogos). Busca por ortólogos a uma família proteica em um banco de ESTs. Buscas em bancos de ESTs normalmente produzem muitos resultados que precisam ser verificados manualmente para encontrar os significantes. Retief et al. (1999) descreveram um método automatizado (FAST-PAN) faz buscas em bancos de EST com consultas múltiplas de uma família proteica, ordena as pontuações dos alinhamentos e produz gráficos e alinhamentos para os resultados encontrados. Análise de domínios e famílias 7

Uma característica importante das proteínas é a sua organização em domínios que representam módulos estruturais e funcionais. Proteínas são mosaicos de domínios, que ocorrem em combinações diferentes em cada uma delas. A comparação dos domínios de um proteoma com os de outro proteoma pode revelar os papéis biológicos de domínios diversos em organismos distintos. 2.1.2 Regiões conservadas antigas Grupos filogeneticamente diversos foram analisados para a busca de proteínas e domínios que se conservaram por longos períodos de tempo evolutivo, chamadas regiões conservadas antigas ou ACRs. O método envolve buscas de similaridade em bancos de dados proteicos (como o SwissProt) por um dado gene e a identificação dos resultados que forem de um filo diferente da consulta. Uma análise de ACRs que antecederam a radiação dos principais filos animais há 580 540 milhões de anos sugere que 20 40% das sequências codificantes são ACRs (podem representar proteínas presentes no momento da divergência entre procariontes e eucariontes). 2.1.3 Transferência horizontal de genes O genoma da maioria dos organismos origina-se da transmissão vertical (dos pais para a prole), mas em alguns casos pode ser modificado por transferência horizontal (aquisição de material genético de outro organismo). Um exemplo extremo de transferência horizontal (HT) é a proposta origem endossimbiótica de mitocôndrias (em eucariontes) e cloroplastos (em plantas), que diz que essas organelas eram bactérias de vida livre que entraram em simbiose com outro organismo. A transferência gênica horizontal é uma fonte significante de variação gênica para bactérias, que as permite explorar novos ambientes. Ela é comumente detectada como uma porção de sequência que possui composição diferente do resto do genoma do receptor. É importante notar que quando os genes de uma mesma via estiverem agrupados no organismo doador, o recipiente poderá obter uma via metabólica inteira por transferência horizontal. 2.2 Classificação funcional de genes O passo seguinte à anotação de genes é classificá-los de acordo com a função. Genes que são significativamente semelhantes em um organismo (parálogos) normalmente possuem uma função biológica relacionada. Isso está de acordo com a origem esperada dos parálogos por eventos de duplicação gênica, com 8

uma cópia executando a função original e a outra produzindo uma nova função não muito distante (sujeita à seleção natural). Os números da Comissão de Enzimas (números EC) formulados pela Comissão de Enzimas da União Internacional de Bioquímica e Biologia Molecular fornecem um modo detalhado de classificar enzimas de acordo com as reações que catalisam. A designação EC a.b.c.d fornece as seguintes informações: a) uma das seis classes principais de reações bioquímicas (1: oxirredutases, 2: transferases, 3: hidrolases, 4: liases, 5: isomerases, 6: ligases); b) o grupo da molécula do substrato ou a natureza da ligação química envolvida na reação; c) designação para moléculas aceptoras (cofatores); d) detalhes específicos da reação bioquímica. Outro esquema de classificação funcional para genes inclui uma categoria mais geral para genes envolvidos num mesmo processo biológico, como os relacionados à energia, à informação ou à comunicação. Mais da metade do genoma das plantas é relacionado à energia, enquanto metade do genoma dos animais é relacionado à comunicação. 2.3 A ordem dos genes (sintenia) é conservada em cromossomos de organismos relacionados Existem duas observações importantes em relação à ordem dos genes: em primeiro lugar, ela se mantém altamente conservada entre espécies intimamente relacionadas, mas altera-se (por causa de rearranjos) conforme o tempo evolutivo. As alterações se acumulam até que não exista mais uma correspondência entre a ordem de genes ortólogos em cromossomos de dois organismos. Em segundo lugar, genes que possuem função biológica similar tendem a permanecer agrupados numa mesma localização. Rearranjos cromossômicos A comparação do número de rearranjos num dado período evolutivo podem variar significativamente de um organismo para outro. Numa análise de organismos procarióticos de origens filogenéticas diversas (Huynen e Bork 1998), foi mostrado que se os genes A e B forem vizinhos e um ortólogo de A ocorrer em outro genoma, então aumenta a probabilidade de que um ortólogo de B também ocorra nesse outro genoma (mas é menos provável que os ortólogos também sejam vizinhos se as espécies forem mais divergentes). 9

Uma conservação similar da ordem gênica também parece estar presente em genomas eucarióticos intimamente relacionados. As evidências são baseadas em experimentos de tingimento cromossômico no qual o DNA de uma seção de um cromossomo de um organismo é marcado e se hibridiza com cromossomos de um segundo organismo (as regiões do segundo cromossomo que ficam marcadas revelam a presença de uma região homóloga). Análise computacional de rearranjos gênicos Conforme as comparações entre os cromossomos de espécies relacionadas são feitas e os rearranjos são descobertos, um desafio maior é estimar a quantidade e os tipos de rearranjos (deleção, duplicação, translocação ou inversão) que ocorreram, além de determinar quando esses eventos aconteceram. Por exemplo, é possível segmentar os cromossomos humanos e rearranjá-los de forma com que fiquem quase iguais aos cromossomos de camundongo. Para fazer o alinhamento de genomas costuma-se levar em conta os rearranjos (não considerados no alinhamento de sequências), que aparecem como linhas que se intersectam (com cada linha ligando os genes correspondentes). No modelo aleatório, tenta-se estimar o número de rearranjos que produz o número observado de interseções, que é comparado ao número que embaralharia aleatoriamente os mesmos fragmentos. Grupos de genes em cromossomos possuem funções relacionadas metabolicamente Num dado organismo ou espécie, a ordem gênica costuma ser mantida entre as gerações. Análises genéticas revelaram que genes com funções relacionadas (fazem parte da mesma via metabólica) frequentemente estão agrupados na mesma localização cromossômica. Essa característica supostamente constitui uma vantagem evolutiva, mas a razão biológica subjacente ainda não é conhecida. Algumas possibilidades estão na compatibilidade de apenas algumas variações alélicas de genes do mesmo agrupamento ou em algum tipo de tradução coordenada de proteínas (que facilite o dobramento). Dois métodos para a identificação de agrupamentos ou genes regulados de modo coordenado foram descritos. No primeiro, a partir de um estudo de três grupos de procariontes distantes (Dandekar et al. 1998), observou-se que 100 genes estavam conservados num agrupamento de dois pares. O sentido de transcrição era o mesmo para todos, o que implica em uma relação regulatória (como em um operon - conjunto de genes que se encontram relacionados funcionalmente, são contíguos e controlados de forma coordenada). Para aproximadamente 75% dos genes, uma interação física entre eles já havia 10

sido demonstrada e pode ser prevista para quase todas as proteínas (com base em comparações adicionais de sequências). Num segundo método (Overbeek et al. 1999) uma busca recíproca total (cada proteína de um proteoma foi usada como consulta numa busca no outro proteoma) foi feita entre os proteomas de dois procariontes. Foram identificados os pares de proteínas que resultavam num melhor resultado com o outro proteoma e tinham um E valor < 10 5, chamados de melhores resultados bidirecionais (BBH). Os pares de BBH próximos (PCBBH) que estavam a até 300 bp um do outro nos cromossomos dos respectivos organismos e eram transcritos da mesma fita (como em um operon) também foram identificados. Foi feito um esquema de pontuação para esses pares, de modo que os que eram observados em vários organismos distantes filogeneticamente recebiam maior pontuação. Quarenta porcento do conjunto de pares com maior pontuação correspondia a proteínas que sabidamente faziam parte da mesma via metabólica. Genes compostos com um conjunto de domínios múltiplos predizem as interações físicas e as relações funcionais entre pares de proteínas que compartilham os mesmos domínios A ocorrência de um gene composto ou fundido em um organismo é chamada sequência da pedra de Roseta, pois fornece evidência de que os genes componentes codificam proteínas que interagem fisicamente. Por exemplo, se um gene humano composto possuir os domínios A e B, assume-se que A e B interagem fisicamente dentro da proteína. Se dois genes separados em outros organismos produzirem duas proteínas (uma com o domínio A e outra com o domínio B), então essas duas proteínas interagem (porque A e B interagem). Essas relações entre sequências podem ser encontradas pelo alinhamento da proteína composta AB com as outras duas proteínas (mas as proteínas que contém A e B separadamente não irão se alinhar). Mesmo que A e B não interajam, espera-se que essas proteínas tenham funções relacionadas (devido à fusão dos genes). 2.4 Regulação gênica global Um modo de obter informação útil sobre um genoma é determinar quais genes são induzidos ou reprimidos em resposta a uma fase do ciclo celular, uma fase do desenvolvimento ou uma mudança no ambiente. Conjuntos de genes cujas expressões aumentam ou diminuem sob as mesmas condições tendem a possuir funções relacionadas. Além disso, um padrão de expressão gênica pode também ser um indicador de regulação celular anormal (como 11

ocorre em câncer). A análise de microarranjo (ou microchip) é uma tecnologia na qual todos os genes de um organismo são representados por sequências de oligonucleotídeos espalhados numa matriz 80 80 de lâminas de microscópio. Os oligonucleotídeos são hibridizados com uma biblioteca de cdnas marcados, preparados por transcrição reversa a partir do RNAm das células. A quantidade de sondas que se ligam em cada ponto refletem a quantidade de RNAm na célula. Os genes que respondem do mesmo modo a um sinal ambiental são agrupados numa tela. Uma vez que um conjunto de genes corregulados é encontrado, suas regiões promotoras podem ser analisadas para a busca de padrões conservados que representem sítios de interação com fatores de transcrição específicos. 2.5 Predição da função gênica baseada na análise de compostos Quando duas proteínas grau considerável de identidade de sequência (evidenciado por um alinhamento), elas provavelmente compartilham a mesma função. Por outro lado uma fração razoável de um genoma pode codificar proteínas cujas funções não podem ser identificadas dessa forma (pois não estão relacionadas a proteínas de função conhecida). Outras formas de dependência entre genes (não relacionadas à similaridade entre sequências) são: 1. genes intimamente ligados e transcritos a partir da mesma fita (como em operons); 2. são observadas fusões (num determinado organismo) entre genes que aparecem separados (em outros organismos); 3. perfis filogenéticos revelam que o mesmo grupo de genes está presente em muitos organismos. Outros tipos de dados usados como evidência de relação gênica são: 1. as proteínas codificadas possuem homólogos em outros organismos que operam numa mesma via metabólica; 2. dados experimentais sugerem interação entre as proteínas codificadas; 3. descobre-se correlação entre padrões de expressão de RNAm em dados de microarranjos. 12

2.6 Genômica funcional Uma grande parte da análise genômica depende de métodos de análise de sequências que identifiquem funções gênicas baseados na similaridade entre proteínas de função desconhecida e proteínas de função conhecida. Porém, esses métodos podem não conseguir determinar a função de um gene com precisão. Para conseguir isso, existem dois tipos de abordagens: uma na qual um elemento genético é elaborado de forma a interferir na expressão de um gene em particular e outra na qual várias mutações aleatórias são geradas numa população de organismos. Os indivíduos com uma mutação em particular são então identificados. Em seguida, o efeito dos genes mutantes no fenótipo é determinado, pois a função gênica pode ser prevista com base nas alterações. Como tais tipos de experimentos não podem ser feitos com humanos, os camundongos podem servir para o mesmo propósito. 2.7 Juntando todas as informações em um banco de dados de genomas A meta final da análise genômica é reunir as informações sobre genes e proteínas de um organismo em um banco de dados abrangente. Esse banco de dados deve ser logicamente organizado, de forma que todos os tipos de informação são prontamente acessíveis e facilmente recuperáveis pelos usuários. Esse objetivo é alcançado da melhor forma utilizando vocabulários controlados, que possam identificar a mesma função genética ou bioquímica sem ambiguidades em organismos diferentes. 13