ANÁLISE DOS FATORES DETERMINANTES PARA A QUALIDADE DA ANOTAÇÃO GENÔMICA AUTOMÁTICA

Tamanho: px
Começar a partir da página:

Download "ANÁLISE DOS FATORES DETERMINANTES PARA A QUALIDADE DA ANOTAÇÃO GENÔMICA AUTOMÁTICA"

Transcrição

1 FELIPE LIBERMAN ANÁLISE DOS FATORES DETERMINANTES PARA A QUALIDADE DA ANOTAÇÃO GENÔMICA AUTOMÁTICA Dissertação apresentada ao Programa de Pós- Graduação Strictu Sensu em Biotecnologia e Ciências Genômicas da Universidade Católica de Brasília como requisito para a obtenção do Título de Mestre em Biotecnologia e Ciências Genômicas Orientador: Prof. Dr. Georgios J. Pappas Jr. Brasília 2004

2 ii TERMO DE APROVAÇÃO Dissertação defendida e aprovada como requisito parcial para obtenção do Título de Mestre em Ciências Genômicas e Biotecnologia, defendida e aprovada em 03 de setembro de 2004 pela banca examinadora constituída por: Prof. Dr. Georgios J. Pappas Jr. (Orientador) Prof. Dr. Marcos Mota do Carmo Costa Prof. Dr. Marcelo de Macedo Brígido

3 iii A meus pais, Pelo apoio e incentivo em todas as horas e por terem despertado em mim desde cedo a curiosidade e vontade de aprender. À Keila, Simplesmente pela pessoa maravilhosa que é. Ao meu orientador Georgios, Pela motivação e pelas importantes e decisivas sugestões. A todos professores, Pelo exemplo de persistência e coragem ao fazer pesquisa no Brasil. Aos amigos e colegas, Por entenderem esses tempos de reclusão e continuarem a ser amigos. Aos funcionários pela competência e dedicação. A todos que colaboraram.

4 iv Porque ele está lá George Mallory ( ), quando perguntado por quê ele queria escalar o Everest.

5 v Resumo A genômica é uma disciplina recente da Biologia que diz respeito à caracterização molecular de genomas na sua totalidade. A bioinformática é uma área interdisciplinar envolvendo biologia, informática, matemática e estatística, que utiliza métodos computacionais para analisar os dados de seqüências biológicas gerados pela genômica e predizer a função e estrutura de macromoléculas. A anotação genômica é um processo que consiste em adicionar análises de bioinformática para gerar interpretações biológicas sobre as seqüências brutas de DNA. A determinação ou predição da função de seqüências de aminoácidos, chamada de anotação funcional, é uma das sub divisões da anotação genômica. A predição da função de uma proteína é, via de regra, feita com base na comparação com seqüências de proteínas previamente caracterizadas e armazenadas em bancos de dados biológicos. Essa comparação é, quase sempre, feita com programas computacionais de alinhamento de seqüências, entre os quais, o BLAST é um dos mais conhecidos. A anotação funcional é uma tarefa bastante complexa e sujeita a erros por vários motivos. Um deles, diz respeito à falta de padronização na interpretação dos resultados do BLAST. Outro problema é a propagação de erros, que é a predição da função de proteínas baseada em proteínas que também foram preditas mas que podem estar com a anotação imprecisa ou até incorreta. A genômica gera uma grande quantidade de dados os quais são armazenados em bancos de dados biológicos. Para a anotação funcional de proteínas, os bancos de dados de seqüências de aminoácidos são obviamente fundamentais, pois conforme mencionado, são usados na busca por seqüências similares. Atualmente, a taxa de crescimento desses bancos de dados é exponencial, tornando a atividade de anotação funcional dinâmica. Por esse motivo, a reanotação genômica - o processo no qual anota-se novamente uma proteína usando um banco de dados mais recente - é uma atividade cada vez mais necessária e explorada em estudos.

6 vi A maioria dos trabalhos que abordam a reanotação genômica preocupa-se apenas em reanotar as proteínas de um organismo e comparar os resultados obtidos com os resultados originais, apontando as evoluções e os erros encontrados. Na primeira parte desse trabalho, abordou-se a anotação genômica através de um enfoque temporal. Buscou-se entender de que forma o crescimento constante dos bancos de dados biológicos afeta a anotação genômica através de análises quantitativas e qualitativas a respeito dessa relação direta entre os dois. A principal conclusão dessa primeira parte é a confirmação de que a medida que os bancos de dados aumentam de tamanho (por isso, o enfoque temporal), os alinhamentos entre seqüências alvo (seqüências de entrada do BLAST) com as seqüências depositadas nos bancos aumentam em similaridade. Isso foi medido através do bit-escore dos alinhamentos. Porém, duas constatações foram encontradas. Primeiro, a taxa de aumento na similaridade é muito inferior à taxa de aumento no tamanho dos bancos de dados, tendendo a uma saturação. Segundo, o aumento da quantidade de seqüências e conseqüentemente o aumento na similaridade entre seqüências não garantem automaticamente uma melhora na qualidade da anotação funcional. Na segunda parte do trabalho, foram feitos estudos acerca de fontes de erro na anotação genômica. São sugeridos procedimentos para melhor interpretar os resultados do BLAST, incluindo um estudo do comportamento do parâmetro do BLAST conhecido como bit-escore, o qual pode ser usado preferencialmente ao invés do E-Value. PALAVRAS-CHAVE: bioinformática, anotação genômica, BLAST

7 vii Abstract Genomics is a recent discipline that refers to the molecular characterization of entire genomes. Bioinformatics is an interdisciplinary field that uses computational methods to analyze biological sequence data generated from genomics with the aim to predict their function and structure. Genomic annotation is a process that consists in the addition of bioinformatics analyses to generate biological interpretations concerning raw DNA sequences. The determination or prediction of an amino acid sequence function, called functional annotation, is one of the fields of genomic annotation. The prediction of protein function is generally done based on confrontation with protein sequences already characterized and stored in biological databases, which is often done with the aid of similarity search programs, such as BLAST Genomics generates a huge amount of data that is stored in biological databases, which provide the comparative pillar for functional annotation. Nowadays, the growth rate of these databases is exponential, making the functional annotation activity very dynamic. For this reason, the genomic re-annotation (the task that consists to annotate again a protein using a more recent database) is an increasingly important procedure that has been exploited in many studies. In this study we try to identify and evaluate factors affecting the quality of genomic annotation. In the first half of this work, we made a temporal approach to analyze how the constant growth of biological databases affects the genomic annotation. The main conclusion of this part is the observation that the database growth seemed to reach a saturation level in terms of providing sequences suitable for annotation. Therefore the increase in database size does not automatically ensure a better quality in functional annotation.

8 viii Finally, we evaluated the quality of an automatic re-annotation of Chlamydia trachomatis genome, assessing its protocols, performance, sources of errors, and studying BLAST parameters in order to optimize the procedure. KEYWORDS: bioinformatics, genomic annotation, BLAST

9 ix Sumário RESUMO... v ABSTRACT... vii 1. INTRODUÇÃO GENÔMICA BIOINFORMÁTICA O Caráter multidisciplinar da bioinformática Genômica e bioinformática no Brasil Bioinformática na industria farmacêutica e agricultura BANCOS DE DADOS BIOLÓGICOS Bancos de dados de nucleotídeos Bancos de dados de proteínas COMPARAÇÃO DE PROTEÍNAS POR SIMILARIDADE DE SEQÜÊNCIA X ESTRUTURA Termos usados para comparar seqüências e estruturas de proteínas EVOLUÇÃO DIVERGENTE E CONVERGENTE A evolução produziu um número relativamente limitado de dobramentos de proteínas e mecanismos catalíticos Proteínas que diferem na seqüência e estrutura podem ter convergido para sítios ativos, mecanismos catalíticos e funções bioquímicas similares Proteínas com baixa similaridade de seqüência mas estrutura e sítios ativos similares são provavelmente homólogos Casos de evolução convergente e divergente são, às vezes, difíceis de distinguir Evolução divergente pode produzir proteínas com similaridade de seqüência e estrutura mas com diferenças nas funções ALINHAMENTO E COMPARAÇÃO DE SEQÜÊNCIAS Alinhamento global e local FERRAMENTAS DE BIOINFORMÁTICA PARA BUSCA EM BANCO DE DADOS FASTA e BLAST PSI-BLAST e RPS-BLAST Arquivos no formato FASTA Problemas e armadilhas do BLAST HMMER ANOTAÇÃO GENÔMICA Anotação em nível de nucleotídeos Anotação em nível de proteínas Anotação em nível de processo Reanotação genômica ERROS E LIMITAÇÕES EM ANOTAÇÃO FUNCIONAL DE PROTEÍNAS ONTOLOGIA Produtos gênicos... 63

10 x Nomenclatura de enzimas A FAMÍLIA CHLAMYDIAE Chlamydia trachomatis Anotação manual da Chlamydia trachomatis OBJETIVOS DO TRABALHO MÉTODOS OBTENÇÃO DOS DADOS DA CHLAMYDIA TRACHOMATIS MÉTODOS PARA OBTENÇÃO DOS DADOS PARA A ANÁLISE TEMPORAL DA ANOTAÇÃO GENÔMICA Obtenção das versões antigas do Swiss-Prot Seleção das 8 versões do Swiss-Prot e procedimentos para preparar os arquivos para serem usados pelo BLAST Execução do BLAST COMPARAÇÃO ENTRE ANOTAÇÃO FINAL E MELHORES HITS DO BLAST PESQUISA POR DOMÍNIOS DE PROTEÍNAS RESULTADOS ANÁLISE DA EVOLUÇÃO DA ANOTAÇÃO GENÔMICA USANDO BANCOS DE DADOS ANTIGOS Análise quantitativa da evolução da anotação genômica Análise qualitativa da evolução da anotação genômica Contribuição de organismos para os hits do BLAST ANÁLISE ESTÁTICA DE FONTES DE ERRO NA ANOTAÇÃO GENÔMICA Hits com E-Value não conclusivo mas com anotação correta Hits com E-Value significativo mas com anotação incorreta Funcionalidade x função de proteínas Estimativa de limiar para uso do bit-escore Reanotação das ORFs da categoria sem anotação final Valores de bit-escore na zona de incerteza Outros problemas de ontologia OUTROS RESULTADOS O uso de banco de dados não curados Erros de atualização de anotação entre versões do Swiss-Prot CONCLUSÃO E DIRECIONAMENTOS FUTUROS EVOLUÇÃO DA ANOTAÇÃO GENÔMICA BLAST COMO FERRAMENTA AUXILIAR NA ANOTAÇÃO PROBLEMAS E ERROS NA ANOTAÇÃO FUNCIONAL COMPUTACIONAL Ontologia Pequena quantidade de proteínas anotadas experimentalmente Alternativas para uma anotação genômica mais precisa REFERÊNCIA BIBLIOGRÁFICA

11 xi Figuras Figura 1: Crescimento exponencial do GenBank Figura 2: Exemplo de formato de um registro do Swiss-Prot Figura 3: Representação de domínios no Pfam Figura 4: Homologia Figura 5: Diagrama de fita da estrutura de um monômero de benzoilformate descarboxilase (BFD) e piruvato descarboxilase (PDC) Figura 6: Superposição das estruturas tridimensionais das moléculas: steroid-delta-isomerase, fator de transporte nuclear-2 e scytalone desidratase Figura 7: Exemplo de alinhamento global entre duas seqüências Figura 8: Exemplo de alinhamento local entre duas seqüências Figura 9: Algoritmo do BLAST Figura 10: Exemplo de arquivo no formato FASTA com 2 registros Figura 11: Percentual de similaridade de função de acordo com o E-Value Figura 12: Relação entre similaridade de seqüência e similaridade de função Figura 13: Análise das funções de seqüências codantes do genoma da levedura Figura 14: Relacionamentos evolucionários nas Chlamydiales Figura 15: Filogenia baseada no TTSS Figura 16: Método principal utilizado para a análise temporal da anotação genômica Figura 17: Histograma dos bit-escores dos bancos de dados representativos Figura 18: Enquadramento das proteínas geradoras de alinhamento com bit-escore em torno de 50 e acima de 150 nos bancos de dados DB1 e DB Figura 19: Análise de componentes principais das séries compostas pelos 893 bit-escores do BLAST contra os bancos DB1 a DB Figura 20: Comparação qualitativa da evolução da anotação ao longo do tempo Figura 21: Evolução dos 5 organismos que mais contribuíram para os melhores hits do BLAST Figura 22 a) Comparação entre os hits de BLAST de seqüências dos genomas de B. subtilis e E. coli contra seqüências de C. trachomatis. b) Comparação de seqüências dos genomas de C. muridarum e C. pneumoniae contra seqüências de C. trachomatis Figura 23: Distribuição dos resultados em 4 categorias Figura 24: Resultados do programa CD-Search mostrando a similaridade da ORF de C. trachomatis com a família SecE (Preprotein translocase subunit SecE) no banco COG Figura 25: Resultados do programa CD-Search mostrando a similaridade da ORF de C. trachomatis com o domínio Acyltransferase no banco PFAM Figura 26: Representação dos domínios encontrados pelo CD-Search para a cadeia A da proteína em análise Figura 27: Proteínas com um domínio em comum (APS_kinase) mas outros diferentes

12 xii Figura 28: Histograma dos bit-escores das categorias conferem e não conferem Figura 29: Relação entre E-Value e quantidade de proteínas hipotéticas. Verifica-se que proteínas com E-Value >10e -4 possuem alto percentual de proteínas não hipotéticas Figura 30 : Pesquisa por uma proteína no sítio do NCBI Figura 31: Resultado do BLAST para a seqüência gi= Figura 32: Resultado do alinhamento local usando o programa blast2seq Figura 33: Resultado da busca por domínios conservados para a ORF Figura 34: Problema da anotação genômica

13 xiii Tabelas Tabela 1: Dados e tópicos de bioinformática (2004) Tabela 2: Família de programas BLAST-NCBI Tabela 3: Lista dos banco de dados selecionados Tabela 4 : Contribuição, por espécie, para o melhor hit do BLAST em cada banco de dados (em quantidade de melhores hits ) Tabela 5: Melhores hits com E-Value acima do limiar mas com anotação correta Tabela 6: Melhores hits com E-Value significativo mas com anotação incorreta Tabela 7: Estatística das 4 categorias (valores de bit-escore) Tabela 8: Resultado parcial do BLAST contra o TrEmbl. Os registros marcados com são os registros nos quais a anotação pode ser aproveitada para as ORFs que não tinham anotação final Tabela 9: Resultado BLAST contra o TrEmbl (seqüências com bit-escore entre 70 e 100). Os candidatos para investigação detalhada tem a marca Tabela 10: Exemplos de problema de ontologia Tabela 11: Variações na descrição de uma mesma seqüência

14 14 1. Introdução 1.1. Genômica A genômica é uma disciplina recente da Biologia que diz respeito à caracterização molecular de genomas na sua totalidade. Para isso, técnicas experimentais especiais foram desenvolvidas para tratar a difícil tarefa de manipular e caracterizar a grande quantidade de dados. A genômica pode dividida em duas vertentes principais: genômica estrutural, caracterizando a natureza física de genomas completos e genômica funcional, caracterizando as regiões codificadoras e padrões globais de expressão de genes (Griffiths et al., 1999). A caracterização de genomas completos é importante por duas razões. Primeiro, proporciona uma maneira de se obter uma visão global da arquitetura genética de um organismo e, segundo, provê todos os dados para a descoberta de novos genes, como por exemplo, os que estão envolvidos em doenças. Por outro lado, a caracterização somente de seqüências expressas fornece uma representação dos componentes funcionais que são determinantes para a fisiologia celular em um determinado instante (Brown, 2002). Durante a década passada, mais de 800 organismos foram objeto de projetos de seqüenciamento de genoma. Hoje, tem-se disponível as seqüências completas de DNA do genoma de mais de 100 espécies de bactérias e árqueo bactérias, incluindo alguns patógenos importantes e três leveduras, entre elas a Saccharomyces cerevisiae. Também existem seqüências de genomas parciais ou completos de parasitas protozoários como o Plasmodium falciparum, causador da malária. Entre os organismos multicelulares, os genomas da Caenorhabditis elegans (nematóide), da Drosophila melanogaster (mosca de fruta) e as plantas Arabidopsis thaliana e o arroz também já foram totalmente sequenciados. O genoma Humano está atualmente completamente terminado, bem como o de Mus musculus (camundongo) (Gibson e Muse, 2002).

15 15 A genômica também está gerando uma crescente contribuição ao estudo da estrutura e função de proteínas. Os programas de seqüenciamento de genoma estão gerando grande quantidade de seqüências inferidas de aminoácidos de função desconhecida. Ao mesmo tempo, muitas ferramentas experimentais e computacionais estão disponíveis para comparar essas seqüências com outras de função conhecida. Também existem esforços para predizer a estrutura tridimensional dessas estruturas, suas localizações sub celulares, seus parceiros de interação. Entretanto, a comparação de seqüência e estrutura, geralmente fornece informações limitadas. A caracterização completa de uma proteína na célula ou organismo sempre requererá investigações experimentais adicionais nas proteínas purificadas in vitro assim como estudos in vivo (Petsko e Ringe, 2003) Bioinformática A bioinformática tem várias definições. De forma geral mas não ampla, a bioinformática é uma área interdisciplinar envolvendo biologia, informática, matemática e estatística com o objetivo de analisar dados de seqüências biológicas e predizer a função e estrutura de macromoléculas biológicas. Uma das formas de definir bioinformática é explicar os seus objetivos. Primeiramente visa organizar dados de uma maneira que permita aos pesquisadores acessar as informações existentes e submeter novos dados assim que são produzidos. Essa quantidade de dados é cada vez maior, tanto de proteínas quanto de ácidos nucléicos (vide figura 1 na página 18). Entretanto, as informações armazenadas em banco de dados por si só não são muito úteis se não forem analisadas. Portanto, um segundo objetivo da bioinformática é desenvolver ferramentas e recursos que ajudem na análise dos dados. Desse modo, os biólogos moleculares podem passar a utilizar ferramentas computacionais capazes de analisar grandes quantidades de dados biológicos, de predizer funções dos genes e de demonstrar relações entre genes e proteínas. O terceiro objetivo é usar essas ferramentas para analisar e interpretar os resultados de uma maneira biologicamente significativa.

16 16 Tradicionalmente, estudos biológicos examinavam sistemas individuais em detalhes e comparavam os estudos com poucos outros relacionados. Com a bioinformática, podemos conduzir análises globais de todos os dados disponíveis com o objetivo de desvendar princípios comuns que se aplicam em vários sistemas e destacar novas características. A tabela 1 lista os tipos de dados que são analisados em bioinformática e o espectro de tópicos que fazem parte do campo (Luscombe et al., 2001). Tabela 1: Dados e tópicos de bioinformática (2004) Fonte de dados Tamanho dos dados Tópicos da bioinformática Seqüências brutas de DNA ~30 milhões de seqüências, 36 Separação de regiões codantes e bilhões de bases não codantes Identificação de íntrons e éxons Predição de produtos gênicos Seqüência de proteínas ~ seqüências (~300 aminoácidos cada) Estrutura de macromoléculas ~26000 estruturas (~1000 coordenadas atômicas cada) Genomas 100 genomas completos (1,6 milhão a 3 bilhões de bases cada) Análises forenses Algoritmos de comparação de seqüências Anotação funcional de proteínas Alinhamento múltiplo de seqüências Identificação de seqüências de motivos conservadas Predição de estrutura secundaria, terciária Algoritmos de alinhamento de estrutura 3D Medições de geometria de proteínas Cálculo de volume e forma da superfície Interações inter moleculares Simulações moleculares (cálculo de campos de força, movimentos moleculares e predição de docking ) Caracterização de repetições Designação estrutural aos genes Análises filogenéticas Caracterização de vias metabólicas Análise de relação de genes específicos com doenças Expressão gênica Correlação de padrões de expressão Mapeamento de dados de expressão para dados bioquímicos, de seqüência, e de estrutura. Literatura Vias metabólicas 11 milhões de citações Bibliotecas digitais para busca automatizada de bibliografia Simulação de vias metabólicas

17 17 O auxílio no seqüenciamento de genomas foi uma das primeiras áreas em que a bioinformática foi utilizada. Os seqüenciadores automáticos de DNA têm limitações técnicas que os impedem de seqüenciar regiões maiores que 1000 bases por vez. Desta forma, para viabilizar o seqüenciamento completo do genoma, deve-se, primeiramente, tratar o DNA das células de forma a criar inúmeros fragmentos. Esses fragmentos devem ser individualmente seqüenciados e, posteriormente, montados com o auxílio da bioinformática, como verdadeiras peças de um quebra-cabeça (Luscombe et al., 2001). O papel da bioinformática no auxílio para a decodificação de um gene é de suma importância devido à velocidade com que a tarefa pode ser realizada. O Genoma Humano, inicialmente previsto para ser desenvolvido e concluído em 15 anos, acabou sendo antecipado em cerca de 5 anos, tendo sido dado por decifrado, em seus aspectos essenciais, em Um novo gene, com cerca de 12 mil pares de bases, pode ter sua seqüência decifrada em 1 minuto, quando há 4 anos atrás a mesma tarefa levaria 20 minutos e há 20 anos, em torno de 1 ano (Vogt, 2003). O resultado final foi o imenso acúmulo de seqüências sem a contrapartida funcional. A disponibilidade das seqüências é um avanço significativo, mas por si só não é garantia que se possa entender o funcionamento do organismo, mesmo no caso dos genomas completos. Isto se deve, primariamente, ao fato dos sistemas biológicos serem extremamente complexos, onde cada gene participa de uma rede intrincada de interações. Atributos como nãolinearidade, contextualidade e plasticidade caracterizam o papel dos genes na célula. A conseqüência mais importante é o fato que para se determinar a função de um gene se fazem necessários uma série de procedimentos experimentais, que, em sua maioria, requerem uma grande parcela de tempo. Por isso, e também pelo fato de que seqüências acumuladas sem interpretação não terem muito valor, a anotação genômica ganhou importância nos últimos anos.

18 18 A figura 1 fornece uma amostra do ritmo de crescimento da deposição de dados no banco de dados GenBank, um dos principais bancos de dados de seqüências de nucleotídeos (Benson et al., 2004). Figura 1: Crescimento exponencial do GenBank (fonte: < O Caráter multidisciplinar da bioinformática Assim, como outras áreas emergentes de trabalho, a bioinformática se enquadra em um contexto onde o problema não é hardware, nem software, mas peopleware, ou seja, formação de pessoal qualificado na área. Um profissional de bioinformática bem colocado precisa ter um bom conhecimento em ciência da computação e conhecer os princípios da biologia molecular e as diferentes técnicas de bancada nos diferentes domínios onde a bioinformática se faz necessária. Algumas das áreas da computação mais utilizadas pela bioinformática são: banco de dados, inteligência artificial e computação paralela. Da biologia, são usados principalmente conhecimentos de biologia molecular, biofísica, bioquímica e neurobiologia. Na matemática, temos a estatística multivariada e análise Bayesiana.

19 Genômica e bioinformática no Brasil No Brasil, a área iniciou a partir dos diversos projetos do Programa Genoma patrocinados pela Fapesp (Fundação de Amparo à Pesquisa de São Paulo), reunidos desde maio de 1997 na Rede Onsa (sigla, em inglês, para Organization for Nucleotide Sequencing and Analysis ). Com a Rede Onsa, foram estabelecidas as bases para o funcionamento de um instituto virtual e dinâmico que congregou, inicialmente, cerca de 30 laboratórios de diferentes instituições do estado de São Paulo, e que hoje, com uma participação cada vez maior de novos grupos de pesquisa em novos projetos, acabou por consolidar uma nova concepção do desenho institucional da pesquisa no país. A bioinformática esteve presente como instrumento indispensável nos projetos do genoma da Xylella fastidiosa, da Cana, do Genoma Humano do Câncer, do genoma Clínico do Câncer, do genoma Xanthomonas, do Eucalipto, do Schistomona Mansoni, da bactéria Leifsonia Xyli. Esses projetos fazem parte de um projeto abrangente dos Genomas Agronômicos e Ambientais (AEG, sigla para o inglês Agronomical and Environmental Genomics), criado em 2000, a partir do projeto feito em conjunto com o Departamento de Agricultura dos EUA para o seqüenciamento de uma variante da Xylella fastidiosa. O Genoma Bovino, anunciado mais recentemente, também marca as etapas dessas progressivas conquistas científicas e tecnológicas da genômica no Brasil. Desde o lançamento da Rede Onsa, vários centros de pesquisa e desenvolvimento em bioinformática foram se constituindo e se consolidando em São Paulo, acompanhando a espiral de crescimento da cultura genômica no país. Assim foi na Unicamp, na USP, na Unesp, no Instituto Ludwig, no Laboratório Nacional de Computação Científica, no Rio de Janeiro, na Universidade Federal de Pernambuco, na Federal de Minas Gerais, na Federal do Rio Grande do Sul, na Universidade de Brasília e na Universidade Católica de Brasília. (Vogt, 2003).

20 20 Em particular, tem se verificado um grande crescimento científico na área genômica no centro-oeste do Brasil. Instituições da região coordenam e participam de diversos projetos genoma de alcance nacional ou regional, tais como os genomas do eucalipto (genolyptus), café, banana (promusa) e do fungo Paracoccidioides brasiliensis. Quem aparece em primeiro lugar, em pesquisa, tecnologia e ensino em biotecnologia são os Estados Unidos, representados pelo Centro Nacional de Informação Biotecnológica (NCBI), seguido pela Inglaterra, através do Instituto Sanger, que faz parte do Instituto Europeu de Bioinformática. Em seguida, no mesmo nível, vem a França (Instituto Pasteur), a Alemanha (Heilderberg), a Suíça com seu Instituto Suíço de Bioinformática e o Japão com o Banco de Dados de DNA (DDBJ). O Brasil, Cingapura e Índia, são os representantes mais importantes de países em desenvolvimento que desenvolvem e investem em bioinformática Bioinformática na industria farmacêutica e agricultura O setor farmacêutico foi o grande motor do desenvolvimento da bioinformática e ainda hoje é o maior consumidor de bioinformática no mundo, respondendo por mais de 95% dos recursos aí investidos. O processo de desenvolvimento de um medicamento inicia-se com uma grande quantidade de moléculas potenciais. A cada fase, muitas delas são descartadas por não atenderem às especificações necessárias. Ao final, apenas algumas terão restado, das quais a mais adequada servirá de base para o medicamento. Às vezes não se identifica nenhum candidato. Em qualquer caso, fica claro que grande parte dos gastos é empregada em avaliar e testar substâncias que no final das contas serão descartadas. Estima-se que 75% do custo de desenvolver um novo remédio é usado para pagar por todas as potenciais moléculas descartadas. Se as empresas conseguirem eliminar precocemente uma molécula inadequada, poderão então melhorar significativamente seu retorno comercial. É aí que a bioinformática se faz presente. Permitindo a detecção de moléculas fadadas ao descarte, a bioinformática pode guiar os pesquisadores na direção das mais promissoras. No Brasil, esse cenário ainda não ocorre.

21 21 Embora a indústria farmacêutica seja a maior demandante de bioinformática, o setor da agricultura e pecuária está ganhando forte impulso como utilizador de técnicas moleculares, especialmente para melhoramento genético. Nesta arena, o Brasil saiu na frente, pois enquanto os países mais ricos empregavam grande parte dos seus investimentos no setor de saúde humana, deixando à margem os desenvolvimentos na área agrícola, aqui foram lançados programas com o objetivo inicial de desvendar a seqüência genética de organismos de interesse para as culturas nas quais o Brasil é líder mundial (Meidanis, 2003) Bancos de dados biológicos Bancos de dados biológicos podem conter, entre outras, informações sobre a seqüência, estrutura, e função de biomoléculas. Além dos organismos modelos citados anteriormente, milhares de outros tiveram regiões seqüenciadas e depositadas em bancos de dados públicos. Os bancos de dados estão crescendo continuamente (vide figura 1) e armazenam informações muito úteis para os pesquisadores Bancos de dados de nucleotídeos O banco de dados GenBank (Benson, et al., 2004) contém seqüências de DNA disponíveis publicamente de mais de organismos diferentes. Essas seqüências são obtidas principalmente através de submissões de dados de seqüência de laboratórios individuais e submissões em lotes de projetos de seqüenciamento de grande escala. O GenBank é mantido pelo National Center for Biotechnology Information (NCBI), uma divisão do National Library of Medicine (NLM), localizado no campus do US National Institutes of Health (NIH) em Bethesda (EUA). Este banco mantém uma colaboração internacional com outros dois bancos de dados: EMBL na Inglaterra (Stoesser et al., 2002) e DDBJ (DNA Data Bank of Japan), a qual inclui uma troca diária de dados entre os três bancos para que se mantenham sincronizados. Em agosto de 2003, o GenBank continha mais de 33.9 bilhões de pares de bases de nucleotídeos e 27,2 milhões de seqüências. Mais de

22 22 espécies estão representadas e novas são adicionadas a uma taxa de mais por mês. Aproximadamente 26% das seqüências são de origem humana. Depois do Homo sapiens, as espécies que mais aparecem são: Mus musculus, Rattus norvegicus, Danio rerio, Oryza sativa, Drosophila melanogaster, Zea mays, Arabidopsis thaliana e Gallus gallus. O banco de dados não-redundante nr de nucleotídeos contém todos os registros do próprio GenBank adicionados aos registros dos bancos de dados: EMBL, DDBJ e PDB (Protein Data Bank) (Berman et al., 2000). Não contém, porém, seqüências de EST ( Expressed Sequence Tags ), STS ( Sequence Tagged Site ), GSS ( Genome Survey Sequence ) e HTGS ( High Throughput Genomic Sequences ). O banco EST (Boguski et al., 1993) contém expressed sequence tags. O GSS contém leituras aleatórias de fragmentos genômicos e seqüências de cosmídeos, BAC e YAC Bancos de dados de proteínas Projetos de seqüenciamento de genoma levaram a um rápido aumento na quantidade de informação acerca de seqüência de proteínas. Dentre os vários bancos de dados de proteínas, são listados, a seguir, os bancos de dados que foram usados nesse trabalho Swiss-Prot e TrEmbl O banco de dados Swiss-Prot (Boeckmann et al., 2003) contém seqüências de aminoácidos em conexão com o conhecimento atual das ciências naturais. O SwissProt é curado por um grande número de especialistas e, por isso, torna-se um banco com informações mais confiáveis. Cada registro de proteína provê uma visão geral interdisciplinar de importantes informações trazendo, junto com o registro, resultados experimentais, características computadas e, algumas vezes, até conclusões contraditórias. Outras informações detalhadas que estão além do escopo do Swiss-Prot ficam disponíveis através de ligações para banco de dados especializados. O Swiss-Prot provê registros anotados para todas as espécies, mas se concentra na anotação de registros de seqüências humanas e de

23 23 outros organismos modelos, a fim de assegurar a presença de anotações de alta qualidade de membros representativos de todas as famílias de proteínas. Famílias e grupos de proteínas são regularmente revisados para que se mantenham atualizados com os atuais descobrimentos científicos. Complementarmente, o TrEMBL esforça-se em abranger todas seqüências de proteínas que não estão ainda representadas no Swiss-Prot. Ao mesmo tempo em que é necessário manter uma alta qualidade de anotação no Swiss-Prot, é também vital tornar as seqüências disponíveis o mais rápido possível. Essa é a função do TrEMBL, que é formado por registros anotados computacionalmente derivados da tradução de todas as seqüências codantes (CDS) no banco de dados EMBL. A figura 2 contém um exemplo do formato de um registro do Swiss-Prot. Cada linha do registro tem um significado próprio. Dentre essas informações, as linhas que foram extraídas e usadas nesse trabalho são: Linha ID (Identificação): A linha ID é sempre a primeira linha no registro. Essa linha contém três informações separadas por ponto-e-vírgula: O nome do registro, o tipo de molécula (nesse caso o valor é sempre PRT ; proteína) e o tamanho da proteína (quantidade de aminoácidos). Linha AC (Número de acesso): O objetivo do número de acesso é prever uma maneira estável de identificar os registros de versão para versão. A linha AC pode ter mais de um número de acesso se os registros foram unidos ou separados. Por exemplo, quando dois registros são unidos em um único, os números de acesso de ambos são mantidos nessa linha. Se um registro é dividido em dois (uma ocorrência rara), os números de acesso originais são mantidos nos novos registros criados e um novo número de acesso é criado para ambos novos registros. Um número de acesso é eliminado somente quando os dados aos quais ele designa forem completamente removidos do banco de dados.

24 24 Linha DE (descrição): Contém informações descritivas gerais sobre a seqüência armazenada. Essa informação é geralmente suficiente para identificar a proteína com precisão. A descrição tem formato livre e sempre começa com o nome proposto oficial. Sinônimos são colocados entre parênteses (vide figura 2). Quando é sabido que uma proteína é clivada em componentes multifuncionais, a descrição começa com o nome da proteína precursora, seguida por uma seção delimitada por [Contains:...]. Todos os componentes individuais são listados nessa seção. Quando é sabido que uma proteína inclui domínios com múltiplas funções, com cada um deles descrito por um nome diferente, a descrição começa com o nome da proteína total, seguido por uma seção delimitada por [Includes:]. Todos os domínios são listados nessa seção. Em casos raros, os domínios funcionais de uma proteína são clivados, mas a atividade catalítica só pode ser observada quando as cadeias individuais reorganizam-se em um complexo. Essas proteínas são descritas na linha DE por uma combinação de [Includes:...] e [Contains:...]. Linha OS (espécie do organismo): especifica o(s) organismo(s) que foi (foram) a fonte da seqüência armazenada. A designação da espécie consiste, na maioria dos casos, pela designação em latim da espécie seguida do nome em Inglês entre parênteses. No caso de vírus, somente o nome em Inglês é fornecido. O registro é sempre terminado por uma linha com //. ID KPYK_CHLMU STANDARD; PRT; 481 AA. AC Q9PK61; DT 16-OCT-2001 (Rel. 40, Created) DT 16-OCT-2001 (Rel. 40, Last sequence update) DT 15-MAR-2004 (Rel. 43, Last annotation update) DE Pyruvate kinase (EC ) (PK). GN PYK OR TC0609. OS Chlamydia muridarum. OC Bacteria; Chlamydiae; Chlamydiales; Chlamydiaceae; Chlamydia. OX NCBI_TaxID=83560; RN [1] RP SEQUENCE FROM N.A. RC STRAIN=MoPn / Nigg; RX MEDLINE= ; PubMed= ; RA Read T.D., Brunham R.C., Shen C., Gill S.R., Heidelberg J.F., RA White O., Hickey E.K., Peterson J., Utterback T., Berry K., Bass S., RA Linher K., Weidman J., Khouri H., Craven B., Bowman C., Dodson R., RA Gwinn M., Nelson W., DeBoy R., Kolonay J., McClarty G., Salzberg S.L., RA Eisen J.A., Fraser C.M.; RT "Genome sequences of Chlamydia trachomatis MoPn and Chlamydia

25 25 RT pneumoniae AR39."; RL Nucleic Acids Res. 28: (2000). CC -!- CATALYTIC ACTIVITY: ATP + pyruvate = ADP + phosphoenolpyruvate. CC -!- COFACTOR: Requires magnesium and potassium. CC -!- PATHWAY: Glycolysis; final step. CC -!- SUBUNIT: Homotetramer (By similarity). CC CC This SWISS-PROT entry is copyright. It is produced through a collaboration CC between the Swiss Institute of Bioinformatics and the EMBL outstation - CC the European Bioinformatics Institute. There are no restrictions on its CC use by non-profit institutions as long as its content is in no way CC modified and this statement is not removed. Usage by and for commercial CC entities requires a license agreement (See CC or send an to license@isb-sib.ch). CC DR EMBL; AE002329; AAF ; -. DR PIR; F81684; F DR HSSP; P14178; 1E0T. DR TIGR; TC0609; -. DR InterPro; IPR001697; Pyruvate_kinase. DR Pfam; PF00224; PK; 1. DR PRINTS; PR01050; PYRUVTKNASE. DR ProDom; PD001009; Pyruvate_kinase; 1. DR TIGRFAMs; TIGR01064; pyruv_kin; 1. DR PROSITE; PS00110; PYRUVATE_KINASE; FALSE_NEG. KW Transferase; Kinase; Glycolysis; Magnesium; Complete proteome. FT ACT_SITE By similarity. FT METAL Magnesium (By similarity). FT METAL Magnesium (By similarity). FT METAL Magnesium (By similarity). SQ SEQUENCE 481 AA; MW; 9222E5DAED557B51 CRC64; MIARTKIICT IGPATNTPEM LEKLLDAGMN VARLNFSHGT HESHGRTIAI LKELREKRQV PLAIMLDTKG PEIRLGQVES PIKVKPGDRL TLTSKEILGS KEAGVTLYPS CVFPFVRERA PVLIDDGYIQ AVVVNAQEHL IEIEFQNSGE IKSNKSLSIK DIDVALPFMT EKDITDLKFG VEQELDLIAA SFVRCNEDID SMRKVLENFG RPNMPIIAKI ENHLGVQNFQ EIAKASDGIM IARGDLGIEL SIVEVPALQK FMARVSRETG RFCITATQML ESMIRNPLPT RAEVSDVANA IHDGTSAVML SGETASGTYP IEAVKTMRSI IQETEKSFDY QAFFQLNDKN SALKVSPYLE AIGASGIQIA EKASAKAIIV YTQTGGSPMF LSKYRPYLPI IAVTPNRNVY YRLAVEWGVY PMLTSESNRT VWRHQACVYG VEKGILSNYD KILVFSRGAG MQDTNNLTLT TVNDVLSPSL E // Figura 2: Exemplo de formato de um registro do Swiss-Prot O Swiss-Prot e o TrEMBL são complementares e, juntos, formam um banco de dados não redundante. O Swiss-Prot aumenta de tamanho continuamente quando novas seqüências anotadas são adicionadas. O banco de dados TrEMBL diminui de tamanho assim que algumas de suas seqüências são anotadas e movidas para o Swiss-Prot. Entretanto, uma característica marcante do Swiss-Prot é que a sua taxa de crescimento é a menor entre os demais bancos biológicos em função da necessidade de intervenção de diversos especialistas humanos para construir uma entrada. Quatro vezes por ano, uma nova versão do TrEMBL é construída no EBI. Nesse momento, o TrEMBL aumenta de tamanho pois ele passa a incluir todos os novos registros que estavam acumulados desde a última versão. Swiss-Prot e TrEMBL compartilham o mesmo sistema de números de acesso. Dessa forma, não existirá duplicação de número de acesso entre os dois. Swiss-Prot talvez seja um dos raros banco de dados que

26 26 mantém disponível na Internet, além da versão atual, as suas versões antigas. Essas versões antigas foram muito úteis e foram usadas intensamente nesse trabalho PFAM O Pfam (Protein families database of alignments and HMMs) é uma grande coleção de alinhamentos múltiplos de seqüências e Hidden Markov Models cobrindo as mais comuns famílias e domínios de proteínas (Beteman et al.,2002). HMM são modelos estatísticos que capturam informações específicas da posição de quanto cada coluna do alinhamento é conservada e quais os resíduos contidos. Para cada família em Pfam, pode-se consultar alinhamentos múltiplos, ver a arquitetura de domínios de proteínas, examinar a distribuição de espécies, olhar estruturas de proteínas conhecidas. Pfam pode ser usado para ver a organização de domínios de proteínas. Um exemplo típico é mostrado na figura 3. Note que uma única proteína pode pertencer a várias famílias do Pfam. Figura 3: Representação de domínios no Pfam Aproximadamente 74% das seqüências de proteínas conhecidas têm ao menos uma entrada no Pfam. O Pfam tem duas partes: a primeira (Pfam-A) é a parte curada do banco de dados contendo aproximadamente 7316 famílias de proteínas. A segunda parte (Pfam-B) é um suplemento que contém um grande número de pequenas famílias adquiridas do banco de dados PRODOM (Servant et al., 2002) as quais não têm sobreposição com Pfam-A. Embora tenha menos qualidade, Pfam-B pode ser útil quando nenhuma família é encontrada em Pfam- A NR (Banco de dados não-redundante de proteínas) do NCBI O banco de dados nr (non-redundant database) do NCBI reúne todas as traduções não redundantes de CDS (Coding Sequences) do GenBank, junto com os registros do PDB

27 27 (Berman et al., 2000), Swiss-Prot, PIR (Protein Information Resource, Wu et al., 2003) e PRF (Protein Research Foundation). Cada seqüência protéica é identificada por um protein id no formato accession.version, sistema esse que foi implementado pelo GenBank, EMBL, e DDBJ em fevereiro de O protein id consiste de três letras seguidas por cinco dígitos, um ponto, e o número da versão. Se ocorrer qualquer mudança na seqüência (mesmo em um único aminoácido), o número da versão é incrementado, mas a porção de acesso ( accession ) permanece estável (por exemplo, AAA mudará para AAA ). Paralelamente, toda seqüência também é identificada por um gi (GenInfo Identifier). O sistema GI de identificação de seqüências corre em paralelo com o sistema no formato protein id. Portanto, se a seqüência protéica for modificada de qualquer modo, ela receberá um novo numero GI e o sufixo do protein id será incrementado de um COG O banco de dados COG ( Clusters of Orthologous Groups ) apresenta uma classificação filogenética de proteínas de procariontes e eucariontes unicelulares. Os "COGs" são derivados de comparação do tipo "todos contra todos" entre as seqüências das proteínas. Cada COG consiste de proteínas individuais ou grupos de ortólogas de no mínimo três linhagens e, portanto, é considerado como correspondente a um domínio ancestral conservado. O banco de dados é projetado para dar suporte a pesquisa em evolução de genomas assim como em anotação funcional. Também existe um banco chamado KOG que consiste de clusters de ortólogos preditos de 7 genomas eucariontes. A coleção COG consiste, atualmente, de proteínas, as quais formam COGs e compreendem 75% das proteínas preditas codificadas em 66 genomas de organismos unicelulares. Os grupos ortólogos de eucariontes (KOGs) incluem proteínas de 7 genomas eucariontes: Caenorhabditis elegans, Drosophila melanogaster e Homo sapiens, uma planta (Arabidopsis thaliana), dois fungos (Saccharomyces cerevisiae e

28 28 Schizosaccharomyces pombe) e o parasita intracelular Encephalitozoon cuniculi. O KOG atual consiste de agrupamentos de ortólogos, os quais incluem proteínas, ou aproximadamente 54% dos produtos gênicos de eucariontes analisados. Exames nos padrões filéticos dos KOGs revelam um núcleo conservado representado em todas as espécies analisadas e que consiste em ~20% do conjunto do KOG. Essa porção conservada do KOG é muito maior do que a porção ubíqua do conjunto COG (~1% do COG). Em parte, essa diferença é provavelmente devida a menor quantidade de genomas eucariontes incluídos, mas também pode refletir a relativa compacidade e maior estabilidade evolucionária dos genomas eucariontes (Tatusov et al., 2003) Uniprot O consórcio UniProt (Apweiler, 2004) é formado pelo EBI ( European Bioinformatics Institute ), SIB ( Swiss Institute of Bioinformatics ) e PIR ( Protein Information Resource ). Foi criado para unir as atividades dos bancos de dados Swiss-Prot, TrEMBL e PIR em um novo recurso capaz de prover uma visão estável e compreensiva de seqüências e funções de proteínas. Esse recurso é composto de três camadas: um arquivo de seqüências de proteínas, uma base de conhecimentos e um banco de dados de referencias não redundante Comparação de proteínas por similaridade de seqüência x estrutura As proteínas podem ser comparadas com outras usando similaridade de seqüência ou similaridade de estrutura. A primeira abordagem foi, historicamente, a primeira a ser usada. É baseada em alinhamento de seqüências protéicas. Inicialmente, a busca por similaridade era feita sobre toda a seqüência. Mais tarde, as proteínas começaram a ser analisadas na base de ocorrências de padrões conservados de aminoácidos. Na comparação por similaridade de estrutura, os tamanhos e arranjos espaciais são comparados com estruturas tridimensionais já

29 29 conhecidas (Mount, 2001). Nesse trabalho, o enfoque é predominantemente baseado em comparação por similaridade de seqüência Termos usados para comparar seqüências e estruturas de proteínas Durante a comparação de seqüências, vários termos são usados para descrever relações evolucionárias e estruturais entre proteínas. Nesse item, descrevemos os mais importantes. Outros podem ser encontrados no sítio CATH ( /bsm/cath/lex/glossary.html), no sítio SCOP ( Structural Classification of Proteins ) encontrado em ( e no tutorial situado no sítio do Swiss Bioinformatics Institute ( Principais termos: Sitio ativo: é uma combinação localizada de cadeias laterais de aminoácidos dentro da estrutura terciária ou quaternária a qual pode interagir com um substrato químico específico e que provê atividade biológica à proteína. Proteínas de diferentes seqüências de aminoácidos podem formar estruturas que produzem sítios ativos semelhantes. Blocos: ( blocks ) é um termo usado para descrever um padrão de seqüência de aminoácidos conservado em uma família de proteínas. O padrão inclui uma série de possíveis coincidências em cada posição nas seqüências representadas, mas não há nenhuma posição inserida ou removida no padrão ou nas seqüências. Em contraste, perfis de seqüência são um tipo de matriz de escores que representam um conjunto similar de padrões que incluem inserções e remoções. Perfis HMMs são Hidden Markov Models desse segundo tipo de padrão. Domínio (contexto de seqüência): Nesse contexto, o termo está associado à homologia. Domínios homólogos referem-se a um padrão estendido de seqüência, geralmente encontrado por métodos de alinhamento de seqüências. Um domínio

30 30 homólogo indica uma origem evolucionária comum dentre as seqüências alinhadas. Um domínio é geralmente mais longo do que um motivo. O domínio pode incluir uma porção ou a seqüência inteira da proteína. Alguns domínios são complexos e feitos de diversos domínios homólogos menores que, durante a evolução, se ligam formando domínios maiores. Domínio (contexto de estrutura): Refere-se a um segmento de uma cadeia polipeptídica que pode formar uma estrutura tridimensional independente da presença de outros segmentos da cadeia. Os domínios separados de uma proteína podem interagir extensivamente ou podem estar conectados somente por uma cadeia polipeptídica. Uma proteína com diversos domínios pode usá-los para interações funcionais com diferentes moléculas. Família (contexto de seqüência): é um grupo de proteínas de função bioquímica similar e que têm alta similaridade de seqüência. Uma família de proteínas engloba proteínas com a mesma função em organismos diferentes (seqüências ortólogas) mas também pode incluir proteínas do mesmo organismo derivadas de duplicação de genes e rearranjos (seqüências parálogas). Famílias podem ser subdivididas em subfamílias ou agrupadas em superfamílias em função do nível de alinhamento obtido entre as seqüências. Quando seqüências de proteínas com a mesma função são examinadas em detalhes, algumas compartilham alta similaridade de seqüência. Elas são, obviamente, membros da mesma família de acordo com o critério acima. Entretanto, outras têm pouca ou quase insignificante similaridade de seqüência com os outros membros da família. Nesses casos, o relacionamento entre dois membros distantes da família A e C pode ser demonstrado por um membro da família B que compartilha similaridade significativa com ambos A e C. Assim, B provê uma ligação entre A e C.

31 31 Família (contexto de estrutura): refere-se a duas estruturas que em um nível relevante de similaridade estrutural mas não necessariamente similaridade significativa de seqüência. Motivo ( motif ; contexto de seqüência): refere-se a um padrão conservado de uma seqüência pequena de aminoácidos que é encontrado em duas ou mais proteínas. No catálogo do PROSITE (Hulo et al., 2004), um motivo é um padrão de aminoácidos que é encontrado em um grupo de proteínas que têm uma atividade bioquímica similar. Motivo ( motif ; contexto de estrutura): refere-se a uma combinação de diversos elementos de estrutura secundária produzidos pelo dobramento de seções adjacentes da cadeia do polipeptídio em uma configuração tridimensional específica. Um exemplo é o motivo helix-turn-helix, encontrados em proteínas que se ligam a DNA. Motivos de estrutura são também conhecidos como estruturas supersecundárias. Perfil ( profile ; contexto de seqüência): É uma matriz de escores que representa um alinhamento múltiplo de seqüências de uma família de proteínas. O perfil é geralmente obtido de uma região bem conservada em um alinhamento múltiplo. O perfil tem a forma de uma matriz em que cada coluna representa uma posição no alinhamento e cada linha representa um aminoácido. Os valores da matriz dão a probabilidade de cada aminoácido estar na posição correspondente no alinhamento. Espaços ( gaps ) são permitidos durante o alinhamento e uma penalidade ao espaço é incluída nesse caso como um escore negativo quando nenhum aminoácido coincidente é encontrado. Um perfil de seqüência pode também ser representado por perfis HMM.

32 32 Superfamília: é um grupo de famílias de proteínas que são relacionados por distante mas ainda detectável similaridade de seqüência. Proteínas com poucas identidades em um alinhamento de seqüências, mas com um convincente número de características funcionais e estruturais em comum são colocadas na mesma superfamília. Seqüências homólogas: São seqüências com similaridade atribuída devido à descendência de um ancestral comum. Seqüências ortólogas: São seqüências homólogas em espécies diferentes que advém de um gene ancestral comum durante a especiação. Podem ou não ser responsável por uma função similar. Seqüências parálogas: São seqüências homólogas dentro da uma mesma espécie que advém da duplicação de genes. A figura 4 mostra um exemplo dessas últimas definições. homólogos ortólogos parólogos ortólogos sapo a Chick a camundongo a camundongo ß Chick ß sapo ß Gene cadeia a Gene cadeia ß Duplicação gênica Gene ancestral da hemoglobina Figura 4: Homologia Seqüências ortólogas e parálogas são dois tipos de seqüências homólogas. Ortologia descreve genes em espécies diferentes que derivam de um ancestral comum. Genes ortólogos podem ou não ter a mesma função. Paralogia descreve genes homólogos dentro de uma mesma espécie que divergiram devido à duplicação de genes. (adaptado do sítio do NCBI).

33 Evolução divergente e convergente Evolução convergente é a evolução de estruturas, não relacionadas por antepassados, para uma função em comum e que é refletida em uma estrutura semelhante. Evolução divergente é evolução a partir de um ancestral comum A evolução produziu um número relativamente limitado de dobramentos de proteínas e mecanismos catalíticos Embora a quantidade total de atividades enzimáticas diferentes em qualquer célula viva seja grande, elas envolvem um pequeno número de classes de transformações químicas. Para cada uma dessas transformações, existe um número ainda menor de diferentes mecanismos catalíticos através dos quais eles podem ser obtidos. Isso tudo sugere que a maioria das enzimas deve estar relacionada na seqüência e estrutura com muitas outras de mecanismos similares, mesmo que seus substratos sejam diferentes. Duas proteínas com alta identidade de seqüência podem ser assumidas como terem surgido através de evolução divergente de um ancestral em comum. Nesse caso, pode-se predizer que terão estruturas muito parecidas ou até idênticas. Em geral, se a identidade entre duas seqüências for maior do que aproximadamente 40% sem a necessidade de introduzir muitos espaços no alinhamento e se essa identidade é espalhada ao longo das seqüências, então a expectativa é de que elas codifiquem para proteínas com dobramento similar. Entretanto, problemas em deduzir relações evolucionárias e em predizer função a partir da seqüência e estrutura surgem quando a identidade é inferior a 40%. Além disso, mesmo proteínas com identidade de seqüência maior que 90%, as quais devem ter estrutura e sítios ativos muito similares, podem, em casos raros, operar em substratos diferentes.

34 Proteínas que diferem na seqüência e estrutura podem ter convergido para sítios ativos, mecanismos catalíticos e funções bioquímicas similares A estrutura do sítio ativo determina a função bioquímica de uma enzima e, em muitas proteínas homólogas, os resíduos do sítio ativo e a estrutura são conservados mesmo quando o resto da seqüência divergiu a ponto de não ser mais reconhecida. Portanto, poderíamos supor que todas proteínas com sítios ativos e mecanismos catalíticos similares fossem homólogas. Entretanto, esse não é o caso. Se duas proteínas têm dobramentos muito diferentes e baixa similaridade de seqüência, é provável que sejam exemplos de evolução convergente. Ou seja, elas não divergiram de um ancestral comum mas apareceram independentemente e convergiram na mesma configuração de sítio ativo como resultado de seleção natural de uma função bioquímica particular. Exemplos claros de evolução convergente são encontrados entre serino-proteases e aminotransferases Proteínas com baixa similaridade de seqüência mas estrutura e sítios ativos similares são provavelmente homólogos Pode ser difícil perceber homologia a partir da seqüência somente, porque seqüências mudam mais rapidamente com a evolução do que a estrutura 3D (vide figura 5). De fato, proteínas com nenhuma detecção de similaridade de seqüência, mas com as mesmas estruturas e funções bioquímicas, já foram encontradas. Entre os numerosos exemplos estão as glicosiltransferases, as quais transferem um monosacarídeo de um açúcar ativado doador para um sacarídeo, proteína, lipídeo, DNA ou pequena molécula aceptora. Algumas glicosiltransferases que operam em diferentes substratos e não têm similaridade de seqüência, mas têm estruturas similares são tidos como terem um ancestral comum. Em alguns, provavelmente a maioria, dos casos, baixa homologia de seqüência combinada com alta similaridade de estrutura reflete conservação seletiva de resíduos funcionais importantes em seqüências homólogas genuínos, mas altamente divergentes. Exemplos: mandelato racemase e enolase apresentam pequena identidade de seqüência mas têm estruturas e sítios ativos

35 35 similares. As reações que eles catalisam compartilham uma fase central. Essa fase é catalisada da mesma forma pelas enzimas, implicando que elas provavelmente divergiram de um ancestral comum Casos de evolução convergente e divergente são, às vezes, difíceis de distinguir Em alguns casos, existe equivalência espacial no sítio funcional, mas pouca ou nenhuma conservação de seqüência dos resíduos de importância funcional. Nesses casos, distinguir entre evolução convergente e divergente pode ser difícil. Por exemplo, as enzimas benzoilformato descarboxilase (BFD) e piruvato descarboxilase (PDC) têm somente 21% de identidade de seqüência mas têm, essencialmente, dobramentos idênticos (vide figura 5). As cadeias laterais de aminoácidos catalíticos são conservadas na mesma posição espacial na estrutura 3D, mas não na seqüência. Figura 5: Diagrama de fita da estrutura de um monômero de benzoilformate descarboxilase (BFD) e piruvato descarboxilase (PDC). À esquerda temos o BFD e à direita o PDC. Os dois compartilham um dobramento e função bioquímica, mas eles reconhecem substratos diferentes e têm baixa (20%) identidade de seqüência. A ligação do cofator (tiamina pirofosfato) é mostrada na representação spacefilling em ambas estruturas. As esferas verdes são íons metálicos. (PDB 1bfd e 1pvd). (Adaptado de Petsko e Ringe, 2003)

36 36 É possível que as duas proteínas tenham evoluído independentemente e tenham convergido para a mesma solução química para o problema de descarboxilar um alfacetoácido. Mas, sua grande similaridade na estrutura seria vista como indicativo de terem divergido de um ancestral comum. O nível de identidade de seqüência entre eles é, no entanto, muito baixo para distinguir entre essas duas possibilidades com confiança (Petsko e Ringe, 2003) Evolução divergente pode produzir proteínas com similaridade de seqüência e estrutura mas com diferenças nas funções Existem proteínas com funções bioquímicas muito diferentes mas que, apesar disso, possuem muita similaridade tridimensional e suficiente identidade de seqüência para pressupor homologia. Tais casos sugerem que a estrutura diverge mais lentamente do que a função durante a evolução. Por exemplo, esteroid-delta-isomerase, fator de transporte nuclear- 2 e scitalone desidratase compartilham muitos detalhes estruturais (vide figura 6) e são considerados homólogos, ainda que as duas enzimas, a isomerase e a desidratase, não tenham resíduos catalíticos essenciais em comum. Isto sugere que são as características gerais da cavidade do sítio ativo dessa proteína que têm a habilidade potencial de catalisar reações químicas diferentes dados resíduos de sítios ativos diferentes. A terceira proteína desse conjunto de homólogos, um fator de transporte nuclear-2, não é propriamente uma enzima, mas sua cavidade contém resíduos que estão presentes nos sítios catalíticos de ambas enzimas. Portanto, determinação de função, a partir da seqüência e estrutura, é complicado pelo fato de proteínas com estrutura similar poderem não ter a mesma função mesmo quando relacionadas na escala evolutiva (Petsko e Ringe, 2003).

37 37 Figura 6: Superposição das estruturas tridimensionais das moléculas: steroid-delta-isomerase, fator de transporte nuclear-2 e scytalone desidratase. A seta cinza indica o sítio ativo (pdb: 8cho, 1oun, 1std). Adaptado de Petsko e Ringe, Alinhamento e comparação de seqüências A comparação de uma seqüência de nucleotídeos ou aminoácidos com outra a fim de encontrar um grau de similaridade entre elas é uma técnica chave na biologia dos dias atuais. Uma similaridade marcante entre duas seqüências de genes ou proteínas pode refletir o fato delas serem derivadas por evolução da mesma seqüência ancestral. Seqüências relacionadas dessa forma são chamadas de homólogas e a similaridade evolutiva entre elas é conhecida como homologia (vide item Termos usados para comparar seqüências e estruturas de proteínas na página 29). Seqüências da mesma proteína mas de espécies diferentes também podem ser comparadas a fim de deduzir relações evolutivas. Dois genes que evoluíram recentemente de um gene ancestral comum ainda terão relativa semelhança na seqüência. Aqueles que têm um ancestral comum mais distante terão acumulado muito mais mutações, e sua relação evolutiva será menos óbvia, ou até impossível de deduzir somente através da seqüência (Petsko e Ringe, 2003).

38 38 Os casos práticos, abaixo listados, mostram a grande importância e utilidade da comparação de seqüências para a biologia (Setúbal e Meidanis, 1997): 1. Temos duas seqüências do mesmo alfabeto e ambas têm aproximadamente o mesmo comprimento (dezenas de milhares de caracteres). Sabemos que as duas seqüências são praticamente iguais, com poucas e isoladas diferenças tais como inserções, remoções e substituições de caracteres. A freqüência média dessas diferenças é baixa, digamos, uma a cada cem caracteres. Queremos localizar os lugares onde essas diferenças ocorrem. Problemas desse tipo ocorrem quando, por exemplo, o mesmo gene é seqüenciado por dois laboratórios diferentes e queremos comparar os resultados. 2. Temos duas seqüências com algumas centenas de caracteres cada uma. Queremos saber se existe um prefixo de uma que seja similar a um sufixo de outra. Se a resposta for sim, o prefixo e o sufixo envolvidos devem ser mostrados. 3. Temos o mesmo problema que na situação (2), mas dessa vez temos muitas centenas de seqüências que devem ser comparadas, uma contra todas. Além disso, sabemos a maioria desses pares de seqüências não estão relacionados, ou seja, têm baixa similaridade. Problemas do tipo (2) e (3) surgem no contexto de montagem de fragmentos em programas que auxiliam seqüenciamento de DNA em larga escala. 4. Temos duas seqüências com poucas centenas de caracteres cada. Queremos saber se existem duas sub-seqüências, uma de cada seqüência, que sejam similares. 5. Temos a mesma situação que em (4), mas, ao invés de duas seqüências, temos uma seqüência e queremos compará-la com milhares de outras. Problemas do tipo (4) e (5) ocorrem no contexto de busca por similaridades locais usando grandes bancos de dados de bioseqüências.

39 39 Para todos esses casos, uma idéia única e básica de algoritmo pode ser usada para resolver todos os problemas acima expostos. Algumas vezes, métodos menos generalistas, porém mais rápidos, são melhores adaptados para cada caso Alinhamento global e local Para se inferir o quanto duas seqüências são semelhantes utilizam-se métodos de comparação de cadeias de símbolos, e que genericamente são conhecidos pela designação de alinhamento de seqüência. O objetivo final é o de maximizar o número de coincidências entre as duas seqüências de acordo com um sistema de pontuação (Setubal e Meidanis, 1997). Existem dois tipos de alinhamento: global e local (Mount, 2001). No alinhamento global, é feita uma tentativa de alinhar as seqüências completamente, usando o máximo de caracteres possíveis em toda a extensão dessas. Seqüências que possuem alguma similaridade e aproximadamente o mesmo tamanho são candidatas convenientes para alinhamento global. Um dos algoritmos mais usados nesse caso é o algoritmo de Needleman e Wunsch (Needleman e Wunsch, 1970), que é um algoritmo rigoroso utilizando a técnica de programação dinâmica (Eddy, 2004), a qual tenta resolver problemas complexos através da resolução de sub-conjuntos do problema inicial. A figura 7 mostra um pequeno exemplo de um resultado desse alinhamento. Figura 7: Exemplo de alinhamento global entre duas seqüências Já em alinhamentos locais, trechos das seqüências com as mais altas densidades de coincidências são alinhados, gerando uma ou mais ilhas de sub alinhamentos nas seqüências. Alinhamentos locais são mais apropriados para alinhar seqüências que são similares ao longo de um trecho de suas seqüências mas dissimilares em outros trechos, ou então, seqüências que diferem muito no tamanho ou que compartilham uma região ou domínio conservado. Um dos

40 40 algoritmos mais conhecidos é o algoritmo de Smith-Waterman (Smith e Waterman, 1981). Esse algoritmo também usa programação dinâmica e é matematicamente desenhado para prover o melhor alinhamento local entre duas seqüências. A figura 8 ilustra um exemplo em que o alinhamento local é mais apropriado. Na prática, muitas proteínas não apresentam um padrão global de similaridade, mas apresentam-se como mosaicos de domínios modulares. Alinhamentos globais não detectam esse aspecto. Em função desses aspectos, alinhamentos locais são mais complexos que os globais e, portanto, seus algoritmos são mais lentos. F12: fator de coagulação XII PLAT: ativador de tecido plasminogen F12 F2 E F1 E K Catalítico PLAT F1 E K K Catalítico F1, F2: Repetições de Fibronectin E:domínio similar EGF K: domínio Kringle Catalitico: atividade de serine protease Figura 8: Exemplo de alinhamento local entre duas seqüências 1.7. Ferramentas de bioinformática para busca em banco de dados FASTA e BLAST O programa FASTA (Pearson e Lipman, 1988) foi a primeira ferramenta usada largamente para busca em banco de dados de nucleotídeos e proteínas. Já o programa BLAST ( Basic Local Alignment Search Tool ) (Altschul et al., 1997) passou a ser mais utilizado pois provê um método mais rápido de procura. BLAST é sem dúvida a ferramenta computacional de referência para a busca de similaridade em bancos de dados de seqüências e por conseqüência extensivamente utilizado na anotação genômica. FASTA e BLAST também são algoritmos de alinhamento local. Pelo fato de usarem heurísticas, eles são em torno de 50 a 100 vezes mais rápidos do que o algoritmo de Smith- Waterman (vide Alinhamento global e local na página 39). Entretanto, perdem em precisão,

41 41 pois não garantem que o melhor alinhamento seja encontrado. Mesmo com essa restrição, esses dois algoritmos, principalmente o BLAST, são os mais usados atualmente. Em parte, isso se deve ao tempo proibitivamente alto requerido pelo alinhamento local tradicional. Para entendermos o algoritmo usado pelo BLAST, devemos antes definir alguns conceitos: Espaço ( gap ): É um espaço introduzido em um alinhamento para compensar inserções e remoções de letras em uma seqüência em relação à outra. Em outras palavras, são posições nas quais uma letra é pareada com um espaço nulo na outra seqüência. Para prevenir um grande acúmulo em um alinhamento, a introdução de um espaço causa uma penalidade grave (diminuição) do escore do alinhamento. Não existe teoria amplamente aceita de qual o grau de penalidade que deve ser imposta a um espaço. No exemplo abaixo, foi introduzido um espaço (representado pelo hífen) na seqüência 2, entre as letras F e Q: Sequencia 1:DNLKGTFAQLSELHCD Sequencia 2:DNLKGTF-QLSELHCD HSP ( High-scoring Segment Pair ): Alinhamentos locais que atingem os escores mais altos em determinada busca. MSP ( Maximal-scoring Segment Pair ): É o par de segmentos com o maior escore. Seu alinhamento não pode ser melhorado entendendo ou encurtando-o. Best hit (melhor hit): É o melhor alinhamento dentre todos os alinhamentos obtidos pelo BLAST Matriz de substituição: Uma matriz de substituição contém valores proporcionais à probabilidade de que o aminoácido i sofra mutação para o aminoácido j para todos os pares de aminoácidos possíveis. Essas matrizes são construídas montando-se uma grande e diversa amostra de alinhamentos de proteínas. Se a amostra é grande o suficiente para ser estatisticamente significante, as matrizes resultantes devem

42 42 refletir as verdadeiras probabilidades de ocorrer mutações diante de um período evolucionário. São usadas somente para aminoácidos, pois no caso de nucleotídeos só pode existir presença ou ausência de pareamento. As principais matrizes usadas pelo BLAST são a BLOSUM ( Blocks Substitution Matrix, Henikoff e Henikoff, 1992) a qual não mede taxa de mutação e a PAM ( Percent or Point Accepted Mutation, Dayhoff et al., 1978; States et al., 1991), as quais serão detalhadas no item Problemas e armadilhas do BLAST na página 45. Escore bruto (S): é a soma dos escores individuais do MSP. Devida a diferença entre matrizes de escores, escores brutos não são sempre possíveis de serem comparados. Bit-escore (S ): São os escores brutos normalizados. Podem ser comparados entre si pois levam em consideração a escala da matriz de escores utilizada (λ) e a escala do tamanho do espaço de busca (K). O bit-escore é dado por: S ln K S = λ. ln 2 E-Value ( Expectation Value ): É a quantidade de diferentes alinhamentos com escore igual ou melhor ao encontrado que são esperados de se encontrar por acaso na base de dados. Quanto menor o E-Value, mais significativo é o escore. Dentre os escores que o BLAST apresenta, o E-Value é considerado o mais útil. O E-Value é calculado pela seguinte fórmula: E = mn2 S, onde n é o tamanho da seqüência de entrada, m é o tamanho do banco de dados (em número de símbolos) e S é o bitescore. Um segmento é uma subseqüência contígua de uma seqüência de nucleotídeos ou aminoácidos. A tarefa do BLAST é a identificação de todos os pares de segmentos de mesmo tamanho que sejam similares e que tenham escore acima de um limiar fornecido pelo usuário. Os pares encontrados são os HSPs. A figura 9 esquematiza o algoritmo usado pelo BLAST.

43 43 Figura 9: Algoritmo do BLAST O algoritmo do BLAST é um método de busca heurística. Dada uma seqüência de entrada ( Query ) de tamanho L, BLAST gera todas as sementes de tamanho W (padrão = 3 em blastp) que tenham escore (usando matriz de substituição) acima de T quando alinhadas com a seqüência de entrada. Acrescenta a essa lista sementes adicionais que são geradas a partir de substituições nas sementes originais e que também tenham escore acima de T. Isso resulta em aproximadamente 50 sementes para cada letra da seqüência de entrada. As sementes são então alinhadas com as seqüências no banco de dados até que identidades exatas sejam encontradas. Essas sementes são então estendidas em ambas direções desde que gerem alinhamentos com escore maior que o limiar S, ou menor que o E-Value indicado pelo usuário, gerando os HSP. Esses HSPs são reportados pelo BLAST, desde que não excedam a quantidade máxima de resultados que o usuário configurou para serem reportados. Fonte: sítio NCBI. O programa BLAST pode ser executado em diversos sítios. Um dos mais usados é o do NCBI (Centro Nacional de Informação Biotecnológica) que é encontrado no endereço Nele, são encontrados tutoriais, referências e respostas às perguntas mais freqüentes (FAQ). BLAST aceita como entrada tanto uma seqüência digitada como um arquivo com múltiplas seqüências a serem processadas. Esses arquivos devem ter o formato FASTA (vide Arquivos no formato FASTA na página 45). A família de programas BLAST-NCBI inclui diversos programas que são utilizados de acordo com a natureza da seqüência de entrada e com o tipo de banco de dados. Estes programas estão listados na tabela 2.

44 44 Tabela 2: Família de programas BLAST-NCBI Programa Seqüência de Tipo de seqüência entrada alvo Descrição blastp proteína proteína Compara uma requisição contento uma ou mais seqüências de aminoácidos contra um banco de dados de proteínas. blastn Compara uma requisição contento uma ou mais nucleotídeo nucleotídeo seqüências de nucleotídeos contra um banco de dados de nucleotídeos. blastx Tblastn Tblastx nucleotídeo traduzido proteína nucleotídeo traduzido proteína nucleotídeo traduzido nucleotídeo traduzido PSI-BLAST e RPS-BLAST Recebe uma requisição contento uma ou mais seqüências de nucleotídeos. Traduz essas seqüências para todos os possíveis quadros de leitura e compara contra um banco de dados de proteínas. Compara uma requisição contento uma ou mais seqüências de aminoácidos contra um banco de dados de nucleotídeos dinamicamente traduzido em todos os quadros de leitura. Recebe uma requisição contento uma ou mais seqüências de nucleotídeos. Compara os seis quadros traduzidos contra os seis quadros traduzidos de um banco de dados de nucleotídeos. PSI-BLAST ( Position Specific Iterative-BLAST ) refere-se a uma característica do BLAST versão 2.0 no qual um perfil ou matriz de escores de posições específicas (PSSM) é construído automaticamente a partir do alinhamento múltiplo dos melhores candidatos de uma busca inicial do BLAST. A matriz PSSM é gerada a partir do cálculo de posições específicas para cada posição no alinhamento. Posições altamente conservadas recebem escores altos enquanto que posições fracamente conservadas recebem escores perto de zero. O perfil é usado para realizar uma segunda, terceira, e assim por diante, busca no BLAST e os resultados de cada iteração são usados para refinar o perfil. Essa estratégia de busca iterativa resulta em crescente sensibilidade. RPS-BLAST (Reverse PSI-BLAST) procura uma seqüência de entrada contra um banco de dados de perfis ( profiles ) ou matriz de escores, produzindo uma saída semelhante ao BLAST. O seu nome vem do fato de seu mecanismo de busca ser oposto ao PSI-BLAST, buscando a similaridade entre uma seqüência e um banco pré-computado de perfis ( profiles ), que no caso são confeccionados a partir dos bancos PFAM, SMART e COG. Este novo banco de dados de perfis encontra-se no NCBI e é denominado de CDD ( Conserved Domain Database ; Marcher-Bauer et al., 2002).

45 Arquivos no formato FASTA Esses arquivos são arquivos texto contendo uma ou mais seqüências biológicas (aminoácidos ou nucleotídeos). A primeira linha, chamada de cabeçalho ( header ), contém a descrição da seqüência e deve começar pelo caractere >. A linha seguinte contém os elementos da própria seqüência (ou nucleotídeos ou aminoácidos). Um arquivo no formato FASTA pode ter uma ou mais seqüências gravadas. A figura 10 apresenta um exemplo de arquivo FASTA contendo duas seqüências de aminoácidos. Figura 10: Exemplo de arquivo no formato FASTA com 2 registros Problemas e armadilhas do BLAST A utilização do BLAST requer atenção, principalmente no que tange a interpretação dos resultados. Trabalhos recentes discutem os princípios, aplicações e armadilhas potenciais do BLAST. (Pertsemlidis e Fondon, 2001; Koski e Golding, 2001). Para entender os perigos do BLAST é preciso antes revisar os conceitos de identidade, similaridade e homologia (vide item Termos usados para comparar seqüências e estruturas de proteínas na página 29). Identidade de seqüência refere-se a ocorrência de exatamente o mesmo aminoácido ou nucleotídeo na mesma posição em seqüências alinhadas. Similaridade de seqüência leva em consideração as substituições que são conservativas. Dizendo que duas seqüências A e B têm homologia, estamos fazendo duas afirmações: não somente as duas seqüências se parecem, mas também todos seus ancestrais também se parecem, indicando um possível ancestral em comum. Embora a comparação de duas seqüências seja freqüentemente resumida como um percentual de homologia, esse uso está geralmente incorreto pois o valor indica identidade e/ou similaridade, e não necessariamente reflete uma relação evolucionária. Algoritmos de

46 46 comparação de seqüência como BLAST, FASTA não medem homologia de seqüência, mas sim a similaridade e identidade. Inferências de homologia devem ser feitas pelo usuário com a adição de conhecimentos biológicos (Pertsemlidis e Fondon, 2001). Na comparação de seqüências de aminoácidos deve-se levar em consideração qual matriz de substituição foi usada. Conforme visto em FASTA e BLAST na página 40, o BLAST permite o uso de dois tipos de matrizes: A BLOSUM e a PAM. Ambas são baseadas em conjuntos de alinhamentos de alta confiança de muitas proteínas homólogas e nas freqüências de todas as substituições dos aminoácidos. Porém, as matrizes são computadas usando métodos diferentes. A matriz PAM120 é mais adequada para seqüências altamente relacionadas, enquanto que a PAM250 é mais apropriada para seqüências com relacionamento mais distante (similaridade mais tênue). Da mesma forma, o número associado com as matrizes BLOSUM, por exemplo, BLOSUM62 e BLOSUM80, indicam os valores de ponto de corte para o percentual de identidade de seqüência que define os grupos ( clusters ). Pontos de corte baixos permitem mais seqüências diversas nos grupos, e as matrizes correspondentes são, portanto, mais apropriadas para examinar relacionamentos entre seqüências mais distantes. Para evitar as armadilhas do BLAST, deve-se (Pertsemlidis e Fondon, 2001): Prestar atenção às estatísticas: Embora a maioria das seqüências que compartilham significativa similaridade possam ser homólogas, muitas seqüências homólogas não compartilham similaridade significativa. Além disso, seqüências repetitivas violam certas hipóteses feitas na teoria estatística que está por trás do BLAST. Deve-se assegurar que os pareamentos ( matches ) não são simplesmente devido a composições de aminoácidos tendenciosas. Certas seqüências, como as regiões de baixa complexidade (seqüências repetitivas), podem apresentar similaridade significativa, mas não existe homologia significativa entre elas. Deve-se manter em

47 47 mente que similaridade espalhada ao longo da seqüência tem probabilidade maior de ser biologicamente significativa do que pequenos e exatos pareamentos. Evitar reportar escores brutos do BLAST em publicações. A importância e significado de escores brutos dependem de muitos fatores. É melhor mostrar o alinhamento em si. Conhecer a diferença entre sensibilidade e seletividade. Técnicas de busca de similaridade podem ser melhoradas ou pelo aumento da sensibilidade (a habilidade de um método de reconhecer seqüências com relacionamento distante) ou pelo aumento da seletividade, o que significa diminuir os escores de seqüências não relacionadas. Devido ao fato de existir muito mais seqüências não relacionadas em um banco de dados do que as relacionadas, mudanças que reduzem o escore das não relacionadas podem ter efeitos drásticos. Lembrar que os dados de seqüências incluem artefatos experimentais. Bancos de dados de seqüências podem incluir seqüências vetor e outros erros de seqüenciamento, incluindo contaminantes, seqüências quiméricas, e deslocamentos nos quadros de leitura devido a erros de inserções ou remoções. As estatísticas por trás dos resultados somente dizem a probabilidade relativa de se encontrar os alinhamentos e não garantem significado biológico. Portanto, deve-se realizar um estudo mais apurado das seqüências para confirmar os resultados do BLAST. Conforme mencionado, no resultado do BLAST, cada seqüência encontrada tem um escore e um valor chamado E-Value ( Expectation Value ). Cada alinhamento deve ser visto por um olho crítico humano antes de ser aceito como significativo. Por exemplo, HSPs cuja similaridade é baseada em trechos repetidos de aminoácidos (e.g. poli-glutaminas) têm similaridade com significado discutível entre a entrada e o alinhamento encontrado. Filtros

48 48 que mascaram regiões de baixa complexidade devem ser aplicados para diminuir parcialmente esse problema. Conforme a similaridade entre duas seqüências diminui (E-Value maior), o percentual de similaridade de função também diminui. Duas seqüências virtualmente idênticas tendem a ter valores de E-Value na ordem de ou menos. Observa-se também que até um valor de E-Value de 10-10, a probabilidade de duas seqüências terem a mesma função é razoavelmente alta, mas para valores de E-Value maiores que esse limite, a probabilidade começa a decair fortemente, especialmente em proteínas multi-domínios (Petsko e Ringe, 2003). O gráfico da figura 11 apresenta a relação entre similaridade de função contra valor de E-Value. Figura 11: Percentual de similaridade de função de acordo com o E-Value A curva preta representa proteínas com um domínio, enquanto que a curva cinza representa proteínas com multi-domínios (Adaptado de Petsko e Ringe, 2003). Um valor de E-Value maior que 1 indica que o alinhamento provavelmente ocorreu por sorte, e que a seqüência de entrada alinhou-se com uma seqüência no banco de dados com a qual não está relacionada. Valores de E-Value abaixo de 0,1 ou 0,05 são tipicamente tomados como representantes de significado biológico (Pertsemlidis e Fondon, 2001). Percebe-se aqui um certo desacordo entre esses dois autores quanto ao limiar a ser adotado para E-Value. Isso será investigado nessa dissertação.

49 HMMER HMMER é uma implementação de HMM ( Hidden Markov Models ) para análise de seqüências biológicas (Eddy, 1998). HMM são modelos estatísticos que capturam informações específicas da posição de quanto cada coluna do alinhamento é conservada e quais os resíduos contidos. O HMMER é, na verdade, um conjunto de programas, sendo que o hmmpfam é o programa que procura uma ou mais seqüências contra um banco de dados HMM, por exemplo, o PFAM (vide PFAM na página 26). O resultado é uma lista dos domínios encontrados com melhores escores e seus respectivos alinhamentos. É importante ressaltar que um domínio de uma proteína nos fornece uma funcionalidade da mesma. A função da proteína é o conjunto de todas as suas funcionalidades. Pode-se dizer que o HMMER é uma nova forma de se buscar similaridade de seqüências, principalmente em nível de domínios conhecidos (PFAM). Possui maior sensibilidade que o BLAST para encontrar similaridades mais distantes. Com os domínios, podemos inferir funcionalidades. O BLAST não identifica explicitamente os domínios, a não ser o RPS-BLAST Anotação Genômica A atenção da comunidade envolvida em seqüenciamento está agora focada na anotação genômica. A anotação genômica é um processo que consiste em adicionar análises e interpretações biológicas sobre as seqüências brutas de DNA. É composto de vários estágios, que via de regra, se encaixam em três níveis: nucleotídeos, proteínas e processos (Stein, 2001) Anotação em nível de nucleotídeos Essa anotação tem várias sub etapas: Procura de marcos no genoma: encontrar marcos no genoma é uma atividade relativamente fácil. Seqüências pequenas, como marcadores genéticos baseados em

50 50 PCR ( Polymerase Chain Reaction ), podem ser identificadas rapidamente usando o programa e-pcr (Schuler, 1997). Seqüências mais longas, como RFLP ( Restriction Fragment Length Polymorphism Markers ) podem ser encontradas usando BLAST, ou outro algoritmo de busca de similaridade de seqüência. Procura de genes: É a parte mais visível dessa fase. Em genomas pequenos de eucariontes, a procura de genes é uma questão de identificar as ORFs (Open Reading Frames). Mesmo nesse caso, entretanto, surgem ambigüidades se ORFs grandes sobrepõem-se à fita oposta e a verdadeira região codante deve ser separada. Assim que os genomas se tornam maiores, a procura por genes se torna mais complicada, ainda mais se levarmos em consideração a presença de splicing alternativo. Definir as posições exatas de início e fim de um gene e os padrões de splicing de seus exons entre todas as seqüências não codantes é como encontrar uma pequena agulha em um grande palheiro. Muitos programas sofisticados, apesar de não serem perfeitos, foram projetados para tratar predição de genes em eucariontes, incluindo GENSCAN (Burge e Karlin, 1997) e Genie (Reese et al., 2000) entre outros. O GENSCAN é provavelmente o mais usado e conhecido. Ele utiliza HMMs para predizer a presença de um gene dada à seqüência de DNA bruta. Genie foi usado para anotar genes da Drosophila melanogaster. A versão eletrônica foi também treinada para seqüências humanas. Busca por RNA não codante e regiões regulatórias: trnas, rrnas, pequenos RNA. rrnas podem ser facilmente encontrados por busca de similaridade, mas os outros são mais difíceis, devido a seu pequeno comprimento e diversidade de nucleotídeos. O trnascan (Lowe e Eddy, 1997) possui uma boa acuidade para a identificação de genes de trna. trnascan-se identifica % de genes trna em seqüências de DNA e têm taxa de erro de menos de um falso positivo a cada 15 gigabases.

51 51 Identificação de elementos repetitivos: Elementos repetitivos são uma importante característica de genomas em geral, e na verdade, representam grande proporção na variação do tamanho dos genomas. No genoma humano, o maior genoma até agora seqüenciado, 44% dos nucleotídeos são elementos repetitivos (IHGSC, 2001). Esses elementos são derivados de elementos transponíveis ativos ( transposons ) e são freqüentemente rejeitados como DNA lixo. A identificação e mapeamento desses elementos na verdade começa antes de qualquer outra atividade de anotação, por causa da necessidade de identificar e excluir regiões repetitivas durante o processo de montagem do genoma. Elementos repetitivos conhecidos são mascarados da seqüência usando, por exemplo, o programa RepeatMasker (Smith A.F.A. e Green P., não publicado). Mapeamento de duplicações de segmento: A identificação de duplicações de segmento é distinta da identificação de elementos repetitivos. Mais de 60% das ORFs preditas da Arabidopsis coincidiam com um parálogo em algum outro lugar do genoma. Mapeamento de variações: a última principal atividade é a identificação e mapeamento de polimorfismos. SNPs ( Single Nucleotide Polymorphism ) tornaram-se ferramentas valiosas para mapeamento genético, estudos de genética de populações e diagnósticos clínicos. A princípio, é fácil identificar SNPs simplesmente alinhando as seqüências genômicas de dois ou mais indivíduos e encontrando posições onde a seqüência de um diverge dos outros. Na prática, algoritmos de busca de SNPs devem distinguir variações biológicas das variações devidas a erros de seqüenciamento.

52 Anotação em nível de proteínas Esse estágio da anotação genômica busca compilar um catálogo definitivo das proteínas dos organismos, nomeá-las e atribuir uma função putativa. H. influenzae tem genes. S. cerevisae, D. melanogaster, C. elegans, A. thaliana têm respectivamente 5.600, , e , aproximadamente. Os humanos têm mais de genes. Desse conjunto de genes, somente uma pequena fração corresponde a proteínas conhecidas e bem caracterizadas (Stein, 2001). Por exemplo, no caso da planta modelo, a Arabidopsis thaliana, cujo genoma foi recentemente finalizado (The Arabidopsis Genome Initiative, 2000), apenas 10% de aproximadamente genes foram analisados experimentalmente (Breyne e Zabeau, 2001). Em alguns casos, a função de uma proteína pode ser inferida pela sua seqüência. Se uma proteína tem mais de 40% de identidade de seqüência com outra proteína cuja função é conhecida, e se os resíduos funcionais importantes (por exemplo, aqueles no sítio ativo de uma enzima) estão conservados entre as duas seqüências, é muito razoável assumir que as duas proteínas têm uma função bioquímica comum (Petsko e Ringe, 2003). A figura 12 mostra a relação entre similaridade de seqüência e função. A regra dos 40% funciona porque proteínas que estão relacionadas por descendência e têm a mesma função em diferentes organismos ainda têm provavelmente similaridade de seqüência significativa, especialmente em regiões críticas para a função. Entretanto, comparação de seqüência não será capaz de detectar proteínas de estrutura e função bioquímica idênticas de organismos muito remotos na árvore evolucionária pois a identidade de seqüência não se manteve. Mais ainda, identidade de função bioquímica não necessariamente significa que a função celular ou outras de alto nível serão similares. Tais funções são expressas em um contexto celular particular e muitas proteínas, como hormônios, fatores de crescimento e citocininas, têm múltiplas funções no mesmo organismo.

53 53 Figura 12: Relação entre similaridade de seqüência e similaridade de função. A curva com marcas quadradas (de cima) corresponde a enzimas e a curva com marcas redondas corresponde a não-enzimas. A área cinza escuro representa proteínas cujo dobramento e função pode ser predita com confiabilidade a partir da comparação de seqüência. A área cinza claro representa proteínas cujo dobramento pode ser predito com confiança, mas a função precisa não pode. A área branca representa proteínas as quais nem o dobramento nem a função podem ser preditos com segurança a partir da seqüência. Note que abaixo de 40% de identidade, a probabilidade de fazer uma designação incorreta da função cresce drasticamente. Adaptado de uma análise de Mark Gerstein ( show/index_2). Comparação de seqüências é uma área de pesquisa muito ativa porque é atualmente a técnica mais utilizada quando uma nova seqüência protéica é analisada. A figura 13 mostra uma análise das funções de todas as seqüências codantes, conhecidas ou putativas, do genoma da levedura. Algumas dessas funções foram estabelecidas experimentalmente. Mas, uma grande proporção é inferida somente por similaridade de seqüência contra proteínas conhecidas (rotuladas como homólogas na figura) ou pela presença de motivos funcionais conhecidos. Os restantes 32% são desconhecidos. Distribuições similares são observadas em muitos outros organismos simples. Em organismos mais complexos, a proporção de proteínas com função desconhecida aumenta drasticamente. Esforços atuais estão focados em maneiras de identificar proteínas de estrutura ou função similares quando o nível de identidade de seqüência é significativamente abaixo do limiar de 40%. Identificação de similaridade de estrutura é mais fácil e mais robusta do que a identificação de similaridade funcional.

54 54 proteínas de função conhecida 30% proteínas de função desconhecid a 26% sem homólogos no banco de dados homólogas a 6% proteínas de função conhecida 16% homologia por motivos (motifs) 22% Figura 13: Análise das funções de seqüências codantes do genoma da levedura. Algumas proteínas são conhecidas experimentalmente, algumas são presumidas através de comparação de seqüência com proteínas de função conhecida em outros organismos, e algumas são deduzidas de motivos que são característicos de uma função em particular. Algumas das funções presumidas podem não estar corretas, e um grande percentual das seqüências codantes não podem, no momento, ter suas funções determinadas por nenhum método. Diante da grande quantidade de proteínas de função desconhecida, anotadores geralmente começam por classificá-las em grupos ou famílias de proteínas e, também, usam similaridade com proteínas melhor caracterizadas em outras espécies. Esse processo parece mais simples do que é na prática. O problema intrínseco vem da natureza do processo evolutivo. Durante a evolução de uma família de proteínas, um ancestral comum é duplicado uma ou mais vezes e as cópias divergem, formando uma família de proteínas relacionadas conhecidas como parálogas. Entretanto, similaridade de função não significa necessariamente que elas compartilham um ancestral comum. Existem muitos casos de duas proteínas membros de uma mesma família que têm funções marcadamente divergentes. Por exemplo, as proteínas denominadas cristalinas, que fazem parte do arcabouço estrutural do cristalino, são derivadas de uma família de proteínas que normalmente funcionam como enzimas e chaperones. A comparação de proteínas entre espécies é uma rica fonte de anotação funcional. Por exemplo, se uma proteína de levedura bem caracterizada está sabidamente envolvida na

55 55 iniciação da replicação do DNA, então provavelmente uma proteína predita do genoma humano que seja suficientemente similar à proteína da levedura terá a mesma função. O grande problema é a definição objetiva de critérios para se mensurar o nível de similaridade necessária para se estabelecer este tipo de hipótese. A natureza da evolução das proteínas pode armar uma emboscada ao anotador desprevenido. O gene humano pode ter descendido de um ancestral comum do gene da levedura, nesse caso, sendo chamado de ortólogo, ou ele pode ter descendido de uma cópia duplicada ou divergida do gene, sendo nesse caso um parálogo. Nesse caso, seria um erro assumir que o gene humano e da levedura têm a mesma função. Embora várias técnicas tenham sido desenvolvidas para identificar e agrupar proteínas ortólogas de uma maneira automática, por exemplo, o banco COG (Tatusov et al., 2003), muitas proteínas preditas escapam a essa identificação. (Para uma explicação sobre homologia vide o item Termos usados para comparar seqüências e estruturas de proteínas na página 29). Na prática, o que é tipicamente feito atualmente é classificar as proteínas preditas com base em domínios funcionais, em adição a similaridade direta com proteínas melhor caracterizadas. Uma estratégia típica para anotação de proteínas procuraria por similaridades usando as ferramentas BLAST ou PSI-BLAST (vide Ferramentas de bioinformática para busca em banco de dados na página 40) contra diversos bancos de seqüências de proteínas diferentes. Dentre os bancos de dados de proteínas mais usados estão o Swiss-Prot e o TrEmbl (vide Swiss-Prot e TrEmbl na página 22). Uma abordagem complementar seria procurar contra bancos de dados de domínios funcionais. Entre os mais usados, está o PFAM (vide PFAM na página 26) cuja ferramenta de busca é o software HMMER (vide HMMER na página 49). Outros bancos de dados comumente usados são: PRINTS (Attwood, et al., 2000), um compêndio de pequenos motivos de proteínas que captura domínios comuns de proteínas; PROSITE (Hulo et al., 2004), um banco de dados de assinaturas de proteínas longas,

56 56 conhecidas como perfis; ProDom (Corpet et al., 1999), uma coleção de domínios de proteínas derivados dos procedimentos de PSI-BLAST; o SMART, coleção de domínios de proteínas curadas (Ponting et al., 1999) e o BLOCKS (Henikoff et al., 2000), um banco de dados de regiões de proteínas conservadas e seus múltiplos alinhamentos. Os vários bancos de dados de famílias, domínios e motivos de proteínas são altamente sobrepostos, mas diferem em sua nomenclatura, seus métodos de busca e sua conveniência para diversas tarefas. Isso torna difícil a interpretação dos resultados quando uma proteína predita coincide com entradas de diversos bancos de dados. Ainda falta muito para termos uma informação confiável, comprovada experimentalmente da função de proteínas preditas. A anotação genômica é justamente um processo no qual tenta-se agregar valor às seqüências depositadas nos bancos de dados. Cabe ressaltar, nesse momento, que a abordagem original e talvez ideal para se obter a função de uma proteína, seja a obtenção de sua estrutura tridimensional a partir de sua seqüência. O problema dessa abordagem é que a obtenção da estrutura 3D a partir da seqüência é muito complexa e atualmente não existe método 100% eficaz. Dentro desse contexto, a anotação funcional por similaridade de seqüência nos ajuda a esclarecer a função de uma proteína sem precisarmos obter a sua estrutura 3D Anotação em nível de processo A última e, de certa forma, mais desafiante parte da anotação genômica é relacionar o genoma aos processos biológicos. Como os genes e proteínas estão relacionados com o ciclo celular, a morte celular, embriogênese, metabolismo e a manutenção da saúde e doenças? A publicação de cada novo genoma é inevitavelmente acompanhada por uma tabela mostrando a distribuição das proteínas classificadas por função, por exemplo, metabolismo e citoesqueleto. Até recentemente, o que tinha faltado nessas análises era um esquema de classificação comumente aceito que combinasse a tolerância requerida para descrever funções biológicas entre espécies diversas com a especificidade e profundidade necessária para distinguir uma

57 57 proteína particular de outros membros de sua família. A falta desse esquema dificultou a capacidade de relacionar genes que eram anotados por diferentes grupos de pesquisa, particularmente quando se cruza barreira de espécies. Um avanço nesse problema ocorreu com a criação do consórcio Gene Ontology (GO) (vide Ontologia à pagina 60). Na verdade, pensando em um estágio mais avançado, pesquisa convencional de bancada e anotação genômica começam a convergir. Cada experimento adiciona um item de informação para nosso conhecimento de biologia, e isso, por sua vez, aumenta nosso entendimento do genoma através dos genes e proteínas que são tocadas. Anotação genômica não é diferente em muitos aspectos da biologia molecular. Ela também envolve formulação de hipóteses, testes, refinamentos e publicações. Existe, claro, diferenças óbvias. Enquanto os resultados experimentais da pesquisa convencional cabem facilmente no tamanho e formato de uma publicação impressa, os estudos de anotação genômica são mais apropriados para publicação em banco de dados acessíveis computacionalmente (Stein, 2001) Reanotação genômica Reanotação é o processo de anotar novamente um genoma já anotado. Uma vez que um projeto de seqüenciamento de um genoma é disponibilizado no domínio público, reavaliar a anotação original é uma prática comum para alguns grupos de pesquisadores. As motivações para isso incluem, entre outros, o aumento da quantidade de seqüências nos bancos de dados, a descoberta experimental da função de novos genes e o uso de algoritmos de anotação mais eficientes. Na reanotação, também podem ser feitos testes e comparações de desempenho dos métodos de anotação, novos ou já existentes, e a avaliação da reprodutibilidade da anotação. A reanotação é importante principalmente nos casos onde a anotação original foi baseada em similaridade de seqüência tênue ou quando a própria anotação no banco de dados era incerta (Ouzounis e Karp, 2002). Vários organismos já sofreram reanotação e um fato interessante e encorajador desses estudos é que o nível de incremento na qualidade da reanotação é de 7%

58 58 em média. Esse número é calculado a partir da quantidade de novas funções atribuídas aos genes sobre o total de genes no genoma. Entretanto, não é certo se essa melhoria se deve a uma identificação mais precisa da função de um gene ou proteína que tenha escapado a primeira anotação. Além disso, o melhoramento sobre anotações prévias falso-negativas ou sub-preditas pode transformá-las em falso-positivas ou super-preditas. Sempre existe pressão para obtenção de um resultado melhor quando da reanotação de um genoma. Esse pode ser facilmente obtido enfraquecendo o critério para predição de função, por exemplo, usando um limiar mais fraco nas comparações de similaridade de seqüência. Por isso, o real desafio é obter e implementar padrões objetivos para qualidade de anotação genômica Erros e limitações em anotação funcional de proteínas A anotação funcional em bancos de dados de proteínas é quase sempre obtida por inferência através de similaridade com seqüências depositadas em repositórios globais. Dado um grau de similaridade suficiente, geralmente assume-se que a funcionalidade da nova proteína deve ser a mesma que seus melhores vizinhos resultantes da busca por similaridade. Porém, a anotação funcional dessas proteínas homólogas pode, ela mesma, ter sido adquirida através de similaridade de seqüência com outras proteínas, e, geralmente, não é possível determinar como a anotação funcional de uma dada proteína foi adquirida. Assim, existe a possibilidade ocorrer cadeias de anotações erradas, um processo conhecido por Error Percolation (Gilks et al., 2002). Esses erros se tornam mais visíveis quando comparações de anotação genômica do mesmo organismo são feitas por pesquisadores diferentes ou quando são feitas em momentos diferentes (reanotação). Muitos trabalhos descrevem esses problemas; por exemplo, uma comparação entre três anotações funcionais dos genes da Mycoplasma genitalium mostrou uma taxa de erro mínima de 8% entre elas (Brenner, 1999). Outro trabalho encontrou novas ORFs codificando proteínas com funções críticas em patogenicidade e transferência

59 59 conjugativa de cepas da Xylella fastidiosa. Além disso, genes únicos presentes em cada cepa foram identificados, em adição aos compartilhados entre cepas (Bhattacharyya et al., 2000). Novas ORFs do genoma da Saccharomyces cerevisiae e outras 100 ORFs antes consideradas genes hipotéticos são agora considerados autênticos (Brachat et al., 2003). A anotação do genoma da Helicobacter pylori foi revisada e o percentual de proteínas hipotéticas foi reduzido na ordem de 33-40% (Boneca et al., 2003). Vinte e seis genomas completos de procariontes foram analisados com um programa automático e foi encontrado que uma pequena, mas não desprezível, quantidade de anotações está parcialmente não curada ou totalmente errada (Bocs et al., 2002). Apenas quatro semanas depois da publicação do primeiro genoma completo da Haemophilus influenzae (Fleishmann et al., 1995), uma revisão da anotação com 148 correções foi publicada por diferentes autores (Tamames et al., 1999). Correções semelhantes foram publicadas para outros genomas, em muitos casos, seguidas por uma sucessão de discordâncias sobre a função atribuída (Ouzounis et al., 1996; Koonin et al., 1997; Kyrpides e Ouzounis, 1999; Mushegian, 2000). A anotação do genoma humano pode também conter muitos erros, porque somente os resultados de ferramentas padrões de predição estão disponíveis. Possíveis fontes de erros incluem: a anotação do melhor hit não foi reproduzida criticamente ou somente o melhor hit foi levando em consideração (vide item FASTA e BLAST na página 40); regiões de baixa complexidade, tipicamente correspondentes a domínios não globulares, não foram adequadamente mascarados (Galperin e Koonin, 1998). Todos os trabalhos citados previamente, com exceção de (Brenner, 1999), estão baseados na intervenção de especialistas humanos. Em outro trabalho (Devos e Valencia, 2001), é usada uma abordagem diferente, baseada na extrapolação de duas simples observações. Essa abordagem é independente de qualquer propensão humana que poderia ser introduzido durante a análise das seqüências. Foi feito um cálculo simples para estimar a

60 60 magnitude de qualquer erro possível de anotação. A conclusão é de que o número de erros potenciais na predição de funções detalhadas é mais alto do que usualmente acreditado. A primeira observação é de que a maioria das anotações funcionais em genomas completos é baseada em identidades relativamente fracas e em muitos casos em alinhamentos parciais. A segunda observação é a considerável quantidade de discrepâncias entre anotações de função de proteínas similares Ontologia Na maior parte dos casos, a anotação é escrita em uma linguagem científica natural na forma de texto. Isso é apropriado para humanos, mas não é particularmente útil para computadores. Muitas vezes, os biólogos perdem tempo e esforço procurando por informações de pequenas áreas de pesquisa. Isso é devido a grande variação de terminologia que dificulta a procura por computadores e pessoas. Por exemplo, se estivermos procurando por antibióticos, gostaríamos de obter todos os produtos gênicos que estão envolvidos na síntese de proteínas bacterianas. Mas, se um banco de dados descreve essas moléculas como sendo envolvidas em tradução, enquanto outro usa a expressão síntese de proteína, será muito difícil, e mais ainda para um computador, encontrar termos funcionais equivalentes. Ontologia é um mecanismo para extrair uma visão de uma comunidade sobre um domínio de uma forma compartilhada, que seja acessível tanto a humanos e processável computacionalmente. Uma ontologia provê um conjunto de termos de vocabulário que rotulam conceitos nesse domínio. Esses termos devem ter definições e devem se encaixar dentro de uma estrutura de relacionamentos. Os tipos mais importantes de relacionamentos são: é um que existe entre pai e filho e é parte de, que acontece entre parte e o todo (Winston et al., 1987). Ontologias oferecem um mecanismo pelo qual o conhecimento pode ser representado numa forma capaz de ser processada por máquinas. O Consórcio Gene Ontology (GO)

61 61 ( The Gene Ontology Consortium, 2001) é um esforço colaborativo para resolver a necessidade de descrições consistentes para produtos de genes em diferentes bancos de dados, consistindo de um vocabulário padrão para descrever a função de genes. No GO, foram desenvolvidas três classes estruturadas e controladas de vocabulários descritas a seguir: Função molecular: Palavras que descrevem as tarefas realizadas por produtos gênicos individuais, como por exemplo, suas atividades enzimáticas, catalíticas ou de ligação ao nível molecular. Representa atividades, e não a entidade (moléculas ou complexos), que efetuam as ações. Não especifica onde, quando, ou em que contexto a ação acontece. Processos celulares/biológicos: Palavras que são usadas com objetivos biológicos mais amplos, como a meiose, crescimento e manutenção celular ou transdução de sinal. Exemplos de termos mais específicos são: metabolismo de pirimidinas ou transporte de carboidratos. Pode ser difícil distinguir entre um processo biológico e uma função molecular, mas a regra geral é que um processo deve ter mais de um passo distinto. Um processo biológico não é equivalente a uma via metabólica. GO não captura ou tenta representar qualquer uma das dinâmicas ou dependências que seriam necessárias para descrever uma via metabólica. Componentes celulares: Palavras que descrevem genes em termos das estruturas sub celulares onde eles estão localizados, como organelas, bem como os complexos macromoleculares aos quais eles pertencem, como o ribossomo. A elegância do GO é que ele é organizado como uma hierarquia de termos, mais precisamente como uma grafo acíclico direto, que permite que um termo apareça em vários lugares na hierarquia. Termos mais gerais, como "enzima" conduzem para termos mais específicos, como "liase", "carbono-oxigênio liase", "hidro-liase" e "treonina desidratase". Essa flexibilidade permite que os genes sejam anotados em qualquer que seja o nível de especificidade que o entendimento atual da biologia nos permite. Uma proteína que é

62 62 claramente uma ortóloga de uma "treonine desidratase" em outra espécie pode ser anotada com o termo mais específico, ao passo que outra proteína que pertence claramente à família liase, mas a atividade enzimática não foi confirmada, pode ser rotulada com um dos termos mais genéricos. Esse desenho também permite ao GO tornar-se cada vez mais denso na medida que termos mais especializados são adicionados à hierarquia existente (Stein, 2001). Um produto gênico pode ter uma ou mais funções moleculares e pode ser usado em um ou mais processos biológicos. Ele pode estar associado com um ou mais componentes celulares. Por exemplo, o produto gênico citocromo c pode ser descrito pelo termo de função molecular atividade de transporte de elétrons, pelo termo de processo biológico fosforilação oxidativa e indução à morte celular e pelos termos de componente celular matriz mitocondrial e membrana interna mitocondrial ( GO não é um banco de dados de seqüência de genes, nem um catálogo de produtos de genes. Pelo contrário, GO descreve como produtos de genes se comportam no contexto celular. GO não é uma maneira de unificar bancos de dados biológicos. Compartilhar vocabulário é um passo em direção a unificação, mas não é, por si só, suficiente, pelas seguintes razões ( O conhecimento muda constantemente e as atualizações do vocabulário nem sempre acompanham o mesmo ritmo. Anotadores avaliam dados diferentemente. Ao passo que possamos concordar em usar a palavra quinase, devemos também concordar em suportar isso especificando como e porque usamos quinase e usar consistentemente. Somente dessa maneira esperamos poder comparar produtos de genes e determinar se estão relacionados. GO não pretende descrever todos aspectos da biologia. Por exemplo, estruturas de domínios, estruturas 3D, evolução e expressão não são descritas por GO.

63 Produtos gênicos É fácil confundir um produto gênico e sua função molecular, porque freqüentemente eles são descritos usando exatamente as mesmas palavras. Por exemplo, álcool desidrogenase pode descrever o que é colocado em um tubo de ensaio (o produto gênico) ou pode descrever a função. Existe, entretanto, uma diferença formal: um produto gênico único pode ter várias funções moleculares e muitos produtos gênicos podem compartilhar uma única função molecular. Por exemplo, existem muitos produtos gênicos que possuem a função álcool desidrogenase. Alguns, mas não todos desses, são codificados por genes com o nome álcool desidrogenase. Um produto gênico particular pode ter ambas as funções álcool desidrogenase e acetaldeídeo dismutase e talvez outras ainda. É importante compreender que toda vez que GO usa termos como atividade do álcool desidrogenase, está se referindo a função, não a entidade. Por essa razão, a maioria dos termos de função molecular do GO inclui a palavra atividade. Muitos produtos gênicos se associam em entidades que funcionam como complexos, ou grupos de produtos gênicos, que muitas vezes incluem moléculas pequenas. Elas variam em complexidade de menor grau (por exemplo, a hemoglobina contém produtos gênicos alfa-globina e beta-globina e a pequena molécula heme) até complexidade de maior grau como o ribossomo que é uma junção de numerosos produtos gênicos diferentes. Atualmente, pequenas moléculas não estão representadas no GO Nomenclatura de enzimas A nomenclatura de enzimas ("Enzyme Nomenclature", /iubmb/enzyme/) é uma forma de ontologia na qual existe uma classificação hierárquica relativamente rígida para enzimas. Se pensarmos em programas computacionais, somente essa iniciativa já assegura um melhor processamento automático de comparação de função de enzimas. A nomenclatura de enzimas está definida pelo ( International Union of Biochemistry and Molecular Biology, 2002) e é codificada na forma de um número conhecido como EC number ( Enzyme Commission number ) para cada tipo de enzima.

64 64 Os quatro dígitos do EC descrevem a atividade enzimática, variando do geral ao específico. O primeiro dígito EC define a classe da enzima: 1-oxidoreductases, 2-transferase, 3-hidrolase, 4- liases, 5-isomerase e 6-sintetases. O significado dos dígitos subseqüentes depende da classe da enzima e provê informações do substrato aceptor e cofatores. O último dígito indica a especificidade de substrato, mecanismo molecular ou o tipo de ligação química. Por exemplo, o último dígito diferencia a β-glucosidase (EC ) da β-galactosidase (EC ). As duas enzimas são hidrolases (EC ), glicosilases (EC ) e atuam em combinações O- glicosil (EC ), mas se ligam a diferentes substratos de açúcar A família Chlamydiae Como veremos adiante, os experimentos desse trabalho usaram amplamente dados do genoma da bactéria Chlamydia trachomatis, principalmente dados relacionados a reanotação manual de suas ORFs. Por essa razão, a seguir, é feito um apanhado geral da família Chlamydiae, pertencentes à ordem das Chlamydiales. Chlamydia são eubactérias pertencentes à ordem Chlamydiales melhor conhecidas pelas doenças que causam em humanos. Essas bactérias intracelulares também compreendem muitas espécies responsáveis por uma ampla variedade de doenças com importância clínica e econômica em animais domésticos. A classificação taxonômica inicial agrupava a maioria dessas espécies como Chlamydia psittaci pois não existiam métodos sistemáticos para distinguí-las. Atualmente, existem métodos baseados em DNA que tornam possível distinguir diferentes famílias, gêneros e espécies. Muitas Chlamydiales coexistem em um estado assintomático em vertebrados ou amebas, e acredita-se que esses hospedeiros provêm um reservatório natural para essas espécies (Everett, 2000). A partir de testes baseados em DNA, foi possível montar a árvore filogenética apresentada na figura 14.

65 65 Figura 14: Relacionamentos evolucionários nas Chlamydiales. Análise do gene 16S rrna (Everett, 2000) (Crédito: Robin M. Bush, University of California at Irvine) Chlamydia trachomatis O genoma da Chlamydia trachomatis foi elucidado em 1998 (Stephens et al., 1998) e consiste de de pares de bases no cromossomo e um plasmídeo com pares de bases. Análises do genoma resultaram na identificação de 893 prováveis genes que codificam proteínas. Buscas por similaridade permitiram a designação da função inferida de 604 (68%) das proteínas codificadas e 35 (4%) se mostraram similares a proteínas hipotéticas de outras bactérias depositadas em banco de dados. As restantes 254 (28%) proteínas preditas não apresentaram similaridade com outras seqüências depositadas no GenBank. O agrupamento por similaridade de seqüência mostrou que 256 proteínas clamidiais (29%) pertencem a 58 famílias de genes similares dentro do genoma (parálogas). Uma fração similar pertence a famílias de outras bactérias com genomas relativamente menores tais como mycoplasmas e Haemophilus influenzae. O genoma da C. trachomatis contém características marcantes que suportam sua classificação filogenética atípica, sugerindo um papel para transferência horizontal de genes de bactérias ancestrais assim como de hospedeiros eucariontes da chlamydiae. Análises filogenéticas de uma quantidade de genes housekeeping tais como

66 66 subunidades DNA e RNA polimerase, fatores de tradução e outros dão sustentação à posição da Chlamydia como uma linhagem de bactérias distinta, sem afinidades claras com outras famílias (Stephens et al., 1998). As Chlamydiae patogênicas possuem um sistema de secreção tipo III (TTSS), o qual é considerado essencial na sua virulência pois é usado como uma espécie de seringa molecular para introduzir proteínas efetoras em células eucariontes. Existe uma chlamydia, a Acanthamoeba sp. (UEW25) que é um endosibionte em amebas. Ela também possui TTSS. Baseado na filogenia do TTSS, foi montada a árvore da figura 15, a qual mostra o relacionamento da Chlamydia com outros organismos (Horn et al., 2004). Figura 15: Filogenia baseada no TTSS Essa árvore mostra a relação filogenética das Chlamydiae com outras bactérias (Horn et al., 2004). TTSS significa sistema de secreção tipo III Anotação manual da Chlamydia trachomatis A bactéria C. trachomatis possui um trabalho (Iliopoulos et al., 2003) no qual foi feita uma reanotação manual completa de todo seu genoma. Esse trabalho é crucial para o entendimento dessa dissertação pois seus dados foram usados na maioria dos experimentos da mesma. Essa anotação manual foi feita por especialistas distribuídos entre nove laboratórios. Os resultados foram validados entre todos os participantes e foram repetidos ao menos três

67 67 vezes por pessoas diferentes, usando PSI-BLAST (Altschul et al., 1997) e outras ferramentas. O banco de dados usado foi o nrdb (non-redundant database) do EBI de 29 de janeiro de Nesse mesmo trabalho, também foi feita outra reanotação do mesmo organismo, dessa vez, usando um sistema de anotação automático, o GeneQuiz (Andrade et al., 1999), o qual tenta reproduzir as etapas manuais envolvidas na anotação genômica. As anotações manual e automática das 893 ORFs foram comparadas com a anotação original (feita pelo grupo que originalmente depositou as seqüências no banco de dados). Para cada comparação, foi usada uma tabela de escores no qual os erros de anotação mais graves foram mais penalizados que os menos graves. Essa tabela compreende 7 possíveis escores. O mais grave (escore 7) é um resultado falso positivo, onde a descrição da proteína está errada. O erro menos grave é um erro tipográfico onde, por exemplo, a anotação contém a palavra shikimate 5-dehyrogenase ao invés de shikimate 5-dehydrogenase. Ao final, é feita uma comparação entre a anotação original, a anotação feita pelo GeneQuiz e a anotação manual (chamada de anotação final ). Entre a anotação original e a final, houve 565 (63%) de coincidência de anotação (escore 0). Os demais casos tiveram escore acima de 0. Entre a anotação do Genequiz e a final, a coincidência de anotação ficou em 598 casos (67%). Uma das conclusões a que chegam os autores é de que a performance da anotação automática é comparável com a anotação original e de que os sistemas automáticos sofrem mais com descrições erradas no banco de dados do que com detecções falso-positivas de homologias.

68 68 2. Objetivos do trabalho A anotação genômica tem como principal processo a comparação com seqüências depositadas em bancos de dados. Sabemos, entretanto, que os bancos de dados são atualizados constantemente e têm crescimento exponencial. Em decorrência disso, a anotação genômica também torna-se um processo dinâmico. A grande maioria dos trabalhos nessa área não leva em consideração esse fato. Sendo assim, o objetivo principal desse trabalho consiste em fazer uma análise do aspecto temporal da anotação genômica, ou seja, avaliar a evolução da precisão da anotação genômica levando-se em consideração fatores como o tamanho e a qualidade dos bancos de dados usados. O BLAST (vide FASTA e BLAST na página 40) é uma ferramenta fundamental na anotação genômica. Entretanto, o uso do BLAST requer alguns cuidados por parte do usuário. Para cada alinhamento encontrado pelo BLAST, existem diversos parâmetros, como escore, bit-escore, percentual de identidade, percentual de similaridade, E-Value e outros. Embora a maioria dos usuários do BLAST use o E-Value como parâmetro, não existe consenso quanto ao limiar, ou valor mínimo, para aceitar-se um alinhamento obtido pelo BLAST. Sendo assim, outro objetivo do trabalho é analisar as diferenças entre esses parâmetros e verificar se existe algum limiar ideal a ser usado. Adicionalmente, procedemos a reanotação automática do genoma da C. trachomatis com bancos de dados atualizados para realizar inferências de como o processo de anotação automática se comporta, visto que podemos compará-la com a anotação automática original (1999) e com uma anotação curada por especialistas humanos (anotação final).

69 69 3. Métodos Nesse capítulo, são descritos apenas os métodos mais extensos utilizados para gerar os resultados. Métodos mais simples foram incluídos no próprio texto do capítulo que descreve os resultados. Podemos dividir os métodos em duas partes: métodos para avaliação temporal da anotação genômica e métodos para avaliação estática. Os resultados também estão divididos dessa forma. Em comum às duas partes está o uso dos dados da bactéria Chlamydia trachomatis, que conforme veremos, foi utilizada como referência para as comparações, pois as suas ORFs têm anotação final e confiável (vide Anotação manual da Chlamydia trachomatis na página Obtenção dos dados da Chlamydia trachomatis A anotação manual da C. trachomatis, chamada de anotação final e a seqüências dos aminoácidos de suas 893 ORFs foram obtidos dos arquivos ctgatos.txt e CTpep os quais estão localizados em conforme indicado em (Iliopoulos et al., 2003). Após um pré-processamento desses arquivos, foram encontradas 580 ORFs com anotação preenchida e 313 sem anotação qualquer Métodos para obtenção dos dados para a análise temporal da anotação genômica A geração dos resultados para a análise temporal da anotação genômica foi feita através de 8 execuções do BLAST usando como entrada cada uma das 893 ORFs da C. trachomatis. A cada execução foi usada uma versão antiga do banco de dados de proteínas do Swiss-Prot. A escolha do banco de dados Swiss-Prot deveu-se em função de ser em banco curado. Além disso, o banco de dados de proteínas "nr" do NCBI (vide

70 70 NR (Banco de dados não-redundante de proteínas) do NCBI na página 26) não pôde ser usado pois não são mantidas, ou pelo menos disponibilizadas ao público, versões antigas desse banco de dados. De cada versão antiga do banco de dados, foram removidas as seqüências de eucariontes e da própria C. trachomatis, a fim de evitar que os "hits" fossem cíclicos ou redundantes. A cada execução do BLAST, o melhor hit foi comparado com a anotação final da ORF. A figura 16 ilustra esse procedimento. Figura 16: Método principal utilizado para a análise temporal da anotação genômica Todas 893 ORFs da C. trachomatis foram usadas como entrada para a execução do BLAST. A cada vez, BLAST usou um banco de dados diferente, correspondente às versões antigas do Swiss-Prot Obtenção das versões antigas do Swiss-Prot Inicialmente, a estratégia para obtenção das versões antigas do Swiss-Prot foi de derivar as versões antigas a partir da mais recente. Esse processo é possível pois cada registro no banco de dados tem uma linha DT que significa a data de deposição da seqüência. Nesse caso, bastaria separar os registros em 8 grupos, de acordo com a data de sua deposição. Essa estratégia mostrou-se equivocada pela seguinte razão: Apesar de ser possível separar os registros pela sua data de deposição, esse registro não espelha a situação original do registro à época de sua deposição, pois o mesmo pode ter sofrido alterações após a sua deposição. Então, partiu-se para estratégia de obter os bancos de dados antigos originais. Os bancos de dados TrEmbl e nr do NCBI não possuem versões antigas disponíveis na internet. O Swiss-

71 71 Prot, ao contrário, disponibiliza as versões antigas, sendo justamente essas as que foram utilizadas no trabalho. Essas versões antigas (versões 09 à 41) foram obtidas do sítio (ftp://ftp.expasy.org/databases/swiss-prot/sw_old_releases). As versões 01 à 08 e a versão 10 não foram encontradas. A versão atual (à época, 42.1) foi obtida de (ftp://ftp.expasy.org/databases/sp_tr_nr). Os nomes dos arquivos obtidos têm formato sprotxx.dat, onde XX é o número da versão. Nesse trabalho, utilizamos oito das 42 versões antigas disponíveis. Os critérios e procedimentos para essa escolha estão explicitados no item a seguir Seleção das 8 versões do Swiss-Prot e procedimentos para preparar os arquivos para serem usados pelo BLAST 1. Remoção de todos registros de eucariontes e da C. trachomatis de todas as versões. A remoção dos registros da C. trachomatis foi feita para evitar que o melhor hit do BLAST fosse justamente seqüências da própria C. trachomatis. 2. Escolha de 8 versões do Swiss-Prot (7 antigas mais a atual). Cabe aqui, uma explicação do critério usado para selecionar 8 versões todas as disponíveis. Inicialmente, pensou-se em selecionar versões uma de cada ano, ou seja, de 1995 a Mas esse critério mostrou-se inadequado pois o ritmo de deposição de seqüências nos bancos de dados é exponencial, portanto a diferença de tamanho entre cada um dos 8 bancos de dados nunca seria constante. Foi feita uma seleção, então, com base na quantidade de seqüências de cada versão pois nosso objetivo é obter 8 bancos de dados com incrementos constantes na quantidade de seqüências. Baseado nesse critério, foram selecionadas as versões listadas na tabela 3. Verifica-se que o incremento na quantidade de seqüências entre cada banco de dados ficou em torno de Para facilitar futuras referências a esses bancos de dados, eles foram nomeados DB1 a DB8.

72 72 3. Para que sejam usadas pelo BLAST, as 8 versões do Swiss-Prot foram transformadas para o formato FASTA (vide Arquivos no formato FASTA à pagina 49). Na criação do cabeçalho de cada seqüência, foram incluídas as seguintes informações extraídas do banco de dados: AC (número de acesso), ID (identificação), DE (descrição) e OS (espécie). Para uma descrição dessas siglas, vide a seção Swiss-Prot e TrEmbl na página 22. Os arquivos gerados nessa fase foram nomeados sprotxx.dat.fasta, onde XX é o número da versão. 4. Os oito arquivos FASTA foram processados pela ferramenta formatdb, (obtida por ftp do sítio ftp://ftp.ncbi.nih.gov/blast/executables/release/2.2.6/), a qual formata os arquivos FASTA em um formato próprio utilizado pelo BLAST local (programa blastall). O comando usado foi: formatdb i sprot09.dat.fasta n sprot09. O processo foi repetido para as oito versões. Nome atribuído ao banco de dados Tabela 3: Lista dos banco de dados selecionados Versão do Swiss-Prot Data da Versão Quantidade de seqüências DB1 09 Novembro / DB2 25 Abril / DB3 32 Novembro / DB4 35 Novembro / DB5 39 Maio / DB6 40 Outubro / DB7 41 Fevereiro / DB Outubro / Execução do BLAST Incremento na quantidade de seqüências O BLAST foi executado através do programa blastall versão (também obtida de ftp://ftp.ncbi.nih.gov/blast/executables/release/2.2.6/). Foram 8 execuções, todas elas usando o mesmo arquivo de entrada contendo as 893 ORFs da C. trachomatis. Porém, a

73 73 cada execução, BLAST usou um dos 8 bancos de dados antigos descritos no item Obtenção das versões antigas do Swiss-Prot na página 70). O comando utilizado foi: blastall p blastp d sprot09 i chlamydia.fasta m7. O parâmetro p blastp indica que queremos que o BLAST procure por proteínas, -d sprot09 indica em qual banco de dados o BLAST fará a procura e i chlamydia.fasta indica o arquivo de entrada ( query ), nesse caso o arquivo contendo todas as ORFs da C. trachomatis. Finalmente, -m7 indica que queremos uma saída no formato XML (Extended Markup Language). O formato XML foi importante para que desenvolvêssemos os programas para analisar os resultados. Os demais parâmetros usados foram os padrões. Esse processamento foi feito para cada uma das 8 versões e levou um tempo total de aproximadamente 90 horas em um computador Pentium 4 1.8Ghz e memória de 248 Megabytes Comparação entre anotação final e melhores hits do BLAST Esse procedimento foi o mais complexo de todo trabalho. A sua dificuldade está centrada na falta de padronização na anotação da função de proteínas. Nos poucos casos onde constava o EC number das proteínas, a comparação foi imediata, pois bastou comparar os 4 dígitos do número. Mas, na maior parte dos casos, a comparação teve que ser feita manualmente através da participação de um especialista e de várias pesquisas complementares (vide, por exemplo, o procedimento descrito em Valores de bit-escore na zona de incerteza na página 111) Pesquisa por domínios de proteínas Para comparar-se domínios de proteínas, foi utilizado o programa HMMER (vide o item HMMER na página 49). O HMMER foi executado através do programa hmmpfam, versão 2.2g de agosto de 2001, obtido do sítio usando como entrada

74 74 um arquivo contendo as ORFs da C. trachomatis cujas anotações finais não conferiam com o melhor hit encontrado pelo BLAST. O HMMER fez a busca contra o banco de dados Pfam_fs ( Pfam fragment HMM library ), obtido do sítio o qual contém 6190 famílias. Não foi alterada nenhuma das opções de execução do programa e o tempo total de processamento foi de aproximadamente 75 horas. Com os resultados, foi feito um programa para fazer a extração ( parsing ) dos dados que nos interessavam. Foram extraídas as informações de todos os domínios encontrados com E-Value < 0,1, além da posição de início e fim do domínio.

75 75 4. Resultados Os resultados podem ser divididos em duas partes: a primeira, um estudo temporal da anotação genômica, traz resultados da análise da evolução da anotação usando como material de pesquisa bancos de dados de versões antigas do Swiss-Prot e dados da bactéria Chlamydia trachomatis. A segunda parte, uma análise genérica da anotação genômica, apresenta outros tipos de análises onde foi feito um estudo usando a última versão do banco de dados do Swiss-Prot e, também, a Chlamydia trachomatis como organismo de referência para as análises Análise da evolução da anotação genômica usando bancos de dados antigos Nesse item foram feitas análises quantitativas e qualitativas da evolução da anotação genômica. Conforme mencionado anteriormente, o tamanho dos bancos de dados de seqüências biológicas aumenta exponencialmente. Como o resultado de uma anotação depende diretamente do banco de dados usado para busca de similaridades, partiu-se da premissa de que uma anotação realizada em determinado momento pode ser diferente de anotações anteriores ou posteriores. Estamos chamando de evolução da anotação genômica justamente essa mudança ou evolução da anotação ao longo do tempo. Para medir a evolução foi necessário realizar comparações de anotações extraídas de banco de dados antigos. Os bancos de dados antigos foram obtidos conforme descrito no item Obtenção das versões antigas do Swiss-Prot na página 70. Com essa análise, pretende-se avaliar o quanto a precisão da anotação genômica é dependente da quantidade de dados depositados nos bancos de dados e como é o comportamento de sua evolução.

76 Análise quantitativa da evolução da anotação genômica Uma das principais formas de realizar a anotação de uma nova proteína é através da comparação da seqüência alvo com seqüências já anotadas em bancos de dados (vide item Anotação em nível de proteínas na página 52). Essa comparação é, geralmente, feita através do BLAST, o qual apresenta vários parâmetros para cada HSP gerado no resultado (vide FASTA e BLAST na página 40). Entre esses parâmetros estão: percentual de identidade, percentual de similaridade, escore bruto, bit-escore e E-Value. Em função dessa relação direta entre anotação genômica e busca de similaridade em banco de dados, estamos considerando o termo evolução da anotação genômica como sendo evolução do parâmetro bit-escore do BLAST. No item a seguir, é dada a justificativa para a escolha desse parâmetro Escolha do parâmetro do BLAST como métrica Tradicionalmente, pesquisadores usam como parâmetro o valor de E-Value como métrica para aceitar ou não um resultado ( hit ) do BLAST. Entretanto, na maioria dos casos, o bit-escore é mais seguro do que o E-Value. O cálculo do escore bruto depende exclusivamente do alinhamento obtido e dos escores atribuídos conforme a matriz escolhida (BLOSUM ou PAM). Para cada aminoácido da seqüência de entrada é atribuído um valor e esses valores são somados ao final para gerar o escore bruto. O bit-escore é semelhante ao escore bruto mas leva em consideração o tamanho da seqüência e independe da matriz escolhida (vide FASTA e BLAST na página 40). Já para o cálculo do E-Value, além do tamanho da seqüência de entrada, também o tamanho do banco de dados contra o qual o BLAST foi executado influencia no seu valor. Suponhamos um caso em que uma seqüência de entrada seja executada pelo BLAST contra bancos de dados de tamanhos diferentes e que, em todos os resultados das execuções, o melhor hit tenha sido o mesmo. Nesse caso, o bitescore do melhor hit se manteria o mesmo, pois não depende do tamanho do banco de dados. Entretanto, o valor de E-Value sofreria variação pois seu valor depende do tamanho do banco de dados. Quanto maior o banco de dados, maior o valor de E-Value e portanto menos

77 77 significativo seu valor. Como estamos, nesse trabalho, utilizando bancos de dados de tamanhos diferentes, o valor de bit-escore é mais apropriado para ser usado como métrica nos experimentos e análises Evolução do valor de bit-escore Uma vez definido que o bit-escore será o parâmetro do BLAST adotado como métrica nesse trabalho, qual seria o seu comportamento ao longo do tempo, ou seja, através do uso de bancos de dados antigos e portanto de tamanhos diferentes. Para isso, cada uma das 893 ORFs da Chlamydia trachomatis foi usada como entrada do BLAST e foi extraído o bit-escore do melhor hit do resultado. Esse processo foi repetido para os resultados do BLAST, correspondentes à sua execução contra cada um dos 8 bancos de dados já citados (vide tabela 3). De posse dos resultados, foram montados os histogramas (freqüência dos bit-escores) dos bancos de dados DB1 à DB4 e DB8. Os histogramas foram reunidos no gráfico da figura 17. Os bancos de dados DB5, DB6 e DB7 não foram apresentados no histograma pois suas curvas são quase idênticas ao DB8.

78 frequência DB1 DB2 DB3 DB4 DB >150 bit-escore Figura 17: Histograma dos bit-escores dos bancos de dados representativos O gráfico mostra a freqüência dos valores dos bit-escores do melhor hit dos resultados obtidos da execução do BLAST contra os bancos de dados DB1 à DB4 e DB8 (Vide tabela 3 na página 72 para ver a data desses bancos de dados). DB5, DB6 e DB7 foram excluidos pois suas curvas são quase idênticas ao DB8. As seqüências de entrada foram as 893 ORFs da Chlamydia. A curva do banco de dados DB1 (mais antigo) mostra que a grande maioria dos valores de bit-escores dos melhores hits (mais de 500 dos 893 possíveis) se concentra em torno de 50. Acima do escore 60, a freqüência diminui drasticamente, sendo que para escores acima de 150, temos aproximadamente 129 ocorrências. Já para o banco de dados DB8 (mais recente), a curva mostra que também a maioria dos escores se concentra em torno de 50, mas com bem menos freqüência (aproximadamente 320). Observa-se, também, que a freqüência dos escores mais altos aumentou, sendo que para escores acima de 150, temos aproximadamente 300 ocorrências. As curvas dos bancos de dados DB2 à DB7 mostram situações intermediárias entre a curva do banco de dados DB1 e DB8. O gráfico da figura 17 mostra, de uma maneira geral, que os bit-escores foram aumentando com o tempo.

79 79 Intuitivamente, esse resultado era esperado, pois à medida que novas seqüências são depositadas nos bancos de dados, a probabilidade de se encontrar uma seqüência mais similar à seqüência de entrada aumenta, indicando que a representatividade de seqüências de fato aumenta com a evolução dos bancos de dados Classificação funcional das ORFs Interessantemente, percebe-se no gráfico da figura 17 que existe um pico de freqüência do valor de bit-escore em torno de 50 para todos os bancos de dados. Esse valor de bit-escore seria muito baixo para permitir inferências funcionais seguras. Seria, portanto, relevante uma análise das classes funcionais das ORFs nessa região a fim de verificar como os bancos de dados evoluíram em termos de deposição de classes funcionais. O mesmo tipo de análise foi também realizado para os casos no extremo oposto, cujo bit-escore foi maior que 150. Para isso, todas essas proteínas foram enquadradas de acordo com a classificação do COG (vide o item COG na página 27) através da execução do BLAST contra um banco especialmente formatado com proteínas classificadas pelo COG. Foram usados os seguintes grupos de classificação: Proteínas responsáveis por processos celulares de sinalização Proteínas responsáveis por armazenamento de informações e processamento Proteínas responsáveis pelo metabolismo Proteínas pobremente caracterizadas Proteínas que não pertencem a nenhum grupo do COG Foram analisados os dados referentes aos bancos de dados DB1 e DB8. Os resultados estão na figura 18.

80 80 Figura 18: Enquadramento das proteínas geradoras de alinhamento com bit-escore em torno de 50 e acima de 150 nos bancos de dados DB1 e DB4. No grupo Não pertence a nenhum grupo do COG percebe-se que os valores de bitescore em torno de 50 têm muito mais incidência do que os valores de bit-escore maior que 150. O mesmo vale para o grupo Pobremente caracterizado. Já para o grupo Armazenamento de informação e processamento ocorre o inverso. Isso é um indicativo de que proteínas com bit-escore alto são mais facilmente enquadradas numa classe COG e, portanto, são mais conservadas, podendo indicar que se tratam de proteínas housekeeping. Esse fato se confirma pois os próprios autores do COG reconhecem que o banco é tendencioso para proteínas housekeeping visto que as funções vitais desempenhadas por essas se traduzem em uma forte pressão seletiva para a conservação de suas seqüências, o que se reflete nos altos bit-escores (Tatusov et al., 2000) O grupo Metabolismo apresenta o

81 81 mesmo comportamento, há exceção do percentual alto de seqüências do grupo DB1:bitescore em torno de 50, o que não era esperado. Já, a classificação COG Processos celulares de sinalização não apresenta destaque de algum tipo de proteína Análise estatística dos bancos de dados Uma das questões que ocorrem com freqüência na anotação genômica diz respeito à representatividade de seqüências nos bancos de dados. Como a análise é essencialmente comparativa, a eficiência do processo de anotação é primariamente dependente de se encontrar seqüências similares nos bancos de dados. Este é ponto crucial e motivou a realização de análises para mensurar a cobertura de seqüências nos bancos. Para tanto, simulou-se a eficiência do BLAST em relação à evolução histórica dos bancos de dados representados por DB1 a DB8. Para cada banco de dados, executou-se o BLAST contra as 893 ORFs de C. trachomatis e foi registrado o bit-escore do melhor hit para cada uma destas. Desta forma, temos 8 séries temporais (DB1 a DB8) com 893 pontos (número de ORFs) que representam os bit-escores. Primeiramente desejou-se verificar se as 8 séries correspondiam a mesma distribuição ou não, de forma a identificar diferenças significativas entre os bancos de dados no que tange a incorporação de seqüências que seriam similares às de C. trachomatis. Para tanto foi empregado o teste estatístico de Kruskal-Wallis, que consiste em um teste não-paramétrico (as distribuições das variáveis não são normais) utilizado para testar a hipótese de que uma quantidade de amostras não pareadas pertence ou não a mesma população. O teste de Kruskal-Wallis é uma alternativa não-paramétrica à análise de variância. A hipótese nula a ser testada é de que as médias das populações (valores de bit-escore por banco de dados) são as mesmas. O resultado da estatística do teste (H) segue uma distribuição do tipo qui-quadrado com N-1 (N=8 no nosso caso) graus de liberdade. Portanto, se o valor da estatística for maior que o valor tabulado da distribuição qui-quadrado para um determinado nível de significância rejeita-se a hipótese nula. Os cálculos foram feitos utilizando a

82 82 linguagem de programação estatística denominada R ( e encontra-se abaixo: Kruskal-Wallis rank sum test ============================ Kruskal-Wallis H = , degrees of freedom = 7, p-value < 2.2e-16 O valor da estatística H foi de 589,5, muito superior ao valor tabulado da distribuição qui-quadrado para 7 graus de liberdade. Isto nos leva a conclusão de que devemos descartar a hipótese nula e reconhecer que as distribuições são diferentes. Em termos biológicos, concluise que efetivamente houve uma variação qualitativa nos bancos de dados, isto é, novas seqüências foram incorporadas alterando decisivamente a performance do BLAST. Dado as distribuições distintas de escores entre os bancos, desejamos visualizar a magnitude das diferenças. A distribuição de cada banco seria um ponto em um espaço de 893 dimensões (quantidade de ORFs). A técnica estatística denominada análise de componentes principais (PCA; Principal components analysis ) foi utilizada para reduzir a dimensionalidade do problema. O PCA simplifica as séries temporais capturando as características que mais contribuem para a representação dos dados através de uma transformação linear que preserva o sub-espaço que possui a maior variância (Tatsuoka, 1971). Novamente, a linguagem R foi utilizada, gerando o gráfico da figura 19. Neste, podese perceber a distribuição dos bancos de dados baseado na distribuição do bit-escore. O ponto referente ao DB1 encontra-se no canto superior direito da figura enquanto que o DB8 localiza-se no canto inferior esquerdo. Pode-se verificar que existe uma grande variação dos escores de DB1 até DB6, sendo a maior diferença entre DB1 e DB2. Neste período diversas proteínas foram depositadas impactando os escores. Este fenômeno se repetiu ao longo do tempo, até a transição entre o DB5 e DB6. Para os bancos DB6, DB7 e DB8 as distribuições

83 83 dos bit-escores foram bastante semelhantes indicando que houve uma saturação no fornecimento de seqüências mais similares. A interpretação destes dados tem grandes implicações para a anotação genômica em geral. No primeiro momento (até DB6) realmente os bancos de dados eram carentes em seqüências, refletindo o período pré-genômico. Para estes a anotação seria incompleta pela simples falta de seqüências similares. No entanto, após o período de intensa acumulação de seqüências decorrente dos diversos esforços concentrados de seqüenciamento em larga escala, pode-se considerar que a partir do DB6 (outubro de 2001) temos uma situação onde os bancos possuem uma boa representatividade de seqüências. Entretanto, apesar do aumento dos bancos de bancos, a taxa de aquisição de seqüências novas está caindo vertiginosamente. Em outras palavras, o espaço de seqüências conhecidas está cada vez mais completo. Sendo assim, pode-se afirmar que os bancos de dados, em termos quantitativos, já fornecem uma boa base de seqüências para anotação genômica. Assim, devemos rever a expectativa de que as proteínas sem similares nos bancos ( no hits ) seriam rapidamente anotáveis com o tempo. Isto porque neste caso as seqüências tendem a ser organismo específicas, e por conseguinte não seriam encontrados homólogos nos bancos de dados. Exploraremos este tópico mais adiante para tentar expor os limites intrínsecos da anotação genômica.

84 84 Figura 19: Análise de componentes principais das séries compostas pelos 893 bit-escores do BLAST contra os bancos DB1 a DB8. Os eixos são arbitrários. O círculo em cima à direita representa o banco de dados DB1 enquanto que o círculo em baixo à esquerda representa DB8. Percebe-se que DB1 tem grande distância para DB2, mas que esse intervalo diminui à medida que nos aproximamos de DB8. Pode-se concluir, pela figura 19, que a diferença entre DB6, DB7 e DB8 é muito pequena. Portanto, é esperado que uma anotação realizada com o uso de qualquer um desses três bancos de dados não apresente diferenças significativas Análise qualitativa da evolução da anotação genômica A simples deposição de seqüências nos bancos de dados de proteínas não é garantia de maior qualidade na anotação. Como vimos no item Evolução do valor de bit-escore na página 77, constatamos que existe melhoria nos alinhamentos, o que é traduzido pelo aumento do bit-escore, mas não há garantia quanto a qualidade das anotações. Nesse item, é feita uma análise da evolução da qualidade da anotação propriamente dita das seqüências depositadas. Para isso, selecionamos os bancos de dados DB1, DB4 e DB8 que são os bancos que representam respectivamente a posição mais antiga, uma posição intermediária e a

85 85 posição mais recente do banco de dados Swiss-Prot (vide tabela 3 na página 72). Para analisar a qualidade da anotação nesses três bancos, eles foram comparados com a anotação final da Chlamydia trachomatis (vide Anotação manual da Chlamydia trachomatis na página 66), ou seja, a anotação final (produzida por um painel de pesquisadores) foi usada como referência para a comparação. Novamente foram usadas as 893 ORFs da Chlamydia trachomatis como entrada para o BLAST (veja figura 16 na página 70). Foram retirados dos bancos de dados todos os registros cujo organismo começava com as letras chlamyd. O objetivo foi retirar todas os registros de Chlamydia e Chlamydophila para evitar hits cíclicos. O melhor hit foi extraído de cada rodada do BLAST e comparado com a anotação final, devendo-se ressaltar que não foi utilizado nenhum limiar de E-Value para a seleção do melhor hit. A comparação foi, então, realizada por inspeção visual das linhas de descrição do melhor hit contra a anotação final para todas as 893 ORFs nos três estágios dos bancos de seqüência (DB1, DB4 e DB8). Entretanto, para realizar a comparação foi necessário adotar alguns critérios para diminuir a subjetividade e o erro humano. O principal critério refere-se ao EC number : Nos casos em que ele está presente na anotação, prevalece sobre a descrição da proteína, ou seja, as anotações só são consideradas como equivalentes se todos os dígitos do EC number conferirem nas duas anotações. Caso contrário, são consideradas não equivalentes. Por exemplo, se duas anotações tiverem, respectivamente, EC e EC , elas são consideradas diferentes. Essa decisão foi tomada em função das implicações que uma anotação incorreta, mesmo que somente do último dígito do EC number, poderia acarretar ao trabalho de um biólogo experimental. Nos demais casos, foi abordada uma estratégia de tolerância quanto a falta de padronização da ontologia ou sub e super predição de função. Por exemplo, Cell

86 86 division protein FtsK C-terminus foi considerado equivalente a DNA translocase ftsk, apesar de não estarem padronizados. Como exemplos de super predição, podemos citar: GTP-binding e GTP-binding protein enga, os quais foram considerados equivalentes assim como type II secretion system protein D homolog e General secretion pathway protein D precursor. A partir dessa comparação manual, os resultados foram divididos em 4 categorias: Conferem: Anotação final confere com anotação no banco de dados. Não conferem: Anotação final não confere com anotação no banco de dados. Sem anotação final: Anotação final inexistente, impedindo a comparação. Melhor hit hipotético: Anotação no banco de dados descreve proteína como hipotética, provável ou putativa, também impedindo a comparação. Os resultados estão listados na Figura ,00% 40,00% 20,00% 0,00% Conferem Não conferem Sem anotacao final "melhor hit" hipotético DB1 22,84% 37,18% 35,05% 4,93% DB4 43,34% 8,51% 35,05% 13,10% DB8 44,12% 9,07% 35,05% 11,76% Figura 20: Comparação qualitativa da evolução da anotação ao longo do tempo Observa-se que, entre DB1 e DB4, houve um grande incremento na qualidade das anotações visto que aumentou de forma substancial o percentual de anotações que conferem e diminuiu muito o percentual de anotação que não conferem, apesar de ter aumentado o percentual de anotações de proteínas hipotéticas. Entretanto, entre DB4 e DB8, não houve uma melhoria significativa na qualidade da anotação. O percentual de anotações que conferem

87 87 aumentou apenas de 43,33 % para 44,12 %. Além disso, e inesperadamente, aumentou, também, o percentual de anotações de não conferem (de 8,51 % para 9,07 %). Concluímos, então, que houve grande melhora na qualidade da anotação de DB1 para DB4, mas pouquíssima melhora entre DB4 e DB8. Esses resultados estão em perfeita sintonia com a análise quantitativa feita no Análise estatística dos bancos de dados na página Contribuição de organismos para os hits do BLAST A partir dos resultados gerados pelo procedimento descrito no item Métodos para obtenção dos dados para a análise temporal da anotação na página 69, foram, também, analisados quais organismos eram fornecedores dos melhores hits. A Tabela 4 mostra quais os organismos que mais contribuíram para os melhores hits ao longo do tempo. Sempre lembrando que como a Chlamydia trachomatis foi usada como entrada para o BLAST, os registros da mesma foram retirados dos bancos de dados para evitar hits redundantes. Tabela 4 : Contribuição, por espécie, para o melhor hit do BLAST em cada banco de dados (em quantidade de melhores hits ) Organismo DB1 DB2 DB3 DB4 DB5 DB6 DB7 DB8 Escherichia coli Chlamydia muridarum Bacillus subtilis Haemophilus influenzae Chlamydia pneumoniae Bacillus stearothermophilus Synechocystis sp. (strain pcc 6803) Salmonella typhimurium Pseudomonas aeruginosa Mycobacterium tuberculosis Methanococus jannaschii Aquifex aeolicus Thermotoga maritma Pseudomonas putida Mycoplasma genitalium Klebsiella pneumoniae Escherichia coli and Eschierichia coli O157:H Mycobacterium leprae Chlamydia caviae Streptococcus pneumonia Rhodopseudomonas blastica Thermophilic Bacterium ps

88 88 A intenção de tal estudo foi de se avaliar a utilização dos resultados de BLAST para a realização de inferências filogenéticas. Uma variável nova nessa análise é a variação temporal dos bancos de dados. De maneira geral, observa-se uma contribuição de uma quantidade razoável de organismos em relação ao melhor hit, e que, em termos quantitativos, reflete a classificação filogenética apresentada na figura 15 na página 66. Não obstante, a análise temporal nos permite analisar o problema sob um ângulo diferente. Pode-se observar na tabela que a quantidade de melhores hits por organismos varia drasticamente com a evolução dos bancos de dados. Com isso, qualquer tentativa de se construir uma árvore filogenética baseada em um único banco de dados pode fornecer resultados insatisfatórios. Por exemplo, alguns organismos que inicialmente contribuíram com melhores hits no DB1 não mais seriam incluídos já no DB3, como por exemplo, a R. blastica, que é uma α-proteobactéria sem relação filogenética com C. trachomatis. Na situação oposta, diversos organismos não contribuíram nos melhores hits no DB1, mas tiveram participação no DB8 (H. influenzae, Synechocystis sp. e A. aeolicus). Uma das conclusões é de que os resultados do BLAST refletem intrinsecamente a composição de seqüências dos bancos de dados, o que imprimiu um aspecto dinâmico no perfil filogenético dos melhores hits. Por um lado, esses resultados expõem claramente o fato de que evidências baseadas somente em similaridade local de seqüências, como as obtidas por BLAST, são muito tênues para que se estabeleça relações filogenéticas. Adicionalmente, corroboram estudo anterior, mostrando, para os genomas de Aeropyrum pernix e Escherichia coli, que, freqüentemente, os genes com maior similaridade através do BLAST não eram provenientes dos organismos mais próximos filogeneticamente (Koski e Golding, 2001).

89 89 Para uma análise mais pormenorizada da tabela 4, utilizou-se apenas os 5 principais organismos contribuintes ilustrando sua evolução ao longo do tempo. Os resultados podem ser observados na figura hits DB1 DB2 DB3 DB4 DB5 DB6 DB7 DB8 Banco de dados E. coli C. muridarum B. subtilis H. influenzae C. pneumoniae Figura 21: Evolução dos 5 organismos que mais contribuíram para os melhores hits do BLAST Como a E. coli foi uns dos primeiros organismos seqüenciados e depositados nos banco de dados, esse organismo foi o que mais produziu hits no início (entre DB1 e DB3). Um pesquisador que tentasse inferir relacionamento filogenético em DB3, poderia ser levado a concluir erroneamente que E. coli é um organismo muito próximo da C. trachomatis. Isto porque com a deposição de dados do B. subtilis e H. influenzae houve uma migração dos melhores hits de E. coli para estes. Em DB6, com a entrada de seqüências da C. pneumoniae, houve um imediato destaque da mesma, diminuindo a participação dos demais. Mas a grande inversão no gráfico se deu em DB7, quando da introdução das seqüências de C. muridarum. Note que a participação da C. pneumoniae também diminui, ficando, inclusive, abaixo de B. subtilis em DB8. Esse fato, a princípio, é singular pois se supõe que a C. pneumoniae seja mais próxima filogeneticamente da C. trachomatis do que o B. subtilis. Uma possível

90 90 explicação para esse fato é de que na verdade a Chlamydia pneumoniae foi reclassificada como Chlamydiophyla pneumoniae (Everett et al., 1999). Para uma análise mais apurada das relações globais entre todas as proteínas dos genomas de bactérias descritas acima, o gráfico da figura 22a ilustra uma comparação entre a quantidade de hits entre três organismos (C. trachomatis, B. subtilis e a E. coli). Verifica-se que houve 301 hits entre a C. trachomatis e o B. subtilis, enquanto que houve 224 hits entre a C. trachomatis e a E. coli. Isso indica que o B. subtilis é mais próxima da C. trachomatis do que a E. coli, corroborando os dados do gráfico da figura 21. Por sua vez, o gráfico da figura 22b ilustra uma comparação entre a quantidade de hits entre a C. trachomatis, a C. muridarum e a C. pneumoniae). Verifica-se que houve apenas quatro hits entre a C. trachomatis e a C. pneumoniae, enquanto que houve 834 hits entre a C. trachomatis e a C. pneumoniae. Isso comprova que a C. pneumoniae é mais distante da C. muridarum e da C. trachomatis, corroborando a árvore filogenética apresentada na figura 14 na página 65. Os gráficos da foram obtidos através do aplicativo TaxPlot disponível no sítio do NCBI ( Figura 22 a) Comparação entre os hits de BLAST de seqüências dos genomas de B. subtilis e E. coli contra seqüências de C. trachomatis. b) Comparação de seqüências dos genomas de C. muridarum e C. pneumoniae contra seqüências de C. trachomatis. Os valores nos eixos horizontal e vertical representam o escore do alinhamento para o organismo em questão. Cada marca representa uma proteína posicionada no gráfico de acordo com o escore que a C. trachomatis teve em relação aos outros organismos

91 Análise estática de fontes de erro na anotação genômica Dada uma situação onde se deseja desenvolver um sistema de anotação automática em larga escala totalmente automatizado faz-se necessário o estabelecimento de uma série de critérios rígidos que permitam o processamento computacional. Com certeza, o principal parâmetro a ser definido é o limiar de E-Value (ou bit-escore) do BLAST para consideração de candidatos, visto que a identificação de similares de seqüência em bancos de dados é em muitos casos o primeiro passo do processo (Eisen, 1998). Entretanto, esta é uma tarefa extremamente complexa pois o E-Value na realidade provê uma estimativa da probabilidade de se encontrar um alinhamento com o mesmo escore em uma busca contra um banco de dados aleatório (Pertsemlidis e Fondon, 2001). Esta pode ser considerada como uma medida de significância estatística, contudo existe uma grande lacuna para traduzir este fato em significância biológica (Eisen, 1998). Existe uma idéia de que proteínas com identidade acima de 40% têm alta probabilidade de terem a mesma função (Petsko e Ringe, 2003). Proteínas com percentual de similaridade entre 20 e 35% encontram-se no que chamamos de zona de incerteza ( Twilight zone ), ou seja, podem ou não ter a mesma função (Rost, 1999; vide também a figura 12 na página 53). Com base nesta regra empírica pode-se ajustar o valor do E-Value de forma que se enquadre nestas premissas. Entretanto, deve-se salientar que o nível de identidade fornecido pelo BLAST refere-se ao alinhamento local entre segmentos de máximo escore, o que não garante por si só a conservação de função. Dadas estas dificuldades observa-se que não existe uma regra estabelecida para fixarse um limiar, sendo que cada grupo de pesquisa define de forma empírica estes valores diante de diversas situações. Diante da ausência de estudos neste sentido pretendeu-se realizar um estudo do comportamento da anotação automática baseada somente nos resultados de BLAST. Nessa

92 92 segunda parte, o objetivo concentrou-se na análise automática e sistemática de possíveis fontes de erro da anotação genômica, visto que a maioria dos relatos aborda este tema de forma apenas qualitativa. Para isso, procurou-se avaliar os valores dos parâmetros E-Value e bit-escore do BLAST com relação a sua significância. Na abordagem atual, em oposição à primeira parte do trabalho, são feitas análises da anotação genômica utilizando os resultados de uma anotação estática, ou seja, com apenas um banco de dados. Todos os resultados foram obtidos através da comparação entre a anotação automática (através do uso do BLAST) com a anotação manual. Sempre que falamos em anotação manual ou final estamos nos referindo à anotação descrita no item Anotação manual da Chlamydia trachomatis na página 66. Para obter os resultados usados na análise estática, foram usados os dados da anotação manual e os resultados obtidos com a execução do BLAST contra o banco de dados DB8, que corresponde a versão mais recente do Swiss- Prot (vide tabela 3 na página 72). Foram usadas como entrada as 893 ORFs da Chlamydia trachomatis. O melhor hit de cada resultado do BLAST foi comparado com a anotação final da respectiva ORF e classificado nas mesmas 4 categorias definidas no item Análise qualitativa da evolução da anotação genômica (página 84). A descrição de como foi feita a comparação está no item Comparação entre anotação final e melhores hits do BLAST (página 73). O gráfico da figura 23 mostra a distribuição percentual dos resultados dentro dessas 4 categorias (resultados obtido da terceira linha da tabela na figura 20 na página 86).

93 93 sem anotação final 35,05% melhor hit é hipotético 11,76% não conferem 9,07% conferem 44,12% Figura 23: Distribuição dos resultados em 4 categorias. As 893 ORFs da Chlamydia foram usadas como entrada para o BLAST. O banco de dados usado foi o DB8. Cada melhor hit de cada resultado do BLAST foi comparado com a anotação final da respectiva ORF e classificado numa das 4 categorias mostradas no gráfico. O grupo das ORFs que tem anotação correta, categoria conferem, tem um percentual aparentemente baixo: 44,12 %. Entretanto, entre as demais ORFs (55,88 %), existem 46,81 % que não puderam ser comparadas (soma das categorias sem anotação final e melhor hit hipotético ). Levando em consideração esse fato, e recalculando os percentuais, a categoria conferem sobe para 82,94 %. A categoria não conferem (9,07 %) inclui os casos em que a anotação do melhor hit está incorreta e pode induzir o pesquisador a erro. Recalculando seu percentual, ou seja, excluindo as ORFs que não puderam ser comparadas, ele sobe para 17,05 %. Neste ponto pretende-se fazer uma dissecção dos fatores que contribuem para o estabelecimento de erros de anotação. Os que se enquadram na categoria não conferem são um dos principais problemas da anotação genômica. Além de ser um indicador falso positivo para o usuário, o erro tende a se propagar para outras anotações, multiplicando o problema conhecido como error percolation (Gilks et al., 2002). Portanto, urge que sejam identificadas as causas para esse erro. Entre as possíveis causas, estão os casos em que o melhor hit do BLAST tem um E-Value muito bom (muito menor que o limiar estabelecido pelo usuário para aceitar o resultado), mas que, mesmo assim, fornece uma a anotação

94 94 incorreta. Esses casos serão analisados no item Hits com E-Value significativo mas com anotação incorreta na página 99. Outra causa postulada para erros de anotação ocorre quando a proteína tem diversos domínios, mas somente um desses domínios é usado para gerar a anotação da proteína. Esse aspecto será pesquisado no item Funcionalidade x função de proteínas na página 104. Antes disso, no item Hits com E-Value não conclusivo mas com anotação correta, é analisada a situação exatamente oposta: os hits com E-Value ruim mas com anotação correta, que são aqueles que seriam descartados pelo usuário, mas que são válidos Hits com E-Value não conclusivo mas com anotação correta Dentre as ORFs com anotação correta (pertencentes à categoria conferem da figura 23), contabilizamos 40 resultados (10,15% nesta categoria) com melhor hit cujo valor de E- Value é superior a 10-10, ou seja, um valor considerado, no presente estudo, como não conclusivo para uma anotação confiável. Entretanto, esses resultados contêm anotação correta. Isso significa que a seqüência encontrada no banco de dados não possui muita similaridade com a entrada usada no BLAST, mas ambas proteínas teriam a mesma função. Poderíamos considerar esses casos como falso negativos, ou seja, anotações válidas mas que não seriam aproveitadas pelo usuário do BLAST em função do elevado limiar de E-Value utilizado (10-10 ). A tabela 5 apresenta os 9 piores casos (com maior E-Value) entre os 40 registrados. Investigaremos os dois primeiros, a fim de determinar possíveis causas para esse fato.

95 95 Gi Tabela 5: Melhores hits com E-Value acima do limiar mas com anotação correta Anotação final Anotação do melhor hit AC DE OS Ribosomal protein L36 Q8NMN8 50S ribosomal protein L Ribosomal protein L29 Q9LCY4 50S ribosomal protein L Preprotein translocase Preprotein translocase sece Q9KGE8 subunit SecE subunit 2-1-acyl-sn-glycerol-3-phosphate acylglycerophosphoetha acyltransferase (EC ) ( nolamine Q59188 AGPacyltransferase) (1-AGPAT) acyltransferase (Lysophosphatidic acid [EC] acyltransferase) (LPAAT). Methylated-DNA--protein-cysteine methyltransferase (EC ) O6-methylguanidine- (6-O-methylguanine-DNA DNA methyltransferase Q9ZET8 methyltransferase) (O-6- [EC] methylguanine-dnaalkyltransferase). Thiol:disulfide interchange protein Protein disulfide dsbd precursor (EC Q9CP40 isomerase [EC] )(Protein-disulfide reductase) (Disulfide reductase). 3-(3-hydroxyphenyl)propionate hydroxylase homolog [EC] bis(5'-nucleosyl)- tetraphosphatase [EC] lipid A biosynthesis lauroyl acyltransferase homolog [EC] P77397; P71203; P77047 P35640 P (3-hydroxy-phenyl)propionate hydroxylase (EC ). (Di)nucleoside polyphosphate hydrolase (EC ) (Ap4Apyrophosphatase) (Invasion protein A) (Invasion associated locusprotein A). Lipid A biosynthesis lauroyl acyltransferase (EC ) (Heat shockprotein B). Bacillus halodurans. Borrelia burgdorferi (Lyme disease spirochete) Mycobacterium paratuberculosi s Pasteurella multocida Corynebacteriu m glutamicum and Corynebacteriu m efficiens. Thermus thermophilus Bit escore E-Value 31,5722 0, ,5722 0, ,8094 0, ,965 0, ,6614 0, ,0466 0, Escherichia coli 41,2022 0, Bartonella bacilliformis Escherichia coli, andescherichia coli O157:H7 41,5874 0, ,5874 0, Inicialmente apresentamos o alinhamento gerado pelo BLAST para dois casos: Alinhamento do BLAST para a seqüência gi: : Preprotein translocase Score = 29.6 bits (65), Expect = 1.5 Identities = 12/34 (35%), Positives = 21/34 (61%) Query: 16 VKKQAAFAGNFIEEIKKIEWVNKRDLKRYVKIVL 49 VK F G+ + E+K++ W +++L RY +VL Sbjct: 5 VKGIGKFFGDVVAEMKRVSWPTRKELTRYTLVVL 38 Alinhamento do BLAST para a seqüência gi: : acylglycerophosphoethanolamine acyltransferase Score = 31.2 bits (69), Expect = 2.2 Identities = 27/121 (22%), Positives = 52/121 (42%), Gaps = 12/121 (9%) Query: 27 RVLVEGIESINQNSQKGALFLSNHVAEIDPVILEHVFWLKFHVRPIAVDYLFNNPVVKWF V G E+I + S + + NH+A +DP+I + F F + +A L P V Sbjct: 67 KIIVTGSENIPKKSN--VIIMGNHIAAMDPLIFIYTFACPFVI--LAKHSLLRIPFVNIV 122 Query: 87 LNSVRAIPVPSVVPGRDDKRLLERMERFYVCVTQALDRKESLLLYPSGRLSRNGKEEIVN 146 L + I V ++R + V + + S+ ++P G +R G + Sbjct: 123 LIVMGVIFV NRRSIRSAAAAEVKAIKVMREGRSIGIFPEGTRNRGGDTRVFK 174 Query: 147 Q Sbjct: 175 K 175

96 96 Verifica-se que as entradas têm percentual de identidade de 35% e 22% respectivamente com a seqüência encontrada pelo BLAST. Para tentar estudar porque ainda sim as duas seqüências têm a mesma função, apesar do alto E-Value (baixa confiança), investigaremos o alinhamento global das seqüências para estes casos. Para tanto utilizou-se o programa needle do pacote EMBOSS ( que implementa o algoritmo de Needleman e Wunsch. Alinhamento global entre gi e AC:Q9KGE8 gi : Q9KGE8: Preprotein translocase subunit SecE (Chlamydia trachomatis) Preprotein translocase sece (Bacillus halodurans) ######################################## # Program: needle # Rundate: Fri Apr 30 11:54: # Report_file: outfile ######################################## #======================================= # Aligned_sequences: 2 # 1: gi # 2: Q9KGE8 # Matrix: EBLOSUM62 # Gap_penalty: 10.0 # Extend_penalty: 0.5 # # Length: 87 # Identity: 16/87 (18.4%) # Similarity: 30/87 (34.5%) # Gaps: 28/87 (32.2%) # Score: 63.0 #======================================= gi CT 1 MGQDHRRKFLKKVSFVKKQAAFAGNFIEEIKKIEWVNKRDLKRYVKIVL :.:. : ::...:::...: Q9KGE8 1 MAGGVKGIGKFFGDVVAEMKRVSWPTRKELTRYTLVVLG 39 gi CT MNIFGFGFSIYCVDLALRKSLSLFGKVTSFFFG 82 :.:....:...:..:. Q9KGE8 40 TVAFITVF-FAVVDYGISALVRGLIE 64 Alinhamento global entre gi e AC:Q59188 gi : 2-acylglycerophosphoethanolamine acyltransferase [EC] (C. trachomatis) Q59188: 1-acyl-sn-glycerol-3-phosphate acyltransferase (EC ) (Borrelia burgdorferi) ######################################## # Program: needle # Rundate: Fri Apr 30 12:00: # Report_file: outfile ######################################## #======================================= # # Aligned_sequences: 2 # 1: gi # 2: Q59188 # Matrix: EBLOSUM62 # Gap_penalty: 10.0 # Extend_penalty: 0.5 # # Length: 323 # Identity: 46/323 (14.2%) # Similarity: 86/323 (26.6%) # Gaps: 143/323 (44.3%)

97 97 # Score: 74.0 #======================================= gi CT 1 0 Q MIIVFMKILRSIITYFNVLLFFLILIFFLFPFYLVCKIFLIERYVVRLSF 50 gi CT 1 MKIGFWRRLYEVCYTSLIGCALKLRYRVLVEGIESINQNSQKGA 44 :....:::.. :.:... Q IMMRACIKISLW LAG------IKIIVTGSENIPKKS--NV 82 gi CT 45 LFLSNHVAEIDPVILEHVFWLKFHVRPIAVDYLFNNPVVKWFLNSVRAIP 94 :.:. :.: :..:.....: : :... Q IIMGNHIAAMDPLIFIYTFACPFVI--LAKHSLLRIPFVNIVLIVMGVIF 130 gi CT 95 VPSVVPGRDDKRLLERMERFYVCVTQALDRKESLLLYPSGRLSRNGKEEI 144 ::.:......:.:... :.::...:....: Q V NRRSIRSAAAAEVKAIKVMREGRSIGIFPEGTRNRGGDTRV 172 gi CT 145 VNQQAAYTILHRAKEC DVFLVKITGLWGSSFSRY----RTG 181..:.: :. :.. :: Q FKKGSIKMALKTGTSILPVTLYNTNNFFIKNI--IFNSGLSVYIHVHPLI 220 gi CT 182 STPKLGKVFKEAVKALLRCGIFFMPKRE-VRVSVCPADYLVLKQFPTKQE :...:.:::.. :.. ::: Q DVLKLSEYEKENLTSIIRDQI--VKKLETIKI 250 gi CT 231 FNTFLSDWFNQEGGETPLEVPYA 253 Q Os alinhamentos globais mostram que as identidades caíram para 18,4 e 14,2% respectivamente, o que era esperado. No entanto, estas identidades são consideravelmente menores que o valor mínimo para se identificar proteínas funcionalmente relacionadas. Entretanto, as proteínas analisadas podem ser homólogas se partimos da premissa de que podem sofrido um alto grau de mutação resultando em seqüências bastante divergentes, mas que em algum ponto compartilhavam um ancestral comum. Nestes casos extremos, o BLAST tem muitas dificuldades para identificar, o que convencionalmente é conhecido por homólogos remotos (Dietman et al., 2002). Em detrimento da velocidade, o BLAST sacrifica o rigor na busca e, portanto, na maioria das vezes, será incapaz de detectar esses casos. Outros programas são especializados em tal situação, mas deve-se deixar claro que também possuem suas limitações, as quais são dadas intrinsecamente pelo grau de divergência entre as seqüências de uma família. Dentre os quais podemos citar o RPS-BLAST ( Reverse PSI-BLAST ), que faz parte da família de programas BLAST (vide PSI-BLAST e RPS-BLAST na página 44).

98 98 Para as duas seqüências analisadas acima, executou-se uma busca no CDD utilizando o RPS-BLAST, com o serviço do NCBI chamado de CD-Search (Marcher-Bauer e Bryant, 2004; ). Para a SecE de C. trachomatis, apesar de não existir uma seqüência com similaridade marcante no banco de dados, foi possível identificar no CDD uma família do COG que corresponde exatamente a sua classificação funcional, como mostrado na figura 24. Figura 24: Resultados do programa CD-Search mostrando a similaridade da ORF de C. trachomatis com a família SecE (Preprotein translocase subunit SecE) no banco COG. Da mesma maneira para a aciltransferase (gi ), foi identificado corretamente no CDD um domínio correspondente a tal funcionalidade ( conforme mostra a Figura 25. Figura 25: Resultados do programa CD-Search mostrando a similaridade da ORF de C. trachomatis com o domínio Acyltransferase no banco PFAM. Com base nestes resultados podemos concluir que existe uma parcela de proteínas que ultrapassa os limites práticos de detecção de similaridade por BLAST. Mesmo com valores de E-Value ou bit-escore muito aquém dos aceitáveis pode existir uma relação funcional entre duas proteínas. Sendo assim, deve-se notar que falsos negativos como os descritos na tabela 5 devem sempre surgir por limitações intrínsecas do programa BLAST. A simples flexibilização do limiar (aumento do E-Value mínimo), se por um lado diminuiria o número de falsos negativos, traria como conseqüência um grande aumento na quantidade de atribuições incorretas, o que, em termos gerais, afetaria a qualidade global da anotação.

99 Hits com E-Value significativo mas com anotação incorreta Diferentemente da análise anterior, agora estamos interessados nos resultados falsopositivos, ou seja, aqueles cujo E-Value é bom mas a anotação está incorreta. Dentre as ORFs com anotação incorreta (pertencentes à categoria não conferem da figura 23), foram contabilizados 46 melhores hits com E-Value inferior a 10-10, ou seja, um valor bom, mas que contém anotação incorreta. Isso significa que a seqüência encontrada no banco de dados está com anotação errada, apesar de ter muita similaridade com a entrada usada no BLAST. Alternativamente, pode-se postular que, apesar da similaridade, as seqüências adotaram diferentes funções, como no caso de parálogas. A tabela 6 apresenta os casos registrados. Gi Tabela 6: Melhores hits com E-Value significativo mas com anotação incorreta Anotação final DOMAIN TPR P PP2C serine P37979; phosphatase RsbU P73610 homolog C-term DnaK suppressor protein P dehydroquinate dehydratase [EC] Q9KD93 ENZYMEShikimate 5-dehydrogenase [EC] protein secretion system YscL homolog Amino-acid aminotransferase Anotação do melhor hit AC DE OS Q01253; P97147; P97148 Low calcium response locus protein H. Protein icfg. General stress protein 16O (GSP16O). Shikimate 5-dehydrogenase (EC ). YOP proteins translocation protein L. Bit escore E-Value Yersinia 70,8626 1,02E-12 pseudotuberculosis Synechocystis sp. 80,4925 5,02E-15 (strain PCC 6803) Bacillus subtilis Bacillus halodurans. Yersinia enterocolitica Helicobacter pylori (Campylobacter pylori). Bacillus subtilis 80,8777 1,78E-16 82,0333 1,20E-15 82,4185 3,14E-16 86,2705 4,83E-17 89,3521 4,40E-18 O25008 Cysteine desulfurase (EC ) class V [EC] ABC transporter, Manganese transport system permease protein O34500 membrane protein mntd.. TroD 16S rrna m5c methyltransferase P94464 SUN protein. Bacillus subtilis. 90,1225 2,66E ABC transporter, Zinc uptake system ATP-binding ATPase ZnuC Q926D8 protein zura. homolog Listeria innocua 91,6633 5,73E-19 Glucose phosphate 6-phosphogluconolactonase (EC Anabaena sp. P ,3597 1,00E-19 dehydrogenase ) (6PGL) (strain PCC 7120) [EC] Fructose-6-P phosphotransferas e [EC] Phosphate transport system protein PhoU protein secretion system YscJ O34529 P44271 P phosphofructokinase (EC ) (Phosphofructokinase)(Phosphohexok inase) Protein HI HRPB3 protein precursor Bacillus subtilis Haemophilus influenzae Xanthomonas campestris 98,2117 1,90E-20 99,3673 2,50E-21 99,3673 4,41E-21 acyl-coa thioester hydrolase homolog O05729 Protein vdld Helicobacter pylori 100,138 7,86E-22 (Campylobacter

100 [EC] CMP-KDO synthetase homolog [EC] DOMAIN ATPbinding ABC-3 integral membrane ATPase TroC ABC transporter, ATP-binding protein Formylmethionine deformylase [EC] Stationary-phase survival protein SurE 3-deoxy-d-mannooctulosonic-acid transferase [EC] Q9KGF8 O67792 O35024 P44513; Q53441 Q9ABF DOMAIN CBS P77392; Small protein B SmpB homolog periplasmic substrate binding O34385 protein TroA protein secretion system YscR P37828 homolog ABC transporter, ATP-binding P45247 protein NifS aminotransferase Q43884 [EC] Chromosome partitioning protein ParB 3-dehydroquinate synthase [EC] Q9V1H Rod shapedetermining protein P07373; Q45673 RodA Phospho-2- dehydro-3- deoxyheptonate aldolase [EC] ABC transporter, ATPase TroB 2-C-methyl-D-erythritol 4-phosphate cytidylyltransferase (EC ) Dephospho-CoA kinase (EC ) (Dephosphocoenzyme A kinase).. Manganese transport system membrane protein mntc. Ferric cations import ATP-binding protein fbpc 2 (EC ).. Peptide deformylase (EC ) (PDF) (Polypeptide deformylase). Q8RA90 Acid phosphatase sure (EC ).. pylori) Bacillus halodurans 102,449 2,84E-22 Aquifex aeolicus 103,219 1,45E-22.Bacillus subtilis Haemophilus influenzae Caulobacter crescentus. Thermoanaerobact er tengcongensis 114,005 2,64E ,398 2,45E ,783 1,23E ,553 1,59E-27 Bifunctional glycosyltransferase/methyltransferase Fusobacterium [Includes: KdtAprotein homolog (EC Q8R6G8 nucleatum (subsp. 126,331 4,85E ); trna (guanine-n(7)-)- nucleatum). methyltransferase(ec ) (trna(m7g46)-methyltransferase)]. Magnesium and cobalt efflux protein Escherichia coli 132,494 5,56E-31 corc. O157:H7, andshigella flexneri. Anabaena sp. Q8YM70 SsrA-binding protein. 140,584 4,62E-34 (strain PCC 7120). Manganese-binding lipoprotein mnta precursor.. Pathogenicity-related ORF2. Lipoprotein releasing system ATPbinding protein lold.. Cysteine desulfurase (EC ) (Nitrogenase metalloclusters biosynthesis protein nifs).. Bacillus subtilis Xanthomonas campestris (pv. glycines). Haemophilus influenzae 145,206 7,00E ,984 1,17E ,54 2,43E-40 Anabaena azollae 162,925 3,91E-40 P26497 Stage 0 sporulation protein J.. Bacillus subtilis 163,31 2,02E-40 P dehydroquinate synthase (EC ). Pyrococcus abyssi 164,466 1,34E-40 Stage V sporulation protein E. Bacillus subtilis 177,563 1,60E-44 AroA(G) protein [Includes: Phospho-2- dehydro-3-deoxyheptonate aldolase(ec ) P96117 Zinc transport system ATP-binding protein trob. 4-hydroxy-3-methylbut-2-en-1-yl GcpE protein P73672 diphosphate synthase (EC ) (1-hydroxy-2-methyl-2-(E)-butenyl 4- diphosphate synthase) Glycerol-3- Glycerol-3-phosphate dehydrogenase phosphate [NAD(P)+] (EC ) (NAD(P)Hdependent glycerol-3-phosphate dehydrogenase Q8KG76 [NAD+] [EC] dehydrogenase) ABC transporter, ATPase MsbA Methylenetetrahydr ofolate dehydrogenase [EC] Lipid A export ATP-binding protein P44407 msba.. FolD bifunctional protein [Includes: Methylenetetrahydrofolatedehydrogen P54382 ase (EC ); Methenyltetrahydrofolate cyclohydrolase(ec )].. Bacillus subtilis Treponema pallidum. 193,741 1,37E ,032 1,82E-61 Synechocystis sp. 236,884 3,84E-62 (strain PCC 6803). Chlorobium tepidum Haemophilus influenzae Bacillus subtilis 238,424 6,30E ,588 1,99E ,284 1,09E Malate Q9ZF99 Malate dehydrogenase (EC ). Aquaspirillum 249,21 3,44E-66

101 dehydrogenase arcticum. [EC] KDO-8-phosphate 2-dehydro-3-deoxyphosphooctonate Xanthomonas synthetase [EC] Q8PLS2 aldolase (EC ) (KDO-8- axonopodis (p phosphate synthetase) 253,062 1,81E-67 LytB protein 4-hydroxy-3-methylbut-2-enyl Ralstonia P58677 homolog diphosphate reductase (EC ). solanacearum 283,108 1,99E-76 Chorismate Synechocystis sp. synthase [EC] P23353 Chorismate synthase (EC ) 286,189 2,87E-77 (strain PCC 6803) Thioredoxin reductase Thioredoxin reductase (EC ) Mycobacterium O30973 (NADPH) [EC] (TRXR).. smegmatis 294,664 7,88E Sensory Q00934; Type 4 fimbriae expression regulatory Pseudomonas transduction Q9HVN2 protein pilr.. aeruginosa regulatory protein 306,99 1,74E-83 Phosphohexomuta se [EC] P31120 Protein mrsa. Escherichia coli. 397,512 1,22E-110 glutamyl-trna (Gln) Glutamyl-tRNA(Gln) amidotransferase Thermoanaerobact amidotransferase, Q8RC40 subunit A (EC ) (Glu- 426,017 3,48E-119 er tengcongensis subunit A ADTsubunit A).. [EC] Biotin carboxylase Q58626 [EC] ATP-dependent Clp protease P37571 subunit C ClpC Pyruvate carboxylase subunit A (EC ) (Pyruvic carboxylase A).. Negative regulator of genetic competence clpc/mecb.. Methanococcus jannaschii 488,804 4,02E-138 Bacillus subtilis 801,201 0 Selecionamos a ORF gi (penúltima linha da tabela) para fazer uma análise das possíveis causas desse caso de falso positivo, a exemplo do que fizemos no item anterior. Abaixo, é mostrado o alinhamento entre as duas seqüências. Alinhamento da seqüência gi= Score = 490 bits (1262), Expect = e-138 Identities = 240/440 (54%), Positives = 307/440 (69%), Gaps = 1/440 (0%) Query: 3 KVLIANRGEIAIRIIRACHDLGLATVAVYSMADQEALHVLLADEAVCIGEAQAAKSYLKI 62 KVLIANRGEIAIRIIRAC +LG+ TVAVYS AD+ +LH LADEA CIG A AAKSYL I Sbjct: 4 KVLIANRGEIAIRIIRACWELGIKTVAVYSEADKRSLHATLADEAYCIGPAPAAKSYLNI 63 Query: 63 ANILAACEITGVDAVHPGYGFLSENANFASICESCGLTFIGPSAESIATMGDKVAAKQLA 122 IL E VDA+HPGYGFL+ENA FA + G FIGP+ ++I MG K+ AK++ Sbjct: 64 DAILNVAEKAKVDAIHPGYGFLAENAEFARAVKKAGFEFIGPNPDAIEAMGSKINAKKIM 123 Query: 123 KKIKCPVIPGSEGVVKDEVEGIRIAEKIGFPXXXXXXXXXXXXXXXXXXEKDXXXXXXXX 182 KK P+IPGSEG ++D E I IAE IGFP K+ Sbjct: 124 KKAGVPLIPGSEGAIEDIDEAIEIAEAIGFPVVVKASAGGGGMGMSVAYSKEELKEVIES 183 Query: 183 XXXXXXXGFNNPDVYIEKFIENPRHLEVQVIGDKHGNYVYLGERDCTVQRRRQKLIEETP 242 F +P V+IEK++ENPRH+E+Q++GDKHGN ++LG+R+C++QRR QKLIEE P Sbjct: 184 ARNIAKSAFGDPTVFIEKYLENPRHIEIQLLGDKHGNIIHLGDRECSIQRRHQKLIEEAP 243 Query: 243 SPILTPEMRAKVGKVAVDLARSAGYFSVGTVEFLLDKEKRFYFMEMNTRIQVEHTITEEV 302 SPI+T E+R ++G+ A+ ++ Y S GTVEFL + FYF+EMNTRIQVEHT+TE+V Sbjct: 244 SPIMTEELRERMGEAAIKAGKAINYDSAGTVEFLYEN-GNFYFLEMNTRIQVEHTVTEQV 302 Query: 303 TGIDLLKAQISVAKGEKLPWKQKNIKFKGHVIQCRINAEDPINNFTPSPGRLDYYLPPAG 362 TGIDL+KA I +A GE+L KQ+++K +GH I+CRINAEDP+N+F P PG++ Y P G Sbjct: 303 TGIDLVKAMIKIAAGEELTLKQEDVKIRGHAIECRINAEDPLNDFVPCPGKIKLYRSPGG 362 Query: 363 PAVRVDGACYSGYAIPPYYDSMIAKVITKGKNREEAIAIMKRALKEFHIGGVHSTIPFHQ 422 P VR+D Y G IPPYYDSMIAK+IT G +REEAIA MKRAL+E+ I GV + IPFH+ Sbjct: 363 PGVRIDSGVYGGAEIPPYYDSMIAKLITYGNSREEAIARMKRALREYVIIGVKTNIPFHR 422 Query: 423 FMLDNPKFLLSDYDINYVDQ 442 +L+ FL + +YV+Q Sbjct: 423 AVLEEENFLKGNISTHYVEQ 442

102 102 Podemos notar que o escore é alto, o E-Value é muito baixo e os percentuais de identidade e similaridade estão acima da Twilight zone. Ou seja, essas proteínas têm todas as evidências para inferirmos que compartilham a mesma função. Esse caso requer especial atenção para se encontrar as causas de tal discrepância. Foi feita, então, uma analise detalhada com os seguintes passos: 1. Inicialmente, é importante saber qual das duas anotações está realmente correta. Para isso, buscou-se no banco de dados de proteínas do NCBI, o registro da proteína AC=Q58626 ( 313) pois esse foi o melhor hit do BLAST contra a seqüência da C. trachomatis. Esse registro está na listagem abaixo. O objetivo dessa busca era encontrar uma referência bibliográfica que descrevesse um trabalho que tivesse caracterizado essa proteína experimentalmente. Estamos, é claro, pressupondo que a caracterização experimental de uma proteína é superior a qualquer anotação computacional. Essa referência foi encontrada (está em negrito e indicada por uma seta na listagem abaixo). LOCUS Q aa linear BCT 15-JUN-2004 DEFINITION Pyruvate carboxylase subunit A (Pyruvic carboxylase A). ACCESSION Q58626 VERSION Q58626 GI: DBSOURCE swissprot: locus PYCA_METJA, accession Q58626; class: standard. created: Nov 1, sequence updated: Nov 1, annotation updated: Jun 15, xrefs: gi: , gi: , gi: xrefs (non-sequence databases): HSSPP24182, TIGRMJ1229, InterProIPR004549, InterProIPR005482, InterProIPR005483, InterProIPR005479, InterProIPR005481, PfamPF02785, PfamPF00289, PfamPF02786, PRINTSPR00098, TIGRFAMsTIGR00514, PROSITEPS00866, PROSITEPS00867 KEYWORDS Ligase; Multifunctional enzyme; Gluconeogenesis; Magnesium; Pyruvate; ATP-binding; Complete proteome. SOURCE Methanocaldococcus jannaschii ORGANISM Methanocaldococcus jannaschii Archaea; Euryarchaeota; Methanococci; Methanococcales; Methanocaldococcaceae; Methanocaldococcus. REFERENCE 1 (residues 1 to 501) AUTHORS Bult,C.J., White,O., Olsen,G.J., Zhou,L., Fleischmann,R.D., Sutton,G.G., Blake,J.A., FitzGerald,L.M., Clayton,R.A., Gocayne,J.D., Kerlavage,A.R., Dougherty,B.A., Tomb,J.-F., Adams,M.D., Reich,C.I., Overbeek,R., Kirkness,E.F., Weinstock,K.G., Merrick,J.M., Glodek,A., Scott,J.L., Geoghagen,N.S.M., Weidman,J.F., Fuhrmann,J.L., Nguyen,D., Utterback,T.R., Kelley,J.M., Peterson,J.D., Sadow,P.W., Hanna,M.C., Cotton,M.D., Roberts,K.M., Hurst,M.A., Kaine,B.P., Borodovsky,M., Klenk,H.-P., Fraser,C.M., Smith,H.O., Woese,C.R. and Venter,J.C. TITLE Complete genome sequence of the methanogenic archaeon, Methanococcus jannaschii

103 103 JOURNAL Science 273 (5278), (1996) MEDLINE PUBMED REMARK SEQUENCE FROM N.A. STRAIN=JAL-1 / DSM 2661 / ATCC REFERENCE 2 (residues 1 to 501) AUTHORS TITLE Mukhopadhyay,B., Patel,V.J. and Wolfe,R.S. A stable archaeal pyruvate carboxylase from the hyperthermophile Methanococcus jannaschii JOURNAL Arch. Microbiol. 174 (6), (2000) MEDLINE PUBMED REMARK SEQUENCE OF 1-12, AND FUNCTION. COMMENT This SWISS-PROT entry is copyright. It is produced through a collaboration between the Swiss Institute of Bioinformatics and the EMBL outstation - the European Bioinformatics Institute. The original entry is available from and [FUNCTION] Pyruvate carboxylase catalyzes a 2-step reaction, involving the ATP-dependent carboxylation of the covalently attached biotin in the first step and the transfer of the carboxyl group to pyruvate in the second. [CATALYTIC ACTIVITY] ATP + pyruvate + HCO(3)(-) = ADP + phosphate + oxaloacetate. [COFACTOR] ATP, magnesium (or manganese or cobalt), pyruvate and bicarbonate. [ENZYME REGULATION] Inhibited by magnesium, when its concentration exceeded the ATP one, and by high concentration of ATP and alpha-ketoglutarate. [PATHWAY] Gluconeogenesis. [SUBUNIT] Heterooctamer of four A and four B subunits. [MASS SPECTROMETRY] MW=55500; METHOD=MALDI. [MISCELLANEOUS] Its optimum ph is 8.5 and the optimum temperature is degrees Celsius. [SIMILARITY] Contains 1 biotin carboxylase domain. FEATURES Location/Qualifiers source /organism="methanocaldococcus jannaschii" /db_xref="taxon:2190" gene /gene="pyca" /note="synonym: MJ1229" Protein /gene="pyca" /product="pyruvate carboxylase subunit A" /EC_number=" " Site /gene="pyca" /site_type="np-binding" /note="atp (Potential)." Site 291 /gene="pyca" /site_type="active" /note="potential." ORIGIN 1 mfnkvlianr geiairiira cwelgiktva vyseadkrsl hatladeayc igpapaaksy 61 lnidailnva ekakvdaihp gygflaenae faravkkagf efigpnpdai eamgskinak 121 kimkkagvpl ipgsegaied ideaieiaea igfpvvvkas aggggmgmsv ayskeelkev 181 iesarniaks afgdptvfie kylenprhie iqllgdkhgn iihlgdrecs iqrrhqklie 241 eapspimtee lrermgeaai kagkainyds agtveflyen gnfyflemnt riqvehtvte 301 qvtgidlvka mikiaageel tlkqedvkir ghaiecrina edplndfvpc pgkiklyrsp 361 ggpgvridsg vyggaeippy ydsmiaklit ygnsreeaia rmkralreyv iigvktnipf 421 hravleeenf lkgnisthyv eqnmhklrek mvkyalesrd lysvvsekvf eknkkiaaav 481 ggltmyisqi mkenevnnke w // De acordo com essa referência (Mukhopadhyay et al., 2000), fica esclarecido que a proteína exerce uma função de piruvato carboxilase e não biotina carboxilase. Esse

104 104 caso é interessante pois a anotação manual (Iliopoulos et al., 2003) parece ter sido equivocada, enquanto que a automatizada não incorreria nesse erro. 2. Conhecendo-se a função correta da proteína, buscou-se a explicação dos motivos que levaram o grupo de especialistas (Iliopoulos et al., 2003) a proceder erroneamente a anotação. Uma possível explicação é a seguinte: A proteína tem duas cadeias, cadeias A e B (Mukhopadhyay et al., 2000). A cadeia A tem um domínio batizado de biotina carboxilase, mas a funcionalidade do domínio é piruvato carboxilase (vide figura 26). O fato que originou a anotação errada, foi a presunção de que o nome do domínio seria idêntico a sua funcionalidade, o que, nesse caso não é verdade. Obs: A cadeia B dessa proteína, por sua vez, contém um domínio denominado piruvato carboxilase, entretanto, a similaridade foi com a cadeia A. Esse é um caso, esperamos que raro, em que houve erro de anotação pois se baseou na nomenclatura de um domínio conhecido, mas cujo nome não representa a sua real função. Figura 26: Representação dos domínios encontrados pelo CD-Search para a cadeia A da proteína em análise. A descrição dos domínios é a seguinte: COG4770: Acetyl/propionyl-CoA carboxylase, alpha subunit; AccC: Biotin carboxylase; CPSase_L_02: Carbamoyl-phosphate synthase L chain, ATP binding domain; Biotin_carb_C: Biotin carboxylase C-terminal domain; CPSase_L_chain: Carbamoyl-phosphate synthase L chain, N-terminal domain Funcionalidade x função de proteínas Nesse item, foi investigada uma outra possível fonte de erros em anotação genômica que pode ser decorrente da extensão da funcionalidade de um domínio de uma proteína para sua função. Partiu-se do pressuposto que cada domínio de uma proteína possui uma funcionalidade e que a soma das funcionalidades gera a função celular da proteína. Na figura 27, é apresentado um exemplo hipotético onde duas proteínas têm um domínio em comum, o APS_kinase, mas o(s) outro(s) domínio(s) são diferente(s).

105 105 Figura 27: Proteínas com um domínio em comum (APS_kinase) mas outros diferentes APS_kinase é Adenylylsulphate kinase. GTP_EFTU é fator de elongação de ligação a GTP (Imagem adaptada do sítio do PFAM) O nome da proteína de cima na figura é cysn/cysc bifunctionyal enzyme (ec ) e a proteína de baixo é sulfate adenyltransferase met3 (dados obtidos do PFAM). As duas têm funções distintas. Suponhamos que não conhecêssemos a proteína de baixo e somente a proteína de cima estivesse catalogada no banco de dados. Se a proteína de baixo for usada como entrada para o BLAST, poderá haver uma similaridade significativa entre as duas, principalmente na região do domínio em comum (APS_kinase). Esse fato pode levar o anotador a considerar que a proteína de baixo tem a mesma função da de cima, gerando uma anotação errônea. Para investigar qual a magnitude desse problema, ou seja, o quanto essa situação ocorre na prática, utilizamos o programa HMMER para efetuar a busca por domínios contra o banco PFAM. Foram analisados somente as ORFs da categoria não conferem (vide figura 23 na página 93). Em nenhum desses casos foi encontrado o problema de a anotação final ter sido derivada da nomenclatura do domínio. Entretanto, esse resultado não pode ser usado para descartar essa hipótese visto que o universo analisado foi restrito as ORFs da C. trachomatis Estimativa de limiar para uso do bit-escore No item Análise quantitativa da evolução da anotação genômica na página 76, postulamos que usar o bit-escore como métrica seria mais confiável do que o uso do E-Value para analisar os resultados do BLAST. Isso se deve ao fato do bit-escore não ter dependência com o tamanho do banco de dados usado. Nesse item, extrapolamos essa idéia e sugerimos o uso do bit-escore como limiar para aceitar-se ou não um resultado do BLAST, em

106 106 complementação ao uso do E-Value. Cabe ressaltar nesse momento, que não estamos levando em consideração a qualidade da anotação no banco de dados, ou seja, se a anotação da seqüência no banco de dados estiver errada, o BLAST nada poderá fazer para detectar isso mesmo que o alinhamento seja excelente. A função do BLAST é apenas trazer os melhores alinhamentos. Assim como existem vários valores de limiar usado por pesquisadores para o E-Value, qual seria, então, um valor confiável de limiar do bit-escore? Para investigar esse item, foi feito um levantamento dos valores do bit-escore das 4 categorias descritas no item Análise estática de fontes de erro na anotação genômica na página 91, os quais são mostrados na tabela abaixo. Tabela 7: Estatística das 4 categorias (valores de bit-escore) Categoria Conferem Não conferem melhor hit é hipotético Sem anotação final Média 232,04 131,94 145,19 44,27 Desvio padrão 186,59 131,31 108,60 39,45 Mínimo 27, ,335 31, ,7942 Máximo 1291,95 801,20 617, ,77 A primeira constatação é de que a média dos bit-escores das anotações corretas (232,04) é muito mais alta do que a média dos escores das anotações incorretas, que é 131,94. Entretanto, verificamos que os valores mínimos (27,72) e (27,33) dos bit-escores das anotações corretas e incorretas respectivamente, são praticamente iguais. A figura 28 apresenta os histogramas desses mesmos dois grupos. Os dados das categorias melhor hit é hipotético e sem anotação final não entraram na análise.

107 107 frequência Conferem Não conferem Mais bit-escore Figura 28: Histograma dos bit-escores das categorias conferem e não conferem. Baseado no gráfico da figura 28, verificamos que a maior freqüência de ORFs da categoria conferem têm valor em torno de 100 e é justamente esse valor que sugerimos como limiar para o bit-escore Reanotação das ORFs da categoria sem anotação final Na anotação final (Iliopoulos et al., 2003) existem 313 entre as 893 ORFs (35,05%) que não possuem anotação final. Dado que a anotação final foi feita baseada num banco de dados de 1999, nesse tópico investigamos se essas ORFs sem anotação poderiam receber uma anotação válida usando, desta vez, um banco de dados atual. Para isso, realizamos uma reanotação dessas ORFs e medimos qual foi o ganho de anotação em função do crescimento do banco de dados desde Dessa forma, pretendemos medir a melhoria qualitativa dos bancos de dados, ou seja, medir qual seria a taxa de novos registros que contribuiriam diretamente para uma anotação automática confiável. Desejamos também contrastar esses dados com o aumento exponencial da quantidade de seqüências ao longo dos anos, de forma a verificar se esse fato fornece, por si só, garantias para a eficiência da anotação genômica.

108 108 Para isso, foi executado o BLAST das 313 ORFs contra o banco de dados TrEMBL versão 28.4 de agosto de Novamente, como das outras vezes, os registros cujo organismo começa pela palavra CHLAMID foram retirados do banco de dados para evitar hits redundantes. A tabela 8 apresenta os melhores hits dos resultados do BLAST, mostrando somente os casos onde o bit-escore do melhor hit foi do maior que 100. O valor 100 foi usado pois é justamente o valor sugerido como limiar no item Estimativa de limiar para uso do bit-escore na página 105. Tabela 8: Resultado parcial do BLAST contra o TrEmbl. Os registros marcados com são os registros nos quais a anotação pode ser aproveitada para as ORFs que não tinham anotação final. Gi Anotação do melhor hit Bit-escore E-Value AC:Q81MP1;DE:Ser/Thr protein phosphatase family protein.os:bacillus anthracis (strain Ames). 108,612 4,13E AC:Q8L1L9;DE:Efa1-Lymphostatin-like protein.os:escherichia coli. 110,923 1,24E-23 AC:Q9JT22;DE:Putative integral membrane protein.os:neisseria meningitidis (serogroup A). 116,701 8,83E AC:Q92AZ7;DE:Hypothetical protein lin1771.os:listeria innocua. 119,013 1,25E-26 AC:Q839B3;DE:Conserved domain protein.os:enterococcus faecalis (Streptococcus faecalis). 119,013 2,94E AC:Q99ZX0;DE:Hypothetical protein SPy1036.OS:Streptococcus pyogenes. 123,635 8,84E AC:Q82SD5;DE:Virulence factor MVIN-like.OS:Nitrosomonas europaea. 124,405 1,37E AC:Q7VUW8;DE:Hypothetical protein.os:bordetella pertussis. 125,561 7,81E AC:Q7W5H9;DE:Hypothetical protein.os:bordetella parapertussis. 126,331 1,13E AC:Q8KEM4;DE:Hypothetical protein CT0663.OS:Chlorobium tepidum. 127,102 4,40E AC:Q82GJ1;DE:Hypothetical protein.os:streptomyces avermitilis. 141,739 2,97E AC:Q9RVB0;DE:Hypothetical protein DR1119.OS:Deinococcus radiodurans. 144,436 4,25E AC:Q82V71;DE:Hypothetical protein.os:nitrosomonas europaea. 146,362 2,40E-34 AC:Q8YLB6;DE:Hypothetical protein Alr7019.OS:Anabaena sp. (strain PCC ). 147,902 4,85E-35 AC:Q8R6T4;DE:Hypothetical protein TTE2701.OS:Thermoanaerobacter tengcongensis. 150,984 6,27E AC:Q9PHA2;DE:Hypothetical protein Xf0042.OS:Xylella fastidiosa. 156,762 2,02E AC:Q8KTX3;DE:Putative YbgI protein.os:vibrio fischeri. 165,236 2,45E AC:Q7VWE9;DE:Hypothetical protein.os:bordetella pertussis. 168,318 2,63E AC:Q8GE08;DE:Methyltransferase (EC ) (Fragment).OS:H. mobilis. 178,333 3,71E AC:Q92HS4;DE:Hypothetical protein RC0697.OS:Rickettsia conorii. 182,956 1,23E-45 AC:Q7U9R6;DE:Putative polysialic acid capsule expression protein KpsFprecursor.OS:Synechococcus sp. (strain WH8102). 185,267 3,46E-46 AC:Q8G764;DE:Conserved hypothetical protein with Duf195.OS:Bifidobacterium longum. 197,208 1,25E-49 AC:Q7TTP8;DE:Hypothetical protein in FEUA-SIGW intergenic region.os:rhodopirellula baltica. 202,216 3,70E AC:Q7X397;DE:Hypothetical protein.os:fritschea bemisiae. 230,335 5,63E AC:Q9RXE7;DE:Hypothetical protein DR0366.OS:Deinococcus radiodurans. 238,424 4,06E AC:Q978E6;DE:Hypothetical protein TV1471.OS:Thermoplasma volcanium. 243,817 1,53E AC:Q7UPD7;DE:GTP-binding protein Hflx.OS:Rhodopirellula baltica. 271,166 7,27E-72 AC:O25370;DE:Hypothetical protein HP0656.OS:Helicobacter pylori (Campylobacter pylori). 299,671 1,37E AC:Q8F3S3;DE:Conserved hypothetical protein.os:leptospira interrogans. 457,218 9,86E-128

109 109 Desse resultado, pudemos selecionar apenas 8 ORFs entre o total de 313 (correspondentes a 2,56%) que poderiam ser anotadas com certa segurança e portanto sair da categoria sem anotação. Essas encontram-se marcadas com o símbolo na tabela 8. Os resultados mostram que, para a C. trachomatis, foi quase insignificante o ganho em anotação diante do acumulo de seqüências no banco de dados. Isso aconteceu tanto usando o TrEMBL quanto usando o banco de dados curado, Swiss-Prot. No caso do Swiss-Prot, a anotação final tinha sido obtida usando um banco de dados de 1999 com aproximadamente seqüências. A versão usada do Swiss-Prot para tentar melhorar a anotação foi a 42.1 a qual contém seqüências, ou seja, quase o dobro da de Conforme visto no item Evolução do valor de bit-escore na página 77, verificou-se que durante a evolução dos bancos de dados, além do incremento na quantidade de seqüências, houve também um incremento no bit-escore dos hits. Isso nos levaria a esperar que entre 1999 e 2003, houvesse um ganho significativo na qualidade da anotação dessas ORFs. Entretanto, somente 8 casos puderam ser aproveitados. Inicialmente, pode-se verificar que para apenas 29 ORFs (as que estão na tabela 8) das 313 (9,27%) foi possível se identificar novas seqüências nos bancos de dados com similaridade suficiente para a anotação. Mesmo assim, a tabela 8 mostra que a qualidade das anotações dessas seqüências não é boa, pois na maioria dos casos as descrições no banco de dados continham proteínas hipotéticas ou de função putativa. A presença de inúmeras proteínas hipotéticas ocorre em função de diversos projetos de genoma estarem fornecendo seqüências a uma taxa muito superior a capacidade de verificação experimental dos dados. Dessa forma, programas de predição de genes são empregados para localizar as regiões codantes no genoma, e os casos positivos são depositados nos bancos públicos como proteínas hipotéticas. Esses casos possuem pouco valor pratico para a anotação a não ser por fornecer seqüências similares que podem sugerir algum tipo de homologia.

110 110 No que diz respeito a grande quantidade de ORFs da C. trachomatis que, mesmo após quatro anos de deposição nos bancos de dados, ainda não tiveram similares encontrados, pode-se utilizar argumentos evolucionários para sua explicação. É provável que uma parte dessas ORFs sejam organismo específicas e que tiveram sua evolução moldada por pressão seletiva das condições ambientais impostas a C. trachomatis. Com isso, essas podem ter adquirido um repertorio peculiar de seqüências que mediariam processos específicos, e que, portanto, não encontrariam homólogos nos bancos de dados. Além disso, a própria família Chlamydiae, como visto na introdução, pode ser considerada com um filo que divergiu a muito tempo do super-reino das eubactérias. Seria de se esperar, portanto, uma razoável proporção de ORFs sem similares nos bancos de dados Proporção de proteínas hipotéticas em função do E-Value Observando-se detalhadamente a tabela 8, percebe-se que grande parte das proteínas com anotação proteína hipotética têm um E-Value muito bom, ou seja, pequeno. Ao contrário, em outros resultados, percebe-se que no outro extremo, grande parte das proteínas não hipotéticas têm E-Value ruim, maior que A partir dessa constatação, fez-se um levantamento de todas as ORFs e chegou-se ao gráfico da figura 29. O gráfico mostra que ORFs com E-Value maior que 10-4 apresentam quase 80% de anotações não hipotéticas. Isso demonstra que é temerário transferir anotação de proteínas com E-Value nessa faixa pois não necessariamente a anotação das mesmas estará correta, já que estamos na zona de incerteza. Já para as ORFs com E-Value menor que 10-10, ocorre a situação inversa. Temos apenas um pouco mais de 20% de anotações não hipotéticas. Entretanto, essas anotações são justamente as mais confiáveis, pois estão muito abaixo da zona de incerteza e possuem anotação válida.

111 111 Figura 29: Relação entre E-Value e quantidade de proteínas hipotéticas. Verifica-se que proteínas com E-Value >10e -4 possuem alto percentual de proteínas não hipotéticas Valores de bit-escore na zona de incerteza Dado que sugerimos o valor 100 do bit-escore para ser usado como limiar na aceitação de resultados do BLAST (item Estimativa de limiar para uso do bit-escore ), cabe, também, investigar, alguns hits com bit-escore entre 70 e 100. Podemos dizer que esses hits estão na zona de incerteza. Aproveitando os mesmos resultados da execução do BLAST contra o TrEMBL, esses hits estão listados na tabela 9. Tabela 9: Resultado BLAST contra o TrEmbl (seqüências com bit-escore entre 70 e 100). Os candidatos para investigação detalhada tem a marca Gi Anotacao do melhor hit Bit-escore escore E-Value AC:Q8R644;DE:Ribonuclease BN (EC ).OS:Fusobacterium nucleatum (subsp. nucleatum). 71, ,89E-12 AC:Q8RCA1;DE:Predicted ATPase or kinase.os:thermoanaerobacter tengcongensis. 72, ,34E-13 AC:O25612;DE:Hypothetical protein HP0958.OS:Helicobacter pylori (Campylobacter pylori). 74, ,46E AC:Q8U2T5;DE:Hypothetical protein PF0745.OS:Pyrococcus furiosus. 75, ,74E AC:Q8F0A5;DE:YgbB family protein.os:leptospira interrogans. 76, ,68E-14 AC:Q8RBH8;DE:Hypothetical protein TTE0840.OS:Thermoanaerobacter tengcongensis. 77, ,17E-14 AC:Q8U9C3;DE:Hypothetical protein myg1.os:agrobacterium tumefaciens (strain C58 / ATCC 33970). 77, ,49E-14 AC:Q8RIQ6;DE:Phophatidylinositol-4-phosphate 5-kinase (EC ).OS:Fusobacterium nucleatum (subsp. nucleatum). 80, ,30E AC:Q8XKA6;DE:Hypothetical protein CPE1494.OS:Clostridium perfringens. 83, ,39E AC:Q8EEV4;DE:Lipoprotein releasing system transmembrane protein LolC,putative.OS:Shewanella oneidensis. 84, ,46E-15

112 112 AC:Q7VD55;DE:Uncharacterized YfiH family conserved protein.os:prochlorococcus marinus. 85, ,78E-16 AC:Q8PZQ5;DE:Hypothetical protein MM0437.OS:Methanosarcina mazei (Methanosarcina frisia). 88, ,59E-17 AC:Q8UFG0;DE:Hypothetical protein Atu1437.OS:Agrobacterium tumefaciens (strain C58 / ATCC 33970). 88, ,62E-17 AC:Q9KH70;DE:Thermostable dipeptidase Bdp.OS:Brevibacillus borstelensis. 88, ,16E AC:Q9PBG4;DE:Hypothetical protein Xf2180.OS:Xylella fastidiosa. 88, ,31E-18 AC:Q9RXE3;DE:Hypothetical protein DR0370.OS:Deinococcus radiodurans. 93, ,04E AC:Q89DW5;DE:Bll7322 protein.os:bradyrhizobium japonicum. 95, ,82E AC:Q83D54;DE:Hypothetical protein.os:coxiella burnetii. 97, ,81E AC:Q8KU33;DE:Putative lipase LipB.OS:Legionella pneumophila. 99, ,46E-20 Todos esses hits são duvidosos pois a similaridade de seqüência não é suficientemente elevada para uma anotação segura. Para eliminar a dúvida, o único caminho é fazer uma investigação manual e demorada. Marcamos os candidatos para investigação detalhada com a marca na tabela, pois na anotação dos demais constam termos como hypothetical, predicted e uncharacterized e, portanto, intrinsecamente não conclusivos. Entre os candidatos, selecionamos, como mero exemplo, a ORF (5ª linha da tabela), a fim de investigar se é possível realizar a anotação com uma maior quantidade de análises. Os passos realizados na investigação descrita a seguir poderiam ser usados como um roteiro genérico para qualquer usuário interessado em questionar com mais detalhes hits apresentados pelo BLAST, fornecendo mais subsídios para aceitar-se ou não um hit cujo bit-escore (ou E-Value) encontra-se na zona de incerteza. Roteiro utilizado para pesquisar hits do BLAST na zona de incerteza: 1) Anotar o gi ou Ac do hit do BLAST em questão, e pesquisá-lo no sítio do NCBI ( na opção search: protein. No nosso caso, chegamos ao resultado da figura 30.

113 113 Figura 30 : Pesquisa por uma proteína no sítio do NCBI 2) Clicar em Blink para recuperar a lista completa de hits do BLAST. Para a seqüência em questão, chega-se ao resultado da figura 31. Analisar os resultados e os escores. Escolher o hit de maior escore mas que tenha uma anotação válida, ou seja, que não seja proteína hipotética, putativa nem predita. No nosso caso, além de descartar esse casos, também não levamos em consideração os hits que têm como origem organismos cujo nome comece por Chlamyd, para evitar erro de anotação cíclica. Com esse cuidado, o hit de gi= , o qual confirmaria a anotação YgbB family, foi descartado. Após essa filtragem, o hit de maior escore é o cujo gi= (6º resultado da listagem da figura 31). A anotação desse hit ( 2-Cmethyl-D-erythritol 2,4-cyclodiphosphate sinthase ) é, aparentemente, totalmente diferente de YgbB family. Mas, vamos continuar com a investigação pois podemos ter um problema de ontologia. Figura 31: Resultado do BLAST para a seqüência gi=

114 114 3) Para analisar a similaridade, fazer um alinhamento das duas seqüências (a seqüência que utilizamos como entrada e a seqüência selecionada no item 2), utilizando o programa blast2seq. Isso pode ser feito clicando-se no escore (figura 31). Chegamos, então, ao resultado da figura 32. Analisar esse alinhamento. O valor de bitescore (84) não nos permite afirmar nada pois também está na zona de incerteza. Nesse caso, temos que explorar mais o problema, através da descrição do próximo passo. Figura 32: Resultado do alinhamento local usando o programa blast2seq 4) Clicar em Domains para verificar se as seqüências possuem domínios em comum. Se sim, verificar a extensão do domínio para garantir que não estamos anotando apenas a funcionalidade do domínio. Devemos lembrar que um domínio nos fornece apenas uma funcionalidade de uma proteína e o conjunto de funcionalidades de uma proteína é que dará a sua função final. Finalmente, após a execução do passo 4, obtivemos o resultado da figura 33.

115 115 Figura 33: Resultado da busca por domínios conservados para a ORF Para se realizar a anotação final devemos primeiramente analisar os dois alinhamentos para verificar se o nível de similaridade e a extensão do alinhamento indicam uma cobertura suficiente para a transferência de função. Pela figura acima pode se observar que este é o caso, e, portanto devemos decidir qual a denominação final para a proteína a ser anotada. O problema que surge é que temos dois candidatos, sendo um domínio do PFAM (YgbB) e uma família COG (COG0245, IspF). A anotação final poderia ser dada pelo texto do PFAM, proteína da família YgbB, pois foi o que forneceu o maior bit-escore (figura 33). Entretanto, esta anotação não faz referência direta à função da proteína. Justamente registros como estes nos bancos de dados dificultam a anotação automática. Neste ponto o problema da ontologia dos termos ganha grande destaque. Quando se analisa a descrição da família YgbB no PFAM constata-se que um dos componentes desta é a enzima 4-difosfocitidil-2C-metil-D-eritrol sintetase (MECDP; EC: ), justamente a que esta descrita na família COG0245. Em suma, os termos são equivalentes, mas dificilmente

Busca em banco de dados

Busca em banco de dados Busca em banco de dados Busca em banco de dados A quantidade imensa de dados existentes nos bancos públicos torna critica a existência de ferramentas eficientes que permitam a recuperação de dados desejados

Leia mais

Turma de terça-feira 14 hs. Total: 31 alunos

Turma de terça-feira 14 hs. Total: 31 alunos n. alunos Turma de terça-feira 14 hs 14 Distribuição de notas 12 10 8 6 4 2 Média = 6,7 0 0 -- 2 2 -- 4 4 -- 6 6 -- 8 8 -- 10 notas 18 alunos Total: 31 alunos BANCO DE DADOS BIOLÓGICOS Aula 12 Estudo dirigido

Leia mais

BANCO DE DADOS BIOLÓGICOS Aula 11

BANCO DE DADOS BIOLÓGICOS Aula 11 BANCO DE DADOS BIOLÓGICOS Aula 11 Estudo dirigido 1. O que fazer com uma sequência de DNA? 2. Bancos de dados públicos e internacionais: GenBank, ENA, DDBJ; 3. NCBI; EMBL; DDBJ; 4. Sequências completas

Leia mais

Identificação de Padrões em Proteínas Utilizando a Ferramenta de Bioinformática CD- Search

Identificação de Padrões em Proteínas Utilizando a Ferramenta de Bioinformática CD- Search 4ª Jornada Científica e Tecnológica e 1º Simpósio de Pós-Graduação do IFSULDEMINAS 16, 17 e 18 de outubro de 2012, Muzambinho MG Identificação de Padrões em Proteínas Utilizando a Ferramenta de Bioinformática

Leia mais

Bioinformática. Licenciaturas em Biologia, Bioquímica, Biotecnologia, Engenharia Biológica. João Varela

Bioinformática. Licenciaturas em Biologia, Bioquímica, Biotecnologia, Engenharia Biológica. João Varela Bioinformática Licenciaturas em Biologia, Bioquímica, Biotecnologia, Engenharia Biológica João Varela jvarela@ualg.pt Docentes João Varela (bioinformática: conceitos, bases de dados, aplicações, pesquisa

Leia mais

Busca em banco de dados

Busca em banco de dados Busca em banco de dados Busca em banco de dados A quantidade imensa de dados existentes nos bancos públicos torna critica a existência de ferramentas eficientes que permitam a recuperação de dados desejados

Leia mais

introdução ao curso

introdução ao curso introdução ao curso http://www.ifsc.usp.br/~rdemarco/ffi0760/ffi0760.htm Cronograma aulas teóricas Aulas teóricas (Segundas-feiras - Sala 146) 30/07-introdução ao curso. 06/08-Busca em bancos de dados

Leia mais

Banco de Dados Biológicos

Banco de Dados Biológicos Pontifícia Universidade Católica de Goiás Departamento de Biologia Disciplina: Bioinformática Bio1015 Banco de Dados Biológicos Prof. Macks Wendhell Gonçalves, Msc mackswendhell@gmail.com INTRODUÇÃO BANCO

Leia mais

UFPel CDTec Biotecnologia. Anotação de genomas. MSc. Frederico schmitt Kremer

UFPel CDTec Biotecnologia. Anotação de genomas. MSc. Frederico schmitt Kremer UFPel CDTec Biotecnologia Anotação de genomas MSc. Frederico schmitt Kremer A anotação de um genoma consiste na identificação de suas regiões funcionais ou de relevância biológico, o que pode incluir:

Leia mais

IBM1029 Introdução à Bioinformática. O Início da Bioinformática 27/03/2017. Aula 2. O Início. Bioionformática: definição

IBM1029 Introdução à Bioinformática. O Início da Bioinformática 27/03/2017. Aula 2. O Início. Bioionformática: definição IBM1029 Introdução à Bioinformática Profa Dra Silvana Giuliatti Departamento de Genética FMRP silvana@fmrp.usp.br O Início da Bioinformática Aula 2 O Início Trabalho de Margaret Dayhoff e colaboradores:

Leia mais

Introdução à Bioinformática e Aplicações

Introdução à Bioinformática e Aplicações Laboratório de Bioinformática, Modelagem e Simulação de Bi Introdução à Bioinformática e Aplicações Osmar Norberto de Souza osmar.norberto@pucrs.br Porto Alegre, Células Tecidos Tecidos Órgãos Sistemas

Leia mais

Universidade Estadual de Maringá - UEM

Universidade Estadual de Maringá - UEM Universidade Estadual de Maringá - UEM Disciplina: Biologia Molecular 6855 T1 e T2 Ciências Biológicas Transcriptoma metodologia ORESTES Profa. Dra. Maria Aparecida Fernandez Estratégia ORESTES ESTs de

Leia mais

TITULO: Implementação do alinhamento de proteínas em GPU utilizando OpenCL PROPOSTA DE TRABALHO DE GRADUAÇÃO

TITULO: Implementação do alinhamento de proteínas em GPU utilizando OpenCL PROPOSTA DE TRABALHO DE GRADUAÇÃO 1 U NIVERSIDADE FEDERAL DE PERNAMBUCO GRADUAÇÃO EM ENGENHARIA DA COMPUTAÇÃO CENTRO DE INFORMÁTICA 2 0 1 6. 1 TITULO: Implementação do alinhamento de proteínas em GPU utilizando OpenCL PROPOSTA DE TRABALHO

Leia mais

- Sequenciamento de genomas nada mais é que a determinação da ordem linear dos nucleotídeos ou bases nitrogenadas de um genoma.

- Sequenciamento de genomas nada mais é que a determinação da ordem linear dos nucleotídeos ou bases nitrogenadas de um genoma. Sequenciamento de genomas - Sequenciamento de genomas nada mais é que a determinação da ordem linear dos nucleotídeos ou bases nitrogenadas de um genoma. O sequenciamento de um genoma é geralmente referido

Leia mais

ANÁLISE DE TANDEM REPEATS CODIFICANTES EM GENOMAS BACTERIANOS

ANÁLISE DE TANDEM REPEATS CODIFICANTES EM GENOMAS BACTERIANOS 5ª Jornada Científica e Tecnológica e 2º Simpósio de Pós-Graduação do IFSULDEMINAS 06 a 09 de novembro de 2013, Inconfidentes/MG ANÁLISE DE TANDEM REPEATS CODIFICANTES EM GENOMAS BACTERIANOS Vinícius A.

Leia mais

Transcritômica. João Carlos Setubal IQ/USP outubro de 2013

Transcritômica. João Carlos Setubal IQ/USP outubro de 2013 Transcritômica João Carlos Setubal IQ/USP outubro de 2013 Objetivo Obter, analisar, e interpretar dados de expressão gênica mrnas (que vão virar proteína) RNAs (que não vão virar proteína; ncrnas) O gene

Leia mais

MIDB-OP: um Modelo de Integração de Dados Biológicos apoiado em Ontologias e Procedência de dados Caroline Beatriz Perlin

MIDB-OP: um Modelo de Integração de Dados Biológicos apoiado em Ontologias e Procedência de dados Caroline Beatriz Perlin MIDB-OP: um Modelo de Integração de Dados Biológicos apoiado em Ontologias e Procedência de dados Caroline Beatriz Perlin Orientador: Prof. Dr. Ricardo Rodrigues Ciferri Agenda Introdução Bancos de dados

Leia mais

Bioinformática. João Varela Aulas T7-T8 CURSOS EM BIOLOGIA, BIOQUÍMICA, BIOTECNOLOGIA, E ENGENHARIA BIOLÓGICA

Bioinformática. João Varela Aulas T7-T8 CURSOS EM BIOLOGIA, BIOQUÍMICA, BIOTECNOLOGIA, E ENGENHARIA BIOLÓGICA Bioinformática CURSOS EM BIOLOGIA, BIOQUÍMICA, BIOTECNOLOGIA, E ENGENHARIA BIOLÓGICA João Varela jvarela@ualg.pt Aulas T7-T8 Esquema de anotação Annothaton 1. Determinar a localização das ORFs presentes

Leia mais

Anotação de genomas II

Anotação de genomas II Anotação de genomas II Anotação de genomas Uma vez descrito a seqüência do genoma de um organismo e realizada a anotação dos genes presentes obtemos uma extensa lista de potenciais transcritos. Como vimos

Leia mais

2 Contexto Biológico Genômica

2 Contexto Biológico Genômica 15 2 Contexto Biológico Neste capítulo abordaremos o contexto biológico para o entendimento deste trabalho. Serão abordados os aspectos gerais da genômica, expostos os processos do sequenciamento genético

Leia mais

Introdução a Bioinformática

Introdução a Bioinformática Pontifícia Universidade Católica de Goiás Departamento de Biologia Disciplina: Bioinformática Bio1015 Introdução a Bioinformática Prof. Macks Wendhell Gonçalves, Msc mackswendhell@gmail.com EMENTA Introdução

Leia mais

Métodos de alinhamento de sequências biológicas. Marcelo Falsarella Carazzolle

Métodos de alinhamento de sequências biológicas. Marcelo Falsarella Carazzolle Métodos de alinhamento de sequências biológicas Marcelo Falsarella Carazzolle Resumo - Introdução - Alinhamentos ótimos - Global - Local (Smith-Waterman) - Semi global - Matrizes de alinhamento (BLOSUM)

Leia mais

Genômica. Desenvolvimento e Aplicações. Prof. Manoel Victor

Genômica. Desenvolvimento e Aplicações. Prof. Manoel Victor Genômica Desenvolvimento e Aplicações Definições Genoma: informações do complemento genético de um indivíduo ou de sua espécie freqüentemente entendido como a seqüência de nucleotídeos do genoma Genômica:

Leia mais

Prof. Dr. Rodrigo Matheus Pereira. Faculdade de Ciências Biológicas e Ambentais FCBA-UFGD

Prof. Dr. Rodrigo Matheus Pereira. Faculdade de Ciências Biológicas e Ambentais FCBA-UFGD Prof. Dr. Rodrigo Matheus Pereira rodrigopereira@ufgd.edu.br Faculdade de Ciências Biológicas e Ambentais FCBA-UFGD Bioinformática Introdução a Bioinformática 1. Histórico; 2. Bioinformática no Brasil;

Leia mais

Bases de Dados. Freqüentemente usadas em. Bioinformática

Bases de Dados. Freqüentemente usadas em. Bioinformática Bases de Dados Freqüentemente usadas em Bioinformática Ana Carolina Q. Simões anakqui@yahoo.com Organização da aula NCBI Translate tool Genome Browser EBI SwissProt KEGG Gene Ontology SMD Revistas relevantes

Leia mais

Bioinformática e Genética Animal. Pâmela A. Alexandre Doutoranda

Bioinformática e Genética Animal. Pâmela A. Alexandre Doutoranda Bioinformática e Genética Animal Pâmela A. Alexandre Doutoranda Descoberta da estrutura do DNA» Watson e Crick, 1953 DNA RNA Proteína Projeto Genoma Humano» 1990» 18 países» US$ 2,7 Bi» 13 anos (previsão

Leia mais

Introdução a Bioinformática

Introdução a Bioinformática Pontifícia Universidade Católica de Goiás Departamento de Biologia Disciplina: Bioinformática Bio1015 Introdução a Bioinformática Prof. Macks Wendhell Gonçalves, Msc mackswendhell@gmail.com EMENTA Introdução

Leia mais

ESCLEROSE LATERAL AMIOTRÓFICA ANÁLISES IN SILICO DAS MUTAÇÕES A4V E A4F DA PROTEÍNA SOD1

ESCLEROSE LATERAL AMIOTRÓFICA ANÁLISES IN SILICO DAS MUTAÇÕES A4V E A4F DA PROTEÍNA SOD1 ESCLEROSE LATERAL AMIOTRÓFICA ANÁLISES IN SILICO DAS MUTAÇÕES A4V E A4F DA PROTEÍNA SOD1 Aloma Nogueira Rebello da Silva Bióloga (UNIRIO) Programa de Pós-Graduação em Biologia Molecular e Celular aloma.nogueira@gmail.com

Leia mais

Organização Gênica de Eucariotos. Prof. Odir A. Dellagostin

Organização Gênica de Eucariotos. Prof. Odir A. Dellagostin Organização Gênica de Eucariotos Prof. Odir A. Dellagostin Classificação dos seres vivos Domínio Eukarya Reinos Protistas (protozoários e leveduras) Fungi (fungos) Plantae (vegetais) Animalia (animais)

Leia mais

Bioinformática para o Citrus EST Project (CitEST)

Bioinformática para o Citrus EST Project (CitEST) Bioinformática para o Citrus EST Project (CitEST) Marcelo da Silva Reis 1 1 Instituto de Matemática e Estatística, Universidade de São Paulo 20 de maio de 2009 Organização da Apresentação Esta apresentação

Leia mais

DBMODELING: um banco de dados de modelagem de proteínas e caracterização de vias metabólicas.

DBMODELING: um banco de dados de modelagem de proteínas e caracterização de vias metabólicas. DBMODELING: um banco de dados de modelagem de proteínas e caracterização de vias metabólicas. Fundamentos em Análise Proteômica Laboratório de Sistemas Biomoleculares Nelson J.F. Silveira 23/07/2004 Objetivos

Leia mais

Análise de dados provenientes de técnicas moleculares

Análise de dados provenientes de técnicas moleculares CIIMAR Curso de formação Análise de dados provenientes de técnicas moleculares Formadores: Filipe Pereira e Filipe Lopes Manual do Curso 1 Índice Objetivo Geral do Curso... 3 Público-alvo... 3 Objetivos

Leia mais

Principais algoritmos de alinhamento de sequências genéticas. Alexandre dos Santos Cristino

Principais algoritmos de alinhamento de sequências genéticas. Alexandre dos Santos Cristino Principais algoritmos de alinhamento de sequências genéticas Alexandre dos Santos Cristino http://www.ime.usp.br/~alexsc e-mail: alexsc@ime.usp.br Definição de alinhamento de sequências Comparação de duas

Leia mais

Estudos das ômicas: Genômica; Transcriptomica; Metagenômica. Aula 7

Estudos das ômicas: Genômica; Transcriptomica; Metagenômica. Aula 7 Estudos das ômicas: Genômica; Transcriptomica; Metagenômica Aula 7 DOGMA DA GENÉTICA MOLECULAR Genoma Transcriptoma Proteoma DOGMA DA GENÉTICA MOLECULAR Genômica Transcriptômica Proteômica Regiões codantes,

Leia mais

A BIOINFORMÁTICA APLICADA NO MELHORAMENTO DE PLANTAS

A BIOINFORMÁTICA APLICADA NO MELHORAMENTO DE PLANTAS A BIOINFORMÁTICA APLICADA NO MELHORAMENTO DE PLANTAS Fabrício Martins Lopes (1) (1) Docente Universidade Tecnológica Federal do Paraná - UTFPR, Av. Alberto Carazzai, 1640, Cornélio Procópio/PR, 86300-000,

Leia mais

PAULO EDUARDO BRANDÃO, PhD DEPARTAMENTO DE MEDICINA VETERINÁRIA PREVENTIVA E SAÚDE ANIMAL FACULDADE DE MEDICINA VETERINÁRIA E ZOOTECNIA UNIVERSIDADE

PAULO EDUARDO BRANDÃO, PhD DEPARTAMENTO DE MEDICINA VETERINÁRIA PREVENTIVA E SAÚDE ANIMAL FACULDADE DE MEDICINA VETERINÁRIA E ZOOTECNIA UNIVERSIDADE CONCEITOS EM EPIDEMIOLOGIA E FILOGENIA MOLECULARES PAULO EDUARDO BRANDÃO, PhD DEPARTAMENTO DE MEDICINA VETERINÁRIA PREVENTIVA E SAÚDE ANIMAL FACULDADE DE MEDICINA VETERINÁRIA E ZOOTECNIA UNIVERSIDADE DE

Leia mais

Protein Homology detection by HMM-comparation.

Protein Homology detection by HMM-comparation. UNIVERSIDADE FEDERAL DE PERNAMBUCO Cin Centro de Informática Pós-Graduação em Ciência da Computação Protein Homology detection by HMM-comparation. Johannes Soding Vol. 21 no. 7 2005, BIOINFORMATICS Recife,

Leia mais

Transcrição é a primeira etapa da expressão do gene. Envolve a cópia da sequência de DNA de um gene para produzir uma molécula de RNA

Transcrição é a primeira etapa da expressão do gene. Envolve a cópia da sequência de DNA de um gene para produzir uma molécula de RNA TRANSCRIÇÃO - Pontos Principais: Transcrição é a primeira etapa da expressão do gene. Envolve a cópia da sequência de DNA de um gene para produzir uma molécula de RNA A transcrição é realizada por enzimas

Leia mais

OBJETIVOS AULA 10 DESENVOLVIMENTO DESCOBERTA. ¾ Otimização de Moléculas Bioativas. ¾ Integração com o processo de HTS

OBJETIVOS AULA 10 DESENVOLVIMENTO DESCOBERTA. ¾ Otimização de Moléculas Bioativas. ¾ Integração com o processo de HTS AULA 10 2 DESCOBERTA DESENVOLVIMENTO Pesquisa Básica (Pré-clínica) (Fases Clínicas I IV) Identificação do alvo molecular Triagens clínicas conduzidas em humanos: avaliação da segurança, impacto no estado

Leia mais

Marcelo Reis. Centro APTA Citros Sylvio Moreira. 18 de julho de 2007

Marcelo Reis. Centro APTA Citros Sylvio Moreira. 18 de julho de 2007 I n t r o d u ç ã o à B i o i n f o r m á t i c a Marcelo Reis Centro APTA Citros Sylvio Moreira 18 de julho de 2007 Duração estimada: ~ 2,5h (manhã) ~ 2,5h (tarde) A g e n d a Manhã: Que trem é esse,

Leia mais

Descreve a história da vida na Terra Investiga os processos responsáveis por essa história

Descreve a história da vida na Terra Investiga os processos responsáveis por essa história Aula 1 Evolução Biologia Evolutiva x Evolução Biológica O termo Evolução biológica refere-se ao processo de modificação e surgimento das espécies na Terra Biologia Evolutiva refere-se à disciplina que

Leia mais

Profa. Dra. Cecília Dias Flores

Profa. Dra. Cecília Dias Flores Profa. Dra. Cecília Dias Flores Regente pela Disciplina de Bioinformática - Curso de Biomedicina Depto. Ciências Exatas e Sociais Aplicadas Coordenadora do curso Informática Biomédica PPG em Ciências da

Leia mais

Alinhamento de seqüências

Alinhamento de seqüências Alinhamento de seqüências Qual a importância do alinhamento de seqüências Permite estabelecer identidades entre sequências Permite a dedução de função de proteínas baseado em similaridade Permite a definição

Leia mais

A atuação profissional do graduado em Biotecnologia.

A atuação profissional do graduado em Biotecnologia. A atuação profissional do graduado em Biotecnologia. Com ênfases especialmente fortes em e Celular, e Bioinformática, o profissional em Biotecnologia formado pela UFRGS irá ocupar uma ampla lacuna existente

Leia mais

DEFINIÇÕES EM EPIDEMIOLOGIA MOLECULAR E CONCEITOS BÁSICOS EM BIOLOGIA MOLECULAR

DEFINIÇÕES EM EPIDEMIOLOGIA MOLECULAR E CONCEITOS BÁSICOS EM BIOLOGIA MOLECULAR DEFINIÇÕES EM E DEFINIÇÕES EM E CONCEITOS BÁSICOS EM BIOLOGIA PARA QUE SERVE ESTA AULA 1. DEFINIÇÕES EM CONCEITUAÇÃO DE DIFERENCIAÇÃO ENTRE, TAXONOMIA E FILOGENIA 2. CONCEITOS EM BIOLOGIA APRESENTAR (REVER)

Leia mais

Créditos. Introdução. Sumário. Agradecimento. Introdução. Análise de Expressão Gênica. Tecnologia de Microarray

Créditos. Introdução. Sumário. Agradecimento. Introdução. Análise de Expressão Gênica. Tecnologia de Microarray Créditos Biológicos: Expressão Gênica Estagiário PAE: Pablo Andretta Jaskowiak Professor: Ricardo J. G. B. Campello Partes destes slides são baseadas em materiais de Ivan Gesteira Costa Filho http://www.cin.ufpe.br/~igcf/

Leia mais

Capítulo 8. Versão 0.4. Filogenômica

Capítulo 8. Versão 0.4. Filogenômica Capítulo 8 Versão 0.4 Filogenômica O termo "Filogenômica" é definido de várias maneiras, mas, em geral, a definição é relacionada com a intersecção dos campos da Genômica e da evolução biológica. Aqui,

Leia mais

O que é Bioinformática?

O que é Bioinformática? Bioinformática O que é Bioinformática? O que é Bioinformática? The mathematical, statistical and computing methods that aim to solve biological problems using DNA and amino acid sequences and related Information.

Leia mais

Banco de Dados Biológicos conceitos básicos, indexação, VSTree

Banco de Dados Biológicos conceitos básicos, indexação, VSTree SCC0141 Bancos de Dados e suas Aplicações Banco de Dados Biológicos conceitos básicos, indexação, VSTree Felipe Alves da Louza Profª Cristina D. A. Ciferri Conteúdo Conceitos básicos Banco de dados biológicos

Leia mais

DESVENDANDO O GENOMA HUMANO

DESVENDANDO O GENOMA HUMANO 2º EM Biologia Professor João DESVENDANDO O GENOMA HUMANO Um breve histórico da Genética Hereditariedade (1865); Localização dos genes nos cromossomos (1911); É proposta a molécula helicoidal de DNA (1953);

Leia mais

Explorando genomas: predição de genes e elementos transponíveis Proporção de diferentes sequências no genoma

Explorando genomas: predição de genes e elementos transponíveis Proporção de diferentes sequências no genoma Explorando genomas: predição de genes e elementos transponíveis Proporção de diferentes sequências no genoma 1 Especies Genoma Genes 11 O número de genes varia entre as espécies 2 Anotação do Genoma 1

Leia mais

alinhamento global-alinhamento múltiplo de seqüências

alinhamento global-alinhamento múltiplo de seqüências alinhamento global-alinhamento múltiplo de seqüências Alinhamento múltiplos de seqüências Qual a importância de se realizar alinhamentos múltiplos em oposição a alinhamentos em pares? Alinhamento múltiplos

Leia mais

P E R N AMBUCO UMA FERRAMENTA WEB PARA INFERÊNCIA DE HAPLÓTIPOS PROPOSTA DE TRABALHO DE GRADUAÇÃO

P E R N AMBUCO UMA FERRAMENTA WEB PARA INFERÊNCIA DE HAPLÓTIPOS PROPOSTA DE TRABALHO DE GRADUAÇÃO U NIVERSIDADE FEDERAL DE P E R N AMBUCO GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO CENTRO DE INFORMÁTICA UMA FERRAMENTA WEB PARA INFERÊNCIA DE HAPLÓTIPOS PROPOSTA DE TRABALHO DE GRADUAÇÃO Aluno Ranieri Valença

Leia mais

Programas de Alinhamento. Sumário

Programas de Alinhamento. Sumário Programas de Alinhamento Departamento de Genética FMRP- USP Alynne Oya Chiromatzo alynne@lgmb.fmrp.usp.br Sumário Introdução para buscas em base de dados Fasta Blast Programa para alinhamento Clustal 1

Leia mais

Alinhamento de sequências

Alinhamento de sequências Pontifícia Universidade Católica de Goiás Departamento de Biologia Alinhamento de sequências Prof. Macks Wendhell Gonçalves, Msc mackswendhell@gmail.com Definição O alinhamento de sequências consiste no

Leia mais

1164 BIOLOGIA ESTRUTURAL Aula 4 Prof. Dr. Valmir Fadel

1164 BIOLOGIA ESTRUTURAL Aula 4 Prof. Dr. Valmir Fadel Apesar da grande quantidade de seqüências determinadas (260.175 seqüências e 3.874.166 transcrições no UniProtKB/TrEMBL em 06/03/2007) a quantidade de estruturas tridimensionais determinadas é significativamente

Leia mais

Modelagem Comparativa de Proteínas

Modelagem Comparativa de Proteínas Modelagem Comparativa de Proteínas Bioinformática Estrutural Aula 3 3 de Junho de 2013 Paula Kuser Falcão Laboratório de Bioinformática Aplicada Embrapa Informática Agropecuária Por que predizer a estrutura?

Leia mais

Predição de novo de genes

Predição de novo de genes Anotação de genomas Predição de novo de genes Conforme vimos na aula anterior o simples seqüenciamento de um genoma de um organismo eucarioto não fornece de modo imediato a informação sobre as proteínas

Leia mais

Programa Analítico de Disciplina BQI460 Bioinformática

Programa Analítico de Disciplina BQI460 Bioinformática 0 Programa Analítico de Disciplina Departamento de Bioquímica e Biologia Molecular - Centro de Ciências Biológicas e da Saúde Número de créditos: Teóricas Práticas Total Duração em semanas: 15 Carga horária

Leia mais

TÍTULO: ANÁLISE DA SEMELHANÇA ESTRUTURAL ENTRE PROTEÍNAS ATRAVÉS DE MÉTODOS MATEMÁTICOS

TÍTULO: ANÁLISE DA SEMELHANÇA ESTRUTURAL ENTRE PROTEÍNAS ATRAVÉS DE MÉTODOS MATEMÁTICOS Anais do Conic-Semesp. Volume 1, 2013 - Faculdade Anhanguera de Campinas - Unidade 3. ISSN 2357-8904 TÍTULO: ANÁLISE DA SEMELHANÇA ESTRUTURAL ENTRE PROTEÍNAS ATRAVÉS DE MÉTODOS MATEMÁTICOS CATEGORIA: CONCLUÍDO

Leia mais

1 de 7 19/12/ :16

1 de 7 19/12/ :16 1 de 7 19/12/2017 11:16 MELHORAMENTO E DIVERSIDADE GENÉTICA Muito se fala sobre genômica e genoma humano, milhares ou milhões de reais são investidos anualmente nesta área pelo mundo, e várias revistas

Leia mais

Alinhamento de Sequências e Genômica Comparativa

Alinhamento de Sequências e Genômica Comparativa Encontro França-Brasil de Bioinformática Universidade Estadual de Santa Cruz (UESC) Ilhéus-BA - Brasil Alinhamento de Sequências e Genômica Comparativa Maria Emília M. T. Walter Departamento de Ciência

Leia mais

Instituto Superior de Ciências da Saúde-Norte Curso de Bioquímica 2ºAno Projecto Tutorial BIOINFORMÁTICA

Instituto Superior de Ciências da Saúde-Norte Curso de Bioquímica 2ºAno Projecto Tutorial BIOINFORMÁTICA Instituto Superior de Ciências da Saúde-Norte Curso de Bioquímica 2ºAno Projecto Tutorial 2006-2007 BIOINFORMÁTICA Bioinformática PROJECTO TUTORIAL YFP YOUR FAVORITE PROTEIN Introdução A bioinformática

Leia mais

Sequenciamento Montagem Anotação

Sequenciamento Montagem Anotação O GENOMA HUMANO Sequenciamento Montagem Anotação Conceitos Conceitos Sequência bruta: sequências de nucleotídeos originadas de cada inserto clonado (reads) Sequências de final pareado: leituras obtidas

Leia mais

SEQUENCIAMENTO DE GENOMAS TUMORAIS

SEQUENCIAMENTO DE GENOMAS TUMORAIS SEQUENCIAMENTO DE GENOMAS TUMORAIS INTRODUÇÃO Década de 70: Maxam Gilbert e Sanger Década de 80; Sequenciadores automáticos Aplicações: Biologia, Ecologia, Medicina, Genômica e Biotecnologia Capítulo:

Leia mais

Capítulo 10. versão 0.5. Estrutura de ácidos nucleicos

Capítulo 10. versão 0.5. Estrutura de ácidos nucleicos Capítulo 10 versão 0.5 Estrutura de ácidos nucleicos Todos os livros de biologia molecular, em qualquer nível, mostram em detalhes a estrutura "Watson e Crick cis" do DNA, onde duas fitas polinucleotídicas

Leia mais

Introdução à Bioquímica Celular

Introdução à Bioquímica Celular Pontifícia Universidade Católica de Goiás Departamento de Biologia Introdução à Bioquímica Celular Prof. Msc. Macks Wendhell Gonçalves mackswendhell@gmail.com O que é Biologia Celular? É o ramo da ciência

Leia mais

Anotação de Genomas. Fabiana G. S. Pinto

Anotação de Genomas. Fabiana G. S. Pinto Anotação de Genomas Fabiana G. S. Pinto Obtenção de Seqüências geradas pelo MegaBace 1000 Dados brutos (medidas analógicas) de saída do seqüênciamento Base calling BIOINFORMÁTICA * PHRED: - Transforma

Leia mais

Disciplina de Biologia Celular. Profª Larissa dos Santos

Disciplina de Biologia Celular. Profª Larissa dos Santos Universidade Salgado de Oliveira Disciplina de Biologia Celular Organização Geral e Evolução das Células Profª Larissa dos Santos Evolução do conceito celular 1663 célula seria pequena cela (físico inglês

Leia mais

MODELAGEM DE PROTEÍNAS COM IMPORTÂNCIA FARMACÊUTICA E BIOMÉDICA POR MEIO DE SIMULAÇÃO COMPUTACIONAL

MODELAGEM DE PROTEÍNAS COM IMPORTÂNCIA FARMACÊUTICA E BIOMÉDICA POR MEIO DE SIMULAÇÃO COMPUTACIONAL MODELAGEM DE PROTEÍNAS COM IMPORTÂNCIA FARMACÊUTICA E BIOMÉDICA POR MEIO DE SIMULAÇÃO COMPUTACIONAL Ronaldo Correia da SILVA SILVA, Ronaldo Correia da. Modelagem de proteínas com importância farmacêutica

Leia mais

A Biologia na Era da Computação. Hugo Brandão Uchôa Laboratório de Sistemas Biomoleculares IBILCE-UNESP

A Biologia na Era da Computação. Hugo Brandão Uchôa Laboratório de Sistemas Biomoleculares IBILCE-UNESP A Biologia na Era da Computação Hugo Brandão Uchôa Laboratório de Sistemas Biomoleculares IBILCE-UNESP Tópicos Motivação Áreas da Computação Parmodel BioLinux MyODB Conclusão Motivação Grande desenvolvimento

Leia mais

Montagem de regiões gênicas

Montagem de regiões gênicas Montagem de regiões gênicas Pedro Ivo Gomes de Faria Departamento de Ciência da Computação Instituto de Matemática e Estatística Universidade de São Paulo Orientador: Prof. Dr. Alan Durham Pedro Ivo Gomes

Leia mais

Bioinformática Básica

Bioinformática Básica Bioinformática Básica Domínios Conservados Proteicos Rafael Dias Mesquita rdmesquita@iq.ufrj.br Laboratório de Bioinformática Departamento de Bioquímica Instituto de Química - UFRJ Objetivos Apresentação

Leia mais

Tipos de Dados Biológicos e Multimídia

Tipos de Dados Biológicos e Multimídia Tipos de Dados Biológicos e Multimídia Arthur Emanuel de O. Carosia Felipe Alves da Louza Luana Peixoto Annibal 1 Dados Biológicos São dados ou medidas coletadas a partir de fontes biológicas São geralmente

Leia mais

Estrutura covalente de proteínas estrutura tridimensional. Proteina: estrutura covalente com muitas restrições conformacionais

Estrutura covalente de proteínas estrutura tridimensional. Proteina: estrutura covalente com muitas restrições conformacionais Estrutura covalente de proteínas estrutura tridimensional Proteina: estrutura covalente com muitas restrições conformacionais M. Teresa Machini IQ/USP Análise de sequência de aminoácidos Conteúdo de aminoácidos

Leia mais

Bases de dados de interesse biológico

Bases de dados de interesse biológico Bases de dados de interesse biológico Pedro Fernandes Instituto Gulbenkian de Ciência Oeiras, Portugal 15-9-2005 LEBM - Bioinformática 1 Bases de dados em Biologia Antes do aparecimento da Biologia Molecular

Leia mais

Motantagem de Contigs de sequências de genomas e Transcriptomas. Introdução

Motantagem de Contigs de sequências de genomas e Transcriptomas. Introdução Motantagem de Contigs de sequências de genomas e Transcriptomas Introdução As novas tecnologias de sequenciamento conseguem produzir uma quantidade de dados muito grande com custos baixos. A velocidade

Leia mais

Sequenciamento de genoma e transcriptomas

Sequenciamento de genoma e transcriptomas Sequenciamento de genoma e transcriptomas Por que seqüenciar genomas? O seqüenciamento de genomas é o primeiro passo para obter uma descrição completa da composição molecular de cada organismo, pois todas

Leia mais

Biologia Molecular Computacional Homologia

Biologia Molecular Computacional Homologia Biologia Molecular Computacional Homologia Luiz Thibério Rangel O que é homologia? Conceito básico para estudos de genômica comparativa; Passo inicial para estudos de filogenia(omica); Importante para

Leia mais

Alinhamento local- Utilização do BLAST

Alinhamento local- Utilização do BLAST Alinhamento local- Utilização do BLAST BLAST Tipos de BLAST (blastn) Compara nucleotídeos (blastp) Compara proteínas Utiliza nucleotídeo como query, este é traduzido nos seus 6 quadros de leitura e é comparado

Leia mais

Motif Tools. Motif Tools. Edwin Delgado (IME-USP), Milton Yutaka (BIOINFO) 7 de outubro de 2013

Motif Tools. Motif Tools. Edwin Delgado (IME-USP), Milton Yutaka (BIOINFO) 7 de outubro de 2013 7 de outubro de 2013 1. Introdução Objetivos Identificar / predizer motivos em regiões promotoras preditas do genoma da cana (upstream e downstream). Visualizar as predições e análises estatísticas destes

Leia mais

Pró-Reitoria Acadêmica Escola de Exatas, Arquitetura e Meio Ambiente. Curso de Ciências Biológicas. Curso de Ciências Biológicas

Pró-Reitoria Acadêmica Escola de Exatas, Arquitetura e Meio Ambiente. Curso de Ciências Biológicas. Curso de Ciências Biológicas Pró-Reitoria Acadêmica Escola de Exatas, Arquitetura e Meio Ambiente Curso de Ciências Biológicas Trabalho Pró-Reitoria de Conclusão de Graduação de Curso Curso de Ciências Biológicas Projeto de Trabalho

Leia mais

Engenharia Agronômica. Biologia Celular 1º Período

Engenharia Agronômica. Biologia Celular 1º Período Engenharia Agronômica Biologia Celular 1º Período Apresentação Introdução: Estrutura, funções e evoluções das células Cap. 01 (Junqueira e Carneiro) e Biologia das células (Amabis e Martho, UFRJ) videos\a

Leia mais

Prof. Marcelo Langer. Curso de Biologia. Aula 26 Genética

Prof. Marcelo Langer. Curso de Biologia. Aula 26 Genética Prof. Marcelo Langer Curso de Biologia Aula 26 Genética MATERIAL GENÉTICO A primeira atividade é a de orientação do DNA para formar a proteína, que será responsável pela característica genética. DNA é

Leia mais

Prof. João Carlos Setubal

Prof. João Carlos Setubal Prof. João Carlos Setubal QBQ 102 Aula 5 (biomol) Sequenciamento de DNA, genomas e bioinformática Replicação de DNA 5ʹ 3ʹ A replicação pára Reação da DNA Polimerase com dntps síntese de DNA Purina ou

Leia mais

Introdução à Bioquímica

Introdução à Bioquímica Introdução à Bioquímica Nucleotídeos e Ácidos Nucléicos Dra. Fernanda Canduri Laboratório de Sistemas BioMoleculares. Departamento de Física.. UNESP São José do Rio Preto - SP. Genoma! O genoma de um organismo

Leia mais

Universidade Federal do Espírito Santo Centro de Ciências da Saúde Programa de Pós-Graduação em Biotecnologia

Universidade Federal do Espírito Santo Centro de Ciências da Saúde Programa de Pós-Graduação em Biotecnologia Universidade Federal do Espírito Santo Centro de Ciências da Saúde Programa de Pós-Graduação em Biotecnologia Mestrandas: Jucimara e Lígia Ramos Disciplina: Bioinformática Vitória 2016 Índice Introdução

Leia mais

Elisa Boari de Lima Orientador: Thiago de Souza Rodrigues

Elisa Boari de Lima Orientador: Thiago de Souza Rodrigues Uma Metodologia para Identificação de Módulos Formadores de Sequências de Proteínas Mosaicas do Trypanosoma cruzi a partir do Transcriptoma do Parasito Utilizando a Ferramenta BLAST Elisa Boari de Lima

Leia mais

Bioinformática aplicada ao estudo e análise de Genes e Genomas Aula Teórico e Prá/ca

Bioinformática aplicada ao estudo e análise de Genes e Genomas Aula Teórico e Prá/ca Bioinformática aplicada ao estudo e análise de Genes e Genomas Aula Teórico e Prá/ca Prof. Dr. Alessandro de M. Varani Dep. de Tecnologia - UNESP, FCAV Conteúdo da Aula de Hoje Introdução ao GenBank; GOLD

Leia mais

Número de genes versus número de proteínas em eucariotos

Número de genes versus número de proteínas em eucariotos Número de genes versus número de proteínas em eucariotos Bioquímica II SQM0416 Júlia Assirati Tomie Kuriyama Victória Montenegro de Campos Resumo Introdução Características do genoma humano Como foram

Leia mais

Este capítulo possui uma discussão preliminar do contexto biológico necessário para o entendimento e motivação deste trabalho.

Este capítulo possui uma discussão preliminar do contexto biológico necessário para o entendimento e motivação deste trabalho. 17 2 Preliminares Este capítulo possui uma discussão preliminar do contexto biológico necessário para o entendimento e motivação deste trabalho. Na discussão do contexto biológico serão apresentados os

Leia mais

Secretaria de Educação Profissional e Tecnológica Prática Prospecção gênica e Bioinformática

Secretaria de Educação Profissional e Tecnológica Prática Prospecção gênica e Bioinformática Secretaria de Educação Profissional e Tecnológica Prática Prospecção gênica e Bioinformática Dr. Adilson Jayme de Oliveira Instituto Federal de Brasília Campus Planaltina adilson.oliveira@ifb.edu.br 1

Leia mais

Introdução à Bioquímica Celular

Introdução à Bioquímica Celular Pontifícia Universidade Católica de Goiás Departamento de Biologia Introdução à Bioquímica Celular Prof. Msc. Macks Wendhell Gonçalves mackswendhell@gmail.com O que é Biologia Celular? É o ramo da ciência

Leia mais

Sumário. Parte I: O DNA Contém A Informação Biológica

Sumário. Parte I: O DNA Contém A Informação Biológica -1- Sumário Parte I: O DNA Contém A Informação Biológica O Conceito de Gene A evolução do conceito de informação hereditária. O objectivo da Genética Molecular. O conceito de gene. Genótipo e fenótipo.

Leia mais

Determinação da Estrutura de Proteínas

Determinação da Estrutura de Proteínas Centro Brasileiro-Argentino de Biotecnologia Introdução à Biologia Computacional Determinação da Estrutura de Proteínas Paulo enrique C. Godoi Bioinformática objetivo principal é determinar a função de

Leia mais

Introdução ao SRS Sequence Retrieval System. Marcelo Falsarella Carazzolle

Introdução ao SRS Sequence Retrieval System. Marcelo Falsarella Carazzolle Introdução ao SRS Sequence Retrieval System Marcelo Falsarella Carazzolle Resumo Motivação Introdução Bancos de Dados Ferramentas de bioinformática SRS Exemplos Motivação Existem muitos bancos de dados

Leia mais

Anotação de Genomas. Prof. Dr. Alessandro Varani UNESP - FCAV

Anotação de Genomas. Prof. Dr. Alessandro Varani UNESP - FCAV Anotação de Genomas Prof. Dr. Alessandro Varani UNESP - FCAV O que é Anotação? Onde estão os genes (coordenadas)? O que codificam (produto, proteínas)? Como interagem/relacionam (metabolismo)? DNAplotter:

Leia mais

U n i v e rsidade Es tadual de Maringá Centro de Ciências Biológicas /... Res. 022/2012-CI/CCB fl. 1

U n i v e rsidade Es tadual de Maringá Centro de Ciências Biológicas /... Res. 022/2012-CI/CCB fl. 1 1 RESOLUÇÃO N 022/2012-CI/CCB CERTIDÃO Certifico que a presente resolução foi afixada em local de costume, neste Centro e no site http://ccb.uem.br, no dia 28/05/2012. Aprova os componentes curriculares

Leia mais