INSTITUTO OSWALDO CRUZ Pós-Graduação em Biologia Computacional e Sistemas

Transcrição

1 INSTITUTO OSWALDO CRUZ Pós-Graduação em Biologia Computacional e Sistemas KELE TEIXEIRA BELLOZE Priorização de alvos para fármacos no combate a doenças tropicais negligenciadas causadas por protozoários Tese apresentada ao Instituto Oswaldo Cruz como parte dos requisitos para obtenção do título de Doutor em Biologia Computacional de Sistemas. Orientador(es): Prof. Dr. Floriano Paes Silva-Júnior Prof. Dra. Maria Cláudia Reis Cavalcanti Rio de Janeiro 2013

2 INSTITUTO OSWALDO CRUZ Pós-Graduação em Biologia Computacional e Sistemas AUTOR: KELE TEIXERA BELLOZE PRIORIZAÇÃO DE ALVOS PARA FÁRMACOS NO COMBATE A DOENÇAS TROPICAIS NEGLIGENCIADAS CAUSADAS POR PROTOZOÁRIOS Orientador(es): Prof. Dr. Floriano Paes Silva-Júnior Prof. Dra. Maria Cláudia Reis Cavalcanti Aprovada em: Examinadores: Drª. Maria Luiza Machado Campos Presidente Dr. Marcos Augusto dos Santos Dr. Roney Santos Coimbra Suplente: Dr. Oswaldo Gonçalves Cruz I Rio de Janeiro, 27 de setembro de 2013.

3 Agradecimentos À minha mãe Ilda por todo amor e apoio e à minha irmã Vanessa e seu marido Devanilson, pela torcida e por estarem presentes junto à minha mãe, ajudando nos diversos momentos em que não pude estar presente. Ao meu noivo Luiz André, por todo amor, companheirismo e compreensão. A toda sua família pelo carinho e apoio. À minha orientadora Drª. Maria Claudia Cavalcanti por estar sempre presente com suas orientações, sugestões e direcionamento do trabalho. Por acreditar em mim e me oferecer oportunidades de ensino e pesquisa. Ao meu orientador Dr. Floriano Paes Silva Júnior por me receber como aluna de seu grupo de pesquisa. Por todas as orientações, sugestões e apoio. Aos pesquisadores, Drª Maria Luiza Machado Campos, Dr. Roney Santos Coimbra, Dr. Oswaldo Gonçalves Cruz e Dr. Marcos Augusto dos Santos por aceitarem tão prontamente a fazer parte de minha banca. Ao Dr. Roney pela revisão da tese e à Dr. Maria Luiza por mais uma vez estar presente na avaliação de um trabalho meu. À secretária Alessandra e à ex-secretária Márcia Verônica da Pós-Graduação de Biologia Computacional e Sistemas, e às secretárias de apoio predial, Fernanda e Aliny, por toda ajuda durantes esses anos, principalmente nos momentos em que os prazos estavam curtos. Aos amigos que conheci no Laboratório de Bioquímica de Proteínas e Peptídeos: Pina, Vivian, Mário, Patrícia, Bogar, Duda, Gisele, Paulo e Alberto Jr. Às amigas Adriana e Milene e aos amigos Rodrigo Jardim, Diogo e Rafael Cuadrat. Obrigada a todos pelas discussões em biologia e bioinformática. Ao Pina e Rodrigo por toda discussão e apoio computacional também. Às amigas Lourdes e Karol por me receberem sempre tão bem nas minhas vindas e mudança para o Rio de Janeiro. Aos amigos Viviane, Giuliano, Bruno, Francis, Daves, Alessandreia, Eduardo, Lu Campos, Thiago e Cardoso por tantos anos de amizade e torcida. A todos os amigos do curso de graduação que mesmo distantes estão sempre na torcida uns pelos outros. II

4 Aos professores e amigos do Departamento de Ciência da Computação da Universidade Federal de Juiz de Fora pelo incentivo para eu ingressar no doutorado. À FAPERJ pelo apoio financeiro concedido. III

5 Resumo As doenças negligenciadas são doenças infecciosas que afetam principalmente a população mais pobre do mundo. Os fármacos existentes para o combate a essas doenças causam muitos efeitos colaterais aos pacientes e não são suficientes ou são inacessíveis à eles. Além disso, ainda há a resistência aos fármacos. Neste sentido, identificar alvos para a descoberta de novos fármacos se faz necessário. Este trabalho propõe uma metodologia para apoiar a priorização de alvos no combate a doenças tropicais negligenciadas causadas por cinco protozoários: Entamoeba histolytica, Leishmania major, Plasmodium falciparum, Trypanosoma brucei e T. cruzi, baseando-se nos conceitos de essencialidade e drogabilidade da proteína. A metodologia aproveita-se da vasta quantidade de dados e informações disponíveis publicamente em bases de dados genômicas, bioquímicas e farmacológicas, além da literatura biomédica, para buscar e integrar dados e informações de organismos modelo e proteínas alvo de fármaco para sugerir candidatos (proteínas alvo) essenciais e drogáveis para os protozoários, levantando assim, possíveis alvos para posteriores estudos e experimentos. Para a obtenção destes dados foi utilizada a abordagem de anotação semântica baseada em ontologia para extrair dados a partir de artigos científicos e os conceitos de homologia e ortologia entre sequências de proteínas armazenadas em bases de dados semi-estruturadas de modo a levantar candidatos essenciais e drogáveis. Exemplos dos resultados gerados são mostrados, assim como algumas relações encontradas, e possíveis integrações entre os dados extraídos da literatura e dos resultados de homologia e ortologia. Palavras-chave: protozoários, alvos de fármacos, anotação semântica, homologia, ortologia. IV

6 Abstract Neglected diseases are infectious diseases that primarily affect the poorest people in the world. The existing drugs to fight these diseases cause many side effects to patients and are not sufficient or inaccessible. Another problem is that there still is drug resistance. Accordingly, it is very important to identify targets for new drugs. This study proposes a methodology to support the prioritization of targets to combat neglected tropical diseases caused by five protozoan Entamoeba histolytica, Leishmania Major, Plasmodium falciparum, Trypanosoma cruzi and T. brucei, based on the concepts of protein essentiality and druggability. The methodology takes advantage of the large amount of data and information publicly available on genomic, biochemical and pharmacological databases, and also the biomedical literature to seek and integrate data and information from model organisms and drug target proteins to suggest essential and druggable candidates (target proteins) for protozoa, raising the possibility of targets for future studies and experiments. To obtain these data we used the approach of ontology-based semantic annotation to extract data from scientific articles and the concepts of homology and orthology between protein sequences stored in semi-structured databases, in order to raise essential and drugable candidates. Examples of the results generated are shown, as well as some relationships found, and possible integration between the data extracted from the literature and the results of homology and orthology. Key-words: protozoa, drug targets, semantic annotation, homology, orthology. V

7 Lista de abreviações AIDS Acquired Immunodeficiency Syndrome (Síndrome da imunodeficiência Adquirida) API Application Programming Interface (Interface de programação de aplicativos) AutôMeta Automatic Metadata Annotation Tool BFO Basic Formal Ontology BLAST Basic Local Alignment Search Tool BP Biological Process (Processo Biológico) CID Compound Identifier (Identificador de compostos) DNA Deoxyribonucleic Acid (Ácido desoxirribonucleico) DNDi Drug for Neglected Diseases initiative DW Data Warehouse (Armazém de dados) EMBL The European Bioinfomatics Institute ETL Extract, Transform, Load (Extração, transformação e carga) FDA Food and Drug Administration GO Gene Ontology HAT Human African Trypanosomiasis (Tripanossomíase Africana) HMM Hidden Markov Model (Cadeia oculta de Markov) HTS High Throughput Screening ICBO International Conference on Biomedical Ontology (Conferência Internacional de Ontologias Biomédicas) Id Identificador ITC Isotermal Titration Calorimetry (Calorimetria de titulação isotérmica) KOG eukaryotic Orthologous Groups (Grupos ortólogos eucarióticos) LOD Linked Open Data (Dados Abertos Ligados) NCBI National Center for Biotechnology Information NCBI Taxon NCBI Taxonomy NCBO The National Center for Biomedical Ontology NCIt National Cancer Institute Thesaurus NIH National Institutes of Health NTD Neglected Tropical Disease (Doenças tropicais negligenciadas) OBO The Open Biological and Biomedical Ontologies OGEE Online GEne Essentiality Database VI

8 OLAP On-line Analytical Processing (Processamento analítico online) OMS Organização Mundial de Saúde OWL Ontology Web Language Ptn Proteína Qtd Quantidade RDF Resource Description Framework RDFa Resource Description Framework in attributes RNA Ribonucleic Acid (Ácido ribonucleico) SGBD Sistema Gerenciador de Banco de Dados SID Substance Identifier (Identificador de substâncias) SQL Structured Query Language (Linguagem de consulta estruturada) TTD Therapeutic Target Database URIs Uniform Resource Identifier URL Uniform Resource Locator W3C World Wide Web Consortium VII

9 Lista de figuras Figura 1.1: Distribuição global das doenças negligenciadas. Adaptado de (Molyneux et al., 2005) Figura 1.2: Quantidade de novos fármacos comercializados entre os anos de 1975 e 2004 (Chirac e Torreele, 2006) Figura 1.3: Associações entre termo no artigo e classe na ontologia para anotação semântica baseada em ontologia Figura 3.1: Processo de extração, desenvolvimento, análise, integração e cruzamento de dados para priorização de alvos para fármacos para o combate a doenças negligenciadas causadas por protozoários Figura 3.2: Fluxograma representativo da extração de dados e informações a partir da anotação semântica em textos baseada em ontologia Figura 3.3: Execução da anotação semântica utilizando a ferramenta AutôMeta através de linha de comando. Parâmetros mínimos necessários: -ontology: caminho do arquivo da ontologia, -documentpath: caminho da pasta onde se encontram os arquivos (artigos) no formato txt e -outpath: caminho da pasta onde serão armazenados os arquivos anotados Figura 3.4: Trecho de um artigo anotado com a ontologia Molecule Role. O rótulo span about marca o início de um termo anotado. O termo anotado pode ser visto no conteúdo da propriedade rdfs:label. As classes que utilizadas na anotação são representadas pelos códigos IMR da ontologia Figura 3.5: Fluxograma representativo da extração de dados e informações a partir de bases semiestruturadas Figura 3.6: Fluxograma do processo de verificação de homologias e ortologias entre sequências de proteínas Figura 4.1: Quantidade de proteínas ortólogas para protozoários-a.thaliana Figura 4.2: Quantidade de proteínas ortólogas para protozoários-c.elegans Figura 4.3: Quantidade de proteínas ortólogas para protozoários-d.melanogaster Figura 4.4: Classificação GO Processo Biológico para proteínas de protozoários que são ortólogas às 51 proteínas distintas de D.melanogaster que apresentaram ortologia com proteínas de todos os protozoários Figura 4.5: Quantidade de proteínas ortólogas para protozoários-d.rerio VIII

10 Figura 4.6: Classificação GO Processo Biológico para proteínas de protozoários que são ortólogas às 83 proteínas distintas de D. rerio que apresentaram ortologia com proteínas de todos os protozoários Figura 4.7: Quantidade de proteínas ortólogas para protozoários-e.coli Figura 4.8: Quantidade de proteínas ortólogas para protozoários-m. musculus Figura 4.9: Classificação GO Processo Biológico para proteínas de protozoários que são ortólogas às 101 proteínas distintas de M. musculus que apresentaram ortologia com proteínas de todos os protozoários Figura 4.10: Quantidade de proteínas ortólogas para protozoários-s. cerevisiae Figura 4.11: Classificação GO Processo Biológico para proteínas de protozoários que são ortólogas às 310 proteínas distintas de S. cerevisiae que apresentaram ortologia com proteínas de todos os protozoários Figura 4.12: URL para recuperação dos dados de uma proteína alvo do BindingDB. 86 Figura 4.13: Quantidade de proteínas alvo do BindingDB que possuem homologia com as proteínas de cada protozoário Figura 4.14: Quantidade de proteínas distintas dos protozoários que apresentam homologia com as proteínas do BindingDB Figura 4.15: Classificação GO Processo Biológico para distintas proteínas de protozoários que são homólogas às proteínas do BindingDB Figura 4.16: Quantidade de proteínas alvo do DrugBank que possuem homologia com as proteínas de cada protozoário Figura 4.17: Quantidade de proteínas distintas dos protozoários que apresentam homologia com as proteínas do DrugBank Figura 4.18: Classificação GO Processo Biológico para distintas proteínas de protozoários que são homólogas às proteínas do DrugBank Figura 4.19: Quantidade de proteínas alvo distintas do TTD que possuem homologia como as proteínas de cada protozoário Figura 4.20: Quantidade de proteínas distintas dos protozoários que apresentam homologia com as proteínas do TTD Figura 4.21: Classificação GO Processo Biológico para distintas proteínas de protozoários que são homólogas às proteínas do TTD Figura 4.22: Candidatos essenciais e drogáveis considerando Protozoário-A. thaliana- BindingDB IX

11 Figura 4.23: Candidatos essenciais e drogáveis considerando Protozoário-C. elegans - BindingDB Figura 4.24: Candidatos essenciais e drogáveis considerando Protozoário-D. melanogaster -BindingDB Figura 4.25: Candidatos essenciais e drogáveis considerando Protozoário-D. rerio- BindingDB Figura 4.26: Candidatos essenciais e drogáveis considerando Protozoário-E. coli- BindingDB Figura 4.27: Candidatos essenciais e drogáveis considerando Protozoário-M. musculus-bindingdb Figura 4.28: Candidatos essenciais e drogáveis considerando Protozoário-S. cerevisiae-bindingdb Figura 4.29: Candidatos essenciais e drogáveis considerando Protozoário-A. thaliana- DrugBank Figura 4.30: Candidatos essenciais e drogáveis considerando Protozoário-C. elegans- DrugBank Figura 4.31: Candidatos essenciais e drogáveis considerando Protozoário-D. melanogaster-drugbank Figura 4.32: Candidatos essenciais e drogáveis considerando Protozoário-D. rerio- DrugBank Figura 4.33: Candidatos essenciais e drogáveis considerando Protozoário-E.coli- DrugBank Figura 4.34: Candidatos essenciais e drogáveis considerando Protozoário- M.musculus-DrugBank Figura 4.35: Candidatos essenciais e drogáveis considerando Protozoário- S.cerevisiae-DrugBank Figura 4.36: Candidatos essenciais e drogáveis considerando Protozoário- M.musculus-TTD Figura 4.37: Candidatos essenciais e drogáveis considerando Protozoário- S.cerevisiae-TTD Figura 5.1: Representação da formação de triplas RDF com identificadores alfanuméricos e textuais para classes de ontologias X

12 Lista de tabelas Tabela 1.1: Subdivisão dos protozoários e suas características Tabela 3.1: Conjunto de consultas baseado nos conceitos e protozoários Tabela 3.2: Conjunto de consultas baseado nos conceitos e organismos modelo Tabela 3.3: Quantidade de artigos retornados e recuperados a partir das consultas definidas Tabela 3.4: Ontologias levantadas na primeira seleção Tabela 3.5: Exemplos de moléculas de fármacos aprovados usando métodos de triagem de baixa (cinza) e alta vazão (branco). Adaptado de Ekins et al. (2011) Tabela 4.1: Termos mais anotados e a quantidade de artigos em que aparecem Tabela 4.2: Classes mais utilizadas e a quantidade de artigos em que aparecem Tabela 4.3: Quantidade de artigos com anotações que utilizaram as subclasses da classe protein Tabela 4.4: Quantidade de artigos com anotações que utilizaram as subclasses da classe chemical Tabela 4.5: Quantidade de artigos em que possuem anotadas variações do termo gene Tabela 4.6: Quantidade de artigos que possuem termos anotados com a classe gene Tabela 4.7: Quantidade de artigos que possuem anotadas variações do termo protein Tabela 4.8: Quantidade de artigos que possuem termos anotados com a classe protein Tabela 4.9: Quantidade de artigos que apresentaram anotações com variações do termo knockout e knockdown Tabela 4.10: Quantidade de artigos que anotaram variações do termo mutation Tabela 4.11: Quantidade de artigos com anotações de organismos modelo Tabela 4.12: Quantidade de artigos com anotações de protozoários Tabela 4.13: Quantidade de artigos que anotaram organismos fora do foco de estudo Tabela 4.14: Quantidade de artigos que possuem anotações de organismos modelo e protozoários XI

13 Tabela 4.15: Quantidade de artigos que possuem diferentes relações de organismos anotados Tabela 4.16: Proteínas do BindingDB homólogas à proteína Trypanothione reductase de T. cruzi Tabela 4.17: Quantidade de fármacos separados por grupos Tabela 4.18: Candidatos essenciais e drogáveis considerando Protozoário-A. thaliana- TTD Tabela 4.19: Candidato essencial e drogável considerando Protozoários-C. elegans- TTD Tabela 4.20: Candidato essencial e drogável considerando Protozoários-D. melanogaster-ttd Tabela 4.21: Número de artigos, por organismo, em que protein kinase foi anotada Tabela 4.22: Proteínas de protozoários ortólogas à proteína YPL153 ( protein kinase ) de S. cerevisiae Tabela 4.23: Proteínas de protozoários ortólogas à proteína YPL204W ( protein kinase ) de S. cerevisiae Tabela 4.24: Proteínas do BindingDB homólogas às proteínas dos protozoários que por sua vez são ortólogas à proteína YPL153C de S. cerevisiae Tabela 4.25: Proteínas alvo do BindingDB homólogas às proteínas dos protozoários que por sua vez são ortólogas à proteína YPL204W de S. cerevisiae Tabela 4.26: Proteínas alvo do DrugBank homólogas às proteínas dos protozoários que por sua vez são ortólogas à proteína YPL153C de S. cerevisiae Tabela 4.27: Proteínas alvo do DrugBank homólogas às proteínas dos protozoários que por sua vez são ortólogas à proteína YPL204W de S. cerevisiae Tabela 4.28: Proteínas alvo do TTD homólogas às proteínas dos protozoários que por sua vez são ortólogas à proteína YPL153C de S. cerevisiae Tabela 4.29: Proteínas alvo do TTD homólogas às proteínas dos protozoários que por sua vez são ortólogas à proteína YPL204W de S. cerevisiae XII

14 Sumário 1 Introdução Definições em biologia Doenças negligenciadas Protozoários Essencialidade Drogabilidade Homologia e ortologia Organismos modelo Definições em computação Web semântica Ontologias Anotação semântica Recursos disponíveis Bases de dados Recursos textuais Repositórios de ontologias biomédicas Justificativa Objetivos Objetivo geral Objetivos específicos Metodologia Extração de dados e informações a partir de artigos científicos Entendimento do objeto de pesquisa Definição de consultas Seleção das bases textuais Montagem do corpus Escolha da(s) ferramenta(s) de anotação semântica Escolha das ontologias Anotação semântica Extração de dados e informações Extração de dados a partir de bases semiestruturadas Levantamento das necessidades XIII

15 3.2.2 Seleção das bases de dados Verificação de ortologias e homologias Extração de dados Cruzamento das informações Resultados Organização dos dados gerados Extração de dados da anotação semântica Ontologia Molecule Role Ontologia NCI Thesaurus Ontologia NCBI Taxon Extração de dados a partir dos resultados de ortologia Extração de dados a partir dos resultados de homologia BindingDB DrugBank TTD Therapeutic Target Database Cruzamento dos dados Candidatos essenciais e drogáveis Relação entre anotação semântica e candidatos essenciais e drogáveis Discussão Conclusão Referências Apêndice A Apêndice B Apêndice C Apêndice D Apêndice E Apêndice F XIV

16 1 INTRODUÇÃO Pesquisas na área biológica se mostram a cada dia um desafio, devido ao crescente volume de dados gerados, e que se intensifica à medida que novas tecnologias de trabalho são criadas e adotadas, como as novas metodologias de sequenciamento de DNA (Deoxyribonucleic Acid, ou em português ADN Ácido Desoxirribonucleico) em larga escala; os estudos da tecnologia ômica como genoma, transcriptoma, proteoma, metabolômica e metagenômica; e a descoberta de alvos para fármacos. Tais dados colaboram para o crescimento das bases de dados que os armazenam, assim como o surgimento de novas bases. Atualmente, diversos estudos experimentais podem ser realizados baseando-se na exploração dos dados contidos nestas bases. As bases geralmente armazenam conteúdo específico, como sequências de DNA e de proteínas, informações sobre famílias de proteínas, domínios, fármacos, entre outros. De acordo com o levantamento realizado por (Fernandez-Suarez e Galperin, 2013), existe até o momento, uma coleção de 1512 bases de dados online de biologia molecular, subdivididos em 14 categorias e 41 subcategorias. A quantidade e a heterogeneidade destas bases já nos dá um substancial desafio para a busca e análise dos dados. Contudo, não somente bases individuais são utilizadas para a busca de dados e informações. Muitas questões em bioinformática conseguem ser tratadas apenas se houver a combinação de dados de múltiplas fontes. Por exemplo: encontrar os genes de uma via metabólica que fazem parte de um determinado genoma. Isto inclui fazer a integração de bases de dados de vias metabólicas e bases de mapeamento de genomas. Através desta combinação ou integração dos dados é possível fazer também uma validação cruzada e complementação de informações. A integração implica fazer a análise e gerenciamento dos múltiplos dados, além de tornar este processo simplificado e amigável para o usuário. Existem alguns fatores que dificultam esta tarefa, como trabalhar com a heterogeneidade dos dados, dos sistemas que gerenciam os dados, dos programas que manipulam os dados e dos objetivos do usuário. A integração de dados está presente nos estudos de priorização de alvos para fármacos, que tem se mostrado uma necessidade crescente para o combate de doenças negligenciadas, como leishmaniose e doença de Chagas. Bases de dados públicas disponíveis na web que armazenam dados de sequências genéticas, famílias de proteínas 1

17 e dados de alvos e fármacos, ajudam a predizer através de apoio computacional as informações desejáveis sobre compostos bioativos e alvos para fármacos. Percebemos que há a necessidade da exploração dos dados existentes e da possível integração entre eles para conhecer o conteúdo que venha a auxiliar na priorização de alvos. Muitas informações úteis, porém, ainda se encontram disponíveis na forma de textos, através de artigos e periódicos. Estes por sua vez, também são armazenados em bases textuais, como a PubMed (PubMed, 2011). Desta maneira, outro desafio se apresenta: a necessidade de explorar informações contidas em milhares de textos. Logo, este trabalho se caracteriza pela exploração em bases de dados e bases textuais de forma a recuperar e integrar informações úteis para apoiar a priorização de alvos para o combate de doenças tropicais negligenciadas causadas por protozoários. Estes protozoários englobam: Entamoeba histolytica, Leishmania major, Plasmodium falciparum, Trypanosoma brucei e Trypanosoma cruzi. Para o levantamento de alvos biológicos, este trabalho foca nos conceitos de essencialidade do gene e drogabilidade da proteína, explicados nas seções e respectivamente. Estes conceitos se justificam pela possibilidade de reusar dados de outros organismos mais bem estudados, como os organismos modelo, e dados de proteínas alvo, para através de abordagens de bioinformática baseadas em similaridade, levantar dados para os protozoários. Além disso, restringem os domínios de pesquisa, necessários para realizar buscas textuais. Devido à escassez de dados experimentais de essencialidade para os protozoários, é factível explorar, reusar e integrar os dados depositados em bases públicas de organismos modelos, e definir formas de, a partir da homologia (ou no seu conceito mais específico, ortologia) entre as sequências de proteínas, sugerir a essencialidade de proteínas nos protozoários. A homologia entre as sequências de proteínas dos protozoários e proteínas qualificadas como alvos, também pode ser utilizada para verificar a drogabilidade da proteína do protozoário. Outra forma de buscar mais informações sobre a essencialidade das proteínas e o direcionamento de pesquisas neste sentido é através da exploração de fontes textuais como a PubMed. Como descrito anteriormente, muitas informações estão distribuídas 2

18 em artigos ou reportagens de periódicos e que possuem uma riqueza de conteúdo, sendo, portanto, interessante a exploração destas. Sendo assim, este trabalho está organizado em cinco capítulos. Este primeiro capítulo, a Introdução (Capítulo 1) apresenta uma visão geral do trabalho e importantes definições relativas às áreas de biologia e computação, as quais foram utilizadas nas abordagens empregadas nesta tese, assim como descrições sobre recursos disponíveis também utilizados. O capítulo apresenta também a justificativa para o desenvolvimento deste trabalho. O Capítulo 2 apresenta os Objetivos do trabalho. No Capítulo 3 é descrita a Metodologia, que em um formato de tutorial, explica passo a passo como entender o domínio de pesquisa e, por conseguinte recuperar artigos científicos e realizar anotação semântica, assim como verificar similaridades através dos conceitos de homologia e ortologia. No capítulo 4 os Resultados são apresentados. O Capítulo 5 discute as abordagens utilizadas e os resultados encontrados. O Capítulo 6 apresenta as Conclusões do trabalho. Seguem ainda, as Referências e os Apêndices. 1.1 Definições em biologia Importantes definições relacionadas à área de biologia são comentadas no decorrer desta tese, na qual tem o seu estudo baseado em definidos protozoários causadores de doenças negligenciadas e organismos modelo, assim como na utilização de conceitos conhecidos na área de bioinformática como homologia e ortologia. O estudo também é baseado nos conceitos de essencialidade e drogabilidade das proteínas. Assim sendo, as próximas subseções apresentam estas definições Doenças negligenciadas As doenças negligenciadas são doenças infecciosas que afetam principalmente a população mais pobre do mundo. Os patógenos responsáveis pelas doenças são biologicamente diferentes incluindo protozoários, bactérias e helmintos. Malária, leishmaniose, doença de Chagas, esquistossomose e dengue são algumas destas doenças. As características clínicas, prevenção e tratamento são também diversificadas. Dados de 2008 informam que mais de um bilhão de pessoas no mundo são afetadas 3

19 pelas doenças negligenciadas (WHO, 2010) e que mais de 500 mil morrem anualmente (WHO, 2009). A Figura 1.1 apresenta a distribruição global das doenças negligenciadas e o número mínimo de doenças que afetam cada país. Podemos perceber que os continentes América do Sul, África e parte da Ásia, onde estão localizados muitos países de baixa e média renda, são os mais afetados. Alguns países da África e também o Brasil apresentam no mínimo seis destas doenças. No Brasil, as doenças negligenciadas que possuem alta taxa de prevalência englobam a dengue, doença de Chagas, leishmaniose, hanseníase, malária, esquistossomose e tuberculose (Lindoso e Lindoso, 2009). A maioria delas ocorre em regiões pobres, principalmente no norte e nordeste do país. Figura 1.1: Distribuição global das doenças negligenciadas. Adaptado de (Molyneux et al., 2005). Essas doenças são consideradas como negligenciadas pela Organização Mundial de Saúde (OMS), pois durante muito tempo não houve atenção aos países em desenvolvimento, mas que continuavam a apresentar estas doenças, e também pelo foco se manter em outras doenças que da mesma forma afetam uma massa da população mundial como a AIDS (em português Síndrome da Imunodeficiência Adquirida) e a tuberculose (Feasey et al., 2010). Além disso, são negligenciadas pela indústria farmacêutica, pois quase não houve novos investimentos nas pesquisas contra estas doenças (Morel, 2010). De acordo com o levantamento feito por (Chirac e Torreele, 2006) como mostra a Figura 1.2, novos alvos foram comercializados entre os anos de 1975 e 2004, sendo que destes, cerca de 1% são referentes a alguma doença negligenciada, embora essas doenças representem 11,4% das doenças mundiais. 4

20 Figura 1.2: Quantidade de novos fármacos comercializados entre os anos de 1975 e 2004 (Chirac e Torreele, 2006). As doenças negligenciadas são caracterizadas principalmente por dois fatores. Primeiro, são doenças que acontecem em grande parte nos trópicos, fato que as fazem também receber o nome de doenças tropicais negligenciadas. Nessas localidades concentra-se muita pobreza em comunidades rurais e favelas, parte da população não possui infraestrutura adequada de saneamento e moradia, além do não acesso a água potável. Outro motivo para que essas doenças se concentrem nos trópicos é a presença dos vetores invertebrados nessas regiões, caracterizadas pelo clima quente. Segundo, porque, apesar de iniciativas como a existência de um departamento na OMS direcionado para analisar os problemas envolvidos com estas doenças, através de uma aliança internacional conhecida como Global Network for Neglected Tropical Diseases Control 1 e a criação de uma revista científica de acesso aberto dedicada ao tema, PLoS Neglected Tropical Diseases 2, ainda hoje essas doenças têm sido negligenciadas por pesquisadores, órgãos financiadores e governos (Feasey et al., 2010). O Programa de Pesquisa de Doenças Tropicais da Organização Mundial de Saúde (TDR/WHO), é um programa global de colaboração científica para facilitar, apoiar e influenciar os esforços para combater doenças relacionadas à pobreza. De acordo com o Programa, os países subdesenvolvidos ou pobres sofrem com as doenças tropicais e os medicamentos disponíveis para o combate a estas doenças infecciosas não são suficientes ou são inacessíveis aos pacientes (TDR, 2011)

21 No intuito de alterar esta situação, há um esforço de pesquisadores e instituições, principalmente públicas, na descoberta de novos alvos para o desenvolvimento de fármacos para o combate a estas doenças (Nwaka e Hudson, 2006). Uma iniciativa neste sentido é uma organização de pesquisa e desenvolvimento nomeada DNDi (Drug for Neglected Diseases initiative). DNDi trabalha em colaboração com o TDR, cujo foco está em pesquisar e desenvolver fármacos para as doenças mais negligenciadas do mundo. Fundada em 2003 por sete instituições de todo o mundo, dentre as quais, faz parte a Fundação Oswaldo Cruz. Como objetivo de curto prazo, DNDi pretende entregar até 2014 de seis a oito tratamentos para doença do sono ou tripanossomíase afriana humana (HAT - Human African Trypanosomiasis), doença de Chagas, leishmania visceral e malária, fazendo melhor uso dos fármacos existentes, para cobrir as necessidades imediatas de pacientes afetados. Em longo prazo, objetiva identificar novos compostos para o desenvolvimento de fármacos e estabelecer a pesquisa e desenvolvimento em todo o processo de descoberta de novos fármacos, desde o estágio inicial de descoberta de alvos até as pesquisas clínicas e distribuição, de forma a garantir aos pacientes tratamentos melhores, efetivos, seguros e acessíveis (Chatelain e Ioset, 2011) Protozoários Como comentado na seção anterior, algumas doenças negligenciadas são causadas por protozoários. Estes fazem parte do reino Protista e possuem como características serem microscópicos, apresentar uma nutrição geralmente heterotrófica, serem unicelulares e eucariontes. Podem ser de vida livre ou parasitária na natureza. Grande parte das espécies habita em ambientes aquáticos de água doce ou salgada, mas também podem ser encontrados em locais terrestres úmidos (Kotpal, 2012). Eles são capazes de se multiplicar em humanos, o que contribui para sua sobrevivência e também permitem que doenças infecciosas graves se desenvolvam a partir de um único organismo (CDC, 2010). Os protozoários se subdividem nos filos Sarcodina, Flagellata, Ciliophora e Sporozoa e se diferenciam em suas estruturas locomotoras. Existem três tipos de estruturas locomotoras: os pseudópodes, os cílios e os flagelos. Os pseudópodes são expansões transitórias do citoplasma, os cílios são filamentos curtos e numerosos, 6

22 enquanto os flagelos são estruturas mais longas e que, geralmente, ocorrem em menor número. Os protozoários podem se reproduzir tanto assexuada quanto sexuadamente. Na reprodução assexuada, a célula cresce até se dividir em dois novos organismos, em um processo chamado de divisão binária. A reprodução sexuada ocorre por conjugação, quando dois indivíduos se unem, trocam material genético e originam novos protozoários. Em algumas espécies, ocorre a alternância de gerações (sexuada e assexuada) e a formação de esporos (Kotpal, 2012). A Tabela 1.1 apresenta características para os protozoários de cada filo e informações sobre as espécies. Tabela 1.1: Subdivisão dos protozoários e suas características. Filo Estrutura Reprodução Espécies locomotora Sarcodina (protozoários amebóides) Pseudópodes Divisão binária Cerca de 12 mil divididas em: amebas, foraminíferos, radiolários e heliozoários Flagellata Possuem um ou Divisão binária ou Cerca de duas mil (protozoários dois flagelos sexuadamente espécies, a maioria flagelados) através dos quais parasitos do homem. se locomovem e capturam alimentos Ciliophora Possuem cílios Divisão binária ou Cerca de seis mil (protozoários através dos quais conjugação espécies, poucos são ciliados) se locomovem e parasitos. capturam alimentos Sporozoa Não possuem Alternância de Cerca de cinco mil (protozoários estrutura gerações sexuada e espécies, todas parasitos esporozoários) locomotora assexuada e de vertebrados e produção de esporos invertebrados. Para o desenvolvimento deste trabalho, o foco está em cinco protozoários: Entamoeba histolytica, Leishmania major, Plasmodium falciparum, Trypanosoma 7

23 brucei e Trypanosoma cruzi. Estes protozoários e as doenças associadas aos mesmos são descritos a seguir Entamoeba histolytica Entamoeba histolytica é um protozoário parasito o qual faz parte das amebas do filo Sarcodina. É responsável pela doença denominada amebíase. Ele infecta principalmente os humanos e outros primatas e ocorre geralmente no intestino grosso. Possui um ciclo de vida muito simples e sua forma infecciosa é o cisto, considerada uma forma resistente do parasito. Os humanos podem se infectar ao ingerir água e alimentos contaminados com os cistos e no contato com as mãos sujas também contaminadas. Dentro dos humanos, os cistos se transformam em trofozoítos no intestino delgado e migram para o intestino grosso onde vivem e se multiplicam (Ximenez et al., 2011). A amebíase é uma doença que pode não apresentar sintomas. Ela pode afetar qualquer pessoa, embora seja mais comum em pessoas que vivem em áreas tropicais e com condições sanitárias precárias. O diagnóstico pode ser difícil, pois os sintomas da doença são parecidos com os acometidos por outros parasitos. A doença é considerada um importante problema clínico, pois de acordo com estimativas, ocorrem 40 milhões de casos em todo o mundo, com taxas de mortalidades significativas que variam de 40 mil a 110 mil mortes. O tratamento da amebíase é feito com o fármaco metronidazol (Chavez-Tapia et al., 2009) Leishmania major Leishmania major é uma espécie de protozoário flagelado da família Trypanosomatidae. As infecções por Leishmania resultam em um espectro de doenças denominadas de leishmaniose que variam entre as formas cutânea, muco-cutânea, cutânea difusa e visceral, que podem levar à morte, principalmente na forma visceral (Alvar et al., 2012). Considerando o ciclo de vida do parasito, a doença é transmitida para vertebrados através da picada de flebotomíneos fêmeas, um inseto hematófago. A forma infecciosa, promastigota, é então liberada nos vertebrados. Os promastigotas sofrem fagocitose por macrófagos e se transformam em amastigotas. As formas amastigotas do parasito se multiplicam por divisão binária, rompendo a célula hospedeira e liberando os parasitos no meio intercelular ou corrente sanguínea, infectando outras células. O flebotomíneo fêmea, por sua vez, se contamina ao ingerir sangue com células 8

24 parasitadas por amastigotas. Estas se transformam em formas promastigotas e multiplicam-se no intestino do inseto e posteriormente migram para a região da probóscide (aparelho picador-sugador dos insetos), concluindo assim o ciclo de vida dos parasitos do gênero Leishmania (Leite, 2007; OMS, 2010). A Leishmania é uma doença relacionada à pobreza, à desnutrição e às condições precárias de moradia. Cerca de 1,5 a 2 milhões de novos casos ocorrem anualmente, sendo o número de mortes estimado em 60 mil por ano (OMS, 2010). No Brasil, as principais espécies de Leishmania no Brasil incluem: L. chagasi, L. brasiliensis, L. guyanensis e L. amazonenies e mais recentemente foram identificadas em estados das regiões Norte e Nordeste as espécies L. lainsoni, L. naiffi, L. lindenberg e L. shawi (Gontijo e Melo, 2004; MS, 2007). Apesar de não apresentar ocorrências no Brasil, neste trabalho utilizamos dados da espécie Leishmania major pois até o início do mesmo, esta era a única espécie com genoma conhecido e disponibilizado. Recentemente foi publicado o genoma de L. amazonensis, contudo, o genoma de L. major permanece como o melhor anotado. Esta espécie é encontrada apenas no hemisfério oriental especificamente no norte da África, Oriente Médio, China e Índia. É um patógeno intracelular que infecta os macrófagos e as células dendríticas do sistema imune e é associado com a forma cutânea da doença (Ivens et al., 2005). A maneira mais simples de diagnosticar leishmaniose é identificar as formas amastigotas por meio de isolamento dos parasitos em cultura. Os fármacos de primeira escolha para o tratamento da leishmaniose incluem derivados de antimônios pentavalentes como o Pentostam e o Glucantime. Fármacos de segunda escolha incluem Anfotericina B, Pentamidina, Miltefosina e Paramomicina (Monzote, 2009) Plasmodium falciparum Plasmodium falciparum é um protozoário pertencente ao filo Sporozoa ou Apicomplexa e um dos causadores da malária, uma das principais doenças parasitárias do mundo. A malária distribui-se por extensas regiões tropicais e subtropicais, principalmente nos países em desenvolvimento ou subdesenvolvidos. De acordo com as últimas estimativas realizadas pela Organização Mundial de Saúde, aproximadamente 40% da população mundial está em risco. Dados de 2010 relatam que de 154 a 289 milhões de pessoas foram infectadas causando cerca de 660 mil mortes no ano. As mortes acontecem, sobretudo, em crianças de até cinco anos. A malária causada pela 9

25 espécie P. falciparum é a forma mais perigosa da doença, apontando altas taxas de complicações e mortes (WHO, 2013). O ciclo de vida do Plasmodium é complexo e envolve um inseto vetor e um hospedeiro humano. Todas as espécies de Plasmodium exibem um ciclo de vida semelhante. De forma resumida, o ciclo do parasito no ser humano incia-se com a picada de uma pessoa por um mosquito fêmea do gênero Anopheles. Ao picar, esporozoítos liberados a partir da glândula salivar entram na corrente sanguínea e rapidamente invadem as células do fígado, onde se multiplicam e passam por diferentes formas até se tornaram merozoítos. Em seguida, as células do fígado se rompem e liberam os merozoítos. Alguns são destruídos e outros invadem as hemácias. No interior das hemácias há novas transformações. Os protozoários passam pelas fases trofozoíta, esquizonte e novamente se transformam em merozoítos. Esse ciclo se repete em intervalos regulares que variam entre 36 a 72 horas dependendo da espécie. Depois de algum tempo de infecção, aparecem no interior das hemácias, formas que não se dividem mais, chamadas gametócitos. Ao sugar o sangue de uma pessoa infectada, os mosquitos podem ingerir esses gametócitos, dando continuidade ao ciclo (Wirth, 2002; DPDx, 2009). Os sintomas da malária incluem febre, dor de cabeça e vômitos, geralmente de 10 a 15 dias após a picada do mosquito, que se não forem tratados, tornam-se risco de vida. O diagnóstico é feito clinicamente observando-se os sintomas e fazendo levantamento de informações como o local de moradia ou a presença em áreas endêmicas e também através de análise laboratorial através de microscopia (WHO, 2013). Em muitas partes do mundo, os parasitos desenvolveram resistência a um número de medicamentos contra a malária, principalmente no combate à P. falciparum (Bullard et al., 2013). Os fármacos antimaláricos mais comuns incluem quinina, cloroquina, mefloquina, primaquina, doxiciclina e malarone (2002; MS, 2010; MS, 2010; CDC, 2012) Trypanosoma brucei Trypanosoma brucei é uma espécie de protozoário flagelado também da família Trypanosomatidae. A espécie é o agente etiológico da tripanossomíase africana em humanos, também conhecida como doença do sono (Simarro et al., 2011). Possui duas subespécies: Trypanosoma brucei gambiense e Trypanosoma brucei rhodesiense, sendo a primeira responsável por 98% dos casos da doença (WHO, 2013). O parasito é 10

26 transmitido pela picada da mosca tsé-tsé (mosca do gênero Glossina). T. brucei precisa de dois hospedeiros para se reproduzir. Seu ciclo de vida inicia quando um humano é picado por uma mosca tsé-tsé infectada. Na picada, tripomastigotas metacíclicos são transmitidos a partir das glândulas salivares da mosca. Assim, os parasitos entram na corrente sanguínea e percorrem o corpo em diferentes fluidos corporais como sangue, fluido linfático ou fluido espinhal. Eles transformam-se em tripomastigotas na corrente sanguínea e se multiplicam por fissão binária. A doença pode ser transmitida por outra mosca que ingere o sangue infectado. Na mosca, o ciclo de vida dura três semanas. Tripomastigotas sanguíneos ingeridos se transformam em tripomastigotas procíclicos no intestino da mosca e se multiplicam. Eles se transformam em epimastigotas, migram para as glândulas salivares, e em seguida, transformam-se em tripomastigotas metacíclicos e multiplicam-se uma vez por fissão binária (DPDx, 2013). A doença ocorre apenas em países africanos, principalmente na região Subsaariana, onde há a presença da mosca tsé-tsé. Geralmente, populações rurais que dependem da agricultura, pesca, criação de animais ou caça são mais expostos à mosca. Essas populações vivem em áreas remotas com acesso limitado a serviços adequados de saúde, o que dificulta a vigilância e tratamento dos casos. O deslocamento da população e a pobreza também são fatores para o crescimento da doença. O número estimado de casos reais da doença é de 30 mil (WHO, 2013). Contudo, outras estimativas indicam que mais de 69 milhões de pessoas na África Subsaariana vivem em áreas endêmicas e destes mais de cinco milhões estão em alto risco de contrair a doença (Simarro et al., 2011). Os sintomas da doença possuem três estágios e incluem dores de cabeça, febre, fraqueza, dor nas articulações e rigidez. O terceiro estágio é o mais perigoso e pode levar a morte se a doença não for tratada. O diagnóstico é realizado através de exame de sangue. O tratamento é, portanto, baseado nos sintomas e nos resultados laboratoriais. Existem apenas quatro fármacos registrados para o tratamento: pentaminida, suramina, melarsoprol e eflornitina (WHO, 2010; Alsford et al., 2013; WHO, 2013). A utilização depende da subespécie e do estágio da doença. Contudo, nenhuma é capaz de suavizar a dor e todas têm certo nível de toxicidade Trypanosoma cruzi Trypanosoma cruzi também é um protozoário flagelado e juntamente com L. major e T. brucei faz parte da família Trypanosomatidae. É o agente etiológico da doença de 11

27 Chagas ou tripanossomíase americana. Na ocorrência da doença, observam-se duas fases clínicas: uma aguda, que pode ou não ser identificada, e a sua evolução para uma fase crônica (Coura, 2007). A transmissão de T. cruzi aos humanos ocorre por meio de um inseto vetor, o triatomíneo (barbeiro). O ciclo de vida do parasito começa quando o barbeiro, ao se alimentar do sangue do hospedeiro, elimina, em suas fezes e urina, o parasito em sua forma tripomastigota metacíclica. Quando há o contato das fezes e urina contaminados com mucosas ou ferimentos na pele, os parasitos invadem o organismo do hospedeiro vertebrado infectando suas células. No interior destas, o parasito assume a forma amastigota e multiplica-se por divisão binária. Quando as células estão cheias de parasitos, estes diferenciam-se novamente para a forma tripomastigota. Com a ruptura da célula hospedeira, os parasitos disseminam-se pela corrente sanguínea, podendo infectar novos tecidos e órgãos e por estarem livres na corrente sanguínea, em uma eventual picada do barbeiro, estes podem infectá-lo também. No intestino dos barbeiros assumem a forma epimastigota, até que atingem a parte posterior do sistema excretor, assumindo a forma tripomastigota metacíclica, completando o ciclo (Fiocruz, 2013). A doença é encontrada principalmente em países da América Latina, sendo que grande parte dos casos está localizada no Brasil. Entretanto, são registrados casos em países não endêmicos de outros continentes. Ela está diretamente relacionada às más condições de moradia, pois estas favorecem a instalação e proliferação dos barbeiros. Estimativas apontam que aproximadamente 8 milhões de pessoas estão propícias a ser infectadas no mundo (MS, 2010; WHO, 2010; WHO, 2013). Na fase aguda da doença, os sintomas são leves ou inexistentes, mas podem incluir febres, dores de cabeça, gânglios linfáticos aumentados, palidez, dificuldade em respirar e dores musculares, abdominais ou torácicas. Na fase crônica, existem parasitos circulantes na corrente sanguínea. Nesta fase até 30% das pessoas infectadas desenvolvem alterações cardíacas e 10% desenvolvem alterações digestivas e neurológicas. O diagnóstico para a fase aguda pode ser por esfregaço sanguíneo ou teste imunoenzimático. Para a fase crônica são realizados testes sorológicos. O controle do vetor é o método mais útil para prevenir a doença de Chagas na América Latina. O tratamento para a doença é feito com os fármacos benzonidazol e nifurtimox. Os fármacos se mostram eficazes na cura da doença, se diagnosticada brevemente na fase aguda. No entanto, ambos diminuem sua eficácia quanto mais tempo uma pessoa estiver 12

28 infectada (WHO, 2013). Além disso, a resistência aos fármacos aumenta o número de falhas no tratamento dos pacientes infectados (Villarreal et al., 2005) Essencialidade Um gene é considerado essencial para um organismo quando a supressão deste gene implica na inibição do crescimento do organismo ou na morte deste (Riddle et al., 1997; Jordan et al., 2002; Dickerson et al., 2011). A identificação destes genes é uma importante prática na identificação de potenciais alvos para fármacos. Uma suposição é que os genes essenciais devem ser altamente conservados durante a sua evolução, e análises de genômica comparativa têm confirmado esta hipótese. Esse padrão de conservação sugere que genes essenciais tendem a permanecer essenciais durante a evolução, logo, os genes ortólogos (conceito explicado na próxima seção) a estes podem ser essenciais em outros organismos, ao menos entre os evolutivamente mais próximos (Bergmiller et al., 2012). Contudo, existem genes que não seguem esse padrão, ou seja, são essenciais para um organismo e não são essenciais para outros, devido a alterações nas condições fisiológicas ou ambientais, ou em um contexto genético, alterações no gene de forma a permitir a perda de uma função previamente essencial. Neste caso, outro gene assume a função essencial (Koonin, 2003; Bergmiller et al., 2012). Formas de predição e descoberta de genes essenciais têm sido apoiadas por uma quantidade significante de trabalhos experimentais (Gustafson et al., 2006). Muitos estudos têm feito uso destes trabalhos para determinar a essencialidade dos genes em protozoários (Doerig et al., 2002; Ullu et al., 2004; Doyle et al., 2010) e bactérias (Baba et al., 2006; Christen et al., 2011), na levedura Saccharomyces cerevisiae (Hegemann et al., 2006), em metazoários como Caenorhabditis elegans (Consortium, 2012)e pequenos vertebrados como Danio rerio (Zebrafish). Estes três últimos são classificados como organismos modelo e são descritos na seção Técnicas como nocaute gênico (Giaever et al., 2002) e RNA de interferência (Cullen e Arndt, 2005) são utilizadas para verificar o quão importante é o gene para o organismo. Apesar da disponibilidade de sequenciamento completo de muitos organismos, as informações sobre a essencialidade dos genes ainda não tem sido bem explorada em alguns organismos, como é o caso dos protozoários. Cada uma das técnicas de verificação de essencialidade dos genes requer um grande investimento de tempo e habilidade para executá-las. TDR Targets (Magarinos et al., 2012) é um dos poucos 13

29 bancos de dados que integra dados de diferentes fontes para identificar alvos para fármacos com foco em doenças tropicais negligenciada, e que provê dados sobre a essencialidade do gene. O banco também oferece a busca textual. O diferencial do nosso trabalho está em utilizar uma técnica que insere semântica aos textos, para extrair e poder correlacionar importantes dados descritos nos mesmos e não somente associar um resultado encontrado à sua literatura correspondente. Além disso, buscamos através de sete organismos modelo, informações importantes que podem ser utilizadas para levantar essencialidade para as proteínas dos protozoários. TDR Targets utiliza abordagem semelhante, porém com três organismos modelo Drogabilidade Este conceito se refere a proteínas cujas atividades biológicas podem ser manipuladas através da ligação de uma molécula pequena semelhante a um fármaco (Keller et al., 2006). A drogabilidade da proteína é uma importante característica que tem sido observada nos estudos de descoberta de fármacos. Apesar dos avanços na área computacional e nos trabalhos experimentais, estimativas apontam que, menos de 0,1% das moléculas identificados nas fases iniciais do processo de descoberta de fármacos podem ser otimizados em compostos que mereçam avanço para os ensaios clínicos (Pollastri e Campbell, 2011). As falhas acontecem grandemente devido ao alvo encontrado (o qual geralmente é uma proteína) não ser drogável (Brown e Superti- Furga, 2003). As falhas são muito caras, logo, encontrar alvos para fármacos que possam efetivamente ajudar a atravessar todas as fases do processo de descoberta de fármacos, da identificação do alvo aos testes nas fases clínicas é altamente desejável. Neste sentido, é viável direcionar a identificação e validação de alvos para aqueles que sejam drogáveis, isto é, que possam ser manipulados para efeitos terapêuticos através da ligação de uma molécula semelhante a um fármaco. Diversas abordagens têm sido utilizadas na predição de alvos para fármacos. Elas são divididas principalmente em dois grupos (Li e Lai, 2007): análises baseadas em homologia entre as sequências e buscas por cavidades de ligação na superfície da proteína baseadas na estrutura 3D desta. Citado na seção anterior, TDR Targets é um banco que também oferece informações de drogabilidade para as proteínas das espécies de organismos patógenos 14

30 que mantém. A drogabilidade é verificada utilizando diversas abordagens como ortologia, homologia e algoritmo Bayesiano baseado em características e um conjunto conhecido de proteínas alvo humanas da lista de Paolini et al. (2006) e dois bancos quimiogenômicos DrugStore e StARLITe, que eram proprietários e atualmente são constituintes do banco de dados ChEMBL (Gaulton et al., 2012). Neste trabalho, buscamos informações de drogabilidade também utilizando homologia entre sequências, contudo utilizando bancos de alvos para fármacos, que além de dados de proteínas e fármacos para humanos, também possuem informações para outros organismos, assim como informações sobre ligantes e doenças associadas Homologia e ortologia O conceito de homologia é avaliado no contexto evolucionário e é fundamental para a área da biologia comparativa. Homologia, em um conceito mais geral, significa uma origem evolutiva comum. Os organismos relacionados partilham similaridades que são derivadas de ancestrais comuns. Os genes como entidades ligadas por homologia são chamados de genes homólogos, ou seja, são genes que possuem uma origem comum e possivelmente uma mesma função. Contudo, o termo é geral e designa o relacionamento entre quaisquer entidades, sem outras especificações do processo evolutivo (Koonin, 2005). A ortologia é uma subcategoria da homologia, onde os genes ortólogos são aqueles relacionados via especiação (quando uma espécie se separa em duas), ou seja, são genes de diferentes espécies, originados de um único gene do último ancestral comum. Outra subcategoria refere-se aos genes parálogos, os quais são genes homólogos dentro de uma espécie que divergiram por duplicação gênica, derivando funções distintas(koonin, 2005). No desenvolvimento deste trabalho, são utilizados apenas os conceitos de homologia e ortologia. O trabalho buscou, a partir da homologia entre proteínas, utilizar dados presentes nos bancos de dados de fármacos, alvos e ligantes para levantar informações de drogabilidade para os protozoários descritos anteriormente. De maneira semelhante, mas usando o conceito mais específico, de ortologia entre proteínas, utilizar dados sobre os organismos modelo para levantar informações de essencialidade para os estes protozoários. 15

31 1.1.6 Organismos modelo Os organismos modelo são importantes, pois possuem vários aspectos de sua biologia bem estudados a nível molecular. Como muitas características referentes à biologia são similares na maioria dos organismos, torna-se mais fácil estudar um grupo de organismos que apresentam aspectos particulares, logo, chamados de modelo. Os organismos modelo mais populares apresentam vantagens na pesquisa experimental em laboratório como o tamanho pequeno, tempos de geração e ciclo de vida curto, fácil disponibilidade e manutenção. Eles são organismos quase totalmente sequenciados e possuem seus genomas bem estudados e anotados. O centro de pesquisa NIH (National Institutes of Health) disponibiliza um website acerca de diversos organismos modelo, que oferece informações sobre atividades nacionais e internacionais, assim como os recursos que estão sendo desenvolvidos para facilitar a pesquisa biomédica utilizando os modelos animais contidos no website (NIH, 2013). Um grande número de informações pode ser obtido desses organismos, provendo dados valiosos para a análise do desenvolvimento humano e de outros organismos, regulação gênica, processo evolutivo e doenças. Neste trabalho foram utilizados dados de seis organimos modelo eucariotos e um procarioto, os quais são brevemente listados a seguir (NIH, 2013): Escherichia coli: um dos primeiros organismos modelo procarioto, E. coli é uma bactéria que faz parte do sistema digestivo humano. É o organismo modelo mais utilizado em genética molecular. Saccharomyces cerevisiae: um fungo unicelular também conhecido como levedura do pão. S. cerevisiae tem sido usado em pesquisas por um longo tempo. Foi o primeiro eucarioto a ter seu genoma completamente sequenciado, o qual tem sido muito útil como referência para descobrir as sequências de genes humanos e de outros eucariotos. Arabidopsis thaliana: é o organismo modelo de planta mais popular. Foi a primeira planta a ter o seu genoma sequenciado. Cientistas esperam que estudos sistemáticos com a planta ofereçam vantagens para a pesquisa básica em 16

32 biologia molecular e genética, incluindo valor para a agricultura, energia, ambiente e saúde humana. Caenorhabditis elegans: um animal invertebrado nematódeo. É o modelo mais bem caracterizado nos níveis genômico, genético, embriológico, celular e neurobiológico. Foi o primeiro organismo multicelular totalmente sequenciado. Drosophila melanogaster: também conhecido como mosca da fruta, é um animal invertebrado artrópode. Vem sendo utilizado como organismo modelo por muito tempo, principalmente por ser facilmente criada em laboratório e de baixo custo e possuir uma complexidade biológica comparável a dos mamíferos. Danio rerio: é um vertebrado aquático, conhecido no Brasil como peixe paulistinha. O peixe é bastante utilizado para estudar funções de genes específicos e papéis nas vias de sinalização apoiando os estudos de saúde e doenças humanas. Mus musculus: é o modelo clássico de vertebrado mamífero. O rato possui um grande número de linhagens e dados, sendo um excelente modelo para estudos de doenças humanas e sobre fisiologia, metabolismo, controle neurológico e hipertensão. Também é bastante utilizado para estudar as funções gênicas. 1.2 Definições em computação As seções seguintes descrevem importantes conceitos em computação e embasam uma das abordagens principais deste trabalho, na qual foram feitas extrações de dados em bases textuais. Estas definições discorrem sobre web semântica e ontologias, que são os conceitos base para a abordagem utilizada, a anotação semântica Web semântica Este termo foi lançado inicialmente por Tim Berners-Lee e colaboradores em 2001 quando publicaram um artigo (Berners-Lee e Hendler, 2001) na revista Scientific American, o qual descreve a ideia de uma web que consiste em grande parte de documentos para os seres humanos lerem e dados e informações para os computadores manipularem. (Durgin, 2008) retratam a Web Semântica como o futuro da web onde o 17

33 computador através de agentes de software (programas) pode realizar tarefas sofisticadas para os usuários. Atualmente, definimos a Web Semântica como uma extensão da World Wide Web, a web tradicional de documentos, a qual permite que as pessoas compartilhem conteúdo além das fronteiras das aplicações e websites. É também conhecida como web de dados, cuja organização da informação fornece um significado, no qual a conexão lógica dos termos estabelece a interoperabilidade entre sistemas (Shadbolt, 2006). Em outras palavras, na Web Semântica, dados e recursos de várias fontes, através do uso de um ou mais vocabulários controlados definidos de acordo com o domínio de trabalho, conseguem associar significado aos conteúdos publicados na Internet (de modo que seja perceptível tanto pelo humano como pelo computador) e consequentemente facilitar a integração. Ontologia (definida a seguir) constitui o principal modelo utilizado na Web Semântica para impor este vocabulário. O uso dos vocabulários controlados definidos de acordo com o domínio de trabalho é uma maneira de obter um formalismo necessário na Web Semântica para a integração de dados, assim como para a reutilização de dados, oferecendo suporte a interações na rede Ontologias O termo ontologia tem sua origem na filosofia e trata da natureza, da realidade e existência do ser. Na computação, a ontologia é um modelo que representa um domínio da realidade, composto de conceitos (classes e atributos) e o relacionamento entre eles. De acordo com (Gruber, 1993), uma ontologia é uma especificação de uma conceitualização, ou seja, uma ontologia possui uma descrição formal de conceitos e relacionamentos. Deve ser formal, no intuito de ser processável por máquina. Além disso, deve ser compartilhada para um grupo de pessoas. (Guarino, 1998) revê e amplia essa definição descrevendo que uma ontologia é uma teoria lógica, a qual corresponde a um significado intencional de um vocabulário formal, ou seja, um comprometimento ontológico com uma conceituação específica do mundo. Ontologias são especificadas em linguagens cujo foco é descrever significado. Logo, as linguagens de definição de ontologias possuem maior expressividade. Assim, as ontologias são ditas estar no nível de semântica e desta forma elas são usadas para integrar bancos de dados heterogêneos, permitindo a interoperabilidade entre sistemas distintos (Gruber, 2009). 18

34 Existem várias linguagens para a representação de ontologias, nas quais OWL e RDF se destacam. OWL (Ontology Web Language) é uma linguagem aprovada pelo W3C (World Wide Web Consortium) que possui maior expressividade em relação ao RDF e foi projetada para ser usada em aplicações que precisam processar o conteúdo da informação ao invés de apenas mostrá-la para os usuários. RDF (Resource Description Framework) (W3C, 2004) é um padrão do W3C para troca de dados, cuja linguagem representa as informações sobre os recursos na web, como data, título, autor, conteúdo, entre outros. Esses recursos são definidos a partir de URIs (Uniform Resource Identifier), que são identificadores únicos que permitem com que dados de diferentes fontes e domínios sejam conectados. Atualmente, na Web Semântica, a linguagem mais usada é a RDF devido a sua simplicidade. Na web tradicional, uma busca textual é pautada em simples palavras-chave, sem contexto envolvido. Por exemplo, uma simples consulta em um site de busca sobre uma peça de teatro de comédia devolve respostas que incluem alguma descrição ou reportagem sobre a peça. Ao passo que se existisse um significado (conteúdo semântico), como das ontologias, embutido nessas páginas web, essa consulta poderia retornar também informações sobre outras peças de comédia, atores que mais participam de peças de comédia, teatros conhecidos por exibir peças de comédia, ou seja, uma interligação de informações a respeito da busca inicial. Um mecanismo para associar significado a textos ou a páginas web é denominado anotação semântica e é descrito a seguir Anotação semântica Anotação semântica é um mecanismo que visa alcançar os conceitos da Web Semântica, sendo considerada uma abordagem promissora para adicionar e gerenciar o conhecimento associado com um conjunto de recursos. Ela propõe anotar um documento usando informação semântica a partir de ontologias de domínio. Podemos considerar como documento as páginas web, aplicações, dados ou textos. Segundo (Popov, 2003), anotação semântica é um esquema específico para geração e uso de metadados, possibilitando novos métodos de acesso à informação. De acordo com (Ding et al., 2006), a anotação semântica deve ser explícita, formal e não 19

35 ambígua, de forma que seja publicamente acessível, compreensível e identificável, respectivamente. De maneira mais específica, podemos ressaltar ainda que a anotação semântica é uma associação entre expressões relevantes ou termos de um documento e conceitos e instâncias descritos em uma ontologia. A Figura 1.3 ilustra as associações entre termos em um trecho de texto e termos de ontologias e taxonomias 3, e como essas associações podem enriquecer o texto com o conhecimento embutido na ontologia. As anotações podem ser inseridas no mesmo arquivo do documento ou armazenadas separadamente. A anotação semântica provê muitos benefícios quando é aplicada aos documentos. Esta contribui com os mecanismos de recuperação de informação que são capazes de interpretá-la contribuindo com uma busca inteligente baseada em estruturas semânticas. Contribui também para o desenvolvimento de sistemas interativos enriquecidos com semântica, retornando respostas mais inteligentes ao usuário. Por exemplo, em uma busca na web que possui seus documentos anotados semanticamente, ao buscar por uma técnica de genética reversa, por exemplo nocaute gênico, documentos que descrevem RNA de interferência, superexpressão e mutagênese, que também são técnicas de genética reversa, podem, devido à interligação existente, ser retornados. Neste trabalho, a anotação semântica é realizada em textos (artigos) da área biomédica, com o objetivo de anotar os recursos associados com o tema de descoberta de alvos para o combate a doenças tropicais causadas por protozoários. 1.3 Recursos disponíveis As próximas seções descrevem os recursos em termos de bases de dados e bases textuais, assim como repositórios de ontologias utilizados para busca de dados, informações e artefatos utilizados nas abordagens adotadas neste trabalho. 3 Taxonomia é uma coleção de termos de um vocabulário controlado organizada em uma estrutura hierárquica para facilitar a identificação, estudo e localização destes termos. 20

36 Figura 1.3: Associações entre termo no artigo e classe na ontologia para anotação semântica baseada em ontologia Bases de dados Para o desenvolvimento deste trabalho, foi necessário buscar dados e informações das proteínas de todos os organismos que foram utilizados no desenvolvimento protozoários e organismos modelo, assim como dados e informações depositadas nos bancos de alvos, fármacos e ligantes. Desta forma, foram obtidos arquivos fasta de sequências de proteínas, arquivos contendo anotações funcionais e informações sobre genes essenciais. As bases nas quais esses dados e informações foram extraídos são descritas a seguir ProtozoaDB ProtozoaDB (Davila et al., 2008) é um banco de dados desenvolvido para armazenar dados genômicos e pós-genômicos de protozoários. O banco possui uma aplicação web flexível e de uso amigável e tem como objetivo oferecer informações complementares a outros bancos como GeneDB, TcruziDB ou TDRtargets, possibilitando novas análises com ênfase em similaridades distantes e anotações baseadas em filogenia. 21

37 Inicialmente, na versão 1.0 do banco de dados, este armazenava informações somente dos cinco protozoários estudados neste trabalho: E. histolytica, L. major, P. falciparum, T. brucei e T. cruzi. Recentemente, Jardim et al. (2012) apresentaram uma nova versão do banco de dados, na qual foram disponibilizadas informações sobre 22 protozoários patogênicos. O banco está acessível através do endereço Ensembl Ensembl (Flicek et al., 2013) é um banco de dados acessível via uma plataforma web que integra recursos genômicos. O banco é resultado de um projeto conjunto entre EMBL 4 (The European Bioinfomatics Institute) e Wellcome Trust Sanger Institute 5 para desenvolver um sistema que produza e mantenha anotações automáticas de diversos genomas. Contudo, o principal foco está nos dados do genoma humano assim como dados de organismos modelo, os quais possuem mais informações disponibilizadas em relação aos genomas dos demais organismos. O banco de dados Ensembl oferece uma abrangente anotação dos genes baseadas em evidências e recursos de genômica comparativa incluindo alinhamentos e homologias. Essas anotações são integradas com vários bancos de dados externos como InterPro (Hunter et al., 2012), UniProt (The_UniProt_Consortium, 2012) e Pfam (Punta et al., 2012). Ensembl oferece acesso aos dados através de seu website e de uma API (Application Programming Interface) de acesso livre, que é programática fornecendo uma flexibilidade de interação com os dados para uso em análises genômicas. Outra forma de acessar os dados é através do Ensembl BioMart (Kinsella et al., 2011), que é uma ferramenta de mineração de dados, na qual as informações que se deseja extrair podem ser personalizadas, permitindo o download de informações correlacionadas. Para acessar o banco de dados e os recursos de busca, o endereço web é OGEE OGEE (Online GEne Essentiality Database) (Chen et al., 2012) é um banco de dados que armazena informações sobre genes essenciais de organismos eucariotos e procariotos. Possui como objetivo a melhor compreensão sobre os genes essenciais

38 Para isto, o banco armazena genes essenciais e não-essenciais testados experimentalmente e também características como perfis de expressão, conservação entre as espécies e origens evolucionárias. A ideia é oferecer essas informações para facilitar as comparações das diferenças e similaridades entre os genes essenciais e nãoessenciais. O banco armazena mais de genes codificantes de proteínas de oito organismos eucariotos (sete deles são organismos modelos) e 16 organismos procariotos (incluindo o modelo E. coli) testados em experimentos de larga-escala. Além disso, os dados são complementados com resultados de mineração de textos realizada em resumos da PubMed, a qual levantou mais de genes de 38 espécies. Apesar destes resultados terem sido checados manualmente, os autores solicitam cautela ao usar, pois ainda podem conter falsos positivos. Este banco é importante no sentido de fornecer os dados sobre essencialidade dos genes dos organismos modelos. O banco OGEE permite a navegação dos dados através dos organismos e tipo de fonte de dados (experimentos em larga-escala ou mineração de texto) e também a busca através dos nomes dos genes. Todos os dados são gratuitamente acessíveis para fins acadêmicos. O banco de dados pode ser acessado no endereço BindingDB BindingDB (Liu et al., 2007) é um banco de dados que armazena informações relacionadas a afinidades de ligação determinadas experimentalmente, com foco principalmente nas interações de proteínas consideradas candidatas a alvos para fármacos com ligantes que são pequenas moléculas semelhantes a um fármaco. Os dados são extraídos a partir de literatura científica, bioensaios selecionados do PubChem (Bolton, 2008), e dados sobre as proteínas que são alvos do ChEMBL (Gaulton et al., 2012). O banco oferece navegação e busca através de diferentes itens como alvos, compostos, citações e outros bancos de dados. O banco também permite o download de todos os dados, além dos arquivos fasta de todas as proteínas alvos presentes no banco e os mapeamentos para substâncias e compostos do PubChem. O banco de dados é disponibilizado no endereço DrugBank O banco de dados DrugBank (Knox et al., 2011) armazena dados químicos e farmacológicos sobre fármacos combinados com informações sobre os alvos como 23

39 sequências, estruturas e vias metabólicas. É o único recurso de bioinformática publicamente disponível que une estas informações. O banco contém mais de 6700 registros de fármacos que incluem fármacos de pequenas moléculas e fármacos biotecnológicos aprovados pelo FDA (Food and Drug Administration), nutracêuticos e fármacos experimentais. Este último representa a grande parte dos registros. Interessante neste banco é a quantidade de campos informacionais para cada registro (mais de 150), sendo uma parte com foco nos dados químicos e outra parte com foco nos dados de proteínas e alvos. DrugBank oferece uma navegação através de todos os registros do bancos resumidos em um formato tabular. Clicando em um registro de interesse, todas as informações do mesmo são apresentadas. Ao usuário é permitido navegar através dos fármacos agrupados por sua indicação e também desenhar ou escrever um composto químico para que possa ser feita uma busca por compostos idênticos ou similares. Além disso, existe a funcionalidade de busca textual e também a busca relacional sobre várias combinações de campos. Outra funcionalidade se refere à possibilidade de execução do programa BLASTp sobre as sequências de proteínas contidas no banco. Os usuários podem fazer o download do banco de dados completo e também dos mapeamentos para bancos de dados e identificadores externos. O banco de dados é acessível no endereço TTD O banco de dados TTD (Therapeutic Target Database) (Zhu et al., 2012) possui como objetivo fornecer informações compreensivas sobre: proteínas terapêuticas conhecidas e exploradas, a doença associada, informações de vias metabólicas, a eficácia dos alvos e os correspondentes fármacos candidatos, em processo clínico e aprovados. Uma característica vantajosa do banco é a informação de validação do alvo que pode ser a potência do fármaco contra o alvo, e os efeitos de silenciamento gênico (knockout), e redução da expressão gênica (knockdown) ou variações genéticas do alvo. O banco de dados ainda oferece ligações para bancos de dados externos contendo informações sobre a função do alvo, estruturas 3D, propriedades do ligante, nomenclatura das enzimas, entre outros. É importante considerar também que todas as informações são referenciadas por literatura científica. O banco de dados é acessível no endereço 24

40 1.3.2 Recursos textuais Este tipo de base contém referências para artigos científicos e constitui uma importante fonte para extração de informação útil, uma vez que muitas descobertas de pesquisas científicas estão depositadas apenas no formato de texto. A PubMed é desenvolvida e mantida pelo NCBI (National Center for Biotechnology Information) e atualmente conta com mais de 22 milhões de citações de literatura biomédica reunidas da MEDLINE 6, revistas das áreas de ciências da vida e livros online. Algumas das citações oferecem apenas o resumo do artigo, e outras oferecem além do resumo, o acesso ao conteúdo completo dos mesmos a partir dos websites das editoras das revistas ou do PubMed Central Repositórios de ontologias biomédicas A área biomédica conta com iniciativas como The Open Biological and Biomedical Ontologies (OBO) Foundry e NCBO BioPortal (The National Center for Biomedical Ontology) que englobam e disponibilizam diversas ontologias desta área. A área tem feito o uso de ontologias para anotação de genomas, com o objetivo de padronizar os termos e conceitos utilizados, pois como pode ser percebido, por exemplo, nos artigos publicados nesta área de pesquisa, a mesma é marcada pela existência de um grande número de termos. Ambos são portais acessíveis através da web. OBO Foundry preocupa-se em estabelecer um conjunto de princípios para o desenvolvimento de ontologias com a finalidade de criar um conjunto de ontologias de referência no domínio biomédico (Smith et al., 2007). Compreende 120 ontologias, onde as que se destacam são: GO (Gene Ontology), CHEBI (Chemical Entities of Biological Interest), PaTO (Phenotypic Quality Ontology) e PRO (PRotein Ontology). O portal é acessível no endereço NCBO BioPortal (Noy et al., 2009) oferece a funcionalidade de pesquisar por termos nas ontologias e também oferece recursos como fazer a ligação de um projeto que usa ontologias com as descrições das ontologias do portal, encontrar e criar relações entre os termos de diferentes ontologias, revisar e comentar as ontologias e criar anotações baseadas nas ontologias em textos específicos do usuário. O portal

41 compreende no momento 342 ontologias, dentre as quais estão incluídas diversas ontologias que são disponibilizadas pela OBO. 1.4 Justificativa Artigos científicos disponibilizados publicamente constituem uma importante fonte de busca para reunir informações sobre genes essenciais de diferentes organismos. As informações obtidas a partir destas buscas podem vir a ser elementos propulsores ao estudo destes genes nos protozoários causadores de doenças tropicais. Então, é importante que os artigos recuperados sejam relevantes para o estudo em questão. Estes artigos compõem as chamadas bases textuais, as quais são extremamente volumosas. Fazer a busca de tais informações é relativamente fácil com a utilização de palavras chaves ou com uma combinação destas através de conectivos lógicos. Mas, devido ao volume, muitos textos são recuperados e nem todos possuem informações que sejam realmente relevantes. Logo, extrair informação útil e correlações existentes entre seus conteúdos se mostra uma tarefa difícil. Uma abordagem para apoiar essa extração é anotar os textos recuperados semanticamente baseando-se em uma ontologia de domínio, trazendo assim um conhecimento adicional aos textos para um formato estruturado e mais fácil de analisar. Por outro lado, as bases de dados também possuem conteúdo importante a ser reutilizado e assim, fazer a busca por homologia entre sequências de genes ou proteínas de protozoários causadores de doenças tropicais e de organismos modelos é uma estratégia para levantar possíveis genes essenciais nesses parasitos. De forma semelhante, as buscas por homologia realizadas entre sequências de genes ou proteínas dos protozoários e proteínas de alvos que possuam fármaco associado são também interessantes, pois seus resultados sugerem que a proteína homóloga tem chances de ser uma proteína drogável. A priorização de alvos para fármacos é alcançada fazendo-se a integração dos dados obtidos através da análise baseada em homologia com os dados informacionais. Neste cenário, dados específicos de distintas fontes são utilizados, como os dados relacionados à essencialidade e drogabilidade das proteínas, dados do proteoma do patógeno e os dados informacionais como anotação funcional, características do alvo e mapeamentos para outras fontes de dados. Ademais, estes dados podem ser integrados 26

42 com os resultados de extração de informação das bases textuais, de maneira a complementar informações para apoiar a decisão de qual(is) alvo(s) seguirão no processo de descoberta de fármacos. Por outro lado, o processo inverso também pode ocorrer, ou seja, uma pesquisa realizada em fontes textuais pode ser complementada com dados obtidos a partir da integração de dados estruturados de maneira a tentar encontrar relações não pensadas anteriormente e direcionar novas pesquisas. Utilizando-se da integração, seja através das bases textuais, semiestruturadas ou ambas é possível reunir dados suficientes para que perguntas consigam ser respondidas, como: quais os melhores alvos para fármacos em um proteoma de patógeno? Qual priorização que se poderia a eles? Qual estudar primeiro? Os estudos com os protozoários são importantes, pois estes são responsáveis pela maioria das doenças tropicais negligenciadas, como a doenças de Chagas, a leishmaniose, a malária, a amebíase, entre outras. Estas parasitoses são responsáveis por grande quantidade de mortes e são causadoras de problemas sócio-econômicos graves para os países em desenvolvimento. Além disso, as indústrias farmacêuticas não se disponibilizam a pesquisar novos fármacos para essas doenças por serem de interesse exclusivamente de países mais pobres. O processo de descoberta de um alvo para a produção de novos fármacos é bastante demorado e fazer uma seleção dos dados de maneira que expressem alvos com grandes chances de permitirem a descoberta de um novo fármaco é significativamente relevante, pois permite ganhar tempo na pesquisa por parte dos pesquisadores e assim a possível aceitação pela disputada indústria farmacêutica. 27

43 2 OBJETIVOS 2.1 Objetivo geral Desenvolver uma metodologia para apoiar a priorização de alvos para a descoberta de fármacos para o combate a doenças tropicais negligenciadas causadas por protozoários, utilizando métodos de buscas textuais e similaridades baseadas em homologia e ortologia entre sequências de proteínas, com foco na essencialidade e drogabilidade das proteínas. 2.2 Objetivos específicos Desenvolver uma metodologia para apoio a buscas textuais e anotação semântica de artigos científicos específicos de domínio, assim como para a verificação e análise de buscas por homologia e ortologia entre sequências de proteínas de protozoários, organismos modelos e alvos para fármacos. Anotar semanticamente artigos científicos do domínio biomédico, mais especificamente relacionados aos protozoários causadores de doenças tropicais e organismos modelos estudados neste trabalho. Levantar proteínas de protozoários que compartilham características de essencialidade com as proteínas dos organismos modelos. Levantar proteínas de protozoários que compartilham características de drogabilidade com proteínas identificadas como alvo para fármacos. Desenvolver programas para extrair os dados da anotação semântica e da busca por homologia e ortologia, assim como para o cruzamento de informações e a persistência dos dados em um banco de dados relacional. Apresentar exemplos de proteínas dos protozoários candidatas a alvos, que podem ser priorizadas para posteriores estudos no processo de descoberta de fármacos. 28

44 3 METODOLOGIA Neste trabalho, objetivamos a priorização de alvos para a descoberta de fármacos para o combate a doenças negligenciadas causadas por protozoários. Para alcançar este objetivo, a metodologia adotada possui dois processos principais, um atuando sobre bases textuais e outro sobre bases de dados semiestruturadas. Os processos englobam as atividades de extração, desenvolvimento, análise e integração de dados recuperados em bases textuais e em bases de dados semiestruturadas. Há também um processo no qual são realizados cruzamentos de dados. A Figura 3.1 exibe o processo geral e as atividades idealizadas para esta metodologia. Figura 3.1: Processo de extração, desenvolvimento, análise, integração e cruzamento de dados para priorização de alvos para fármacos para o combate a doenças negligenciadas causadas por protozoários. 29

45 Um dos processos iniciais se refere à extração de dados e informações em bases textuais, a partir de artigos científicos. Os artigos recuperados são anotados semanticamente utilizando-se ontologias de domínio. Sobre as anotações, são extraídos dados e informações e estes carregados para um banco de dados. O outro processo que pode ser trabalhado paralelamente ao descrito acima se trata da extração de dados e informações em bases de dados semiestruturadas. Este tipo de base é caracterizada por disponibilizar seus dados e informações a partir de arquivos, os quais possuem alguma estrutura, como identificadores e organização em linhas e colunas, representando os registros e atributos. Nesta fase são realizadas: i) a busca por ortologia entre as sequências de proteínas de protozoários e de organismos modelo que possuam disponibilizados seus genes ou proteínas essenciais, de modo a levantar possíveis proteínas essenciais nos protozoários e ii) a busca por homologia entre as sequências de proteínas de protozoários e de alvos e ligantes que possuam fármaco associado, para levantar possíveis proteínas drogáveis nos protozoários. Após a busca por ortologia e homologia entre as sequências de proteínas, os resultados são analisados de maneira a filtrá-los mantendo os dados relevantes. Estes dados são integrados com informações de anotação funcional, como a descrição da proteína, e possíveis mapeamentos para outras bases de dados (exemplos descritos posteriormente). Todos os dados e informações são carregados para um banco de dados relacional de maneira a facilitar consultas aos mesmos. O processo final, de cruzamento dos dados é realizado de maneira a buscar resultados mais refinados e complementares. Neste processo é efetuado o cruzamento entre os dados e informações das possíveis proteínas essenciais e das possíveis proteínas drogáveis, de modo a priorizar os melhores alvos. Estes dados também são cruzados com os dados extraídos dos artigos científicos de modo a buscar informações e direcionamento dos artigos que possam embasar novas pesquisas ou ainda identificar nichos de pesquisa. As atividades de cada processo estão descritas em detalhes nas próximas seções. As descrições oferecem uma espécie de tutorial, ou seja, uma passo a passo, de forma mais genérica possível, para permitir que estes passos sejam executados em outros objetos de pesquisa. Para cada seção, são explicados também, como estes passos foram aplicados neste trabalho. 30

46 3.1 Extração de dados e informações a partir de artigos científicos As bases textuais online como a PubMed constituem uma importante fonte para extração de informações úteis. Contudo, devido ao tamanho volumoso destas bases, encontrar um conjunto de textos (documentos ou artigos científicos) que possa ser relevante para investigações mais profundas torna-se uma tarefa difícil, pois envolve a leitura de muitos textos. A anotação semântica de textos baseada em ontologia é uma abordagem que pode ser utilizada para apoiar a tarefa de escolha de artigos e a extração de dados e informações a partir destes. Os itens seguintes descrevem atividades importantes a serem adotadas para a utilização da abordagem de anotação semântica. A ordem de execução destas atividades pode ser observada no fluxograma apresentado na Figura 3.2. Para padronização, será utilizado o termo artigo para as explicações, embora estes passos sirvam também como uma metodologia para outros tipos de textos. Figura 3.2: Fluxograma representativo da extração de dados e informações a partir da anotação semântica em textos baseada em ontologia. 31

47 3.1.1 Entendimento do objeto de pesquisa A familiarização com o assunto de trabalho é o primeiro passo para a aquisição de conhecimento e por consequência o entendimento do objeto de pesquisa. Chamamos de objeto de pesquisa o assunto principal a ser estudado; o universo da pesquisa no qual um problema está inserido. Contudo, ao estudar sobre o objeto de pesquisa, percebemos que ele pode conter informações de diversos domínios. Por exemplo, seja o objeto de pesquisa desta tese, a priorização de alvos para desenvolvimento de fármacos. Ao estudar sobre este assunto, nos deparamos com informações de diversos domínios, como farmacologia, biologia molecular, vias metabólicas, doenças, entre outros. Logo, para o entendimento do objeto de pesquisa é recomendável que sejam percebidos também os domínios que o compõem. Esta familiarização ou entendimento pode ser obtida tendo como base leituras sobre o assunto como artigos de referência, manuais e protocolos, configurando inicialmente um trabalho sozinho, que pode ser complementado posteriormente com um trabalho em grupo, a partir de reuniões ou entrevistas com especialistas. Como produto deste passo, termos e expressões devem ser levantados. Estes são constituídos por palavras-chave adquiridas através dos materiais pesquisados ou levantados a partir das reuniões ou entrevistas. Sinônimos e termos relacionados devem ser incluídos. Como há uma disponibilização maior pelas bases textuais de artigos escritos na língua inglesa, os termos e expressões devem ser trabalhados nesta língua. É importante que tais termos e expressões sejam validados pelo especialista e ainda, que constituam um grupo representativo, de forma a não haver excessos. Os termos e expressões validados irão nortear a pesquisa, sendo necessários na recuperação dos textos e posteriormente para a extração de dados e informações. Neste trabalho, para a extração de dados e informações em textos, restringimos o entendimento do objeto de pesquisa relacionado a priorização de alvos, para somente o foco da essencialidade dos genes. Isto porque o conceito da essencialidade já nos traria um substancial volume de artigos a ser processado, visto que, nesta tarefa a ideia seria extrair dados e informações nos artigos referentes aos protozoários e aos organismos modelo. Outro motivo se deve ao fato do foco da drogabilidade da proteína tratar de conceitos, como aqueles relacionados à estrutura das proteínas, os quais não são tratados nesta tese. 32

48 Desta forma, o entendimento do objeto de pesquisa foi iniciado a partir de busca na literatura para compreensão dos conceitos envolvidos. Estes conceitos englobam as abordagens de genética reversa utilizadas para determinar o fenótipo resultante da mutação de um gene específico. A estes conceitos foram adicionados os nomes dos protozoários e os nomes dos organismos modelo. Posteriormente, através de reuniões realizadas com especialistas, os termos e expressões englobando os conceitos comentados acima e os nomes dos organismos foram definidos, assim como os possíveis sinônimos. Os termos e expressões levantados estão na língua inglesa. Os mesmos, que constituem o conjunto de palavras-chave são descritos a seguir: Conceitos: gene, protein, essential, essentiality, reverse genetic, knockout, knockdown, RNA interference, rnai, lethal phenotype, survival, null mutants. Nomes dos organismos: Entamoeba histolytica, Leishmania major, Plasmodium falciparum, Trypanosoma brucei, Trypanosoma cruzi, Arabidopsis thaliana, Caenorhabditis elegans, Drosophila melanogaster, Danio rerio, zebrafish, Mus musculus, Saccharomyces cerevisiae, baker s yeast e Escherichia coli. Um termo não considerado foi choke point (ou chokepoint). Uma reação de choque point é uma reação que consome ou um substrato específico ou produz um produto específico na rede metabólica (Singh et al., 2007). Assim é bastante usada para determinar a essencialidade de uma enzima, identificando potenciais alvos para fármacos. Como o conceito de rede metabólica não fazia parte do escopo deste trabalho, o termo choke point não foi utilizado para a definição das consultas e busca de artigos, pois recuperaria um conjunto grande de artigos, que teria informação funcional a respeito de essencialidade de proteínas, mas também teria muitos assuntos não relacionados ao escopo do trabalho Definição de consultas Os termos e expressões levantados a partir do entendimento do objeto de pesquisa constituirão as palavras-chave para a montagem de consultas a serem utilizadas na recuperação de artigos nas bases textuais. Para a montagem das consultas, as palavras-chave devem ser empregadas sozinhas ou combinadas através de conectivos lógicos. É necessário fazer consultas 33

49 gerais onde as palavras-chave podem ser combinadas, por exemplo, duas a duas ou de acordo com os domínios observados, e em seguida, especificar as consultas inserindo e combinando logicamente outras palavras-chave, criando assim, níveis de consultas específicas. Por exemplo, o nosso objeto de pesquisa envolve domínios de biologia molecular, farmacologia e nomenclatura dos organismos, então, podemos montar consultas que representem a combinação de dois destes domínios ou mais. Consultas gerais terão resultados mais abrangentes, ou seja, retornarão um número maior de artigos, e ao contrário, a medida que as consultas se tornam mais específicas, o número de artigos retornados será menor. Esta questão nos faz imaginar que seria mais aconselhável fazer somente consultas específicas. Contudo, o número baixo de artigos retornados com tais consultas pode não ser representativo para trazer as informações necessárias para o estudo em questão. Para os objetivos deste trabalho, utilizamos as palavras-chave descritas na seção anterior e organizamos as consultas em dois conjuntos. Um conjunto de consultas baseado nos conceitos e na nomenclatura dos protozoários, e outro conjunto consistindo da repetição das primeiras, porém, trocando-se os nomes dos protozoários pela nomenclatura dos organismos modelo. As consultas variam de gerais a específicas. As mesmas são descritas nas Tabelas 3.1 e Seleção das bases textuais Para a execução das consultas e assim a recuperação dos artigos, o primeiro aspecto a ser observado para a escolha das bases textuais é o conteúdo de informação presente nas mesmas, que deve estar de acordo com o objeto de pesquisa e os domínios de trabalho. A partir disto, a seleção das bases varia de acordo com as possibilidades e necessidades do pesquisador ou grupo de pesquisa, ou seja, se há a necessidade de se trabalhar com o artigo completo, ou apenas parte dele, como o resumo (abstract). Isto é importante devido ao fato da existência de bases que permitem o acesso público às fontes, sejam elas apresentando artigos completos ou apenas os resumos, e outras que são privadas, as quais, para obter acesso, há a necessidade de uma conta de usuário adquirida mediante pagamento de taxas. Há artigos que podem ser bastante interessantes, mas que estão publicados em revistas indexadas que disponibilizam o acesso apenas sob o pagamento da taxa de acesso. Outro aspecto se refere à questão de 34

50 algumas bases proverem acesso público a todos os resumos, porém alguns artigos completos são de acesso aberto enquanto outros são indexados em bases privadas. Tabela 3.1: Conjunto de consultas baseado nos conceitos e protozoários. 1. essentiality AND ("trypanosoma cruzi" OR "trypanosoma brucei" OR "leishmania major" OR "entamoeba histolytica" OR "plasmodium falciparum") 2. '"essential gene" AND ("trypanosoma cruzi" OR "trypanosoma brucei" OR "leishmania major" OR "entamoeba histolytica" OR "plasmodium falciparum")' 3. '"essential protein" AND ("trypanosoma cruzi" OR "trypanosoma brucei" OR "leishmania major" OR "entamoeba histolytica" OR "plasmodium falciparum")' 4. '"gene knockout" AND essentiality AND ("trypanosoma cruzi" OR "trypanosoma brucei" OR "leishmania major" OR "entamoeba histolytica" OR "plasmodium falciparum")' 5. '"rnai" AND essentiality AND ("trypanosoma cruzi" OR "trypanosoma brucei" OR "leishmania major" OR "entamoeba histolytica" OR "plasmodium falciparum")' 6. '(rnai OR "rna interference") AND essentiality AND ("trypanosoma cruzi" OR "trypanosoma brucei" OR "leishmania major" OR "entamoeba histolytica" OR "plasmodium falciparum")' 7. knockdown AND essentiality AND ("trypanosoma cruzi" OR "trypanosoma brucei" OR "leishmania major" OR "entamoeba histolytica" OR "plasmodium falciparum") 8. '"reverse genetic" AND essentiality AND ("trypanosoma cruzi" OR "trypanosoma brucei" OR "leishmania major" OR "entamoeba histolytica" OR "plasmodium falciparum")' 9. essentiality AND (survival OR "lethal phenotype" OR "null mutants") AND ("gene knockout" OR knockdown OR rnai OR "rna interference" OR "reverse genetic") AND ("trypanosoma cruzi" OR "trypanosoma brucei" OR "leishmania major" OR "entamoeba histolytica" OR "plasmodium falciparum") 10. (survival OR "lethal phenotype" OR "null mutants") AND ("gene knockout" OR knockdown OR rnai OR "rna interference" OR "reverse genetic") AND ("trypanosoma cruzi" OR "trypanosoma brucei" OR "leishmania major" OR "entamoeba histolytica" OR "plasmodium falciparum") 35

51 Tabela 3.2: Conjunto de consultas baseado nos conceitos e organismos modelo. 11. essentiality AND (coli OR elegans OR melanogaster OR thaliana OR (cerevisiae OR "baker yeast") OR (zebrafish OR "danio rerio") OR "mus musculus") 12. "essential gene" AND (coli OR elegans OR melanogaster OR thaliana OR (cerevisiae OR "baker's yeast") OR (zebrafish OR "danio rerio") OR "mus musculus") 13. "essential protein" AND (coli OR elegans OR melanogaster OR thaliana OR (cerevisiae OR yeast) OR (zebrafish OR "danio rerio") OR "mus musculus") 14. "gene knockout" AND essentiality AND (coli OR melanogaster OR thaliana OR (cerevisiae OR "baker's yeast") OR (zebrafish OR "danio rerio") OR "mus musculus") 15. knockdown AND essentiality AND (coli OR melanogaster OR thaliana OR (cerevisiae OR "baker's yeast") OR (zebrafish OR "danio rerio") OR "mus musculus") 16. rnai AND essentiality AND (coli OR elegans OR melanogaster OR thaliana OR (cerevisiae OR "baker's yeast") OR (zebrafish OR "danio rerio") OR "mus musculus") 17. (rnai OR "rna interference") AND essentiality AND (coli OR elegans OR melanogaster OR thaliana OR cerevisiae OR (zebrafish OR "danio rerio") OR "mus musculus") 18. "reverse genetic" AND essentiality AND (coli OR elegans OR melanogaster OR thaliana OR (cerevisiae OR "baker yeast") OR (zebrafish OR "danio rerio") OR "mus musculus") 19. essentiality AND (survival OR "lethal phenotype" OR "null mutants") AND ("gene knockout" OR knockdown OR rnai OR "rna interference" OR "reverse genetic") AND (coli OR elegans OR melanogaster OR thaliana OR (cerevisiae OR "baker yeast") OR (zebrafish OR "danio rerio") OR "mus musculus") 20. (survival OR "lethal phenotype" OR "null mutants") AND ("gene knockout" OR knockdown OR rnai OR "rna interference" OR "reverse genetic") AND (coli OR elegans OR melanogaster OR thaliana OR (cerevisiae OR "baker yeast") OR (zebrafish OR "danio rerio") OR "mus musculus") 36

52 Neste trabalho, escolhemos a fonte textual PubMed para a busca dos artigos. A escolha se deve ao fato da PubMed reunir milhões de citações e resumos nas áreas de biomedicina e saúde. Existem resumos que possuem links para a versão completa do artigo, mas que é publicada em uma revista indexada paga. Contudo, existem resumos que possuem sua versão completa disponibilizada através de acesso aberto pelo PubMed Central, fato que nos ajudou a obter artigos completos gratuitamente Montagem do corpus Ao conjunto de artigos recuperados damos o nome de corpus. Após a definição das consultas e a escolha da base textual, o processo de montagem do corpus é iniciado fazendo-se então a recuperação dos artigos. Cada consulta executada para a recuperação dos artigos tende a retornar um número grande destes, o que inviabiliza salvá-los manualmente. Logo, faz-se necessária a utilização de algum programa de gerenciamento de documentos ou o desenvolvimento de um programa (ou script) para a obtenção automática destes artigos. Para efeitos de uma análise quantitativa, é ideal que os resultados de cada consulta sejam registrados. Constituem estes resultados o total de artigos encontrados e os seus respectivos formatos, e o total de artigos completos recuperados. Como as consultas são variações umas das outras, é possível que o mesmo artigo seja recuperado em mais de uma consulta. Dessa maneira, é recomendado retirar as duplicações. Dependendo do objetivo de pesquisa, uma limpeza no corpus pode ser feita, pois nem todas as informações contidas no mesmo são relevantes. Como por exemplo, título e cabeçalho, figuras, tabelas, gráficos, agradecimentos e referências. Para esta tarefa os artigos devem ser convertidos para um formato que permita alterações, como o formato txt (ou de texto plano). Contudo, apesar de os textos ficarem mais limpos e enxutos, esse é um processo trabalhoso, pois, mesmo que utilize uma ferramenta para apoiar esta limpeza, uma verificação manual ainda deve ser feita, uma vez que não existe um padrão para todos os artigos. Os artigos recuperados são parte do objeto de pesquisa e por sua vez também são constituídos de diversos domínios. Neste trabalho, os artigos recuperados descrevem sobre genes e proteínas essenciais de protozoários e organismos modelo, que é o objeto de pesquisa para a tarefa de extração de dados e informações. Logo, podemos encontrar descrições sobre os domínios da biologia molecular, farmacologia e doenças. 37

53 Para a execução das consultas e buscas dos artigos, foi desenvolvido um programa em linguagem de programação Ruby. Esta linguagem possui um pacote de código aberto de classes ou bibliotecas denominado BioRuby as quais dão apoio na execução de tarefas da área de bioinformática. O programa desenvolvido fez uso de uma biblioteca do pacote BioRuby para acesso e recuperação de artigos da PubMed. O programa desenvolvido foi executado para cada consulta. A Tabela 3.3 exibe os resultados das consultas. Para cada consulta é mostrada a quantidade de artigos retornados, que variam entre artigos completos, resumos e citações. Em seguida são mostrados quantos destes artigos são completos e com acesso livre. Logo após, é mostrada a quantidade de artigos completos recuperados, nos formatos pdf ou html ou ambos. Podemos notar que nem todos os artigos completos de livre acesso foram recuperados. Isto porque recuperamos apenas os artigos que fazem parte do PubMedCentral. Os demais eram acessíveis apenas nos websites das revistas em que foram publicados e assim não foram buscados. O total de artigos retornados e de artigos completos de acesso livre é de 2446 e 1377 respectivamente. Deste último, foram recuperados 995 artigos no formato html e 792 artigos no formato pdf. Podemos perceber através desta contagem, que vários artigos não apresentavam o formato pdf. Assim sendo, para a montagem do corpus desta tese, foram escolhidos os artigos no formato html. Como as consultas definidas possuíam correlações, houve artigos que foram recuperados em mais de uma consulta. Desta maneira, as duplicações foram removidas, totalizando 938 artigos. Devido ao tempo grande imposto para a limpeza dos artigos para retirada de cabeçalhos, referências e figuras, optamos por não realizar essa tarefa e trabalhar com os textos completos para a tarefa de anotação semântica. Contudo, reparamos que para alguns artigos, não foi recuperado o texto completo e sim apenas o cabeçalho do mesmo. Então, estes artigos também foram retirados, e assim chegamos a um total de 776 artigos na montagem do corpus, sendo 82 artigos referentes à consultas com os protozoários e 694 artigos referentes às consultas com os organismos modelo Escolha da(s) ferramenta(s) de anotação semântica Para realizar a anotação semântica, uma ferramenta deve ser adotada. Requisitos funcionais essenciais na ferramenta englobam: i) a forma de anotação que deve ser 38

54 automática, ii) a utilização de ontologias arbitrárias e iii) a possibilidade de manipular os arquivos anotados. Tabela 3.3: Quantidade de artigos retornados e recuperados a partir das consultas definidas. Consulta Quantidade de artigos retornados Quantidade de artigos completos com acesso livre Quantidade de artigos recuperados html e 5 pdf html e 10 pdf html e 5 pdf html e 4 pdf html e 4 pdf html e 4 pdf html html e 4 pdf html e 50 pdf html e 13 pdf html e 220 pdf html e 189 pdf html e 1 pdf html e 2 pdf html e 2 pdf html e 1 pdf html e 162 pdf html e 116 pdf O primeiro requisito (i) se justifica devido ao volume grande de artigos recuperados, que torna a tarefa de anotação onerosa ao ser feita manualmente. A anotação manual ainda exige que especialistas do domínio realizem a tarefa, necessitando, portanto, da disponibilidade destes, que nem sempre é possível. A anotação automática é desempenhada sem a intervenção do usuário, através do uso de técnicas como processamento de linguagem natural, aprendizado de máquinas e extração de informação, para associar expressões do texto (ou artigo) a termos de uma ontologia. 39

55 O segundo requisito (ii) é necessário para que ontologias de interesse do pesquisador possam ser utilizadas. Como descrito anteriormente, os artigos são constituídos ou possuem descrições a respeito de diversos domínios dentro de um assunto principal (o objeto de pesquisa). As ontologias, por sua vez, retratam apenas um domínio da realidade. Logo, dificilmente uma única ontologia irá cobrir todos os domínios dos artigos, sendo necessária a escolha de mais de uma ontologia. O terceiro requisito (iii) é essencial para que o conteúdo anotado possa ser manipulado, seja através de visualizações ou fazendo-se extrações das anotações para a realização de análises. Se a ferramenta oferecer a visualização das anotações, mas não permitir o acesso ao arquivo anotado, não será suficiente. Requisitos funcionais desejáveis podem também ser observados como: Tipo de plataforma: desktop. Devido ao volume de artigos a serem anotados, é desejável uma ferramenta que possa ser instalada para executar de forma local as anotações. Processamento de diferentes formatos de ontologias: as ontologias apresentam formatos variados em suas criações. Os principais formatos são owl e rdf. No caso de ontologias biomédicas, ainda existe o formato obo. Processamento de diferentes formatos de textos: possibilidade de processar, além de textos planos (txt), textos nos formatos doc, odt, pdf e outros formatos similares. Registro da anotação: esta característica significa que a anotação pode ser feita de forma intrusiva, ou seja, a anotação é salva no próprio texto; ou de forma não-intrusiva, na qual a anotação é armazenada em outro arquivo (geralmente um arquivo xml) e não modifica o documento original. Independente da forma de anotação presente na ferramenta, o importante a observar para este requisito são as marcações das anotações de maneira que haja possibilidade de extração das mesmas posteriormente. Inferência: possibilidade de fazer inferências, anotando os termos com mais de uma classe da ontologia (como classes-pai e subclasses) ou anotando referências ou ligações dos termos anotados. 40

56 Para obter uma listagem de ferramentas e um melhor entendimento sobre os requisitos das mesmas, em Belloze et al. (2011) é feita uma avaliação de diversas ferramentas de anotação semântica em textos. Observando as comparações e testes realizados com as ferramentas listadas em Belloze et al. (2011), foi escolhida a ferramenta AutôMeta para realizar a anotação semântica dos artigos. AutôMeta (Automatic Metadata Annotation Tool) (Fontes, 2011), apresenta-se como uma ferramenta de anotação semântica automática e que permite a anotação de um ou mais documentos utilizando uma ontologia previamente selecionada. É uma ferramenta desktop que está disponível tanto para uso com interface gráfica quanto para linha de comando. Os documentos a serem anotados devem estar no formato txt e as anotações geradas são armazenadas de forma intrusiva (são incluídas no próprio texto, alterando o conteúdo do arquivo). As ontologias devem estar nos formatos rdf, owl ou n-triple. A ferramenta gera arquivos de saída no formato html e utiliza o padrão RDFa (Resource Description Framework in attributes) (W3C, 2012) para fazer as anotações, o qual torna o conteúdo anotado invisível para o usuário na visualização do texto. Contudo, o padrão é visível para agentes de software, e sendo assim pode ser visível para usuários que desejam softwares que explicitam o conhecimento anotado sobre o texto. Além disso, o padrão permite a reutilização dos dados e a extração de um conjunto de dados semântico sobre cada texto através de triplas RDF. A ferramenta é de código aberta, se mostrou promissora e flexível, permitindo o processamento de vários artigos por execução e a utilização de grandes ontologias Escolha das ontologias Com base no entendimento do objeto de pesquisa e do levantamento das palavraschave, é possível fazer a escolha das ontologias que serão utilizadas na anotação semântica dos textos. É importante considerar que os artigos recuperados e as ontologias escolhidas devem estar no mesmo âmbito linguístico, ou seja, as línguas devem ser as mesmas para que as associações entre termos dos artigos e classes das ontologias ocorram. Ainda, ferramentas de anotação semântica que fazem uso de recursos de processamento de linguagem natural também necessitam que a escolha seja feita no âmbito linguístico dos recursos, que geralmente, estão na língua inglesa. 41

57 Os repositórios de ontologias como OBO Foundry e NCBO BioPortal (citados na seção 1.3.3) possuem filtros de acordo com o conteúdo das ontologias e também as suas descrições; contudo há casos em que a ontologia não será encontrada em um repositório. Para ambas as situações, uma pesquisa deve ser feita de modo a selecionar um conjunto de ontologias que estejam de acordo com o seu domínio. Se este conjunto for grande, é ideal que seja feito um refinamento de modo a selecionar um conjunto que contenha o número mínimo possível de ontologias para cobrir o máximo do domínio de trabalho, ou seja, esse conjunto deve ser tal que não inclua ontologias redundantes e que as ontologias cubram a maioria dos termos e expressões (palavras-chave) selecionados anteriormente. Uma forma de fazer este refinamento é navegar pela ontologia pesquisando classes que correspondam às palavras-chave. Quanto mais correspondências forem encontradas, mais chances de a ontologia permitir uma boa anotação. Estes passos estão resumidos a seguir de modo sistemático: i. Selecionar repositórios de ontologias (se existir). ii. Selecionar as ontologias cujos domínios sejam adequados ao objeto de pesquisa e aos domínios presentes nos textos. iii. Acessar as ontologias selecionadas, através de seus arquivos ou nas árvores montadas com suas classes em modo gráfico e pesquisar por classes que correspondam às palavras-chave. iv. Após a pesquisa do item iii, identificar e selecionar um conjunto de ontologias que apresentaram um número maior de correspondências entre as classes e as palavras-chave. Nesta seleção são descartadas ontologias redundantes ou com muita interseção entre as classes. Outra forma de realizar o passo iii para apoiar a escolha das ontologias é realizar uma anotação semântica preliminar utilizando o conjunto de ontologias levantadas no passo ii e um pequeno conjunto de textos obtidos a partir da execução das consultas, e posteriormente fazer análises quantitativas. Tais análises podem incluir a contagem do total de termos anotados e o total de classes usadas. Elas irão apontar as ontologias que também apresentaram um número maior de correspondências entre as classes das ontologias e as palavras-chave. 42

58 Cabe ressaltar que a escolha de uma ou mais ontologias é um processo decisório baseado em itens como os descritos anteriormente, pois, a menos que seja desenvolvida uma nova ontologia com os elementos específicos do seu objeto de pesquisa, dificilmente haverá uma totalmente adequada. Para este trabalho, a escolha das ontologias utilizadas na anotação semântica dos artigos ocorreu como descrito a seguir. Para a pesquisa e seleção das ontologias, foi escolhido o repositório de ontologias da área biomédica, NCBO BioPortal, visto que possui mais de 300 ontologias e também inclui as principais ontologias do repositório OBO Foundry. Inicialmente, foi feito um levantamento de quais ontologias estariam no domínio do objeto de pesquisa, referente à essencialidade dos genes e domínios dos artigos, os quais incluem principalmente os domínios farmacológico e de biologia molecular. Mais especificamente, queríamos encontrar ontologias cujas classes cobrissem termos dos artigos relativos aos nomes dos protozoários e organismos modelo, nomes de técnicas utilizadas na descoberta da essencialidade de genes e proteínas e identificação de genes e proteínas. Neste levantamento, foram obtidas vinte ontologias, listadas na Tabela 3.4. Estas ontologias foram verificadas quanto às suas coberturas através de um experimento prévio e de pesquisas nas classes das ontologias. O experimento prévio contou com 44 artigos que foram anotados pelas vinte ontologias separadamente utilizando a ferramenta AutôMeta. Ao analisar a quantidade de termos relevantes do estudo em questão que foram anotados, foi percebido que, as anotações ocorreram com diferentes ontologias. Este cenário não é ideal, pois dificulta o trabalho de anotação, visto que cada ontologia cobre somente um ou dois termos relevantes. Outros termos também importantes e presentes em diversos artigos não foram anotados. Assim sendo, um novo levantamento de ontologias foi realizado, utilizando a ferramenta online Annotator (Shah et al., 2009) do NCBO BioPortal. Esta ferramenta é bastante interessante, pois é capaz de anotar com todas as ontologias presentes no repositório. A ferramenta online somente anota textos com até 500 palavras, e assim, trechos dos 44 artigos da anotação prévia foram submetidos à ferramenta, para o novo levantamento. É importante relatar que a ferramenta disponibiliza uma alternativa de utilização como serviço web, onde é possível anotar um artigo completo. Contudo, além 43

59 de exigir o desenvolvimento de um cliente, seria imprevisível o tempo de execução para a anotação dos artigos completos com as ontologias do repositório, fato pelo qual decidimos não investir no desenvolvimento do cliente e assim a mesma não foi escolhida para anotação do conjunto total de artigos, mas que apoiou na seleção das ontologias através de sua versão online. Tabela 3.4: Ontologias levantadas na primeira seleção. Amino Acid BioAssay Ontology Biomedical Resource Ontology (BRO) Chemical Entities of Biological Interest (CHEBI) Chemical Information Ontology Event Gene Ontology (GO) Gene Regulation Ontology (GRO) Homology Ontology (HOM) Human Disease Infectious Disease Molecule Role Ontology for Drug Discovery Investigations (DDI) Pathway Pilot Ontology Protein modification RNA Ontology (RNAO) Sequence Types and Features (SO) Suggested Ontology for Pharmacogenomics (SOPHARM) System Biology (SBO) Ao verificar as anotações da ferramenta Annotator, as ontologias que apresentaram maior cobertura foram: Molecule Role, NCBI Organismal Classification (NCBI Taxon), PHArmacogenomic RElationships Ontology (PHARE), NCI Thesaurus (NCIt), SNOMED Clinical Terms (SNOMEDCT). Destas, as três últimas ontologias anotaram muitos termos semelhantes e assim, os arquivos das ontologias foram acessados de modo a verificar quais possuíam um número maior de detalhes, como 44

60 definição e sinônimos. Todas as ontologias apresentavam termos sinônimos, porém, NCI Thesaurus foi a única a apresentar a definição dos termos, e desta forma foi escolhida, em detrimento das demais. Cabe comentar que o tesauro 7 MeSH 8 (Medical Subject Headings), conhecido na área biomédica por ser utilizado na indexação de artigos da base textual PubMed não foi utilizado, pois nas pesquisas realizadas como as citadas anteriormente, o tesauro não apresentou cobertura dos termos de domínio melhor que as ontologias escolhidas. Além disso, MeSH está disponibilizada no formato xml, necessitando de uma conversão para utilizar na ferramenta de anotação semântica escolhida. Logo, as ontologias escolhidas para anotar semanticamente os artigos recuperados foram: Molecule Role (Yamamoto et al., 2004): a ontologia apresenta um vocabulário controlado de nomes de proteínas e nomes de famílias de proteínas. NCBI Organismal Classification (NCBI Taxon) (OBO-Foundry, 2013): a ontologia é uma tradução automática do banco de dados de taxonomia do NCBI para arquivos nos formatos obo e owl. Esta taxonomia compreende a classificação taxonômica dos organismos vivos. NCI Thesaurus (NCIt) (Sioutos et al., 2007): a ontologia consta de um vocabulário para representar cuidados médicos, pesquisa básica e translacional, informação ao público e atividades administrativas. Ela é importante para anotar os conceitos levantados no entendimento do objeto de pesquisa Anotação semântica Após a conclusão das etapas anteriores, a atividade seguinte é realizar a anotação semântica dos artigos recuperados fazendo o uso da ferramenta e das ontologias escolhidas. O tempo de execução desta tarefa depende do tamanho das ontologias e do número de artigos. Contudo, o gasto de tempo maior se deve ao tamanho das ontologias, pois aquelas constituídas de poucos termos (cerca de 10 mil termos) permitirão um processamento rápido em minutos ou horas, enquanto que, ontologias com muitos 7 Tesauro é uma lista de palavras ou expressões com significados semelhantes dentro de um domínio específico de conhecimento. A principal finalidade é indexar documentos e recuperar informações

61 termos (acima de 10 mil termos) deixarão o processo lento, podendo demorar dias para a sua conclusão. Para a tarefa da anotação semântica, foi feita uma conversão dos artigos que se encontravam no formato html para o formato txt, pois a ferramenta AutôMeta processa textos somente neste formato. As ontologias NCI Thesaurus e NCBI Taxon foram obtidas no formato owl enquanto que a ontologia Molecule Role foi obtida no formato rdf, formatos possíveis de leitura pela ferramenta. A execução foi realizada utilizando a ferramenta AutôMeta através de linha de comando, conforme ilustrado na Figura 3.3, pois desta forma era possível enviar para anotação um conjunto de artigos. Como parâmetros foram passados: i) o caminho do arquivo da ontologia a ser utilizada no processo de anotação, ii) o diretório de localização dos artigos a serem anotados e iii) o diretório de saída, onde os artigos gerados como resultados do processo de anotação seriam armazenados. O processo de anotação precisou ser executado separadamente para cada ontologia visto que a ferramenta usada não suportava anotações com múltiplas ontologias em uma mesma execução. Figura 3.3: Execução da anotação semântica utilizando a ferramenta AutôMeta através de linha de comando. Parâmetros mínimos necessários: -ontology: caminho do arquivo da ontologia, -documentpath: caminho da pasta onde se encontram os arquivos (artigos) no formato txt e -outpath: caminho da pasta onde serão armazenados os arquivos anotados Extração de dados e informações Com todos os artigos anotados, segue-se para a atividade de extração de dados e a descoberta de informações. Considerando o requisito de manipulação dos arquivos anotados, é possível visualizar as anotações dos artigos abrindo os mesmos em um editor de textos. Contudo, um problema ao utilizar os editores é justamente o fato que eles apenas permitem a visualização das anotações. E para facilitar a descoberta de informações é necessário que os dados sejam extraídos e armazenados em um banco de dados. 46

62 Para cada documento anotado, os dados importantes a ser extraídos são: os termos anotados e as classes da ontologia às quais esses termos foram associados, sejam elas classes diretas ou classes advindas de inferência. Para a extração, programas ou scripts devem ser desenvolvidos. Se a ferramenta possuir um padrão de anotação, como um determinado rótulo (tag) que marca o termo anotado, este facilitará o desenvolvimento do programa, que pode basear-se neste padrão. Além dos termos e classes, é importante registrar o nome ou identificador de cada artigo. De modo a facilitar a busca e pesquisa nestes dados, é ideal armazenar os mesmos em um banco de dados. Para a extração dos dados e informações foram desenvolvidos programas em linguagem de programação Ruby. As anotações realizadas de forma intrusiva pela ferramenta são iniciadas por um rótulo denominado span about, como pode ser visto na Figura 3.4, que permitiu com que fossem desenvolvidas expressões regulares para a extração dos dados. Inicialmente, para cada artigo, foram extraídos: os termos anotados e os identificadores das classes usadas na anotação, que constituíam de classes diretas e classes advindas de inferência, uma vez que a ferramenta possui a característica da anotação por inferência, por exemplo, utilizando a ontologia Molecule Role, os termos 26 S proteasome, caspase e phospatase foram anotados por inferência com a classe hidrolase. Isso significa que existem termos específicos que compartilham a mesma classe. Grande parte dos termos foi anotada com mais de uma classe. A questão da inferência é importante de se comentar, pois esta anotação pode ser mais útil quando se busca por termos mais genéricos que nem sempre são mencionados nos artigos específicos de domínio. 47

63 Figura 3.4: Trecho de um artigo anotado com a ontologia Molecule Role. O rótulo span about marca o início de um termo anotado. O termo anotado pode ser visto no conteúdo da propriedade rdfs:label. As classes que utilizadas na anotação são representadas pelos códigos IMR da ontologia. Uma característica das ontologias biomédicas é representar as suas classes com identificadores e não com os nomes das classes. Estes são descritos através de campos chamados label nos arquivos das ontologias. Deste modo, foi realizado um cruzamento dos primeiros dados extraídos (que continha os identificadores das classes usadas) com o arquivo da ontologia de modo a buscar os nomes das classes. Assim, para cada artigo anotado foram obtidos os seguintes dados: identificador do artigo, termo anotado, identificador da classe usada na anotação e nome da classe. Ao final, todos os dados foram armazenados em um banco de dados. O Sistema Gerenciador de Banco de Dados (SGBD) utilizado foi o MySQL, no qual foram criadas três tabelas, para armazenar os dados extraídos das anotação de cada ontologia. De forma geral, com as anotações é possível levantar informações como: i. Quais artigos abordam temas de domínios distintos que podem ser de interesse do pesquisador. Por exemplo: para o levantamento de alvos para desenvolvimento de fármacos para o combate às doenças causadas por protozoários, seria interessante encontrar artigos que associassem informações dos protozoários com as técnicas de genética reversa. ii. Quais ocorrências de termos ou palavras-chave que são mais frequentes no conjunto de artigos. Retomando o exemplo, poderia ser descoberto que a co- 48

64 ocorrência de uma determinada proteína e a técnica de knockout é muito frequente, indicando, por exemplo, um nicho de estudo direcionado a esta proteína e sua família. iii. A tendência dos artigos encontrados para um dado domínio, por exemplo, se são mais farmacológicos ou mais biológicos. Também, qual segmento de pesquisa é encontrado nos mesmos, ou seja, o que tem sido mais trabalhado e discutido. Esses detalhes apoiariam a montar boas estratégias de pesquisa na direção do que está sendo mais evidente, como focar a pesquisa em algo que ainda não foi considerado ou levantar novas hipóteses. iv. Os artigos que falam mais sobre um determinado termo, criando dessa maneira, um filtro no conjunto de arquivos para priorizar leituras que precisem ser mais direcionadas a um item específico. v. Confirmar dados levantados de outras fontes, como as semiestruturadas. Informações advindas de diferentes fontes de dados, em particular da área biomédica, são obtidas através de estudos de similaridade, o que deixa uma margem de não confiabilidade. Assim, os artigos anotados ajudariam a confirmar informações do objeto de pesquisa que foram buscadas nessas fontes, assim como os candidatos essenciais e drogáveis que são comentados na próxima seção. Os resultados de consultas obtidos referentes à anotação semântica estão mais adiante na seção 4.2. Neles, além do levantamento da quantidade de artigos em relação a cada conceito e nome de organismo do objetivo de pesquisa, é possível identificar a tentativa de mostrar termos observados através das anotações de inferência que sejam representativos, porém mais genéricos. 3.2 Extração de dados a partir de bases semiestruturadas Semelhante às bases textuais, existem disponibilizadas na web diversas bases que contém resultados de pesquisas científicas realizadas no mundo todo. Estas bases, que em sua maioria contêm dados semiestruturados são grandemente acessadas pela comunidade científica e que somadas possuem um enorme volume de dados e informações. Como exemplo, podemos citar as bases de dados biológicos que 49

65 correspondem atualmente a mais de 1500 bases (Fernandez-Suarez e Galperin, 2013), subdivididas em diversos assuntos. Assim como no trabalho com as bases textuais no qual é necessário entender o objeto de pesquisa, seus domínios e fazer o levantamento dos termos e expressões para posterior recuperação dos textos, nas bases de dados também existe a preocupação de conhecer bem o objeto de pesquisa para selecionar quais as bases e quais arquivos de seus conteúdos serão requeridos para se trabalhar. Como as tarefas a ser realizadas com dados obtidos através dessas fontes variam bastante de acordo com cada objeto de pesquisa e também pelo fato das bases possuírem conteúdos muito específicos, torna-se difícil sistematizar as tarefas de maneira genérica. Logo, os processos descritos a seguir mostram uma metodologia para encontrar informações sobre a essencialidade e a drogabilidade de proteínas a partir da busca de sequências homólogas e ortólogas entre proteínas de determinados organismos. Estes processos estão apresentados na Figura 3.5. Figura 3.5: Fluxograma representativo da extração de dados e informações a partir de bases semiestruturadas. Para esta metodologia os processos compreendem o levantamento de necessidades, a seleção das bases textuais, a verificação de homologias e ortologias e por último a extração de dados. 50

66 3.2.1 Levantamento das necessidades Este processo é bastante semelhante ao de entendimento do objeto de pesquisa descrito na seção para as bases textuais. O primeiro passo é definir de forma bem clara qual é o problema que objetivará o trabalho de pesquisa e a necessidade do uso de bases de dados. Para isto, deve-se analisar detalhadamente o problema, buscando-se todas as informações necessárias ao pleno entendimento do mesmo, ou seja, levantar as necessidades do pesquisador. A identificação dessas necessidades é feita com o auxílio de pesquisa bibliográfica ou em artigos científicos e consulta a especialistas. O levantamento de necessidades desencadeará quais as tarefas precisam ser feitas posteriormente. Para a verificação de essencialidade e drogabilidade de proteínas surgem as seguintes necessidades: Buscar bases de dados dos organismos de estudo e obter os arquivos dos proteomas no formato fasta. Obter também os arquivos de anotação. Buscar bases de dados que contenham informações sobre essencialidade de genes e outras sobre alvos, fármacos e ligantes. Obter arquivos no formato fasta dos dados de interesse. Escolher, instalar e configurar ferramentas que realizem a busca por homologia e ortologia. Descobrir grupos ortólogos entre sequências de proteínas de determinados organismos. Cruzar os dados descobertos (proteínas ortólogas) com dados de essencialidade. Descobrir homologias entre sequências de proteínas de determinados organismos e dados de alvos, fármacos e ligantes. Desenvolver programas ou scripts para extrair e integrar os dados. Fazer a carga dos dados em um banco de dados. 51

67 3.2.2 Seleção das bases de dados A seleção das bases de dados servirá tanto para pesquisas online quanto para obter através de download dos arquivos, os dados semiestruturados, para processamentos locais. Inicialmente, deve ser feita uma pesquisa para levantar quais bases de dados contêm os dados necessários para o desenvolvimento do trabalho e se os mesmos estão disponíveis para download. Para a verificação de essencialidade, estes dados se referem aos proteomas dos organismos de estudo, assim como dados sobre genes ou proteínas essenciais. Para a verificação da drogabilidade há a necessidade de dados sobre proteínas alvos, fármacos e ligantes. Um requisito essencial é usar bases confiáveis e que tenham os dados curados e um requisito desejável seria a utilização de bases públicas e que disponibilizem os dados no formato de interesse do pesquisador ou outro que permita uma conversão para o referido formato. Se houver a necessidade de obter mais de um arquivo de dados, como exemplo, um arquivo contendo o proteoma de um organismo e outro contendo anotações, é ideal dar preferência para a mesma base, a menos que esta não contenha todos os dados. Isto porque os arquivos disponibilizados tendem a ter o mesmo padrão de construção, o que facilita o desenvolvimento de programas para análises sobre os dados. Uma vez que uma base curada foi selecionada, não há a necessidade de buscar os mesmos dados em outras bases. Este processo só deve ser feito visando informações complementares. As bases de dados selecionadas para o desenvolvimento desta tese estão descritas em detalhes no capítulo de Introdução e são listadas a seguir: ProtozoaDB: dados dos protozoários E. histolytica, L. major, P. falciparum, T. brucei e T. cruzi. Foram obtidos arquivos do proteoma de cada organismo no formato fasta. Os arquivos continham, para cada sequência de proteína, o identificador do banco, uma anotação funcional resumida e o nome do organismo. Com exceção do organismo E. histolytica, os demais possuíam também a identificação da cepa. 52

68 Ensembl: dados dos organismos modelo A. thaliana, C. elegans, D. melanogaster, D. rerio, M.musculus, S. cerevisiae e E. coli. Foram obtidos os arquivos do proteoma de cada organismo no formato fasta, os quais possuíam cada sequência identificada individualmente. Para os sete organismos, foi realizada uma busca no sistema BioMart pertencente a base de dados Ensembl para recuperar os arquivos de anotação. Cada arquivo de anotação continha os seguintes dados: Ensembl Gene ID, Ensembl Protein ID, Associated Gene Name, Description, InterPro ID, InterPro Description e RefSeq Protein ID. Esta base de dados foi escolhida em detrimento das bases de referência de cada organismo modelo, pois continha todos os proteomas dos organismos modelo necessários para este trabalho, assim como a vantagem do sistema BioMart, onde foi possível buscar por informações padronizadas de cada organismo. Isto não seria possível ao buscar pelas informações em sete bases de dados diferentes. OGEE: dados de genes essenciais para todos os organismos modelo. O principal dado utilizado foi o identificador de cada gene essencial. BindingDB: dados sobre proteínas que possuem afinidades de ligação. Nesta base foram obtidos o arquivo com estas proteínas no formato fasta e os mapeamentos para a base de dados PubChem. Tal mapeamento constava dos identificadores de compostos (Compound ID CID) e substâncias (Substance ID SID) DrugBank: dados sobre fármacos e alvos. Foi obtido nesta base o arquivo com todas as proteínas alvo no formato fasta. Foi recuperado também o arquivo com todos os dados referentes a cada fármaco presente na base. Destes, os principais dados utilizados foram o identificador do fármaco na base, a função da proteína, o tipo do fármaco e os mapeamentos CID e SID para a base de dados PubChem. Therapeutic Target Database: dados sobre proteínas terapêuticas. Nesta base também foi obtido o arquivo de sequências das proteínas alvo no formato fasta, assim como o arquivo de anotação das mesmas. Obtivemos apenas as sequências de proteínas que continham alvos de sucesso. Isto porque o banco também oferece informações sobre alvos que ainda estão em ensaios clínicos. Os principais dados utilizados foram o identificador da proteína alvo no banco, o 53

69 nome da proteína, dados bioquímicos, dados sobre os fármacos associados e dados sobre inibidores, antagonistas e agonistas. Foram obtidos também os mapeamentos CID e SID para a base de dados PubChem Verificação de ortologias e homologias Para a verificação de homologias e ortologias, é necessário combinar uma série de tarefas que chamamos de workflow representado graficamente na Figura 3.6. Nele, são exibidas as entradas e saídas de dados e os processamentos. Figura 3.6: Fluxograma do processo de verificação de homologias e ortologias entre sequências de proteínas. 54

70 Inicialmente é fundamental que os arquivos com os dados dos organismos de estudo tenham sido recuperados, para que as buscas por homologias e ortologias possam ser processadas localmente. Nas bases de dados online que geralmente possuem esta funcionalidade, não há como filtrar e fazer as escolhas de interesse. Logo, trabalhando de forma local, a busca pode ser feita apenas com os organismos de estudo. Outro fator é devido ao tamanho dos arquivos, que sendo grandes, deixam lentos os processos que não sejam realizados localmente. Para este trabalho, todos os arquivos contendo as sequências de proteínas e anotações foram buscados nas bases citadas na seção anterior e baixadas de modo a serem trabalhadas localmente Verificação de ortologias para seleção de candidatos essenciais Para encontrar informações sobre a essencialidade das proteínas, é procedente trabalhar com o conceito de ortologia, pois se duas proteínas são ortólogas, há uma possibilidade de elas compartilharem a mesma função. Neste trabalho, o propósito era buscar por proteínas ortólogas entre os protozoários e os organismos modelo. Para a busca por proteínas ortólogas foi utilizada a ferramenta OrthoMCL (Li et al., 2003) que trabalha em escala genômica e possui como finalidade descobrir grupos ortólogos entre as sequências de proteínas dos organismos. A ferramenta automatiza as execuções consecutivas do algoritmo do BLAST (Basic Local Alignment Search Tool) (Altschul et al., 1997) de todos-contra-todos para encontrar os melhores hits recíprocos e do algoritmo MCL Markov Cluster (Enright et al., 2002) para gerar agrupamentos de proteínas. OrthoMCL trabalha com um conjunto sequencial de treze passos para gerar os grupos ortólogos dos proteomas de entrada. Há um arquivo de configuração de parâmetros para conexão com um banco de dados (necessária para rodar a ferramenta) e para ajuste do percentual de similaridade e o expoente do e-value (Expectation value) do BLAST. O parâmetro e-value é um valor de corte (cutoff) que controla a sensibilidade da busca. O banco de dados utilizado foi o MySQL. Os valores para os parâmetros foram: i) percentual de similaridade igual ou maior a 50% e ii) expoente para o e-value igual a -5, ou seja, os itens retornados na busca por similaridade devem possuir o e-value abaixo de ou. 55

71 OrthoMCL foi executado sete vezes, considerando como parâmetros de entrada em cada execuação, o proteoma de um organismo modelo e o protema de cada protozoário, obtendo os arquivos dos grupos de proteínas ortólogas Verificação de homologias para seleção de candidatos drogáveis Para a verificação da drogabilidade de uma proteína, é possível trabalhar somente com o conceito de homologia, pois o interesse está em descobrir similaridades entre as estruturas das proteínas, sem necessariamente estas compartilharem a mesma função. A ideia é descobrir homologias entre as proteínas dos organismos de estudos e as proteínas presentes em bases de dados que contenham informações sobre alvos, fármacos e ligantes. Neste trabalho, foram utilizados os dados dos protozoários e dados presentes nas bases BindingDB, DrugBank e TTD. Estas bases contêm informações de quais proteínas são alvos para fármacos já desenvolvidos ou em fase experimental. Assim, se existir homologia entre as proteínas destas bases e as proteínas dos organismos de estudo, no caso, as proteínas dos cinco protozoários, há uma tendência, das proteínas destes organismos possuírem uma estrutura que também as permita ligarem a um fármaco, ou seja, serem potenciais alvos de fármaco para estudo. Para a busca de homologia entre as sequências de proteínas dos organismos, o programa BLAST foi utilizado. Seu objetivo é encontrar regiões de similaridade entre as sequências comparando as mesmas e calculando uma significância estatística (evalue) de acordo com as correspondências. O BLAST foi inicialmente escolhido como programa para busca de similaridade entre sequências, pois dependendo do limite de significância dado à execução do programa, os resultados podem encontrar homólogos distantes, mas ainda com boa certeza do resultado encontrado. O BLAST deve ser executado na modalidade blastp (comparação entre proteínas) e com, no mínimo, os parâmetros de informação sobre as sequências a ser comparadas, um nome para o arquivo de saída e o e-value. Valores para o e-value muito baixos, muito restritivos, podem não trazer resultados de homologias mais distantes, porém, de forma contrária, se o valor for muito relaxado, pode haver muitos falsos positivos. Logo, é importante fazer uma verificação de acordo com os organismos de estudos para justificar o e-value utilizado. 56

72 Assim, foi feita uma verificação com dados retirados da literatura, para observar se o valor usual de não seria muito restritivo e retornasse proteínas semelhantes às das bases de dados que foram usadas na busca por similaridade, as quais possuem, em grande parte, proteínas de humanos, que são filogeneticamente distantes dos protozoários. Nesta verificação, o propósito foi buscar por proteínas dos protozoários que possuíssem uma região proteica semelhante à uma região de ligação conhecida de um determinado fármaco, usando por exemplo dados de reposicionamento de fármacos. Posteriormente, estas proteínas seriam utilizadas em uma busca de similaridade com proteínas humanas de modo a verificar com qual e-value estas proteínas humanas seriam recuperadas. No artigo de (Ekins et al., 2011) sobre reposionamento de fármacos aprovados para doenças negligenciadas, os autores listaram exemplos de moléculas de fármacos aprovados usando métodos de triagem de baixa e alta vazão que possuem efeitos sobre outras doenças além do alvo original, incluindo exemplos relacionados aos protozoários de estudo deste trabalho, como mostra a Tabela 3.5. Tabela 3.5: Exemplos de moléculas de fármacos aprovados usando métodos de triagem de baixa (cinza) e alta vazão (branco). Adaptado de Ekins et al. (2011). Molécula Uso Original Novo uso Amiodarona Anti-arrítmico Classe III Doença de Chagas: bloqueia a biossíntese de ergosterol Trimetrexato Antifolato utilizado na infecção por Pneumocystis carinii em doentes com AIDS Inibidor de T. cruzi DHFR IC 50 6,6 nm Astemizol Ácido D-2-amino-3- fosfopropiônico Anti-histamínico nãosedativo (removido do mercado dos EUA pelo FDA em 1999) Metabólito humano, agonista dos receptores de metabólitos de glutamato Antimalarial IC nm contra P. falciparum 3D7 Antimalárico: inibe HSP-90 (Heat Shock Protein); IC nm contra P. falciparum 3D7 Acrisorcina Antifúngico Antimalárico: inibe HSP-90; IC nμ contra P. falciparum 3D7 Harmina Anticâncer Antimalárico: inibe HSP-90; IC nμ contra P. falciparum 3D7 Palmoato de pirvinio Antihelmíntico Antiprotozoários: contra T. brucei; IC 50 3 x10 6 nm 57

73 Do total de moléculas citadas na Tabela 3.5, apenas a molécula trimetrexato representa um ligante tanto para T. cruzi quanto para humano. Esta, portanto, foi utilizada para fazer a verificação do e-value estabelecido de. Os passos realizados estão descritos a seguir: i. Busca do fármaco trimetrexato na base de dados Drugbank. Dihidrofolato redutase (DHFR) é o alvo no humano retornado na busca. ii. iii. iv. Busca de outros alvos para o fármaco no BindingDB (link obtido através do DrugBank passo i). Seleção do alvo no protozoário através da listagem apresentada pelo BindingDB a qual continha outros alvos para a mesma molécula. O alvo no protozário é a enzima bifuncional dihidrofolato redutase timidilato sintase (DHFR-TS). Busca de similaridade entre a sequência alvo no protozoário e as sequências depositadas no DrugBank, utilizando o programa BLAST na modalidade blastp e o e-value estabelecido de. v. Verificação nos resultados da existência de similaridade com a sequência do alvo no humano (alvo original). A comparação apresentou identidade igual a 32% e e-value igual a 4e -22. As sequências alvo no protozoário e no humano foram obtidas no formato fasta através da base de dados Uniprot (The_UniProt_Consortium, 2012). O resultado da comparação das sequências, apesar de realizado para somente uma molécula, sugere a possibilidade de utilizar o valor de e-value de. Para a verificação de homologias, semelhante ao que foi realizado na verificação de ortologias, também foi utilizado o arquivo que reúne sequências dos protozoários no formato fasta. O BLAST na sua modalidade blastp foi executado para a verificação de homologias das sequências dos protozoários com cada uma das sequências obtidas nas bases de dados BindingDB, DrugBank e TTD citadas anteriormente. Além dos conjuntos de sequências e o nome do arquivo de saída que são parâmetros essenciais para a execução do BLAST, foi utilizado o parâmetro e-value de. Foram feitas execuções inserindo o parâmetro para formatação tabular da saída e sem formatação. 58

74 Considerações O tempo de processamento das execuções do BLAST e do OrthoMCL variam de acordo com o tamanho dos arquivos de sequências de proteína. BLAST é relativamente rápido na comparação de dois proteomas, além de permitir sua execução em vários processadores. OrthoMCL é mais dispendioso devido à execução do BLAST de todos-contratodos a ser realizado em um dos treze passos. A ferramenta disponibiliza um guia do usuário que descreve os tempos gastos em cada etapa da ferramenta de acordo com um conjunto de dados de referência. Além dos tempos gastos nas ferramentas essenciais para as buscas de sequências homólogas e ortólogas, tem-se também de considerar os tempos gastos nos programas desenvolvidos para as conclusões das tarefas, sendo que o programa para adicionar as anotações das proteínas é o mais dispendioso, pela quantidade de dados e os mesmos espalhados em diversos arquivos Extração de dados Este processo também pode ser observado através do workflow apresentado na Figura 3.4. Para a seleção de candidatos essenciais, após a execução do programa OrthoMCL, o propósito é extrair dados que correspondam às proteínas essenciais dos organismos modelo juntamente com as proteínas ortólogas pertencente ao mesmo grupo ortólogo gerado. Para esta tarefa, um novo conjunto de dados que contenha informações de essencialidade de genes ou proteínas é muito importante. Existem bases de dados que possuem listagens de genes essenciais de organismos procariotos e eucariotos. Estas bases devem ser previamente selecionadas, como comentado na seção As listagens de genes essenciais de acordo com os organismos de interesse devem ser obtidas através de download para também facilitar o processamento local do arquivo. Cabe ressaltar que nem todos os organismos de interesse terão informação sobre seus genes essenciais disponibilizada. A tarefa constitui-se então de, a partir das listagens de genes essenciais existentes, fazer um mapeamento das proteínas essenciais presentes nestas em relação às proteínas dos grupos ortólogos. 59

75 Observando cada grupo ortólogo, se uma proteína é reconhecida como sendo essencial, as demais proteínas do grupo, por ortologia, são candidatas a também serem essenciais nos seus respectivos organismos. Assim é importante registrar o identificador da proteína e a qual organismo ela pertence. Estas proteínas constituem um conjunto potencial para estudos de desenvolvimento de fármacos. Nos resultados do programa OrthoMCL, foi observado que, como a ferramenta realiza a execução do programa BLAST de todos-contra-todos, houve grupos de proteínas ortólogas constituídos somente por proteínas dos protozoários ou por proteínas dos organismos modelo. Sendo assim, esses grupos foram retirados de modo a permanecerem apenas os grupos em que houvesse referências de ambos os organismos. Posteriormente, foi realizado o mapeamento entre os genes essenciais de cada organismo modelo, utilizando as listagens de genes essenciais obtidas, e os grupos de proteínas ortólogas. Para isto, foi necessário buscar os identificadores das proteínas codificadas por estes genes, com exceção do organismo S. cerevisiae, cujos identificadores eram os mesmos. Logo, para cada gene essencial referenciado da sua proteína codificada, ou seja, uma proteína essencial, foram verificadas as proteínas ortólogas dos protozoários. Assim, foi gerado um novo arquivo, contendo estas ocorrências. A estas foi adicionada a função da proteína no organismo modelo. Devido ao volume de dados gerados, foi realizada uma classificação através da ontologia de processos biológicos (BP Biological Process) da Gene Ontology (GO), a qual descreve produtos de genes em termos de seus processos biológicos associados. Na definição desta ontologia, processo biológico é uma série de eventos realizados por um ou mais conjuntos de funções moleculares (Ashburner et al., 2000). Para a classificação, buscamos os conjuntos de dados cujas proteínas essenciais dos organismos modelos apresentaram ortologia com proteínas de todos os protozoários. De cada conjunto, utilizamos os identificadores das proteínas dos protozoários para a classificação, os quais são identificadores para o banco ProtozoaDB, porém os mesmos identificadores do banco RefSeq (The Reference Sequence) (Pruitt et al., 2012). Foi utilizado o recurso de bionformárica online DAVID (The Database for Annotation, Visualization and Integrated Discovery) (Huang da et al., 2009) para a classificação destas proteínas. Este é um recurso específico de bioinformática que tem como uma base de conhecimento biológico e ferramentas analíticas para extrair sistematicamente signinificado biológico de grandes listas de genes ou proteínas. Ele realiza classificação 60

76 funcional para todas as ontologias da GO, porém analisamos os resultados apenas dos processos biológicos, que foram obtidos passando-se a lista dos identificadores dos protozoários como identificadores RefSeq. Esta classificação permitiu observar quais as categorias (processos biológicos) que as proteínas se enquadram. Com exceção dos resultados relacionados aos modelos A. thaliana, C.elegans e E.coli, que apresentaram número menor de proteínas ortólogas a todos os protozoários, para os demais foi realizada a classificação. Os dados foram armazenados em um banco de dados MySQL. Foram criadas sete tabelas para as ocorrências relacionadas a cada organismo modelo. Logo, para cada organismo é possível consultar os candidatos essenciais para os protozoários. É importante comentar que foram desenvolvidos programas para retirar os grupos ortólogos não necessários, assim como para mapear os genes essenciais e para fazer a carga dos dados no banco de dados. Os programas e suas descrições estão listados no Apêndice A. Para a extração dos dados referentes à verificação da drogabilidade, observou-se os resultados da execução do algoritmo BLAST. Neste caso, é indicado observar os melhores hits, ou seja, obter os resultados que apresentaram as sequências mais similares e então filtrá-los. Como os resultados do BLAST (das similaridades encontradas em relação às bases BindingDB, DrugBank e TTD) apresentaram muitas ocorrências de comparações com percentual de identidade entre 25% e 40% foi feita uma análise nos mesmos para retirar os registros cujas similaridades não foram boas. Estudos de homologia, nas últimas duas décadas (Brenner et al., 1998; Rost, 2002; Tian e Skolnick, 2003), chegaram a conclusão que 30% de identidade entre as sequências com alinhamentos acima de 100 aminoácidos praticamente garante a homologia entre as mesmas. Logo, se o percentual de identidade for próximo de 30%, mas apresentar um alinhamento acima de 100 aminoácidos, esto pode ser considerado válido. Sendo assim, foi observado se o tamanho do alinhamento estava apropriado em relação aos tamanhos das sequências query e subject (vide a seguir). Aos arquivos de saída dos resultados do BLAST foram adicionados os tamanhos das sequências query e subject e calculadas e adicionadas as coberturas do tamanho do alinhamento em relação aos tamanhos das sequências. Feito isso, foram gerados novos arquivos, considerando para a homologia o seguinte filtro: registros que apresentavam 61

77 coberturas para as sequências query e subject maiores que 50% e tamanho de alinhamento maior ou igual a 100. A estes registros, que representam sequências dos cinco protozoários homólogas às sequências de proteínas presentes nas bases BindingDB, DrugBank e TTD, foram adicionadas informações de anotação de acordo com estas bases, como as citadas na seção Posteriormente, estes dados foram armazenados em um banco de dados Mysql, através de três tabelas, cada uma referenciando uma base. Desta forma é possível fazer consultas por candidatos drogáveis para os protozoários. Semelhante aos dados de proteínas ortólogas, para estes conjuntos de dados também foi realizada uma classificação através da ontologia de processos biológicos da GO, utilizando o recurso de bioinformática DAVID. Para esta classificação foram utilizados os identificadores de todas as proteínas de protozoários homólogas às proteínas dos três bancos. Como estes dados possuíam um volume muito maior em relação ao de proteínas ortólogas, apresentamos os processos biológicos mais representativos. Nesta fase do trabalho, também foram desenvolvidos programas (Apêndice A) para buscar e adicionar o tamanho de cada sequência, calcular a cobertura em relação ao tamanho do alinhamento, inserir as anotações e fazer a carga para o banco de dados. Ademais, os resultados dos candidatos essenciais relacionados aos sete organismos modelo e os resultados dos candidatos drogáveis relacionados às bases de fármacos e ligantes, foram submetidos à anotação semântica. Os arquivos dos candidatos essenciais e drogáveis se encontravam no formato txt. Foi realizada a anotação semântica do conjunto de arquivos utilizando a ferramenta Autômeta sob linha de comando e as ontologias utilizadas na anotação semântica dos artigos: Molecule Role, NCI Thesaurus e NCBI Taxon. 3.3 Cruzamento das informações Nesta etapa, o primeiro passo é fazer o cruzamento dos candidatos essenciais e dos candidatos drogáveis. Aquelas sequências que, por ortologia, podem ser essenciais para o organismo de estudo e que apresentam alguma informação de drogabilidade são candidatas ainda melhores para os estudos de desenvolvimento de novos fármacos. 62

78 Para esta tarefa foi desenvolvido um programa que cruza as informações de ambos os arquivos, verificando para cada candidato essencial se o mesmo está presente nos resultados de candidatos drogáveis, gerando um novo arquivo. Estes dados também foram carregados para o banco de dados Mysql. Outra atividade é cruzar os dados dos candidatos essenciais e drogáveis com os dados obtidos na anotação semântica dos artigos. Uma das formas de realizar este cruzamento foi também anotar semanticamente os dados dos candidatos essenciais e drogáveis. Assim, o vocabulário comum imposto aos dois conjuntos de dados permite o cruzamento e posteriores análises sobre o resultado para levantar novas informações e tendências de pesquisas. Os programas desenvolvidos em linguagem de programação Ruby para extrair os dados dos artigos anotados, assim como para buscar os nomes das classes das ontologias foram utilizados para extrair os dados de cada arquivo de candidatos essenciais e candidatos drogáveis anotados semanticamente. Para cada arquivo anotado, os dados extraídos foram o identificador do artigo, o termo anotado, o identificador da classe usada na anotação e o nome da classe. Todos os dados foram carregados para o banco de dados MySQL, possibilitando consultas e cruzamentos com os dados advindos da anotação dos artigos. 63

79 4 RESULTADOS Este capítulo descreve os dados e informações obtidos através dos conceitos aplicados ao conjunto de artigos científicos e ao conjunto dos dados semiestruturados sobre os protozoários, organismos modelo, fármacos, alvos e ligantes. Além destes, dados relacionados aos cruzamentos entre estes dados também são relatados. É importante comentar que além dos resultados de extração de dados comentados a partir da próxima seção, tivemos outros resultados por todo o período de desenvolvimento deste trabalho, porém foram resultados que serviram como base para o prosseguimento das tarefas idealizadas e, portanto, foram descritos no capítulo de metodologia. 4.1 Organização dos dados gerados Para a extração dos dados obtidos em todas as fases (anotação semântica, verificação de ortologias e verificação de homologias) foram desenvolvidos programas em linguagem de programação Ruby (como citado anteriormente, os programas e suas descrições estão listados no Apêndice A). Os programas desenvolvidos geraram os arquivos de saída com os dados organizados e separados por tabulação, e que posteriormente foram carregados para um banco de dados relacional. Dessa forma, os dados podem ser visualizados e analisados através do SGBD ou de planilhas eletrônicas. Não houve a definição de um modelo de dados normalizado, conforme é ideal para o armazenamento em bancos de dados relacionais, e sim a criação de tabelas analíticas, que possuem dados não normalizados, mas que melhoram o desempenho das consultas e ficam mais intuitivas para um usuário comum. 4.2 Extração de dados da anotação semântica Esta seção descreve os dados extraídos a partir das anotações semânticas baseadas nas três ontologias, além de algumas observações encontradas nas anotações. Os dados exbidos fazem menção aos conceitos obtidos no entendimento do objeto de pesquisa e aos organismos modelo e protozoários. Procuramos contabilizar a quantidade de artigos para os dados extraídos e mostrar exemplos dos dados mais representativos. Além disso, 64

80 como comentado no capítulo de Metodologia, foi buscado exibir termos mais genéricos, porém significantivos para representar um conjunto de termos muito específicos Ontologia Molecule Role A seguir são listados os dados quantitativos obtidos. Foram anotados 1008 termos distintos e utilizadas 366 classes. Os dez termos e classes mais representativos e a quantidade de artigos em que aparecem são mostrados nas Tabelas 4.1 e 4.2. Tabela 4.1: Termos mais anotados e a quantidade de artigos em que aparecem. Qtd. artigos Termos 766 Protein 754 Nucleotide 361 Enzyme 341 Kinase 336 Amino acid 246 ATP 235 Receptor 222 Protease 212 Base 199 Peptide Tabela 4.2: Classes mais utilizadas e a quantidade de artigos em que aparecem. Qtd. artigos Classes 768 Chemical 757 Carbohydrate 760 Glycoside 754 Protein 707 Enzyme 552 Unclassified chemical 523 Hydrolase 457 signal regulator 429 transcription fator 65

81 Protein e chemical constituem as classes de alto nível da ontologia, que denotam respectivamente nomes de proteínas representando sua função e compostos químicos. A classe Protein é constituída de 17 subclasses. A Tabela 4.3 mostra a quantidade de artigos que tiveram termos anotados com estas subclasses, sendo possível perceber quais as categorias funcionais de proteínas que estão mais presentes nos artigos. Tabela 4.3: Quantidade de artigos com anotações que utilizaram as subclasses da classe protein. Qtd. artigos Subclasses da classe protein 729 Enzyme 724 Transcription fator 457 Signal regulator 434 Receptor 384 Cellular structure protein 355 Ligand 215 GTP-binding protein 198 Membrane transport protein 121 Intracellular transport protein 95 Immunoglobulin 56 Adaptor protein 41 DNA replication fator 41 Electron carrier protein 40 Translation initiation fator 31 Splicing fator 30 Unclassified protein 4 Antimicrobial peptide De forma semelhante, foram contabilizados quantos artigos tiveram algum termo anotado com uma das 15 subclasses da classe Chemical, as quais representam categorias de compostos químicos. Estes dados são apresentados na Tabela

82 Tabela 4.4: Quantidade de artigos com anotações que utilizaram as subclasses da classe chemical. Qtd. artigos Subclasses da classe chemical 770 Carbohydrate 766 Nucleotide 552 Unclassified chemical 401 Chemical ligand 157 Amino acid 127 Lipid 86 Peptide 74 Second Messenger 51 Nucleoside 25 Amin 21 Gas 11 Lipid mediator 11 Vitamin 4 Inositol phosphate 0 Ion Ontologia NCI Thesaurus A ontologia NCI Thesaurus é bastante volumosa, sendo constituída de termos gerais relacionados à investigação de cuidados de saúde. Desta maneira, buscamos dados relacionados aos conceitos definidos no entendimento do objeto de pesquisa (seção 3.1.1) e as suas variações. A seguir são apresentados os dados quantitativos. Termo gene Buscando-se especificamente pelo termo gene anotado nos artigos, foram encontrados apenas seis artigos com esta ocorrência, enquanto que buscando por suas variações, que totalizam 214 diferentes termos, todos os artigos tiverem anotação com alguma destas variações. A Tabela 4.5 mostra algumas destas variações, as quais tiveram anotações em mais de 50 artigos. 67

83 Tabela 4.5: Quantidade de artigos em que possuem anotadas variações do termo gene. Qtd. artigos Termos (variação do termo gene ) 770 Genetics 615 Genetic 415 Gene expression 278 Generation 253 Mutagenesis 127 Morphogenesis 106 Gene function 103 Oncogene 89 Transgene 84 Pathogenesis 80 Embryogenesis 69 Gene knockout 62 Gene family 61 Gene deletion 52 Gene regulation 51 Heterogeneous Classe gene Nos dados analisados, foram encontradas anotações especificamente do termo gene, mas também outros termos que foram anotados utilizando a classe gene, como podem ser vistos na Tabela 4.6. Foram encontrados 107 termos distintos, mas a maioria apresentava-se em apenas um artigo. A Tabela 4.6 mostra os termos que tiveram ocorrências em mais de cinco artigos. Tabela 4.6: Quantidade de artigos que possuem termos anotados com a classe gene. Qtd. artigos Termos anotados com a classe gene 181 Oncogene 22 Structural gene 15 Fusion gene 13 Tumor suppressor gene 10 Receptor gene 9 Cell cycle gene 9 Regulatory gene 68

84 Tabela 4.6: continuação Qtd. artigos Termos anotados com a classe gene 7 Homeobox gene 6 CDC37 gene 5 Antigen gene Termo protein Semelhante ao termo gene, protein também foi encontrado como sendo termo anotado e classe utilizada. Como termo, foi encontrada ocorrência em todos os artigos analisados. Além do termo protein especificamente, foram encontradas 128 variações do termo. A Tabela 4.7 mostra alguns destes termos e a quantidade de artigos em que aparecem anotados. Tabela 4.7: Quantidade de artigos que possuem anotadas variações do termo protein. Qtd. Artigo Termos (variação do termo protein ) 150 Fusion protein 138 Protein kinase 116 Protein expression 101 Pembrane protein 94 Yeast protein 85 Ribosomal protein 71 Glycoprotein 67 Protein synthesis 66 Ribonucleoprotein 55 Protein family 51 Protein function Classe protein Foram encontrados 539 diferentes termos anotados com a classe protein. A grande parte dos termos apresentava ocorrência em apenas um artigo. A Tabela 4.8 exibe os termos que foram mais anotados. 69

85 Tabela 4.8: Quantidade de artigos que possuem termos anotados com a classe protein. Qtd. artigos Termos anotados com a classe protein 668 Kinase 653 Enzyme 613 Antibody 449 Polymerase 416 Receptor 357 Protease 302 Actin 278 Complement 222 Tubulin 204 Phosphatase 184 Ligase 169 Ubiquitin 168 Cyclin 166 Transferase 160 RNA polymerase 151 Fusion protein 138 Protein kinase 131 Chaperone 128 ATPase 127 Cytochrome 126 Transcription factor 121 Glycoprotein 119 Helicase 118 DNA polymerase 103 Membrane protein Termo essential Este termo é definido na ontologia como sendo aquilo que é absolutamente necessário, indispensável. Foram encontrados 721 artigos que possuem o termo essential anotado. Não houve variações para o termo como essentiality, essential gene ou essential protein. 70

86 Termo reverse genetics Não foram encontradas anotações para o termo reverse genetics, uma vez que este termo não está presente na ontologia. Contudo, como pode ser verificado nos itens a seguir, foram encontrados termos referentes às técnicas de genética reversa, sugerindo, portanto, que a abordagem foi utilizada nos trabalhos associados. Termo knockout e termo knockdown Apesar de existir especificamente o termo knockdown em diversos artigos, o mesmo não foi anotado, pois não está inserido na ontologia, nem mesmo como sinônimo. Contudo, há uma variação deste termo, gene knockdown o qual apresentou anotações, assim como o termo knockout e sua variação gene knockout. A Tabela 4.9 apresenta a quantidade de artigos anotados com estes termos. Tabela 4.9: Quantidade de artigos que apresentaram anotações com variações do termo knockout e knockdown. Qtd. artigos Termos 22 Gene knockdown 69 Gene knockout 45 Knock-out Termo RNA Interference O termo RNA Interference foi anotado em 159 diferentes artigos. Houve apenas um artigo, PMC , que anotou uma variação deste termo, a saber, RNA interference pathway. Termo lethal phenotype Este termo também não faz parte da ontologia. Contudo, considerando apenas o termo phenotype, foram encontrados 485 artigos que anotaram o termo. Termo null mutants O termo null mutants também não faz parte da ontologia. Entretanto, a ontologia possui o termo null allele cuja definição presente na ontologia remete ao 71

87 significado de null mutants, a qual diz que null allele ou alelo nulo é um tipo de mutação em um gene que não resulta em um produto de gene ou resulta na ausência de função no nível fenotípico. O termo null allele foi anotado em 27 diferentes artigos. Analisando os artigos, foi verificado que existiam anotações com variações para o termo mutation, mostrados na Tabela É interessante considerar que todos estes termos fazem parte da mesma classe a qual pertence o termo null allele, que é a classe Mutation Abnormality, definida como sendo qualquer mudança transmissível no material genético de um organismo. Tabela 4.10: Quantidade de artigos que anotaram variações do termo mutation. Qtd. artigos Variações do termo mutation 2 Deleterious mutation 8 Deletion mutation 6 Frameshift mutation 5 Gene mutation 1 Germline mutation 3 Induced mutation 5 Insertion mutation 17 Missense mutation 2 Mutation 4 Mutation analysis 9 Nonsense mutation 7 Novel mutation 18 Point mutation 1 Silent mutation 1 Targeted mutation Termo survival O termos survival foi anotado em apenas um artigo. Mas uma variação do mesmo, cell survival teve anotações em 62 distintos artigos Ontologia NCBI Taxon Na ontologia NCBI Taxon constituída da taxonomia dos seres vivos buscou-se anotar os nomes dos organismos de estudo protozoários e organismos modelo para buscar 72

88 posteriores relações com as anotações realizadas nas demais ontologias. As Tabelas 4.11 e 4.12 listam a quantidade de artigos os quais tiveram nomes destes organismos anotados: Tabela 4.11: Quantidade de artigos com anotações de organismos modelo. Qtd. artigos Organismos Modelo 30 Arabidopsis thaliana 89 Caenorhabditis elegans 1 Danio rerio 108 Drosophila melanogaster 162 Escherichia coli 2 Mus musculus 337 Saccharomyces cerevisiae Tabela 4.12: Quantidade de artigos com anotações de protozoários. Qtd. artigos Protozoários 2 Entamoeba histolytica 17 Leishmania major 23 Plasmodium falciparum 56 Trypanosoma brucei 17 Trypanosoma cruzi Além dos organismos de estudo, diversos outros organismos foram anotados. Alguns tiveram um número expressivo de anotações por artigo, como é o caso de Schizosaccharomyces pombe e Bacillys subtilis como pode ser visto na Tabela 4.13, que também mostra outras ocorrências significativas. Outros organismos apresentaram variações menores, entre dois a oito artigos contendo a anotação, como é o caso dos organismos Leishmania donovani, Anopheles gambie e Schistosoma mansoni e a maioria dos organismos anotados (166 organismos) esteve presente em apenas um artigo. 73

89 Tabela 4.13: Quantidade de artigos que anotaram organismos fora do foco de estudo. Qtd. artigos Outros organismos 132 Schizosaccharomyces pombe 76 Bacillus subtilis 42 Mycobacterium tuberculosis 31 Candida albicans 27 Streptococcus pneumoniae 25 Neurospora crassa 20 Mycobacterium smegmatis 19 Staphylococcus aureus 16 Aspergillus fumigatus 15 Pseudomonas aeruginosa 11 Mycoplasma genitalium 9 Escherichia coli K12 A Tabela 4.14 mostra a quantidade de artigos que mencionavam um organismo modelo e um protozoário. O número de artigos contendo estas relações foi baixo. Saccharomyces cerevisiae foi o único organismo em que foram encontrados artigos contendo relações com todos os protozoários. Danio rerio e Mus musculus não apresentaram nenhuma relação. Em relação as estes dois organismos, os resultados eram esperados vistas as quantidades de artigos que tiveram anotação com estes organismos modelos, como listado na Tabela Nesta tabela, também pode ser verificado que o organismo Escherichia coli, especificamente da cepa K12, teve ocorrência de anotação em nove artigos. Além dos organismos, percebemos o termo human immunodeficiency virus anotado em 18 artigos. Nestas relações, existem casos em que um mesmo artigo apresenta o nome de um organismo modelo anotado e mais de um nome de protozoário anotado. Como exemplos, os artigos PMC e PMC anotaram o organismo modelo S. cerevisiae e os protozoários L.major, T. brucei, T. cruzi, em uma relação mais possível de acontecer uma vez que estes protozoários pertencem à mesma família Trypanosomatidae. Também observamos a anotação deste mesmo organismo modelo e dos protozoários P. falciparum, T. brucei e T. cruzi no artigo PMC

90 Tabela 4.14: Quantidade de artigos que possuem anotações de organismos modelo e protozoários Qtd. Artigos Organismos modelo Protozoários 1 Arabidopsis thaliana Leishmania major 2 Arabidopsis thaliana Trypanosoma brucei 1 Arabidopsis thaliana Trypanosoma cruzi 2 Caenorhabditis elegans Trypanosoma brucei 1 Drosophila melanogaster Leishmania major 1 Drosophila melanogaster Trypanosoma brucei 1 Escherichia coli Leishmania major 2 Escherichia coli Plasmodium falciparum 3 Escherichia coli Trypanosoma brucei 1 Saccharomyces cerevisiae Entamoeba histolytica 6 Saccharomyces cerevisiae Leishmania major 2 Saccharomyces cerevisiae Plasmodium falciparum 15 Saccharomyces cerevisiae Trypanosoma brucei 7 Saccharomyces cerevisiae Trypanosoma cruzi Além das relações entre organismos modelo e protozoários anotados, foram verificadas relações entre os próprios organismos de estudo e relações destes com outros organismos fora do foco de estudo, como aqueles listados na Tabela As relações que tiveram mais ocorrências são mostradas na Tabela 4.15 a seguir. Tabela 4.15: Quantidade de artigos que possuem diferentes relações de organismos anotados Qtd. artigos Organismos de estudo Outros organismos 110 Saccharomyces cerevisiae Schizosaccharomyces pombe 58 Escherichia coli Bacillus subtilis 39 Escherichia coli Saccharomyces cerevisiae 33 Caenorhabditis elegans Drosophila melanogaster 30 Escherichia coli Mycobacterium tuberculosis 25 Escherichia coli Streptococcus pneumoniae 25 Saccharomyces cerevisiae Candida albicans 24 Saccharomyces cerevisiae Caenorhabditis elegans 23 Drosophila melanogaster Saccharomyces cerevisiae 19 Saccharomyces cerevisiae Bacillus subtilis 18 Saccharomyces cerevisiae Neurospora crassa 17 Escherichia coli Staphylococcus aureus 16 Escherichia coli Schizosaccharomyces pombe 75

91 Tabela 4.15: continuação Qtd. artigos Organismos de estudo Outros organismos 16 Trypanosoma brucei Trypanosoma cruzi 15 Escherichia coli Mycobacterium smegmatis 15 Saccharomyces cerevisiae Trypanosoma brucei 13 Saccharomyces cerevisiae Arabidopsis thaliana 13 Leishmania major Trypanosoma brucei 11 Saccharomyces cerevisiae Aspergillus fumigatus A maior ocorrência aconteceu entre os organismos S. cerevisiae e S. pombe possivelmente devido ao fato de ambos serem espécies de levedura e assim serem mais facilmente descritos em um mesmo artigo. Houve também muitas ocorrências de relacionamentos envolvendo a bactéria E. coli, um modelo muito utilizado em laboratórios para processos de manipulação de genes, clonagem e expressão de proteínas, sendo assim bastante referenciada em experimentos descritos nos artigos. É interessante mencionar estas relações pois muitos estudos em biologia molecular são realizados a partir de comparações com outros organismos. 4.3 Extração de dados a partir dos resultados de ortologia Esta seção descreve os resultados da verificação de proteínas ortólogas entre os cinco protozoários de estudo e os sete organismos modelo selecionados para levantamento de candidatos essenciais. É importante relembrar que após a obtenção dos resultados de ortologia, estes foram manipulados e reduzidos de forma a conter grupos ortólogos cujas proteínas dos organismos modelo fossem essenciais para o organismo. Logo, todas as proteínas de organismos modelo descritas nestes resultados são proteínas essenciais para o organismo em questão. A seguir são descritos os dados quantitativos obtidos e posteriormente são listados os dados completos dos resultados que tiveram maior relevância. Arabidopsis thaliana Foram encontrados 196 registros de proteínas de protozoários que são ortólogas às proteínas essenciais de A. thaliana. São 47 distintas proteínas de A. thaliana, ou seja, uma mesma proteína é ortóloga a proteínas de diferentes protozoários. A Figura

92 exibe a quantidade de proteínas para cada protozoário. A coluna de baixo mostra o total das proteínas de cada protozoário que são ortólogas às proteínas essenciais de A. thaliana. Como pode haver diferentes proteínas de protozoário que são ortólogas a uma mesma proteína de A. thaliana, a coluna de cima mostra, portanto, a quantidade de proteínas distintas de A. thaliana que estão relacionadas por ortologia com as proteínas dos protozoários. Como exemplo, podemos citar a proteína AT5G de A. thaliana descrita como RNA helicase family protein que possui ortologia com três sequências de T. cruzi: XP_ , XP_ e XP_ , cujas anotações são respectivamente, pre-mrna splicing factor ATP-dependent RNA helicase; premrna splicing factor ATP-dependent RNA helicase, putative e pre-mrna splicing factor. A Tabela B.1 do Apêndice B exibe os identificadores e descrições das 24 distintas proteínas do organismo modelo que são compartilhadas entre todos os protozoários. Figura 4.1: Quantidade de proteínas ortólogas para protozoários-a.thaliana. Caenorhabditis elegans Foram encontradas 364 proteínas de protozoários ortólogas às proteínas essenciais de C. elegans. A Figura 4.2 (explicação semelhante à Figura 4.1) exibe o total de proteínas para cada protozoário. 77

93 Figura 4.2: Quantidade de proteínas ortólogas para protozoários-c.elegans. O organismo modelo apresentou 82 proteínas distintas, das quais são 37 compartilhadas por todos os protozoários. Estas proteínas são listadas na Tabela B.2 do Apêndice B. Como exemplo, podemos citar a proteína EEED8.5 de C. elegans cuja descrição é DNA/RNA helicase, DEAD/DEAH box type, N-terminal, e que apresentou relação de ortologia com 22 distintas proteínas de protozoários: três proteínas de P. falciparum, quatro proteínas de E. histolytica e cinco proteínas para L. major, T. brucei e T. cruzi cada. Drosophila melanogaster Foram encontradas 439 proteínas de protozoários ortólogas a proteínas essenciais de D. melanogaster. A Figura 4.3 exibe os totais de proteínas ortólogas para cada protozoário e a quantidade de proteínas distintas do organismo modelo ortólogas em relação a cada protozoário. Foram encontradas 51 distintas proteínas de D. melanogaster que possuem ortologia com as proteínas de todos os protozoários. Estas são listadas na Tabela B.3 do Apêndice B. 78

94 Figura 4.3: Quantidade de proteínas ortólogas para protozoários-d.melanogaster. Como o número de proteínas ortólogas foi maior considerando este organismo modelo, foi realizada uma classificação com a ontologia Processo Biológico (BP) da Gene Ontology (GO) para identificar categorias às quais essas proteínas pertencem. Foram utilizados identificadores de 60 proteínas dos protozoários ortólogas a uma dessas 51 proteínas distintas de D. melanogaster. A ferramenta de anotação funcional DAVID foi utilizada para este fim. Esse recurso foi aplicado para dar uma noção da categorização das proteínas uma vez que, a medida que o número de proteínas aumenta, torna-se mais difícil identificar estas categorias apenas visualizando a lista das proteínas, como feito para os organismos A. thaliana e C. elegans. Das 60 proteínas de protozoários utilizadas na categorização, apenas cinco não foram categorizadas. A Figura 4.4 apresenta as categorizações de processos biológicos e a porcentagem de proteínas presentes em cada uma. Podemos verificar que grande parte das proteínas está envolvida no processo de tradução. 79

95 Figura 4.4: Classificação GO Processo Biológico para proteínas de protozoários que são ortólogas às 51 proteínas distintas de D.melanogaster que apresentaram ortologia com proteínas de todos os protozoários. Danio rerio Foram encontrados 728 registros de proteínas de Danio rerio ortólogas a proteínas dos protozoários, sendo 173 proteínas distintas. Destas, 83 proteínas possuem ortologia com proteínas de todos os protozoários (estas são mostradas na Tabela B.4 do Apêndice B). A Figura 4.5 mostra a quantidade de proteínas ortólogas às proteínas essenciais de D. rerio para cada protozoário e a quantidade de proteínas distintas do organismo modelo que apresentaram ortologia. Figura 4.5: Quantidade de proteínas ortólogas para protozoários-d.rerio. Semelhante ao organismo D. melanogaster, a Figura 4.6 mostra uma classificação pela ontologia Processo Biológico da GO, na qual foram utilizadas

96 sequências de protozoários que são ortólogas a uma das 83 proteínas essenciais de D. rerio. Deste conjunto de proteínas, somente 65 obtiveram classificação. A quantidade de proteínas presente em cada categoria é mostrada em porcentagem. Para este caso, o processo de tradução também possui muitas proteínas relacionadas e em número um pouco menor aparece o processo metabólico celular envolvendo nucleosídeos, nucleotídeos e ácidos nucleicos. Figura 4.6: Classificação GO Processo Biológico para proteínas de protozoários que são ortólogas às 83 proteínas distintas de D. rerio que apresentaram ortologia com proteínas de todos os protozoários. Escherichia coli Para o organismo E. coli foram encontrados 571 registros de sequências ortólogas, sendo 159 proteínas distintas compartilhadas entre os protozoários. A Figura 4.7 apresenta estes dados quantitativos para cada protozoário quantidade de proteínas ortólogas às proteínas essenciais de E.coli e quantidade de distintas proteínas do organismo modelo que apresentaram ortologia com as proteínas dos protozoários. Além disso, existem 39 distintas proteínas que possuem sequências ortólogas com todos os protozoários. Estas são exibidas na Tabela B.5 do Apêndice B. 81

97 Figura 4.7: Quantidade de proteínas ortólogas para protozoários-e.coli. Mus musculus Foram encontradas 1275 proteínas de protozoários ortólogas às proteínas essenciais de M. musculus, sendo 333 proteínas distintas do organismo modelo. Deste conjunto, 101 proteínas são ortólogas a proteínas de todos os protozoários. Estas são mostradas na Tabela B.6 do Apêndice B. A Figura 4.8 exibe quantidade de proteínas ortólogas às proteínas essenciais de E.coli e quantidade de distintas proteínas do organismo modelo que apresentaram ortologia com as proteínas dos protozoários. Figura 4.8: Quantidade de proteínas ortólogas para protozoários-m. musculus. Para este caso, também foi realizada a classificação com a ontologia Processo Biológico da GO. A classificação foi realizada com 129 proteínas de protozoários ortólogas a uma das 101 proteínas distintas de M. Musculus que apresentaram ortologia com proteínas de todos os protozoários. Destas, 79 proteínas foram classificadas em 18 categorias, as quais são mostradas na Figura 4.9, juntamente com a porcentagem de 82

98 proteínas presentes em cada uma. Apresentando uma porcentagem maior de proteínas classificadas está o processo metabólico celular envolvendo nucleosídeos, nucleotídeos e ácidos nucleicos, seguido do processo de modificação de proteínas, processo metabólico, processo de tradução e processo de transporte. Figura 4.9: Classificação GO Processo Biológico para proteínas de protozoários que são ortólogas às 101 proteínas distintas de M. musculus que apresentaram ortologia com proteínas de todos os protozoários. Saccharomyces cerevisiae O organismo S. cerevisiae foi o que apresentou maior quantidade de proteínas ortólogas às proteínas dos protozoários, apresentando 2518 registros, sendo 576 proteínas distintas de S. cerevisiae. Destas proteínas, 310 possuem sequências ortólogas às sequências de todos os protozoários, as quais são mostradas na Tabela B.7 do Apêndice B. A Figura 4.10 apresenta na coluna de cima a quantidade de proteínas distintas de S. cerevisiae que apresentaram homologia com alguma proteína de protozoário e na coluna de baixo, a quantidade de proteínas dos protozoário que são homólogas às proteínas essenciais do organismo modelo. 83

99 Figura 4.10: Quantidade de proteínas ortólogas para protozoários-s. cerevisiae. Devido ao número alto de proteínas ortólogas, também foi feita a classificação utilizando a ontologia Processo Biológico da GO. Foram utilizadas 375 proteínas dos protozoários ortólogas a uma ou mais das 310 distintas proteínas de S. cerevisiae que apresentaram ortologia com proteínas de todos os protozoários. Destas, 230 obtiveram classificação. A Figura 4.11 mostra as 30 categorias da classificação e a procentagem de proteínas pertencentes a elas (porcentagem igual a 0% representa apenas uma proteína presente). Figura 4.11: Classificação GO Processo Biológico para proteínas de protozoários que são ortólogas às 310 proteínas distintas de S. cerevisiae que apresentaram ortologia com proteínas de todos os protozoários. 84

100 Neste caso, o processo metabólico celular envolvendo nucleosídeos, nucleotídeos e ácidos nucleicos também apresentou uma porcentagem maior de proteínas classificadas, seguido do processo de modificação de proteínas, dos processos de proteólise, de transporte, do processo de metabolismo de ácidos orgânicos e do processo de tradução. Mesmo sendo também um eucarioto unicelular, o organismo S. cerevisiae não se encontra tão próximo dos protozoários quando se analisa uma árvore da vida (discutido na seção 5.7). Contudo, o número de proteínas de protozoários ortólogas às proteínas essenciais deste organismo modelo foi bastante expressivo, constituindo, portanto, um dos conjuntos de dados mais proveitosos para futuras pesquisas. 4.4 Extração de dados a partir dos resultados de homologia Nesta seção são descritos os resultados obtidos com a análise de similaridade por homologia entre as sequências de proteínas dos protozoários e as sequências das proteínas dos bancos de dados BindingDB, DrugBank e TTD. Para estes dados descritos é importante relembrar que, após a obtenção dos resultados de homologia, estes foram analisados, manipulados e filtrados. Assim, os novos conjuntos de dados respeitam as seguintes condições: e-value < 1x10-5 ; tamanho de alinhamento entre as sequências >=100; tamanho das sequencias query e subject em relação ao tamanho do alinhamento>50% BindingDB As proteínas depositadas no BindingDB, possuem dados correlacionados sobre ligantes, e medidas de afinidades de ligação. A busca por homologia entre as sequências de proteínas dos protozoários e as sequências de proteínas do BindingDB, apresentam proteínas dos protozoários que são estruturalmente similares, logo, podendo haver nestas uma possível drogabilidade (para o caso de homologia com proteínas alvo) ou ligantes associados. As proteínas presentes no BindingDB não são necessariamente alvos de fármacos, contudo, possuem informações relevantes pois fornecem um 85

101 conjunto de possíveis ligantes para serem testados experimentalmente contra as proteínas de protozoário. Diferentemente da maioria dos bancos de dados online, o BindingDB faz a busca pelas proteínas através de seu nome (ou descrição) ao invés de um identificador numérico. A URL mostrada na Figura 4.12, recupera dados de calorimetria de titulação isotérmica (do inglês Isotermal Titration Calorimetry - ITC) para uma dada proteína alvo: Figura 4.12: URL para recuperação dos dados de uma proteína alvo do BindingDB. Os resultados apontaram registros de proteínas similares. Este número se deve ao fato da existência de dados semelhantes depositados por diferentes fontes/instituições. As sequências de proteínas podem ter algumas variações de aminoácidos, mas sem modificar a função, e dentre estas, algumas apresentam mais dados de ITC e/ou variações nestes dados. Por exemplo, a proteína glutationa redutase apresenta quatro sequências de proteínas com esta descrição e 171 ocorrências no banco de dados originadas de diversas instituições, as quais variam os dados de ITC. Assim sendo, os resultados mostrados a seguir consideram contagens para ocorrências distintas das proteínas. A Figura 4.13 exibe o número de proteínas distintas do BindingDB que apresentaram similaridade significativa (e portanto inferimos homologia) com as proteínas dos protozoários. O organismo P. falciparum foi o que apresentou menor número de proteínas do BindingDB homólogas às suas. 86

102 Figura 4.13: Quantidade de proteínas alvo do BindingDB que possuem homologia com as proteínas de cada protozoário. Em um processo semelhante, mas inverso, foi realizada a contagem de quantas proteínas distintas dos protozoários apresentam proteínas homólogas às do BindingDB. A Figura 4.14 apresenta estes números. Figura 4.14: Quantidade de proteínas distintas dos protozoários que apresentam homologia com as proteínas do BindingDB. Repare na Figura 4.14 que P. falciparum continua apresentando números mais baixos que os demais, enquanto que T. cruzi é o que apresenta maior número de proteínas distintas nos resultados de homologia. Nos resultados também verificamos que uma proteína distinta de protozoário possui homologia com várias proteínas alvo do banco de dados. Por exemplo, a proteína tripanotiona redutase de T. cruzi apresentou homologia com 12 distintas proteínas do BindingDB, mostradas na Tabela

103 Tabela 4.16: Proteínas do BindingDB homólogas à proteína Trypanothione reductase de T. cruzi. Proteínas do BindingDB* Dihydrolipoamide dehydrogenase Dihydrolipoyl dehydrogenase Glutathione oxidoreductase (GR) Glutathione reductase Thioredoxin glutathione reductase Thioredoxin reductase Thioredoxin reductase 1 Thioredoxin reductase 1, cytoplasmic Thioredoxin reductase 2 Thioredoxin reductase 2, mitochondrial Thioredoxin reductase 3 Trypanothione reductase *Acesso a cada proteína no banco: column=ki&submit=search&energyterm=kj%2fmole&target=target_protein É importante comentar que o BindingDB não possui apenas dados de humanos, apesar de este se apresentar em maior número. Ele apresenta dados, os quais incluem as sequências de proteínas, para centenas de organismos, sendo que grande parte apresenta apenas uma ou poucas proteínas cadastradas. Uma lista com todos os organismos e a quantidade de proteínas dos mesmos é encontrada em Sendo assim, podem ocorrer casos como o mostrado na Tabela 4.16, na qual aparece a homologia com a própria proteína tripanotiona redutase. Ao buscar no banco sobre esta proteína, verificamos que existem diversos depósitos da mesma, nas quais a maioria está associada ao organismo T. cruzi, caracterizando o que estamos querendo descobrir, ou seja, que a proteína tenha ligantes associados ou uma estrutura que se ligue a pequenas moléculas semelhante a um fármaco. De qualquer forma, este resultado não é invalidado, uma vez que os dados depositados no banco, como os dados de ITC, podem ser aproveitados para outras pesquisas. Oa candidatos drogáveis para cada protozoário são apresentados nas Tabelas C.1 a C.5 do Apêndice C, ou seja, as proteínas dos protozoários que apresentaram maior 88

104 similaridade entre as sequências na busca por homologia com as sequências de proteínas do BindingDB. Como pode ser percebido através nos números apresentados nas Figuras 4.13 e 4.14, existem muitas proteínas homólogas às do BindingDB para cada protozoário. Assim, para exibir um conjunto destes candidatos, levamos em consideração os parâmetros a seguir: similaridade entre proteínas que apresentaram percentual de identidade superior a 50%; tamanhos de alinhamento acima de 60% em relação aos tamanhos das sequências e e-values muito pequenos (possuindo valores 0 (zero) na notação científica). Ao selecionar os registros que apresentaram similaridades muito próximas (evalues muito pequenos) entre as proteínas, foi verificado que grande parte destas proteínas possuem as mesmas descrições, tanto para protozoário quanto para o BindingDB e poucas variações entre as sequências das proteínas verificadas através do alinhamento entre elas, sugerindo ser a mesma proteína. Logo, contanto que as proteínas do BindingDB sejam de outro(s) organismo(s) senão os protozoários, estas constituem um conjunto direto de proteínas a serem testados experimentalmente os seus ligantes com as proteínas dos protozoários. Por exemplo, a proteína XP_ de E. histolytica, cuja descrição é actina, apresentou similaridade com a proteína betaactina presente no BindingDB, com e-value muito próximo de zero e identidade de 89,04%. Os dados de similaridade, o bom alinhamento das duas proteínas (indicado pelo percentual de identidade) e a descrição das mesmas sugere ser a mesma proteína. Contudo, o BindingDB não possui dados armazenados para o organismo E. histolytica. A proteína descrita como beta-actina está relacionada a outros organismos senão os protozoários. Esta proteína no BindinDB possui quatro ligantes associados. Como comentando anteriormente, o BindingDB não possui dados sobre proteínas de E. histolytica, mas possui dados de ligantes sobre proteínas dos demais protozoários. Os resultados apresentados nas tabelas C.1 a C.5 do Apêndice B foram considerados excluindo as similaridades encontradas com proteínas do próprio protozoário presentes no BindingDB. Como grande parte das proteínas presentes no banco são de humanos, a maioria dos resultados apresentou similaridade com a proteína humana, contudo há similaridades com proteínas de outras espécies presentes no banco. As Tabelas C.6 a C.9 do Apêndice C apresentam as proteínas que obtiveram similaridade dentro dos parâmetros comentados anteriormente, porém relacionadas às proteínas do próprio protozoário depositadas no BindingDB. L. major é o protozoário 89

105 que apresenta menor número de ocorrências de proteínas alvo depositavas no BindingDB 6 e P. falciparum é o protozoário que possui maior número, totalizando 59 proteínas. Os protozoários T.brucei e T. cruzi possuem respectivamente 11 e 17 proteínas alvo armazenadas no banco. Devido ao número alto de proteínas homólogas encontradas, para este conjunto de dados também fizemos uma classificação através da ontologia Processo Biológico da GO. A classificação foi realizada utilizando o programa DAVID. De 3969 proteínas distintas de protozoários homólogas às proteínas do BindingDB, 3086 foram classificadas em 60 categorias. A Figura 4.15 apresenta as 16 categorias mais expressivas e a porcentagem de proteínas classificadas em cada uma. As demais categorias possuíam menos de 1% das proteínas incluídas (de 14 a uma proteína). Figura 4.15: Classificação GO Processo Biológico para distintas proteínas de protozoários que são homólogas às proteínas do BindingDB DrugBank O banco de dados DrugBank possui dados e informações a respeito de fármacos desenvolvidos e aprovados, assim como fármacos que ainda se encontram nas fases clínicas de desenvolvimento, chamados de experimentais. Todas as proteínas depositadas no banco são proteínas alvo relacionadas a um ou mais fármacos. Desta maneira, a busca por homologia das sequências de proteínas dos protozoários com as sequências de proteínas depositadas no DrugBank permite descobrir as sequências de protozoários que possuem uma estrutura semelhante a proteínas alvo que possuem fármacos associados, indicando possíveis candidatos drogáveis. 90

106 O DrugBank possui dois diferentes tipos de fármacos, a saber: Moléculas pequenas (small molecule): fármacos em grande parte de origem sintética. São moléculas pequenas, normalmente com peso molecular abaixo de 1000 Da, podendo haver exceções. Fármacos biotecnológicos (biotech drug): fármacos que são peptídeos, proteínas ou ácidos nucleicos. Além disso, estes fármacos são subdivididos em cinco grupos: aprovados, nutracêuticos (suplementos nutricionais), retirados do mercado, ilícitos e experimentais. Como nosso foco é buscar por proteínas com possibilidade de serem drogáveis, para apoiar pesquisas de descobertas de novos fármacos para o combate a doenças (no caso doenças negligenciadas), optamos por buscar os resultados de homologia que incluam proteínas alvo cujos fármacos sejam também relacionados a doenças. Desta maneira, nas consultas realizadas, cujos resultados são mostrados a seguir, excluímos os resultados que deram homologia com proteínas de fármacos nutracêuticos, retirados do mercado e ilícitos. As proteínas alvo, assim como cada fármaco possuem diferentes identificadores no DrugBank. Dentre estes dois identificadores, o banco permite fazer consulta somente com o identificador do fármaco, o qual retorna dados químicos e farmacológicos sobre os fármacos e os dados de todas as proteínas que são alvo. Por exemplo, a proteína alvo cadeia alfa 1 da ATPase transportadora de potássio possui ID=385 e está relacionada aos fármacos Esomeprazol, Lansoprazol, Omeprazol, Pantoprazol e Rabeprazol cujos identificadores são DB00736, DB00448, DB00338, DB00213 e DB Encontramos como resultados registros de proteínas de protozoários homólogas com diferentes alvos no DrugBank, sendo que uma mesma proteína de protozoário pode ser homóloga a mais de um alvo no banco. Foram distintas proteínas de protozoários e proteínas alvo distintas do DrugBank. Porém, os alvos do DrugBank estão relacionados com um ou mais fármacos. Considerando os fármacos, a busca por homologia apresentou registros. Por exemplo, a proteína d-fosfoglicerato desidrogenase (BAD ) de E. histolytica apresentou homologia com três diferentes proteínas alvo do DrugBank: d-3- fosfoglicerato desidrogenase (drugbank_target 3726), d-lactato desidrogenase (drugbank_target 3545) e d-2-hidroxi-isocaproico desidrogenase 91

107 (drugbank_target 3401). A proteína d-lactato desidrogenase, por sua vez, está relacionada a dois fármacos DB01907 (nicotinamida-adenina-dinucleotídeo) e DB03940 (ácido oxâmico), que são pequenas moléculas experimentais. As Figuras 4.16 e 4.17 apresentam respectivamente as quantidades de proteínas distintas do DrugBank que possuem homologia com as proteínas dos protozoários e a quantidade de proteínas distintas de cada protozoário que obtiveram a homologia. Figura 4.16: Quantidade de proteínas alvo do DrugBank que possuem homologia com as proteínas de cada protozoário. Figura 4.17: Quantidade de proteínas distintas dos protozoários que apresentam homologia com as proteínas do DrugBank. O organismo E. histolytica é o que possui um número maior de proteínas homólogas às proteínas do DrugBank, contudo em relação à quantidade de proteínas distintas, o organismo T. cruzi é o que apresenta maior número. Semelhante ao que foi observado nos resultados da homologia com as sequências do BindingDB, P. falciparum foi o apresentou menor número de sequências homólogas. 92

108 Em relação ao tipo de fármaco, os registros apontaram a maior parte como sendo de pequenas moléculas experimentais. Os números são apresentados na Tabela Tabela 4.17: Quantidade de fármacos separados por grupos. Pequenas moléculas Biotecnológicos Aprovados Experimentais Exmplos de candidatos drogáveis para cada protozoário, ou seja, as proteínas de protozoários que apresentaram maior similaridade com as proteínas alvo do DrugBank são apresentados nas Tabelas C.10 a C. 14 do Apêndice C. Semelhante ao que foi feito para o BindingDB, foi selecionado um conjunto de proteínas para cada protozoário para ser apresentado nestas tabelas. Estes conjuntos foram selecionados de acordo com as seguintes características: para os organismos E.histolytica e T. cruzi, foram buscadas proteínas que apresentaram percentual de identidade acima de 50% e para os demais organismos, acima de 60%; tamanhos de alinhamento em relação aos tamanhos das sequências acima de 60% e e-values bem próximos de zero (abaixo de 1x ). As tabelas são compostas dos seguintes dados: identificador e descrição da proteína do protozoário, identificador e descrição da proteína do DrugBank e quantidade de fármacos a que a proteína alvo do DrugBank está associada. Outros dados que foram registrados no banco de dados, mas não são apresentados nestas tabelas, são: identificador do fármaco, tipo e grupo do fármaco (pequena molécula/biotecnológico, aprovado/experimental) e identificador de composto (CID Compound ID) do PubChem e identificador de substância do PubChem (SID = Substance ID). É importante comentar que o DrugBank armazena principalmente dados sobre proteínas humanas, e por consequência, informações sobre fármacos desenvolvidos para humanos. Todavia, o banco contém algumas ocorrências de proteínas de outros organismos, como parasitas e bactérias. Nos resultados mostrados a seguir, foi tomado o cuidado de apresentar dados cuja homologia se deu entre as sequências de protozoários e sequências de humanos ou de bactérias. As homologias com sequências de parasitas foram descartadas, pois poderiam referenciar à mesma proteína. O organismo P. falciparum foi um dos que apresentou diversas proteínas cuja homologia havia sido encontrada com proteínas de parasitas depositadas no DrugBank. 93

109 Por exemplo, algumas destas proteínas incluem: Peroxiredoxin; Formylmethionine deformylase, putative; Plasmepsin-2; Adenylosuccinate synthetase entre outras. Semelhante ao P. falciparum, o organismo T. cruzi também apresentou diversas proteínas que tiveram similaridade com proteínas do DrugBank classificadas como sendo de organismos parasitas. Entre elas estão: Cruzipain; Tyrosine aminotransferase; Trypanothione reductase; Trans-sialidase entre outras. Na classificação realizada através da ontologia Processo Biológico da GO, de 4124 proteínas distintas de protozoários homólogas às proteínas do DrugBank, 3314 obtiveram classificação. Foram encontradas 64 categorias. A Figura 4.18 exibe as 18 categorias mais expressivas na classificação e as porcentagens de proteínas incluídas. As demais categorias possuíam menos de 1% de proteínas incluídas (de 14 a uma proteína) Figura 4.18: Classificação GO Processo Biológico para distintas proteínas de protozoários que são homólogas às proteínas do DrugBank TTD Therapeutic Target Database TTD é um banco de dados que se caracteriza por armazenar dados e informações sobre proteínas alvo terapêuticas, ou seja, proteínas alvo que estejam associadas a doenças em humanos, além da doença e dos correspondentes fármacos. TTD apresenta três classificações para as proteínas alvo: Alvo de sucesso: alvos associados a um ou mais fármacos de sucesso, ou seja, que estão no mercado. 94

110 Alvo em ensaio clínico: alvos que ainda se encontram em algumas das fases clínicas do processo de desenvolvimento de fármacos. Alvo de pesquisa: alvos que ainda estão em estudo e não entraram em ensaio clínico. Para a busca por similaridade entre as sequências de proteínas dos protozoários e as sequências de proteínas alvo do TTD, limitamos ao conjunto de alvos de sucesso. As proteínas alvo possuem fármacos relacionados, assim como dados sobre o modo de ação do fármaco (inibidor, agonista, antagonista e ligante) e classe bioquímica. Para os fármacos relacionados também há os identificadores de composto e substância (CID e SID) do PubChem. Foram encontrados 823 registros de homologia entre as sequências dos protozoários e do TTD. Destas, são 565 proteínas distintas de protozoários. A Figura 4.19 mostra as quantidades de proteínas distintas do TTD que possuem homologia com as proteínas dos protozoários e a Figura 4.20 mostra quantidade de proteínas distintas de cada protozoário que obtiveram a homologia com as proteínas do TTD. Semelhante aos bancos BindingDB e DrugBank, os resultados mostraram homologias de sequências de proteínas dos protozoários com um ou mais alvos do TTD. Por exemplo: a proteína de E. histolytica Calcium binding family protein (XP_ ) obteve homologia com duas proteínas distintas do TTD: calmodulina (TTDS00432) e troponina C (TTDS00409). Figura 4.19: Quantidade de proteínas alvo distintas do TTD que possuem homologia como as proteínas de cada protozoário. 95

111 Figura 4.20: Quantidade de proteínas distintas dos protozoários que apresentam homologia com as proteínas do TTD. Podemos reparar nas Figuras 4.20 e 4.21 que o organismo P. falciparum, assim como no BindingDB e DrugBank foi o que apresentou menos registros de homologia entre as sequências, quase a metade em relação aos demais organismos. As Tabelas C.15 a C.19 do Apêndice C mostram os principais candidatos drogáveis para cada protozoário, ou seja, as proteínas de protozoário que apresentaram maior similaridade com as proteínas do TTD. Para a obtenção destas tabelas, foram escolhidas proteínas de acordo com as seguintes características: percentual de identidade acima de 50%, tamanho de alinhamento acima de 50% em relação aos tamanhos das sequências e e-values menores que 1x Além destes, muitos outros registros também apresentando e-values bem pequenos existem para cada protozoário, porém, apresentando percentuais de identidade abaixo de 50%. Em comparação com os demais bancos, TTD apresentou menos resultados devido ao seu tamanho reduzido em comparação aos demais e pela escolha de trabalhar apenas com os alvos de sucesso. Embora o volume de dados gerados tenha sido menor na busca por sequências de protozoários homólogas às proteínas do TTD, também foi realizada a classificação através da ontologia Processo Biológico da GO. De 565 proteínas distintas dos protozoários homólogas às proteínas de sucesso do TTD, 453 otiveram classificação, as quais são distribuídas em 25 categorias. A Figura 4.21 exibe as categorias de GO-BP e a porcentagem de proteínas incluídas. As fatias que mostram 0% possuem somente uma ou duas proteínas de protozoário na categoria. 96

112 Figura 4.21: Classificação GO Processo Biológico para distintas proteínas de protozoários que são homólogas às proteínas do TTD. 4.5 Cruzamento dos dados Nesta seção são descritos os cruzamentos realizados entre os dados de candidatos essenciais e candidatos drogáveis. Esta integração dos dados visa apontar proteínas de protozoários que são ortólogas a proteínas essenciais e bem estudadas nos organismos modelo e ao mesmo tempo homólogas a proteínas que são alvo ou possuem ligantes ou fármacos associados, formando assim, o conjunto de candidatos essenciais e drogáveis. Além disso, são mostradas como podem ser obtidas relações entre os dados da anotação semântica, os quais direcionam um conjunto de artigos a ser mais bem explorado, juntamente com os dados de ortologia e homologia, que apoiam a priorização de candidatos essenciais e drogáveis Candidatos essenciais e drogáveis A apresentação dos candidatos essenciais e drogáveis a seguir foi feita considerando o cruzamento das proteínas de protozoários ortólogas às proteínas essenciais dos organismos modelos com as proteínas de protozoários homólogas às proteínas dos bancos BindingDB, DrugBank e TTD. Para efeitos de simplificação na apresentação 97

113 dos resultados utilizamos o nome do organismo modelo em relação a cada um dos bancos Organismos Modelo - BindingDB Arabidopsis thaliana Foram encontrados 67 registros no cruzamento dos dados. A Figura 4.22 exibe os números para cada protozoário. As Tabelas D.1 a D5 do Apêndice D apresentam exemplos de candidatos a alvo, essenciais e drogáveis, para todos os protozoários. Figura 4.22: Candidatos essenciais e drogáveis considerando Protozoário-A. thaliana-bindingdb. Caenorhabditis elegans O cruzamento dos dados com o modelo C. elegans apresentou 181 registros. A Figura 4.23 exibe a quantidade de registros para cada protozoário. As Tabelas D.6 a D.10 do Apêndice D apresentam exemplos para cada protozoário. Figura 4.23: Candidatos essenciais e drogáveis considerando Protozoário-C. elegans -BindingDB. 98

114 Drosophila melanogaster Em relação ao modelo D. melanogaster juntamente com o BindingDB foram encontrados 571 registros no cruzamento dos dados com os protozoários. A Figura 4.24 mostra a quantidade de registro para cada protozoário. As Tabelas D.11 a D15 do Apêndice D mostram exemplos para cada protozoário. Figura 4.24: Candidatos essenciais e drogáveis considerando Protozoário-D. melanogaster - BindingDB. Danio rerio Foram encontrados registros no cruzamento dos dados envolvendo o modelo D. rerio. Neste caso, o protozoário P. falciparum foi o que apresentou menor número de registros. Os números podem ser vistos na Figura 4.25 e alguns exemplos nas Tabelas D.16 a D.20 do Apêndice D. Figura 4.25: Candidatos essenciais e drogáveis considerando Protozoário-D. rerio-bindingdb. 99

115 Escherichia coli Em relação ao cruzamento dados envolvendo a bactéria modelo E.coli, foram encontrados 992 registros, os quais são mostrados os números separados por protozoário na Figura As Tabelas D.21 a D.25 do Apêndice D, apresentam exemplos para cada protozoário. Figura 4.26: Candidatos essenciais e drogáveis considerando Protozoário-E. coli-bindingdb. Mus musculus O organismo M. musculus foi um dos modelos que apresentou número alto de proteínas ortólogas às proteínas dos protozoários. Desta maneira, apresentou também muitos registros no cruzamento com os candidatos drogáveis, sendo registros. A Figura 4.27 apresenta a quantidade de registros para cada protozoário. As Tabelas D.26 a D.30 do Apêndice D apresentam exemplos para cada protozoário. Figura 4.27: Candidatos essenciais e drogáveis considerando Protozoário-M. musculus-bindingdb. 100

116 Saccharomyces cerevisiae Para o modelo S. cerevisiae foram encontrados registros no cruzamento dos dados. A Figura 4.28 apresenta para cada protozoário a quantidade de registros encontrados. As Tabelas D.31 a D.35 do Apêndice D mostram exemplos para cada protozoário. Figura 4.28: Candidatos essenciais e drogáveis considerando Protozoário-S. cerevisiae-bindingdb Organismos Modelo - DrugBank Arabidopsis thaliana Considerando o banco de dados DrugBank, foram encontrados 64 registros no cruzamento com os dados obtidos da ortologia com A. Thaliana, os quais são mostradas as quantidades por protozoário na Figura As proteínas alvo do DrugBank, para este cruzamento, estão relacionadas com 25 diferentes fármacos: nove pequenas moléculas aprovadas e 16 pequenas moléculas experimentais. As Tabelas D.36 a D.40 do Apêndice D apresentam exemplos dos cruzamentos para cada protozoário. Figura 4.29: Candidatos essenciais e drogáveis considerando Protozoário-A. thaliana-drugbank. 101

117 Caenorhabditis elegans No cruzamento de dados envolvendo o modelo C. elegans, foram encontrados 154 registros associados aos protozoários. A Figura 4.30 indica a quantidade de registros em relação a cada protozoário. Às proteínas alvo do DrugBank nestes registros estão associados 100 diferentes fármacos: 47 pequenas moléculas aprovadas e 53 pequenas moléculas experimentais. As Tabelas D.41 a D.45 do Apêndice D mostram exemplos dos cruzamentos para cada protozoário. Figura 4.30: Candidatos essenciais e drogáveis considerando Protozoário-C. elegans-drugbank. Drosophila melanogaster O cruzamento de dados envolvendo o modelo D. melanogaster obteve 384 registros. A Figura 4.31 mostra a quantidade de registros para cada protozoário. Exemplos são mostrados nas Tabelas D.46 a D.50 do Apêndice D. As proteínas alvo do DrugBank são associadas a 74 do DrugBank, os quais são 14 pequenas moléculas aprovadas e 60 pequenas moléculas experimentais. Figura 4.31: Candidatos essenciais e drogáveis considerando Protozoário-D. melanogaster- DrugBank. 102

118 Danio rerio Foram encontrados 725 registros no cruzamento de dados envolvendo o modelo D. rerio e o DrugBank. Associadas às proteínas do DrugBank, os fármacos de pequenas moléculas e experimentais se sobressaíram, com 535 diferentes fármacos, e os demais, 59 para pequenas moléculas aprovadas e um para fármaco biotecnológico aprovado. A Figura 4.32 exibe a quantidade de registros para cada protozoário. As Tabelas D.51 a D.55 do Apêndice D apresentam os exemplos para cada protozoário. Figura 4.32: Candidatos essenciais e drogáveis considerando Protozoário-D. rerio-drugbank. Escherichia coli Considerando o modelo E. coli foram encontrados 949 registros no cruzamento de dados. Em relação aos fármacos associadas às proteínas alvo do DrugBank foram 77 pequenas moléculas aprovadas, 338 pequenas moléculas experimentais e um fármaco biotecnológico aprovado. Na Figura 4.33 são exibidas as quantidades de registros por protozoário. Nas Tabelas D.56 a D.60 do Apêndice D são mostrados os exemplos dos cruzamentos para os protozoários. Figura 4.33: Candidatos essenciais e drogáveis considerando Protozoário-E.coli-DrugBank. 103

119 Mus musculus Foram encontrados registros no cruzamento de dados no qual o modelo M. Musculus faz parte. Destes registros, o protozoário E. histolytica é o que se apresenta em maior número, como mostrado na Figura Exemplos para cada protozoário são mostrados nas Tabelas D.61 a D.65 do Apêndice D. Às proteínas do DrugBank estão associados 174 diferentes fármacos de pequenas moléculas aprovadas, 967 pequenas moléculas experimentais e 4 fármacos biotecnológicos aprovados. Figura 4.34: Candidatos essenciais e drogáveis considerando Protozoário-M.musculus-DrugBank. Saccharomyces cerevisiae Foram encontrados registros no cruzamento de dados envolvendo o modelo S. cerevisiae, no qual o protozoário T. cruzi foi o que apresentou menor número, como pode ser visto na Figura As proteínas alvo do DrugBank estavam associadas principalmente a fármacos de pequenas moléculas experimentais, apresentando 832 diferentes fármacos e os demais, 184 para fármacos de pequenas moléculas aprovadas e três fármacos biotecnológicos aprovados. As Tabelas D.66 a D.70 do Apêndice D apresentam exemplos para cada protozoário. 104

120 Figura 4.35: Candidatos essenciais e drogáveis considerando Protozoário-S.cerevisiae-DrugBank Organismos Modelo TTD Arabidopsis thaliana No cruzamento de dados com o modelo A. thaliana apenas cinco registros foram encontrados, um para cada protozoário, cujas proteínas fazem parte do mesmo grupo ortólogo com uma única proteína de A. thaliana, como pode ser visto na Tabela Tabela 4.18: Candidatos essenciais e drogáveis considerando Protozoário-A. thaliana-ttd. Id ptn. prot.* Id ptn. model Descrição pnt. model Id ptn. TTD Descrição pnt. TTD XP_ XP_ XP_ XP_ XP_ AT5G ATP binding;valine-trna ligases; aminoacyl-trna ligases; nucleotide binding;atp binding; aminoacyl-trna ligases TTDS00223 IsoleucyltRNA synthetase (bacterial) * Ordem dos identificadores dos protozoários: E. histolytica, L. major, P. falciparum, T. brucei, T.cruzi Caenorhabditis elegans Foram encontrados 18 registros no cruzamento de candidatos essenciais e drogáveis compreendendo o modelo C. elegans, os quais são mostrados na Tabela 4.19 a seguir. Foram três registros relacionando os protozoários E. histolytica e P. falciparum e quatro registros para L. major, T. brucei e T. cruzi. 105

121 Tabela 4.19: Candidato essencial e drogável considerando Protozoários-C. elegans-ttd. Id ptn. Prot. Protozoário Id ptn. Model Descrição pnt. model XP_ E. histolytica F10C2.4 DNA-directed DNA polymerase, family B, exonuclease domain XP_ E. histolytica F10C2.4 DNA-directed DNA polymerase, family B, exonuclease domain XP_ E. histolytica K12D12.1 ATPase-like, ATP-binding domain XP_ L. major K12D12.1 ATPase-like, ATP-binding domain XP_ L. major K12D12.1 ATPase-like, ATP-binding domain XP_ L. major F10C2.4 DNA-directed DNA polymerase, family B, exonuclease domain XP_ L. major F10C2.4 DNA-directed DNA polymerase, family B, exonuclease domain XP_ P. falciparum F10C2.4 DNA-directed DNA polymerase, family B, exonuclease domain Id ptn. TTD TTDS00315 TTDS00316 TTDS00080 TTDS00080 TTDS00080 TTDS00315 TTDS00316 TTDS00316 Descrição pnt. TTD DNA polymerase (HSV) DNA polymerase (HSV-2) DNA topoisomera se II DNA topoisomera se II DNA topoisomera se II DNA polymerase (HSV) DNA polymerase (HSV-2) DNA polymerase (HSV-2) 106

122 Tabela 4.19: continuação Id ptn. Prot. Protozoário Id ptn. Model Descrição pnt. model XP_ P. falciparum F10C2.4 DNA-directed DNA polymerase, family B, exonuclease domain XP_ P. falciparum K12D12.1 ATPase-like, ATPbinding domain XP_ T. brucei K12D12.1 ATPase-like, ATPbinding domain XP_ T. brucei F10C2.4 DNA-directed DNA polymerase, family B, exonuclease domain XP_ T. brucei F10C2.4 DNA-directed DNA polymerase, family B, exonuclease domain XP_ T. brucei K12D12.1 ATPase-like, ATPbinding domain XP_ T. cruzi F10C2.4 DNA-directed DNA polymerase, family B, exonuclease domain XP_ T. cruzi F10C2.4 DNA-directed DNA polymerase, family B, exonuclease domain XP_ T. cruzi K12D12.1 ATPase-like, ATPbinding domain XP_ T. cruzi K12D12.1 ATPase-like, ATPbinding domain Id ptn. TTD TTDS00315 TTDS00080 TTDS00080 TTDS00316 TTDS00315 TTDS00080 TTDS00316 TTDS00315 TTDS00080 TTDS00080 Descrição pnt. TTD DNA polymerase (HSV) DNA topoisomera se II DNA topoisomera se II DNA polymerase (HSV-2) DNA polymerase (HSV) DNA topoisomera se II DNA polymerase (HSV-2) DNA polymerase (HSV) DNA topoisomera se II DNA topoisomera se II 107

123 Drosophila melanogaster Foi encontrado apenas um registro no cruzamento de candidatos essenciais e drogáveis compreendendo o modelo D. melanogaster e o protozoário P. falciparum, o qual é mostrado na Tabela 4.20 a seguir. Tabela 4.20: Candidato essencial e drogável considerando Protozoários-D. melanogaster-ttd. Id ptn. prot. Id ptn. modelo Descrição pnt. modelo XP_ FBpp ATPase, F1 complex, alpha subunit Id ptn. TTD TTDS00427 Descrição pnt. TTD Vacuolar ATP synthase catalytic subunit A Danio rerio Relacionando o modelo D. rerio foram encontrados 46 registros, subdivididos em seis registros para E. histolytica e T.cruzi, 11 registros para L. major e P. falciparum e 12 registros para T. brucei. Os exemplos são mostrados nas Tabelas D.71 a D.75 do Apêndice D. Escherichia coli Para o cruzamento de dados compreendendo a bactéria modelo E. coli foram encontrados 55 registros: oito para E. histolytica, 13 para L. major, 12 para P. falciparum e 11 tanto para T. brucei quanto para T. cruzi. As Tabelas D.76 a D.80 do Apêndice D mostram exemplos para cada protozoário. Mus musculus Compreendendo o modelo M. musculus, foram encontrados 108 registros, divididos entre os cinco protozoários como mostra a Figura Os exemplos são exibidos nas Tabelas D.81 a D.85 do Apêndice D. 108

124 Figura 4.36: Candidatos essenciais e drogáveis considerando Protozoário-M.musculus-TTD. Saccharomyces cerevisiae O cruzamento de dados de candidatos essenciais e drogáveis abrangendo o modelo S. cerevisiae e o banco TTD, foi o que apresentou maior número de registros, totalizando 182. A Figura 4.37 mostra a quantidade de registros por protozoário, e as Tabelas D.86 a D.90 do Apêndice D mostram os exemplos para cada um. Figura 4.37: Candidatos essenciais e drogáveis considerando Protozoário-S.cerevisiae-TTD Relação entre anotação semântica e candidatos essenciais e drogáveis Como pode ser visto através das descrições no início deste capítulo, a anotação semântica dos artigos foi capaz de anotar diversos termos dos artigos contendo nomes de proteínas, nomes de organismos e termos e expressões existentes no domínio de levantamento de alvos para fármacos. Consultas realizadas sobre estas anotações são capazes de encontrar relações que tardariam a ser encontradas fazendo-se a leitura de cada artigo. Por exemplo, quais artigos falam mais sobre uma determinada proteína, quais artigos relacionam técnicas, quais artigos falam sobre organismos modelo e protozoários, entre outras. 109

125 Além das relações que podem ser alcançadas utilizando-se apenas os dados da anotação semântica, poder-se-á relacionar estes dados com os dados obtidos no levantamento de candidados essenciais e candidados drogáveis. Desta forma, podemos oferecer um direcionamento de estudos e pesquisas com mais riqueza, como as relações descritas a seguir (nomes e descrições das proteínas foram mantidos na língua inglesa, da forma como foram anotadas semânticas e como são depositadas nos bancos de dados). Ao pesquisar as anotações verificamos muitas ocorrências de protein kinase, que se encontrava anotada em 183 diferentes artigos, mas também foi anotada em ocorrências nos resultados dos candidados essenciais relacionados com A. thaliana, D. rerio, M. musculus e S. cerevisiae e candidatos drogáveis relacionados aos três bancos de dados BindingDB, DrugBank e TTD. Considerando os organismos modelo e os protozoários, buscamos o número de artigos em que protein kinase foi anotada, como mostra a Tabela O modelo S. cerevisiae foi o que apresentou maior número de artigos em que a proteína foi anotada, com 103 ocorrências. Tabela 4.21: Número de artigos, por organismo, em que protein kinase foi anotada. Qtd. Artigos c/ Organismos modelo e protozoários protein kinase 7 Arabidopsis thaliana 22 Caenorhabditis elegans 20 Drosophila melanogaster 12 Escherichia coli 103 Saccharomyces cerevisiae 3 Leishmania major 4 Plasmodium falciparum 11 Trypanosoma brucei 3 Trypanosoma cruzi Analisando os dados de S. cerevisiae, identificamos dois registros de protein kinase que são essenciais para o organismo: YPL153C - Protein kinase, required for cell-cycle arrest in response to DNA damage; activated by trans autophosphorylation when interacting with hyperphosphorylated Rad9p; also interacts with ARS1 and plays a role in initiation of DNA replication. 110

126 YPL204W - Protein kinase involved in regulating diverse events including vesicular trafficking, DNA repair, and chromosome segregation; binds the CTD of RNA pol II; homolog of mammalian casein kinase 1delta (CK1delta). Descobertas estas duas proteínas, YPL153C e YPL204W, o passo seguinte foi analisar os dados de candidatos essenciais. Nas consultas realizadas a estes, verificamos que as duas proteínas essenciais de S. cerevisiae apresentaram ortologia com proteínas de todos os protozoários e inclusive havendo ortologia com mais de uma proteína de alguns dos protozoários. As Tabelas 4.22 e 4.23 mostram para YPL153C e YPL204W, respectivamente, as proteínas ortólogas de protozoário juntamente com as suas descrições. Tabela 4.22: Proteínas de protozoários ortólogas à proteína YPL153 ( protein kinase ) de S. cerevisiae. Protozoário Entamoeba histolytica Leishmania major Plasmodium falciparum Trypanosoma brucei ID. ptn. protozoario XP_ XP_ XP_ XP_ XP_ XP_ XP_ XP_ Descrição ptn. protozoário protein kinase protein kinase protein kinase domain containing protein protein kinase domain containing protein protein kinase protein kinase serine/threonine kinase-like protein calcium-dependent protein kinase, putative XP_ calcium-dependent protein kinase 1 XP_ XP_ XP_ calcium-dependent protein kinase, putative calcium-dependent protein kinase calcium-dependent protein kinase-3 XP_ calcium-dependent protein kinase 4 XP_ XP_ serine/threonine kinase protein kinase Trypanosoma cruzi XP_ serine/threonine protein kinase 111

127 Tabela 4.23: Proteínas de protozoários ortólogas à proteína YPL204W ( protein kinase ) de S. cerevisiae. Protozoário ID. ptn. protozoario Descrição ptn. protozoário Entamoeba histolytica XP_ casein kinase 1 XP_ XP_ XP_ casein kinase casein kinase casein kinase Leishmania major XP_ casein kinase Plasmodium falciparum XP_ casein kinase 1, PfCK1 Trypanosoma brucei XP_ casein kinase Trypanosoma cruzi XP_ casein kinase, delta isoform XP_ casein kinase Sabendo-se da existência das proteínas ortólogas com as proteínas dos protozoários, o próximo passo foi verificar se estas últimas possuíam uma estrutura capaz de se ligar a um fármaco. Desta maneira, analisamos os dados cruzados entre candidatos essenciais e drogáveis para cada banco de dados, BindingDB, DrugBank e TTD e levantamos as proteínas alvos homólogas às proteínas dos protozoários, que por sua vez são ortólogas às duas proteínas essenciais de S. cerevisiae. No cruzamento em que a proteína YPL153C e as proteínas do BindingDB fazem parte, foram encontrados 137 diferentes proteínas homólogas às proteínas dos protozoários. A Tabela 4.24 apresenta as proteínas do BindingDB que são homólogas por quase todas as proteínas de protozoários citadas na Tabela Tabela 4.24: Proteínas do BindingDB homólogas às proteínas dos protozoários que por sua vez são ortólogas à proteína YPL153C de S. cerevisiae. Qtd. ptn. Proteínas do BindingDB protozoários 15 CaM kinase I alpha 15 PfCDPK1 15 Phosphorylase kinase gamma subunit 1 14 Phosphorylase kinase gamma subunit 2 14 CaM kinase IV 14 Death-associated protein kinase 2 14 CaM kinase II gamma 4 14 Calmodulin-domain protein kinase 1 13 CAMK1D 112

128 Tabela 4.24: continuação Qtd. ptn. Proteínas do BindingDB protozoários 13 MKNK1 13 CaM kinase I gamma 13 STK33 13 CAMK2D 13 Aurora Kinase B (Aurora-B) 13 Serine/threonine-protein kinase Checkpoint Kinase (Chk2) 13 CaM kinase I delta 13 camp-dependent Protein Kinase (PKA) 13 CAMK2G 13 CaM kinase II delta Para a proteína YPL204W foram encontrados 153 diferentes proteínas do BindingDB homólogas às proteínas dos protozoários. A Tabela 4.25 apresenta as proteínas homólogas a todas ou a maioria das proteínas dos protozoários citadas na Tabela Tabela 4.25: Proteínas alvo do BindingDB homólogas às proteínas dos protozoários que por sua vez são ortólogas à proteína YPL204W de S. cerevisiae. Qtd. ptn. protozoários Proteínas alvo do BindingDB 9 Casein kinase I gamma 1 9 Casein kinase I isoform alpha-like 9 Serine/threonine-protein kinase VRK2 9 Casein kinase I delta 9 Casein kinase I homolog 2 9 Casein kinase I gamma 3 9 CSNK1A1L 9 Casein kinase I gamma 1 isoform 9 Casein kinase I isoform gamma-3 9 Casein kinase I épsilon 9 Casein kinase I homolog 3 9 Serine/threonine-protein kinase VRK1 9 Casein Kinase I 9 Casein kinase I homolog 1 9 CSNK1D 113

129 Tabela 4.25: continuação Qtd. ptn. protozoários Proteínas alvo do BindingDB 9 Casein kinase I gamma 2 8 Aurora kinase A 8 Checkpoint Kinase (Chk2) 8 Aurora Kinase A (Aurora-A) De maneira semelhante foram verificadas proteínas alvo do DrugBank homólogas as proteínas dos protozoários listadas nas Tabelas 4.22 e Importante nessa relação é saber que uma proteína que é ortóloga a outra de um organismo modelo é também homóloga a uma proteína alvo de fármacos para humanos. Referenciando a proteína YPL153C, a Tabela 4.26 mostra as proteínas alvo do DrugBank que apresentaram homologia com quase todas as proteínas listadas na Tabela No total foram 68 diferentes alvos. Tabela 4.26: Proteínas alvo do DrugBank homólogas às proteínas dos protozoários que por sua vez são ortólogas à proteína YPL153C de S. cerevisiae. Qtd. ptn. protozoários Proteínas alvo do DrugBank 14 Cell division protein kinase 5 14 Mitogen-activated protein kinase 3 14 Mitogen-activated protein kinase 1 14 Cell division protein kinase 6 13 Cell division control protein 2 homolog 13 Cell division protein kinase 4 13 Mitogen-activated protein kinase Calcium/calmodulin-dependent protein kinase type IV 12 Mitogen-activated protein kinase Proto-oncogene serine/threonine-protein kinase Pim-1 12 Calcium/calmodulin-dependent protein kinase type 1G 12 Serine/threonine-protein kinase Nek2 12 Serine/threonine-protein kinase Calcium/calmodulin-dependent protein kinase type 1D 12 Glycogen synthase kinase-3 beta 12 Cell division protein kinase 2 Para as proteínas dos protozoários ortólogas à YPL204W, foram encontrados 34 diferentes proteínas alvo do DrugBank. A Tabela 4.27 mostra a descrição dos alvos que 114

130 são homólogos a todas ou quase todas as proteínas dos protozoários listados na Tabela Tabela 4.27: Proteínas alvo do DrugBank homólogas às proteínas dos protozoários que por sua vez são ortólogas à proteína YPL204W de S. cerevisiae. Qtd. ptn. protozoários Proteínas alvo do DrugBank 9 Casein kinase I isoform gamma-3 9 Casein kinase I isoform gamma-2 9 Casein kinase I isoform gamma-1 9 Serine/threonine-protein kinase 6 8 Cell division control protein 2 homolog 7 camp-dependent protein kinase catalytic subunit alpha 7 Serine/threonine-protein kinase 12 6 Beta-adrenergic receptor kinase 2 6 Mitogen-activated protein kinase 9 5 Proto-oncogene tyrosine-protein kinase Fyn 5 Death-associated protein kinase 3 5 Serine/threonine-protein kinase MST4 O banco de dados TTD foi o que apresentou menor número de proteínas alvo homólogas. Em relação às proteínas ortólogas a YPL153C e a YPL204W, foram encontrados quatro alvos homólogos, sendo que para a primeira continha somente homologia com proteínas de L. major, P. falciparum e T. brucei, e a segunda continha homologia com proteínas de todos os protozoários. Estes alvos são listados nas Tabelas 4.28 e Tabela 4.28: Proteínas alvo do TTD homólogas às proteínas dos protozoários que por sua vez são ortólogas à proteína YPL153C de S. cerevisiae. Qtd. ptn. protozoários Proteínas alvo do TTD 2 Proto-oncogene tyrosine-protein kinase SRC 2 Proto-oncogene tyrosine-protein kinase Yes 2 Proto-oncogene tyrosine-protein kinase Fyn 1 Proto-oncogene tyrosine-protein kinase LCK 115

131 Tabela 4.29: Proteínas alvo do TTD homólogas às proteínas dos protozoários que por sua vez são ortólogas à proteína YPL204W de S. cerevisiae. Qtd. ptn. protozoários Proteínas alvo do TTD 5 Proto-oncogene tyrosine-protein kinase Fyn 3 Proto-oncogene tyrosine-protein kinase SRC 3 Proto-oncogene tyrosine-protein kinase Yes 3 Proto-oncogene tyrosine-protein kinase LCK Estes resultados, que integram dados de literatura com dados de bases semiestruturadas ouo vice-versa, sugerem as análises que podem ser realizadas sobre a grande massa de dados que foi obtida a partir da integração, aplicação de abordagens computacionais e de bioinformática e cruzamento dos dados. Benefícios em se trabalhar com estes dados incluem saber quem fala mais sobre um determinado assunto ou proteína ou quais os dados que estão interligados, além de aproveitar a riqueza de dados presentes em outros organismos para direcionar uma nova pesquisa relacionada aos protozoários. Priorizando onde está o conhecimento e conseguindo contabilizar todos estes dados, fica mais fácil tomar a decisão do direcionamento da pesquisa. Integração de dados neste sentido pode ser verificada no artigo relacionado no Apêndice E, aceito pela revista Current Drug Target, o qual faz uma análise proteômica e de bioinformática de T. cruzi. Resumidamente, as buscas proteínas homólogas nos bancos BindingDB, DrugBank e TTD revelaram que todos os cinco protozoários possuem proteínas homólogas a algum dos alvo do fármaco orlistat, usado no tratamento de obesidade. Os resultados de homologia sugerem que o orlistat tem um espectro de uso como fármaco anti-protozoário. De fato, validando esta hipótese na literatura, existem estudos de avaliação de compostos derivados do orlistat que têm potente atividade tripanocida em ambas as formas sanguínea e procíclica de T. brucei. (as referências são encontradas no artigo). 116

132 5 DISCUSSÃO Neste capítulo são discutidos além dos resultados encontrados, detalhes sobre as abordagens utilizadas, alguns problemas e sugestões. As subseções se referenciam inicialmente às questões levantadas no trabalho com a extração de dados e informações a partir de artigos científicos e posteriormente com a extração de dados a partir de bases semiestruturadas. 5.1 Ferramentas de anotação semântica Para a escolha da ferramenta de anotação semântica utilizada neste trabalho, foram pesquisadas e avaliadas 13 ferramentas disponíveis gratuitamente na Web. Elas foram analisadas de acordo com seis características, incluindo os requisitos essenciais descritos na seção Destas, apenas duas ferramentas apresentavam os requisitos essenciais - AutôMeta e GATE - e por este motivo somente estas foram testadas com um conjunto de artigos da área biomédica e utilizando a ontologia PHARE. A escolha da ferramenta AutôMeta se deu principalmente pelo fato de conseguir processar grandes ontologias em detrimento da GATE, pois nas demais características, elas foram semelhantes. A explicação de cada característica, os motivos de exclusão das demais ferramentas e os testes realizados com AutôMeta e GATE são encontrados em Belloze et al. (2011) e no Apêndice F. O que pudemos verificar com as análises das ferramentas de anotação semânticas é que muitas ferramentas são descritas com o propósito de fazer anotação semântica de documentos, mas o que realmente fazem são marcações de termos ou de partes do documento, gerando meta-dados, mas sem referência a conteúdos semânticos embutidos através das ontologias ou taxonomias. Outra consideração refere-se à falta de documentação. Muitas ferramentas contém apenas um artigo que descreve a mesma ou uma básica explicação em um website, sem detalhamento e praticamente sem exemplos de uso. Por fim, também existe um problema de descontinuação de projetos. Muitas ferramentas foram iniciadas, mas não há indícios de atualizações e manutenções. 117

133 5.2 Padrão RDF Uma das vantagens da ferramenta AutôMeta é a anotação através do padrão RDFa, o qual permite que um conjunto de dados semânticos, ou seja, as anotações realizadas, sejam extraídas no formato RDF, que por sua vez favorece a interoperabilidade semântica. A ferramenta disponibiliza em sua interface gráfica, a visualização das triplas RDF após o documento anotado. Contudo, esta funcionalidade não foi explorada neste trabalho por dois motivos: Primeiramente, a visualização das triplas RDF, por ser feita na interface gráfica da ferramenta, exibe as triplas de um documento por vez, e estas não podem ser salvas. Existem opões para salvar estas triplas, como copiá-las manualmente ou abrir os artigos anotados em outra ferramenta que possua a funcionalidade de extração de conteúdo anotado com padrão RDFa e também salvar manualmente as triplas. Contudo, não são opções inteligentes, principalmente quando se trata de um volume grande de artigos, como o desta tese. Devido a AutôMeta ser uma ferramenta de código aberto, a opção ideal seria desenvolver na mesma, a funcionalidade de salvar as triplas RDF de cada documento assim que o mesmo for totalmente anotado. Como trabalhar com RDF não constava no escopo do trabalho, este desenvolvimento não foi considerado para ser feito. O segundo motivo se refere à nomeação de classes de diversas ontologias biomédicas ser realizada através de um identificador alfanumérico, como por exemplo: NCBITaxon_5654 (identificador da classe Trypanosomatidae da ontologia NCBI Taxon) e IMR_ (identificador da classe Proteína da ontologia Molecule Role). Ao recuperar as anotações semânticas através de triplas RDF <sujeito, predicado, objeto>, seja pela ferramenta AutôMeta ou outra que possua esta funcionalidade, o sujeito da tripla não se mostra representativo, por ser retratado com o identificador alfanumérico. Um exemplo é mostrado na Figura 5.1: anotação do termo Glutathione com a classe Protein na ontologia Molecule Role, a qual possui o identificador formado pelas letras IMR seguido de um numeral. O exemplo consta também como seria uma representação com um identificador textual que corresponderia mais adequadamente ao elemento a ser representado na classe. 118

134 Figura 5.1: Representação da formação de triplas RDF com identificadores alfanuméricos e textuais para classes de ontologias. O padrão RDF estabelece um modelo de dados e sintaxe para representar, codificar e transmitir metadados, com o objetivo de maximizar a interoperabilidade de dados de fontes heterogêneas na Web. O padrão é uma recomendação da W3C para padronizar a definição e o uso de metadados. Recuperar as anotações semânticas por meio de triplas RDF permitiria imediatamente ter um conjunto de dados que pudesse ser disponibilizado para pesquisas, através da nuvem de dados na Web denominada de Dados Abertos Ligados (do inglês: Linked Open Data - LOD) participando assim das tendências de disponibilizar dados enriquecidos com semântica inclusive para as áreas de saúde, biomedicina e farmacologia, como pode ser verificado nos trabalhos de (Jentzsch et al., 2009; Zhao, 2010; Samwald et al., 2011). O LOD (Berners-Lee, 2006) é uma iniciativa de interligação de dados relacionados de diferentes fontes e domínios na Web, publicando e compartilhando informações através da Web Semântica usando URIs e RDF. Fazem parte da nuvem do LOD diversas bases de dados de domínio biomédico no contexto das ciências da vida, como DrugBank, Uniprot, Pfam e PubMed. Não existe uma regra obrigatória para nomeação das classes de uma ontologia, apenas que os nomes não contenham espaços e iniciem com letra maiúscula. Neste trabalho, foi desenvolvido um programa para buscar os nomes das classes representados na propriedade label da classe. 5.3 Ontologias biomédicas O caso descrito na seção anterior nos remete aos diversos problemas que são enfrentados ao se trabalhar com as ontologias biomédicas, que além das classes com 119

135 identificadores pouco representativos, também apresentam definições mal estruturadas, formatos não padronizados, pobreza em termos de relacionamentos entre as classes (muitas são somente baseadas em taxonomias) e o grande volume de dados que dificulta a manipulação das mesmas. Estes e outros problemas com ontologias biomédicas tornaram-se motivação inclusive para a criação de uma conferência internacional, a ICBO (International Conference on Biomedical Ontology), iniciada em 2009 e que possui como um dos escopos abordar e discutir os problemas envolvidos na utilização cada vez maior destas ontologias. Além da conferência, trabalhos a respeito do tema são encontrados na literatura. (Rabie e Norcio, 2013) discutem alguns assuntos sobre as ontologias biomédicas como o dilema sobre os relacionamentos part_of e has_part que podem levar a distintas interpretações e sobre mapeamentos inadequados entre dados e conteúdos. Eles consideram que isto pode resultar em problemas nos métodos atuais de gerenciamento de ontologias biomédicas e relações inconsistentes e ambíguas entre termos. (Hunter et al., 2012) descrevem em seu trabalho que seus esforços para anotar manualmente um corpus de artigos biomédicos têm trazido uma infelicidade ao deparar com problemas para a realização da anotação semântica dos artigos e sugerem um conjunto de aspirações para a melhoria das ontologias como: integração de termos que se sobrepõem, resolução de ambiguidades, integração das ontologias biomédicas com a BFO (Basic Formal Ontology), a expansão de relações, entre outros. Os autores descrevem que a implementação destas aspirações ajudaria a melhorar grandemente a utilização das ontologias na tarefa de anotação semântica. 5.4 Modularização de ontologias Neste trabalho, o principal problema enfrentado foi relativo ao volumoso tamanho das ontologias, principalmente NCI Thesaurus e NCBI Taxon. Molecule Role versão 2.24, NCI Thesaurus versão 11.06d e NCBI Taxon versão 1.2 (release 2009) eram constituídas de 9.217, e classes, e tamanhos de arquivos OWL aproximados a 40.1Mb, 218.4Mb e 252 Mb, respectivamente. Atualmente a NCBI Taxon versão 1.2 (release 2012) conta com classes. Com exceção da ontologia Molecule Role, as demais exigiram muito poder de processamento e memória nos computadores ao serem manipuladas. Por exemplo, um conjunto de dez artigos no 120

136 formato txt, totalizando 563 Kb de tamanho, para ser anotado semanticamente utilizando a ferramenta AutôMeta demorou apenas 22 minutos com a ontologia Molecule Role, porém demorou 21horas e 30 minutos, e 31 horas e 5 minutos, com as ontologias Molecule Role, NCI Thesaurus e NCBI Taxon respecticamente. Esta anotação foi realizada em um servidor dedicado Dell Poweredge com CPU Intel Xeon Quad Core E GHz, 4Mb Cache, 8Gb memória RAM e arquitetura de 64 bits. Algumas ferramentas de anotação semântica testadas não conseguiram sequer carregar as ontologias, principalmente NCI Thesaurus e NCBI Taxon. Uma maneira de contornar tal problema é fazer um recorte nas ontologias tomando apenas as partes de interesse nelas. Assim, o tamanho seria reduzido e os módulos gerados seriam mais facilmente processados e facilitariam o reuso. Há, disponibilizadas na Web, ferramentas com o propósito de fazer a modularização de ontologias, como The NeOn Toolkit (Haase et al., 2008) e Web Ontology Segmentation (Seidenberg e Rector, 2006), mas que também esbarram no problema de carga das ontologias, pois, para realizar a modularização, estas precisam ser carregadas em memória para posteriormente serem processadas, exigindo portanto, um computador/servidor potente. Além disso, essas ferramentas também não estão preparadas para lidar com ontologias biomédicas devido ao fato de gerarem módulos baseados nos nomes das classes, e como comentado anteriormente, muitas ontologias representam suas classes com identificadores alfa-numéricos. Sendo as ferramentas de código aberto, elas também permitem esta alteração. AutôMeta conseguiu carregar o arquivo completo das ontologias e realizar as anotações dos conjuntos de textos repassados, através de sua modalidade pela linha de comando. Como a AutôMeta foi desenvolvida em linguagem de programação Java, para este funcionamento, bastou apenas executá-la fazendo uma expansão da memória virtual Java. 5.5 Dados da anotação semântica A seção 4.2 faz um levantamento e algumas considerações sobre termos, classes e a quantidade de artigos envolvidos para cada ontologia. Consideramos que a escolha das ontologias foi boa visto que estas anotaram grande parte do que esperávamos como nomes de proteínas e de organismos e termos do domínio de estudo. Da mesma forma, a 121

137 ferramenta de anotação semântica foi capaz de anotar além de termos únicos, termos compostos (expressões) incluindo caracteres alfanuméricos, como 2-oxoglutarate dehydrogenase complex, acyl-coa dehydrogenase, fructose-bisphosphate aldolase entre outros. A ontologia Molecule Role anotou em maior número termos que se referenciavam à classe protein (802 termos distintos) contra 195 termos distintos anotados com a classe chemical. Apesar de o foco inicial ser a anotação de proteínas, anotar compostos químicos também se fez relevante, uma vez que compostos químicos são utilizados na técnica de High Throughput Screening (HTC) a qual busca identificar compostos químicos que interagem com uma proteína alvo. Logo, artigos que possuem compostos químicos anotados podem referenciar notáveis compostos estudados em relação a um determinado organismo (como um organismo modelo) e que poderia ser pensado para testes nos protozoários, principalmente se o composto for verificado como sendo um ligante de uma proteína alvo armazenada em bancos como BindingDB, DrugBank e TTD e que é homóloga a uma proteína de protozoário. Sendo assim, a anotação semântica inicialmente idealizada para buscar dados e informações a respeito da essencialidade de proteínas, poderia ser estendida para buscar dados e informações também a respeito da drogabilidade das proteínas. A ontologia NCI Thesaurus não anotou exatamente alguns dos conceitos levantados no entendimento do objeto de pesquisa (seção 3.1.1), como lethal phenotype e null mutants. Porém, havia termos com definições iguais ou muito próximas aos originais e que puderam ser considerados na contabilização de artigos e em possíveis relações. Além disso, foi buscado mostrar que além do termo em si, houve anotações com variações do termo, isto é, expressões que envolvem o termo original, e que são especificações deste. Um exemplo seria a anotação do termo membrane protein, o qual é uma variação (especificação) do termo protein. Um artigo que anotou membrane protein indica que o mesmo não descreve a respeito de uma proteína em geral, mas sim de uma proteína de membrana. Ainda neste sentido, também é possível buscar, dentro de um conjunto de termos muito específicos, outro que tenha uma abrangência maior, mas sem ser muito generalizado. Por exemplo, podemos citar o caso de mutation, que possui 15 diferentes variações, mas todos sendo especificações de mutation abnormality. A busca deste termo de maior abrangência apoiaria, por exemplo, a separação dos artigos por categorias dentro dos conceitos do domínio. 122

138 A ontologia NCBI Taxon anotou todos os organismos de estudo deste trabalho. Através destas anotações conseguimos identificar artigos que falam especificamente sobre um determinado organismo ou aqueles que possuem relações entre os diferentes organismos, como é o caso da levedura S. cerevisiae que tem ocorrências em artigos nos quais também foram anotados os protozoários. Foi percebido também que Schizosaccharomyces pombe apresentou um número expressivo de artigos em que foi anotado. Como este também é um organismo modelo em biologia celular e molecular e possui suas proteínas essenciais descritas (armazenadas no banco OGEE) poderia igualmente aos demais ser utilizado para a busca de proteínas ortólogas às dos protozoários. A partir das anotações com as três ontologias foi possível encontrar relacionamentos, como quantos e quais artigos falam sobre uma determinada técnica (por exemplo, RNA de interferência ou nocaute), aplicadas a determinados organismos e quais proteínas estavam descritas, permitindo assim, um direcionamento a um conjunto de artigos a ser mais bem investigado e a um conjunto de dados para investigar candidatos essenciais e drogáveis. Relacionamentos como o descrito acima só foram possíveis fazendo-se a junção das anotações das três ontologias, que foram trabalhadas de modo a serem complementares para o estudo em questão. Não há qualquer ferramenta de anotação semântica disponibilizada publicamente que utilize múltiplas ontologias em uma única anotação. Para que uma anotação semântica seja bem sucedida, é importante que um especialista possa fazê-la ou avaliá-la. A melhor anotação seria aquela em que um especialista anotasse manualmente os termos relevantes do domínio, o que traria uma anotação enxuta e confiável. Contudo, este é um processo que demandaria tempo e dedicação por parte de um especialista, o que nem sempre é possível. Desta maneira, a anotação automática pode servir como uma pré-anotação, ou seja, os documentos são anotados automaticamente e posteriormente o analista apenas avalia a anotação, considerando se os termos anotados estão corretos ou se podem ser descartados, ou ainda, inserir manualmente algum termo importante que não foi contemplado. Para a anotação automática, além do acompanhamento de um especialista, percebemos que, um tratamento inicial dos documentos evitaria termos irrelevantes na anotação ou falsos positivos. Os termos irrelevantes incluem, por exemplo, artigos, 123

139 pronomes e preposições, termos que compõem as chamadas stop words, conceito utilizado na área de Mineração de Textos, na qual a eliminação de stop words é uma tarefa de pré-processamento para a análise do texto (Feinerer et al., 2008; Gupta e Lehal, 2009). Os falsos-positivos incluem termos do domínio anotados, porém se encontram em partes que não agregam valor para a extração de dados, como as referências, cabeçalho e agradecimentos. Remover stop words e promover uma limpeza nos documentos retirando as seções não relevantes ajudaria em uma melhor anotação automática. Além disso, técnicas de Mineração de Textos como sumarização e agrupamento poderiam ser aplicadas aos artigos anotados de modo a encontrar relações entre os termos ontológicos levantados, as quais são não-triviais, previamente desconhecidas, mas que podem ser potencialmente úteis. Integrar dados obtidos através da análise de documentos é uma abordagem que pode ser vantajosa para fazer descobertas. Neste trabalho, pode-se verificar a quantidade muito maior de artigos retornados sobre os organismos modelo (694) em relação aos protozoários (82) quando aplicadas as mesmas consultas de busca (Seções e 3.14). Aplicar uma abordagem para a análise dos artigos permitiu integrar dados de ambos os organismos, encontrar relações e posteriormente integrar com os dados obtidos na homologia e ortologia entre sequências. 5.6 Homologia e ortologia Considerando a busca por homologia entre as sequências, na qual se utilizou bancos de dados cujas sequências de proteínas são na grande maioria de humanos, é também interessante que a homologia seja verificada por abordagens diferentes do programa BLAST. Neste contexto, HMMER (Mistry et al., 2013) é um programa que utiliza perfis de modelo de Markov oculto (HMM, do inglês Hidden Markov Model) (Eddy, 1998) para alinhar sequências e para buscar sequências homólogas às sequências de proteínas que originaram os perfis. Estes perfis representam famílias de sequências de proteína, logo, HMM oferece um bom desempenho na detecção de homologia, visto que contém mais informações devido à família de sequências e não a uma única sequência como no BLAST. O objetivo deste modelo é melhorar a predição de evolução e ser capaz de reconhecer e alinhar com mais precisão homólogos mais distantes (Söding 124

140 2005), interessante quando se trata da homologia entre sequências de protozoários e de humanos. Apesar de mais precisa, essa abordagem apresenta muitos falsos positivos, sendo necessário fazer uma avaliação cuidadosa dos resultados. Um trabalho comparativo entre os resultados gerados pelo HMMER e pelo BLAST apoiaria na decisão de qual ferramenta utilizar com os dados de entrada em questão ou a necessidade de sempre mesclar resultados de ambas as ferramentas. A busca por sequências ortólogas poderia ainda ser refinada utilizando os dados do KOG (eukaryotic Orthologous Groups) (Tatusov et al., 2003; Koonin et al., 2004), que identifica proteínas ortólogas entre organismos eucariotos. KOG foi construído baseando-se na comparação de proteínas codificadas dos genomas dos seguintes organismos: Arabidopsis thaliana, Caenorhabditis elegans, Encephalitozoon cuniculi Drosophila melanogaster, Homo sapiens, Saccharomyces cerevisiae e Schizosaccharomyces pombe. Para os grupos ortólogos foram examinados os padrões filéticos em conexão com as funções conhecidas e preditas das proteínas. Apesar de também encontrar os grupos ortólogos baseando-se na execução do BLAST de todoscontra-todos (como o OrthoMCL), análises dos grupos ortólogos indicam que cerca de 40% são grupos conservados responsáveis por funções essenciais para a sobrevivência do organismo (Koonin et al., 2004). Com os grupos ortólogos do KOG poderia ser realizada uma busca por similaridade com esta fonte de domínios conservados. Além da similaridade com os sete organismos constituintes do KOG, os dados em relação aos quatro organismos modelo semelhantes aos utilizados neste trabalho (A. thaliana, C. elegans, D. melanogaster e S.cerevisiae) poderiam ser comparados de modo a refinar os resultados em relação aos candidatos essenciais. Além da utilização de outras ferramentas e/ou refinamentos para a busca por sequências homólogas e ortólogas aos protozoários, nas próprias ferramentas utilizadas, seria interessante fazer uma variação nos pontos de cortes das mesmas, ou seja, realizar várias execuções utilizando e-values diferentes, com o objetivo de verificar se os dados se mantêm consistentes. Neste trabalho, foi utilizado somente o valor padrão de e-value,, devido à verificação de que este valor de corte conseguiria trazer em seus resultados, sequências homólogas e ortólogas entre os organismos de interesse com e- values bem baixos e devido ao tempo deste produção deste trabalho, o qual não seria possível processar e analisar dados gerados para outros valores de corte. 125

141 5.7 Candidatos essenciais e candidatos drogáveis Em relação aos candidatos essenciais, os resultados (seção 4.3) apontaram que o modelo S. cerevisiae foi o que apresentou maior número de proteínas ortólogas aos protozoários. M. musculus e D. rerio, também apresentaram números bastante significativos de proteínas ortólogas. Estes dois últimos organismos são muito utilizados para estudar funções de genes específicos apoiando os estudos sobre doenças humanas (NIH, 2013), constituindo, portanto, um conjunto de proteínas importante a ser considerado nos estudos entre protozoários e humanos. Em menor número, encontramse as proteínas ortólogas com o modelo A. thaliana, C.elegans e D. melanogaster, mas que apresentaram ortologias com sequências dos cinco protozoários, assim como os demais organismos citados anteriormente (S. cerevisiae, M. musculus e D. rerio). Ao observar a construção da árvore da vida através de métodos sugeridos por (Ciccarelli et al., 2006), notamos que S. cerevisiae está mais próximo dos Metazóarios do que Amoebozoa, Apicomplexa ou Euglenozoa (filos os quais pertecem os protozoários), apesar de este organismo ser unicelular assim como os protozoários e ter apresentado um número elevado de proteínas essenciais ortólogas às proteínas dos protozoários. Dentre os filos citados, o que mais se aproxima de S. cerevisiae é o Amoebozoa. Os filos Amoebozoa, Apicomplexa e Euglenozoa estão mais próximos do reino Plantae, o qual se encontra A. thaliana, posteriormente reino Fungi, o qual pertence S. cerevisiae e após os Metazoários, que incluem C. elegans, D. melanogaster, D. rerio e M. musculus. A bactéria E. coli apesar de apresentar um proteoma bem reduzido em relação aos demais organismos, apresentou um número alto de proteínas ortólogas. Como a bactéria é o modelo mais utilizado na genética molecular, as proteínas de protozoários ortólogas ao modelo podem ser priorizadas nos trabalhos experimentais. Para encontrar os resultados dos candidatos essenciais foram utilizadas as sequências de proteínas e suas descrições de cada organismo modelo e cada protozoário. Contudo, este estudo poderia ser extrapolado de modo a verificar proteínas dos protozoários que possuem características semelhantes a famílias de proteínas dos organismos modelos e se existem domínios conservados. 126

142 Sobre os candidatos drogáveis (seção 4.4), para os três bancos de dados utilizados, foi percebido que uma única proteína obteve homologia com várias proteínas dos bancos, sendo muitas delas compartilhadas para todos os protozoários. Para o banco BindingDB, as proteínas são relacionadas a um ou mais ligantes. Logo, a homologia destas em relação às sequências dos cinco protozoários, sugere que as proteínas dos protozoários também podem ter estes ligantes associados. Trypanosoma cruzi foi o protozoário que apresentou o maior número de proteínas distintas homólogas às proteínas alvo do BindingDB e em menor número, P. faciparum. Isto considerando as proteínas de organismos diferentes aos protozoários. Em relação ao DrugBank, todas as proteínas armazenadas são alvos para fármacos aprovados ou experimentais. Assim, a homologia entre as sequências de proteínas do banco e dos protozoários indicam que estas últimas possam ter uma estrutura que se ligue a um fármaco. Como as proteínas alvo do banco são na grande maioria de humanos, as proteínas homólogas de protozoários formam um conjunto de proteínas interessantes de analisar, por exemplo, quanto o organismo humano pode ser afetado caso uma destas proteínas seja um alvo para fármaco do protozoário. Embora o protozoário E. histolytica tenha apresentado um número maior de homologias com as sequências do banco, ou seja, uma única sequência apresentou várias proteínas homólogas, o protozoário T. cruzi é o que se destaca, visto que apresentou o maior número de proteínas distintas com homologia. P. falciparum foi o protozoário que apresentou menor número de sequências homólogas. Para o banco TTD, o diferencial é que todas as proteínas alvo do banco na qual foram realizadas homologias com as sequências de proteínas dos protozoários, possuem fármaco associado que já se encontra no mercado, em uso. Desta forma, as proteínas homólogas de protozoários têm chances de possuírem uma estrutura que se ligue a um fármaco. Em comparação com os bancos citados anteriormente, TTD possui um tamanho menor, logo, os resultados apresentaram pouco mais de 100 sequências homólogas para os protozoários, exceto P. falciparum. A intenção na verificação de homologia era levantar proteínas de protozoários que tivessem uma estrutura semelhante àquelas que já são alvo de fármaco ou que possuem ligantes associados. Mas, além disso, foi verificado que para os resultados de homologia nos quais o e-value ficou muito próximo de zero, as proteínas possuem regiões muito semelhantes, sugerindo funções iguais entre as mesmas. Fato comprovado 127

143 pela descrição de cada proteína (proteína do protozoário e proteína alvo do banco de dados) nos exemplos mostrados. Além disso, os dados obtidos podem guiar estudos de reposicionamento de fármacos, uma vez que nas homologias com os bancos DrugBank e TTD, para cada proteína alvo, há um ou mais fármacos associados. De acordo com (Ekins et al., 2011), os benefícios do reposicionamento incluem: trabalhar com alvos drogáveis conhecidos, ter disponível dados e materiais que podem ser usados para ser apresentados às entidades reguladoras e redução do tempo de pesquisa e desenvolvimento e recursos envolvidos. É importante comentar que, mesmo para os bons resultados de similaridade, não podemos afirmar que a proteína de protozoário é drogável. Os dados de verificação de homologia apenas constituem um ponto de partida para a priorização de proteínas dos protozoários a serem testadas no processo de descoberta de fármacos. De forma semelhante, mesmo utilizando o conceito mais específico de homologia, a ortologia, não podemos afirmar que as proteínas de protozoários ortólogas às proteínas essenciais de organismos modelo são também essenciais. Mas elas podem ser usadas para priorizar aquelas proteínas que serão testadas em outras abordagens, como genética reversa ou vias metabólicas. As expressões candidatos drogáveis e candidatos essenciais foram utilizadas apenas como efeito de simplificação ao falar dos conjuntos de dados obtidos através das busca por homologia e ortologia. Assim sendo, trabalhar com os conceitos de essencialidade e drogabilidade constituiu o primeiro passo para o levantamento de possíveis alvos para a descoberta de fármacos para o combate a doenças causadas pelos cinco protozoários. Contudo, não é uma tarefa que termina aqui. Alguns exemplos de continuidade deste trabalho são descritas a seguir. Verificações a partir de outros conceitos podem ser feitas utilizando o conjunto de dados levantado, como pesquisar informações sobre as vias metabólicas importantes na bioquímica dos protozoários, como, produção de energia e transporte e metabolismo de aminoácidos. Além disso, o estudo sobre as vias metabólicas iria complementar e refinar os dados obtidos com a busca de proteínas de protozoários ortólogas às proteínas essenciais de organismos modelo. Isto porque pode haver ocorrências de vias metabólicas alternativas nos protozoários, o que tornaria uma proteína considerada candidata essencial em não essencial. Há na literatura diversos trabalhos que exploram 128

144 vias metabólicas na direção da descoberta de fármacos (Heby et al., 2003; Goodman e McFadden, 2008; Souza e Rodrigues, 2009; Smirlis et al., 2010). Outra verificação pode ser feita levando em consideração o conceito de quimioproteômica, que compreende um conjunto de métodos para derivar perfis que podem identificar e caracterizar proteínas que interagem com pequenas moléculas de origem sintética ou natural. Estes métodos são utilizados para elucidação do mecanismo de ação do fármaco (Jeffery e Bogyo, 2003). Além disso, a quimioproteômica visa estudar as funções das proteínas em relação ao nível da regulação das atividades enzimáticas (Verhelst e Bogyo, 2005). Estudos recentes, como (Urbaniak et al., 2012; Sykes e Avery, 2013), mostram a aplicação da quimioproteômica no processo de descoberta de fármacos em protozoários. 5.8 Acesso aos dados de candidatos essenciais e drogáveis É notável o grande volume de dados que foi gerado com as buscas entre sequências homólogas e ortólogas e a posterior integração com as descrições de cada banco de dados, além dos cruzamentos realizados entre os resultados. Os resultados mostrados neste trabalho foram obtidos através de inúmeras consultas SQL (Structured Query Language) aplicadas às bases de dados criadas. Contudo, é importante que seja desenvolvida uma interface de modo que usuários comuns passam fazer acesso e realizar suas próprias consultas (ad-hoc), cruzando dados de acordo com seu interesse, bem como salvar as suas respostas. Na direção de utilizar estes dados como constituintes de um Data Warehouse (DW), a interface ideal para consultas ad-hoc seria aquela que fizesse uso de ferramentas OLAP (On-line Analytical Processing), que oferecem um modo de acessar, visualizar e analisar grandes volumes de dados de maneira flexível e com desempenho. Possuindo uma visão dos dados orientada à análise, o objetivo é permitir diversas análises de maneira não custosa para apoiar a tomada de decisão (Inmon, 2005). 129

145 6 CONCLUSÃO Este trabalho propôs apresentar uma metodologia para priorizar alvos para fármacos a serem estudados e testados para a descoberta de novos fármacos no combate a doenças tropicais causadas por protozoários. Esta metodologia sugeriu explorar informações contidas em artigos científicos e nas bases textuais e também explorar dados depositados em bases semiestruturadas, baseando-se no conceito de essencialidade e drogabilidade da proteína. A intenção era identificar meios de aproveitar dados bem estudados e presentes nestas bases, como os dados dos organismos modelo e de proteínas alvo, fármacos e ligantes, e através de abordagens computacionais e de bioinformática, assim como a integração dos dados, levantar candidatos essenciais e drogáveis para os cinco protozoários. Dessa maneira, foram aplicadas as abordagens de anotação semântica e homologia e ortologia entre sequências de proteínas. A anotação semântica dos artigos baseada em ontologias permitiu identificar os diferentes termos anotados nos artigos e verificar os termos do domínio que são mais frequentes, assim como quantificá-los, possibilitando a um pesquisador um direcionamento de leitura e estudo dos artigos, e também, a descobrir a tendência de estudos presentes nestes artigos. Tais identificações sendo levantadas tanto para organismos modelo quanto para protozoários indicam relações existentes entre ambos. Além disso, podem ser levantadas relações não pensadas anteriormente, indicando novos nichos de estudo. A busca por ortologia realizada entre sequências de proteínas dos organismos modelo e dos cinco protozoários possibilitou o levantamento de candidatos essenciais para os protozoários, sendo que os protozoários E. histolytica, L. major, T. brucei e T.cruzi apresentaram números bastante próximos de homologias em relação a cada organismo modelo, enquanto que P. falciparum apresentou menos ocorrências de proteínas homólogas. Por sua vez, a busca por homologia entre sequências de proteínas dos bancos de alvos, fármacos e ligantes dos cinco protozoários possibilitou o levantamento de candidatos drogáveis. Também nesta análise, o protozoário P. falciparum foi o que apresentou menor número de sequências homólogas em relação aos três bancos utilizados. 130

146 Na integração de ambos dados encontrados, as anotações semânticas podem sugerir relações de organismos, proteínas e elementos específicos do domínio que direcionam dados de homologia e ortologia a ser estudados/verificados, assim como os dados de homologia e ortologia levantam questionamentos que podem ser esclarecidos através da leitura de um conjunto de artigos que possuem termos correlacionados anotados. Ademais, os resultados refletem um recorte no tempo dos dados utilizados. Contudo, a metodologia sugerida mostrou-se coerente e útil para apoiar a priorização de alvos para fármacos, e poderia em espaços de tempo definidos, ser reproduzida no sentido de atualizar os dados. A metodologia também pode ser seguida para o caso de inserções referentes a outros protozoários, organismos modelo e bancos de fármacos, alvos e ligantes. No entanto, como discutido no capítulo anterior, existem ajustes e aperfeiçoamentos que podem ser realizados para obter resultados melhores e mais precisos. Além disso, para disponibilizar os dados integrados, o oferecimento de um sistema que permita aos usuários realizarem suas próprias consultas sobre os dados é fundamental. 131

147 7 REFERÊNCIAS Alsford, S., Kelly, J. M., et al. (2013). "Genetic dissection of drug resistance in trypanosomes." Parasitology: Altschul, S. F., Madden, T. L., et al. (1997). "Gapped BLAST and PSI-BLAST: a new generation of protein database search programs." Nucleic Acids Res 25(17): Alvar, J.,Velez, I. D., et al. (2012). "Leishmaniasis worldwide and global estimates of its incidence." PLoS One 7(5): e Ashburner, M., Ball, C. A., et al. (2000). "Gene ontology: tool for the unification of biology. The Gene Ontology Consortium." Nat Genet 25(1): Baba, T., Ara, T., et al. (2006). "Construction of Escherichia coli K-12 in-frame, singlegene knockout mutants: the Keio collection." Mol Syst Biol 2: Belloze, K. T, Monteiro, D. I. S. B., et al. (2011). An evaluation of annotation tools for biomedical texts. V Seminário de Pesquisas em Ontologias do Brasil - ONTOBRAS, Recife. Bergmiller, T., Ackermann, M., et al. (2012). "Patterns of evolutionary conservation of essential genes correlate with their compensability." PLoS Genet 8(6): e Berners-Lee, T. (2006). "Linked Data - Design Issues." Retrieved May 03, 2013, from Berners-Lee, T. e Hendler, J. (2001). "Publishing on the semantic web." Nature 410(6832): Bolton, E., Wang, Y., Thiessen, P.A., Bryant, S.H. (2008). "PubChem: Integrated Platform of Small Molecules and Biological Activities." Anual Reports in Computational Systems 4. Brenner, S. E., Chothia, C., et al. (1998). "Assessing sequence comparison methods with reliable structurally identified distant evolutionary relationships." Proc Natl Acad Sci U S A 95(11): Brown, D. e Superti-Furga, G. (2003). "Rediscovering the sweet spot in drug discovery." Drug Discov Today 8(23): Bullard, K. M., Delisle, R. K., et al. (2013). "Malarial kinases: novel targets for in silico approaches to drug discovery." Methods Mol Biol 993:

148 CDC. (2010). "Parasites." Amebiasis (also known as Entamoeba histolytica infection) Retrieved 31 de março, 2013, from CDC. (2012). "Choosing a Drug to Prevent Malaria." Retrieved 08 de abril, 2013, from Chatelain, E. e Ioset, J. R. (2011). "Drug discovery and development for neglected diseases: the DNDi model." Drug Des Devel Ther 5: Chavez-Tapia, N. C.Hernandez-Calleros, J., et al. (2009). "Image-guided percutaneous procedure plus metronidazole versus metronidazole alone for uncomplicated amoebic liver abscess." Cochrane Database Syst Rev(1): CD Chen, W. H., Minguez, P., et al. (2012). "OGEE: an online gene essentiality database." Nucleic Acids Res 40(Database issue): D Chirac, P. e Torreele, E. (2006). "Global framework on essential health R&D." Lancet 367(9522): Christen, B., Abeliuk, E., et al. (2011). "The essential genome of a bacterium." Mol Syst Biol 7: 528. Ciccarelli, F. D., Doerks, T., et al. (2006). "Toward automatic reconstruction of a highly resolved tree of life." Science 311(5765): Consortium, C. E. D. M. (2012). "Large-scale screening for targeted knockouts in the Caenorhabditis elegans genome." G3 (Bethesda) 2(11): Coura, J. R. (2007). "Chagas disease: what is known and what is needed--a background article." Mem Inst Oswaldo Cruz 102 Suppl 1: Cullen, L. M. e Arndt, G. M. (2005). "Genome-wide screening for gene function using RNAi in mammalian cells." Immunol Cell Biol 83(3): Davila, A. M., Mendes, P. N., et al. (2008). "ProtozoaDB: dynamic visualization and exploration of protozoan genomes." Nucleic Acids Res 36(Database issue): D Dickerson, J. E., Zhu, A., et al. (2011). "Defining the role of essential genes in human disease." PLoS One 6(11): e Ding, Y., Embley, D. W., et al. (2006). Automatic Creation and Simplified Querying of Semantic Web Content: An Approach Based on Information-Extraction Ontologies. First Asian Semantic Web Conference, Beijing. Doerig, C., Meijer, L., et al. (2002). "Protein kinases as drug targets in parasitic protozoa." Trends Parasitol 18(8):

149 Doyle, M. A., Gasser, R. B., et al. (2010). "Drug target prediction and prioritization: using orthology to predict essentiality in parasite genomes." BMC Genomics 11: 222. DPDX (2009). Malaria. Parasite and Health. DPDX. (2013). "Parasites and Health." Trypanosomiasis, African Retrieved 08 de abril, 2013, from Durgin, J. K., Sherif, J.S. (2008). "The semantic web: a catalyst for future e-business." Kybernetes 37(1): 16. Eddy, S. R. (1998). "Profile hidden Markov models." Bioinformatics 14(9): Ekins, S.Williams, A. J., et al. (2011). "In silico repositioning of approved drugs for rare and neglected diseases." Drug Discov Today 16(7-8): Enright, A. J., Van Dongen, S., et al. (2002). "An efficient algorithm for large-scale detection of protein families." Nucleic Acids Res 30(7): Feasey, N., Wansbrough-Jones, M., et al. (2010). "Neglected tropical diseases." Br Med Bull 93: Feinerer, I., Hornik, K., et al. (2008). "Text Mining Infrastructure in R." Journal of Statistical Software 25(5): 54. Fernandez-Suarez, X. M. e Galperin, M. Y. (2013). "The 2013 Nucleic Acids Research Database Issue and the online molecular biology database collection." Nucleic Acids Res 41(Database issue): D1-7. FIOCRUZ. (2013). "Doença de Chagas." Retrieved 13 de abril, 2013, from. Flicek, P., Ahmed, I., et al. (2013). "Ensembl 2013." Nucleic Acids Res 41(Database issue): D Fontes, C. A. (2011). "Explorando inferência em um sistema de anotação semântica." Instituto Militar de Engenharia, Rio de Janeiro. Gaulton, A., Bellis, L. J., et al. (2012). "ChEMBL: a large-scale bioactivity database for drug discovery." Nucleic Acids Res 40(Database issue): D Giaever, G., Chu, A. M., et al. (2002). "Functional profiling of the Saccharomyces cerevisiae genome." Nature 418(6896): Gontijo e Melo (2004). "Leishmaniose Visceral no Brasil: quadro atual, desafios e perspectivas." Rev. Bras. Epidemiol. 7(3). Goodman, C. D. e Mcfadden, G. I. (2008). "Fatty acid synthesis in protozoan parasites: unusual pathways and novel drug targets." Curr Pharm Des 14(9):

150 Gruber, T. R. (1993). "Toward principles for the design of ontologies used for knowledge sharing." International Journal of Human-Computer Studies 43(4-5): 21. Gruber, T. R. (2009). "Ontology." U. Trier. Guarino, N. (1998). "Formal Ontology and Information Systems." IOS Press: 12. Gupta, V. e Lehal, G. (2009). "A Survey of Text Mining Techniques and Applications." JOURNAL OF EMERGING TECHNOLOGIES IN WEB INTELLIGENCE 1(1). Gustafson, A. M., Snitkin, E. S., et al. (2006). "Towards the identification of essential genes using targeted genome sequencing and comparative analysis." BMC Genomics 7: 265. Haase, P., Lewen, H., et al. (2008). The NeOn Ontology Engineering Toolkit. WWW 2008 Developers Track. J. Korn. Beijing. Heby, O., Roberts, C., et al. (2003). "Polyamine biosynthetic enzymes as drug targets in parasitic protozoa." Biochem Soc 31: 5. Hegemann, J. H., Guldener, U., et al. (2006). "Gene disruption in the budding yeast Saccharomyces cerevisiae." Methods Mol Biol 313: Huang Da, W., Sherman, B. T., et al. (2009). "Systematic and integrative analysis of large gene lists using DAVID bioinformatics resources." Nat Protoc 4(1): Hunter, S., Jones, P., et al. (2012). "InterPro in 2011: new developments in the family and domain prediction database." Nucleic Acids Res 40(Database issue): D Inmon, W. H. (2005). "Building the Data Warehouse." John Wiley & Sons(4). Ivens, A. C., Peacock, C. S., et al. (2005). "The genome of the kinetoplastid parasite, Leishmania major." Science 309(5733): Jardim, R., Tschoeke, D., Dávila, A.M.R (2012). ProtozoaDB 2.0: a new version for the comparative genomics of 22 pathogenic Protozoa species. RECOMB Comparative Genomics. Jeffery, D. A. e Bogyo, M. (2003). "Chemical proteomics and its application to drug discovery." Curr Opin Biotechnol 14(1): Jentzsch, A., Hassanzadeh, O., et al. (2009). Enabling Tailored Therapeutics with Linked Data. 2nd Workshop on Linked Data on the Web. 135

151 Jordan, I. K., Rogozin, I. B., et al. (2002). "Essential genes are more evolutionarily conserved than are nonessential genes in bacteria." Genome Res 12(6): Keller, T. H., Pichota, A., et al. (2006). "A practical view of 'druggability'." Curr Opin Chem Biol 10(4): Kinsella, R. J., Kahari, A., et al. (2011). "Ensembl BioMarts: a hub for data retrieval across taxonomic space." Database (Oxford) 2011: bar030. Knox, C., Law, V., et al. (2011). "DrugBank 3.0: a comprehensive resource for 'omics' research on drugs." Nucleic Acids Res 39(Database issue): D Koonin, E. V. (2003). "Comparative genomics, minimal gene-sets and the last universal common ancestor." Nat Rev Microbiol 1(2): Koonin, E. V. (2005). "Orthologs, paralogs, and evolutionary genomics." Annu Rev Genet 39: Koonin, E. V., Fedorova, N. D., et al. (2004). "A comprehensive evolutionary classification of proteins encoded in complete eukaryotic genomes." Genome Biol 5(2): R7. Kotpal, R. L. (2012). Modern Text Book of Zoology: Invertebrates. Meerut, Rastogi Publications Leite, N. R. (2007). "Estudos moleculares de duas triptofanil trna sintetases do parasita Leishmania major e de uma cisteíno protease da bactéria Xylella fastidiosa." Universidade de São Paulo, São Carlos. Li, L., Stoeckert, C. J., et al. (2003). "OrthoMCL: identification of ortholog groups for eukaryotic genomes." Genome Res 13(9): Li, Q. e Lai, L. (2007). "Prediction of potential drug targets based on simple sequence properties." BMC Bioinformatics 8: 353. Lindoso, J. A. L. e Lindoso, A. A. B. P. (2009). "Electronic Documenta Format (ABNT)." Neglected Tropical Diseases in Brazil 51(5). Liu, T., Lin, Y., et al. (2007). "BindingDB: a web-accessible database of experimentally determined protein-ligand binding affinities." Nucleic Acids Res 35(Database issue): D Magarinos, M. P., Carmona, S. J., et al. (2012). "TDR Targets: a chemogenomics resource for neglected diseases." Nucleic Acids Res 40(Database issue): D Mistry, J., Finn, R. D., et al. (2013). "Challenges in homology search: HMMER3 and convergent evolution of coiled-coil regions." Nucleic Acids Res 41(12): e

152 Molyneux, D. H., Hotez, P. J., et al. (2005). ""Rapid-impact interventions": how a policy of integrated control for Africa's neglected tropical diseases could benefit the poor." PLoS Med 2(11): e336. Monzote, L. (2009). "Current Treatment of Leishmaniasis: A Review." The Open Antimicrobial Agents Journal 1. Morel, C. M. (2010). Doenças Negligenciadas. Simpósio Regional da Academia Brasileira de Ciências, Rio de Janeiro, Academia Brasileira de Ciências. MS (2007). Manual de Vigilância da Leishmaniose Tegumentar Americana. M. d. Saúde. Brasilia. 2. MS (2010). "Guia de Vigilância Epidemiológica." Ministério da Saúde hagas.pdf MS (2010). Guia prático de tratamento da malária no Brasil. Brasília, Ministério da Saúde. NIH. (2013). "Model organisms for biomedical research." Retrieved 16 de abril, Noy, N. F., Shah, N. H., et al. (2009). "BioPortal: ontologies and integrated data resources at the click of a mouse." Nucleic Acids Res 37(Web Server issue): W Nwaka, S. e Hudson, A. (2006). "Innovative lead discovery strategies for tropical diseases." Nat Rev Drug Discov 5(11): OBO-Foundry. (2013). "NCBI Taxon." Retrieved 27 de abril, 2013, from OMS (2010). "Control of Leishmaniasis." WHO Technical Report Series (949): 185. Paolini, G. V., Shapland, R. H., et al. (2006). "Global mapping of pharmacological space." Nat Biotechnol 24(7): Pollastri, M. P. e Campbell, R. K. (2011). "Target repurposing for neglected diseases." Future Med Chem 3(10): Popov, B., Kiryakov, A., Ognyanoff, D. (2003). Towards Semantic Web Information Extraction. 2nd International Semantic Web Conference, Florida. Pruitt, K. D., Tatusova, T., et al. (2012). "NCBI Reference Sequences (RefSeq): current status, new features and genome annotation policy." Nucleic Acids Res 40(Database issue): D Pubmed. (2011). "National Library of Medicine." from 137

153 Punta, M., Coggill, P. C., et al. (2012). "The Pfam protein families database." Nucleic Acids Res 40(Database issue): D Rabie, O. e Norcio, A. (2013). "Discussion of some challenges concerning biomedical ontologies." Human-Computer Interaction. Applications and Services 8005(2013): 7. Riddle, D. L., Blumenthal, T., et al. (1997). What are Essential Genes?. Cold Spring Harbor, Cold Spring Harbor Laboratory Press. Rost, B. (2002). "Enzyme function less conserved than anticipated." J Mol Biol 318(2): Samwald, M., Jentzsch, A., et al. (2011). "Linked open drug data for pharmaceutical research and development." J Cheminform 3(1): 19. Seidenberg, J. e Rector, A. (2006). Web Ontology Segmentation: Analysis, Classification and Use. 15th international conference on World Wide Web, Edinburgh. Shadbolt, N., Hall, W., Berners-Lee, T. (2006). "The Semantic Web Revisited." IEEE Intel. Syst. 21(3): 6. Shah, N. H., Bhatia, N., et al. (2009). "Comparison of concept recognizers for building the Open Biomedical Annotator." BMC Bioinformatics 10 Suppl 9: S14. Simarro, P. P., Cecchi, G., et al. (2011). "Risk for human African trypanosomiasis, Central Africa, " Emerg Infect Dis 17(12): Simarro, P. P., Diarra, A., et al. (2011). "The human African trypanosomiasis control and surveillance programme of the World Health Organization : the way forward." PLoS Negl Trop Dis 5(2): e1007. Singh, S., Malik, B. K., et al. (2007). "Choke point analysis of metabolic pathways in E.histolytica: a computational approach for drug target identification." Bioinformation 2(2): Sioutos, N., De Coronado, S., et al. (2007). "NCI Thesaurus: a semantic model integrating cancer-related clinical and molecular information." J Biomed Inform 40(1): Smirlis, D., Duszenko, M., et al. (2010). "Targeting essential pathways in trypanosomatids gives insights into protozoan mechanisms of cell death." Parasit Vectors 3:

154 Smith, B., Ashburner, M., et al. (2007). "The OBO Foundry: coordinated evolution of ontologies to support biomedical data integration." Nat Biotechnol 25(11): Souza, W. e Rodrigues, J. C. (2009). "Sterol Biosynthesis Pathway as Target for Antitrypanosomatid Drugs." Interdisciplinary Perspectives on Infectious Diseases: 19. Sykes, M. L. e Avery, V. M. (2013). "Approaches to Protozoan Drug Discovery: Phenotypic Screening." J Med Chem. Tatusov, R. L., Fedorova, N. D., et al. (2003). "The COG database: an updated version includes eukaryotes." BMC Bioinformatics 4: 41. TDR. (2011). "Tropical Disease Research." from The Uniprot Consortium (2012). "Reorganizing the protein space at the Universal Protein Resource (UniProt)." Nucleic Acids Res 40(Database issue): D Tian, W. e Skolnick, J. (2003). "How well is enzyme function conserved as a function of pairwise sequence identity?" J Mol Biol 333(4): Ullu, E., Tschudi, C., et al. (2004). "RNA interference in protozoan parasites." Cell Microbiol 6(6): Urbaniak, M. D., Mathieson, T., et al. (2012). "Chemical proteomic analysis reveals the drugability of the kinome of Trypanosoma brucei." ACS Chem Biol 7(11): Verhelst, S. H. e Bogyo, M. (2005). "Chemical proteomics applied to target identification and drug discovery." Biotechniques 38(2): Villarreal, D., Nirde, P., et al. (2005). "Differential gene expression in benznidazoleresistant Trypanosoma cruzi parasites." Antimicrob Agents Chemother 49(7): W3C. (2004). "Resource Description Framework (RDF)." Retrieved 18 de abril, 2013, from W3C. (2012). "RDFa 1.1 Primer." Retrieved 24 de março, 2013, from WHO (2009). Neglected Tropical Diseases: an Overview. D. o. C. o. N. T. Diseases. Genebra, World Health Organization. WHO (2010). World Health Statistics. W. H. Organization. Genebra, World Heath Organization

155 WHO. (2013). "Chagas Disease." 2013, from WHO (2013). Malaria. Genebra, World Health Organization. 94. WHO (2013). Trypanosomiasis, Human African (sleeping sickness). Genebra, World Health Organization Wirth, D. F. (2002). "Biological revelations." Nature 419(6906): Ximenez, C., Moran, P., et al. (2011). "Novelties on amoebiasis: a neglected tropical disease." J Glob Infect Dis 3(2): Yamamoto, S., Asanuma, T., et al. (2004). "The molecule role ontology: an ontology for annotation of signal transduction pathway molecules in the scientific literature." Comp Funct Genomics 5(6-7): Zhao, J. C. (2010). "Publishing Chinese medicine knowledge as Linked Data on the Web." Chin Med 5(17). Zhu, F.Shi, Z., et al. (2012). "Therapeutic target database update 2012: a resource for facilitating target-oriented drug discovery." Nucleic Acids Res 40(Database issue): D

156 Apêndice A Descrição dos principais programas desenvolvidos Extração de dados da anotação semântica dos artigos Os programas listados a seguir podem ser executados em lote, visto o grande número de artigos anotados, bastando para isso passar como parâmetros o diretório no qual se encontram os arquivos a serem manipulados e o diretório onde os resultados serão gerados. Programa Descrição 1. buscatermos.rb Busca os termos anotados e os contabiliza. 2. buscablocos.rb Busca os trechos (ou blocos) da anotação realizada para cada termo. O trecho anotado é marcado pelo rótulo inicial span about. 3. idclasses.rb Busca no arquivo de blocos de anotação (programa 2), somente os identificadores das classes utilizadas para anotar cada termo. 4. nomeclasses.rb (nomeclassesmrole.rb, nomeclassesncbitaxon.rb, nomeclassesncithesaurus.rb) Busca a partir dos identificadores das classes (programa 3), os nomes das classes na ontologia. Logo, neste programa, o arquivo.owl ou.xml da ontologia precisa ser também carregado. O nome da classe é verificado na propriedade label de cada classe. Como cada identificador das ontologias possui a sua própria formação, foi necessário desenvolver um programa para cada ontologia. 5. cargadados.rb Faz a carga dos dados gerados em arquivos para o banco de dados. Foram geradas três tabelas no banco de dados, correspondentes às três ontologias. Contudo, como a definição de dados é a mesma para cada tabela, para este programa basta passar o nome da tabela como parâmetro. 141

157 Extração de dados da busca por sequências ortólogas para verificação da essencialidade Programa Descrição 6. filtranomeorgmodel.rb Para cada grupo ortólogo no arquivo de resultados da busca por sequências ortólogas em cada organismo modelo, são excluídas as ocorrências de grupos ortólogos entre somente protozoários, permanecendo grupos ortólogos entre protozoários e o organismo modelo. 7. essencial_cele.rb essencial_dmel.rb essencial_drer.rb essencial_ecol.rb essencial_mmus.rb 8. eprot_atha.rb eprot_cele.rb eprot_dmel.rb eprot_drer.rb eprot_ecol.rb eprot_mmus.rb eprot_scer.rb Faz o mapeamento do arquivo de genes essenciais de cada organismo modelo (C. elegans, D. melanogaster, D. rerio, E. coli e M. musculus) com seu respectivo artigo de anotação e descrições e obtém para cada identificador do gene essencial, o mapeamento para o identificador do banco de dados Ensembl. Para cada arquivo com os grupos de sequências ortólogas entre protozoários e organismos modelos, é verificada se a proteína do organismo modelo é essencial (utilizando os resultados dos programas 7). Se sim, para cada par proteína do organismo modelo e proteína no protozoário são adicionadas descrições a respeito de ambas através da integração com os dados dos arquivos de anotação de cada organismo. 9. cargadadosorgmodel.rb Faz a carga dos dados gerados em arquivos para o banco de dados. Foram geradas sete tabelas no banco de dados, correspondentes às ortologias com as sequências dos sete organismos modelo. Contudo, como a definição de dados é a mesma para cada tabela, para este programa são passados como parâmetros, o nome do arquivo com os dados e o nome da tabela. 142

158 Extração de dados da busca por sequências homólogas para verificação da drogabilidade Programa 10. protbindingdb.rb protdrugbank.rb protttd.rb 11. protbindingdbcob.rb protdrugbankcob.rb protttdcob.rb Descrição Para cada resultado da busca por homologia feita com o Blast (protozoários X BindingDB, protozoários X DrugBank e protozoários X TTD), cujos arquivos de saída foram gerados no formato tabular, estes programas inserem os tamanhos das sequências query e subject para posterior verificação se o tamanho da sequência em relação ao tamanho do alinhamento está bom. Para cada resultado obtido do programa 10, são inseridos novos dados que incluem a cobertura do alinhamento em relação ao tamanho das sequências query e subject. 12. protbindingdbanotacao.rb Para cada registo do arquivo gerado pelo programa protbindingdbcob.rb e posterior filtragem, este é cruzado com o arquivo de anotação dos protozoários e o arquivo de descrições do BindingDB. São inseridos aos registros os seguintes dados: identificador da proteína do protozoário, nome do protozoário, descrição da proteína do protozoário, identificador do BindingDB, descrição da proteína do BindingDB e possível mapeamentos para identificador de compostos e substâncias do PubChem. 13. protdrugbankanotacao.rb Para cada registro do arquivo gerado pelo programa protdrugbankcob.rb e posterior filtragem, este é cruzado com o arquivo de anotação dos protozoários e o arquivo de descrições do DrugBank. São inseridos aos registros os seguintes dados: identificador da proteína do protozoário, nome do protozoário, descrição da proteína do protozoário, identificador e descrição da proteína alvo do DrugBank, identificador do fármaco, tipo, grupo e nome do fármaco, identificador de compostos e substâncias do PubChem. 143

159 Programa Descrição 14. protttdanotacao.rb Para cada registro do arquivo gerado pelo programa protttdcob.rb e posterior filtragem, este é cruzado com o arquivo de anotação dos protozoários e do TTD e os arquivos de mapeamentos do TTD. São inseridos aos registros os seguintes dados: identificador da proteína do protozoário, nome do protozoário, descrição da proteína do protozoário, identificador da proteína alvo do TTD, dados como descrição do alvo, classe bioquímica, fármacos, antagonistas, agonistas e inibidor, identificador do fármaco relacionado do TTD, identificador de compostos do PubChem, identificador de substâncias do PubChem. 15. cargadadosbindindb.rb cargadadosdrugbank.rb cargadadosttd.rb Faz a carga dos dados gerados em arquivos pelos programas 12, 13 e 14 para o banco de dados. Foram geradas três tabelas no banco de dados, correspondentes às bases BindingDB, DrugBank e TTD com os seus atributos específicos. Cruzamento dos dados de essencialidade e drogabilidade Programa 16. intersecao_model_bindingdb.rb intersecao_model_drugbank.rb intersecao_model_ttd.rb 17. cargadados_model_bindingdb.rb cargadados_model_drugbank.rb cargadados_model_ttd.rb Descrição Para cada arquivo dos candidatos essenciais referentes aos sete organismos modelo, estes são cruzados com os arquivos dos candidados drogáveis referentes aos bancos BindingDB, DrugBank e TTD, nos quais são verificadas proteínas comuns entre os arquivos. Para cada execução é gerado um novo arquivo com os elementos comuns e englobando os dados de ambos os arquivos cruzados. No total foram executados 21 programas (sete organismos modelo X três bancos de dados). Faz a carga dos dados gerados em arquivos pelos programas citados em 16. Foram criadas 3 tabelas no banco de dados: todosmodelosbindingdb, todosmodelosdrugbank e todosmodelosttd. 144

160 Extração de dados da anotação semântica dos candidatos essenciais e drogáveis Para os arquivos gerados resultantes da anotação semântica dos candidatos essências e drogáveis, foram executados os programas 2 e 3 para a extração dos termos anotados. O programa 4 (nomeclasses.rb), foi alterado de modo a registrar os nomes dos organismos modelo ou banco de dados (BindingDB, DrugBank e TTD) ao invés da identificação dos artigos, gerando o novo programa nomeclasses_ed.rb. O programa 5 para a carga dos dados no banco de dados, recebeu a mesma alteração e foi gerado o novo programa cargadados_ed.rb. Foram criadas três tabelas no banco de dados equivalentes às anotações dos candidatos essenciais e drogáveis para cada ontologia. 145

161 Apêndice B Proteínas essenciais de organismos modelos ortólogas a todos os protozoários Tabela B.1: Proteínas essenciais de A. thaliana ortólogas a proteínas de todos os protozoários. ID proteína Descrição da proteína A. thaliana AT5G AT5G AT5G AT5G S proteasome regulatory subunit, putative (RPN5) Alanyl-tRNA synthetase, class IIc ARM repeat superfamily protein ATP binding;valine-trna ligases;aminoacyl-trna ligases;nucleotide binding;atp binding;aminoacyl-trna ligases AT5G ATPase family associated with various cellular activities (AAA) AT4G Cullin 1 AT5G AT5G AT5G AT5G AT5G AT4G DEAD box RNA helicase (RH3) Eeplication factor C1 Eukaryotic translation initiation factor 2 beta subunit HSP20-like chaperones superfamily protein Mannosyltransferase family protein Minichromosome maintenance (MCM2/3/5) family protein AT5G nucleotide binding protein 35 AT5G AT5G AT5G AT5G AT5G AT5G P-loop containing nucleoside triphosphate hydrolases superfamily protein P-loop containing nucleoside triphosphate hydrolases superfamily protein Protein-tyrosine phosphatase-like, PTPLA Ribosomal protein S6e RNA helicase family protein Small nuclear ribonucleoprotein family protein AT5G structural maintenance of chromosomes 2 AT4G AT5G AT4G AT5G Transducin/WD40 repeat-like superfamily protein Transducin/WD40 repeat-like superfamily protein Vacuolar ATP synthase subunit E1 Zinc knuckle (CCHC-type) family protein 146

162 Tabela B.2: Proteínas essenciais de C.elegans ortólogas a proteínas de todos os protozoários. ID proteína C.elegans Descrição da proteína F59E10.3 C13B9.3 F38A1.8 K12D12.1 W07E6.1 Y25C1A.5 F31E3.3 EEED8.5 F10C2.4 C36B1.3 F54H12.6 T26G10.1 F37A4.8 C50C3.6 Y49E10.15 C16A3.6 F18A1.5 F55A12.3 T06G6.9 C47B2.4 C01A2.5 C04G2.6 AP complex, mu/sigma subunit AP complex, mu/sigma subunit ArgK protein ATPase-like, ATP-binding domain Bacterial Fmu (Sun)/eukaryotic nucleolar NOL1/Nop2p Clathrin/coatomer adaptor, adaptin-like, N-terminal DNA helicase, Holliday junction RuvB type, N-terminal DNA/RNA helicase, DEAD/DEAH box type, N-terminal DNA-directed DNA polymerase, family B, exonuclease domain DNA-directed RNA polymerase, dimerisation Elongation factor 1 beta central acidic region, eukaryote Helicase, C-terminal Helicase/UvrB domain JAB1/Mov34/MPN/PAD-1 Like-Sm ribonucleoprotein (LSM) domain Mak16 protein Nucleic acid binding, OB-fold, trna/helicase-type Phosphatidylinositol-4-phosphate 5-kinase, core Prefoldin subunit Proteasome, subunit alpha/beta Protein of unknown function DUF602 Ribonuclease II/R C42D4.8 RNA polymerase Rpb1, domain 4 F26F4.11 C30B5.4 F46A9.4 RNA polymerase, Rpb8 RNA recognition motif domain SKP1 component, POZ M106.1 SMCs flexible hinge T08A11.2 Splicing factor 3B subunit 1 F55A11.2 ZK131.5 T23D8.6 K12C11.2 Target SNARE coiled-coil domain Transcription factor CBF/NF-Y/archaeal histone Transcription factor CBF/NF-Y/archaeal histone Ubiquitin F59G1.3 Vacuolar protein sorting-associated protein 35 F38E11.5 F49D11.1 F11A10.2 Y116A8C.32 WD40 repeat WD40 repeat Zinc finger, C2H2-type matrin Zinc finger, CCHC-type 147

163 Tabela B.3: Proteínas essenciais de D. melanogaster ortólogas a proteínas de todos os protozoários. ID proteína Descrição da proteína D. melanogaster FBpp FBpp S proteasome regulatory complex, non-atpase subcomplex, Rpn1 subunit 26S proteasome regulatory complex, non-atpase subcomplex, Rpn2/Psmd1 subunit FBpp FBpp FBpp FBpp FBpp FBpp FBpp FBpp FBpp FBpp FBpp FBpp FBpp FBpp FBpp FBpp FBpp FBpp FBpp FBpp FBpp FBpp FBpp ATPase, AAA+ type, core ATPase, AAA+ type, core GCN5-related N-acetyltransferase (GNAT) domain Helicase, C-terminal Helicase, C-terminal Histidyl-tRNA synthetase, class IIa Histone H2B Histone H3 Importin-beta, N-terminal ISC system FeS cluster assembly, IscU scaffold KOW Mov34/MPN/PAD-1 Mov34/MPN/PAD-1 Myristoyl-CoA:protein N-myristoyltransferase Peptidase T1A, proteasome beta-subunit Proteasome 26kD subunit [Source:FlyBase gene name;acc:fbgn ] Proteasome beta3 subunit [Source:FlyBase gene name;acc:fbgn ] Proteasome component (PCI) domain Proteasome component (PCI) domain Proteasome component (PCI) domain Proteasome, alpha-subunit, conserved site Proteasome, alpha-subunit, conserved site Proteasome, alpha-subunit, conserved site FBpp Protein phosphatase 5 FBpp FBpp FBpp FBpp FBpp FBpp FBpp FBpp FBpp Rab-GAP/TBC domain Ribosomal protein L11 Ribosomal protein L13, eukaryotic/archaeal Ribosomal protein L19 [Source:FlyBase gene name;acc:fbgn ] Ribosomal protein L21 [Source:FlyBase gene name;acc:fbgn ] Ribosomal protein L26/L24P, eukaryotic/archaeal Ribosomal protein L35A [Source:FlyBase gene name;acc:fbgn ] Ribosomal protein L36 [Source:FlyBase gene name;acc:fbgn ] Ribosomal protein L6 148

164 Tabela B.3: continuação ID proteína Descrição da proteína D. melanogaster FBpp Ribosomal protein L6 [Source:FlyBase gene name;acc:fbgn ] FBpp Ribosomal protein L7, eukaryotic FBpp Ribosomal protein L7Ae/L8/Nhp2 family FBpp Ribosomal protein LP2 [Source:FlyBase gene name;acc:fbgn ] FBpp Ribosomal protein S16 [Source:FlyBase gene name;acc:fbgn ] FBpp Ribosomal protein S19a [Source:FlyBase gene name;acc:fbgn ] FBpp Ribosomal protein S3A [Source:FlyBase gene name;acc:fbgn ] FBpp Ribosomal protein S4e FBpp Ribosomal protein S7 [Source:FlyBase gene name;acc:fbgn ] FBpp Ribosomal protein S8e FBpp RNA recognition motif domain FBpp Rpn12 [Source:FlyBase gene name;acc:fbgn ] FBpp Ubiquitin FBpp Ubiquitin FBpp Ubiquitin interacting motif FBpp WD40 repeat 149

165 Tabela B.4: Proteínas essenciais de D. rerio ortólogas a proteínas de todos os protozoários. ID proteína D. rerio Descrição da proteína ENSDARP ENSDARP ENSDARP ENSDARP ENSDARP ENSDARP ENSDARP ENSDARP ENSDARP ENSDARP ENSDARP ENSDARP ENSDARP ENSDARP ENSDARP ENSDARP ENSDARP ENSDARP ENSDARP ENSDARP ENSDARP ENSDARP ENSDARP '-3' exonuclease, C-terminal domain AAA+ ATPase domain AAA+ ATPase domain AAA+ ATPase domain AAA+ ATPase domain AP complex, mu/sigma subunit Armadillo-type fold Armadillo-type fold Armadillo-type fold ATPase, dynein-related, AAA domain ATPase, F0/V0 complex, subunit C ATPase, V0/A0 complex, subunit C/D ATPase, V1/A1 complex, subunit F Beta-lactamase-like BRCT domain Bystin Carbohydrate kinase, FGGY, C-terminal CDP-alcohol phosphatidyltransferase Chaperonin Cpn60/TCP-1 Chaperonin Cpn60/TCP-1 Chaperonin Cpn60/TCP-1 Chaperonin Cpn60/TCP-1 Digestive organ expansion factor, predicted ENSDARP DNA polymerase III, clamp loader complex, gamma/delta/delta subunit, C- terminal ENSDARP Exoribonuclease, phosphorolytic domain 2 ENSDARP ENSDARP ENSDARP ENSDARP ENSDARP ENSDARP ENSDARP ENSDARP ENSDARP ENSDARP Fibrillarin Glutaminyl-tRNA synthetase, class Ib Helicase, C-terminal Helicase, C-terminal Histone deacetylase Lysyl-tRNA synthetase, class II Mak16 protein NOP5, N-terminal NOSIC Nucleic acid-binding, OB-fold-like 150

166 Tabela B.4: continuação ID proteína D. rerio Descrição da proteína ENSDARP Nucleic acid-binding, OB-fold-like ENSDARP PHF5-like ENSDARP Pre-rRNA-processing protein TSR2 ENSDARP Proteasome, subunit alpha/beta ENSDARP Quinonprotein alcohol dehydrogenase-like ENSDARP Ribonuclease H-like domain ENSDARP Ribonucleoprotein LSM domain, eukaryotic/archaea-type ENSDARP Ribosomal protein 60S ENSDARP Ribosomal protein L11, C-terminal ENSDARP Ribosomal protein L13e ENSDARP Ribosomal protein L14 ENSDARP Ribosomal protein L19/L19e ENSDARP Ribosomal protein L29 ENSDARP Ribosomal protein L30, ferredoxin-like fold domain ENSDARP Ribosomal protein L36e ENSDARP Ribosomal protein L6, alpha-beta domain ENSDARP Ribosomal protein L6, N-terminal ENSDARP Ribosomal protein S12e ENSDARP Ribosomal protein S14 ENSDARP Ribosomal protein S17 ENSDARP Ribosomal protein S2 ENSDARP Ribosomal protein S3Ae ENSDARP Ribosomal protein S7e ENSDARP Ribosomal protein S8e/ribosomal biogenesis NSA2 ENSDARP RNA 3'-terminal phosphate cyclase/enolpyruvate transferase, alpha/beta ENSDARP RNA polymerase Rpb2, domain 3 ENSDARP RNA polymerase Rpc34 ENSDARP RNA recognition motif domain ENSDARP RNA recognition motif domain ENSDARP RNA recognition motif domain ENSDARP RNA recognition motif domain, eukaryote ENSDARP RNA-binding domain, S1 ENSDARP SecY subunit domain ENSDARP Seryl-tRNA synthetase, class IIa, N-terminal ENSDARP SKP1 component, POZ ENSDARP Small GTPase superfamily ENSDARP Snf7 151

167 Tabela B.4: continuação ID proteína D. rerio Descrição da proteína ENSDARP Splicing factor 3B subunit 5/RDS3 complex subunit 10 ENSDARP Thioredoxin-like fold ENSDARP Translation elongation factor EFTu/EF1A, domain 2 ENSDARP Tyrosine-protein kinase, catalytic domain ENSDARP Ubiquitin fusion degradation protein UFD1 ENSDARP WD40 repeat ENSDARP WD40 repeat ENSDARP WD40-repeat-containing domain ENSDARP WD40-repeat-containing domain ENSDARP WD40-repeat-containing domain ENSDARP WD40-repeat-containing domain ENSDARP Zinc finger, CCHC-type 152

168 Tabela B.5: Proteínas essenciais de E.coli ortólogas a proteínas de todos os protozoários. ID proteína E. coli EBESCP EBESCP EBESCP EBESCP EBESCP EBESCP EBESCP EBESCP EBESCP EBESCP EBESCP EBESCP EBESCP EBESCP EBESCP EBESCP EBESCP EBESCP EBESCP EBESCP EBESCP EBESCP EBESCP EBESCP EBESCP EBESCP EBESCP EBESCP EBESCP EBESCP EBESCP EBESCP EBESCP EBESCP EBESCP EBESCP EBESCP Descrição da proteína 3-oxoacyl-(acyl-carrier-protein) reductase A/G-specific adenine glycosylase MutY, bacterial form ABC transporter, lipid A export, MsbA Adenylate kinase, subfamily Alanyl-tRNA synthetase, class IIc APOBEC/CMP deaminase, zinc-binding Arginyl-tRNA synthetase, class Ic Asparaginyl-tRNA synthetase, class IIb Cell division transporter substrate-binding protein FtsY Chaperonin Cpn60 Cof protein Cysteine desulfurase Cysteinyl-tRNA synthetase, class Ia Dephospho-CoA kinase DNA polymerase III, subunit gamma/ tau DNA topoisomerase IV, subunit B, Gram-negative Glutaminyl-tRNA synthetase, class Ic Glutathione reductase, eukaryote/bacterial Guanylate kinase, sub-group Histidyl-tRNA synthetase, class IIa, subgroup Lysyl-tRNA synthetase, class II Methionyl-tRNA synthetase, class Ia, beta subunit, C-terminal Nucleoside diphosphate kinase Phenylalanyl-tRNA synthetase, class IIc, alpha subunit Polyprenyl synthetase-related Riboflavin kinase/fad synthetase Ribonuclease HII/HIII Ribosomal protein L23/L25, conserved site Ribosomal protein L6, bacterial-type Ribosomal protein S2, bacteria/mitochondria/plastid Ribosomal protein S5, bacterial-type S-adenosylmethionine synthetase Seryl-tRNA synthetase, class IIa Signal recognition particle, SRP Small GTP-binding protein Thioredoxin Thymidylate kinase 153

169 Tabela B.5: continuação ID proteína E. coli Descrição da proteína EBESCP trna delta(2)-isopentenylpyrophosphate transferase EBESCP Valyl-tRNA synthetase 154

170 Tabela B.6: Proteínas essenciais de M. musculus ortólogas a proteínas de todos os protozoários. ID proteína M.musculus Descrição da proteína ENSMUSP S proteasome subunit P45 ENSMUSP S proteasome subunit P45 ENSMUSP Actin-like ENSMUSP Armadillo-type fold ENSMUSP ATPase, P-type, K/Mg/Cd/Cu/Zn/Na/Ca/Na/H-transporter ENSMUSP ATPase, V0 complex, proteolipid subunit C, eukaryotic ENSMUSP ATPase, V0 complex, subunit D ENSMUSP ATPase, V0/A0 complex, 116kDa subunit ENSMUSP BRCT domain ENSMUSP Bystin ENSMUSP Casein kinase II, regulatory subunit ENSMUSP Chromo domain/shadow ENSMUSP Clathrin adaptor, mu subunit, C-terminal ENSMUSP Cullin homology ENSMUSP Cytidyltransferase-related ENSMUSP Diphthamide synthesis, DPH1/DHP2 ENSMUSP DNA helicase (DNA repair), Rad3 type ENSMUSP DNA helicase (DNA repair), Rad3 type ENSMUSP DNA ligase, ATP-dependent ENSMUSP DNA mismatch repair protein, MSH2 ENSMUSP DNA mismatch repair protein, N-terminal ENSMUSP DNA recombination/repair protein Rad51 ENSMUSP DNA repair protein (XPGC)/yeast Rad ENSMUSP DNA topoisomerase, type IA ENSMUSP DNA-directed DNA polymerase, family B, pol2 ENSMUSP Dynamin ENSMUSP E1-like protein-activating enzyme Gsa7p/Apg7p ENSMUSP Exodeoxyribonuclease III xth ENSMUSP Fibrillarin ENSMUSP Glycosyl transferase, family 1 ENSMUSP Glycosyl transferase, family 4 ENSMUSP Glycyl-tRNA synthetase, alpha2 dimer ENSMUSP GOLD ENSMUSP High mobility group, superfamily ENSMUSP Histone deacetylase superfamily ENSMUSP Importin-beta, N-terminal ENSMUSP JAB1/Mov34/MPN/PAD-1 155

171 Tabela B.6: continuação ID proteína Descrição da proteína M.musculus ENSMUSP K Homology domain, type 1 ENSMUSP Mago nashi protein ENSMUSP Manganese/iron superoxide dismutase ENSMUSP Mannose-6-phosphate isomerase, type I ENSMUSP Membrane protein,tapt1/cmv receptor ENSMUSP Mini-chromosome maintenance, DNA-dependent ATPase ENSMUSP Molybdenum cofactor biosynthesis, MoeB ENSMUSP Myristoyl-CoA:protein N-myristoyltransferase ENSMUSP Nascent polypeptide-associated complex NAC ENSMUSP NOSIC ENSMUSP NSF attachment protein ENSMUSP Nucleoside diphosphate kinase ENSMUSP Peptidase M1, membrane alanine aminopeptidase, N-terminal ENSMUSP Peptidase M24A, methionine aminopeptidase, subfamily 2 ENSMUSP Peptidyl-prolyl cis-trans isomerase, FKBP-type, domain ENSMUSP Peptidyl-tRNA hydrolase, PTH2 ENSMUSP Phosphatidyl serine synthase ENSMUSP Phosphoglucose isomerase (PGI) ENSMUSP Proliferating cell nuclear antigen, PCNA ENSMUSP Protein kinase, catalytic domain ENSMUSP Protein kinase, catalytic domain ENSMUSP Protein kinase, catalytic domain ENSMUSP Putative methylase ENSMUSP Pyruvate kinase ENSMUSP Replication factor-a protein 1 Rpa1 ENSMUSP Riboflavin kinase domain, bacterial/eukaryotic ENSMUSP Ribonucleoprotein LSM domain, eukaryotic/archaea-type ENSMUSP Ribosomal protein S1, RNA-binding domain ENSMUSP Ribosomal protein S2, eukaryotic/archaeal ENSMUSP Ribosome maturation protein SBDS ENSMUSP RNA helicase, DEAD-box type, Q motif ENSMUSP RNA polymerase Rpb2, domain 2 ENSMUSP RNA polymerase, N-terminal ENSMUSP RNA recognition motif domain ENSMUSP Serine/threonine-specific protein phosphatase/bis(5-nucleosyl)- tetraphosphatase 156

172 Tabela B.6: continuação ID proteína Descrição da proteína M.musculus ENSMUSP Small ribonucleoprotein associated, SmB/SmN ENSMUSP Snf7 ENSMUSP Target SNARE coiled-coil domain ENSMUSP TATA-box binding protein ENSMUSP Terpenoid cyclases/protein prenyltransferase alpha-alpha toroid ENSMUSP Thioredoxin/glutathione reductase selenoprotein ENSMUSP Transcription elongation factor, TFIIS ENSMUSP Transcription factor, CBFA/NFYB, DNA topoisomerase ENSMUSP Translation initiation factor IF2/IF5 ENSMUSP Translation release factor pelota-like ENSMUSP Translationally controlled tumour protein ENSMUSP Triosephosphate isomerase ENSMUSP trna transferase Trm5/Tyw2 ENSMUSP Ubiquitin-activating enzyme, E1 ENSMUSP Ubiquitin-conjugating enzyme, E2 ENSMUSP Ubiquitin-conjugating enzyme, E2 ENSMUSP UDP-galactose transporter ENSMUSP Uncharacterised domain CHP00451 ENSMUSP UV excision repair protein Rad23 ENSMUSP Vacuolar protein sorting-associated protein 26 ENSMUSP von Willebrand factor, type A ENSMUSP WD40-repeat-containing domain ENSMUSP WD40-repeat-containing domain ENSMUSP WD40-repeat-containing domain ENSMUSP WD40-repeat-containing domain ENSMUSP Xeroderma pigmentosum group B protein (XP-B) ENSMUSP Zinc finger, RING-type ENSMUSP Zinc finger, RING-type ENSMUSP Zinc finger, ZPR1-type 157

173 Tabela B.7: Proteínas essenciais de S. cerevisiae ortólogas a proteínas de todos os protozoários. ID proteína S. cerevisiae YPR082C YIR022W YCR012W YER171W YDL126C YFL039C YGL011C YML092C YOL038W YGR253C YMR314W YOR362C YDR212W YDL145C YFL022C YJR007W YJL031C YDR341C YLL018C YER168C YJL034W YGL048C YBR080C YHR169W YJL050W YOR204W YMR290C YPL209C YJL001W YOR157C YER094C YER012W YPR103W YBL041W YLR060W YPL237W YLR291C YPR176C YBR109C YDL008W YDL102W YNL102W YOR244W YLR026C YOR057W YLL050C Descrição da proteína 17-kDa component of the U4/U6aU5 tri-snrnp 18kDa catalytic subunit of the Signal Peptidase Complex (SPC; Spc1p, Spc2p, Spc3p, and Sec11p) 3-phosphoglycerate kinase 5' to 3' DNA helicase; involved in nucleotide excision repair and transcription AAA ATPase involved in multiple processes Actin Alpha 1 subunit of the 20S proteasome involved in the degradation of ubiquitinated substrates Alpha 2 subunit of the 20S proteasome Alpha 4 subunit of the 20S proteasome Alpha 5 subunit of the 20S proteasome involved in ubiquitin-dependent catabolism Alpha 6 subunit of the 20S proteasome; protein abundance increases in response to DNA replication stress Alpha 7 subunit of the 20S proteasome; protein abundance increases in response to DNA replication stress Alpha subunit of chaperonin-containing T-complex Alpha subunit of COPI vesicle coatomer complex Alpha subunit of cytoplasmic phenylalanyl-trna synthetase Alpha subunit of the translation initiation factor eif2 Alpha subunit of Type II geranylgeranyltransferase Arginyl-tRNA synthetase Aspartyl-tRNA synthetase, primarily cytoplasmic ATP (CTP):tRNA-specific trna nucleotidyltransferase ATPase involved in protein import into the ER ATPase of the 19S regulatory particle of the 26S proteasome ATPase required for vesicular transport between ER and Golgi ATPase, putative RNA helicase of the DEAD-box family ATP-dependent 3'-5' RNA helicase of the DExD/H family ATP-dependent DEAD (Asp-Glu-Ala-Asp)-box RNA helicase ATP-dependent RNA helicase; localizes to both the nuclear periphery and nucleolus Aurora kinase subunit of the conserved chromosomal passenger complex (CPC; Ipl1p- Sli15p-Bir1p-Nbl1p) Beta 1 subunit of the 20S proteasome Beta 2 subunit of the 20S proteasome Beta 3 subunit of the 20S proteasome involved in ubiquitin-dependent catabolism Beta 4 subunit of the 20S proteasome Beta 5 subunit of the 20S proteasome Beta 6 subunit of the 20S proteasome Beta subunit of cytoplasmic phenylalanyl-trna synthetase Beta subunit of the translation initiation factor eif2, involved in the identification of the start codon; proposed to be involved in mrna binding Beta subunit of the translation initiation factor eif2b, the guanine-nucleotide exchange factor for eif2 Beta subunit of Type II geranylgeranyltransferase required for vesicular transport between the endoplasmic reticulum and the Golgi Calmodulin Catalytic core subunit of the Anaphase-Promoting Complex/Cyclosome (APC/C) Catalytic subunit of DNA polymerase delta Catalytic subunit of the DNA polymerase I alpha-primase complex Catalytic subunit of the histone acetyltransferase complex (NuA4) that acetylates four conserved internal lysines of histone H4 N-terminal tail cis-golgi t-snare syntaxin required for vesicular transport between the ER and the Golgi complex, binds at least 9 SNARE proteins Cochaperone protein Cofilin, promotes actin filament depolarization in a ph-dependent manner 158

174 Tabela B.7: continuação ID proteína S. cerevisiae YDR267C YHR122W YIL143C YDR062W YGR103W YLR116W YLR005W YBR202W YLR274W YNL126W YIL109C YPR094W YHR148W YNL075W YML077W YDL084W YHR165C YML010W YBR070C YCR057C YLR340W YMR049C YOR272W YER029C YGR074W YLR275W YLR147C YOR159C YDL132W YCL017C YNL247W YOR335C YPR033C YBR011C YBL076C YOL097C YGR185C YHR019C YPL160W YDR023W YJL033W YLR276C YER013W YFR051C YHR068W YDL164C YPR183W YOR361C YMR146C YOL010W Descrição da proteína Component of cytosolic iron-sulfur protein assembly (CIA) machinery Component of cytosolic iron-sulfur protein assembly (CIA) machinery Component of RNA polymerase transcription factor TFIIH holoenzyme Component of serine palmitoyltransferase, responsible along with Lcb1p for the first committed step in sphingolipid synthesis, which is the condensation of serine with palmitoyl-coa to form 3-ketosphinganine Component of several different pre-ribosomal particles Component of the commitment complex Component of the core form of RNA polymerase transcription factor TFIIH Component of the heterohexameric MCM2-7 complex Component of the hexameric MCM complex Component of the microtubule-nucleating Tub4p (gamma-tubulin) complex Component of the Sec23p-Sec24p heterodimer of the COPII vesicle coat Component of the SF3b subcomplex of the U2 snrnp Component of the SSU processome Component of the SSU processome Component of the TRAPP (transport protein particle) complex Component of the TREX complex required for nuclear mrna export Component of the U4/U6-U5 snrnp complex Component of the universally conserved Spt4/5 complex (DSIF complex) Component of UDP-GlcNAc transferase required for the second step of dolichyl-linked oligosaccharide synthesis Conserved 90S pre-ribosomal component essential for proper endonucleolytic cleavage of the 35 S rrna precursor at A0, A1, and A2 sites Conserved ribosomal protein P0 of the ribosomal stalk Constituent of 66S pre-ribosomal particles Constituent of 66S pre-ribosomal particles Core Sm protein Sm B Core Sm protein Sm D1 Core Sm protein Sm D2 Core Sm protein Sm D3 Core Sm protein Sm E Cullin, structural protein of SCF complexes (which also contain Skp1p, Cdc34p, Hrt1p and an F-box protein) involved in ubiquitination Cysteine desulfurase involved in iron-sulfur cluster (Fe/S) biogenesis and in thiomodification of mitochondrial and cytoplasmic trnas Cysteinyl-tRNA synthetase Cytoplasmic and mitochondrial alanyl-trna synthetase, required for protein synthesis Cytoplasmic and mitochondrial histidine trna synthetase Cytoplasmic inorganic pyrophosphatase (PPase Cytoplasmic isoleucine-trna synthetase Cytoplasmic tryptophanyl-trna synthetase, aminoacylates tryptophanyl-trna Cytoplasmic tyrosyl-trna synthetase Cytosolic asparaginyl-trna synthetase Cytosolic leucyl trna synthetase, ligates leucine to the appropriate trna Cytosolic seryl-trna synthetase DEAD box RNA helicase DEAD-box protein required for 27S rrna processing DEAH-box RNA-dependent ATPase/ATP-dependent RNA helicase Delta subunit of the coatomer complex (COPI) Deoxyhypusine synthase DNA ligase found in the nucleus and mitochondria Dolichol phosphate mannose (Dol-P-Man) synthase of the ER membrane eif3b subunit of the core complex of translation initiation factor 3 (eif3) eif3i subunit of the core complex of translation initiation factor 3 (eif3) Endonuclease that cleaves pre-rrna at site A2 for 18S rrna biogenesis 159

175 Tabela B.7: continuação ID proteína Descrição da proteína S. cerevisiae YDL015C Enoyl reductase YDR331W ER membrane glycoprotein subunit of the glycosylphosphatidylinositol transamidase complex that adds glycosylphosphatidylinositol (GPI) anchors to newly synthesized proteins YMR281W ER membrane protein involved in the second step of glycosylphosphatidylinositol (GPI) anchor assembly, the de-n-acetylation of the N-acetylglucosaminylphosphatidylinositol intermediate YPL266W Essential 18S rrna dimethylase (dimethyladenosine transferase) YJL097W Essential 3-hydroxyacyl-CoA dehydratase of the ER membrane YNL112W Essential ATP-dependent RNA helicase of the DEAD-box protein family YGL137W Essential beta'-coat protein of the COPI coatomer YDR238C Essential beta-coat protein of the COPI coatomer, involved in ER-to-Golgi protein trafficking and maintenance of normal ER morphology YPR112C Essential conserved protein that is part of the 90S preribosome YLR197W Essential evolutionarily-conserved nucleolar protein component of the box C/D snornp complexes that direct 2'-O-methylation of pre-rrna during its maturation YPR019W Essential helicase component of heterohexameric MCM2-7 complexes which bind prereplication complexes on DNA and melt DNA prior to replication YGL091C Essential iron-sulfur cluster binding protein localized in the cytoplasm YDR091C Essential iron-sulfur protein required for ribosome biogenesis and translation initiation and termination YDL166C Essential NTPase required for small ribosome subunit synthesis YMR131C Essential nuclear protein involved in early steps of ribosome biogenesis YOR056C Essential nuclear protein involved in proteasome maturation and synthesis of 40S ribosomal subunits YAL025C Essential nuclear protein, constituent of 66S pre-ribosomal particles YGR145W Essential nucleolar protein YNR054C Essential nucleolar protein involved in pre-18s rrna processing YOR145C Essential nucleolar protein required for pre-18s rrna processing, interacts with Dim1p, an 18S rrna dimethyltransferase, and also with Nob1p YCL059C Essential nucleolar protein required for the synthesis of 18S rrna and for the assembly of 40S ribosomal subunit YLR022C Essential protein involved in ribosome maturation YKR081C Essential protein involved in the processing of pre-rrna and the assembly of the 60S ribosomal subunit; interacts with ribosomal protein L11 YLL011W Essential protein required for biogenesis of 40S (small) ribosomal subunit YOR281C Essential protein that interacts with the CCT (chaperonin containing TCP-1) complex to stimulate actin folding YLR009W Essential protein with similarity to Rpl24Ap and Rpl24Bp YGR211W Essential protein with two zinc fingers, present in the nucleus of growing cells but relocates to the cytoplasm in starved cells via a process mediated by Cpr1p YNL132W Essential protein, required for biogenesis of the small ribosomal subunit YPR107C Essential RNA-binding component of cleavage and polyadenylation factor YOR119C Essential serine kinase involved in cell cycle progression and processing of the 20S prerrna into mature 18S rrna YNL207W Essential serine kinase involved in the processing of the 20S pre-rrna into mature 18S rrna YMR213W Essential splicing factor YLR378C Essential subunit of Sec61 complex (Sec61p, Sbh1p, and Sss1p) YOR261C Essential, non-atpase regulatory subunit of the 26S proteasome YDL097C Essential, non-atpase regulatory subunit of the 26S proteasome lid YER021W Essential, non-atpase regulatory subunit of the 26S proteasome lid YPR108W Essential, non-atpase regulatory subunit of the 26S proteasome, similar to another S. cerevisiae regulatory subunit, Rpn5p, as well as to mammalian proteasome subunits YDR328C Evolutionarily conserved kinetochore protein 160

176 Tabela B.7: continuação ID proteína S. cerevisiae YOL021C YHR069C YOL142W YDR280W YGR195W YBR004C YNL287W YER025W YER136W YOR168W YKL104C YGL245W YBR196C YJR013W YKL173W YPL217C YPR181C YDR454C YBL040C YKR038C YDR189W YKR068C YGR172C YNL317W YNL189W YLR347C YER112W YDR037W YGR218W YJR072C YDR416W YLR117C YPL151C YFR004W YBR236C YLR186W YGR094W YLR195C YDR427W YER009W YER082C YHR088W YIL091C Descrição da proteína Exosome core complex catalytic subunit Exosome non-catalytic core component Exosome non-catalytic core component Exosome non-catalytic core component; involved in 3'-5' RNA processing and degradation in both the nucleus and the cytoplasm Exosome non-catalytic core component; involved in 3'-5' RNA processing and degradation in both the nucleus and the cytoplasm Functional ortholog of human PIG-V Gamma subunit of coatomer, a heptameric protein complex that together with Arf1p forms the COPI coat Gamma subunit of the translation initiation factor eif2 GDP dissociation inhibitor Glutamine trna synthetase, monomeric class I trna synthetase that catalyzes the specific glutaminylation of trna(glu Glutamine-fructose-6-phosphate amidotransferase Glutamyl-tRNA synthetase (GluRS) Glycolytic enzyme phosphoglucose isomerase Glycosylphosphatidylinositol-alpha 1,4 mannosyltransferase I GTPase component of U5 snrnp involved in mrna splicing via spliceosome; binds directly to U5 snrna GTPase required for synthesis of 40S ribosomal subunits and for processing the 35S prerrna at sites A0, A1, and A2 GTPase-activating protein, stimulates the GTPase activity of Sar1p Guanylate kinase, converts GMP to GDP HDEL receptor Highly conserved ATPase of HSP70/DnaK family Hydrophilic protein involved in vesicle trafficking between the ER and Golgi Hydrophilic protein that acts in conjunction with SNARE proteins in targeting and fusion of ER to Golgi transport vesicles Integral membrane protein required for the biogenesis of ER-derived COPII transport vesicles Integral subunit of the pre-mrna cleavage and polyadenylation factor (CPF) complex Karyopherin alpha homolog Karyopherin beta, forms a complex with Srp1p/Kap60p Lsm (Like Sm) protein Lysyl-tRNA synthetase Major karyopherin, involved in export of proteins Member of the conserved GPN-loop GTPase family Member of the NineTeen Complex (NTC) that contains Prp19p and stabilizes U6 snrna in catalytic forms of the spliceosome containing U2, U5, and U6 snrnas Member of the NineTeen Complex (NTC) that contains Prp19p and stabilizes U6 snrna in catalytic forms of the spliceosome containing U2, U5, and U6 snrnas Member of the NineTeen Complex (NTC) that contains Prp19p and stabilizes U6 snrna in catalytic forms of the spliceosome containing U2, U5, and U6 snrnas Metalloprotease subunit of the 19S regulatory particle of the 26S proteasome lid Methyltransferase Methyltransferase for rrna Mitochondrial and cytoplasmic valyl-trna synthetase N-myristoyl transferase Non-ATPase regulatory subunit of the 26S proteasome Nuclear envelope protein Nucleolar protein Nucleolar protein involved in the assembly and export of the large ribosomal subunit Nucleolar protein required for 35S pre-rna processing and 40S ribosomal subunit biogenesis 161

177 Tabela B.7: continuação ID proteína Descrição da proteína S. cerevisiae YPL211W Nucleolar protein required for 60S ribosome subunit biogenesis, constituent of 66S preribosomal particles YDL014W Nucleolar protein, component of the small subunit processome complex, which is required for processing of pre-18s rrna; has similarity to mammalian fibrillarin YOL077C Nucleolar protein, constituent of 66S pre-ribosomal particles YLR129W Nucleolar protein, specifically associated with the U3 snorna, part of the large ribonucleoprotein complex known as the small subunit (SSU) processome YDR246W One of 10 subunits of the transport protein particle (TRAPP) complex of the cis-golgi which mediates vesicle docking and fusion YDR472W One of 10 subunits of the transport protein particle (TRAPP) complex of the cis-golgi which mediates vesicle docking and fusion; involved in endoplasmic reticulum (ER) to Golgi membrane traffic YDR394W One of six ATPases of the 19S regulatory particle of the 26S proteasome involved in the degradation of ubiquitinated substrates YOR117W One of six ATPases of the 19S regulatory particle of the 26S proteasome involved in the degradation of ubiquitinated substrates YOR259C One of six ATPases of the 19S regulatory particle of the 26S proteasome involved in degradation of ubiquitinated substrates YDR531W Pantothenate kinase (ATP:D-pantothenate 4'-phosphotransferase, EC ) YBL050W Peripheral membrane protein required for vesicular transport between ER and Golgi YPR113W Phosphatidylinositol synthase, required for biosynthesis of phosphatidylinositol YDR208W Phosphatidylinositol-4-phosphate 5-kinase YFL045C Phosphomannomutase YER165W Poly(A) binding protein, part of the 3'-end RNA-processing complex, mediates interactions between the 5' cap structure and the 3' mrna poly(a) tail YKR002W Poly(A) polymerase, one of three factors required for mrna 3'-end polyadenylation YDR196C Probable dephospho-coa kinase (DPCK) that catalyzes the last step in coenzyme A biosynthesis YNL061W Probable RNA m(5)c methyltransferase, essential for processing and maturation of 27S pre-rrna and large ribosomal subunit biogenesis; localized to the nucleolus YBR088C Proliferating cell nuclear antigen (PCNA) YHR020W Prolyl-tRNA synthetase YPL020C Protease that specifically cleaves Smt3p protein conjugates YBR247C Protein associated with U3 and U14 snornas YGL123W Protein component of the small (40S) subunit YCL043C Protein disulfide isomerase YBL023C Protein involved in DNA replication YEL032W Protein involved in DNA replication YGL201C Protein involved in DNA replication YNR046W Protein involved in methylation of trna, rrna, and translation factors YHR170W Protein involved in nuclear export of the large ribosomal subunit YOR310C Protein involved in pre-rrna processing, 18S rrna synthesis, and snorna synthesis YPR137W Protein involved in pre-rrna processing, associated with U3 snrnp; component of small ribosomal subunit (SSU) processosome YHR065C Protein involved in rrna processing YPL076W Protein involved in the synthesis of N-acetylglucosaminyl phosphatidylinositol (GlcNAc-PI) YPL204W Protein kinase involved in regulating diverse events including vesicular trafficking, DNA repair, and chromosome segregation YPL153C Protein kinase, required for cell-cycle arrest in response to DNA damage YOR262W Protein of unknown function required for establishment of sister chromatid cohesion YMR240C Protein required for assembly of U2 snrnp into the spliceosome YLR196W Protein with WD-40 repeats involved in rrna processing YLR175W Pseudouridine synthase catalytic subunit of box H/ACA small nucleolar ribonucleoprotein particles (snornps) 162

178 Tabela B.7: continuação ID proteína S. cerevisiae YIL048W YLR277C YGL099W YPL093W YNR053C YDR339C YLR243W YAL038W YFL038C YDR002W YDR236C YOL127W YPL131W YOL133W YMR229C YBR237W YPR010C YDL140C YOR151C YOL005C YDR404C YIL021W YDR045C YKL144C YOR210W YOR224C YPR187W YBR154C YER172C YDR292C YPR088C YGL169W YLR163C YDR164C YGR278W YGR091W YLR208W YGR048W YDR390C YKL088W YJR006W YIR008C YKL045W YBR087W YJR068W YNL290W YOL094C YOR217W Descrição da proteína Putative aminophospholipid translocase (flippase) Putative endoribonuclease Putative GTPase involved in 60S ribosomal subunit biogenesis Putative GTPase that associates with free 60S ribosomal subunits in the nucleolus and is required for 60S ribosomal subunit biogenesis Putative GTPase that associates with pre-60s ribosomal subunits in the nucleolus and is required for their nuclear export and maturation Putative PINc domain nuclease required for early cleavages of 35S pre-rrna and maturation of 18S rrna Putative protein of unknown function Pyruvate kinase Rab family GTPase Ran GTPase binding protein Riboflavin kinase, produces riboflavin monophosphate (FMN) Ribosomal 60S subunit protein L25 Ribosomal 60S subunit protein L5 RING finger containing subunit of Skp1-Cullin-F-box ubiquitin protein ligases (SCF) RNA binding protein with preference for single stranded tracts of U's involved in synthesis of both 18S and 5.8S rrnas RNA helicase in the DEAD-box family RNA polymerase I second largest subunit A135 RNA polymerase II largest subunit B220, part of central core RNA polymerase II second largest subunit B150, part of central core RNA polymerase II subunit B12.5; part of central core RNA polymerase II subunit B16 RNA polymerase II third largest subunit B44, part of central core RNA polymerase III subunit C11 RNA polymerase III subunit C25, required for transcription initiation; forms a heterodimer with Rpc17p; paralog of Rpb7p RNA polymerase subunit ABC10-beta, common to RNA polymerases I, II, and III RNA polymerase subunit ABC14.5, common to RNA polymerases I, II, and III RNA polymerase subunit ABC23 RNA polymerase subunit ABC27 RNA-dependent ATPase RNA helicase (DEIH box) Signal recognition particle (SRP) receptor alpha subunit Signal recognition particle (SRP) subunit (homolog of mammalian SRP54) Single-stranded telomeric DNA-binding protein Smaller subunit of the mitochondrial processing protease (MPP) Sm-like protein involved in docking and fusion of exocytic vesicles Spliceosome-associated protein that is required for pre-mrna splicing Splicing factor Structural component of 3 distinct complexes; subunit of Nup84 nuclear pore subcomplex (NPC), COPII vesicle coat, and Seh1-associated (SEA) complex Substrate-recruiting cofactor of the Cdc48p-Npl4p-Ufd1p segregase Subunit of a heterodimeric nuclear SUMO activating enzyme (E1) with Aos1p Subunit of a phosphopantothenoylcysteine decarboxylase (PPCDC; Cab3p, Sis2p, Vhs3p) complex Subunit of DNA polymerase delta (polymerase III) Subunit of DNA primase Subunit of DNA primase Subunit of heteropentameric Replication factor C (RF-C) Subunit of heteropentameric Replication factor C (RF-C) Subunit of heteropentameric Replication factor C (RF-C) Subunit of heteropentameric Replication factor C (RF-C) Subunit of heteropentameric Replication factor C (RF-C) 163

179 Tabela B.7: continuação ID proteína S. cerevisiae YAR007C YFR052W YIL075C YBR234C YFR031C YDL147W YDR188W YJL008C YJL014W YJL111W YDL143W YJR064W YGL207W YJL074C YGL022W YDR086C YDL043C YJL125C YJL035C YLR316C YLR409C YDL064W YER148W YLR259C YIL078W YJR057W YNL088W YAL003W YNL244C YMR260C YDR172W YDR050C YHR070W YER133W YNL007C YMR288W YOR319W YKL210W YDR054C YDR510W YPL175W Descrição da proteína Subunit of heterotrimeric Replication Protein A (RPA) Subunit of the 19S regulatory particle of the 26S proteasome lid Subunit of the 26S proteasome; substrate of the N-acetyltransferase Nat1p Subunit of the ARP2/3 complex Subunit of the condensin complex Subunit of the COP9 signalosome (CSN) and non-atpase regulatory subunit of the 26S proteasome lid, similar to mammalian p55 subunit and to another S. cerevisiae regulatory subunit, Rpn7p; Rpn5p is an essential protein Subunit of the cytosolic chaperonin Cct ring complex Subunit of the cytosolic chaperonin Cct ring complex Subunit of the cytosolic chaperonin Cct ring complex Subunit of the cytosolic chaperonin Cct ring complex Subunit of the cytosolic chaperonin Cct ring complex, related to Tcp1p Subunit of the cytosolic chaperonin Cct ring complex, related to Tcp1p Subunit of the heterodimeric FACT complex (Spt16p-Pob3p) Subunit of the multiprotein cohesin complex required for sister chromatid cohesion in mitotic cells Subunit of the oligosaccharyltransferase complex of the ER lumen Subunit of the Sec61p translocation complex (Sec61p-Sss1p-Sbh1p) Subunit of the SF3a splicing factor complex Subunit of trna (1-methyladenosine) methyltransferase Subunit of trna-specific adenosine-34 deaminase Subunit of trna-specific adenosine-34 deaminase Subunit of U3-containing 90S preribosome and Small Subunit (SSU) processome complexes involved in production of 18S rrna and assembly of small ribosomal subunit SUMO-conjugating enzyme involved in the Smt3p conjugation pathway; nuclear protein required for S- and M-phase cyclin degradation and mitotic control TATA-binding protein Tetradecameric mitochondrial chaperonin required for ATP-dependent folding of precursor polypeptides and complex assembly Threonyl-tRNA synthetase Thymidylate and uridylate kinase, functions in de novo biosynthesis of pyrimidine deoxyribonucleotides; converts dtmp to dtdp and dump to dutp Topoisomerase II, relieves torsional strain in DNA by cleaving and re-sealing the phosphodiester backbone of both positively and negatively supercoiled DNA Translation elongation fac tor 1 beta Translation initiation factor eif1 Translation initiation factor eif1a Translation termination factor erf3, has a role in mrna deadenylation and decay Triose phosphate isomerase, abundant glycolytic enzyme trna(m(1)g37)methyltransferase Type 1 serine/threonine protein phosphatase catalytic subunit Type II HSP40 co-chaperone that interacts with the HSP70 protein Ssa1p U2-snRNP associated splicing factor that forms extensive associations with the branch site-3' splice site-3' exon region upon prespliceosome formation U2-snRNP associated splicing factor with similarity to the mammalian splicing factor SAP49 Ubiquitin activating enzyme (E1) Ubiquitin-conjugating enzyme (E2) Ubiquitin-like protein of the SUMO family, conjugated to lysine residues of target proteins UDP-GlcNAc-binding and catalytic subunit of the enzyme that mediates the first step in glycosylphosphatidylinositol (GPI) biosynthesis, mutations cause defects in transcription and in biogenesis of cell wall proteins 164

180 Tabela B.7: continuação ID proteína Descrição da proteína S. cerevisiae YDL103C UDP-N-acetylglucosamine pyrophosphorylase YBR243C UDP-N-acetyl-glucosamine-1-P transferase YKL196C Vesicle membrane protein (v-snare) with acyltransferase activity YCR072C WD-repeat protein involved in ribosome biogenesis YPL010W Zeta subunit of the coatomer complex (COPI) 165

181 Apêndice C Exemplos de proteínas de protozoários homólogas às proteínas dos bancos BindingDB, DrugBank e TTD BindingDB Tabela C.1: Candidatos drogáveis para E. histolytica. ID proteína Descrição da proteína Descrição da proteína do BindingDB de E.histolytica de E.histolytica XP_ actin beta-actin XP_ V-type ATPase, B subunit Vacuolar ATP synthase subunit B, kidney isoform AAA heat shock protein 70, hsp70a2 heat shock 70kDa protein 8 isoform 2 XP_ elongation factor 1-alpha 1 Elongation factor 1-alpha 1 AAF cdc48-like protein Transitional endoplasmic reticulum ATPase XP_ cell division cycle protein 48 Transitional endoplasmic reticulum ATPase XP_ kda heat shock protein BiP isoform A XP_ elongation factor 2 Elongation factor 2 BAE Glucosephosphate isomerase Glucose-6-phosphate isomerase XP_ threonyl-trna synthetase Threonyl-tRNA synthetase XP_ isoleucyl-trna synthetase Isoleucyl-tRNA synthetase Tabela C.2: Candidatos drogáveis para L.major. ID proteína de L.major Descrição da proteína de L.major Descrição da proteína do BindingDB XP_ beta tubulin Tubulin beta chain XP_ farnesyl pyrophosphate synthase Farnesyl pyrophosphate synthase XP_ fructose-1,6-bisphosphate aldolase Fructose-1,6-bisphospate aldolase XP_ trypanothione reductase Trypanothione reductase XP_ pyruvate kinase Pyruvate kinase XP_ glyceraldehyde 3-phosphate dehydrogenase, glycosomal Glyceraldehyde-3-phosphate dehydrogenase, glycosomal XP_ vacuolar-type proton translocating pyrophosphatase 1 Vacuolar-type proton translocating pyrophosphatase 1 XP_ lanosterol 14-alpha-demethylase Sterol 14-alpha demethylase 166

182 Tabela C.2: continuação ID proteína de L.major Descrição da proteína de L.major Descrição da proteína do BindingDB XP_ heat-shock protein hsp70 Heat shock 70 kda protein XP_ Transitional endoplasmic reticulum ATPase; valosin-containing protein Transitional endoplasmic reticulum ATPase homolog XP_ phosphogluconate dehydrogenase, decarboxylating 6-phosphogluconate dehydrogenase, decarboxylating, putative XP_ S-adenosylhomocysteine hydrolase Adenosylhomocysteinase XP_ phospho-1-fructokinase 6-phospho-1-fructokinase XP_ hexokinase Hexokinase XP_ heat shock protein 70-related protein Heat shock cognate 71 kda protein XP_ glucose-6-phosphate dehydrogenase Glucose-6-phosphate 1- dehydrogenase XP_ glucose-regulated protein 78 Heat shock cognate 71 kda protein XP_ heat shock protein 83-1 heat shock protein 90 XP_ c-1-tetrahydrofolate synthase, cytoplasmic Methylenetetrahydrofolate dehydrogenase XP_ glucose-6-phosphate isomerase Glucose-6-phosphate isomerase XP_ succinate dehydrogenase flavoprotein Succinate dehydrogenase [ubiquinone] flavoprotein subunit, mitochondrial XP_ ribonucleoside-diphosphate reductase Ribonucleoside-diphosphate large chain reductase M1 XP_ methionine synthase Methionine synthase XP_ DNA polymerase delta catalytic subunit DNA polymerase delta subunit 1 XP_ acetyl-coa synthetase Acetyl-coenzyme A synthetase 167

183 Tabela C.3: Candidatos drogáveis para P.falciparum. ID proteína Descrição da proteína Descrição da proteína do BindingDB de P.falciparum de P.falciparum XP_ farnesyltransferase beta subunit, putative Protein farnesyltransferase beta subunit XP_ thioredoxin reductase Thioredoxin reductase 2 XP_ heat shock 70 kda protein Heat shock 70 kda protein XP_ deoxyuridine 5'-triphosphate dutp pyrophosphatase nucleotidohydrolase, putative XP_ myosin A tail domain interacting protein MTIP XP_ dihydropteroate synthetase Dihydropteroate synthetase XP_ fructose-bisphosphate aldolase Aldolase XP_ tubulin beta chain, putative Tubulin beta-5 chain XP_ histone H3 Histone H3 XP_ calmodulin Calmodulin XP_ alpha tubulin Tubulin XP_ serine/threonine protein phosphatase Serine/threonine protein phosphatase PP1-gamma catalytic subunit Tabela C.4: Candidatos drogáveis para T.brucei. ID proteína Descrição da proteína Descrição da proteína do BindingDB de T.brucei de T.brucei XP_ ornithine decarboxylase Ornithine decarboxylase XP_ fructose-bisphosphate aldolase glycosomal Fructose-bisphosphate aldoloase, glycosomal XP_ cysteine peptidase precursor Rhodesain XP_ trypanothione reductase Trypanothione Reductase (TryR) XP_ adenosine transporter 2 Nucleoside transporter 2 XP_ alpha tubulin Tubulin XP_ glyceraldehyde 3-phosphate dehydrogenase, glycosomal Glyceraldehyde-3-phosphate dehydrogenase, glycosomal XP_ elongation factor 1-alpha Elongation factor 1-alpha 1 XP_ heat shock protein 70 heat shock 70kDa protein 8 isoform 2 XP_ dihydrofolate reductase-thymidylate synthase Bifunctional dihydrofolate reductasethymidylate synthase XP_ valosin-containing protein homolog Transitional endoplasmic reticulum ATPase XP_ gamma-tubulin Tubulin gamma-1 chain XP_ glucose-regulated protein 78 Heat shock cognate 71 kda protein 168

184 Tabela C.4: continuação ID proteína Descrição da proteína Descrição da proteína do BindingDB de T.brucei de T.brucei XP_ elongation factor 2 Elongation factor 2 XP_ ribonucleoside-diphosphate Ribonucleoside-diphosphate reductase M1 reductase large chain XP_ succinate dehydrogenase flavoprotein Succinate dehydrogenase [ubiquinone] flavoprotein subunit, mitochondrial XP_ glucose-6-phosphate isomerase, Glucose-6-phosphate isomerase glycosomal XP_ isoleucyl-trna synthetase Isoleucyl-tRNA synthetase XP_ DNA polymerase delta catalytic DNA polymerase delta subunit 1 subunit XP_ acetyl-coa synthetase Acetyl-coenzyme A synthetase Tabela C.5: Candidatos drogáveis para T. cruzi. ID proteína Descrição da proteína Descrição da proteína do BindingDB de T.cruzi de T.cruzi XP_ fructose-bisphosphate aldolase, Fructose-bisphosphate aldoloase, glycosomal glycosomal XP_ vacuolar-type proton translocating pyrophosphatase 1 Vacuolar-type proton translocating pyrophosphatase 1 XP_ phosphogluconate dehydrogenase, decarboxylating 6-phosphogluconate dehydrogenase, decarboxylating, putative XP_ heat shock protein 70 (HSP70) heat shock 70kDa protein 8 isoform 2 XP_ phospho-1-fructokinase 6-phospho-1-fructokinase XP_ pyruvate kinase 2 Pyruvate kinase XP_ vacuolar ATP synthase subunit B V-type proton ATPase subunit B, brain isoform XP_ transitional endoplasmic reticulum ATPase Transitional endoplasmic reticulum ATPase 169

185 Tabela C.6: Proteínas de L.major que possuem correspondências iguais no Bindingdb. ID proteína de L. major Descrição da proteína de L. major Descrição da proteína do BindingDB XP_ dihydrofolate reductase-thymidylate synthase Dihydrofolate reductase XP_ farnesyltransferase Farnesyltransferase, putative XP_ N-myristoyl transferase Glycylpeptide N- tetradecanoyltransferase Tabela C.7: Proteínas de P.falciparum que possuem correspondências iguais no Bindingdb. ID proteína Descrição da proteína Descrição da proteína do BindingDB de P.falciparum de P.falciparum XP_ falcipain-3 Cysteine protease falcipain-3 XP_ methionine aminopeptidase, putative Methionine aminopeptidase (MetAP1) XP_ plasmepsin IV Plasmepsin IV XP_ HAP protein HAP protein (Putative aspartic proteinase) XP_ methionine aminopeptidase, type II, Methionine aminopeptidase (MetAP2) putative XP_ hexose transporter, PfHT1 Hexose transporter 1 XP_ oxoacyl-(acyl carrier protein) Beta-ketoacyl-ACP-synthase III synthase III, putative XP_ histone deacetylase Histone Deacetylase (pfhdac-1) XP_ L-lactate dehydrogenase Lactate Dehydrogenase XP_ chloroquine resistance transporter Chloroquine resistance transporter Tabela C.8: Proteínas de T. brucei que possuem correspondências iguais no Bindingdb. ID proteína Descrição da proteína Descrição da proteína do BindingDB de T.brucei de T.brucei XP_ UDP-galactose 4-epimerase UDP-galactose 4-epimerase XP_ glucose-6-phosphate 1- Glucose-6-phosphate 1-dehydrogenase dehydrogenase XP_ vacuolar-type proton translocating pyrophosphatase 1 Vacuolar-type proton translocating pyrophosphatase 1 XP_ farnesyl pyrophosphate synthase Farnesyl Diphosphate Synthase (FPPS) XP_ hexokinase hexokinase XP_ lanosterol 14-alpha-demethylase Sterol 14-alpha demethylase 170

186 Tabela C.9: Exemplos de proteínas de T.cruzi que possuem correspondências iguais no Bindingdb. ID proteína Descrição da proteína Descrição da proteína do BindingDB de T.cruzi de T.cruzi XP_ farnesyl synthetase Farnesyl synthetase, putative XP_ dihydrofolate reductase-thymidylate synthase Bifunctional dihydrofolate reductasethymidylate synthase XP_ lanosterol 14-alpha-demethylase Cytochrome P450 51(CYP51) XP_ cysteine peptidase Cruzipain XP_ farnesyl pyrophosphate synthase Farnesyl diphosphate synthase XP_ farnesyltransferase Farnesyltransferase, putative XP_ trypanothione reductase Trypanothione Reductase (TryR) XP_ hexokinase Hexokinase XP_ hypothetical protein Cyclic nucleotide specific phosphodiesterase XP_ trans-sialidase Trans-sialidase 171

187 DrugBank Tabela C.10: Candidatos drogáveis para E. histolytica. ID proteína de E.histolytica Descrição da proteína de ID proteína do DrugBank Descrição da proteína do DrugBank Qtd. fármacos E.histolytica XP_ actin 3822 Actin, alpha skeletal 14 muscle XP_ V-type ATPase, B 6315 V-type proton ATPase 2 subunit subunit B, brain isoform AAA heat shock protein 6277 Heat shock cognate , hsp70a2 kda protein XP_ V-type ATPase, A 6057 V-type proton ATPase 5 subunit catalytic subunit A XP_ heat shock protein 1939 Heat shock protein HSP alpha AAA heat shock protein kda glucose-regulated 1 70, hsp70a2 protein XP_ elongation factor 6790 Elongation factor BAE Glucosephosphate 2206 Glucose-6-phosphate 8 isomerase isomerase XP_ adenosylhomocys 3070 Adenosylhomocysteinase 4 teinase XP_ threonyl-trna 261 Threonyl-tRNA 1 synthetase synthetase, cytoplasmic XP_ isoleucyl-trna 546 Isoleucyl-tRNA 1 synthetase synthetase, cytoplasmic XP_ heat shock protein 5642 Chaperone clpb 1 CAA pyruvate 4562 Pyruvate-ferredoxin 3 oxidoreductase oxidoreductase AAA pyruvate phosphate dikinase 3450 Pyruvate, phosphate dikinase 1 172

188 Tabela C.11: Candidatos drogáveis para L. major. ID proteína de L.major Descrição da proteína de L.major ID proteína do DrugBank Descrição da proteína do DrugBank Qtd. fármacos XP_ beta tubulin 2499 Tubulin beta-2c chain 4 XP_ heat-shock protein 6277 Heat shock cognate 71 2 hsp70 kda protein XP_ S Adenosylhomocysteinase 4 adenosylhomocysteine hydrolase XP_ actin a 3822 Actin, alpha skeletal 14 muscle XP_ ATPase beta subunit 6343 ATP synthase subunit 5 beta, mitochondrial XP_ ATP-dependent 4288 Probable ATP-dependent 1 DEAD-box RNA helicase RNA helicase DDX6 XP_ vacuolar ATP synthase 6057 V-type proton ATPase 5 catalytic subunit a catalytic subunit A XP_ isocitrate 2305 Isocitrate dehydrogenase 2 dehydrogenase [NADP] cytoplasmic XP_ heat shock protein Heat shock protein HSP beta XP_ glucose-regulated protein kda glucoseregulated protein 1 Tabela C.12: Candidatos drogáveis para P. falciparum. ID proteína Descrição da proteína ID proteína Descrição da proteína Qtd. de P.falciparum de P.falciparum do DrugBank do DrugBank fármacos XP_ tubulin beta chain, 161 Tubulin beta chain 7 putative XP_ serine/threonine protein 2639 Serine/threonineprotein 4 phosphatase phosphatase PP1-gamma catalytic subunit XP_ alpha tubulin 2601 Tubulin alpha-2 chain 2 XP_ actin I 3822 Actin, alpha skeletal muscle

189 Tabela C.12: continuação ID proteína Descrição da proteína ID proteína Descrição da proteína Qtd. de P.falciparum de P.falciparum do DrugBank do DrugBank fármacos XP_ ATP synthase beta chain, 6343 ATP synthase subunit 5 mitochondrial precursor, putative beta, mitochondrial XP_ vacuolar ATP synthase 6315 V-type proton ATPase 2 subunit b subunit B, brain isoform XP_ ATP-dependent RNA 4288 Probable ATPdependent 1 Helicase, putative RNA helicase DDX6 XP_ heat shock protein Heat shock protein 45 HSP 90-alpha XP_ Heat shock protein kda glucoseregulated 1 (HSP70) homologue protein XP_ tubulin gamma chain 6212 Tubulin gamma-1 1 chain XP_ ribonucleosidediphosphate 360 Ribonucleosidediphosphate 5 reductase, large subunit reductase large subunit XP_ S ribosomal protein S ribosomal protein 3 L3, putative L3 XP_ isocitrate dehydrogenase 2305 Isocitrate 2 (NADP), mitochondrial precursor dehydrogenase [NADP] cytoplasmic XP_ elongation factor Elongation factor 2 4 XP_ flavoprotein subunit of 197 Succinate 4 succinate dehydrogenase dehydrogenase [ubiquinone] flavoprotein subunit, mitochondrial XP_ histone deacetylase 4122 Histone deacetylase 2 2 XP_ vacuolar ATP synthase, catalytic subunit a 6057 V-type proton ATPase catalytic subunit A 5 174

190 Tabela C.13: Candidatos drogáveis de T. brucei. ID proteína de T.brucei Descrição da proteína de T.brucei ID proteína do Descrição da proteína do DrugBank Qtd. fármacos DrugBank XP_ UDP-galactose UDP-galactose 4-epimerase 2 epimerase XP_ alpha tubulin 2601 Tubulin alpha-2 chain 2 XP_ serine/threonine protein 2639 Serine/threonine-protein 4 phosphatase catalytic subunit phosphatase PP1-gamma catalytic subunit XP_ heat shock protein Heat shock 70 kda protein 1 1 XP_ S Adenosylhomocysteinase 4 adenosylhomocysteine hydrolase XP_ actin A 3822 Actin, alpha skeletal muscle 14 XP_ NADH-ubiquinone 539 NADH dehydrogenase 1 oxidoreductase, mitochondrial [ubiquinone] flavoprotein 1, mitochondrial XP_ ATP-dependent 4288 Probable ATP-dependent 1 DEAD-box RNA helicase RNA helicase DDX6 XP_ gamma-tubulin 6212 Tubulin gamma-1 chain 1 XP_ V-type ATPase, A 6057 V-type proton ATPase 5 subunit catalytic subunit A XP_ ATP synthase beta 6343 ATP synthase subunit beta, 5 chain, mitochondrial precursor mitochondrial XP_ glucose-regulated kda glucose-regulated 1 protein 78 protein XP_ isocitrate 2305 Isocitrate dehydrogenase 2 dehydrogenase [NADP] cytoplasmic XP_ ornithine 449 Ornithine decarboxylase 6 decarboxylase XP_ heat shock protein Heat shock protein HSP alpha XP_ heat shock 70 kda 6277 Heat shock cognate 71 kda 2 protein protein XP_ elongation factor Elongation factor

191 Tabela C.14: Candidatos drogáveis para T. cruzi. ID proteína Descrição da proteína ID proteína Descrição da proteína do Qtd. de T.cruzi de T.cruzi do DrugBank DrugBank fármacos XP_ glyceraldehyde Glyceraldehyde-3-phosphate 3 phosphate dehydrogenase, cytosolic dehydrogenase A XP_ heat shock protein Heat shock cognate 71 kda 2 (HSP70) protein XP_ vacuolar ATP synthase 6315 V-type proton ATPase 2 subunit B subunit B, brain isoform XP_ isocitrate dehydrogenase 2305 Isocitrate dehydrogenase 2 [NADP] cytoplasmic XP_ heat shock protein Heat shock protein HSP beta XP_ UDP-galactose UDP-galactose 4-epimerase 2 epimerase XP_ C-1-tetrahydrofolate 679 C-1-tetrahydrofolate 3 synthase, cytoplasmic synthase, cytoplasmic XP_ glucose-6-phosphate 2206 Glucose-6-phosphate 8 isomerase, glycosomal isomerase XP_ ribonucleosidediphosphate 360 Ribonucleoside-diphosphate 5 reductase large chain reductase large subunit XP_ prolyl-trna synthetase 210 Bifunctional aminoacyl-trna 5 synthetase [Includes: Glutamyl-tRNA synthetase XP_ pyruvate phosphate 3450 Pyruvate, phosphate dikinase 1 dikinase XP_ ATP-dependent Clp 5642 Chaperone clpb 1 protease subunit, heat shock protein 78 XP_ inosine-5'- 796 Inosine-5'-monophosphate 7 monophosphate dehydrogenase dehydrogenase 2 XP_ electron transfer flavoprotein-ubiquinone oxidoreductase 6389 Electron transfer flavoprotein-ubiquinone oxidoreductase, mitochondrial 1 176

192 TTD Therapeutic Target Database Tabela C.15: Candidatos drogáveis para E. histolytica. ID proteína de E.histolytica Descrição da proteína de E.histolytica ID proteína do TTD Descrição da proteína do TTD XP_ heat shock protein70, hsp70a2 TTDS kDa molecular chaperone HSP73 XP_ V-type ATPase, A subunit TTDS00427 Vacuolar ATP synthase catalytic subunit A XP_ beta-tubulin TTDS00389 Tubulin beta-2 chain XP_ histone deacetylase TTDS00095 Histone deacetylase 1 Tabela C.16: Candidatos drogáveis para L. major. ID proteína de L. major Descrição da proteína de L. major ID proteína do TTD Descrição da proteína do TTD XP_ beta tubulin TTDS00389 Tubulin beta-2 chain XP_ heat-shock protein hsp70 TTDS kDa molecular chaperone HSP73 XP_ vacuolar ATP synthase catalytic subunit a TTDS00427 Vacuolar ATP synthase catalytic subunit A XP_ methylmalonyl-coenzyme a TTDS00482 Methylmalonyl-CoA mutase mutase XP_ dihydrofolate reductasethymidylate TTDS00301 Thymidylate synthase synthase XP_ ribonucleoside-diphosphate reductase small chain TTDS00421 Ribonucleoside-diphosphate reductase subunit M2 XP_ inosine-5'-monophosphate dehydrogenase TTDS00063 Inosine-5'-monophosphate dehydrogenase 2 XP_ DNA topoisomerase IB, large subunit TTDS00079 DNA topoisomerase I 177

193 Tabela C.17: Candidatos drogáveis para L. major. ID proteína de P. falciparum Descrição da proteína de P. falciparum ID proteína do TTD Descrição da proteína do TTD XP_ heat shock protein 90, putative TTDS00274 Heat shock protein 90 XP_ dihydroorotate dehydrogenase, mitochondrial precursor TTDS00059 Dihydroorotate dehydrogenase, mitochondrial XP_ inosine-5'-monophosphate dehydrogenase TTDS00062 Inosine-5'-monophosphate dehydrogenase XP_ enoyl-acyl carrier reductase TTDS00235 Enoyl-ACP reductase XP_ glutamate dehydrogenase, putative TTDS00058 Glutamate dehydrogenase XP_ S-adenosylmethionine TTDS00313 Ornithine decarboxylase decarboxylase-ornithine decarboxylase XP_ tubulin beta chain, putative TTDS00308 Tubulin beta XP_ heat shock 70 kda protein TTDS kDa molecular chaperone HSP73 XP_ histone deacetylase TTDS00095 Histone deacetylase 1 XP_ vacuolar ATP synthase, catalytic subunit a TTDS00427 Vacuolar ATP synthase catalytic subunit A XP_ ribonucleotide reductase small subunit TTDS00421 Ribonucleoside-diphosphate reductase subunit M2 Tabela C.18: Candidatos drogáveis para T. brucei. ID proteína Descrição da proteína de T. ID proteína do Descrição da proteína do TTD de T. brucei brucei TTD XP_ DNA topoisomerase II TTDS00080 DNA topoisomerase II XP_ heat shock protein 70 TTDS kDa molecular chaperone HSP73 XP_ V-type ATPase, A subunit TTDS00427 Vacuolar ATP synthase catalytic subunit A XP_ ribonucleoside-diphosphate reductase small chain TTDS00421 Ribonucleoside-diphosphate reductase subunit M2 XP_ dihydrofolate reductasethymidylate TTDS00301 Thymidylate synthase synthase XP_ inosine-5'-monophosphate dehydrogenase TTDS00063 Inosine-5'-monophosphate dehydrogenase 2 178

194 Tabela C.19: Candidatos drogáveis para T. cruzi. ID proteína Descrição da proteína de T. ID proteína do Descrição da proteína do TTD de T. cruzi cruzi TTD XP_ heat shock protein 70 (HSP70) TTDS kDa molecular chaperone HSP73 XP_ ribonucleoside-diphosphate reductase small chain TTDS00421 Ribonucleoside-diphosphate reductase subunit M2 XP_ dihydrofolate reductasethymidylate TTDS00301 Thymidylate synthase synthase XP_ inosine-5'-monophosphate dehydrogenase TTDS00063 Inosine-5'-monophosphate dehydrogenase 2 XP_ aldehyde dehydrogenase TTDS00054 Succinate semialdehyde dehydrogenase, mitochondrial 179

195 Apêndice D Cruzamento dos candidatos essenciais X candidatos drogáveis Cruzamento das proteínas de protozoários ortólogas às proteínas essenciais dos organismos modelos com as proteínas de protozoários homólogas às proteínas dos bancos BindingDB Protozoários-A. thaliana-bindingdb Tabela D.1: Candidatos essenciais e drogáveis considerando E. histolytica-a. thaliana-bindingdb. Id ptn. prot. Id ptn. org. modelo Descrição pnt. modelo Descrição pnt. BindingDB XP_ AT5G DEAD box RNA helicase (RH3) ATP-dependent RNA helicase DDX18 XP_ AT5G Transducin/WD40 repeat-like superfamily protein WD repeat-containing protein 5 XP_ AT5G P-loop containing nucleoside triphosphate hydrolases superfamily protein Thymidylate kinase Tabela D.2: Candidatos essenciais e drogáveis considerando L. major-a. thaliana-bindingdb. Id ptn. prot. Id ptn. org. Descrição pnt. modelo Descrição pnt. BindingDB modelo XP_ AT5G P-loop containing nucleoside Thymidylate kinase triphosphate hydrolases superfamily protein XP_ AT5G sterol methyltransferase 1 Pyruvate dehydrogenase E1 component beta subunit XP_ AT5G Transketolase family protein 24-sterol C-methyltransferase 180

196 Tabela D.3: Candidatos essenciais e drogáveis considerando P. falciparum-a. thaliana-bindingdb. Id ptn. prot. Id ptn. org. Descrição pnt. modelo Descrição pnt. BindingDB modelo XP_ AT5G ATP binding;valine-trna Valyl-tRNA synthetase 2 ligases; aminoacyl-trna ligases;nucleotide binding;atp binding;aminoacyl-trna ligases XP_ AT5G sterol methyltransferase 1 24-sterol C- methyltransferase XP_ AT5G Alanyl-tRNA synthetase, class IIc Alanyl-tRNA synthetase Tabela D.4: Candidatos essenciais e drogáveis considerando T. brucei-a. thaliana-bindingdb. Id ptn. prot. Id ptn. org. modelo Descrição pnt. modelo Descrição pnt. BindingDB XP_ AT5G sterol methyltransferase 1 24-sterol C- methyltransferase XP_ AT5G ATPase family associated with various cellular activities (AAA) ATP-dependent clamp loaders gp44/62 (R175L) XP_ AT5G ATP binding;valine-trna ligases;aminoacyl-trna ligases; nucleotide binding;atp binding;aminoacyl-trna ligases Isoleucyl-tRNA synthetase Tabela D.5: Candidatos essenciais e drogáveis considerando T. cruzi-a. thaliana-bindingdb. Id ptn. prot. Id ptn. org. modelo Descrição pnt. modelo Descrição pnt. BindingDB XP_ AT5G DEAD box RNA helicase (RH3) ATP-dependent RNA helicase DDX3X XP_ AT5G ATP binding;valine-trna ligases; trna synthetase (IleRS) aminoacyl-trna ligases;nucleotide binding;atp binding;aminoacyltrna ligases XP_ AT5G ATPase family associated with various cellular activities (AAA) ATP-dependent clamp loaders gp44/62 181

197 Protozoários-C. elegans-bindingdb Tabela D.6 : Candidatos essenciais e drogáveis considerando E. histolytica-c. elegans-bindingdb. Id ptn. prot. Id ptn. org. Descrição pnt. modelo Descrição pnt. BindingDB modelo XP_ F18A1.5 Nucleic acid binding, OB-fold, trna/helicase-type Replication protein A 70 kda DNA-binding subunit XP_ F49D11.1 WD40 repeat WD repeat-containing protein 5 XP_ T23D8.6 Transcription factor CBF/NF- Y/archaeal histone histone (type H IIas) Tabela D.7: Candidatos essenciais e drogáveis considerando L. major-c. elegans-bindingdb. Id ptn. prot. Id ptn. org. modelo Descrição pnt. modelo XP_ K12D12.1 ATPase-like, ATP-binding domain XP_ F55A12.3 Phosphatidylinositol-4- phosphate 5-kinase, core XP_ C42C1.5 Bacterial transferase hexapeptide repeat Descrição pnt. BindingDB DNA topoisomerase II beta Phosphatidylinositol-4- phosphate 5-kinase type-1 gamma Tabela D.8: Candidatos essenciais e drogáveis considerando P. falciparum-c. elegans-bindingdb. Id ptn. prot. Id ptn. org. Descrição pnt. modelo Descrição pnt. BindingDB modelo XP_ F10C2.4 DNA-directed DNA polymerase, family B, exonuclease domain Human herpesvirus 6 DNA polymerase XP_ F31E3.3 DNA helicase, Holliday junction RuvB type, N-terminal DNA polymerase III subunit gamma XP_ C47B2.4 Proteasome, subunit alpha/beta Proteasome Macropain subunit PRE2 182

198 Tabela D.9: Candidatos essenciais e drogáveis considerando T. brucei-c. elegans-bindingdb. Id ptn. prot. Id ptn. org. Descrição pnt. modelo Descrição pnt. BindingDB modelo XP_ K12D12.1 ATPase-like, ATP-binding DNA topoisomerase II beta domain XP_ F18A1.5 Nucleic acid binding, OB-fold, trna/helicase-type Replication protein A 70 kda DNA-binding subunit XP_ T26G10.1 Helicase, C-terminal ATP-dependent RNA helicase DDX18 Tabela D.10: Candidatos essenciais e drogáveis considerando T. cruzi-c. elegans-bindingdb. Id ptn. prot. Id ptn. org. Descrição pnt. modelo Descrição pnt. BindingDB modelo XP_ F10C2.4 DNA-directed DNA polymerase, family B, exonuclease domain Human herpesvirus 6 DNA polymerase XP_ F49D11.1 WD40 repeat WD repeat-containing protein 5 XP_ F08F8.2 Hydroxymethylglutaryl-CoA reductase, class I/II HMG-CoA Reductase Protozoários-D. melanogaster-bindingdb Tabela D.11: Candidatos essenciais e drogáveis considerando E. histolytica-d. melanogaster- BindingDB. Id ptn. prot. Id ptn. org. modelo Descrição pnt. modelo Descrição pnt. BindingDB XP_ FBpp Peptidase T1A, proteasome beta-subunit Proteasome Macropain XP_ FBpp DNA recombination/repair protein RecA/RadB, ATP-binding domain subunit PRE2 RAD51 XP_ FBpp Phosphatidylinositol 3-/4-kinase, catalytic PI3-kinase p110-alpha subunit 183

199 Tabela D.12: Candidatos essenciais e drogáveis considerando L. major-d. melanogaster-bindingdb. Id ptn. prot. Id ptn. org. modelo Descrição pnt. modelo XP_ FBpp Ubiquitin-conjugating enzyme, E2 XP_ FBpp Peptidase T1A, proteasome beta-subunit XP_ FBpp Myristoyl-CoA:protein N- myristoyltransferase Descrição pnt. BindingDB Ubiquitin-conjugating enzyme E2 variant 1 Proteasome subunit beta type-8 Glycylpeptide N- tetradecanoyltransferase Tabela D.13: Candidatos essenciais e drogáveis considerando T. brucei-d. melanogaster-bindingdb. Id ptn. prot. Id ptn. org. Descrição pnt. modelo Descrição pnt. BindingDB modelo XP_ FBpp Protein phosphatase 5 PPP5C protein XP_ FBpp Proteasome, alpha-subunit, conserved site Proteasome Macropain subunit MB1 XP_ FBpp Ribosomal protein L19 RPL19A Tabela D.14: Candidatos essenciais e drogáveis considerando T. brucei-d. melanogaster-bindingdb. Id ptn. prot. Id ptn. org. Descrição pnt. modelo Descrição pnt. BindingDB modelo XP_ FBpp Ubiquitin-conjugating enzyme, E2 Ubiquitin-conjugating enzyme E2 variant 2 XP_ FBpp ATPase, AAA+ type, core Export Pump, ABCC2 XP_ FBpp Protein phosphatase 5 Serine/threonine protein phosphatase PP1-gamma catalytic subunit Tabela D.15: Candidatos essenciais e drogáveis considerando T. cruzi-d. melanogaster-bindingdb. Id ptn. prot. Id ptn. org. Descrição pnt. modelo Descrição pnt. BindingDB modelo XP_ FBpp Proteasome, alpha-subunit, conserved site Proteasome Macropain subunit MB1 XP_ FBpp Phosphatidylinositol 3-/4- kinase, catalytic Phosphoinositide 3-Kinase (PI3K), beta Chain A XP_ FBpp Helicase, C-terminal ATP-dependent RNA helicase DDX18 184

200 Protozoários-D. rerio-bindingdb Tabela D.16: Candidatos essenciais e drogáveis considerando E. histolytica-d. rerio-bindingdb. Descrição pnt. BindingDB Heat Shock 70kDa Protein 1 Aurora Kinase A (Aurora-A) Replication protein A 70 kda DNA-binding subunit Tabela D.17: Candidatos essenciais e drogáveis considerando L. major-d. rerio-bindingdb. Id ptn. prot. Id ptn. org. Descrição pnt. Descrição pnt. modelo modelo BindingDB XP_ ENSDARP0000 Thymidylate synthase/dcmp Dihydrofolate reductase hydroxymethylase domain XP_ ENSDARP0000 Serine-threonine/tyrosine-protein Wee1-like protein kinase kinase catalytic domain 2 XP_ ENSDARP0000 Polyadenylate-binding ELAV-like protein protein/hyperplastic disc protein Tabela D.18: Candidatos essenciais e drogáveis considerando P. falciparum-d. rerio-bindingdb. Id ptn. prot. Id ptn. org. modelo Descrição pnt. modelo XP_ ENSDARP Ferritin/ribonucleotide reductase-like XP_ ENSDARP CDP-alcohol phosphatidyltransferase XP_ ENSDARP Chaperonin Cpn60/TCP-1 Id ptn. prot. Id ptn. org. modelo Descrição pnt. modelo XP_ ENSDARP Carbohydrate kinase, FGGY, C-terminal XP_ ENSDARP Tyrosine-protein kinase, catalytic domain XP_ ENSDARP Nucleic acid-binding, OBfold-like Descrição pnt. BindingDB Ribonucleosidediphosphate reductase M2 chain Phosphatidylinositol synthase Heat shock protein HSP

201 Tabela D.19: Candidatos essenciais e drogáveis considerando T. brucei-d. rerio-bindingdb. Id ptn. prot. Id ptn. modelo Descrição pnt. modelo XP_ ENSDARP Glutaminyl-tRNA synthetase, class Ib XP_ ENSDARP Alanine racemase/group IV decarboxylase, C-terminal XP_ ENSDARP Seryl-tRNA synthetase, class IIa, N-terminal Descrição pnt. BindingDB trna synthetase (GluRS) Ornithine decarboxylase Seryl-tRNA synthetase Tabela D.20: Candidatos essenciais e drogáveis considerando T. cruzi-d. rerio-bindingdb. Id ptn. prot. Id ptn. modelo Descrição pnt. modelo XP_ ENSDARP CDP-alcohol phosphatidyltransferase XP_ ENSDARP ATPase, F0/V0 complex, subunit C XP_ ENSDARP '-3' exonuclease, C- terminal domain Descrição pnt. BindingDB Phosphatidylinositol synthase Vma11p Flap endonuclease 1 Protozoários-E. coli-bindingdb Tabela D.21: Candidatos essenciais e drogáveis considerando E. histolytica-e. coli-bindingdb. Id ptn. prot. Id ptn. modelo Descrição pnt. modelo Descrição pnt. BindingDB AAA EBESCP ABC transporter, lipid A P-glycoprotein 1 export, MsbA XP_ EBESCP Valyl-tRNA synthetase trna synthetase (IleRS) XP_ EBESCP oxoacyl-(acyl-carrierprotein) reductase L-xylulose reductase 186

202 Tabela D.22: Candidatos essenciais e drogáveis considerando L. major-e. coli-bindingdb. Id ptn. prot. Id ptn. modelo Descrição pnt. modelo Descrição pnt. BindingDB XP_ EBESCP ABC transporter, lipid A P-glycoprotein 1 export, MsbA XP_ EBESCP Peptidyl-prolyl cis-trans Cyclophilin B isomerase, cyclophilin-type XP_ EBESCP Thymidylate synthase Dihydrofolate reductase Tabela D.23: Candidatos essenciais e drogáveis considerando P. falciparum-e. coli-bindingdb. Id ptn. prot. Id ptn. modelo Descrição pnt. modelo Descrição pnt. BindingDB XP_ EBESCP Glutathione reductase, eukaryote/bacterial Thioredoxin reductase 2, mitochondrial XP_ EBESCP Tetrapyrrole biosynthesis, Porphobilinogen synthase porphobilinogen synthase XP_ EBESCP Ribosomal protein L13 50S ribosomal protein L13 Tabela D.24: Candidatos essenciais e drogáveis considerando T. brucei-e. coli-bindingdb. Id ptn. prot. Id ptn. modelo Descrição pnt. modelo XP_ EBESCP Translation elongation factor EFG/EF2 XP_ EBESCP oxoacyl-(acyl-carrierprotein) reductase XP_ EBESCP ABC transporter, lipid A export, MsbA Descrição pnt. BindingDB Elongation factor 2 Pteridine reductase, putative Bile Salt Export Pump, BSEP Tabela D.25: Candidatos essenciais e drogáveis considerando T. cruzi-e. coli-bindingdb. Id ptn. prot. Id ptn. modelo Descrição pnt. Descrição pnt. BindingDB modelo XP_ EBESCP oxoglutarate dehydrogenase, E1 Alpha-ketoglutarate dehydrogenase component XP_ EBESCP Acetyl-CoA carboxylase, Biotin Carboxylase biotin carboxylase XP_ EBESCP Chaperonin Cpn60 Heat shock protein HSP

203 Protozoários-M. musculus-bindingdb Tabela D.26: Candidatos essenciais e drogáveis considerando E. histolytica-m. musculus- BindingDB. Id ptn. prot. Id ptn. modelo Descrição pnt. modelo BAC ENSMUSP Terpenoid cyclases/protein prenyltransferase alphaalpha toroid XP_ ENSMUSP Peptidyl-prolyl cis-trans isomerase, FKBP-type, domain XP_ ENSMUSP Protein kinase, catalytic domain Descrição pnt. BindingDB Protein Farnesyltransferase (PFT) Chain B FK506 binding protein 4 Rho-kinase (ROCK I) Tabela D.27: Candidatos essenciais e drogáveis considerando L. major-m.musculus-bindingdb. Id ptn. prot. Id ptn. modelo Descrição pnt. modelo Descrição pnt. BindingDB XP_ ENSMUSP Protein kinase, catalytic Cyclin-dependent kinase 3 domain XP_ ENSMUSP Cytochrome P450 Sterol 14-alpha demethylase XP_ ENSMUSP Peptidase C1A, papain C- terminal Cathepsin B-Like Cysteine Protease (TbcatB) Tabela D.28: Candidatos essenciais e drogáveis considerando P. falciparum-m. musculus- BindingDB. Id ptn. prot. Id ptn. modelo Descrição pnt. modelo XP_ ENSMUSP Dihydrolipoamide dehydrogenase XP_ ENSMUSP Serine/threonine-specific protein phosphatase/bis(5- nucleosyl)- tetraphosphatase Descrição pnt. BindingDB Glutathione oxidoreductase (GR) PPP5C protein XP_ ENSMUSP Ornithine aminotransferase Gamma-amino-N-butyrate transaminase 188

204 Tabela D.29: Candidatos essenciais e drogáveis considerando T. brucei-m. musculus-bindingdb. Id ptn. prot. Id ptn. modelo Descrição pnt. modelo XP_ ENSMUSP Acyltransferase ChoActase/COT/CPT XP_ ENSMUSP Peptidase M1, membrane alanine aminopeptidase, N- terminal XP_ ENSMUSP Pyridoxal phosphatedependent transferase, major domain Descrição pnt. BindingDB Carnitine palmitoyltransferase 1A Cystinyl aminopeptidase Serine palmitoyltransferase 1 Tabela D.30: Candidatos essenciais e drogáveis considerando T. cruzi-m. musculus-bindingdb. Id ptn. prot. Id ptn. modelo Descrição pnt. modelo XP_ ENSMUSP Acyltransferase ChoActase/COT/CPT XP_ ENSMUSP Ergosterol biosynthesis ERG4/ERG24 XP_ ENSMUSP Glycyl-tRNA synthetase, alpha2 dimer Descrição pnt. BindingDB Choline acetylase C-14 sterol reductase trna synthetase (GlyRS) Protozoários-S. cerevisiae-bindingdb Tabela D.31: Candidatos essenciais e drogáveis considerando E. histolytica-s. cerevisiae-bindingdb. Id ptn. prot. Id ptn. modelo Descrição pnt. modelo Descrição pnt. BindingDB BAE YBR196C Glycolytic enzyme phosphoglucose isomerase Glucose-6-phosphate isomerase XP_ YJR065C Essential component of the Arp2/3 beta-actin complex, which is a highly conserved actin nucleation center XP_ YPL153C Protein kinase CaM kinase I gamma 189

205 Tabela D.32: Candidatos essenciais e drogáveis considerando L. major-s. cerevisiae-bindingdb. Id ptn. prot. Id ptn. modelo Descrição pnt. modelo XP_ YDR050C Triose phosphate isomerase, abundant glycolytic enzyme XP_ YBR160W Catalytic subunit of the main cell cycle cyclin-dependent kinase (CDK XP_ YDL055C GDP-mannose pyrophosphorylase (mannose-1-phosphate guanyltransferase) Descrição pnt. BindingDB Triosephosphate isomerase, glycosomal Cyclin-dependent kinase 2 (CDK2) Bifunctional protein GlmU Tabela D.33: Candidatos essenciais e drogáveis considerando P. falciparum-s. cerevisiae- BindingDB. Id ptn. prot. Id ptn. modelo Descrição pnt. modelo XP_ YPL204W Protein kinase involved in regulating diverse Descrição pnt. BindingDB camp-dependent Protein Kinase (PKA) XP_ YLR195C N-myristoyl transferase Glycylpeptide N- XP_ YBR109C Calmodulin Troponin C tetradecanoyltransferase Tabela D.34: Candidatos essenciais e drogáveis considerando T. brucei-s. cerevisiae-bindingdb. Id ptn. prot. Id ptn. modelo Descrição pnt. modelo Descrição pnt. BindingDB XP_ YDR331W ER membrane glycoprotein subunit of the glycosylphosphatidylinositol transamidase Asparaginyl Endopeptidase (AE) complex XP_ YJR065C Essential component of the Arp2/3 complex, Actin-related protein 2 which is a highly conserved actin nucleation XP_ YML092C Alpha 2 subunit of the 20S proteasome Proteasome Macropain subunit MB1 Tabela D.35: Candidatos essenciais e drogáveis considerando T. cruzi-s. cerevisiae-bindingdb. Id ptn. prot. Id ptn. Descrição pnt. Descrição pnt. BindingDB modelo modelo XP_ YPL204W Protein kinase Aurora Kinase A (Aurora-A) XP_ YLL018C Aspartyl-tRNA synthetase Lysyl-tRNA synthetase XP_ YDR267C Component of cytosolic iron-sulfur protein assembly (CIA) machinery U4/U6 small nuclear ribonucleoprotein Prp4 190

206 Cruzamento das proteínas de protozoários ortólogas às proteínas essenciais dos organismos modelos com as proteínas de protozoários homólogas às proteínas dos bancos DrugBank Protozoários-A. thaliana-drugbank Tabela D.36: Candidatos essenciais e drogáveis considerando E. hsitolytica-a. thaliana-drugbank. Id ptn. prot. Id ptn. modelo Descrição pnt. modelo XP_ AT5G Transducin/WD40 repeat-like superfamily protein XP_ AT5G ATP binding;valine-trna ligases; aminoacyl-trna ligases;nucleotide binding; ATP binding;aminoacyl-trna ligases XP_ AT5G P-loop containing nucleoside triphosphate hydrolases superfamily protein Id ptn. Descrição pnt. DrugBank DrugBank 6572 Guanine nucleotidebinding protein G(I)/G(S)/G(T) subunit beta Valyl-tRNA synthetase 2254 Thymidylate kinase Tabela D.37: Candidatos essenciais e drogáveis considerando L. major-a. thaliana-drugbank. Id ptn. prot. Id ptn. modelo Descrição pnt. modelo XP_ AT5G P-loop containing nucleoside triphosphate hydrolases superfamily protein XP_ AT5G Transketolase family protein XP_ AT5G ATP binding; valine-trna ligases; aminoacyl-trna ligases; nucleotide binding; ATP binding; aminoacyl-trna ligases Id ptn. Descrição pnt. DrugBank DrugBank 2251 Thymidylate kinase 110 Pyruvate dehydrogenase E1 component subunit beta, mitochondrial 2509 Isoleucyl-tRNA synthetase 191

207 Tabela D.38: Candidatos essenciais e drogáveis considerando P. falciparum-a. thaliana-drugbank. Id ptn. prot. Id ptn. modelo Descrição pnt. modelo XP_ AT5G Transketolase family protein XP_ AT5G Alanyl-tRNA synthetase, class IIc XP_ AT5G P-loop containing nucleoside triphosphate hydrolases superfamily protein Id ptn. Descrição pnt. DrugBank DrugBank 110 Pyruvate dehydrogenase E1 component subunit beta, mitochondrial 4070 Probable alanyl-trna synthetase, mitochondrial 2254 Thymidylate kinase Tabela D.39: Candidatos essenciais e drogáveis considerando T. brucei-a. thaliana-drugbank. Id ptn. prot. Id ptn. modelo Descrição pnt. modelo Id ptn. DrugBank Descrição pnt. DrugBank XP_ AT5G Transketolase family protein 110 Pyruvate dehydrogenase E1 component subunit beta, mitochondrial XP_ AT5G Transducin/WD40 repeatlike superfamily protein 6572 Guanine nucleotidebinding protein G(I)/G(S)/G(T) subunit beta-1 XP_ AT5G ATP binding; valine-trna ligases; aminoacyl-trna ligases; nucleotide binding; ATP binding;aminoacyltrna ligases 246 Valyl-tRNA synthetase 192

208 Tabela D.40: Candidatos essenciais e drogáveis considerando T. cruzi-a. thaliana-drugbank. Id ptn. prot. Id ptn. modelo Descrição pnt. modelo XP_ AT5G DEAD box RNA helicase (RH3) XP_ AT5G Transketolase family protein XP_ AT5G ATP binding; valinetrna ligases; aminoacyl-trna ligases;nucleotide binding; ATP binding;aminoacyltrna ligases Id ptn. Descrição pnt. DrugBank DrugBank 4288 Probable ATPdependent RNA helicase DDX6 110 Pyruvate dehydrogenase E1 component subunit beta, mitochondrial 246 Valyl-tRNA synthetase Protozoários-C. elegans-drugbank Tabela D.41: Candidatos essenciais e drogáveis considerando E. histolytica-c. elegans-drugbank. Id ptn. prot. Id ptn. Descrição pnt. Id ptn. Descrição pnt. DrugBank modelo modelo DrugBank XP_ F46A9.4 SKP1 component, POZ 6269 S-phase kinase-associated protein 1 BAE F38E11.5 WD40 repeat 340 Apoptotic protease-activating factor 1 XP_ K12D12.1 ATPase-like, ATPbinding domain 817 DNA topoisomerase 2-alpha 193

209 Tabela D.42: Candidatos essenciais e drogáveis considerando L. major-c. elegans-drugbank. Id ptn. prot. Id ptn. modelo Descrição pnt. modelo XP_ K12D12.1 ATPase-like, ATPbinding domain XP_ C42C1.5 Bacterial transferase hexapeptide repeat XP_ C47B2.4 Proteasome, subunit alpha/beta Id ptn. Descrição pnt. DrugBank DrugBank 6225 DNA gyrase subunit B 4677 Glucose-1-phosphate cytidylyltransferase 6422 Proteasome subunit beta type-7 Tabela D.43: Candidatos essenciais e drogáveis considerando P.falciparum-C. elegans-drugbank. Id ptn. prot. Id ptn. modelo Descrição pnt. modelo Id ptn. DrugBank Descrição pnt. DrugBank XP_ B Ribosomal protein L11, C- terminal S ribosomal protein L11 XP_ F49D11.1 WD40 repeat 340 Apoptotic proteaseactivating factor 1 XP_ W06H3.3 CobQ/CobB/MinD/ParA nucleotide binding domain 1008 CTP synthase 1 Tabela D.44: Candidatos essenciais e drogáveis considerando T. brucei-c. elegans-drugbank. Id ptn. prot. Id ptn. Descrição pnt. Id ptn. Descrição pnt. DrugBank modelo modelo DrugBank XP_ K12D12.1 ATPase-like, ATPbinding 817 DNA topoisomerase 2-alpha domain XP_ F22B5.1 Signal recognition 6750 ADP-ribosylation factor 6 particle receptor, beta subunit XP_ F46A9.4 SKP1 component, POZ 6269 S-phase kinase-associated protein 1 194

210 Tabela D.45: Candidatos essenciais e drogáveis considerando T. cruzi-c. elegans-drugbank. Id ptn. prot. Id ptn. Descrição pnt. Id ptn. Descrição pnt. DrugBank modelo modelo DrugBank XP_ C42C1.5 Bacterial transferase 6789 Bifunctional protein glmu hexapeptide repeat XP_ W06H3.3 CobQ/CobB/MinD/ParA 1008 CTP synthase 1 nucleotide binding domain XP_ F46A9.4 SKP1 component, POZ 6269 S-phase kinase-associated protein 1 Protozoários-D. melanogaster-drugbank Tabela D.46: Candidatos essenciais e drogáveis considerando E. histolytica-d. melanogaster- DrugBank. Id ptn. prot. Id ptn. modelo Descrição pnt. modelo Id ptn. DrugBank Descrição pnt. DrugBank XP_ FBpp Ribosomal protein L10e S ribosomal protein XP_ FBpp Myristoyl-CoA:protein N- myristoyltransferase L10-like 6838 Glycylpeptide N- tetradecanoyltransferase 1 XP_ FBpp Protein phosphatase Serine/threonine-protein phosphatase 2A catalytic subunit beta isoform Tabela D.47: Candidatos essenciais e drogáveis considerando L. major-d. melanogaster-drugbank. Id ptn. prot. Id ptn. modelo Descrição pnt. modelo Id ptn. DrugBank Descrição pnt. DrugBank XP_ FBpp Di-trans-poly-cisdecaprenylcistransferaselike 6596 Short-chain Z- isoprenyl diphosphate synthetase XP_ FBpp Ribosomal protein L10e S ribosomal protein L10-like XP_ FBpp Protein phosphatase Serine/threonineprotein phosphatase PP1-alpha catalytic subunit 195

211 Tabela D.48: Candidatos essenciais e drogáveis considerando P. falciparum-d. melanogaster- DrugBank. Id ptn. prot. Id ptn. modelo Descrição pnt. modelo XP_ FBpp Ribosomal protein L7Ae, prokaryotes XP_ FBpp Peptidase T1A, proteasome betasubunit Id ptn. DrugBank Descrição pnt. DrugBank 6337 NHP2-like protein Proteasome subunit beta type-6 XP_ FBpp ATPase, AAA+ type, core 154 AFG3-like protein 2 Tabela D.49: Candidatos essenciais e drogáveis considerando T. brucei-d. melanogaster-drugbank. Id ptn. prot. Id ptn. Descrição pnt. Id ptn. Descrição pnt. DrugBank modelo modelo DrugBank XP_ FBpp Ribosomal protein L10e S ribosomal protein L10- like XP_ FBpp WD40 repeat 6572 Guanine nucleotide-binding protein G(I)/G(S)/G(T) subunit beta-1 XP_ FBpp Myristoyl-CoA:protein N-myristoyltransferase 6282 Glycylpeptide N- tetradecanoyltransferase 2 Tabela D.50: Candidatos essenciais e drogáveis considerando T. cruzi-d. melanogaster-drugbank. Id ptn. prot. Id ptn. modelo Descrição pnt. modelo Id ptn. DrugBank Descrição pnt. DrugBank XP_ FBpp Proteasome, alpha-subunit, conserved site 6413 Proteasome subunit alpha type-2 XP_ FBpp Helicase, C-terminal 4288 Probable ATPdependent RNA helicase DDX6 XP_ FBpp ATPase, AAA+ type, core 5275 Multidrug resistance ABC transporter ATP-binding and permease protein 196

212 Protozoários-D. rerio-drugbank Tabela D.51: Candidatos essenciais e drogáveis considerando E. histolytica-d. rerio-drugbank. Id ptn. prot. Id ptn. modelo Descrição pnt. modelo Id ptn. DrugBank Descrição pnt. DrugBank XP_ ENSDARP WD40 repeat 340 Apoptotic proteaseactivating factor 1 XP_ ENSDARP Carbohydrate kinase, FGGY, C Heat shock 70 kda protein 1 terminal XP_ ENSDARP Lysyl-tRNA synthetase, class II 425 Aspartyl-tRNA synthetase Tabela D.52: Candidatos essenciais e drogáveis considerando L. major-d. rerio-drugbank. Id ptn. prot. Id ptn. modelo Descrição pnt. modelo XP_ ENSDARP Serine threonine/tyrosine- protein kinase catalytic domain XP_ ENSDARP Helicase, C terminal XP_ ENSDARP Glutaminyl-tRNA 0918 synthetase, class Ib Id ptn. Descrição pnt. DrugBank DrugBank Cell division protein kinase ATP-dependent DNA helicase recq 210 Bifunctional aminoacyltrna synthetase Tabela D.53: Candidatos essenciais e drogáveis considerando P. falciparum-d. rerio-drugbank. Id ptn. prot. Id ptn. modelo Descrição pnt. modelo XP_ ENSDARP00000 Carbohydrate kinase, FGGY, C-terminal XP_ ENSDARP00000 Translation elongation/initiation factor/ribosomal, beta-barrel XP_ ENSDARP00000 Ferritin/ribonucleotide reductase-like Id ptn. Descrição pnt. DrugBank DrugBank kda glucoseregulated protein S ribosomal protein L Ribonucleosidediphosphate reductase subunit M2 B 197

213 Tabela D.54: Candidatos essenciais e drogáveis considerando T. brucei-d. rerio-drugbank. Id ptn. prot. Id ptn. modelo Descrição pnt. modelo Id ptn. DrugBank Descrição pnt. DrugBank XP_ ENSDARP Tyrosine-protein kinase, catalytic domain 21 Beta-adrenergic receptor kinase 2 XP_ ENSDARP Alanine racemase/group IV decarboxylase, C- 499 Arginine decarboxylase terminal XP_ ENSDARP WD40 repeat 340 Apoptotic proteaseactivating factor 1 Tabela D.55: Candidatos essenciais e drogáveis considerando T. cruzi-d. rerio-drugbank. Id ptn. Descrição pnt. DrugBank DrugBank 3177 dtdp-glucose 4,6- dehydratase 6277 Heat shock cognate 71 kda protein 2347 Proto-oncogene serine/threonineprotein kinase Pim-1 Id ptn. prot. Id ptn. modelo Descrição pnt. modelo XP_ ENSDARP beta hydroxysteroid dehydrogenase/isomera se XP_ ENSDARP00000 Carbohydrate kinase, FGGY, C-terminal XP_ ENSDARP00000 Serine threonine/tyrosine- protein kinase catalytic domain Protozoários-E. coli-drugbank Tabela D.56: Candidatos essenciais e drogáveis considerando E. histolytica-e. coli-drugbank. Id ptn. prot. Id ptn. Descrição pnt. Id ptn. Descrição pnt. modelo modelo DrugBank DrugBank AAA EBESCP0000 ABC transporter, 1588 Multidrug resistance lipid A export, MsbA protein 1 XP_ EBESCP0000 GCN5-related N Acetyl transferase acetyltransferase XP_ EBESCP0000 Cytidyltransferase Nicotinamide related mononucleotide adenylyltransferase 3 198

214 Tabela D.57: Candidatos essenciais e drogáveis considerando L. major-e. coli-drugbank. Id ptn. prot. Id ptn. modelo Descrição pnt. modelo XP_ EBESCP Polyprenyl synthetase-related XP_ EBESCP Small GTP-binding protein XP_ EBESCP Aspartate/other aminotransferase Id ptn. Descrição pnt. DrugBank DrugBank 6058 Geranylgeranyl pyrophosphate synthetase 3396 Elongation factor Tu 3877 Growth-inhibiting protein 18 Tabela D.59: Candidatos essenciais e drogáveis considerando T. brucei-e. coli-drugbank. Tabela D.58: Candidatos essenciais e drogáveis considerando P. falciparum-e. coli-drugbank. Id ptn. prot. Id ptn. modelo Descrição pnt. modelo Id ptn. DrugBank Descrição pnt. DrugBank XP_ EBESCP Cof protein 3020 Sugar phosphatase suph XP_ EBESCP Beta-ketoacylacyl carrier protein synthase oxoacyl-[acylcarrier-protein] synthase 3 III (FabH) XP_ EBESCP Lysyl-tRNA synthetase, class II 799 Aspartyl-tRNA synthetase, cytoplasmic Id ptn. prot. Id ptn. modelo Descrição pnt. modelo XP_ EBESCP oxoacyl-(acylcarrier-protein) 1791 reductase XP_ EBESCP Polyprenyl 4959 synthetase-related XP_ EBESCP Acetyl-CoA 2977 carboxylase, biotin carboxylase Id ptn. Descrição pnt. DrugBank DrugBank 4423 Levodione reductase 6058 Geranylgeranyl pyrophosphate synthetase 6659 Biotin carboxylase 199

215 Tabela D.60: Candidatos essenciais e drogáveis considerando T. cruzi-e. coli-drugbank. Id ptn. prot. Id ptn. modelo Descrição pnt. modelo XP_ EBESCP GTP-binding 2094 protein Obg/CgtA XP_ EBESCP DNA 1166 topoisomerase IV, subunit B, Gramnegative XP_ EBESCP oxoacyl-(acylcarrier-protein) 1791 reductase Id ptn. Descrição pnt. DrugBank DrugBank 3273 Spo0B-associated GTPbinding protein 4548 Gyrase B 6855 Enoyl-(Acyl-carrierprotein) reductase Protozoários-M. musculus-drugbank Tabela D.61: Candidatos essenciais e drogáveis considerando E.histolytica-M.musculus-DrugBank. Id ptn. prot. Id ptn. modelo Descrição pnt. modelo AAP ENSMUSP DNA 8795 recombination/repair protein Rad51 BAC ENSMUSP Protein kinase, 3448 catalytic domain BAC ENSMUSP Terpenoid 5498 cyclases/protein prenyltransferase alpha-alpha toroid Id ptn. Descrição pnt. DrugBank DrugBank 2315 Protein reca 6246 Serine/threonineprotein kinase PLK Protein farnesyltransferase subunit beta 200

216 Tabela D.62: Candidatos essenciais e drogáveis considerando L.major-M.musculus-DrugBank. Id ptn. prot. Id ptn. modelo Descrição pnt. modelo XP_ ENSMUSP0000 Phosphoglucose isomerase (PGI) XP_ ENSMUSP0000 Exodeoxyribonuclease III xth XP_ ENSMUSP0000 Protein kinase, catalytic domain Tabela D.63: Candidatos essenciais e drogáveis considerando P.falciparum-M.musculus-DrugBank. Id ptn. Descrição pnt. DrugBank DrugBank 2206 Glucose-6- phosphate isomerase 4180 DNA-(apurinic or apyrimidinic site) lyase 1058 Cell division protein kinase 5 Id ptn. prot. Id ptn. modelo Descrição pnt. modelo XP_ ENSMUSP S proteasome 054 subunit P45 XP_ ENSMUSP dtdp dehydrorhamnose reductase XP_ ENSMUSP Glutathione 863 peroxidase Id ptn. Descrição pnt. DrugBank DrugBank 154 AFG3-like protein GDP-L-fucose synthetase 910 Epididymal secretory glutathione peroxidase Tabela D.64: Candidatos essenciais e drogáveis considerando T.brucei-M.musculus-DrugBank. Id ptn. prot. Id ptn. modelo Descrição pnt. modelo XP_ ENSMUSP0000 Peptidyl-prolyl cis-trans isomerase, FKBP-type, domain XP_ ENSMUSP0000 Myristoyl-CoA:protein N-myristoyltransferase XP_ ENSMUSP0000 Succinic semialdehyde dehydrogenase Id ptn. Descrição pnt. DrugBank DrugBank 768 FK506-binding protein 1A 6282 Glycylpeptide N- tetradecanoyltransfe rase Retinal dehydrogenase 1 201

217 Tabela D.65: Candidatos essenciais e drogáveis considerando T.cruzi-M.musculus-DrugBank. Id ptn. prot. Id ptn. modelo Descrição pnt. modelo XP_ ENSMUSP00000 Acyltransferase ChoActase/COT/C PT XP_ ENSMUSP00000 Flavodoxin/nitric oxide synthase XP_ ENSMUSP00000 Methylthioadenosin e phosphorylase Id ptn. Descrição pnt. DrugBank DrugBank 451 Carnitine O- palmitoyltransferase I, liver isoform 4120 NADPH--cytochrome P450 reductase 2837 Xanthosine phosphorylase Protozoários-S. cerevisiae-drugbank Tabela D.66: Candidatos essenciais e drogáveis considerando E. histolytica-s. cerevisiae-drugbank. Id ptn. prot. Id ptn. modelo Descrição pnt. modelo XP_ YJR065C Essential component of the Arp2/3 complex XP_ YPL209C Aurora kinase subunit of the conserved chromosomal passenger complex (CPC; Ipl1p-Sli15p-Bir1p-Nbl1p XP_ YPL218W GTPase, GTP-binding protein of the ARF family Id ptn. Descrição pnt. DrugBank DrugBank 6759 Actin-related protein Serine/threonine-protein kinase ADP-ribosylation factor 6 Tabela D.67: Candidatos essenciais e drogáveis considerando L. major-s. cerevisiae-drugbank. Id ptn. prot. Id ptn. modelo Descrição pnt. modelo Id ptn. DrugBank Descrição pnt. DrugBank XP_ YGL123W Protein component of the small (40S) subunit S ribosomal protein S5 XP_ YBR160W Catalytic subunit of the main cell cycle cyclin-dependent kinase 2240 Cell division protein kinase 2 (CDK) XP_ YNL088W Topoisomerase II 4548 Gyrase B 202

218 Tabela D.68: Candidatos essenciais e drogáveis considerando P. falciparum-s. cerevisiae-drugbank. Id ptn. prot. Id ptn. modelo Descrição pnt. modelo XP_ YOR257W Calcium-binding component of the spindle pole body (SPB) half-bridge XP_ YHR020W Prolyl-tRNA synthetase XP_ YLR009W Essential protein with similarity to Rpl24Ap and Rpl24Bp, associated with pre- 60S ribosomal subunits Id ptn. Descrição pnt. DrugBank DrugBank 6801 Myosin light chain 6B 210 Bifunctional aminoacyl-trna synthetase 6331 Probable ribosome biogenesis protein RLP24 Tabela D.69: Candidatos essenciais e drogáveis considerando T. brucei-s. cerevisiae-drugbank. Id ptn. prot. Id ptn. modelo Descrição pnt. modelo XP_ YPR048W Conserved NAPDH-dependent diflavin reductase XP_ YGL123W Protein component of the small (40S) subunit XP_ YPL209C Aurora kinase subunit of the conserved chromosomal passenger complex (CPC; Ipl1p-Sli15p- Bir1p-Nbl1p) Id ptn. Descrição pnt. DrugBank DrugBank 840 Methionine synthase reductase, mitochondrial S ribosomal protein S Death-associated protein kinase 3 203

219 Tabela D.70: Candidatos essenciais e drogáveis considerando T. cruzi-s. cerevisiae-drugbank. Id ptn. prot. Id ptn. modelo Descrição pnt. modelo XP_ YBR160W Catalytic subunit of the main cell cycle cyclin-dependent kinase (CDK) XP_ YLL050C Cofilin, promotes actin filament depolarization in a ph-dependent manner XP_ YDL029W Essential component of the Arp2/3 complex Id ptn. Descrição pnt. DrugBank DrugBank 990 Dual specificity mitogen-activated protein kinase kinase Destrin 3822 Actin, alpha skeletal muscle 204

220 Cruzamento das proteínas de protozoários ortólogas às proteínas essenciais dos organismos modelos com as proteínas de protozoários homólogas às proteínas dos bancos TTD Protozoários-D. rerio-ttd Tabela D.71: Candidatos essenciais e drogáveis considerando E. histolytica-d. rerio-ttd. Id ptn. prot. XP_ XP_ Id ptn. modelo ENSDARP ENSDARP Descrição pnt. modelo Id ptn. TTD Descrição pnt. TTD Carbohydrate kinase, TTDS kDa molecular FGGY, C-terminal chaperone HSP73 Histone deacetylase TTDS00095 Histone deacetylase 1 Tabela D.72: Candidatos essenciais e drogáveis considerando L. major-d. rerio-ttd. Id ptn. prot. Id ptn. Descrição pnt. Id ptn. Descrição pnt. TTD modelo modelo TTD XP_ ENSDARP0 Ferritin /ribonucleotide TTDS00421 Ribonucleoside reductase-like diphosphate reductase subunit M2 XP_ ENSDARP0 Tyrosine-protein kinase, TTDS00407 Proto-oncogene tyrosine catalytic domain protein kinase LCK Tabela D.73: Candidatos essenciais e drogáveis considerando P. falciparum-d. rerio-ttd. Id ptn. prot. XP_ XP_ Id ptn. modelo ENSDARP ENSDARP Descrição pnt. modelo Id ptn. TTD Descrição pnt. TTD Histone deacetylase TTDS00095 Histone deacetylase 1 Thymidylate TTDS00208 Dihydrofolate synthase/dcmp reductase hydroxymethylase domain 205

221 Tabela D.74: Candidatos essenciais e drogáveis considerando T. brucei-d. rerio-ttd. Id ptn. prot. Id ptn. Descrição pnt. Id ptn. Descrição pnt. TTD modelo modelo TTD XP_ ENSDARP0000 Ferritin/ TTDS00421 Ribonucleoside ribonucleotide diphosphate reductase-like reductase subunit M2 XP_ ENSDARP0000 Thymidylate TTDS00301 Thymidylate synthase/dcmp synthase hydroxymethylase domain Tabela D.75: Candidatos essenciais e drogáveis considerando T. cruzi-d. rerio-ttd. Id ptn. prot. XP_ XP_ Id ptn. modelo ENSDARP ENSDARP Descrição pnt. modelo Id ptn. TTD Descrição pnt. TTD Tyrosine-protein kinase, TTDS00407 Proto-oncogene catalytic domain tyrosine-protein kinase LCK Histone deacetylase TTDS00095 Histone deacetylase 1 Protozoários-E. coli-ttd Tabela D.76: Candidatos essenciais e drogáveis considerando E. histolytica-e. coli-ttd. Id ptn. prot. Id ptn. Descrição pnt. Id ptn. Descrição pnt. TTD modelo modelo TTD AAA EBESCP0000 ABC transporter, lipid A TTDS00278 Bile salt export pump export, MsbA XP_ EBESCP0000 DNA topoisomerase IV, TTDS00080 DNA topoisomerase subunit B, Gram-negative II 206

222 Tabela D.77: Candidatos essenciais e drogáveis considerando L. major-e. coli-ttd. Id ptn. prot. Id ptn. Descrição pnt. Id ptn. Descrição pnt. modelo modelo TTD TTD XP_ EBESCP NAD-dependent TTDS beta epimerase/ hydroxysteroid dehydratase dehydrogenase/delt a 5-->4-isomerase XP_ EBESCP Valyl-tRNA TTDS00223 Isoleucyl-tRNA synthetase synthetase (bacterial) Tabela D.78: Candidatos essenciais e drogáveis considerando P. falciparum-e. coli-ttd. Id ptn. prot. Id ptn. Descrição pnt. Id ptn. Descrição pnt. TTD model modelo TTD XP_ EBESCP0000 Glucose/ribitol TTDS00235 Enoyl-ACP reductase dehydrogenase XP_ EBESCP oxoacyl-(acyl- TTDS beta-hydroxysteroid carrier-protein) dehydrogenase reductase Tabela D.79: Candidatos essenciais e drogáveis considerando T.brucei-E.coli-TTD. Id ptn. prot. Id ptn. Descrição pnt. Id ptn. Descrição pnt. TTD modelo modelo TTD XP_ EBESCP0000 Translation elongation TTDS00436 Elongation factor G factor EFG/EF2 XP_ EBESCP0000 DNA topoisomerase IV, TTDS00080 DNA topoisomerase subunit B, Gram-negative II Tabela D.80: Candidatos essenciais e drogáveis considerando T.cruzi-E.coli-TTD. Id ptn. prot. XP_ XP_ Id ptn. modelo EBESCP EBESCP Descrição pnt. modelo Id ptn. TTD Descrição pnt. TTD DNA topoisomerase IV, TTDS00080 DNA topoisomerase II subunit B, Gramnegative Valyl-tRNA synthetase TTDS00223 Isoleucyl-tRNA synthetase (bacterial) 207

223 Protozoários-M. musculus-ttd Tabela D.81: Candidatos essenciais e drogáveis considerando E. histolytica-m. musculus-ttd. Id ptn. prot. Id ptn. modelo Descrição pnt. modelo XP_ ENSMUSP0000 Poly(ADP-ribose) polymerase, regulatory domain XP_ ENSMUSP0000 ATPase, P-type, K/Mg/Cd/Cu/Zn/Na/Ca /Na/H-transporter Id ptn. TTD TTDS00191 TTDS00045 TTD Poly [ADP-ribose] polymerase-1 Sodium/potassiumtransporting ATPase alpha-1 chain Tabela D.82: Candidatos essenciais e drogáveis considerando L. major-m. musculus-ttd. Id ptn. prot. Id ptn. modelo Descrição pnt. modelo XP_ ENSMUSP0000 Acyltransferase ChoActase/COT/CPT XP_ ENSMUSP0000 Flavodoxin/nitric oxide synthase Id ptn. TTD Descrição pnt. TTD TTDS00433 Carnitine O- palmitoyltransfer ase I TTDS00337 Nitric oxide synthase, inducible Tabela D.83: Candidatos essenciais e drogáveis considerando P. falciparum-m. musculus-ttd. Id ptn. prot. Id ptn. modelo Descrição pnt. modelo XP_ ENSMUSP0000 Ornithine aminotransferase XP_ ENSMUSP0000 Protein kinase, catalytic domain Id ptn. TTD TTDS00024 TTDS00407 Descrição pnt. TTD 4-aminobutyrate aminotransferase, mitochondrial Proto-oncogene tyrosine-protein kinase LCK 208

224 Tabela D.84: Candidatos essenciais e drogáveis considerando T. brucei-m. musculus-ttd. Id ptn. prot. Id ptn. modelo Descrição pnt. modelo XP_ ENSMUSP0000 Acyltransferase ChoActase/COT/CPT XP_ ENSMUSP0000 Flavodoxin/nitric oxide synthase Id ptn. TTD Descrição pnt. TTD TTDS00433 Carnitine O- palmitoyltransfera se I TTDS00337 Nitric oxide synthase, inducible Tabela D.85: Candidatos essenciais e drogáveis considerando T. cruzi-m. musculus-ttd. Id ptn. prot. Id ptn. modelo Descrição pnt. modelo XP_ ENSMUSP0000 Acyltransferase ChoActase/COT/C PT XP_ ENSMUSP0000 Succinic semialdehyde dehydrogenase Id ptn. TTD Descrição pnt. TTD TTDS00433 Carnitine O- palmitoyltransferase I TTDS00054 Succinate semialdehyde dehydrogenase, mitochondrial Protozoários-S. cerevisiae-ttd Tabela D.86: Candidatos essenciais e drogáveis considerando E. histolytica-s. cerevisiae-ttd. Id ptn. prot. Id ptn. Descrição pnt. Id ptn. Descrição pnt. TTD modelo modelo TTD XP_ YLR212C Gamma-tubulin TTDS00389 Tubulin beta-2 chain XP_ YIL048W Putative aminophospholipid translocase (flippase) TTDS00045 Sodium/potassiumtransporting ATPase alpha-1 chain Tabela D.87: Candidatos essenciais e drogáveis considerando L. major-s. cerevisiae-ttd. Id ptn. prot. Id ptn. modelo Descrição pnt. modelo XP_ YPR048W Conserved NAPDHdependent diflavin reductase XP_ YHR007C Lanosterol 14-alphademethylase Id ptn. TTD TTDS00337 TTDS00359 Descrição pnt. TTD Nitric oxide synthase, inducible Fungal Cytochrome P

225 Tabela D.88: Candidatos essenciais e drogáveis considerando P. falciparum-s. cerevisiae-ttd. Id ptn. prot. Id ptn. modelo Descrição pnt. modelo XP_ YOR257W Calcium-binding component of the spindle pole body (SPB) half-bridge XP_ YGR094W Mitochondrial and cytoplasmic valyl-trna synthetase Id ptn. TTD TTDS00409 TTDS00223 Descrição pnt. TTD Troponin C Isoleucyl-tRNA synthetase (bacterial) Tabela D.89: Candidatos essenciais e drogáveis considerando T. brucei-s. cerevisiae-ttd. Id ptn. TTD TTDS00234 TTDS00045 Id ptn. prot. Id ptn. modelo Descrição pnt. modelo XP_ YJL034W ATPase involved in protein import into the ER XP_ YGL008C Plasma membrane H+- ATPase, pumps protons out of the cell Descrição pnt. TTD 73-kDa molecular chaperone HSP73 Sodium/potassiumtransporting ATPase alpha-1 chain Tabela D.90: Candidatos essenciais e drogáveis considerando T. cruzi-s. cerevisiae-ttd. Id ptn. prot. Id ptn. modelo Descrição pnt. modelo XP_ YGL055W Delta(9) fatty acid desaturase XP_ YHR007C Lanosterol 14-alphademethylase Id ptn. TTD TTDS00516 TTDS00359 Descrição pnt. TTD Acyl-CoA desaturase Fungal Cytochrome P

226 Apêndice E Proteomics and bioinformatics analysis of Trypanosoma cruzi chemotherapy and potential drug targets: new pieces for an old puzzle Rubem Figueiredo Sadok Menna-Barreto 1, Kele Teixeira Belloze 2, Jonas Perales 3, Floriano Paes Silva-Jr*, 2 1 Laboratório de Biologia Celular, Instituto Oswaldo Cruz, Fundação Oswaldo Cruz, Rio de Janeiro, Brazil; 2 Laboratório de Bioquímica de Proteínas e Peptídeos, Instituto Oswaldo Cruz, Fundação Oswaldo Cruz, Rio de Janeiro, Brazil; 3 Laboratório de Toxinologia, Instituto Oswaldo Cruz, Fundação Oswaldo Cruz, Rio de Janeiro, Brazil. Running title: T. cruzi chemotherapy and potential drug targets These authors contributed equally to this work. *Address correspondence to: Dr. F.P. Silva-Jr, 3 Laboratório de Bioquímica de Proteínas e Peptídeos, Instituto Oswaldo Cruz, FIOCRUZ, Av. Brasil , Manguinhos, Rio de Janeiro, Brazil. Phone: floriano@ioc.fiocruz.br. 211

227 Abstract: Chagas disease is originally a Latin American endemic sickness caused by the protozoan hemoflagellate parasite Trypanosoma cruzi but currently disseminated to non-endemic countries due to the ease of global mobility. The current treatment of this tropical and neglected disease depends on the nitroheterocycle benznidazole that presents severe side effects and limited efficacy during the chronic phase of the disease. In this scenario, proteomics and bioinformatics become powerful tools, crucial for the identification of new candidates for drugs intervention. In the last decade, different T. cruzi forms under distinct experimental conditions were assessed by proteomics. Those previous reports pointed to many potential drug targets, with ergosterol biosynthesis and redox system enzymes, the most promising candidates. Nevertheless, the majority of the compounds active against T. cruzi still presents an unclear mechanism of action and most proteomic efforts employed epimastigotes (the insect form). Further analysis with the parasite clinically relevant forms should be performed to identify proteins actually binding the drugs. Nonetheless, due to the known technical hurdles to generate such experimental data, bioinformatics approaches for integrative data analysis can help to dig more knowledge from the currently available data. Here, we review T. cruzi proteomics, followed by a description of the main chemoproteomics methods and their application to find intracellular targets of drugs acting on trypanosomatids. Finally, we discuss the potential benefits of more extensively integrating all proteomics data to other molecular databases via bioinformatics analysis in order to develop novel viable strategies for alternative treatment of Chagas disease. Keywords: Trypanosoma cruzi; Chagas disease; chemotherapy; (chemo)proteomics; bioinformatics; drug targets. 212

228 Summary: 1. INTRODUCTION T. cruzi AND PROTEOMICS Chronology of proteomic maps of the different parasite forms Post-translational modifications Susceptibility, resistance and molecular targets for drugs and vaccines CHEMICAL PROTEOMICS APPROACHES FOR DRUG TARGET IDENTIFICATION Main methodological approaches to chemical proteomics Affinity capture (or pull-down) methods Activity-based protein profiling (ABPP) Affinity (non-covalent) protein profiling (APP) Perspectives in chemoproteomics Exemplary applications in trypanosomatids BIOINFORMATICS ANALYSIS Proteomic databases and resources Drug target related databases Assessing protein druggability Data integration for drug target priorization: the Orlistat example CLOSING REMARKS: NEW ADVANCES FOR CHAGAS DISEASE DRUG DEVELOPMENT

229 1 INTRODUCTION Chagas disease, caused by the hemoflagellate protozoan Trypanosoma cruzi, is a tropical neglected illness endemic in Latin America with high human mortality and morbidity levels [1], but currently spread to non-endemic countries due to the globalization of immigration [2]. The disease is characterized by an acute phase with a detectable parasitaemia, and a progressive chronic phase whereas the patient could develop cardiac and/or digestive alterations [3-5]. Two drugs are currently available for treating Chagas disease: nifurtimox (1) and benznidazole (2) (Fig. 1). Introduced in clinical treatment of Chagas disease over four decades ago, benznidazole is the drug of choice for the acute infections, despite the severe side effects. The trypanocidal activity of this drug is directly dependent on the parasite isolates and strains, with its efficacy during the chronic phase considered controversial [6, 7]. Therefore, extensive efforts have been required for the development of alternative active compounds while decreasing the undesirable side effects. In this framework, the pursuit of new "good" molecular targets in the parasite, suitable for the development of safer drugs, is essential. By "good targets", in this case, one usually means proteins unique to the parasite [8] (or at least diverse enough from any homologous proteins within the human host), which are at the same time essential for the infectious agent and druggable [9, 10]. T. cruzi life cycle comprises a hematophagous triatomine insect and a mammalian host, involving different evolutive forms. Proliferative epimastigotes colonize the triatomine midgut and differentiate into metacyclic forms in the insect rectum. Together with the faeces and urine of the triatomine, these infective forms are released, reaching the vertebrate cells. In the intracellular environment, a differentiation process to amastigote forms is started. The latter proliferates and then undergoes a new round of differentiation into trypomastigotes that disseminate the infection throughout the organs and tissues. The ingestion of bloodstream trypomastigotes by a non-infected triatomine complete the parasite cycle. Despites low clinical relevance of epimastigotes, the insect form is by far much more experimentally studied due to their axenic and replicative attributes in vitro. All the trypanosomatids share peculiar molecular features distinguishing them from other eukaryotes. Among these peculiarities, gene expression control is unique, with the open reading frames organized in large polycistronic clusters [11]. The RNA is 214

230 processed by trans-splicing, resulting in the presence of non-translated mrna in the protozoa cytoplasm, and consequently most of the regulatory processes depends on the mrna stability [12]. Non-translated mrna represents an important limitation for the analysis of trypanosomatids gene expression and emphasizes proteomics as an interesting alternative. Proteomic approaches allow a large-scale functional and structural evaluation of proteins and speculations about their implications in cell physiology [13]. In this review, T. cruzi proteomic analyses performed up to date are discussed, depicting how molecular drug targets in the parasite can be discovered and prioritized by the combined efforts of proteomic approaches and bioinformatics in order to develop viable alternative strategies for Chagas disease chemotherapy. 2 T. CRUZI AND PROTEOMICS 2.1 Chronology of proteomic maps of the different parasite forms Almost a decade ago, the first description of a T. cruzi proteomic map was published, analysing three parasite forms: axenic epimastigotes, amastigotes and trypomastigotes derived from cell cultures [14]. The approach employed was twodimensional electrophoresis (2-DE) followed by the identifications in matrix-assisted laser desorption/ionization-time of flight (MALDI-TOF) mass spectrometry. The assessment of the protein profile of insect and vertebrate forms of the protozoa pointed to some peculiarities. Noteworthy, 19 proteins were found to be differentially expressed (heat shock proteins, structural molecules, bioenergetics enzymes among others). Among these proteins, enolase was one of the most modulated, with its levels markedly reduced in epimastigotes in comparison to trypomastigotes. In 2011, it was demonstrated the functional plasticity of T. cruzi mitochondrion during the parasite life cycle, with the electron transport chain more efficient in epimastigotes than in bloodstream trypomastigotes. The latter data was reinforced by the differential expression of glycolytic enzymes between the two parasite forms [15]. Surprisingly, proteins that compose the paraflagellar rod were also much higher expressed in trypomastigotes, which is suggestive of a relevant role of this structure for the infective form biology [14]. Still in 2004, another research group investigated the protein content of epimastigotes samples by 2-DE and MALDI-TOF [16]. Additional 22 distinct proteins were identified and predicted to be involved in the metabolism of the insect form of the parasite, such as protein biosynthesis and degradation, as well as in the oxidative stress response. 215

231 Following the chronological events in T. cruzi proteomic map, a huge high throughput analysis was performed in 2005 by shotgun liquid chromatography and tandem mass spectrometry (LC-MS/MS), assessing the protein levels of four evolutive stages of the parasite: amastigotes, epimastigotes, metacyclic and trypomastigotes derived from cell cultures [17]. Overall, this remarkable publication identified 2,784 proteins, being 838 proteins shared by all parasite forms. Interestingly, the number of identifications varied with the life-stages. Metacyclic trypomastigotes samples presented the highest number of observed proteins (2,339), whereas other stages showed a discrete fluctuation in their protein content (in range of 1,486 to 1,871). The analysis of the identifications performed by Atwood et al. [17] also pointed to the membrane glycoproteins such as mucins and chaperonins as the most abundant protein groups, together with about 1,000 hypothetical proteins detected. Indeed, the variation in protein levels observed during the parasite cycle allows the creation of some speculative hypothesis. Clearly, it was detected a important increase in the antioxidant enzymes (ascorbate peroxidase, tryparedoxin peroxidase, trypanothione synthase and iron superoxide dismutase) expression during the metacyclogenesis process. The latter is suggestive of a parasite adaptation to the oxidative stress event inside the host cell. Nevertheless, the validation of this hypothesis still must be performed by different molecular and biochemical approaches. Two years later in 2007, the differentiation process from epimastigotes into metacyclic trypomastigotes in vitro was also investigated by 2-DE and MALDI-TOF [18]. The proteomic analysis of metacyclogenesis demonstrated about 40 proteins differentially expressed, where once again bioenergetic and oxidative stress enzymes were identified, especially in epimastigotes. In this study, it was hypothesized that posttranslational modifications represented a crucial step in the trypanosomatid gene expression regulation during stress processes such as differentiation. Another interesting suggestion made by Parodi-Talice et al. [18] relates the increase in the expression of glutamate dehydrogenase to high amino acid uptake observed in parasites undergoing nutritional deprivation. In 2008, alkaline 2-DE (ph range: 6-11) of epimastigotes and trypomastigotes was assessed for the first time [19]. This assessment pointed to the identification of dehydrogenases and amino acid metabolism-related proteins in epimastigotes, and to the presence of paraflagellar rod proteins and trans-sialidases in in the infective parasite 216

232 forms. It is interesting to mention that alkaline proteomic approaches of amastigotes were not performed yet. The next T. cruzi proteomic study was an evaluation of hydrophobic proteins presented in epimastigotes and metacyclic forms by LC-MS/MS in 2009 [20]. The protein sample was obtained by a neutral detergent (Triton X-114) solubilization. This approach led to the identification of 280 proteins in metacyclic trypomastigotes and only 98 in epimastigotes, many of them presenting important lipid post-translational modifications (prenylation, GPI-anchor insertion and myristoylation). Once more, a great number of bioenergetic proteins were identified in epimastigotes samples, suggestive of the high ATP demand to complete cell division in this parasite form. On the other hand, the infective trypomastigotes presented a strong repertoire of surface proteins (especially glycoproteins) that will participate in parasite adhesion and invasion. Also in 2009, a proteomic map of T. cruzi CL-Brener strain was assessed using 2-DE and MALDI-TOF approach [21]. Interestingly, despites the genome sequencing had been published using this strain in 2005, the first proteomic description was performed only 4 years later. Among the most abundant identifications were heat shock protein isoforms, arginine kinase, prostaglandin F2a synthase and also some structural proteins such as tubulin. During its life cycle, T. cruzi is subject to adverse circumstances and distinct environments, and the infection depends directly on the parasite adaptation to these stress conditions. Among the unfavorable conditions, the alteration in the temperature from 28 C (triatomine midgut) to 37 C (mammalian bloodstream and tissues) represents an important limitation. In 2012, Pérez-Morales and co-workers analyzed the effects of heat shock stress on epimastigotes protein content, employing 2-DE followed by MALDI-TOF approach [22]. The increase in the temperature led to the appearance of 24 differentially expressed proteins including heat shock proteins as expected. Other molecules involved in bioenergetics and oxidative stress as well as many surface glycoproteins and hypothetical proteins were also identified, representing the first report about the participation of non-chaperonin proteins in heat shock response in epimastigotes. Also in 2012, the most extensive large-scale quantitative analysis of T. cruzi proteome was assessed by LC-MS/MS, investigating the proteins levels during metacyclogenesis [23]. In this work, the authors developed a complete experimental 217

233 design and analyzed different intermediary protozoa stages, evaluating almost 3,000 proteins involved in the differentiation process. In metacyclic trypomastigotes, the upregulation of several trans-sialidase isoforms were observed, in accordance to a previous report about the involvement of cyclic-amp during the metacyclogenesis [24]. Two other protein groups were also upregulated in trypomastigotes: structural proteins, probably due to morphological changes in the parasite during the process; and transsplicing related proteins and histones, indicative of a possible modulation of gene expression in the metacyclic forms. "In contrast, the analysis also revealed downregulation of some elongation factors, ribosomal proteins and trna synthetase in the infective forms, but its causes must be further explored experimentally. 2.2 Post-translational modifications The glycoprotein content was assessed for the first time in 2006 using LC-MS/MS approach [25]. After sub-cellular fractionation and subsequently labeling with isotopic markers, 29 glycoproteins were identified. Among these, 11 molecules specific to T. cruzi were firstly described at protein level in this study. The most abundant protein group was composed by surface mucins, however N-linked glycosylation was also detected in other proteins from distinct gene families. Phosphorylation is a post-translational modification crucial in signaling transduction events, involved in many pathways in mammalian cells and also in trypanosomatids, with kinases being promising targets for the development of novel drugs. In this scenario, the phosphoproteomic map of epimastigotes was already analysed employing LC-MS/MS. In 2009, the first assessment pointed to 119 phosphoproteins involved in differentiation processes, parasite motility and other pathways [26]. Two years later in 2011, a new study showed over 2,500 phosphorylation sites, and also an increase in the number of identifications to 753 different phosphoproteins [27]. Alternatively, a different experimental design based on 2D gel specific-staining with the fluorescent markers Pro-Q-Emerald (glycoproteins) and Pro-Q-Diamond (phosphoproteins) was performed by our group in epimastigote samples, leading to the identification of additional 15 glycoproteins and 22 phosphoproteins [28]. Among the glycoconjugates identified were cytoskeletal proteins, enzymes related to energy and lipid metabolisms and also proteins involved in antioxidant defenses. Moreover, the phosphorylated 218

234 molecules identified by this approach included structural proteins, molecules associated to protein metabolism and degradation as well as crucial enzymes from different metabolic pathways. 2.3 Susceptibility, resistance and molecular targets for drugs and vaccines One of the most important limitations for efficient chemotherapy is the balance between drug susceptibility and resistance, where the emerge of resistance is the major restriction for the treatment of infectious illnesses, including Chagas disease. Nowadays, the clinical therapy for this disease is hampered by therapeutic failure of benznidazole derived from the parasite resistance to this compound. In this context, in 2008 a proteomic study about the benznidazole resistance was performed by our group in epimastigotes, employing 2-DE and MALDI-TOF/TOF approach [29]. This work evidenced 36 proteins differentially expressed in resistant epimastigotes including many proteases, enzymes of amino acids metabolism as well as molecules related to oxidative stress and also hypothetical proteins. The upregulation of prostaglandin F2α synthase observed in susceptible parasites suggested that the mechanism of action of benznidazole in T. cruzi involved superoxide anion radical production [30]. In the last 2 decades, our research group has focused on the development of novel drugs to the Chagas disease chemotherapy, as an alternative to benznidazole [31, 32]. Among the compounds tested, naphthoquinone derivatives presented interesting trypanocidal activity in vitro, especially the naphthoimidazoles N1 (3), N2 (4) and N3 (5), derived from beta-lapachone (6) (Fig. 2) [33, 34]. The latter is a natural naphthoquinone, which along with its biosynthetic congener lapachol (7 - isomer (8) (Fig. 2), have known trypanocidal activity for many years now [35]. In fact, these molecules and their semisynthetic analogues containing naphthalenic type structures are very versatile cytotoxic agents, including antimalarial, antibacterial and anticancer effects [36-38]. In order to elucidate the mechanisms of action of the most effective naphthoimidazolic compounds (Table 1), a proteomic assessment of the treated epimastigotes was performed [13]. Mass spectrometry analysis led to the identification of enzymes from different metabolic pathways such as sterol biosynthesis, amino acids turnover and response to stress conditions. An important downregulation after the treatment was observed in tubulin by 2-DE analysis. ELISA (Enzyme-Linked Immunosorbent Assay) was employed to confirm these data and it was detected a reduction only in tyrosinated tubulin content. One possible hypothesis is that reduced levels of this isoform compromise the intracellular vesicle traffic and/or mitotic spindle 219

235 formation, leading to an impairment of parasite mitosis. Curiously, epimastigotes treated with the naphthoimidazoles also upregulated a central antioxidant enzyme - trypanothione synthetase. The latter result is intriguing because naphthoimidazoles differ from naphthoquinones especially due to the absence of redox potential. Hence, the molecular pathway involved in this effect over redox metabolism remains unclear. A global evaluation of all proteins differentially expressed due to the drug treatment pointed to the mitochondrion as the main target of these compounds, corroborating our previous ultrastructural reports [33, 34]. In continuity, Beghini et al. (2012) employed a rational approach to evaluate expressed epimastigote proteins with no similarity in human proteome database [28]. Raising such parasite-specific list of proteins could allow for the reduction of mammalian side effects due to the specificity of the molecular targets. Among these interesting targets, enzymes of ergosterol biosynthesis are highlighted for drug intervention, once mammals do not produce this lipid and the collapse in ergosterol content will compromise the plasma membrane fluidity in the parasite. Among the new promising trypanocidal compounds, antifungical azasterols such as posoconazole (10) and itraconazole (11) [39] (Fig. 3) and naphthoimidazoles N1, N2 and N3 directly affect this pathway (by inhibiting sterol 14α-demethylase and sterol 24-C-methyltransferase, respectively). Additionally, the reactive oxygen species (ROS) detoxification enzymes such as superoxide dismutases, tryparedoxins, trypanothione synthetase and reductase also represent potential drug targets [13, 29, 40] since their participation in parasite virulence and infectivity processes [41] has been described. In this context, several proteomic studies pointed to prostaglandin F2 alpha synthase as a pivotal target [13, 16, 21, 29, 30]. In T. cruzi, this enzyme is involved in drug metabolization [42] and its inhibition could be an interesting strategy for Chagas disease therapeutics. Many proteases became promising targets for chemotherapic intervention, including calpains [31]. The involvement of these proteases in the differentiation process and in the increase of the virulence [43, 44], together with lack of similarity between mammals and the parasites sequences accredits their inhibition as a promising approach [17, 21, 28, 29]. Despite being highly conserved, enzymes catalyzing gluconeogenesis steps also could lend interesting targets. The comparison between the human and the parasite 220

236 sequences of phosphoenolpyruvate carboxykinase showed substantial differences, including amino acid residues possibly involved in the determination of substrate specificity. In 2012, our group also demonstrated two more promising molecular targets: an enzyme involved in purine and pyrimidine salvage named nucleoside phosphorylase, and calcium-binding microtubule-associated protein called I/6 autoantigen [28]. Both molecules were already described in trypanosomatids at least at transcriptional level, but they still are poorly studied [45, 46]. No similarity was found in human proteome database, which reinforces the potential targeting of these proteins for future drug interventions. For the development of alternatives for Chagas disease diagnosis and vaccine development, proteomic analyses have been made in the search of new antigens. In this scenario, surface glycoproteins were investigated and proteins carrying N- and O-linked glycans (essentially mucins) have been described in the plasma membrane of trypomastigotes [20, 25]. In 2012, LC-MS/MS study identified glycosylphosphatidylinositol-anchored proteins in the parasite infective forms, and several major histocompatibility complex classes I and II binding epitopes were predicted by in silico approaches, representing a promising starting point for the development of an efficient vaccine [47]. Furthermore, cruzipain and arginine kinase were also described as interesting candidates to drug targeting. The inhibition of cruzipain was suggested as a valid alternative once this cysteine protease is crucial for the parasite invasion in the host cell [48]. The arginine kinase absence in mammals together with the essential role for the parasite bioenergetics accredits this enzyme as a potential drug target [21, 48]. Recurrent identifications of amino acid metabolism related enzymes such as tyrosine aminotransferase and glutamate dehydrogenase in T. cruzi proteomic studies especially after the treatment with trypanocidal compounds, reinforces the amino acid turnover as an yet unexplored pathway for drug intervention [13, 21, 29]. It was also previously demonstrated that the parasite differentiation is partially blocked by platelet-activating factor (PAF) antagonists, suggesting the presence of PAF receptor in the protozoa [49]. 221

237 3 CHEMICAL PROTEOMICS APPROACHES FOR DRUG TARGET IDENTIFICATION Global proteomics studies like the ones reviewed above where samples are obtained by treating a living whole organism or a cell culture (e.g., the T. cruzi parasite) with a drug known to be active can give very important mechanistic information about proteins being differentially expressed and, hence, which cellular pathways are being affected by drug treatment. Nevertheless, this approach gives no direct information about which molecular targets are actually interacting with the drug added to the experiment. Hence, to fill out this gap a novel field in proteomics analysis has emerged, known as chemical proteomics or chemoproteomics [50-53]. Additionally, the latter has the potential to early determine polypharmacology [54-57] properties, both favorable, e.g. multiple targets from large protein families in drugs active against complex illnesses, like parasitic diseases, coagulopathies, central nervous system's and cancer; and unfavorable, i.e., side effects. Hence, the combination of traditional differential proteomics studies on drug treatment with chemical proteomics can provide crucial information about the mechanisms of action of bioactive molecules in a systems biology context [58]. Such strategy has also been called pharmacoproteomics because it integrates the mechanism of a drug s action, its side effects including toxicity, and the discovery of new drug targets in a single approach [54, 59]. In the following sections we will briefly present the main methodological approaches for each type of chemical proteomics experiment and subsequently review successful application cases in trypanosomatids. 3.1 Main methodological approaches to chemical proteomics As stated above, the isolation of proteome subsets on the basis of the interactions of small molecules with proteins, i.e. chemical proteomics, is an emerging paradigm in proteomics. Chemical proteomics consists in identifying large scale (proteome-wide) protein-small molecule (ligand) interactions. Ligands may be commercial or candidate drugs, or otherwise experimental compounds (hits or leads). Available supports include traditional chromatographic media or other modern materials such as magnetic beads or microarray slides [60]. In the heart of all chemical proteomics approaches are synthetic bi- or trifunctional small molecule probes [61]. These probes contain the small molecules of 222

238 interest (drug, enzyme inhibitor, receptor ligand, etc) as baits (selectivity function), as well as a sorting or reporting function for the isolation or detection of small molecule protein complexes or conjugates out of complex protein mixtures. In many cases, it was found useful to promote a covalent linkage between the bound protein and the probe via a separate reactivity moiety (or warhead) or a combined selectivity/reactivity function. The covalent bond enables isolation or detection of probe protein adducts, even at harsh or denaturing conditions. Ultimately, specifically isolated proteins are often identified by mass spectrometry. Below, we try to didactically divide chemoproteomics approaches in two core methods: affinity capture and protein profiling (Fig. 4). The main difference is that the first class of methods relies on chemical modification of the probe for immobilization on a inert support [62-64] while the latter class depends on addition of a tag to the bioactive molecule under investigation [65]. Protein profiling can either be pursued by an affinity-based or an activity-based approach, where the latter strategy depends on the reactivity of the catalytic site of an enzyme to promote the formation of a covalent bond to the probe Affinity capture (or pull-down) methods The target profile of a bioactive compound can be characterized by an affinity capture, also called pull-down, approach. Although this does not offer immediate information on the activation state of identified proteins as compared with ABPP (see below), it is a more general purpose method that enables the identification of binders of biochemical classes previously unexpected, including those without enzymatic function [66]. In this sense, affinity capture allows for more high throughput and global profiling of novel drug targets. Standard affinity chromatography is the most popular method for pull-down experiments in chemoproteomics. The attachment of a bioactive small molecule to a chromatographic resin is achieved through a functional group, e.g. sulfhydryl, amino, hydroxyl, or carboxyl, that binds to an activated resin, e.g. sepharose or agarose beads [54]. Small molecules that do not contain an appropriate group must be chemically modified, which means that previous knowledge of structure-activity relationship data for the compound is necessary for guiding rational modifications. At any rate, the 223

239 potency of the modified, linked compound should be assayed to ensure that it is preserved. Another important aspect that is crucial for a chemical proteomics approach is the orientation of the drug in the binding pocket of the target and the off-target protein. The use of a linker attached to different sites of the molecule can give further insight into the drug actions as one compound can have different orientations in binding pockets in different proteins, resulting in side effects and toxicity beside the desired biological action [52]. Because unspecific binding to the affinity matrix is so common, this approach requires quite strong binders (typically a dissociation constant, K d < 1 mm is necessary) to produce reliable data. One possible solution is to not directly immobilize the bioactive molecule to the chromatographic support and instead attach it to a biotin molecule, which than can bind to a streptavidin resin (biotin-streptavidin K d is in the order of M) [52]. In fact, this approach can be considered an affinity protein profiling method (see below). Alternatively, a modification in which a photoaffinity label is introduced at the probe molecules to enable a covalent linkage can expand the range of molecules for which this approach is accessible [55]. Thus, conventional affinity chromatography is able to identify direct small molecule protein interactions that can be used for competition experiments [54]. Maybe the major limitation of affinity capture methods is that they are only applicable to small molecules which can be chemically modified for immobilization and do not distinguish specific versus nonspecific interactions. Other important limitations include: the identification of the relevant targets out of a large number of identified proteins, such as unspecific binding of background proteins, the risk of missing the interesting target owing to low abundance, and the risk of missing the target owing to sample processing steps [52]. At any rate, the identified target has to be validated by independent biological experiments Activity-based protein profiling (ABPP) ABPP aims to discover active enzymes in a proteome by analyzing the biological sample treated with a reactive group. Hence, at the core of ABPP is the active-site-directed covalent probe. The most basic architecture of the latter comprise at least three independent parts: a reactive moiety capable of covalently binding to the 224

240 functional catalytic site of the target enzyme; a linker or spacer region, whose major function is to prevent steric hindrance by ensuring sufficient space for the binding of the reactive group (but it can influence on reactivity and specificity as well) and a tag for the further identification (reporter group) and/or purification of modified enzymes. By exploring the mechanistic differences of individual enzyme families, reactive groups are designed to effectively target a selected enzyme family without binding to other proteins [66]. So far, standard ABPP have been developed for a variety of enzyme classes including serine hydrolases, histone deacetylases (HDACs), kinases and cytochrome P450 [54], in particular proteases [67, 68]. The tag (purification or the reporter group) is considered the key element that distinguishes an activity-based probe from a stand-alone mechanism-based inhibitor, which primarily include biotin, fluorescent, and radioactive tags in the ABPP analysis. The biotinylated tags are most frequently used for the enrichment, purification and identification of the target enzymes, nevertheless, fluorescent and radioactive reporter groups are more handy and quicker to analyse than the biotin tags, presenting higher sensitivity and a wider dynamic range than the methods of streptavidin-biotin detection [66]. Probes containing reporter groups are usually employed in gel-based ABPP experiments where the protein extract is treated with the probe and subsequently resolved by bi-dimensional gel electrophoresis (2-DE) followed by gel imaging analysis by a laser scanner. With higher complexity probes, one can engineer a purification tag for pulling out actively labelled enzymes of a complex mixture and subsequently identify them by MS, and additionally bind a fluorophore to the spacer group, so that fluorescence scanning can be used for a differential analysis of treated versus untreated samples [54]. Some of the major advantages of ABPP as a drug discovery tool are potentiated when the proteome is initially treated with a compound (library) before the activitybased probe is applied. In that way, the activity-based probe competes with the compound (library) for binding and the reactive probes will capture less active enzyme when compared to control if there is a binder compound in the library. Hence, this approach can be used to identify inhibitors within the native biological enviroment of the target enzyme. This approach has been named competitive ABPP [54]. 225

241 3.1.3 Affinity (non-covalent) protein profiling (APP) For the purpose of this review, we distinguish protein profiling methods that depends on active site reactivity (i.e., ABPP described above) from other methods where binding of the probe to the target protein is mediated by non-covalent interactions (affinity protein profiling, APP). APP combines the generality of affinity capture methods (not only enzymes can be targeted) with the superior sensitivity and specificity of ABPP. Formation of a covalent bond between the probe and target protein can be useful, especially in gel-based approaches because it prevents dissociation of the probe due to washing and staining steps. Hence, a solution for making possible gel-based APP is to employ a so-called photoaffinity probe. In this kind of probe, a photolabile group is incorporated into the probe structure for covalent attachment to target enzymes. The photolabile group is chemically stable under standard lab conditions but upon irradiation with U.V. radiation becomes reactive and capable of forming adducts with a variety of protein bonds or functional groups. For instance, Chattopadhaya et al. [69] designed a probe useful for gel-based APP of aspartyl proteases by combining a statine amino acid residue (transition state isoster for peptide hydrolisis by aspartyl proteases) as the affinity head-group with a diazirine moiety as the photoaffinity group. This probe additionally presents a spacer arm composed of two valine residues and a lysine residue to where the fluorophore Cy3 was attached Perspectives in chemoproteomics Two fields emerge as key for future advances in chemoproteomics. One such field is the development of small-molecule microarrays (SMM) [60, 70]. Although SMMs have been already employed for high throughput identification and validation of potential drug targets by protein profiling [71], the technology still needs to be further matured to a certain stage where wider and more routine application can be ascertained. The other promising field for the advancement of chemoproteomics is the design of cell-permeable probes for protein profiling in vivo [72, 73]. Regardless of the chemoproteomics approach employed for the characterization of the biological target of a drug molecule, the prerequisite for the success in this quest is that the proteins within the biological sample are in their native (functional) state. Some proteins can perfectly tolerate transfer from the cellular context to a cellular lysate, while others may not [61]. It would be high desirable therefore to work with the proteins in a state as native as 226

242 possible in order to reveal physiologically relevant small molecule protein interactions. Such state can only be assured if assays are performed with live cells or in vivo. Early chemoproteomics probes were too large to permeate cells, preventing them to interact with proteins inside the cells unless they were lysed prior to the probe addition [72]. A seminal work by Speers & Cravatt has set the stage for APP in living cells by employing click chemistry [73]. The latter is an expression referring to a guiding principle in modular synthetic chemistry related to safety and efficiency of a chemical reaction. The copper(i)-catalysed Huisgen cycloaddition reaction between azides and terminal alkynes to form 1,2,3-triazoles is considered by many authors the gold standard of click chemistry due to its reliability, specificity and biocompatibility [74]. Many ABPP or APP probes are cell impermeable because the probe molecule as a whole is too big to cross the cell membrane. The biggest contribution to the high molecular weight (MW) of classical probes comes from the tag moiety. Hence, Speers & Cravatt could solve this problem by creating a tag-free ABPP probe containing just the reactive group and either one of the components of the Huisgen cycloaddition reaction (azide or alkyne). The much smaller and therefore membrane-permeable probe can be reacted with the enzyme in its physiological environment (in vivo) and subsequently clicked (coupled) to the tag containg the complementary click group ex vivo. 3.2 Exemplary applications in trypanosomatids In this section we will review the currently available literature on the application of chemoproteomic methods in trypanosomatids. It was necessary to expand our scope to the entire Trypanosomatidae family because the chemoproteomics approach has only very recently started to be applied on parasites in general and to the best of our knowledge only a single paper [75] has been published on T. cruzi so far. All other papers [76-81] have targeted T. brucei, the causative agent of human African trypanossomiasis (HAT; also known as sleeping sickness). One of these published works included a comparative study between T. brucei, Leishmania donovani and L. major [77]. Leishmania spp parasites cause the disease known as leishmaniasis, which can be presented as distinct types depending on the leishmania species involved (e.g., the cutaneous form caused by L. major and the more aggressive visceral form caused by L. donovani). Overall, we believe that the methodologies employed in the studies reviewed here are fully applicable to T. cruzi and other parasites as well. Therefore going over 227

243 successful cases on T. brucei may inspire other researchers to employ these methods to discover the cellular targets and disclose the molecular mechanism of action for several active, although orphan, drug candidates currently under investigation for treating Chagas disease and other parasitic diseases. In 2009, one of the first published works applying chemoproteomics to trypanosomes, adenosine kinase could be detected as the cellular target for 4-[5-(4- phenoxy-phenyl-2h-pyrazol-3-yl]morpholine derivatives (12-15) (Fig. 5) showing IC 50 T. brucei [76]. Kuettel et al. employed a pull-down method followed by MS analysis to identify the targeted enzyme captured from a total parasite cell (blood stream form) lysate which has been incubated with the active compounds immobilized on an epoxy-activated agarose bearing a 12-atoms spacer. Direct binding assays using recombinant protein, and tests on an adenosine kinase knock-down mutant of the parasite produced by RNA interference confirmed the enzyme as the putative target. Adenosine kinase is a metabolic enzyme involved on purine salvage in trypanosomes [82]. Interestingly, kinetic analyses revealed that the investigated compounds kill the parasite by hyperactivating adenosine kinase, thus representing a novel therapeutic strategy for the development of trypanocides. A similar pull-down approach was adopted by Mercer et al. two years later to pinpoint the possible molecular targets in T. brucei and Leishmania spp of 4-[4-amino- 5-(2-methoxy-benzoyl)-pyrimidin-2-ylamino]-piperidine-1- carboxylic acid phenylamide (SCYX-5070, 16) [77]. SCYX-5070 belongs to the class of diaminopyrimidines (Fig. 6), which have previously been described as potent and selective ATP competitive inhibitors of human cyclin-dependent kinases (CDKs) for potential treatment of cancer [83, 84]. A representative analogue (SCYX-7434, 17) was immobilized by a hydroxyl group (added to the phenylamide moiety) on a solid matrix (Sepharose 6B) and used to isolate target proteins from parasite extracts. For T. brucei, blood stream and procyclic evolutive forms were evaluated while for L. major and L. donovani only promastigotes were assayed. The results suggested that SCYX-7434 recognized similar cellular targets in these trypanosomatid protozoans. A number of kinases, mainly grouped mitogen-activated protein kinases (MAPKs) and cdc2-related kinases (CRKs) were identified as the major proteins specifically bound to the immobilized compound, suggesting their participation in the pharmacological effects of 2,4-diaminopyrimidines. Overall, diaminopyrimidines were shown to have a good in 228

244 vitro and in vivo pharmacological profile against T. brucei, but were also revealed to be potent growth inhibitors of related trypanosomatid protozoans Leishmania spp. By exploiting the click reaction between azides and alkynes, an APP in living parasite cells has been employed by the group of Prof. Shao Q. Yao to reveal the intracellular molecular targets of K11777 (18), azanitrile-containing compounds (19) and orlistat (20) analogues (Fig. 7) in bloodstream and procyclic forms of T. brucei [78, 79, 85]. The authors named this interesting strategy "in situ parasite-based proteome profiling". One interesting aspect of the APP in vivo employed in this work was the possibility to click an imaging tag (e.g. rhodamine-azide) to perform subcellular localization experiments as an alternative to the affinity capture tag (biotin-azide) used for the pulldown assays. K11777 and azadipeptide nitriles are extremely potent cysteine protease inhibitors against papain-like proteases, with the former currently in late-stage clinical trials for Chagas disease [86, 87]. For K11777 and the azanitrile-containing compounds, it was confirmed that both rhodesain and TbCatB are in fact their intracellular targets but the study also allowed profiling/identification of potential cellular off-targets of the compounds. A recent work by Choy et al. attempted to similarly apply the click-based in vivo APP approach with K11777 in T. cruzi amastigotes infecting human macrophages but the presence of an unexpected high affinity off target within the host cell has prevented it [75]. Orlistat (also called tetrahydrolipstatin or THL) is an FDA-approved antiobesity drug targeting primarily the pancreatic and gastric lipases within the gastrointestinal tract. It shows potential activities against tumours, mycobacteria, and parasites. In the case of orlistat and its analogs, the authors found that the drugs target T. brucei proteins involved in lipid and fatty acid metabolic pathways, including lipases, fatty acyl CoA synthetases, and other proteins possessing active serine/cysteine residues. Regulation of protein kinase activity represents a key therapeutic strategy for the treatment of a diverse range of pathological conditions, representing near one-third of current drug discovery programs within the pharmaceutical industry. Analysis of binding site similarity between members of this large protein family has allowed their improved functional classification and opened avenues for exploiting known inhibitors to target yet uncharacterized family members [88]. Aiming to piggy-back on such 229

245 extensive knowledge, Urbaniak et al. [80] developed a competitive chemoproteomics approach for profiling the targets of kinase inhibitors in T. brucei. According to this strategy, parasite cell lysates are incubated in the presence or absence of the test inhibitor prior to the addition of mixed kinase-inhibitor beads (called kinobeads) to enrich kinases and related proteins. The presence of the test kinase inhibitor prevents the binding of its target(s) to the kinobeads. Analysis of the kinobead-bound subproteome by quantitative tandem MS using isobaric tags allowed inhibition curves to be calculated for each protein observed. This strategy is dependent on the sensivity of T. brucei kinases to typical inhibitors of this enzyme class but even though enabled the simultaneous profiling of kinase inhibitor potencies against more than 50 endogenously expressed kinases in parasite cell extracts. Pieretti et al. [81] have employed the typical pull-down strategy for the chemical proteomics characterization of the protein targets involved in the antitrypanosomal activity of naphthoquinone derivatives. The authors found the glycosomal enzymes glycerol kinase and glycosomal glyceraldehyde-3-phosphate dehydrogenase as the potential molecular targets for naphtoquinone B6 (21) (a 2-phenoxy derivative of lawsone, 22) (Fig. 8). Noteworthy, within the bloodstream form of T. brucei 90% of the glycosomes protein content is made up of glycolytic enzymes, a level of compartmentation that is considered essential for the regulation and function of this process, especially during short periods of anaerobiosis [89]. Both targets were confirmed by solution assays over the recombinant enzymes, with IC 50 values in the micromolar range. Since the cytotoxic effect of B6 over T. brucei is affected in the nanomolar range, the trypanocidal action of the tested naphthoquinones may not be solely explained by inhibition of these glycosomal enzymes. In fact, in human cancers -lapachone mechanism is thought to take place by inhibition of DNA topoisomerase II and ROS production [90, 91]. 4 BIOINFORMATICS ANALYSIS Analysis of the T. cruzi proteome by molecular techniques opens opportunities for the development of less toxic and more effective drugs against this parasite. In addition, the large volume of data deposited in databases combined with the great advances in the last decade in the bioinformatics field have the potential to significantly complement the molecular data and enhance the information discovery. In this section, we first describe several proteomic and other drug- and target-related databases and then propose 230

246 approaches and possibilities of integrating these data for the discovery and prioritization of new candidate targets to combat parasitic infections, especially Chagas disease. 4.1 Proteomic databases and resources The databases described below were selected from the survey conducted by Fernándes-Suarez et al. [92] for The 20th Annual Database Issue of Nucleic Acids Research. Here, the main purpose of each database along with the type of stored data and its main characteristics are presented (summarized in Table 2). All databases are publicly accessible via web and some of them provide analysis tools. It was given priority to databases in which we could find data about T. cruzi proteins. Although none is specific for T. cruzi, each one of the selected databases offers substantial benefits for the researcher who works with this organism proteomics, since there is little data deposited in databases about proteomic studies of T. cruzi. On the other hand, we excluded popular databases, well known in the scientific community for proteomic research support, such as 2D-PAGE Proteome Database (2D-PAGE) [93], Proteomics Identifications Database (PRIDE) [94], Global Proteome Machine Database (The GPM) [95] and PeptideAtlas [96]. These databases offer protein and peptide identifications, post-translational modifications, supporting spectral evidence, information about tandem mass spectrometry proteomics experiment and proteins identified on 2D-PAGE maps. Despite having interesting data for model organisms and other protozoa like Plasmodium falciparum and T. brucei, these databases do not provide data for T. cruzi. Considered one of the best bioinformatics resource for proteomics research available on the internet, the Expert Protein Analysis System (ExPASy) [97] provides information about protein functional annotations, domains and orthologous relationships for T. cruzi, but its feature called SWISS-2DPAGE [98], which contains data of various proteins identified on 2D-PAGE and SDS-PAGE reference maps, does not provide data on this organism. Biozon Biozon [99] is a resource to store, manage and analyze inter-related proteins, genes, interactions, protein families, pathways, domains and structures. It integrates heterogeneous data through a graph scheme involved with a hierarchical ontology of documents and relationships. This allows for advanced searches that integrate different data. It stores data published in other sources such as PDB [100], GenBank [101], 231

247 UniProt [102] and KEGG [103] and integrates these new data arising from the similarity between protein sequences and structures and similarities between profile-profile and protein families. Additional data about 3D models, protein-protein interactions, as well as local and global maps of the protein space will be gradually added to Biozon. CutDB CutDB [104] was one of the first efforts to build an easily accessible collection of data about documented proteolytic events for natural proteins in vivo or in vitro. Data kept in the database refer to only three attributes: protease, protein substrate, and cleavage site. Protease data has descriptors from MEROPS [105], which consist of a MEROPS identifier, definition and the name of the organism. Substrate records are based on data from NCBI RefSeq [106] and have the GI sequence identifier, definition, amino acid sequence, organism name and cutting location. Besides these, disease and method of identification of proteolytic event (usually by mass spectrometry or N- terminal sequencing) complete the data. Being a feature-based annotation approach of Wikipedia, it has an interface that allows a user to enter new data. dbptm dbptm [107] is a database that stores data related to biological protein posttranslational modification (PTM) in addition to other data such as catalytic sites, structural information, solvent accessibility of residues, protein secondary structures, protein domains and protein variations. It is an informational resource to investigate the substrate specificity of PTM sites and functional associations between PTM substrates and their interacting proteins. The database integrates PTM experiments from other public biological databases and mass spectrometry (MS/MS) of peptides with PTMs associated cured manually and gathered from various searched articles. Moreover, the PTM substrate sites and the structural topology are graphically represented to facilitate the investigation of PTMs in transmembrane proteins. 4.2 Drug target related databases The increased efforts of the pharmaceutical industry and the academy in the last decades for the discovery of new drugs were fuelled by technological advances in the chemical biology field that have accelerated the synthesis of compounds and improved assay accuracy. Altogether, these advances increased the number of publications and the volume of data generated on new compounds and their biological activities. To store 232

248 these data, a number of publicly accessible databases have been established to facilitate access to different data types, such as targets, drugs and ligands. Below, the contents of the following drug target related databases are briefly described. PubChem PubChem [108] is an open repository that provides experimental data on the biological activities of small molecules. The content of the database includes descriptions of chemical samples and links to data on their biologically active substances, unique compound structures and bioassay test outcomes. Thus, PubChem is organized into three databases that are linked to the NCBI-Entrez information retrieval system [109]: PubChem Substance, PubChem Compound and PubChem Bioassay. PubChem complements its data including other public sources of data on chemical structure and bioactivity. Besides, it also provides tools for search, retrieval and data analysis. CheMBL CheMBL [110] is a database of bioactive drug-like small molecules. It provides data about 2D structures, calculated properties such as molecular weight and Lipinski parameters, and abstracted bioactivities such as binding constants, pharmacology and ADMET (absorption, distribution, metabolism, excretion and toxicity) data. An outline of this database is the possibility of acquiring data manually from the literature, which are cured and standardized to maximize their qualities and uses in various research problems in drug discovery and chemical biology. The database provides data access by direct download functionality or via web services. BindingDB BindingDB [111] is a database that stores data about experimentally determined binding affinities, focusing mainly on the interactions of proteins considered candidates for drug targets with small molecule ligands that are drug-like. Data are extracted either from the scientific literature or the PubChem (selected bioassays) and ChEMBL (drug target proteins) databases. BindindDB offers browsing and searching across different items such as targets, compounds and citations as well as special data sets such as hostguest systems, host-guest binding and protein-ligand validation. The database also allows for downloading all the compounds data such as ligand-target-affinity datasets, 233

249 which include, among others, data from curated articles, ChEMBL or PubChem. BindingDB also provides lists and identifier mappings, which include a fasta file of all target proteins present in the database and the mappings for substances and compounds in PubChem. DrugBank The DrugBank database [112] stores chemical and pharmacological data of drugs combined with data related to their targets such as sequences, structures and pathways. It is the only publicly available bioinformatics resource that combines this kind of data. The database contains over 6,700 drug records including small-molecule drugs approved by FDA (Food and Drug Administration), FDA-approved biotech drugs, nutraceuticals and experimental drugs. The latter represent a large part of the records. Remarkable in this database is the amount of informational fields for each entry (over 150), one part focusing on chemical data and other focusing on protein data and targets. DrugBank offers browsing through all the database records summarized in a tabular format. Clicking on a record of interest, all of the information of this entry is presented. The user is allowed to browse through the drugs grouped by their indication and also draws or writes a chemical compound that can be utilized to search for identical or similar compounds. Furthermore, there is a textual search capability and also a search on various combinations of relational fields. Another feature refers to the possibility of using the BLASTp program on protein sequences contained in the database. Users can download the complete database and also the links to databases and external identifiers. Therapeutic Target Database Therapeutic Target Database (TTD) [113] was created to provide comprehensive information on known and exploited therapeutic proteins, targeted diseases, and pathways, along with the effectiveness of the targets and the corresponding drug candidates in clinical validation and approval. An advantageous feature of this database is the information about target validation, which may include: the potency of the drug and the effects of knockout, knockdown or genetic variants of the target. The database also provides links to external databases containing data about target functions, 3D 234

250 structures, ligand binding properties, enzyme nomenclature, among others. Also important to consider is that all data is referenced by the scientific literature. TDR Targets TDR Targets database [114] was designed and developed as an online resource, presented as a website for searches on targets of interest and as a tool for prioritizing targets. The focus of the database is on pathogens responsible for neglected diseases in humans and on other phylogenetically relevant pathogens. TDR Targets integrates information about gene products arising from primary genomic databases and organism specific information obtained from various databases and published studies. These informations include functional annotation, orthologs, 3D structures, structural models, metabolic pathway classification, gene expression and essentiality. Lists of ggenes for prioritization are done by running simple queries made by users, assigning weights to each query and then combining these results to produce a ranked list of candidate targets. 4.3 Assessing protein druggability Finding new targets is usually not the main bottleneck in the drug discovery process. Despite advances in both computational and experimental fields, less than 0.1% of the biologically active hits identified in the initial phases of the process can be optimized into new lead compounds that could be used in clinical trials [115]. The main cause of failure in this phase of drug development is the lack of favorable pharmacokinetic properties from the candidate compound. Such poor pharmacokinetics can be a reflection of the structure-activity optimization process when directed to a nondruggable binding site within the protein target. Thus, finding promising targets that can help to effectively cross the gap between candidate and actual druggable targets is highly desirable. As discussed in previous sections, the amount of data available for T. cruzi in proteomic databases is limited. On the other hand, various databases related to drug targets have been established. This situation lead us to seek for computational ways to efficiently choose promising drug targets against T. cruzi from these databases. We can define as druggable a target that can be manipulated for therapeutic effects through the binding to a drug-like molecule. Several computational approaches have been used to predict druggable targets. They can be divided into three main groups 235

251 [116]: i) sequence homology based analysis; ii) 3D structural analysis involving searches for binding pockets on the protein surface (not described in this article) and iii) text and data mining approaches. By employing homology analysis, it is possible to utilize the data of the deposited target proteins in these databases to identify druggable targets on infectious agents, such as T. cruzi. The main underlying premise is that if homology can be inferred between the known drug target database protein and the pathogen protein, there is a reasonable chance of the latter to also have a 3D structure bearing a pocket capable of binding a drug-like molecule, characterizing it as new candidate target for drug development [117]. Text mining is another remarkable approach to be explored when there is a scarcity of experimental data deposited in databases. Much relevant information is still only available in scientific articles or, specially for the drug discovery field, in patent applications. To make the best use of text mining, it is necessary to comprehend the work domains, which in the case of drug discovery, combines both chemical and biological data models. For that reason, it is necessary to consider how the chemical compounds are presented in the documents, via text or chemical formulas, and identify genes or proteins, as well as domain-specific terms, such as the term 'druggability'. Another key feature in text mining is known as the "normalization", which is the usage of ontologies to associate the words and expressions within the text. Having such an associated controlled vocabulary is quite relevant to the process of extracting information, reuse and collaboration among researchers. The semantic annotation of texts (or articles) is an ontology-based approach in the scope of text mining that can be used to support the task of choosing articles and extracting data and information from these [117]. Also of relevance to the field is the development of chemical name recognition software, which can be used to extract the chemical terms from a large amount of information in existing patents worldwide [118]. 4.4 Data integration for drug target priorization: the Orlistat example In order to make a better informed decision about which drug targets and compounds should follow the process of drug discovery, researchers need to have access to an integrated view of all their data. For example, let's consider a hypothetical research project in which we would like to get a list of target proteins to be prioritized for drug development against T. cruzi. On way to do this would be finding proteins 236

252 against whom there is at least one associated drug and that also present homologous proteins in T. cruzi proteome, as sketched on Fig. 9. To accomplish this task one would need some level of integration of data contained in different types of databases. Data integration, however, is not a simple task. Data are originally created in research centers with their own terminologies. Furthermore, there is a natural heterogeneity of the data sources in relation to the type of data stored. They include records of biological sequences, pharmaceuticals, chemical structures, pictures, metabolic pathways and scientific articles. Some of the approaches used for integration of data related to drug target include semantic web [ ] and data warehousing [122, 123]. There is also the possibility of performing a simple integration of specific data from multiple sources to meet a particular need. According to previous mentioned approaches, prioritizing drug target is achieved by making the integration of data obtained from analysis based on homology with the informational data. In this scenario, specific data from different sources are utilized, e.g., data related to target proteins and ligands, the pathogen proteome data and informational data like functional annotation, biochemical features of the target and links to other data sources. Moreover, these data can be integrated with the results of information extracted through text mining. On the other hand, the reverse process can also occur, that is, a survey conducted in textual sources can be supplemented with data obtained from the integration of structured data in order to try to find relationships not previously thought and guide further research. Getting back to our hypothetical drug discovery project on T. cruzi, by integrating DrugBank, BindingDB and TTD databases we could retrieve molecular information (amino acid sequence) for several drug targets (not shown). In order to achieve this, homology-based analysis was carried out between the protein targets from those databases and proteins from five protozoa parasites (E. histolytica, L. major, P. falciparum, T. brucei and T. cruzi) [117] using the BLASTp program. A fundamental criteria considered in implementing the analysis was the e-value (1x10-5 ). Using too stringent (low) values may not return more distant homologous protein pairs (as is the case between protozoa and human, for example), but conversely, if one uses an overly high e-value there may be many false positives. Furthermore, it was necessary to carefully analyze the BLASTp results to minimize false positives. For instance, one can filter the results in order to keep only those protein pairs with a relevant similarity percentage and alignment length. For the purpose of this analysis, length was set 237

253 greater than or equal to 100 aligned residues and must involve at least 50% the length of either one of the aligned sequences to more accurately permit transferring of the annotated biological function [117]. Clearly, the pathogen proteins identified as homologous to the database proteins cannot be assured as druggable but should surely be considered as potential drug targets. Furthermore, searching for homologous proteins in drug target databases also offers opportunities to find small molecular ligands that can be tested in order to serve as starting points for the development of new drugs against an infectious agent. The homology search in our example disclosed that all five protozoa possess homologous proteins to some of the orlistat targets listed in Table 3. Orlistat is a drug approved by the FDA, used to treat obesity that targets mainly the gastric and pancreatic lipases within the gastrointestinal tract. More specifically, we found that the species L. major, T. brucei and T. cruzi shares the same targets, which are, monoacylglycerol lipase ABHD12 and LDL-associated phospholipase A2 (Table 3). The results from our example suggest that orlistat would be a new broad spectrum antiprotozoal drug. Validating such hypothesis there are studies of Yang et al. on the evaluation of orlistat-derived compounds which have potent trypanocidal activity in both bloodstream (BSF) and procyclic form (PCF) of T. brucei [79]. Along with the search of the literature for supporting information, other computational studies should complement this approach such as the analysis of gene essentiality [ ] or the characterization of physico-chemical properties in pockets on the 3D structures of these proteins [ ]. Nevertheless, the above example undoubtedly demonstrates how data integration through different bioinformatics techniques can support the decision of which targets should be prioritized for drug development in T. cruzi. 5 CLOSING REMARKS: NEW ADVANCES FOR CHAGAS DISEASE DRUG DEVELOPMENT Interdisciplinary research groups involving different expertises such as medicinal chemistry, proteomics and molecular modeling were created in order to enhance the potency of the current chemotherapeutics and also decrease their cytotoxicity [131]. Recently, advances in large scale screening allowed for the evaluation of the trypanocidal effect of new compounds on clinical relevant forms of T. cruzi (amastigotes and trypomastigotes) [132]. Different formulations of available commercial drugs (whose human pharmacokinetics is well-known) were also tested, 238

254 including synergic combinations in order to increase the activity against the parasite and decrease the side effects [133]. Most studies about experimental Chagas disease chemotherapy described organelles and pathways in the parasite susceptible to the treatment, however the precise mode of action continue poorly characterized [8, ]. T. cruzi cytockeleton, especially microtubules, represents a recurrent target of a large number of compounds and is probably related to the observed shape alterations in treated protozoa [ ]. Several promising trypanocidal compounds promote deregulation of lipid biosynthesis and consequently disruption of the protozoa plasma membrane [136, 144]. The mitochondrion represents the most recurrent drug target in T. cruzi. The intensity of the alterations in this organelle is time-dependent, varying with the compound employed [33, 34, , 142, 145]. The presence of a single mitochondrion together with the rudimentary antioxidant defenses and the presence of alternative oxidases accredits molecules involved in mitochondrial metabolism as good candidates for drug intervention [15, 146, 147]. A specialized region where the mitochondrial DNA is restricted named kinetoplast is also commonly affected by distinct drugs [8, 33, 34, 134, 148]. Despites the high efficacy of benznidazole in the treatment of chagasic patients in acute phase, the development of alternatives for chronic infections is mandatory. Latin America countries such as Bolivia are still heavily affected, and Chagas disease still leads to serious problems for public health policy, even one century after its discovery. An ideal novel compound should present reduced costs and low side effects, in addition to a potent activity in all stages of this illness [149]. Nevertheless, finding such ideal drug for Chagas disease has been proved very puzzling. Key for the reduction of the side effects is the selection of specific and druggable molecular targets in the parasite. Hence, traditional as well as novel chemical proteomics and bioinformatics approaches become important tools to bring new pieces to this old puzzle. ACKNOWLEDGEMENTS The present study was supported by grants from Fundação Carlos Chagas Filho de Amparo a Pesquisa do Estado do Rio de Janeiro (FAPERJ), Conselho Nacional de 239

255 Desenvolvimento Científico e Tecnológico (CNPq), and Fundação Oswaldo Cruz (Fiocruz). CONFLICT OF INTEREST None to declare. 240

256 REFERENCES 1. Moncayo A, Ortiz Yanine MI. An update on Chagas disease (human American trypanosomiasis). Ann Trop Med Parasitol Dec;100(8): Schmunis GA. Epidemiology of Chagas disease in non-endemic countries: the role of international migration. Mem Inst Oswaldo Cruz Oct 30;102 Suppl 1: Rassi Jr A, Rassi A, Marin-Neto JA. Chagas heart disease: pathophysiologic mechanisms, prognostic factors and risk stratification. Mem Inst Oswaldo Cruz Jul;104 Suppl 1: Sosa-Estani S, Viotti R, Segura EL. Therapy, diagnosis and prognosis of chronic Chagas disease: insight gained in Argentina. Mem Inst Oswaldo Cruz Jul;104 Suppl 1: Rocha MO, Teixeira MM, Ribeiro AL. An update on the management of Chagas cardiomyopathy. Expert Rev Anti Infect Ther Aug;5(4): Rodriques Coura J, de Castro SL. A critical review on Chagas disease chemotherapy. Mem Inst Oswaldo Cruz Jan;97(1): Soeiro Mde N, de Castro SL. Screening of Potential anti-trypanosoma cruzi Candidates: In Vitro and In Vivo Studies. Open Med Chem J. 2011;5: Menna-Barreto RF, Salomao K, Dantas AP, et al. Different cell death pathways induced by drugs in Trypanosoma cruzi: an ultrastructural study. Micron Feb;40(2): Caffrey CR, Rohwer A, Oellien F, et al. A comparative chemogenomics strategy to predict potential drug targets in the metazoan pathogen, Schistosoma mansoni. PLoS One. 2009;4(2):e Aguero F, Al-Lazikani B, Aslett M, et al. Genomic-scale prioritization of drug targets: the TDR Targets database. Nat Rev Drug Discov Nov;7(11): Clayton C, Shapira M. Post-transcriptional regulation of gene expression in trypanosomes and leishmanias. Mol Biochem Parasitol Dec;156(2): Holetz FB, Alves LR, Probst CM, et al. Protein and mrna content of TcDHH1- containing mrnps in Trypanosoma cruzi. FEBS J Aug;277(16): Menna-Barreto RF, Beghini DG, Ferreira AT, Pinto AV, De Castro SL, Perales J. A proteomic analysis of the mechanism of action of naphthoimidazoles in Trypanosoma cruzi epimastigotes in vitro. J Proteomics Nov 10;73(12):

257 14. Paba J, Santana JM, Teixeira AR, Fontes W, Sousa MV, Ricart CA. Proteomic analysis of the human pathogen Trypanosoma cruzi. Proteomics Apr;4(4): Goncalves RL, Barreto RF, Polycarpo CR, Gadelha FR, Castro SL, Oliveira MF. A comparative assessment of mitochondrial function in epimastigotes and bloodstream trypomastigotes of Trypanosoma cruzi. J Bioenerg Biomembr Dec;43(6): Parodi-Talice A, Duran R, Arrambide N, et al. Proteome analysis of the causative agent of Chagas disease: Trypanosoma cruzi. Int J Parasitol Jul;34(8): Atwood JA 3rd, Weatherly DB, Minning TA, et al. The Trypanosoma cruzi proteome. Science Jul 15;309(5733): Parodi-Talice A, Monteiro-Goes V, Arrambide N, et al. Proteomic analysis of metacyclic trypomastigotes undergoing Trypanosoma cruzi metacyclogenesis. J Mass Spectrom Nov;42(11): Magalhaes AD, Charneau S, Paba J, et al. Trypanosoma cruzi alkaline 2-DE: Optimization and application to comparative proteome analysis of flagellate life stages. Proteome Sci. 2008;6: Cordero EM, Nakayasu ES, Gentil LG, Yoshida N, Almeida IC, da Silveira JF. Proteomic analysis of detergent-solubilized membrane proteins from insectdevelopmental forms of Trypanosoma cruzi. J Proteome Res Jul;8(7): Sodre CL, Chapeaurouge AD, Kalume DE, de Mendonca Lima L, Perales J, Fernandes O. Proteomic map of Trypanosoma cruzi CL Brener: the reference strain of the genome project. Arch Microbiol Feb;191(2): Perez-Morales D, Lanz-Mendoza H, Hurtado G, Martinez-Espinosa R, Espinoza B. Proteomic analysis of Trypanosoma cruzi epimastigotes subjected to heat shock. J Biomed Biotechnol. 2012;2012: de Godoy LM, Marchini FK, Pavoni DP, et al. Quantitative proteomics of Trypanosoma cruzi during metacyclogenesis. Proteomics Aug;12(17): Gonzales-Perdomo M, Romero P, Goldenberg S. Cyclic AMP and adenylate cyclase activators stimulate Trypanosoma cruzi differentiation. Exp Parasitol Aug;66(2): Atwood JA 3rd, Minning T, Ludolf F, et al. Glycoproteomics of Trypanosoma cruzi trypomastigotes using subcellular fractionation, lectin affinity, and stable isotope labeling. J Proteome Res Dec;5(12):

258 26. Nakayasu ES, Gaynor MR, Sobreira TJ, Ross JA, Almeida IC. Phosphoproteomic analysis of the human pathogen Trypanosoma cruzi at the epimastigote stage. Proteomics Jul;9(13): Marchini FK, de Godoy LM, Rampazzo RC, et al. Profiling the Trypanosoma cruzi phosphoproteome. PLoS One. 2011;6(9):e Beghini DG, Ferreira ATS, Almeida VC, et al. New insights in Trypanosoma cruzi proteomic map: further post-translational modifications and potential drug targets in Y strain epimastigotes. J Integr Omics. 2012;2: Andrade HM, Murta SM, Chapeaurouge A, Perales J, Nirde P, Romanha AJ. Proteomic analysis of Trypanosoma cruzi resistance to Benznidazole. J Proteome Res Jun;7(6): Murta SM, Krieger MA, Montenegro LR, et al. Deletion of copies of the gene encoding old yellow enzyme (TcOYE), a NAD(P)H flavin oxidoreductase, associates with in vitro-induced benznidazole resistance in Trypanosoma cruzi. Mol Biochem Parasitol Apr;146(2): Vermelho AB, De Simone SG, Levy CMD, et al. Trypanosomatidae Peptidases: A Target for Drugs Development. Current Enzyme Inhibition. 2007;3: de Castro SL, Batista DG, Batista MM, et al. Experimental Chemotherapy for Chagas Disease: A Morphological, Biochemical, and Proteomic Overview of Potential Trypanosoma cruzi Targets of Amidines Derivatives and Naphthoquinones. Mol Biol Int. 2011;2011: Menna-Barreto RF, Henriques-Pons A, Pinto AV, Morgado-Diaz JA, Soares MJ, de Castro SL. Effect of a beta-lapachone-derived naphthoimidazole on Trypanosoma cruzi: identification of target organelles. J Antimicrob Chemother Dec;56(6): Menna-Barreto RF, Correa JR, Pinto AV, Soares MJ, de Castro SL. Mitochondrial disruption and DNA fragmentation in Trypanosoma cruzi induced by naphthoimidazoles synthesized from beta-lapachone. Parasitol Res Sep;101(4): Salas CO, Faundez M, Morello A, Maya JD, Tapia RA. Natural and synthetic naphthoquinones active against Trypanosoma cruzi: an initial step towards new drugs for Chagas disease. Curr Med Chem. 2011;18(1):

259 36. Kapadia GJ, Azuine MA, Balasubramanian V, Sridhar R. Aminonaphthoquinones--a novel class of compounds with potent antimalarial activity against Plasmodium falciparum. Pharmacol Res Apr;43(4): Oliveira CGT, Frederico FM, Ferreira VF, et al. Synthesis and antimicrobial evaluation of 3-hydrazino-naphthoquinones as analogs of lapachol. J Braz Chem Soc. 2001;12: Gupta D, Podar K, Tai YT, et al. beta-lapachone, a novel plant product, overcomes drug resistance in human multiple myeloma cells. Exp Hematol Jul;30(7): Urbina JA. Ergosterol biosynthesis and drug development for Chagas disease. Mem Inst Oswaldo Cruz Jul;104 Suppl 1: Irigoin F, Cibils L, Comini MA, Wilkinson SR, Flohe L, Radi R. Insights into the redox biology of Trypanosoma cruzi: Trypanothione metabolism and oxidant detoxification. Free Radic Biol Med Sep 15;45(6): Piacenza L, Alvarez MN, Peluffo G, Radi R. Fighting the oxidative assault: the Trypanosoma cruzi journey to infection. Curr Opin Microbiol Aug;12(4): Kubata BK, Duszenko M, Kabututu Z, et al. Identification of a novel prostaglandin f(2alpha) synthase in Trypanosoma brucei. J Exp Med Nov 6;192(9): Ennes-Vidal V, Menna-Barreto RF, Santos AL, Branquinha MH, d'avila-levy CM. MDL28170, a calpain inhibitor, affects Trypanosoma cruzi metacyclogenesis, ultrastructure and attachment to Rhodnius prolixus midgut. PLoS One. 2011;6(4):e Ennes-Vidal V, Menna-Barreto RF, Santos AL, Branquinha MH, d'avila-levy CM. Effects of the calpain inhibitor MDL28170 on the clinically relevant forms of Trypanosoma cruzi in vitro. J Antimicrob Chemother Jul;65(7): Detmer E, Hemphill A, Muller N, Seebeck T. The Trypanosoma brucei autoantigen I/6 is an internally repetitive cytoskeletal protein. Eur J Cell Biol Apr;72(4): Silva RG, Vetticatt MJ, Merino EF, Cassera MB, Schramm VL. Transition-state analysis of Trypanosoma cruzi uridine phosphorylase-catalyzed arsenolysis of uridine. J Am Chem Soc Jun 29;133(25):

260 47. Nakayasu ES, Sobreira TJ, Torres R, Jr., et al. Improved proteomic approach for the discovery of potential vaccine targets in Trypanosoma cruzi. J Proteome Res Jan 1;11(1): Kikuchi SA, Sodre CL, Kalume DE, et al. Proteomic analysis of two Trypanosoma cruzi zymodeme 3 strains. Exp Parasitol Dec;126(4): Kawano DF, Silva VB, Jorge DM, Silva CH, Carvalho I. Search for a plateletactivating factor receptor in the Trypanosoma cruzi proteome: a potential target for Chagas disease chemotherapy. Mem Inst Oswaldo Cruz Dec;106(8): Miao Q, Zhang CC, Kast J. Chemical proteomics and its impact on the drug discovery process. Expert Rev Proteomics Jun;9(3): Wang K, Yang T, Wu Q, Zhao X, Nice EC, Huang C. Chemistry-based functional proteomics for drug target deconvolution. Expert Rev Proteomics Jun;9(3): Raida M. Drug target deconvolution by chemical proteomics. Curr Opin Chem Biol Aug;15(4): Rix U, Superti-Furga G. Target profiling of small molecules by chemical proteomics. Nat Chem Biol Sep;5(9): Hess S. The emerging field of chemo- and pharmacoproteomics. Proteomics Clin Appl Jan;7(1-2): Krysiak J, Breinbauer R. Activity-based protein profiling for natural product target discovery. Top Curr Chem. 2012;324: Bantscheff M, Scholten A, Heck AJ. Revealing promiscuous drug-target interactions by chemical proteomics. Drug Discov Today Nov;14(21-22): Kruse U, Bantscheff M, Drewes G, Hopf C. Chemical and pathway proteomics: powerful tools for oncology drug discovery and personalized health care. Mol Cell Proteomics Oct;7(10): Colinge J, Rix U, Bennett KL, Superti-Furga G. Systems biology analysis of protein-drug interactions. Proteomics Clin Appl Jan;6(1-2): Wang LS, Xia L, Shen SM, Zheng Y, Yu Y, Chen GQ. Dissecting cell death with proteomic scalpels. Proteomics Feb;12(4-5): Uttamchandani M, Walsh DP, Yao SQ, Chang YT. Small molecule microarrays: recent advances and applications. Curr Opin Chem Biol Feb;9(1): Lenz T, Fischer JJ, Dreger M. Probing small molecule-protein interactions: A new perspective for functional proteomics. J Proteomics Dec 10;75(1):

261 62. Saxena C, Higgs RE, Zhen E, Hale JE. Small-molecule affinity chromatography coupled mass spectrometry for drug target deconvolution. Expert Opin Drug Discov Jul;4(7): Roque AC, Lowe CR. Advances and applications of de novo designed affinity ligands in proteomics. Biotechnol Adv Jan-Feb;24(1): Katayama H, Oda Y. Chemical proteomics for drug discovery based on compound-immobilized affinity chromatography. J Chromatogr B Analyt Technol Biomed Life Sci Aug;855(1): Campbell DA, Szardenings AK. Functional profiling of the proteome with affinity labels. Curr Opin Chem Biol Apr;7(2): Huang F, Zhang B, Zhou S, Zhao X, Bian C, Wei Y. Chemical proteomics: terra incognita for novel drug target profiling. Chin J Cancer Nov;31(11): Fonovic M, Bogyo M. Activity based probes for proteases: applications to biomarker discovery, molecular imaging and drug screening. Curr Pharm Des. 2007;13(3): Chan EW, Chattopadhaya S, Panicker RC, Huang X, Yao SQ. Developing photoactive affinity probes for proteomic profiling: hydroxamate-based probes for metalloproteases. J Am Chem Soc Nov 10;126(44): Chattopadhaya S, Chan EWS, Yao SQ. An affinity-based probe for the proteomic profiling of aspartic proteases. Tetrahedron Letters. 2005;46(23). 70. Wu H, Ge J, Uttamchandani M, Yao SQ. Small molecule microarrays: the first decade and beyond. Chem Commun (Camb) May 28;47(20): Duffner JL, Clemons PA, Koehler AN. A pipeline for ligand discovery using small-molecule microarrays. Curr Opin Chem Biol Feb;11(1): Salisbury CM, Cravatt BF. Click chemistry-ledge advances in high content functional proteomics. QSAR & Combinatorial Science. 2007;26(11-12): Speers AE, Cravatt BF. Profiling enzyme activities in vivo using click chemistry methods. Chem Biol Apr;11(4): Moses JE, Moorhouse AD. The growing applications of click chemistry. Chem Soc Rev Aug;36(8): Choy JW, Bryant C, Calvet CM, et al. Chemical-biological characterization of a cruzain inhibitor reveals a second target and a mammalian off-target. Beilstein J Org Chem. 2013;9:

262 76. Kuettel S, Mosimann M, Maser P, et al. Adenosine Kinase of T. b. Rhodesiense identified as the putative target of 4-[5-(4-phenoxyphenyl)-2H-pyrazol-3-yl]morpholine using chemical proteomics. PLoS Negl Trop Dis. 2009;3(8):e Mercer L, Bowling T, Perales J, et al. 2,4-Diaminopyrimidines as potent inhibitors of Trypanosoma brucei and identification of molecular targets by a chemical proteomics approach. PLoS Negl Trop Dis. 2011;5(2):e Yang PY, Wang M, Li L, Wu H, He CY, Yao SQ. Design, synthesis and biological evaluation of potent azadipeptide nitrile inhibitors and activity-based probes as promising anti-trypanosoma brucei agents. Chemistry May 21;18(21): Yang PY, Wang M, Liu K, et al. Parasite-based screening and proteome profiling reveal orlistat, an FDA-approved drug, as a potential anti Trypanosoma brucei agent. Chemistry Jul 2;18(27): Urbaniak MD, Mathieson T, Bantscheff M, et al. Chemical proteomic analysis reveals the drugability of the kinome of Trypanosoma brucei. ACS Chem Biol Nov 16;7(11): Pieretti S, Haanstra JR, Mazet M, et al. Naphthoquinone derivatives exert their antitrypanosomal activity via a multi-target mechanism. PLoS Negl Trop Dis. 2013;7(1):e Hammond DJ, Gutteridge WE. Purine and pyrimidine metabolism in the Trypanosomatidae. Mol Biochem Parasitol Nov;13(3): Chu XJ, DePinto W, Bartkovitz D, et al. Discovery of [4-Amino-2-(1- methanesulfonylpiperidin-4-ylamino)pyrimidin-5-yl](2,3-difluoro-6- methoxyphenyl)methanone (R547), a potent and selective cyclin-dependent kinase inhibitor with significant in vivo antitumor activity. J Med Chem Nov 2;49(22): DePinto W, Chu XJ, Yin X, et al. In vitro and in vivo activity of R547: a potent and selective cyclin-dependent kinase inhibitor currently in phase I clinical trials. Mol Cancer Ther Nov;5(11): Yang PY, Wang M, He CY, Yao SQ. Proteomic profiling and potential cellular target identification of K11777, a clinical cysteine protease inhibitor, in Trypanosoma brucei. Chem Commun (Camb) Jan 21;48(6): Barr SC, Warner KL, Kornreic BG, et al. Antimicrob. Agents Chemother. 2005;

263 87. Loser R, Frizler M, Schilling K, Gutschow M. Azadipeptide nitriles: highly potent and proteolytically stable inhibitors of papain-like cysteine proteases. Angew Chem Int Ed Engl. 2008;47(23): Kinnings SL, Jackson RM. Binding site similarity analysis for the functional classification of the protein kinase family. J Chem Inf Model Feb;49(2): Michels PA, Bringaud F, Herman M, Hannaert V. Metabolic functions of glycosomes in trypanosomatids. Biochim Biophys Acta Dec;1763(12): Planchon SM, Pink JJ, Tagliarino C, Bornmann WG, Varnes ME, Boothman DA. beta-lapachone-induced apoptosis in human prostate cancer cells: involvement of NQO1/xip3. Exp Cell Res Jul 1;267(1): Frydman B, Marton LJ, Sun JS, et al. Induction of DNA topoisomerase IImediated DNA cleavage by beta-lapachone and related naphthoquinones. Cancer Res Feb 15;57(4): Fernandez-Suarez XM, Galperin MY. The 2013 Nucleic Acids Research Database Issue and the online molecular biology database collection. Nucleic Acids Res Jan;41(Database issue):d Pleissner KP, Eifert T, Buettner S, et al. Web-accessible proteome databases for microbial research. Proteomics May;4(5): Vizcaino JA, Cote RG, Csordas A, et al. The PRoteomics IDEntifications (PRIDE) database and associated tools: status in Nucleic Acids Res Jan;41(Database issue):d Craig R, Cortens JP, Beavis RC. Open source system for analyzing, validating, and storing protein identification data. J Proteome Res Nov-Dec;3(6): Desiere F, Deutsch EW, Nesvizhskii AI, et al. Integration with the human genome of peptide sequences obtained by high-throughput mass spectrometry. Genome Biol. 2005;6(1):R Artimo P, Jonnalagedda M, Arnold K, et al. ExPASy: SIB bioinformatics resource portal. Nucleic Acids Res Jul;40(Web Server issue):w Hoogland C, Mostaguir K, Sanchez JC, Hochstrasser DF, Appel RD. SWISS- 2DPAGE, ten years later. Proteomics Aug;4(8): Birkland A, Yona G. BIOZON: a system for unification, management and analysis of heterogeneous biological data. BMC Bioinformatics. 2006;7: Berman HM, Bhat TN, Bourne PE, et al. The Protein Data Bank and the challenge of structural genomics. Nat Struct Biol Nov;7 Suppl:

264 101. Benson DA, Cavanaugh M, Clark K, et al. GenBank. Nucleic Acids Res Jan;41(Database issue):d The UniProt Consortium. Reorganizing the protein space at the Universal Protein Resource (UniProt). Nucleic Acids Res Jan;40(Database issue):d Kanehisa M, Goto S. KEGG: kyoto encyclopedia of genes and genomes. Nucleic Acids Res Jan 1;28(1): Igarashi Y, Eroshkin A, Gramatikova S, et al. CutDB: a proteolytic event database. Nucleic Acids Res Jan;35(Database issue):d Rawlings ND, Barrett AJ, Bateman A. MEROPS: the database of proteolytic enzymes, their substrates and inhibitors. Nucleic Acids Res Jan;40(Database issue):d Pruitt KD, Tatusova T, Brown GR, Maglott DR. NCBI Reference Sequences (RefSeq): current status, new features and genome annotation policy. Nucleic Acids Res Jan;40(Database issue):d Lee TY, Huang HD, Hung JH, Huang HY, Yang YS, Wang TH. dbptm: an information repository of protein post-translational modification. Nucleic Acids Res Jan 1;34(Database issue):d Bolton E, Wang, Y., Thiessen, P.A., Bryant, S.H. PubChem: Integrated Platform of Small Molecules and Biological Activities. Anual Reports in Computational Systems. 2008; Entrez. Available at: [acessed April 01, 2013] Gaulton A, Bellis LJ, Bento AP, et al. ChEMBL: a large-scale bioactivity database for drug discovery. Nucleic Acids Res Jan;40(Database issue):d Liu T, Lin Y, Wen X, Jorissen RN, Gilson MK. BindingDB: a web-accessible database of experimentally determined protein-ligand binding affinities. Nucleic Acids Res Jan;35(Database issue):d Knox C, Law V, Jewison T, et al. DrugBank 3.0: a comprehensive resource for 'omics' research on drugs. Nucleic Acids Res Jan;39(Database issue):d Zhu F, Shi Z, Qin C, et al. Therapeutic target database update 2012: a resource for facilitating target-oriented drug discovery. Nucleic Acids Res Jan;40(Database issue):d

265 114. Magarinos MP, Carmona SJ, Crowther GJ, et al. TDR Targets: a chemogenomics resource for neglected diseases. Nucleic Acids Res Jan;40(Database issue):d Pollastri MP, Campbell RK. Target repurposing for neglected diseases. Future Med Chem Aug;3(10): Li Q, Lai L. Prediction of potential drug targets based on simple sequence properties. BMC Bioinformatics. 2007;8: Belloze KT. Priorização de alvos para fármacos para combater doenças tropicais negligenciadas causadas por protozoários. PhD Thesis. Rio de Janeiro: Oswaldo Cruz Foundation; September Hopkins AL, Bickerton GR, Carruthers IM, Boyer SK, Rubin H, Overington JP. Rapid analysis of pharmacology for infectious diseases. Curr Top Med Chem. 2011;11(10): Williams AJ, Harland L, Groth P, et al. Open PHACTS: semantic interoperability for drug discovery. Drug Discov Today Nov;17(21-22): Wild DJ, Ding Y, Sheth AP, Harland L, Gifford EM, Lajiness MS. Systems chemical biology and the Semantic Web: what they mean for the future of drug discovery research. Drug Discov Today May;17(9-10): Chen B, Ding Y, Wild DJ. Assessing drug target association using semantic linked data. PLoS Comput Biol. 2012;8(7):e Gunther S, Kuhn M, Dunkel M, et al. SuperTarget and Matador: resources for exploring drug-target relationships. Nucleic Acids Res Jan;36(Database issue):d Chen YA, Tripathi LP, Mizuguchi K. TargetMine, an integrated data warehouse for candidate gene prioritisation and target discovery. PLoS One. 2011;6(3):e Chavali AK, Blazier AS, Tlaxca JL, Jensen PA, Pearson RD, Papin JA. Metabolic network analysis predicts efficacy of FDA-approved drugs targeting the causative agent of a neglected tropical disease. BMC Syst Biol. 2012;6: Xu C, Cheng F, Chen L, et al. In silico prediction of chemical Ames mutagenicity. J Chem Inf Model Nov 26;52(11): Wyatt PG, Gilbert IH, Read KD, Fairlamb AH. Target validation: linking target and chemical properties to desired product profile. Curr Top Med Chem. 2011;11(10):

266 127. Doyle MA, Gasser RB, Woodcroft BJ, Hall RS, Ralph SA. Drug target prediction and prioritization: using orthology to predict essentiality in parasite genomes. BMC Genomics. 2010;11: Chanumolu SK, Rout C, Chauhan RS. UniDrug-target: a computational tool to identify unique drug targets in pathogenic bacteria. PLoS One. 2012;7(3):e Ortiz-Sanchez JM, Nichols SE, Sayyah J, Brown JH, McCammon JA, Grant BJ. Identification of potential small molecule binding pockets on Rho family GTPases. PLoS One. 2012;7(7):e Huang N, Jacobson MP. Binding-site assessment by virtual fragment screening. PLoS One. 2010;5(4):e Romanha AJ, Castro SL, Soeiro Mde N, et al. In vitro and in vivo experimental models for drug screening and development for Chagas disease. Mem Inst Oswaldo Cruz Mar;105(2): Buckner FS, Navabi N. Advances in Chagas disease drug development: Curr Opin Infect Dis Dec;23(6): Abad-Franch F, Santos WS, Schofield CJ. Research needs for Chagas disease prevention. Acta Trop Jul-Aug;115(1-2): Menna-Barreto RF, Goncalves RL, Costa EM, et al. The effects on Trypanosoma cruzi of novel synthetic naphthoquinones are mediated by mitochondrial dysfunction. Free Radic Biol Med Sep 1;47(5): Rodrigues CO, Catisti R, Uyemura SA, et al. The sterol composition of Trypanosoma cruzi changes after growth in different culture media and results in different sensitivity to digitonin-permeabilization. J Eukaryot Microbiol Sep- Oct;48(5): De Souza EM, Lansiaux A, Bailly C, et al. Phenyl substitution of furamidine markedly potentiates its anti-parasitic activity against Trypanosoma cruzi and Leishmania amazonensis. Biochem Pharmacol Aug 15;68(4): Vannier-Santos MA, De Castro SL. Electron microscopy in antiparasitic chemotherapy: a (close) view to a kill. Curr Drug Targets Mar;10(3): de Souza W, Rodrigues JC. Sterol Biosynthesis Pathway as Target for Antitrypanosomatid Drugs. Interdiscip Perspect Infect Dis. 2009;2009: Soeiro MNC, Daliry A, Silva CF, et al. Microscopy: Science, Technology, Applications and Education. Badajoz: Formatex Research Center;

267 140. Teixeira DE, Benchimol M, Crepaldi PH, de Souza W. Interactive multimedia to teach the life cycle of Trypanosoma cruzi, the causative agent of Chagas disease. PLoS Negl Trop Dis Aug;6(8):e Silva CF, Meuser MB, De Souza EM, et al. Cellular effects of reversed amidines on Trypanosoma cruzi. Antimicrob Agents Chemother Nov;51(11): Batista DG, Pacheco MG, Kumar A, et al. Biological, ultrastructural effect and subcellular localization of aromatic diamidines in Trypanosoma cruzi. Parasitology Feb;137(2): Fernandes MC, Da Silva EN, Pinto AV, De Castro SL, Menna-Barreto RF. A novel triazolic naphthofuranquinone induces autophagy in reservosomes and impairment of mitosis in Trypanosoma cruzi. Parasitology Jan;139(1): Santa-Rita RM, Barbosa HS, de Castro SL. Ultrastructural analysis of edelfosine-treated trypomastigotes and amastigotes of Trypanosoma cruzi. Parasitol Res Dec;100(1): da Silva CF, Batista MM, Batista Dda G, et al. In vitro and in vivo studies of the trypanocidal activity of a diarylthiophene diamidine against Trypanosoma cruzi. Antimicrob Agents Chemother Sep;52(9): Stoppani AO. The chemotherapy of Chagas disease. Medicina (B Aires). 1999;59 Suppl 2: Fang J, Beattie DS. Alternative oxidase present in procyclic Trypanosoma brucei may act to lower the mitochondrial production of superoxide. Arch Biochem Biophys Jun 15;414(2): De Souza EM, Menna-Barreto R, Araujo-Jorge TC, et al. Antiparasitic activity of aromatic diamidines is related to apoptosis-like death in Trypanosoma cruzi. Parasitology Jul;133(Pt 1): Nwaka S, Hudson A. Innovative lead discovery strategies for tropical diseases. Nat Rev Drug Discov Nov;5(11):

268 TABLES Table 1. The activity of the naphthoimidazoles N1, N2 and N3 on different T. cruzi evolutive forms a compound trypomastigotes amastigotes b epimastigotes N (± 1.2) c 9.0 (± 2.9) 82.8 (± 7.4) N (± 1.2) 6.5 (± 1.0) 36.0 (± 1.9) N (± 0.9) 7.2 (± 0.2) 30.7 (± 3.6) a Inhibitory concentration (IC 50 /24 h) values in µm [33, 34]. b Number of amastigotes/100 peritoneal macrophages. c Mean ± SD of at least 3 independent experiments. 253

269 Table 2. Databases and bioinformatics analysis tools useful for drug target identification. Name Type* Content Web address Biozon D, T DNA sequences, proteins, complexes and cellular pathways CutDB D Annotation of individual proteolytic events dbptm D Protein post-translational modifications (PTMs) PubChem D, T Information on the biological activities of small molecules CheMBL D, T Bioactive drug-like small molecules BindingDB D, T Measured binding affinities DrugBank D Detailed drug and comprehensive drug Therapeutic Target Database TDR Targets D * D: database; T: analysis tools target information Information about known therapeutic protein and nucleic acid targets, the targeted disease, pathway and the corresponding drugs Explores the availability of various datasets to facilitate the identification and priorization of drugs and drug targets

270 Table 3. Targets of Orlistat and their corresponding homologous proteins in protozoa. Targets of Orlistat BindingDB* Protozoan especies Protozoan Protein GI Fatty acid amide hydrolase L. major XP_ Fatty acid synthase P. falciparum XP_ LDL-associated phospholipase A2 L. major XP_ T. brucei XP_ T. cruzi XP_ Monoacylglycerol lipase ABHD12 E. histolytica XP_ L. major XP_ T. brucei XP_ T. cruzi XP_ Sn1-specific diacylglycerol lipase alpha L. major XP_ Sn1-specific diacylglycerol lipase beta E. histolytica XP_ L. major XP_ T. brucei XP_ T. cruzi XP_ * Protein (target) links: column=ki&submit=search&energyterm=kj%2fmole&target=target 255

271 FIGURES Fig. 1: Drugs in use for treating Chagas Disease. Fig. 2: Naphthoimidazoles and their natural naphthoquinone analogues with trypanocidal activity. 256

272 Fig. 3: Antifungical triazoles with promissing antichagasic activity. Fig. 4: A typical pipeline for chemical proteomics analysis. Each inset depicts the main features for the particular methodological approach with examples of probe designs. Following hit (biologically active) compound identification in a cellular or whole organism assay (a), one has several options for employing chemical proteomics in order to find molecular targets involved in drug action. (b) Affinity capture methods allow for 257

273 pulling down molecular targets from a cellular lysate by covalently attaching the active compound to an inert support, usually a chromatogrphic resin. Protein profiling (PP) techniques use soluble probes containing a tag (most often a fluorescent dye or a capture moiety such as biotin) for mapping binding partners for a given active compound. This is usually achieved by gel electrophoresis followed by MS/MS analysis of the labeled protein bands. (c) Activity-based PP uses probes carrying an active-site directed reactive group (warhead). These probes discriminate catalytically competent targets from inactive ones but is restricted to PP of enzymes. (d) Affinity-based PP use probes can bind any target bearing a structurally preserved binding site but not necessarily catalytically active. A more sophisticated version employs a photo-reactive group added to the probe to allow for its covalent attachment to the target protein after u.v. irradiation. (e) More recently, affinity-based PP has been employed in vivo by letting the non cell-permeable tag to be added in a second step after treating living cells with an alkyne derivative of the the active compound. The alkyne is then clicked (reacted) to an azide derivative of the tag to form a triazol that can be either tracked down in the living cell by fluorescent microscopy imaging (e.g., if using rhodamine-azide as the tag) or alternatively, be used for target identification by pull-down/lc-ms/ms of the probelabeled proteome (e.g., if using biotin-azide as the tag). Fig. 5: 4-phenoxyphenyl-2H-pyrazol derivatives targeting adenosine kinase as determined in a chemoproteomics study on T. brucei [76]. 258

274 Fig. 6: Trypanomicidal diaminopyrimidine SCYX-5070 (16) and it hydroxylated derivative (17) used in pulldown experiments for chemoproteomics identification of molecular targets in T. brucei and Leishmania spp [77]. Fig. 7: Trypanomicidal compounds subjected to APP studies in living parasites using probes generated by click chemistry [78, 79, 85]. Fig. 8: Lawsone derivatives with antitrypanosomal activity used in chemical proteomics studies [81]. 259

275 Fig. 9: Application of data integration to drug target prioritization in parasites. 260

276 Apêndice F An Evaluation of Annotation Tools for Biomedical Texts Kele T. Belloze 1, Daniel Igor S. B. Monteiro 2, Túlio F. Lima 2, Floriano P. Silva-Jr 1, Maria Cláudia Cavalcanti 2 1 Laboratório de Bioquímica de Proteínas e Peptídeos Instituto Oswaldo Cruz Avenida Brasil Rio de Janeiro RJ Brazil 2 Departamento de Ciência da Computação Instituto Militar de Engenharia (IME) Rio de Janeiro, RJ Brazil (kele,floriano)@ioc.fiocruz.br,(daniel_igor18, tulioflima)@hotmail.com, yoko@ime.eb.br tract. Biomedical texts are a rich information source that cannot be ignored. There are several text annotation tools that may be used to extract useful information from these texts. However, the multi-domain characteristic of these texts, and the diversity of ontologies available in this area, demands a careful analysis before choosing an annotation tool. This work presents an evaluation of the existing annotation tools, with focus on biomedical texts. Initially, based on a set of required characteristics, a tool selection was conducted. AutôMeta and Gate tools were selected for a more detailed evaluation. They were quantitatively and qualitatively evaluated. Results of such evaluation are discussed and bring to light the best/worst of each tool. 1. Introdução The constant growth of data and publications in the Biomedical area has been pushing the creation and reuse of domain ontologies in that area, not only for structured data annotation, but also for text indexation and annotation. Particularly, text bases are a rich information extraction source, since many biomedical findings are available only in textual format. PubMed 9 is one of the most popular digital biomedical citation reference (more than 21 million texts). Each text citation is associated (indexed) using MeSH 10 thesaurus. However, in order to facilitate the extraction of information from texts, a more automated and detailed indexation is required. Biomedical area texts are typically multi-domain, and require different ontologies for their annotation. The Open Biological and Biomedical Ontologies (OBO) Foundry [Smith et al. 2007] and the NCBO BioPortal [Noy et al. 2009] provide together more than 300 ontologies. The motivation of this work is to provide support for annotation with multiple ontologies. For instance, a paper about drug targets usually refers to proteins, diseases, organisms, pharmacogenomics, etc. Each of these terms can be annotated by different domain ontologies such as: GO (Gene Ontology) [The Gene Ontology Consortium 2000], for gene and protein annotations, NCBITaxon 11 (NCBI organismal classification), for organisms, and PHARE (The PHArmacogenomic

277 RElationships Ontology) 12, for pharmacogenomics techniques, such as the knockout technique. Based on these annotations, it is possible to establish useful correlations. For instance, a text may describe that the application of the knockout technique over a certain gene G of an organism O, led to its death. Thus, if annotated with the mentioned ontologies, an additional annotation extracted from this text would inferred: gene G is essential for organism O. There are already a variety of (semi) automatic tools for text annotation, i.e., which provide support for the association of text expressions to ontology terms. The main goal of this work was to identify and compare such tools, with focus on texts and ontologies of the biomedical area. Initially, a set of tools has been selected. After, relevant requirements for biomedical text annotation, such as the support for manual and automatic annotation, and the flexibility for loading ontologies were observed. Only two of the selected tools attended these requirements. These two tools were then analyzed with respect to their annotation results, in terms of quantity and quality. An additional contribution of this work is to provide guidelines for annotation tool analysis. The remainder of this work is organized as follows: section 2 introduces semantic annotation basic concepts and illustrates it in the biomedical scenario. Section 3 describes and analyzes semantic annotation tools. Section 4 reports the realized experiment, results and difficulties. Finally, conclusions and future works are presented in Section Semantic Annotation Semantic annotation is an approach to achieve the concepts of the Semantic Web, whose information organization provides a means, in which the logical connection of terms establishes interoperability between systems [Shadbolt et al. 2006]. It proposes to annotate a document using semantic information from domain ontologies. Popov et al. (2003a) define semantic annotation as a specific schema for generation and use of metadata, enabling new methods of information access. According to Ding et al. (2006), the semantic annotation should be explicit, formal and unambiguous, so that is publicly accessible, understood and identifiable, respectively. More specifically, we emphasize that semantic annotation is an association between relevant expressions or terms of a document or from metadata, and concepts and instances described in the ontology. Figure 1 illustrates the associations between terms in a piece of text and terms of ontologies and taxonomies, and how these associations can enrich the text with the knowledge embedded in the ontology. Annotations can be inserted in the same document file or saved separately. They contribute to the information retrieval mechanisms that are able to interpret them. The multi-domain characteristic of biomedical articles makes it difficult to obtain a well-annotated text with a single ontology. The ontologies of this area are built focused in only one domain. Therefore, for an article to be well-annotated, the use of multiple ontologies or taxonomies is needed. However, as mentioned previously, there are many available ontologies. Hence, a prior analysis of which ontologies are compliant with the domains of the articles is needed. In Figure 1 we can see that in a small text fragment it was necessary to use a thesaurus, a taxonomy and an ontology for the annotation

278 3. Technologies to Support the Semantic Annotation of Texts There are tools that provide support for the semantic annotation of documents (or texts) available on the Web. These may include different characteristics such as access to ontologies, intuitive graphical user interface, editors and repositories for ontologies storage, etc. Figure 1. Associations between term_article and classe_ontology for ontology-based semantic annotation. Regarding the kind of annotation, they are classified as manual and automatic. In the manual annotation, the user performs the whole process of marking the document, selecting the parts to be annotated and describing the annotation associated to a term of an ontology. In automatic annotation, the tool performs the annotation without user intervention, through the use of techniques such as natural language processing (NLP), machine learning and information extraction among others, to associate text expressions to ontology terms. There are tools that provide support for both manual and automatic annotation, and are considered to be hybrid. Another important characteristic is how the annotation is saved. It can be intrusive, which means the annotation is saved in the document, or non-intrusive, which means the annotation is stored in another file and do not modify the original document. Other characteristics refer to the types of software platforms (desktop and Web), types of documents to be annotated (txt, pdf, etc.) and the use of ontologies for the annotation (which format and whether a user-choice ontology may be used). For this work, several tools have been analyzed and tested in accordance to these characteristics and are presented in the following section Semantic Annotation Tools The selected tools are presented below, and Table 1 summarizes the characteristics previously described, observed in each of these tools. 263

Exibir mais