Desenvolvimento de um Sistema para Armazenamento de Seqüências Nucléicas

Desenvolvimento de um Sistema para Armazenamento de Seqüências Nucléicas D. Castravechi, e A. A. Shinoda, Dr. Abstract -- Currently, one of the most significant problems of the bioinformatics mentions the great accumulation of data. Despite the great amount of generated data, these show themselves constantly insufficient or inadequate due to one better treatment. The present report has as objective to describe the development of a system of database for management of data proceeding from research of genetic sequencing, providing one better arrangement with of them. The system has as function to organize these data, becoming them accessible and understandable to the users, and this way to make possible taken of rational decisions for the achievement of projects. Key-words Biological Database, Database of Nucleic Sequences, Bioinformatics. Resumo -- Atualmente, um dos mais significativos problemas da bioinformática refere-se ao grande acúmulo de dados. Apesar da grande quantidade de dados gerados, estes se mostram constantemente insuficientes ou inadequados por falta de um melhor tratamento. O presente artigo tem como objetivo especificar o desenvolvimento de um sistema de banco de dados para gerenciamento de dados provenientes de pesquisas de seqüenciamento genético, provendo uma melhor disponibilização dos mesmos. O sistema tem como função organizar estes dados, tornando-os mais facilmente acessíveis e compreensíveis aos usuários, e desta forma possibilitar tomada de decisões racionais para a consecução de projetos. Palavras Chaves -- Banco de Dados Biológico, Banco de Dados de Seqüências Nucléicas, Bioinformática. I. INTRODUÇÃO A bioinformática é uma nova área do conhecimento diretamente relacionada com o tratamento da enorme quantidade de dados biológicos manipulados diariamente por toda a comunidade científica, podendo ser definida como a área da ciência que envolve todos os aspectos da aquisição, processamento, armazenamento, distribuição, análise e interpretação de informação biológica [20]. Em conseqüência da grande quantidade de informações biológicas produzidas atualmente, o uso dos bancos de dados vem assumindo uma importância crescente na bioinformática. Apesar da grande quantidade de dados gerados, estes se mostram constantemente insuficientes ou inadequados por falta de um melhor tratamento. O problema está em organizar estes dados de forma eficiente, a fim de torná-los mais facilmente acessíveis e compreensíveis. O presente trabalho consistiu no desenvolvimento de um sistema de Banco de Dados composto por uma aplicação web apoiada por um banco de dados em MySQL, onde a ênfase reflete-se na questão de armazenamento e gerenciamento de seqüências de nucleotídeos. A aplicação atua sobre o Banco de Dados desenvolvido, permitindo aos usuários o acesso às informações e possibilitando aos administradores do sistema a realização de novas inserções de dados, bem como possíveis alterações. Para desenvolver a modelagem dos dados foi utilizada a abordagem conhecida por Modelo Entidade-Relacionamento (ER) [13]. A partir do modelo desenvolvido a implementação do Banco de Dados foi realizada sem grandes problemas, utilizando o MySQL como Sistema Gerenciador de Banco de Dados (SGBD). A aplicação foi desenvolvida utilizando a linguagem PHP. II. GERENCIAMENTO DE DADOS EM BIOINFORMÁTICA Na segunda metade da década de 90, com o surgimento dos seqüenciadores automáticos de DNA, houve uma explosão na quantidade de seqüências a serem armazenadas, exigindo recursos computacionais cada vez mais eficientes para armazenamento, gerenciamento, uso e compartilhamento destes dados [5]. Além das seqüências de nucleotídeos, inúmeros outros tipos de dados biológicos têm sido gerados em quantidades cada vez maiores em decorrência de avanços tecnológicos em setores como computação, engenharia e biomedicina. Em conseqüência da grande quantidade de informações biológicas produzidas atualmente, o uso dos bancos de dados vem assumindo uma importância crescente na bioinformática. Contudo, o armazenamento e manipulação de dados biológicos constituem-se em problemas bastante desafiadores, pois estes dados apresentam diversas características particulares. Um banco de dados é uma coleção de dados relacionados. Entende-se por dados, fatos conhecidos que podem ser gravados e possuem significado implícito [16]. É projetado para suprir as necessidades de um grupo específico de aplicações e usuários, organizando e estruturando as informações de modo a facilitar atualizações, consultas e exclusões de dados. A grande maioria dos bancos de dados é atrelado a um sistema denominado SGBD (Sistema de Gerenciamento de Banco de Dados). Este sistema é responsável por intermediar os processos de definição, construção, manipulação e administração do banco de dados solicitados pelos usuários ou por outras aplicações, facilitando a execução destes processos. Antes do surgimento de bancos de dados gerenciados por SGBDs, era comum o uso de arquivos seqüenciais para armazenamento de dados. Arquivos seqüenciais apresentavam poucos recursos para gerenciar dados. Era quase impossível realizar operações complexas de forma que eles raramente 706

eram utilizados para aplicações em larga escala. No entanto, ainda são muito utilizados por bancos de seqüenciamento genético. A razão disso deve-se ao fato de que este tipo de arquivo pode ser facilmente distribuído e compreendido [14]. Um dos maiores benefícios de usar bancos de dados para armazenamento de dados é o compartilhamento dos mesmos. Isto se aplica aos bancos de dados biológicos devido sua complexidade, hierarquia, heterogeneidade e dinâmica [14]. O investimento contínuo na construção de bancos de dados públicos é um dos grandes motivos do sucesso dos projetos genoma e, em especial, do Projeto Genoma Humano. Devido à magnitude do conjunto de dados produzidos torna-se fundamental a organização desses dados em bancos que permitam acesso on-line. III. MODELAGEM DE DADOS Dependendo do projeto, o desenvolvimento de um banco de dados pode ser o problema principal ou apenas uma simples tarefa. Por exemplo, um banco de dados genômico comercial pode custar milhões e levar alguns anos para tornálo funcional. Por outro lado, um desenvolvedor habilidoso pode desenvolver um pequeno banco de dados de biodiversidade regional dentro de um mês, assumindo que os dados de campo estão disponíveis [14]. Uma das primeiras ações no estágio inicial do desenvolvimento de um banco de dados compreende a escolha de um adequado SGBD. Normalmente a escolha é baseada na experiência e no conhecimento do pesquisador. Uma vez escolhido o SGBD, o próximo passo é determinar exatamente quais dados serão armazenados e como eles serão organizados. A organização dos dados é importante pois, entre outras coisas, isto de termina como facilmente o banco de dados pode ser expandido e atualizado no futuro. Um modelo de dados é uma coleção de conceitos que podem ser usados para descrever a estrutura de um banco de dados [16]. Esta estrutura compreende os tipos de dados, relacionamentos e restrições inerentes a estes dados. O modelo busca sistematizar o entendimento que é desenvolvido a respeito de objetos e fenômenos que serão representados em um sistema informatizado. Os objetos e fenômenos reais, no entanto, são complexos demais para permitir uma representação completa, considerando os recursos à disposição dos sistemas gerenciadores de bancos de dados atuais, sobretudo no domínio biológico. Desta forma, é necessário construir uma abstração dos objetos e fenômenos do domínio em questão, de modo a obter uma forma de representação conveniente, embora simplificada, que seja adequada às finalidades das aplicações do banco de dados. A abstração de conceitos e entidades existentes em qualquer subconjunto do mundo real a ser representado é uma parte importante da criação de sistemas de informação. Além disso, o sucesso da implementação de um banco de dados é dependente da qualidade da transposição de entidades do mundo real e suas interações para o banco de dados. O processo de abstração funciona como uma ferramenta, auxiliando na compreensão do sistema, dividindo-o em componentes separados. Atualmente, os modelos de dados tradicionais mais referenciados para desenvolvimento de bancos de dados de biologia molecular incluem: arquivos seqüenciais estruturados [8]; ASN.1 [2], [3]; modelo semi-estruturado (baseados em XML); modelo relacional [1], [11]; modelo objeto-relacional [7], [9]; e modelo orientado a objetos [10], [18]. Estas técnicas são definidas e discutidas em [4]. Além destes modelos tradicionais, há importantes bancos de dados de biologia molecular utilizando outras tecnologias como o uso do ACEDB [15], um sistema de gerenciamento de banco de dados originalmente desenvolvido para banco de dados de biologia molecular; além do modelo Protocolo-Objeto (OPM) [6]. Para o desenvolvimento do banco de dados proposto, optou-se por trabalhar com o SGBD relacional MySQL. Os motivos para essa escolha foram: - Trata-se de um SGBD de código aberto e licença gratuita para uso acadêmico, sendo bastante utilizado nesse meio. - Trata-se de um SGBD leve e rápido (principalmente na plataforma linux), sendo muito utilizado em aplicações web. - Conhecimento prévio sobre o SGBD. Cada vez mais bancos de dados com diferentes conteúdos do domínio abordado estão utilizando um SGBD relacional. Por exemplo, o Genome Sequence Database (GSDB), um banco de dados de seqüências de nucleotídeos, é implementado usando o SGBD Relacional Sybase. O CyanoBase, um banco de dados genético, também está implementado usando o Sybase e o banco de dados proteômico YPD é gerenciado por um SGBD relacional Oracle [21]. O modelo relacional evita redundância de dados através de uma técnica conhecida por normalização. Além disso, um SGBD comercial proporciona um numero de características valiosas, como procedimentos de consultas eficientes, e ferramentas de administração de bancos de dados úteis. Estes atributos tornam mais fácil o desenvolvimento e manutenção de bancos de dados. O armazenamento dos dados em um banco de dados relacional é importante devido ao fato de que um sistema gerenciador de banco de dados relacional (SGBDR) representa um meio seguro e robusto para o armazenamento de grandes volumes de dados e esse tipo de SGBD está largamente difundido comercialmente. Contudo, sistemas relacionais são melhores quando o esquema é simples, o dado é regular e consultas sucessivas são independentes [12]. Apesar disso, SGBDs relacionais são utilizados para gerenciar todo tipo de dado biológico A força do modelo relacional é sua total provisão por SQL. Mas sua principal fraqueza é a ineficiência para modelagem de objetos genômicos complexos [17]. IV. AQUISIÇÃO E DEPOSIÇÃO DE DADOS A forma como novos dados são adquiridos constitui um importante aspecto dos banco de dados em geral. Novos dados são constantemente inseridos em bancos de dados de biologia molecular de acordo com o esquema do banco. O objetivo básico é coletar tantos dados quanto possível, e por conseguinte produzir métodos de deposição de dados de 707

fácil acesso e uso. Além disso, há necessidade de que estes dados sejam de qualidade. De acordo com [21] os bancos de dados de biologia molecular podem ser classificados de acordo com a forma de aquisição de dados da seguinte forma: - Dados adquiridos através de uma comunidade de pesquisadores que submetem dados provenientes de suas pesquisas. Algumas vezes, o direito de submeter dados é restrito a um conjunto de laboratórios. - Dados adquiridos a partir de outros bancos de dados. Isto indica que o formato ou modelo de um dado incomum eventualmente tem de ser transformado. - Dados adquiridos através da literatura. Freqüentemente esta aquisição é realizada manualmente e requer um grande contingente de profissionais bem treinados. Em [5] os bancos de dados cuja aquisição de dados se deve a submissão de dados por uma comunidade de pesquisadores são chamados de primários. Entre os principais bancos de dados primários estão o GenBank, o EBI (European Bioinformatics Institute), o DDBJ (DNA Data Bank of Japan), o GDB (The Human Genome Database) e o PDB (Protein Data Bank). Com o intuito de se manterem atualizados, os três primeiros banco de dados citados trocam informações entre si diariamente. Ainda segundo [5], os bancos de dados derivados a partir das informações depositadas nos bancos primários são chamados de secundários. O SWISS-PROT é um exemplo de banco secundário onde as informações sobre seqüências de proteínas foram anotadas e associadas a informações sobre função, domínios funcionais, proteínas homólogas e outros. No projeto desenvolvido, o armazenamento de novos dados pode ser realizado apenas por um grupo restrito de usuários. A inserção de novos dados é efetuada através de um formulário online. Estes dados podem ser obtidos pelo próprio usuário no formato de cromatogramas 1 ou ainda através de pesquisas em banco de dados de livre acesso na Internet, como GenBank, estando estes em formato fasta (Anexo A). Os dados serão armazenados em projetos que poderão conter dados somente no formato cromatograma, somente no formato fasta, ou ainda em ambos. A inserção de diversos arquivos fasta pode ser requisitada de uma única vez, basta que estes arquivos sejam colocados em um único arquivo texto (.txt) e este arquivo seja enviado para armazenamento. O sistema tratará de abrir este arquivo, separar as seqüências e, por fim, armazená-las no banco de dados. Ao armazenar um arquivo cromatograma, o nome do arquivo é alterado, concatenando o nome do diretório, no qual o arquivo a ser enviado se encontra, à frente do nome do arquivo. Este processo é necessário para diferenciar os arquivos pelo nome, pois os arquivos cromatogramas gerados por um seqüenciador automático apresentam sempre o mesmo padrão de nomes. Este novo nome, também é informado na primeira linha de um arquivo fasta que represente a mesma seqüência, permitindo a associação destes arquivos através deste nome. 1 Cromatogramas são arquivos com extensão.esd, provenientes de um seqüenciador automático. Estes arquivos podem ser abertos somente por alguns programas específicos. Para codificá-lo em um arquivo fasta pode-se usar o software Phred Phrap. V. CONSULTAS E RECUPERAÇÃO DE DADOS Talvez a razão principal para se desenvolver um banco de dados é facilitar a recuperação de um dado especifico que cada usuário precisa. O ideal é que uma variedade de métodos de consultas sejam suportados. No projeto desenvolvido, a pesquisa de dados pode ser realizada utilizando algumas opções pré-definidas em formulário fixo da interface de pesquisa, como: nome do arquivo, identificador do arquivo, nome do projeto, nome do usuário responsável pelo projeto e intervalo de datas. Além disso, o software desenvolvido permite que uma outra pesquisa seja realizada diretamente em SQL. Para que seja possível tirar proveito desta funcionalidade, o usuário deve conhecer o esquema do banco de dados e ter uma boa noção de SQL. É importante ressaltar que neste último caso, alguns dados que poderiam ser requisitados através deste tipo de pesquisa mereceram tratamento especial, como os campos definidos no banco de dados: senha, cromat e sequencia. O campo senha, por exemplo, a ser requisitado não pode ser visualizado, caso contrário qualquer usuário poderia facilmente obter a senha de outros usuários através desta pesquisa. No caso dos campos cromat e sequencia, a visualização destes dados na tela seria problemática. O campo cromat é utilizado para armazenamento binário dos arquivos cromatogramas, enquanto o campo sequencia é utilizado para armazenar as seqüências em um campo texto. Dessa forma, a requisição por um campo cromat gera a criação de um link que permite copiar o arquivo armazenado por este campo em disco, enquanto a requisição do campo sequencia gera a criação de um link que permite a visualização do arquivo em uma outra tela. VI. VALIDAÇÃO DO SISTEMA Para validação do sistema desenvolvido foram realizados testes de unidade e testes de integração. Os testes de unidade tiveram como objetivo verificar a corretude de cada um dos módulos do sistema isoladamente, sendo realizados tão logo esses módulos foram desenvolvidos. Alguns dos problemas tratados nessa etapa foram: verificar compatibilidade de parâmetros e argumentos da interface, digitação inconsistente, iniciação ou valores default errôneos, nomes de variáveis ou tipos de dados incorretos, entre outros. Os testes de integração foram realizados a fim de verificar a integração entre os módulos componentes que foram testados isoladamente. Estes testes foram desenvolvidos a partir da especificação do sistema e tiveram início logo que as primeiras versões dos módulos ficaram prontas. Após essas etapas uma nova verificação foi iniciada, a fim de verificar se as alterações efetuadas ocasionaram novos erros. VII. CONCLUSÃO A biologia molecular é uma disciplina em rápido desenvolvimento, trabalhando com grandes volumes de dados. O uso de técnicas da ciência da computação para armazenamento, recuperação e análise de dados biológicos é indispensável. 708

O modelo relacional é orientado em direção a um eficiente armazenamento e gerenciamento de dados, mas não provê construtores para uma boa captura da semântica dos dados: a representação de um objeto conceitual complexo em um banco de dados relacional pode se estender por muitos registros em várias tabelas distintas, fazendo do esquema relacional um pobre veículo para comunicação semântica de um banco de dados [19]. Contudo, com relação ao desempenho pode se destacar que SGBDs relacionais apresentam melhor desempenho em operações de pesquisa para bases de dados de grande dimensão. Devido à simplicidade do esquema proposto, o modelo relacional se mostrou satisfatório. Através da implementação da aplicação proposta, conseguiu-se desenvolver um sistema de banco de dados para gerenciamento de dados provenientes de pesquisas de seqüenciamento genético, atendendo aos requisitos básicos especificados e proporcionando uma melhor disponibilização dos mesmos. Os dados do sistema foram organizados, tornando-os mais acessíveis e compreensíveis aos usuários. Contudo, diversas melhorias podem e devem ser efetuadas. Por exemplo: melhorias de interface quanto a sua clareza, estética e desenvolvimento de novas opções de pesquisa prédefinidas. Além disso, alguns trabalhos futuros foram propostos como o desenvolvimento de uma função para backup do banco de dados e a integração com o software Phred Phrap, que realiza a codificação dos cromatogramas em arquivos fasta, automatizando este processo. Nota-se que dessa forma, o arquivo fasta referente a uma seqüência sempre será armazenado. VIII. ANEXO A Exemplo de Arquivo Fasta >gi 1685081 gb U33846.1 SAU33846 Sulfolobus acidocaldarius DNA polymerase gene, complete cds TCTAGAGCCTTAAAGGAACCATAAAATTTAATCAGT CATCAACTTCTATACAGTCTAACACAACTACATATTC ATATAGCCAATATTTAAGTTTGTGGAAGGAAAATAA GAGAAATCAGTAATTATAAGTAATCTACCATTTATAT CAAGTCAAAGGTATTAAATAAAAATTTTATCATTATT CTGAATAAATTTCCTAAAAATACGCCTGCTTTGTCTC CAAGCAGAGCCCTTCAAGTTTATATCGTAATTCTACT TAATTTATATATTGTATATGTCCAAACAAGCAACACT CTTTGATTTTTCCATAAAGAAGAATGAGAGTAAAGA GCAGACTAATCAAGAGAGTGTAGAGGTACCTAAACA AACCGCTAATAGGACGAAAATAGAGTGGATAAAGG AAGCTGAAGACGGAAAAGTGTATTTCTTGTTACAAG TTGATTATGATGGTAAAAAGTCACGTGCAGTTTGTAA GCTTTATGATAAAGAGGGTAAGAAAATTTACATTAT GCAAGATGAATCAGGTCACAAACCCTACTTTCTCACT GATATTGACCCAGATAAGGTTAACAAAATAACTAAG GTTGTAAGGGATCCTTCATTTGATCATCTCGAGCTCA TAAACAAAGTTGATCCTTATACGGGAAAGAAGATTA GACTTACTAAAATTGTTGTTAAAGACCCATTAGCTGT ACGAAGAATGAGGAGCTCTTTGCCCAAGGCATATGA AGCTCACATAAAATACTATAACAATTACGTATACGA TAATGGCTTAATTCCAGGGCTAATATATAAGGTTAAT AAGGGAAAGCTTACACAGCTTAATCCTGAACTTAAA GGAGAGGAAATTAATGAAATTAAGAAACTTTCTGAC GCTTATGAGATGACAAAAGAGACGGTAAATGATTGG ATACCTATCCTAGAGACTGAGGTACCTGATATAAAG AGAGTATCATTAGATATAGAGGTTTACACTCCA AATAGGGGAAGAATACCCGATCCTGAAAGGGCTGA ATTTCCTATAATTAGTGTTGCATTAGCTGGTAATGAT GGTAGCAAGATCGTTTTAGCGTTAAAAAGAGAGGAC GTAAATTCTGATTTTAGTAAGAAAGACGGCGTCCAA GTAGAGATTTTCGATTCTGAAAAGAAACTTCTAGCTA GATTATTCGAGATAATCCGAGAATATCCAATGCTACT AACCTTTAACGGCGATGATTTTGACATACCATACATA TATTTTAGAGCCTTGAGACTTAATTTCAGCCCTGAGG AGGTTCCACTGGATGTTGTAAGTGGTGAGGGTAAGT TTTTAGCAGGTATTCATATAGACCTCTACAAATTTTT CTTTAACAGGGCAGTGAGTATATATGCTTTTGAAGGC AAGTATAGTGAATACAGCCTATACGCAGTTGCTACA GCCTTGCTGGGCATTTCTAAGGTTAAGCTTGATACGT TCATTAGCTTTATGGACATAGATAAGTTAATCGAGTA TAA IX. REFERÊNCIAS Periódicos: [1] A. Kumar; K. H. Cheung; P. Ross-Macdonald; P. S. Coelho; P. Miller; M. Snyder, "TRIPLES: a database of gene function in Saccharomyces cerevisiae". Nucleic Acids Res., 28, 81-84, 2000. [2] D. Steedman, "ASN.1 The Tutorial and Reference". Technology Appraisals. Twickenham, UK, 1993. [3] D. A. Benson; M. S. Boguski; D. J. Lipman; J. Ostell; B. F. Ouellettee; B. A. Rapp; D. L. Wheeler, "Genbank. Nucleic Acids Res., 27, 12-17, 1999. [4] F. Achard; G. Vaysseix; E. Barillot, "XML, bioinformatics and data integration", Bioinformatics, 17, 115-125, 2001. [5] F. Prosdocimi, et al. "Bioinformática: Manual do Usuário. Biotecnologia", Ciência e Desenvolvimento, Nº 29, 2002. [6] I. A. Chen; V. M. Markowitz, "An Overview of the Object Protocol Model (OPM) and the OPM Data Management Tools". Information Systems, vol. 20, Nº 5, 393-418, 1995. [7] J. Zhu; M. Q. Zhang, "SCPD: a promoter database of the yeast Saccharomyces cerevisiae". Bioinformatics, 15, 607-611, 1999. [8] J. D. Westbrook; P. E. Bourne, "STAR/mmCIF: an ontology for macromolecular structure". Bioinformatics, 16, 159-168, 2000. [9] J. M. Carazo; E. H. Stelzer, "The BioImage Database Project: organizing multidimensional biological images in an object-relational database". J. Struct Biol., 125, 97-102, 1999. [10] K. Nakata; T. Takai; T. Kaminuma, "Development of the Receptor Database (RDB): application to the endocrine disruptor problem". Bioinformatics, 15, 544-552, 1999. [11] M. Hutsman; J. Richelle; S. J. Wodak, "SESAM: a relational database for structure and sequence of macromolecule". Proteins, 11, 59-76, 1991. [12] M. C. Keet, "Biological Data and Conceptual Modeling Methods". Journal of Conceptual Modeling, Vol. 29, 2003. [13] P. P. Chen, "The Entity-Relationship Model: Toward a Unified View of Data". ACM Press, New York, USA, 1976. [14] Y. Xia; R. E. Stinner; P. C. Chu, "Database Integration with the Web for Biologists to Share Data and Information". EJB - Electronic Journal of Biotechnology, ISSN: 0717-3458, Vol. 5 No. 2, Issue of August 15, 2002. North Carolina State University. Livros: [15] R. Durbin; J. Thierry-Mieg, "The ACEDB Genome Database". In Suhai, S. (ed.) Computational Methods in Genome Research. Plenum, NY, USA, 1994. [16] R. Elmasri; S. B. Navathe, "Fundamentals of Database Systems". 3a. Ed. USA: Addison-Wesley, 2000. Artigos Apresentados em Conferências: [17] D. Shin, "Comparative Study of Relational and Object-Oriented Modelings of Genomic Data". Hawaii International Conference on 709

System Sciences (HICSS), Hawaii, USA. Institute of Electrical and Electronics Engineers, Inc., 1995. [18] K. Aberer, "The use of object-oriented data models in biomolecular databases", Conference on Object-oriented Computing in the Natural Sciences. Heidelberg, Germany, pp. 3-13. [19] V. M. Markowitz; I. A. Chen; A. S. Kosky; E. Szeto, "Facilities for Exploring Molecular Biology Databases on the Web: A Comparative Study", 2 nd Pacific Symposium on Biocomputing. Santa Fe, New Mexico, 1997. Dissertações: [20] D. C. Resende; D. S. Lima; R. C. Mira, "Genome System", Trabalho de Conclusão de Curso, Universidade Católica de Goiás, 2002. [21] P. Kröger, "Molecular Biology Data: Database Overview, Modeling Issues, and Perspectives". Diplomarbeit Draft, vom 18. Maio de 2001. 710