COMUNICAÇÃO ORAL ORGANIZAÇÃO DOS CONTEÚDOS DE CONHECIMENTO PARA SITES: REPRESENTAÇÃO DAS ATIVIDADES DE PESQUISA EM LABORATÓRIO CIENTÍFICO DE BIOLOGIA MOLECULAR Laura de Lira e Oliveira, Maria Luiza de Almeida Campos, Hagar Espanha Gomes (CNPq) Resumo: O objetivo deste estudo é investigar as possibilidades metodológicas para representar os recursos de informação produzidos e utilizados em um ambiente específico de domínio interdisciplinar através da elaboração de um modelo de representação de uma atividade de pesquisa. A abordagem empírica está voltada para o domínio da Biologia Molecular que se desenvolve no cotidiano da atividade científica de um Laboratório de ponta. O trabalho no Laboratório inclui a pesquisa científica vinculada principalmente para a genômica dos Tripanosomatídeos e para as Doenças Tropicais Negligenciadas tais como a Doença de Chagas (T. cruzi) e outras tripanosomoses, leishmanioses (Leishmania spp), gerando informação e conhecimento científicos. A pesquisa focou a organização dos conteúdos desse conhecimento gerado no Laboratório com ênfase na atividade da anotação genômica. Para que a organização do conhecimento se faça de forma eficaz, a Teoria da Classificação foi aplicada, destacando-se como ferramenta da Ciência da Informação que auxilia na estruturação sistemática da informação gerada pela equipe de pesquisadores, mas as relações funcionais-sintagmáticas se revelaram importantes na organização de objetos heterogêneos. As metodologias utilizadas para a elaboração de um modelo de representação se pautaram na Análise de Domínio e na Etnometodologia para a identificação dos elementos presentes naquela atividade e no método facetado para a classificação desses elementos e foram definidas diretrizes voltadas para a representação de um modelo de uma atividade. Palavras-chave: Organização do Conhecimento. Representação da Informação. Análise de Domínio. Etnometodologia. 1 INTRODUÇÃO As doenças tropicais negligenciadas (DTNs), como a Doença de Chagas (T. cruzi) e outras tripanosomoses, leishmanioses (Leishmania spp), fazem um grande número de vítimas, sobretudo em países subdesenvolvidos. As diversas pesquisas sobre o tema geram significativo volume de informações, o que faz da busca pela contínua sistematização de instrumentos/ferramentas no âmbito de um laboratório de pesquisa científica em genômica, um mecanismo facilitador do acesso aos conhecimentos já produzidos, acarretando a redução do impacto dessas enfermidades. Isso porque permite a disseminação das informações existentes entre os diversos laboratórios de pesquisa genômica no mundo assim como a elaboração de uma proposta de cooperação internacional das pesquisas genômicas. Percebe-se, assim, a necessidade de se apoiar questões concernentes ao mapeamento de um GT2 585
modelo de representação para organizar os componentes de uma atividade científica, no caso, a atividade de anotação genômica em sites científicos, devido à necessidade de se organizar as informações geradas em um laboratório de Biologia Molecular. O laboratório estudado é um local de produção de conhecimento relativo àquela atividade genômica e por se tratar de uma atividade complexa foram utilizados alguns itens de Hjørland (2002) para identificação do domínio. Para entender a atividade e identificar o que deveria ser alvo da representação foi feita a observação das ações no ambiente por meio da Etnometodologia. E para organizar os elementos identificados foi utilizado o método de faceta que funcionou na identificação das categorias, mas que pode se mostrar insuficiente para organizar objetos heterogêneos que naturalmente surgem em uma atividade dentro de um laboratório de ponta. Desta forma, as relações ônticas 1 ou funcionais-sintagmáticas (DAHLBERG, 1978; 1993) foram utilizadas. No âmbito deste trabalho, o conhecimento no Laboratório compreende tanto as ações específicas dos recursos para análise de DNA quanto a inclusão de outros elementos para a realização desta atividade tais como: pesquisadores que compõem determinado projeto, suas atividades propriamente ditas de anotação genômica de organismos de interesse para as pesquisas do Laboratório, textos científicos, instituições que estão vinculados, parcerias com outros laboratórios, bancos de dados genômicos, entre outros. O avanço tecnológico nos meios comunicacionais e informacionais tem propiciado uma rapidez na representação e recuperação do conhecimento e da informação. Verifica-se, assim, a importância da Ciência da Informação que utiliza bases teóricas e metodológicas para lidar com questões voltadas à representação do conhecimento e da informação. (KUMAR, 1981) Optou-se por trabalhar com a utilização de sites, uma vez que estes trazem a possibilidade de acesso a informações produzidas em unidades geograficamente separadas e sua dinâmica tem propiciado agilização nos processos internos dos laboratórios, tornando o trabalho mais produtivo, já que, simultaneamente, agregam e disseminam informações na Internet, confirmando-se como uma forma importante de compartilhamento da informação biomédica e processamento de conteúdo. (GILCHRIST, 2003; CHAU et al, 2006; STEWART, 2008; BLATECKY et al.,sd) O modelo a ser representado tem como objetivo fazer parte de um site e irá interferir na arquitetura e funcionalidade deste site. A informação estruturada pelo modelo de representação guiará a busca e recuperação da informação biomédica no âmbito da Biologia Molecular (GIBAS e JAMBECK, 2001;NUNES, 2002) e dos recursos por meio da navegação pelos pesquisadores. 1 A relação ôntica não tem a finalidade de estabelecer uma hierarquia entre os conceitos, mas a de determinar a natureza da relação entre esses conceitos. No caso da pesquisa realizada, estas relações apresentam de forma clara uma atividade natural entre os objetos que ocorrem no mundo real, onde os objetos existem. (OLIVEIRA, 2011) GT2 586
2 A ORGANIZAÇÃO DA INFORMAÇÃO EM SITES As primeiras manifestações relacionadas ao uso de taxonomias em sites surgem no âmbito das arquiteturas de informação e gestão de conteúdo. Nesse contexto, algumas das questões que se apresentam no desenvolvimento de taxonomias em sites são as seguintes: Como os elementos serão usados para navegar ou realizar a busca da informação? E qual é o processo pelo qual eles serão adicionados ao sistema para a melhor recuperação da informação? Sabendo que gestão implica organização e organização implica classificação, os atuais desafios a fim de se gerir o conhecimento estão relacionados ao enorme e crescente volume de informação e à constante mudança em seu conteúdo. No âmbito de um domínio interdisciplinar como a Biologia Molecular - área analisada - o processo de classificar é bastante complexo e demanda uma estrutura normativa e prescritiva para organizar o conhecimento científico (GNOLI, BOSCH e MAZZOCCHI, 2007). A organização do conhecimento em categorias nesse campo interdisciplinar deve resultar em uma análise e interpretação acuradas dos fenômenos e argumentos do discurso dos especialistas que estão inseridos no Laboratório. Foram, então, sugeridas diretrizes metodológicas que corroboram o modelo de representação elaborado, mas que só foi possível sua elaboração após o percurso de busca das informações relevantes no ambiente do Laboratório, observação das ações dos pesquisadores e um processo de mapeamento e estruturação. Isto norteou aspectos metodológicos desta pesquisa em dois focos. O primeiro foi a forma de obtenção dos dados por meio da Identificação dos elementos a qual compreendeu: a) a análise de domínio, para entender o ambiente e levantar dados que, segundo Hjørland (2002) é a identificação dos elementos passíveis de serem observados no escopo da pesquisa e b) a Etnometodologia, para apreender a complexidade da atividade da anotação genômica, que é a forma de observar esses elementos. O segundo foco foi a Organização dos elementos por meio do método facetado (CAMPOS e GOMES, 2008),a fim de sistematizar os resultados e apresentá-los em um site. 2.1 Identificação dos elementos a)análise de domínio: A análise de domínio proposta por Hjørland (2002) envolve as seguintes questões: produção de guias de literatura ou portais especializados construção de classificações especializadas e tesauros indexação e recuperação nas especialidades estudos empíricos de usuários estudos bibliométricos estudos históricos estudos documentais e de gênero estudos epistemológicos e críticos estudos terminológicos, linguagens especializadas, bases de dados GT2 587
semânticas e estudos de discurso estruturas e instituições na comunicação científica cognição científica, conhecimento especializado e inteligência artificial Entretanto, nessa análise, deu-se destaque aos estudos empíricos de usuários, uma vez que em diferentes comunidades há diferentes necessidades de informação como análise de proteínas ou nucleotídeos, druggability, sequência genética. Além disso, estudos históricos foram analisados com a finalidade de se compreender documentos gerados pelas diversas comunidades antes da descoberta da estrutura do ADN. A partir do surgimento das ômicas houve uma mudança na identificação do cenário da Biologia (junção de várias áreas para um estudo mais particularizado, como a Bioinformática, por exemplo) o que revolucionou sua história. Conseqüentemente os estudos documentais e do gênero também foram analisados, já que os recursos diferenciados da Bioinformática geraram diferentes tipos de documentos além dos tradicionais livros, cadernos de campo e mesmo artigos impressos. Estes recursos deram lugar a bancos de dados genômicos, ontologias, softwares específicos voltados para a atividade de anotação genômica. Isto tem relação com a organização de conteúdos em sites porque estes são itens (objetos) indispensáveis para se obter as informações / recursos necessários para os profissionais realizarem suas pesquisas. Nestes novos recursos estão contidas as informações e não mais nos pesquisados anteriormente ao surgimento das novas tecnologias b) Etnometodologia Como Macedo (2006) sinaliza, Mais do que uma sociologia da vida cotidiana, a Etnometodologia é uma tentativa de análise dos aspectos fundamentais da ação e da significação implicada. Dessa forma, por oferecer uma metodologia qualitativa, a pesquisa etnológica é apropriada para descrever a atividade dentro do laboratório, a qual se baseia justamente na ação dos pesquisadores a fim de fazer descobertas relativas a novas drogas para cura das DTNs, por exemplo. Embora Jules-Rosette (2007) apresente oito itens voltados para a Etnometodologia conferir lista abaixo -, nem todos puderam ser levados em consideração no desenvolvimento da tese. Indexalidade reflexibilidade descritibilidade conceito de membro da sociedade práticas das ações socializadas contextualidade competência única abordagem da ação na cena social Apenas dois deles se mostraram relevantes de imediato: a descritibilidade e o conceito de membro da sociedade. O primeiro por ser importante descrever as ações dos pesquisadores e os GT2 588
documentos por eles elaborados, a fim de tornar a ambiência científica (onde o conhecimento é gerado) descritível, inteligível e analisável. O segundo por sinalizar que o pesquisador-observador (no caso o Cientista da Informação) precisa de certa forma, pertencer à comunidade na qual realiza o estudo, filiando-se como membro do grupo. 2.2 Organização dos elementos O segundo aspecto metodológico adotado é o método facetado (RANGANATHAN, 1967; AITCHISON, 1970 CAMPOS, 2001; BROUGHTON, 2002), o qual apresenta cânones e princípios para a formação de estruturas hierárquicas que estão organizadas em facetas, reunidas em Categorias Fundamentais. Esse método possui hospitalidade, permite escalabilidade e possibilita múltiplos acessos. É ideal, portanto, para uso em sites, uma vez que permite a maior possibilidade de relação entre assuntos, bem como a incorporação de novos. Com a adoção do método de faceta, o que se verificou no levantamento dos dados (os elementos que integrariam o modelo) foi a necessidade de incluir não apenas os princípios de classificação (hierarquização), mas de associação entre eles. O método prevê a escolha de uma primeira faceta que determina o principal atributo pelo qual o modelo foi estabelecido e é seguida pelas demais facetas. Isso não significa que a ordem seja prescritiva, uma vez que o usuário pode fazer a busca por onde deseja, mas geralmente a maioria usará a disposição básica disposta na tela (DENTON, 2009). No caso do Laboratório, a tarefa está voltada para estudos genômicos de organismos causadores de doenças tropicais negligenciadas e, então, tornou-se primordial a escolha de ORGANISMOS como a primeira faceta a ser considerada. Isso não diminui a importância das demais facetas estabelecidas, mas tudo o que é feito em torno das pesquisas está voltado para aqueles estudos. A partir dos organismos (que são o objeto de pesquisa) então como um ponto de acesso, foram identificados os demais objetos: software para anotação genômica (recursos), pesquisadores envolvidos (recursos humanos) e os objetos a estes relacionados (projetos, publicações) Após a aplicação da metodologia acima apresentada, foram identificados os seguintes elementos para compor o modelo de representação. São eles: ORGANISMOS ONTOLOGIAS ETAPAS NA ATIVIDADE DA ANOTAÇÃO GENÔMICA EQUIPE DE ANOTAÇÃO GENÔMICA PROJETOS PROGRAMAS BANCOS GENÔMICOS BANCOS DE PUBLICAÇÕES INSTITUIÇÕES Esses elementos identificados resultaram nas seguintes facetas pontos de acesso -: GT2 589
ORGANISMOS, RECURSOS DE ANOTAÇÃO (in silico), EQUIPE DE ANOTAÇÃO GENÔMICA, PROJETOS e INSTITUIÇÕES e que são apresentados abaixo: Além das relações lógicas em que os elementos das facetas estão distribuídos de forma hierárquica (mostrado com clareza na faceta: ORGANISMOS) o modelo evidenciou um grau maior das relações associativas, no caso as relações funcionais-sintagmáticas por se tratar, provavelmente, neste modelo, de objetos individuais. GT2 590
2.2.1 Discussão do modelo A metodologia adotada tornou possível que se desenhasse um modelo de sistema de informação que permite acesso tanto a informações ligadas diretamente às pesquisas quanto à gestão das atividades realizadas no Laboratório. As categorias foram úteis para organizar o primeiro nível e, em seu interior, foram identificadas relações lógicas (tipos de organismos, tipos de pesquisadores) e também as relações funcionaissintagmáticas, permitindo assim que um objeto possa ser encontrado a partir de mais de um ponto de acesso, como mostram os exemplos a seguir no modelo: Organismo A -> recursos associados -> Ontologias Recursos de anotação genômica -> Bancos de informação > Ontologias Organismo A ->Pesquisadores associados - Coordenador Equipe de anotação -> Cordenador -> Organismo A organismo. Um recurso específico associado seria, por exemplo, um banco genômico de um dado GT2 591
Como o objeto de representação é uma atividade, ela demanda a utilização de programas específicos para cada etapa em que esta atividade se realiza. Assim, temos, para a Etapa: Avaliação de qualidade, o programa Phred, para a Etapa: Análise de similaridade, os programas BLAST/FASTA/Interpro, e assim por diante. A tecnologia permite que um mesmo programa possa estar associado a mais de uma etapa. Por exemplo, a etapa de predição in silico de genes pode ocorrer em paralelo com a etapa de similaridade (WAGNER, 2006). As novas tecnologias da informação permitem maior flexibilidade de navegação. Assim, um mesmo objeto pode ser recuperado através de mais de um ponto de acesso: a partir de um pesquisador pode-se identificar seus diversos relacionamentos na atividade de anotação genômica e também no próprio Laboratório, isto é, o Organismo com o qual está envolvido, Projetos associados, sua Produção científica A elaboração do modelo viabilizou traçar diretrizes metodológicas para a construção de estruturas sistemáticas. 3 DIRETRIZES METODOLÓGICAS As diretrizes são generalizáveis e podem ser aplicáveis em outros campos do conhecimento em que se necessite organizar e representar atividades/tarefas. Elas foram elaboradas de acordo com o caminho percorrido pelas metodologias adotadas na pesquisa e são: Para captura do conhecimento 1 Filiar-se como membro da comunidade 2 - Descrever as ações dos pesquisadores 3 - Identificar os temas do domínio 4 - Estabelecer um recorte do domínio 5 - Levantar a literatura relacionada com o recorte escolhido 6 - Identificar e anotar as informações relevantes Para organização/estruturação 7 - Descrever a funcionalidade de cada objeto 8 - Identificar as relações hierárquicas 9 - Identificar as relações partitivas 10 - Identificar as relações funcionais-sintagmáticas 11 - Determinar as Categorias Para apresentação do modelo 12 - Identificar a faceta inicial 13 - Observar o princípio da fórmula PMEST GT2 592
4 CONSIDERAÇÕES FINAIS A comunidade científica em genômica transita em diferentes áreas do conhecimento e lida com o surgimento de novas áreas. Sendo assim, o Cientista da Informação, devido à dinâmica do conhecimento, possui importante papel na busca permanente de novos recursos, na sua sistematização e na disponibilização em serviços de informação. Para isso, pode valer-se dos princípios de classificação, como os adotados nesta pesquisa, uma vez que são fundamentais em qualquer atividade que requeira organização de dados, de informação, de conhecimento. Em um Laboratório científico, torna-se evidente a importância de bancos de informação para verificar a validade, evitar repetição de pesquisas, com evidente desperdício de recursos e conseqüente frustração do pesquisador quando descobre que chegou tarde. O caminho de análise de domínio preconizada por Hjørland foi iniciado com ênfase na revisão da literatura gerada pelos pesquisadores que ali atuavam. Artigos, dissertações, teses e curriculum vitae tornaram-se documentos importantes e mesmo cruciais para a compreensão da atividade científica exercida pelos profissionais com especificidade na anotação genômica. Da mesma forma, foi feita consulta à bibliografia fora do âmbito do Laboratório, o que contribuiu na abordagem a que esta pesquisa se propunha. O percurso realizado indicava o que devia ser analisado, mas o como realizar esta análise só foi possível ao se postular a adoção da etnometodologia como método para capturar o conhecimento. Com isso, compreenderam-se melhor as atividades, complementando o que se obteve por meio do proposto pelo método da análise do domínio. Na coleta dos dados, verificou-se que não há um consenso na literatura quanto aos termos usados para designar os objetos das ações. Por exemplo, há alternância entre os termos programas/ ferramentas/software; bancos de dados/ontologia; sistemas de anotação/ferramenta de anotação. Isso evidencia a relevância de que não se deve pautar pelos nomes dos objetos conforme referenciados nas diversas fontes, mas na necessidade de caracterizá-los para melhor situá-los no modelo de representação. Assim, a padronização torna-se imprescindível para se estruturar um modelo, evitando, dessa forma, a sinonímia, por exemplo, (que poderia ser um complicador). No caso da atividade de anotação genômica, estabelece um controle sobre os procedimentos desta atividade. Ao iniciar o desenvolvimento do modelo de representação, partiu-se do pressuposto de que o método de faceta seria adequado, considerando que os sistemas de classificação existentes e utilizados em pesquisas de organização do conhecimento mostravam-se inadequados, em especial por serem hierárquico-enumerativos, portanto estáticos, voltados para bases de conhecimento. No caso da atividade de anotação genômica, o que se representa, de fato, são as atividades, as ações envolvidas no processo de anotação e, em uma visão sistêmica, os elementos associados. O que se manifesta são GT2 593
objetos heterogêneos na realidade do Laboratório cuja relações funcionais-sintagmáticas se fizerem fortemente presentes. Acredita-se que um sistema de informação no modelo aqui proposto seja de grande utilidade e possa ser incluído em um site científico ou em outro contexto, no qual haja necessidade de recuperação de informação que apóie os cientistas envolvidos nas soluções de problemas. Entretanto, não se pode dizer que tal modelo, seja hermético e definitivo. Dada a dinamicidade das informações, tudo está sempre em desenvolvimento, acompanhando a modernidade das tecnologias e este modelo de representação não está imune a tais modificações. Abstract: This study aims at investigating methodological possibilities to represent information resources produced and utilized in a specific environment of interdisciplinary domain through the elaboration of a model of representation of a research activity. The empiric approach is related to the Molecular Biology domain developed in the scientific activity of a modern Laboratory. The work in the Lab comprises scientific research related mainly to the genome of Trypanosomatids and Negleted Ttropical Diseases such as Chagas disease (T. cruzi) and other trypanosomosis, leishmaniosis (Leishmania sp.), generating information and scientific knowledge. The research focus the organization of content of this knowledge generated in the Lab emphasizing the activity of genome annotation. In order to achieve efficient knowledge organization, the Theory of Classification was applied, emphasizing it as tool of the Information Science that helps the systematic structuring of information developed by the research crew but the study demonstrated the importance of the functional-sintagmatic relations in the organization of heterogeneous objects. The methodology used for the elaboration of a model of representation is based on the analysis of domain and in the etnomethodology to the identification of the elements present in that activity and in the method used for the classification of these elements. Also, guidelines were defined to the representation of the model of an activity. Keywords: Theory of Classification-1. Knowledge Organization-2. Information Representation-3. Domain Analysis-4. Etnomethodology-5. REFERÊNCIAS AITCHISON. J. The thesaurofacet: a multipurpose retrieval language tool. Journal of Documentation, 26 (3) p. 187-203, 1970. BLATECKY A., GAMIEL K., RAMAKRISHNAN L., REED, D., REED, M. Building the bioscience gateway. (North Carolina Biosite. Disponível em: <http://www.ncbiosite.org>. Acesso em 13 fev, 2009. BROUGHTON, Vanda. Faceted classification as a basis for knowledge organization in a digital environment; the Bliss bibliographic classification as a model for vocabulary management and the creation of multidimensional knowledge structures. New Review of Hypermedia and Multimedia. v. 7, issue 1, 2002. p. 67 102. CAMPOS, Maria Luiza de Almeida. Linguagem documentária: teorias que fundamentam sua elaboração. Niterói: EdUFF, 2001. 133p. GT2 594
CAMPOS, Maria Luiza de Almeida e GOMES, Hagar Espanha. Taxonomia e Classificação: o princípio de categorização. Data GramaZero Revista de Ciência da Informação, v. 9, n. 4, agosto, 2008. CHAU, Michael et al Building a scientific knowledge web site: The NanoPort experience. Decision Support Systems, (42) 1216-1238, Nov 2006. DAHLBERG, Ingetraut. Ontical Structures and Universal Classification. Bangalore: Sarada Ranganathan Endowment for Library Sciences Series II, Sarada Ranganathan Lectures II, 1978.. Knowledge organization: its scope and possibilities. Knowledge Organization, v. 20, n.4, 1993. p. 211-222. DENTON, William. How to make a faceted classification and put it on the web. Disponível em: < http://www.miskatonic.org/library/facet-web-howto.html>. Acesso em 12 dez 2010. GIBAS, C., JAMBECK, P. Desenvolvendo Bioinformática. Tradução de Cristina de Amorim Machado. Rio de Janeiro: Campus, 1st ed., 2001. GIL, Henrique Urbano. El enfoque etnometodológico en la investigación científica. In: Liberabit: Lima (Peru) Revista de Psicologia, número 13:89-91, 2007. GILCHRIST, Alan. Thesauri, taxonomies and Ontologies an etymological note. Journal of Documentation, v. 59, n. 1, 7-18, 2003. GOMES, H. E; MOTTA, D.F. e CAMPOS, M.L.A. Revisitando Ranganathan: A Classificação na rede. 2006. Disponível em: < www.conexaorio.com/biti/ >.Acesso em: 13 abr 2008. HJØRLAND, Birger. Domain analysis in information science. Eleven approaches traditional as well as innovative. Journal of Documentation, vol. 58, no. 4, pp. 422-462, 2002. JULES-ROSETTE, Benetta. Huit aspects principaux de l Ethnomethodologie. In: Pratiques de formation (analyses), Ethnométhodologies, ( Université de Paris VIII),. numéro spécial de la revue Pratiques de formation, numéro double 11-12, 1985 KUMAR, Krishan. Theory of Classification. 2nd. Revised. New Dehli: Vikas Publishing House, 1981. 539p. MACEDO, Roberto Sidnei. Etnopesquisa crítica, etnopesquisa formação. Brasília: Líber Livro Editora, 2006. NUNES, Everardo Duarte. Interdisciplinaridade: conjugar saberes. in: Saúde em debate, v. 26, n.62, p.249-258, set/dez, Rio de Janeiro, 2002. OLIVEIRA, Laura de Lira e. Organização dos conteúdos de conhecimento para sites científicos: a representação da atividade de pesquisa em laboratório de Biologia Molecular de Tripanosomatídeos e Flebotomíneos. Tese (Doutorado), Universidade Federal Fluminense. Niterói, GT2 595
RJ, 2011. RANGANATHAN, S. R. Prolegomena to Library Classification. Bombay: Asia Publishing House, 1967. STEWART, Darin L. Building Enterprise Taxonomies. USA: Mokita Press, 2008. 229 p. WAGNER, Glauber. Geração e análise comparative de sequências genômicas de Trypanosoma rangeli. Dissertação (Mestrado) Instituto Oswaldo Cruz. Rio de Janeiro, 2006. GT2 596