O estado das pesquisas do Grupo - Ontologia e Taxonomias: aspectos teóricos e metodológicos Maria Luiza de Almeida Campos UFF/PPGCI Hagar Espanha Gomes - CNPq Maria Luiza Machado Campos UFRJ/PPGI Jackson da Silva Medeiros UFF/PPGCI Laura de Lira Oliveira - UFF/PPGCI Linair Maria Campos - UFF/PPGCI Luana Farias Salles CNEN Resumo Apresenta as atividades do Grupo Ontologia e Taxonomia. O grupo se caracteriza por seu aspecto interdisciplinar, reunindo pesquisadores da área de Ciência da Informação e Ciência da Computação de diversas instituições de pesquisa em torno de aspectos teóricos e metodológicos. Suas linhas de pesquisa atualmente enfatizam os aspectos de Mapeamento e Integração de Ontologia, Reuso, Modelização de Domínios de Conhecimento e Atividades, Análise de Domínio, Compatibilidade semântica, Definição Conceitual, Relações conceituais entre Ontologias de domínios e Tesauros terminológicos. O campo empírico onde o grupo tem atuando, se concentra no domínio das pesquisas genômicas. Palavras-chave Ontologia, Taxonomia, aspectos teóricos, aspectos metodológicos, pesquisa interdisciplinar. Abstract This work presents the activities of the group named Ontology and Taxonomy. This group has an interdisciplinary composition, joining researches from Information and Computer Science, from several research institutions, in order to investigate theoretical and methodological aspects on the subjects of Ontology and Taxonomy. Among the groups interest areas are: ontology mapping, integration and reuse, domain modeling, domain analysis, semantic compatibility, conceptual definition, conceptual relation between domain ontologies and terminological thesauri. The groups empirical field is focused on the domain of genomic research. Keywords: Ontology, Taxonomy, Theoretical aspects, Methodological aspects, interdisciplinary research. 1. Introdução: motivação e perfil do grupo de pesquisa A proposta do grupo de pesquisa Ontologia e Taxonomia: aspectos teóricos e metodológicos 1, que reúne pesquisadores nas áreas de Ciência da Informação e Ciência da Computação de diversas instituições como: UFF, UFRJ. UNIRIO e UFMG, tem por objetivo promover pesquisas que propiciem discussões em torno de aspectos teóricos e metodológicos sobre ontologias e taxonomias, como: fundamentos epistemológicos e de representação de domínios de conhecimento, princípios classificatórios, modelagem conceitual, integração e compatibilidade semântica, reuso, relações conceituais, princípios de definição. As ações que estão sendo desenvolvidas estão viabilizando atividades de pesquisa interdisciplinar. Nesta perspectiva, este trabalho pretende apresentar as atividades desenvolvidas, até agora pelo grupo, assim como as perspectivas futuras. 2. Estudos Desenvolvidos e Contribuições do Grupo de Pesquisa O grupo vem trabalhando com questões teóricas e metodológicas no âmbito do Mapeamento e Integração de Ontologia, apoiado em aspectos de reuso, Modelização de Domínios de Conhecimento e Atividades, aonde vem sendo discutido propostas metodológicas relacionadas à análise de domínio e mecanismos de representação de domínio interdisciplinar, Compatibilidade semântica onde estudos relacionados à definição são apresentados e por último, pesquisas em torno 1 Por motivo de espaço reduzido (5 laudas), informações mais detalhadas sobre cada componente do Grupo de Pesquisa Ontologias e Taxonomias : aspectos teóricos e metodológicos pode ser obtida através do Diretório de Grupo de Pesquisa do CNPq, onde o currículo Lattes de cada pesquisador está associado. Ao longo do trabalho as participações específicas de cada membro serão apresentadas pelas temáticas que estão envolvidos.
das possibilidades representacionais, através de relações conceituais, entre ontologias de domínios e tesauros terminológicos. O campo empírico onde o grupo tem atuado vem se concentrando no domínio das pesquisas genômicas. Entretanto, no que tange a última linha apresentada onde se discute questões relacionadas à tesauros e ontologias, pretende-se trabalhar no domínio do folclore e cultura popular. Desta forma, a seguir apresentaremos especificamente os trabalhos em desenvolvimento e os resultados até agora alcançados. 2.1 Mapeamento e Integração de Ontologia Nesta temática se insere o projeto financiado pelo CNPq na modalidade de bolsa de produtividade Integração de Ontologias: o domínio da Bioinformática e a problemática da compatibilização terminológica 2. No âmbito de seu enfoque teórico, o projeto se concentrou em estudos visando diretrizes para integração de ontologias nos domínios das pesquisas em Bioinformática. Neste sentido, um vasto levantamento da literatura foi realizado concentrando esforços nas seguintes áreas: Ciência da Informação, no que concerne aos estudos de compatibilização de linguagens que datam da década de 60, passando por autores como Neville (1970, 1972), Dahlberg (1978a, 1978b, 1981, 1983), Soergel (1982) entre outros; Ciência da Computação, no que tange à integração e mapeamento em ontologias através de autores contemporâneos como Guarino (1997, 1998), Smith (2004a, 2004b, 2007) entre outros Estes estudos evidenciam que são necessários esforços de pesquisa para a identificação de diretrizes no que tange a compatibilização semântica dos termos. No âmbito de seu enfoque empírico a pesquisa se apoiou em discussões que envolveram a importância do uso de ontologias para os serviços em Bioinformática, especificamente foi investigado o esforço de pesquisa que tem sido realizado no Laboratório de Biologia Molecular de Tripanossomatídeos e Flebotomíneos da FIOCRUZ. Como resultado do projeto, foi possível apresentar as etapas metodológicas realizadas para a identificação de conceitos no contexto do Laboratório, seu mapeamento em ontologias da OBO (Open Biological Ontologies) (OBO, 2005) e o desenvolvimento de critérios de compatibilização semântica. Foram discutidos os métodos de Reconciliação de Tesauros proposto por Neville e a Matriz de Compatibilização Conceitual proposta por Dahlberg visando estabelecer critérios para serem utilizados em uma amostra de 29 termos que possuem coincidência verbal nas ontologias selecionadas do consórcio da OBO. Os resultados obtidos se referem a uma primeira etapa que consistiu na análise manual das definições, com a intenção de verificar até que ponto o processamento automático traria resultados consistentes para uma análise de potencialidades semânticas, a partir das características presentes na definição do conceito. A análise nos mostrou que as definições, de forma geral, não são elaboradas de forma a permitir uma análise automática consistente, pela ausência de um padrão, para identificar níveis de compatibilidade semântica entre os conceitos. Assim, para que possamos identificar níveis de compatibilização semântica consistente entre ontologias neste contexto será necessária uma intervenção nas definições apresentadas, ou a elaboração de softwares que possibilitem além de uma análise quantitativa das características nas definições, verificar, também, a cadeia hierárquica superordenada dos conceitos. Em torno deste projeto várias ações de pesquisa/ensino foram desenvolvidas, até a presente data. Neste sentido, fazem parte três dissertações de mestrado do Programa de Pós-Graduação em 2 Este projeto é coordenado pela Profa. Maria Luiza de Almeida Campos e fazem parte como pesquisadores as profas. Hagar Espanha Gomes, Maria Luiza Machado Campos. Esta última pesquisadora, tem coordenado os esforços relacionados ao desenvolvimento de ferramentas para apoiar a visualização das árvores classificatórias nas ontologias que fazem parte da OBO. As ferramentas de busca e visualização foram desenvolvidas no âmbito de um projeto de iniciação científica com a participação de alunos do curso de graduação em Informática da Universidade Federal do Rio de Janeiro. Os alunos envolvidos, foram: Ruben Peorazio de Albuquerque, Miguel Gabriel Prazeres de Carvalho, Bianca Pereira e Ronaldo Pinheiro de Souza. A supervisão das questões referentes à temática biomedicina foi conduzida pelo Prof. Alberto Martin Rivera Dávila. O projeto contou com apoio de alunos de estrado e doutorado, como veremos adiante.
Ciência da Informação da UFF/IBICT com temas relacionados às áreas de nossa pesquisa, a saber: relações conceituais em ontologias; taxonomia de domínio; tratamento e recuperação de informações; compatibilização de linguagens 3. Atualmente, dentro deste escopo se inserem os projetos de pesquisa de doutorado de dois alunos deste mesmo Programa com temas relacionados à ontologia e taxonomia. Estes dois últimos projetos vêm verticalizando os estudos no âmbito das questões que envolvem a análise de domínio e sua representação, visando a elaboração de taxonomias e reuso de ontologias, como veremos adiante no item Modelização de Domínios de Conhecimento e Atividades: a importância em taxonomias e no reuso de ontologias. 2.2 Modelização de Domínios de Conhecimento e Atividades Este eixo temático, atualmente, apresenta pesquisas que se propõe a discutir a problemática representacional,comparando os mecanismos de abstração presentes nas teorias da ciência da informação, da terminologia e da computação, que permitem a representação de conhecimento em domínios diversos, em uma proposta de encontrar um núcleo comum imprescindíveis ao ato de modelar o conhecimento. Duas pesquisas de nosso grupo, fruto de trabalho de doutoramento, estão em fase de desenvolvimento, tendo como campo empírico de atuação o domínio da Biologia Celular, são elas: 1. Organização dos conteúdos de conhecimento para portais científicos: a pesquisa em ação no Laboratório de Biologia Molecular de Tripanosomatídeos e Flebotomíneos 4, e 2. Metodologia para definição de domínio no reuso de ontologias biomédicas voltadas para anotação genômica de Tripanossomatídeos 5. O objetivo da primeira pesquisa é discutir a representação do conhecimento científico gerado em um ambiente específico de domínio interdisciplinar, através da elaboração de taxonomia de tarefas para portais científicos. Neste sentido, pretende-se investigar as possibilidades metodológicas para a representação de domínios interdisciplinares. A partir de bases teóricas da organização do conhecimento, procura-se desenvolver metodologia para capturar o conhecimento científico que surge nesse ambiente de laboratório interdisciplinar, através de bases teóricas e metodológicas relativas à classificação em ambiente interdisciplinar e de bases teóricas da etnometodologia. O escopo final na obtenção desse conhecimento científico é aprofundar as atividades representadas em um workflow científico de um determinado subdomínio relacionado com a Biologia Molecular, a Bioinformática, e especificamente o processo da anotação genômica, a fim de se compor uma taxonomia de tarefas nesse nível específico com aplicabilidade em portal científico. Já a segunda pesquisa, traça uma proposta que visa a elaboração de metodologia para a definição de domínio no reuso aplicado de ontologias biomédicas, com foco na anotação genômica de Tripanosomatídeos. A aplicação de tal metodologia traz como resultado o aumento da precisão do reuso aplicado de ontologias com foco na anotação de genomas de tripanossomatídeos, ou seja: (i) a delimitação mais acurada do recorte terminológico do domínio dos Tripanossomatídeos Para tratar a questão da delimitação de domínios em ontologias, a literatura tem apontado para diretrizes ligadas à análise de domínio (HJORLAND, 2002). Entretanto, foi possível observar que existe uma carência de detalhes entre o estudo do domínio e o produto final esperado desse estudo: um modelo conceitual do domínio, com suas classes de relevância organizadas segundo princípios bem definidos e explicitados. Até onde pudemos perceber, a literatura de reuso de 3 Dissertações de Mestrado : SOUZA, J. C. C. E. Avaliação de linguagem de indexação aplicada à informação jornalística: estudo de caso. 2007. Dissertação (Mestrado em Ciência da Informação) - UFF/IBICT, Rio de Janeiro, 2007; NOVO, H. F. A elaboração de taxonomia: princípios classificatórios para domínios interdisciplinares. 2007. Dissertação (Mestrado em Ciência da Informação) - UFF/IBICT, Rio de Janeiro, 2007; SALES, L. F. Ontologias de domínio: estudo das relações conceituais e sua aplicação. 2006. Dissertação (Mestrado em Ciência da Informação) - UFF/IBICT, Rio de Janeiro, 2006. 4 Esta pesquisa está sendo desenvolvida pela aluna de doutorado da Pós-Graduação em Ciência da informação UFF, Laura de Lira e Oliveira, orientadas pelas profas. Maria Luiza de Almeida Campos e Hagar Espanha Gomes. 5 Esta pesquisa está sendo desenvolvida pela aluna de doutorado da Pós-Graduação em Ciência da informação UFF, Linair Maria Campos, orientadas pelas profas. Maria Luiza de Almeida Campos e Maria Luiza Machado Campos.
ontologias referencia a análise de domínio para tomar diretrizes sobre como abordar os documentos e especialistas para extrair o conhecimento ali contido, porém não encontramos uma proposta de uma metodologia de reuso de ontologias que, a partir das temáticas e conceitos identificados pela análise de domínio, explique como se deve dar a reformulação dessas ontologias para o modelo conceitual desejado, que seja representativo do domínio. 2.3. Compatibilidade Semântica Este eixo temático perpassa as diversas pesquisas apresentadas acima, mas especificamente está sendo tratado pelo projeto apoiado pelo CNPq, no período que irá de 2009 a 2011 Ontologia e o papel das definições: a descoberta no domínio de Tripanosomatídeos como apoio às pesquisas em Bioinformática no Brasil 6. Este projeto visa preencher algumas dessas lacunas, utilizando bases teóricas e estratégias definidas na Ciência da Informação para a melhoria das metodologias e ferramentas de construção de ontologias, através de estudos que investiguem o uso de definição como um fator importante para a expressividade semântica em ontologias. No caso das ontologias, as definições propiciam a possibilidade de compatibilização semântica, pois descrevem o conteúdo semântico de um termo. Esta descrição possibilita que agentes inteligentes possam entender o significado de um termo e estabelecer inferências sobre esses significados, pois a definição é composta de características de conceitos, que são também conceitos que se relacionam formando o entendimento semântico dos termos em questão. Entretanto, é fato, que as ontologias existentes ressentem-se hoje de um padrão de seu enunciado definitório para a sua elaboração. (MICHAEL, 2001; SMITH, B, 2004 a). Isto é bastante problemático quando se coloca a questão da compatibilização de linguagens que operam em bases cooperativas, como é o caso das pesquisas que vêm sendo desenvolvidas em Bioinformática. Em nossas atividades de pesquisa, estudos vêm sendo desenvolvidos neste campo 7, nos levando a constatar que para trabalhar em domínios específicos será necessário desenvolver padrões definitórios que venham a atender a especificidade de cada domínio. 2.4. Ontologias de domínio e Tesauros Terminológicos : estudo das possibilidades representacionais Este eixo temático pretende discutir a identidade de ferramentas como ontologias e tesauros e medir as possibilidades de recuperação de conhecimento e estabelecimento de inferências. Será fruto de dissertação de mestrado 8 e nesta perspectiva, este projeto encontra-se na etapa de estabelecimento do campo teórico e empírico para possibilitar uma proposta de aplicação em domínio interdisciplinar. 3. Direções da Pesquisa Todo nosso movimento de pesquisa tem por foco atuar sempre sob duas perspectivas, ou seja, uma perspectiva teórica e outra que denominamos de estratégica, entendendo esta última, como o espaço onde esta pesquisa irá beneficiar diretamente as comunidades para as quais ela se propõe a atender. Assim atualmente podemos apontar as seguintes direções teóricas para as atividades do grupo: Determinação de princípios Teóricos e Metodológicos para a Elaboração de Ontologias, Taxonomias, Compatibilização e Reuso em Ontologias; Estabelecimento de princípios 6 Pesquisa coordenada pela Profa. Maria Luiza de Almeida Campos. 7 Alguns trabalhos desenvolvidos: CAMPOS, M. L. A. Integração de Ontologias: o domínio da bioinformática. RECIIS - Revista de Comunicação, Informação; Inovação em Saúde, v. 1, p. 117-121, 2007; CAMPOS, M. L. A Linguagem documentária: teorias que fundamentam sua elaboração. Niterói, RJ: Eduff, 2001.;CAMPOS, M. L. M.; CAMPOS, M. L. A.; CAMPOS, L. M.. Web semântica e a gestão de conteúdos informacionais. In: Carlos H. Marcondes (Org.). Bibliotecas digitais: saberes e práticas. Salvador, BA; Brasília.: EDUFBA; IBICT, 2005, p. 55-75. ;CAMPOS, M. L. A. ; CAMPOS, M. L. M. ; DAVILA, A. M. R. ; GOMES, H. E. ; CAMPOS, L. M. ; LIRA, L.. Aspectos Metodológicos no Reuso de Ontologias: um estudo a partir das anotações genômicas no domínio dos tripanosomatídeos. RECIIS - Revista Eletrônica de Comunicação, Informação e Inovação em Saúde, v. 3, p. 64-75, 2009. 8 Esta pesquisa está sendo desenvolvida pelo aluno de mestrado do Mestrado em Ciência da informação UFF, Jackson, orientado pelas profa. Maria Luiza de Almeida Campos.
para cooperação terminológica entre consórcios de Bioinformática através da determinação de padrões definitórios para a conceituação de termos e relações entre termos; Mapeamento das Categorias e estrutura classificatória para a elaboração de uma GO Slim em Tripanosomatídeos. Quanto às direções que propiciam um movimento estratégico, podemos citar: Desenvolvimento de um Sistema Intermediário Inteligente para otimizar o processo de anotação genômica no Laboratório de Tripanosomatídeos da Fiocruz; Inserir o Laboratório de Tripanossomatídeos da Fiocruz como um Centro Cooperante do Consórcio da OBO Foundry - consórcio de caráter colaborativo no âmbito da OBO, que visa padronizar a elaboração de novos termos para as ontologias que fazem parte da OBO; Divulgação para a comunidade internacional do esforço de pesquisa desenvolvida no Brasil através de uma Taxonomia em Tripanossomatídeos. Outro ponto a ressaltar, é que através dos estudos desenvolvidos pelo grupo verifica-se que áreas como a Ciência da Informação, a Ciência da Computação e a Terminologia devem estabelecer um diálogo visando somar esforços teóricos/metodológicos. Desta forma, não só como campo empírico de atuação, escolhemos domínios interdisciplinares, mas o enfoque do grupo é atuar interdisciplinarmente a partir de competências que possibilitem o desenvolvimento dos estudos no campo das ontologias e taxonomias. 4. Bibliografia DAHLBERG, I. Conceptual definitions for interconcept. International Classification, v. 8, n. 1, 1981. DAHLBERG, I. Ontical structures and universal classification. Bangalore: Sarada Ranganathan Endowment, 1978b. 64 p. DAHLBERG, I. A Referent-oriented analytical concept theory of interconcept. International Classification, Frankfurt, v.5, n.3, p.142-150, 1978a. DAHLBERG, I. Terminological definitions: characteristics and demands. In: Problèmes de la définition et de la synonymie en terminologie. Québec, GIRSTERM, 1983. p. 13-51. GUARINO, N. Semantic Matching: Formal Ontological Distinction for Information Organization, Extraction, and Integration. In: M. T. Pazienza (ed.) Information Extraction: A multidisciplinary Approach to an Emerging Information Technology, 1997. GUARINO, N. Formal ontology and information systems. In: FOIS '98, 1., 1998, Trento, Italy. Proceedings Amsterdam: IOS Press; Tokyo: Omsha, 1998 a. p. 3-15. HJØRLAND, Birger. Domain analysis in information science: eleven approaches traditional as well as innovative. Journal of Documentation, v. 58, n. 4, p. 422 462, 2002. MICHAEL, J.; MEJINO, J. L. V.; ROSSE, C. The role of definitions in biomedical concept representation. In: JAMIA Symposium Supplemen, v. 01, p. 463-467, 2001. NEVILLE, H. H. Feasibility study of a scheme for reconciling thesauri covering a commom subject. Journal Doc., v. 4, n. 26, p.313-36, dec. 1970. NEVILLE, H. H. Thesaurus reconciliation. Aslib Proc., v.11, n.24, p. 620-6, nov. 1972. OBO. Open Biomedical Ontologies, 2005. Disponível em: <http://obo.sourceforge.net.>. Acesso em: 17 maio 2008. SALES, L. F.; CAMPOS, M. L. A.; GOMES, H. E. Ontologias de Domínio: Um Estudo das Relações Conceituais e sua Aplicação. In: VII ENANCIB, 2006, Marília. Anais do VII ENANCIB, 2006. SMITH, B.; KOHLER, J.; KUMAR, A. On the Application of Formal Principles to Life Science Data: a Case Study in the Gene Ontology. Lecture Notes in Computer Science, v. 2994, p. 79-94, 2004a. SMITH, B.; ROSSE, C. The Role of Foundational Relations in the Alignment of Biomedical Ontologies. Proceedings, MedInfo, San Francisco, CA, 2004b. p. 444-448. SMITH, B., et al. The OBO Foundry: coordinated evolution of ontologies to support biomedical data integration. In: Nature Biotechnology n. 25, p.1251-1255, 2007. SOERGEL, D. Compatibility of vocabularies. In: RIGGS, F.W. ed. The conta Conference; Proceedings of conference on conceptual and terminological anlysis in the social sciences. Bielefeld, may 24-7, 1981. Frankfurt, INDEKS Verl., 1982. p. 209-23.