Título: INTEGRAÇÃO DE ONTOLOGIAS: O DOMÍNIO DA BIOINFORMÁTICA E A PROBLEMÁTICA DA COMPATIBILIZAÇÃO TERMINOLÓGICA.



Documentos relacionados
O estado das pesquisas do Grupo - Ontologia e Taxonomias: aspectos teóricos e metodológicos

II. Atividades de Extensão

OBSERVATÓRIO DE GESTÃO DA INFORMAÇÃO. Palavras-chave: Gestão da Informação. Gestão do conhecimento. OGI. Google alertas. Biblioteconomia.

SUGESTÕES PARA ARTICULAÇÃO ENTRE O MESTRADO EM DIREITO E A GRADUAÇÃO

Universidade Estadual Paulista Faculdade de Filosofia e Ciências Campus de Marília Grupo de Estudos sobre Organização e Representação do Conhecimento

Carta para a Preservação do Patrimônio Arquivístico Digital Preservar para garantir o acesso

Extensão do Sistema de Metadados para Recursos Naturais

Uma Ontologia para Gestão de Segurança da Informação

Organizaçãoe Recuperação de Informação GSI521. Prof. Rodrigo Sanches Miani FACOM/UFU

UNIVERSIDADE FEDERAL DO PARANÁ UFPR Bacharelado em Ciência da Computação

Estudo do Domínio do Repositório Institucional da ENAP

Desenvolvimento de um software de gerenciamento de projetos para utilização na Web

Título: A problemática da compatibilização terminológica e a integração de ontologias: o papel das definições conceituais

ROTEIRO PARA CLASSIFICAÇÃO DE LIVROS Avaliação dos Programas de Pós graduação

ROTEIRO PARA ELABORAÇÃO DE PROJETOS

Projeto 2.47 QUALIDADE DE SOFTWARE WEB

Disciplina: Administração de Departamento de TI. Professor: Aldo Rocha. Aula IX - 28/04/2011

A PROBLEMÁTICA DA COMPATIBILIZAÇÃO TERMINOLÓGICA E A INTEGRAÇÃO DE ONTOLOGIAS: O PAPEL DAS DEFINIÇÕES CONCEITUAIS

11 de maio de Análise do uso dos Resultados _ Proposta Técnica

ENGENHARIA DE SOFTWARE I

INTEGRAÇÃO DE APLICAÇÕES UTILIZANDO WEB SERVICE 1. Kellen Kristine Perazzoli 2 ; Manassés Ribeiro 3

Módulo 15 Resumo. Módulo I Cultura da Informação

Ajuda ao SciEn-Produção O Artigo Científico da Pesquisa Experimental

GESTÃO DAS INFORMAÇÕES DAS ORGANIZAÇÕES MÓDULO 11

Conceitos de Banco de Dados

Relatório da IES ENADE 2012 EXAME NACIONAL DE DESEMEPNHO DOS ESTUDANTES GOIÁS UNIVERSIDADE FEDERAL DE GOIÁS

DIRETRIZES E PARÂMETROS DE AVALIAÇÃO DE PROPOSTAS DE CURSOS NOVOS DE MESTRADO PROFISSIONAL

Abordagem de Processo: conceitos e diretrizes para sua implementação

GARANTIA DA QUALIDADE DE SOFTWARE

1 Introdução. 1.1 Apresentação do tema

Para construção dos modelos físicos, será estudado o modelo Relacional como originalmente proposto por Codd.

A Arquivologia como campo de pesquisa: desafios e perspectivas. José Maria Jardim Universidade Federal do Estado do Rio de Janeiro - UNIRIO

Governança de TI. ITIL v.2&3. parte 1

ISO/IEC 12207: Gerência de Configuração

Estratégias para a implantação do T&V

TERMO DE REFERÊNCIA (TR) GAUD VAGA

PROCESSO DE DESENVOLVIMENTO DE SOFTWARE. Modelos de Processo de Desenvolvimento de Software

CAPITULO 4 A ARQUITETURA LÓGICA PARA O AMBIENTE

Projeto BVS-SP-1.9 Publicação eletrônica de textos completos em Saúde Pública (15 de outubro de 1999)

APLICATIVO MOBILE CATÁLOGO DE PÁSSAROS - PLATAFORMA ANDROID/MYSQL/WEBSERVICE

O propósito deste trabalho foi o de apresentar os programas de. catalogação cooperativa, centralizada e catalogação-na-publicação, os quais,

COMUNICADO n o 001/2012 ÁREA DE CIÊNCIA DA COMPUTAÇÃO ORIENTAÇÕES PARA NOVOS APCNS 2012 Brasília, 22 de Maio de 2012

Prof. JUBRAN. Aula 1 - Conceitos Básicos de Sistemas de Informação

1

Banco de Dados Aula 1 Introdução a Banco de Dados Introdução Sistema Gerenciador de Banco de Dados

Critérios para certificação de Sites SciELO: critérios, política e procedimentos para a classificação e certificação dos sites da Rede SciELO

Ontologias. Profa. Lillian Alvares Faculdade de Ciência da Informação, Universidade de Brasília

Integração de Ontologias: o domínio da Bioinformática

Modelos de Sistema by Pearson Education. Ian Sommerville 2006 Engenharia de Software, 8ª. edição. Capítulo 8 Slide 1.

MINISTÉRIO PÚBLICO DO ESTADO DE SÃO PAULO ÁREA DE DOCUMENTAÇÃO E DIVULGAÇÃO SETOR DE PROCESSAMENTO TÉCNICO DA BIBLIOTECA CÉSAR SALGADO PROJETO

Engenharia de Software

Cooperação científica e técnica e o mecanismo de intermediação de informações

Gestão dos Níveis de Serviço

Violência contra crianças e adolescentes: uma análise descritiva do fenômeno

CONCURSO PÚBLICO ANALISTA DE SISTEMA ÊNFASE GOVERNANÇA DE TI ANALISTA DE GESTÃO RESPOSTAS ESPERADAS PRELIMINARES

Módulo 2. Estrutura da norma ISO 9001:2008 Sistemas de Gestão da Qualidade Requisitos 0, 1, 2, 3 e 4/4, Exercícios

UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS

PROJETO DE REDES

O POSICIONAMENTO DA ARQUITETURA DA INFORMAÇÃO NA GOVERNANÇA DE TI

SIMULADO: Simulado 3 - ITIL Foundation v3-40 Perguntas em Português

Desenvolvendo uma Arquitetura de Componentes Orientada a Serviço SCA

05/05/2015. Recuperação de Informação

QUALIDADE DE SOFTWARE

Universidade de Brasília. Faculdade de Ciência da Informação. Prof a Lillian Alvares

4 Metodologia da Pesquisa

Glossário Apresenta a definição dos termos, siglas e abreviações utilizadas no contexto do projeto Citsmart.

Universidade de Brasília. Departamento de Ciência da Informação e Documentação

Dadas a base e a altura de um triangulo, determinar sua área.

Esta comunicação está sendo submetida sob o [x] Tema 1 Aspectos teóricos e metodológicos nos estudos em ontologias

ATIVIDADES DE LINHA E DE ASSESSORIA

04/08/2012 MODELAGEM DE DADOS. PROF. RAFAEL DIAS RIBEIRO, MODELAGEM DE DADOS. Aula 1. Prof. Rafael Dias Ribeiro. M.Sc.

UM PRODUTO EDUCATIVO PARA FAZER EDUCAÇÃO AMBIENTAL

Planejamento Estratégico de TI. Prof.: Fernando Ascani

EXTENSÃO UNIVERSITÁRIA E POLÍTICAS PÚBLICAS SOCIAIS

PLANOS DE CONTINGÊNCIAS

PLANEJAMENTO OPERACIONAL - MARKETING E PRODUÇÃO MÓDULO 5 CONCEITOS DO PLANEJAMENTO OPERACIONAL

Gerenciamento de Projetos

Sistema de Informação Integrado

APLICATIVO WEB PARA O SETOR DE EXTENSÃO IFC VIDEIRA

ISO 9001:2015 Nova versão porque e quando?

Modelagem de relações conceituais para a área nuclear

PUBLICAÇÃO CIENTÍFICA RESULTANTE DAS DISSERTAÇÕES E TESES EM EDUCAÇÃO FÍSICA NO BRASIL

Um Framework para definição de processos de testes de software que atenda ao nível 3 do TMM-e

Universidade de Brasília. Departamento de Ciência da Informação e Documentação. Prof a.:lillian Alvares

SGQ 22/10/2010. Sistema de Gestão da Qualidade. Gestão da Qualidade Qualquer atividade coordenada para dirigir e controlar uma organização para:

UTILIZAÇÃO DO AMBIENTE COLABORATIVO TIDIA-AE PELO GRUPO DE GERENCIAMENTO DO VOCABULÁRIO CONTROLADO DO SIBiUSP - BIÊNIO

Universidade Paulista

Gestão da informação científica e repositórios institucionais de acesso aberto Fernando César Lima Leite fernandoc@unb.br

Gerenciamento de Projetos Modulo II Ciclo de Vida e Organização do Projeto

CHECK - LIST - ISO 9001:2000

ESTENDENDO A UML PARA REPRESENTAR RESTRIÇÕES DE INTEGRIDADE

Guia Básico de Utilização da Biblioteca Virtual da FAPESP. Thais Fernandes de Morais Fabiana Andrade Pereira

Pedagogia Estácio FAMAP

UNIVERSIDADE DE SÃO PAULO E S C O L A D E A R T E S, C I Ê N C I A S E H U M A N I D A D E

Implantação. Prof. Eduardo H. S. Oliveira

Estruturando o modelo de RH: da criação da estratégia de RH ao diagnóstico de sua efetividade

Gerenciamento de Riscos do Projeto Eventos Adversos

Fábrica de Software 29/04/2015

Transcrição:

Grupo Temático Ancib: GT 2 : Organização do Conhecimento e Representação da Informação Título: INTEGRAÇÃO DE ONTOLOGIAS: O DOMÍNIO DA BIOINFORMÁTICA E A PROBLEMÁTICA DA COMPATIBILIZAÇÃO TERMINOLÓGICA. Maria Luiza de Almeida Campos Doutora em Ciência da Informação UFRJ/IBICT Universidade Federal Fluminense Departamento de Ciência da Informação Resumo As pesquisas em Bioinformática no Brasil vêm desenvolvendo estudos para prover um ambiente que possa oferecer informação semântica sobre recursos científicos e possibilitar o uso destes recursos de forma conjunta pela comunidade científica interessada, através de consórcios entre instituições de pesquisa.um dos aspectos que envolvem a descrição e recuperação destes recursos e serviços está relacionado ao desenvolvimento de uma linguagem padronizada para facilitar o entendimento dos vocabulários, muitas vezes interdisciplinares. Este projeto de pesquisa propõe investigar mecanismos de uso, desenvolvimento e integração de Ontologias a partir das bases teóricas da Ciência da Informação e da Terminologia, que permitam a descrição e recuperação dos recursos e serviços de Bioinformática, especificamente no domínio de Genoma e Transcriptoma, visando apoiar as pesquisas nesta área no Brasil. Palavras chaves: Integração de ontologia, Elaboração de ontologia de domínio, Bioinformática, Base teórica e metodológica Abstract Research of Bioinformatics in Brazil aims at providing an environment for semantic information on scientific resources so that they may be shared among scientists in the field through a consortium with research organizations. Description and retrieval of theses resources and services are some of the issues related to development of a standard language to facilitate understanding of vocabularies which are often interdisciplinary. This research project intends to investigate means of use, development and integration of ontologies using theoretical bases of Information Science and of Terminology to provide description and retrieval of resources and services of Bioinformatics, specifically in the domain of Genome and Transcriptome, in order to support research in these areas in the Country. Key-Words: Integration of ontologies; Domain ontology construction; Bioiknformatics; Theoretical and methodological bases 1

1. CONSIDERAÇÕES INICIAIS A Web é hoje considerada o maior repositório de informações dos mais variados domínios de conhecimento. Atualmente possui uma ampla disponibilidade de conteúdos publicados para consumo por seus usuários. A evolução da Web levou a que cada vez mais estes conteúdos fossem explorados também por aplicações, em um ambiente intensivo de troca de informações, que, no entanto, até recentemente, tem dependido de acordos e prédefinições por parte destes usuários de forma a garantir a interoperabilidade entre estas aplicações. A proposta de uma Web semântica busca minorar ou eliminar esta dependência, aumentando a expressividade dos descritores associados aos recursos disponíveis, permitindo automatizar a colaboração entre aplicações e entre estas e seus usuários, através de buscas mais efetivas, integração e interoperabilidade entre aplicações. Se na primeira geração da Web, os documentos eram apenas ligados entre si, deixando para o usuário o papel de interpretar a natureza destas ligações, a nova geração da Web pretende ter ligações semanticamente mais ricas, capazes de dar suporte às aplicações em suas negociações. (CAMPOS, et al., 2006). Um dos fatores determinantes para que essas ligações possam ocorrer é um meio que viabilize a comunicação não somente entre os sistemas, mas entre o sistema e o usuário deste sistema. Este meio é a linguagem. A linguagem definida como língua em ação é composta por pelo menos três objetos, ou seja: a etiqueta lingüística, o conteúdo conceitual e um contexto comunicacional (GOMES; CAMPOS, 1996). No espaço da Web Semântica esses três elementos são de importância capital para que uma comunicação possa ser estabelecida, permitindo assim acessibilidade às informações disponibilizadas. Na perspectiva da Web Semântica este procedimento de controle de vocabulário vem sendo representado por um instrumento, que permite a representação e recuperação de dados e informações, denominado ontologia. Muita confusão se tem feito em torno do conceito de ontologia, que não pode ser considerado somente como um vocabulário controlado. Uma ontologia possui informações de natureza distinta, ou seja: terminológica - possui um conjunto básico de conceitos e relações-; e assertivas aplicadas aos conceitos e relações -, que constituem um conjunto de axiomas, diferentemente de instrumentos de controle terminológico como os tesauros, por exemplo. Além disso, os softwares para elaboração de ontologias possuem, em sua grande maioria, funcionalidades que possibilitam o entendimento das necessidades dos usuários, pois se propõem à interpretação das necessidades de busca, agregando também a resposta a estas necessidades. Desta forma, estamos considerando sob um ponto de vista comparativo, que as ontologias com todo seu potencial de funcionamento, podem ser analogamente definidas como Sistemas de Recuperação de Informação. Uma ontologia tem por objetivo prover uma base semântica para esquemas de metadados, facilitando a comunicação entre sistemas e agentes. Desta forma, ontologias estabelecem fundamentos de significados conceituais sem os quais a Web Semântica não seria possível, devido à heterogeneidade dos conceitos representados (JACOB, 2003). A heterogeneidade tem sido identificada como um dos problemas mais importantes e difíceis de tratar. Ela envolve a interoperabilidade e cooperação entre múltiplas fontes de informação, retratando diferenças sintáticas, semânticas e estruturais entre sistemas. A heterogeneidade semântica representa atualmente o maior empecilho para interoperabilidade semântica, representando um grande desafio para integração de informações na Web. Para tratar esse problema é preciso buscar uma linguagem capaz de 2

representar conhecimento e regras, além de inferir novos dados. ( BERNERS-LEE et al., 2001) Isso se dará a partir de inter-relacionamentos entre ontologias específicas de domínios, que têm como premissa: o uso racional de metadados, para descrição de dados de forma homogênea; o uso sistemático de ontologias, preenchendo a lacuna entre fontes de dados heterogêneas; e a utilização de associações semânticas, tratando a interoperabilidade entre domínios (ADAMS, 2002). Neste sentido, as ontologias assumem papel fundamental nesta investigação, viabilizando a interoperabilidade semântica de sistemas distribuídos heterogêneos. As pesquisas em Bioinformática no Brasil vêm desenvolvendo estudos que têm por finalidade prover um ambiente que possa oferecer informação semântica sobre os recursos científicos, como dados e programas nesta área, e possibilitar o uso destes recursos de forma conjunta pela comunidade científica interessada. Um dos aspectos que envolvem a descrição e recuperação destes recursos e serviços está relacionado ao desenvolvimento de uma linguagem padronizada e consensual para facilitar o entendimento dos vocabulários, muitas vezes interdisciplinares. Este artigo tem por objetivo apresentar a pesquisa em desenvolvimento desta autora, apoiada pelo CNPq (período 2005/2008), onde propõe investigar mecanismos de uso, desenvolvimento e integração de ontologias no domínio da Bioinformática, especificamente no campo que envolve as pesquisas em Genoma e Transcriptoma, visando apoiar os estudos nesta área que estão sendo desenvolvidos por instituições como a FIOCRUZ, trazendo aspectos teóricos e metodológicos da Ciência da Informação no seu domínio de competência relacionado à elaboração de linguagens documentárias e à organização do conhecimento. No que tange a um instrumento terminológico que possa auxiliar a integração de informações semânticas, em nível internacional, já existe a Gene Ontology. Entretanto, são quase inexistentes ontologias neste campo de pesquisa no Brasil, pois não atendem as especificidades na área de tripanosomatideos e Kinetoplastida i A importância destas espécies fez com que agências internacionais, num esforço conjunto, iniciado e catalisado pela OM.S., investissem no sequenciamento dos genomas T cruzi, T. brucel e Leismania major através de consórcios internacionais, envolvendo cientistas de países desenvolvidos e em desenvolvimento, da qual a FIOCRUZ é parte integrante. Seu campo empírico de investigação propicia o desenvolvimento de pesquisa de caráter interdisciplinar e interinstitucinal, promovendo uma maior integração de esforços entre diversas entidades nacionais e internacionais interessadas. 2. A PESQUISA EM BIOINFORMÁTICA: O TRATAMENTO E A RECUPERAÇÃO DE INFORMAÇÕES Bioinformática ou Biologia Computacional é um campo de conhecimento que surgiu a partir da aplicação da Ciência da Computação no armazenamento, análise e geração de dados biológicos. ii No campo da genômica, iniciativas da comunidade científica internacional, nos últimos anos, levaram a um crescimento explosivo de informações biológicas geradas todos os dias.( HGP, 2003) A preocupação inicial, então, era a criação e manutenção de bancos de dados para armazenar informação biológica. Conforme as bases de dados genômicas vão sendo preenchidas, e os genomas seqüenciados, o foco das pesquisas começa a se transferir do mapeamento dos genomas para a análise da vasta gama de informaçõess resultantes da caracterização funcional dos genes através da Biologia Molecular e Bioinformática. Torna-se fundamental a interligação entre os dados obtidos pelos diversos projetos de pesquisa ao redor 3

do mundo sobre o inter-relacionamento de enzimas, genes, componentes químicos, doenças, espécies, tipos de células, órgãos, etc. visando responder perguntas, tais como: Qual é a proteína que este gene codifica?, Qual a função desta proteína neste organismo?, Este gene é similar a outro gene presente em organismo distinto? (MENDES, 2005) Desta forma, é importante considerar a relevância da gerência, descrição e organização dos recursos científicos em meio digital para a pesquisa em Bioinformática. Especificamente, nesta área, nem sempre estes recursos estão disponíveis para o biólogo e muitas vezes este tem que recorrer à utilização de programas proprietários, residentes em outras instituições. Assim, para que estas equipes e/ou instituições troquem recursos científicos entre si é preciso encontrar uma forma comum de descrição e acesso a estes recursos, de modo a facilitar a busca e integração dos mesmos. Assim, a grande quantidade de dados que está sendo acumulado nos diferentes bancos de dados ao redor do mundo precisa, a partir das informações genômicas disponíveis, ser anotada e interpretada. Para este fim, é necessário que os diversos projetos interessados em trocar e integrar informações descrevam seus dados de forma a possibilitar com consistência a recuperação de informações. Iniciativas no campo do tratamento terminológica têm sido apresentada, através de repositórios de ontologias. Ontologias assumem papel fundamental nesta integração, viabilizando a interoperabilidade semântica de sistemas distribuídos heterogêneos, como é o caso de esforços que reúnem consórcios internacionais. A Biblioteca de Ontologias OBO Open Biological Ontologies iii é um repositório de terminologias desenvolvido para uso compartilhado entre diversos domínios biológicos e médicos. Apesar de se denominar um repositório de ontologias, na verdade, os vocabulários existentes podem ser definidos de diversas formas, como: vocabulários controlados, tesauros e propriamente ontologias. Além disto, alguns vocabulários objetivam ser genéricos a ponto de serem aplicáveis a quaisquer organismos, outros contêm termos específicos de grupos taxonômicos tais como moscas, fungos, leveduras ou peixes. Dentre os mais difundidos vocabulários componentes da OBO, podemos destacar a Gene Ontology (GO). A GO compreende termos referentes a três categorias de assunto, ou seja, componentes celulares, processos biológicos e funções celulares. No Brasil, especificamente na área de aplicações científicas genômicas, vêm sendo desenvolvido o projeto Genoma e Transcriptoma comparativo: um consórcio de Bioinformática para o desenvolvimento de uma plataforma Web e bancos de dados integrados, atualmente financiado pelo CNPq e coordenado pelo Dr. Alberto M. R. Dávila da FIOCRUZ. Este projeto tem como um dos principais objetivos prover um ambiente que possa oferecer informação semântica sobre recursos científicos, como dados e programas, na área de Bioinformática e possibilitar o uso destes recursos de forma conjunta pela comunidade científica interessada e vem utilizando a GO para as anotações em seu banco de dados. Á nível internacional, como apresentado anteriormente, reconhece-se a Gene Ontology (ASHBURNER, 2002), que inclui termos referentes a processos biológicos, componentes celulares e funções moleculares, de maneira independente de espécies, entre outras iniciativas. Entretanto até o momento não se identificam, a nível nacional e internacional, ontologias desenvolvidas dentro do recorte conceitual específico, ou seja, de Genoma e Transcriptoma para atender as demandas dos grupos coordenados pela FIOCRUZ. Apesar dos esforços internacionais, a Gene Ontology não possui classes de conceitos que venham atender plenamente as pesquisas desenvolvidas no Brasil, em alguns casos é necessário investigar a harmonização existente entre termos e o seu conteúdo conceitual. O nosso projeto se insere como um projeto interdisciplinar nas atividades do grupo de pesquisa Dataware, coordenado pela Prof. Dr Maria Luiza Machado Campos da Pós- Graduação em Ciência da Informação da UFRJ, onde o projeto do prof. Dr Alberto Dávila 4

também se encontra inserido, e na linha de pesquisa Processamento e Tecnologia da Informação do Programa de Pós-Graduação em Ciência da Informação UFF/IBICT. 3. ONTOLOGIAS E A PROBLEMÁTICA DA COMPATIBILIZAÇÃO TERMINOLÓGICA: BASES TEÓRICAS E METODOLÓGICAS Vários fatores possibilitaram a definição de um projeto como este relacionado à elaboração e integração de ontologias no âmbito da área específica de Genoma e Transcriptma, fatores esses ligados ao nosso trajeto de estudos e pesquisa; e fundamentalmente, ao desenvolvimento das pesquisas na área de tratamento e recuperação de informação como fator estratégico para auxiliar a pesquisa básica no âmbito da Bioinformática. Especificamente, pretendemos identificar nas bases teóricas da Ciência da Informação e da Terminologia, no campo específico de construção e compatibilização de linguagens, propostas teóricas e metodológicas que possibilitem o desenvolvimento, uso e integração de ontologias. No que tange à integração de ontologias, na primeira etapa desta pesquisa, pretendemos identificar as Ontologias do domínio de Genoma e Transcriptoma existentes internacionalmente e nacionalmente através de ações que permitam a comparação dos diversos modelos taxonômicos empregados para a representação dos domínios e de suas relações, identificando os níveis de compatibilização semântica e lingüística visando apresentação de proposta de harmonização terminológica, evidenciando diretrizes para a integração de ontologias. No que concerne aos princípios teóricos e metodológicos que venham a auxiliar a elaboração de ontologias, na segunda etapa desta pesquisa, pretendemos identificar no Consórcio Internacional que aspectos do projeto não estão sendo contemplados nas diversas ontologias analisadas, através da aplicação do método de compatibilização de linguagens, visando atender as especificidades brasileiras. Os domínios temáticos não atendidos serão então definidos como espaço empírico para o desenvolvimento de proposta metodológicas para a sua modelização através da identificação de bases teóricas e metodológicas estudadas e sistematizadas para elaboração de ontologias. Dentro do domínio de desenvolvimento de Ontologias, as abordagens para a sua construção têm sido específicas e limitadas. A literatura, no âmbito da Ciência da Computação, tem privilegiado ora as ontologias como vocabulários de domínios específicos, sem um suporte teórico, ora um conjunto de regras e aportes teóricos, sem elementos que orientem a elaboração de vocabulários que permitam a elaboração de definições lógicas. Além disto, verifica-se a existência de dois grandes problemas nas metodologias (FERNÁNDEZ- LOPEZ, 1997,1999; GUARINO, 2002; HAWANG,1999; IDEF5, 1994; JASPER, 1999; JONES, 1998; SURE, 2002) para projeto de ontologia: a falta de explicação sistemática de como e onde serão usadas as abordagens teóricas dentro de seu processo de elaboração; a não existência dos estágios de integração e manutenção de ontologia no método na maioria das metodologias. Acredita-se que o aporte teórico e metodológico existente no âmbito da Ciência da Informação se beneficiando de estudos no escopo da Teoria da Terminologia (WUESTER, 1981), da Teoria do Conceito (DAHLBERG, 1978), da Teoria da Classificação (RANGANTHAN, 1951, 1967) e da Compatibilização de Linguagens (NEVILLE, 1970,1972; DAHLBERG, 1981, 1983) possa apresentar propostas eficazes de aplicação. Por outro lado, estas áreas podem se beneficiar atuando numa área bastante aplicada da questão, fugindo da complexidade de um tratamento excessivamente formal. 3.1 TEORIA DA CLASSIFICAÇÃO FACETADA 5

A Teoria da Classificação Facetada é desenvolvida por Shiyali Ramamrita Ranganathan na década de 30, a partir da Colon Classification, tabela de classificação para a organização de acervos. Sua Teoria está apresentada praticamente em quatro obras básicas: Five Laws of Library Science (RANGANTHAN,1963. a), Prolegomena to Library Classification (RANGANTHAN,1967), Philosophy of Book Classification, (RANGANTHAN, 1951), além da própria Colon Classification, (RANGANTHAN,1963). (CAMPOS, 2001) Ranganthan elabora uma série de princípios que visam a permitir que os conceitos de um domínio de saber possam ser estruturados de forma sistêmica, isto é, os conceitos se organizam em renques e cadeias, estas estruturadas em classes abrangentes, que são as facetas, e estas últimas dentro de uma dada categoria fundamental. A reunião de todas as categorias forma um sistema de conceitos de uma dada área de assunto e cada conceito no interior da categoria é também a manifestação dessa categoria A Categorização é um processo que requer pensar o domínio de forma dedutiva, ou seja, determinar as classes de maior abrangência dentro da temática escolhida. Na verdade, aplicar a categorização é analisar o domínio a partir de recortes conceituais que permitem determinar a identidade dos conceitos (categorias) que fazem parte deste domínio. Nesta etapa, a categorização auxilia no processo de pensar o domínio, não gerando qualquer registro e serve para orientar o pesquisador no levantamento dos termos. Ela consiste em identificar as possíveis classes gerais (categorias) de conceitos que a área do conhecimento, comporta. O exercício de categorização pode tornar claro o domínio temático da ontologia e, como conseqüência, estabelece as bases para seleção dos termos, nas fontes de onde eles serão retirados. (CAMPOS; GOMES, 2003) Os princípios apresentados por Ranganathan para a elaboração de uma base teórica sólida, visando a construção de classificação bibliográfica, como pode ser observado, é de fundamental importância para a organização de domínios de conhecimento. A representação de um domínio de saber se configura como princípio norteador para a organização e integração de ontologias. Neste espaço, é que a base onde se fundamenta sua teoria pode auxiliar no recorte de domínio para a elaboração de ontologias e fundamentalmente para a construção de modelos conceituais, como o de Genoma e Transcriptoma. 3.2 TEORIA DO CONCEITO A Teoria do Conceito foi desenvolvida por I. Dahlberg, nos anos 60, e utilizada posteriormente na elaboração de Tesauros; ela demonstra a possibilidade de utilizar princípios de elaboração de terminologias para o domínio das linguagens documentárias de abordagem alfabética. A Teoria do Conceito possibilitou uma base mais sólida para a determinação e o entendimento do que consideramos conceito, para fins de representação/recuperação da informação. Desenvolve princípios para estabelecer: relações entre conceitos, com base na lógica; método para a fixação do conteúdo do conceito e para seu posicionamento em um Sistema de Conceitos, fornecendo os elementos para definições consistentes (DALHBERG, 1978). O conceito em Dahlberg é formado por três elementos, a saber: o referente, as características e a forma verbal. Para Dahlberg, o processo de determinação do conceito se dá no momento em que é selecionado um item de referência - um referente - e analisado dentro de um determinado Universo. A partir daí, atribuem-se predicados ao referente, selecionando características relevantes. Estas devem auxiliar no processo de designação de uma forma apropriada, que denota o conceito. Assim, o conceito só pode ser determinado a partir da reunião de todos 6

esses elementos que o compõem. Dahlberg enfatiza a importância fundamental da Categoria na estruturação do conceito e do sistema de conceitos. As categorias possuem a propriedade de permitir a sistematização de todo o conhecimento da realidade e podem ser identificadas no momento da determinação do conceito, ao serem inferidas predicações verdadeiras e finais a respeito de um item de referência desta realidade observada. As afirmativas finais devem ser feitas passo-a-passo através de predicações verdadeiras sobre um dado referente no mundo. (DAHLBERG, 1978a) Estas predicações são um dos elementos do conceito - as características - que estão presentes na definição (DAHLBERG, 1978a) e contribuem para o estabelecimento das relações entre os conceitos e podem permitir compatibilização semântica entre termos e conceitos. 3.3 COMPATIBILIZAÇÃO DE LINGUAGENS Os estudos de compatibilidade e convertibilidade entre linguagens visam, principalmente, a criação de instrumentos de conversão e/ou desenvolvimento de linguagens compatíveis, que viabilizem o acesso a múltiplas bases de dados que operem em bases cooperativas.(batista, 1986). Compatibilidade é definida por Hammnond, (1965) como a habilidade de um sistema de informação de aceitar dados de outro sistema sobre qualquer assunto que seja comum a ambos. Para tal, se faz necessária a convertibilidade (ANGELL, 1969), que implica no uso de algum tipo de manipulação para fazer com que resultados e produtos do processamento de um sistema sejam usáveis em outro. O termo compatibilidade no âmbito da Ciência da Computação tem definição bastante específica. Refere-se à capacidade dos computadores de vários tipos de utilizar programas escritos para outros sem conversão para outras linguagens de máquina. Neste sentido, é importante deixar bem claro que o uso que ora fazemos do termo tem seu campo definido no âmbito da Ciência da Informação e é um estudo seminal nesta área, com teóricos como Soergel (1982), Dalhberg (1981), Neville (1970, 1972) e Glushkov e colegas (1978). Para Glushkvoc e outros (1978) compatibilidade é a medida de similaridade entre duas linguagens, onde se introduz o conceito de graus de compatibilidade e estabelecem a distinção entre compatibilidade no plano semântico e no plano linguístico. Dos métodos de compatibilização e conversão de linguagens, baseados na integração de vocabulários dois se destacam sobremaneira. São o método de reconciliação de tesauros proposto por Neville (1970, 1972) e a matriz de compatibilização conceitual proposta por Dahlberg. (1981, 1983). O método de Neville baseia-se no princípio que se deve compatibilizar os conceitos (os conteúdos conceituais dos descritores, que estão expressos pelas definições) e não os descritores (as etiquetas lingüísticas). Esse método propõe linguagem intermediária, baseada na codificação numérica de conceitos através do qual torna-se possível o estabelecimento da equivalência conceitual de descritores de diferentes linguagens. O método proposto por Dahlberg baseia-se na construção de uma matriz de compatibilidade conceitual, através de seu método analítico-sintético. A matriz de compatibilidade conceitual é um mapeamento da potencialidade semântica das linguagens estudadas, fornecendo os resultados da análise de compatibilidade entre linguagens sob os pontos de vistas semântico e estrutural. Pretende-se investigar esses dois métodos na perspectiva de definir critérios para a integração de ontologias. A compatibilidade terminológica vem sendo estudada no âmbito da Ciência da Informação desde a década de 60, no campo que envolve as linguagens documentárias, como os tesauros. Entretanto, estas bases teóricas ainda não foram aplicadas 7

no contexto das novas tecnologias, visando à integração terminológica em sistemas heterogênios. 3.4 TERMINOLOGIA No âmbito dos estudos terminológicos este projeto pretende se apoiar nos estudos desenvolvidos no domínio da Teoria Geral da Terminologia - TGT, que utiliza princípios estabelecidos para a determinação de conceitos e suas relações apresentadas por E. Wuester (WUESTER, 1981) e seus seguidores (DROZD, 1981; FELBER, 1981; KANDELAKI, 1981; RIGGS, 1979). A Teoria Geral da Terminologia desenvolvida por Eugen Wuester visa à fixação de conceitos, a elaboração de definições orgânicas, além de estabelecer princípios para a criação de novos termos. Para a TGT, o trabalho terminológico inicia com o conceito, que possui uma unidade de denominação que é o termo. Um termo designa um conceito. Desta forma, é necessário garantir a unificação de conceitos e termos, o que caracteriza a Terminologia como sendo de natureza prescritiva. Porém, a esfera do termo é diferente daquela do conceito. O conceito é o conteúdo do termo (GOMES; CAMPOS, 1996). Na TGT o conceito pertence, sempre, a uma língua especializada, ou seja, pressupõe a existência de um contexto que é representado por um dado universo de discurso. O conceito é constituído por características que também são conceitos. Através delas podem-se comparar conceitos, classificá-los em um sistema de conceitos, sintetizá-los através da definição e denominá-los através dos termos. O agregado das características que constituem o conceito determina sua intensão. (FELBER, 1984) Na TGT, o termo é a unidade de comunicação que representa o conceito e pode ser constituído de uma ou mais palavras, uma letra, um símbolo gráfico, uma abreviação, uma notação. Ela busca a univocidade que, no entanto, é relativa. Um sistema de conceitos, para a TGT, é um sistema formado por conceitos e suas relações, que podem ser lógicas e ontológicas. A representação do sistema de conceitos serve a diversos objetivos, tais como: organização efetiva do conhecimento dentro de uma dada área; representação clara das relações entre conceitos; revelação de conceitos ainda inexistentes ou conceitos redundantes (sinonímia), ajudando a assegurar um nível ótimo de normalização da terminologia; estabelecimento de equivalências claras entre termos em diferentes línguas (ISO/DIS 704). Uma contribuição importante da TGT foi permitir bases formais para o estabelecimento de definições conceituais de fundamental importância para a integração de ontologias. Além destes domínios espera-se que o projeto possa se apoiar também nas diretrizes apresentadas nas normas ISO e sua versão já em nível nacional relacionadas à Harmonização de Conceitos e Termos- NBR13790. 4. CONSIDERAÇÕES FINAIS Como resultados esperados do projeto, podemos citar: diretrizes para integração de ontologias; diretrizes para o desenvolvimento de ontologias; modelização do domínio de Genoma e Transcriptoma. Neste último aspecto, estudos relacionados à modelização de domínios, princípio fundamental para a etapa de elaboração de taxonomias para ontologias, vem sendo objeto de estudo e pesquisa. (CAMPOS, 2004). O projeto envolve pesquisadores, professores e alunos de programas de pós-graduação e cursos de graduação de instituições de renome nas áreas de conhecimento associadas ao tema do projeto, garantindo com isso a formação de recursos humanos capacitados em 8

temáticas estratégicas para o tratamento, integração e recuperação de informações, mas ainda de pouca divulgação no país. Sob minha orientação contamos com três alunos de Mestrado do Programa de Pós- Graduação em Ciência da Informação UFF/IBICT, que vêm se dedicando a temas que tangenciam esta pesquisa, como: sistematização de relações conceituais para ontologias de domínio; princípios teóricos e metodológicos para a elaboração de taxonomias em domínios interdisciplinares; avaliação e compatibilização de linguagens para o tratamento e recuperação de informação. Além dos alunos de Mestrado foi recentemente aprovada nossa solicitação de bolsa PIBIC e contamos assim com um aluno do Curso de Graduação em Biblioteconomia e Documentação da Universidade Federal Fluminense. Neste primeiro ano pretendemos atingir aos seguintes objetivos: 1. Revisão de Literatura no domínio da Ciência da Informação, Ontologia e Terminologia; 2. Análise e identificação de princípios para a integração e desenvolvimento de ontologias; 3. Levantamento e análise de Ontologias no domínio de Genoma e Transcriptoma. Atualmente, estamos nos concentrando nas seguintes atividades: 1. Revisão da literatura sobre integração e compatibilização de linguagens no âmbito da Ciência da Informação, Ciência da Computação e Terminologia. Por meio do levantamento realizado, pretende-se a elaboração de um banco de dados, onde as informações deverão ser tratadas, possibilitando acesso ao grupo de pesquisadores envolvidos; 2. Levantamento de ontologias existentes no domínio de Genoma e Transcriptoma, com a finalidade de mapear as áreas e subáreas dentro dos domínios apresentados e auxiliar os pesquisadores na identificação da produção nestes domínios. No que tange à atividade de revisão de literatura, as seguintes etapas estão sendo desenvolvidas: levantamento das fontes secundárias na área de Ciência da Informação, Ciência da Computação e Terminologia; determinação ou definição dos termos de busca para o levantamento nas fontes identificadas e em mecanismos de busca; elaboração de critérios para análise das informações recuperadas; elaboração de banco de dados (identificação de software livre e estruturação de campos); análise e tratamento das informações recuperadas; cadastramento das informações no banco de dados. No que tange à atividade de levantamento de ontologias, as seguintes etapas estão sendo desenvolvidas: identificação nos consórcios internacionais no domínio de Genoma e Transcriptoma das ontologias existentes; classificação das temáticas específicas das ontologias encontradas. A partir do apresentado, como contribuição importante do projeto, defendemos ainda a convergência de métodos e técnicas de duas áreas de conhecimento fundamentais ao desenvolvimento de práticas relativas às ontologias: Ciência da Informação e Ciência da Computação, além de um espaço empírico de aplicação, ou seja, o domínio da Bioinformática. Na maior parte dos projetos neste tema, pode-se observar um viés específico de uma destas áreas, sem considerar importantes contribuições que a outra área poderia trazer. Das interações anteriores dos pesquisadores, resultou a firme convicção da importância de uma abordagem integrada e multidisciplinar no tratamento do tema ontologia. 5. REFERÊNCIAS ADAMS, K. The semantic web: differentiating between taxonomies and ontologies. On line, v.26, n.4, p.20-23, July/Aug., 2002. ASHBURNER, M.; LEWIS, S. On ontologies for biologists: the Gene Ontology: uncoupling the web. In: IN SILICO BIOLOGY, NOVARTIS FOUND SYMPOSIUM, 247, 2002, New York. Proceedings...New York: John Wiley and Sons, 2002 p. 66-83, 2002. 9

BATISTA, Gilda Helena Rocha. Compatibilidade e convertibilidade entre linguagens de indexação: um estudo de caso. 1986. Dissertação (Mestrado em Ciência da Informação) UFRJ/ECO/IBICT, Rio de Janeiro, 1986. BERNERS-LEE, T.; HENDLER, J.; LASSILA, O. The semantic web. Scientific American, 2001. CAMPOS, Maria Luiza de Almeida. Linguagem documentária: teorias que fundamentam sua elaboração. Niterói: EdUFF, 2001a.. Modelização de domínios de conhecimento: uma investigação de princípios fundamentais. Ciência da Informação, Brasília, DF, v. 33, n. 1, 2004. CAMPOS, Maria Luiza de Almeida; GOMES, Hagar Espanha. Organização de domínios de donhecimento e os princípios Ranganathianos. Perspectivas em Ciência da Informação, Belo Horizonte, v. 8, n. 2, 2003. CAMPOS, Maria Luiza Machado; CAMPOS, Maria Luiza de Almeida; CAMPOS, Linair Maria. Web Semântica e a gestão de conteúdos informacionais. In: MARCONDES, C.H. et al. Bibliotecas digitais: saberes e práticas. Salvador: UFBA; Brasília: BICT, 2006. p.55-74. DAHLBERG, I. Conceptual compatibility of ordering systems. International Classification, v. 10, n. 2, p. 5-8, 1983.. A referent-oriented analytical concept theory of interconcept. International Classification, v. 5, n. 3, p. 142-150, 1978.. Ontical structures and universal classification. Bangalore: Sarada Ranganthan Endowment, 1978a.. Towards estabilishment of compatibility between indexing languages. International Classification, v. 8, n. 2, p. 88-91, 1981. DROZD, L. Some remarks on a linguistic theory. In: THEORETICAL AND METHODOLOGICAL PROBLEMS OF TERMINOLOGY, 1981, Moscow. Proceedings..., Muenchen: Saur, 1981. FELBER, H. The Vienna School of terminology: fundamentals and its theory. In: INTERNATIONAL SYMPOSIUM ON THEORETICAL AND METHODOLOGICAL PROBLEMS OF TERMINOLOGY, 1979, Moscow. Proceedings... Muenchen: Saur, 1981.. Terminology Manual. Paris: UNESCO, 1984. 234p. FERNÁNDEZ-LÓPEZ, M. Overview of methodologies for building ontologies. In: IJCAI-99 WORKSHOP ON ONTOLOGIES AND PROBLEM-SOLVING METHODS (KRR5), 1999, Stockholm, Sweden. Proceedings Stockholm, 1999. FERNÁNDEZ-LÓPEZ, M.; GÓMEZ-PÉREZ, A.; JURISTO, N. Methontology: from ontological art towards Ontological Engineering. In: AAAI-97 SPRING SYMPOSIUM SERIES ON ONTOLOGICAL ENGINEERING, 1997, Stanford, USA. Proceedings Stanford, 1997, p. 33-40. GOMES, Hagar E.; CAMPOS, Maria Luiza de A. Systematic Aspects of Terminology. Meta, v.41, n.2, p.249-254, 1996. GUARINO, N.; WELTY, C. Evaluating ontological decisions with ontoclean. Communications of the ACM, v. 45, n. 2, 2002. GLUSHKOV, V. M.; SKOROKHOD KO, E. F.; STRONGNII, A. A. Evaluation of the degree of compatibility of information retrieval languages of document retrieval systems. Autom. Doc. & Math. Ling., v. 12, n. 1, p. 18-26, 1978. HGP. Human Genome Program, US. Departament of Energy, Genomics and its impact on science and society: A 2003 Primer, 2003. Disponível em : <http://www.ornl.gov/sci/techr esources/humangenome/publicat/primer2001/index.shtml>ac esso em : 19 de julho de 2005. HAMMOND, W. Dimensions in compatibility. In: NEWMAN, S. M. (Ed.). Information systems compatibility. Washington: Spartan Books, 1965. p. 7-17. 10

HAWANG, C. H. Incompletely and Imprecisely Speaking: Using dynamic ontologies for representing and retrieving information. In: INTERNATIONAL WORKSHOP ON KNOWLEDGE REPRESENTATION MEETS DATABASES (KRDB 99), 6. 1999, Linkoping, Sweden. Proceedings Linkoping, Sweden, 1999. IDEF5. IDEF5 Method Report: relatório do projeto IICE. Texas, 1994. (IDEF5-1994.pdf ) ISO-DIS-704. Principles and methods of terminology. 1993. JACOB, E.K. Ontologies and semantic web. Bulletin of the American Society for Information Science and Technology, Apr./May.2003. JASPER, R.; USCHOLD, M. A. Framework for understanding and classifying ontology. In: OF IJCAI-99 ONTOLOGY WORKSHOP, 1999, Stockholm. Proceedings Stockholm, 1999. JONES, D.; BENCH-CAPON, T.; VISSER, P. Methodologies for ontology development. In: IT&KNOWS CONFERENCE OF THE IFIP WORLD COMPUTER CONGRESS, 15, 1998, Budapest. Proceedings Budapest: Chapman-Hall, 1998. KANDELAKI, T. L. Les sens des termes et les systèmes desens des terminologies scientifiques et techniques. In: RONDEAU, G.; FELBER, H. Textes choisis de terminologie: I: Fondements théoriques de la terminologie. Québec: GIRSTERM, 1981. MENDES, Pablo Nascimento. Uma abordagem para a construção e uso de ontologias no suporte à integração e análise de dados genômicos. 2005 Dissertação (Mestrado) Instituto de Matemática/NCE da UFRJ. Programa de Pós-Graduação em Ciência da Computação, Rio de Janeiro, 2005. NEVILLE, H. H. Feasibility study of a scheme for reconciling thesauri covering a commom subject. J. Doc., v.4, n. 26, p. 313-36, 1970.. Thesaurus reconciliation. Aslib Proc., v.11, n. 24, p. 620-626,1972. RANGANTHAN, S. R. Prolegomena to library classification. Bombay: Asia Publishing House, 1967.. Philosophy of library classification. New Delhi: Ejnar Munksgaard, 1951.. Colon classification. Bombay: Asia Publishing House, 1963.. The five laws of library science. Bombay: Asia Publishing House, 1963a. RIGGS, F. W. A new paradigm for Social Science terminology. International Classification. v. 6, n. 3, p. 150-157, 1979. SOERGEL, Dagobert. Compatibility of vocabularies. In: THE CONTA CONFERENCE OF CONFERENCE ON CONCEPTUAL AND TERMINOLOGICAL ANALYSIS IN THE SOCIAL SCIENCES. 1981, Bielefeld. proceedings Frankfurt: INDEKS Verl., 1982. p. 209-23. SURE, Y.; STAAB, S.; STUDER, R. Methodology for development and employment of ontology based knowledge management applications. Sigmod Record, v.31, n.4, p. 18-23, 2002 WUESTER, E. L étude scientifique générale de la terminologie, zone frontalière entre la Linguistique, la Logique, l Ontologie, l Informatique et les Sciences des Choses. In: RONDEAU, G. ; FELBER, F. (Org.). Textes choisis de terminologie: I: fondéments théoriques de la terminologie. Québec: GIRSTERM, 1981. p. 57-114. 1 Existe um consenso na comunidade científica internacional para a construção de uma base de dados que centralize a informação dos genomas de T. brucei, T. cruzi e T. brucei, e que essa base de dados esteja localizada no Gene DB ( http://www.genedb.org ). Esta iniciativa permitiu a viabilização de um acordo onde grupos de pesquisadores, de diversas instituições nacionais e internacionais (http://www.who.int/tdr/grants/workplants/pathogen.htm), se concentrassem em torno de um objetivo comum, 11

produzindo experimentos que são disseminados. No Brasil, este consórcio possui pesquisadores de instituições como a FIOCRUZ, UFRJ, UFSC, COPPE-PESQ. 2 Uma discussão mais detalhada da Bioinformática, subdivisões, técnicas e principais áreas de aplicação é apresentada no Tutorial de Prosdocimi et. Al. (2002). iii http://obo.sourceforge.net/ 12