Interoperabilidade Semântica e Compatibilização de Linguagens em ambientes heterogêneos: a questão do acesso aberto e as possibilidades de tratamento terminológico Profa. Dra Maria Luiza de Almeida Campos Universidade Federal Fluminense Departamento de Ciência da Informação Programa de Pós-Graduação em Ciência da Informação Grupo de Pesquisa - Estudos ônticos e ontológicos em contextos informacionais: representação, recuperação e métricas
A Ciência Aberta e o TratamentoTerminológico O tema Ciência Aberta vem alterando, não só conceitos, mas também o modus operandi das instituições de pesquisa científica em todo o mundo, principalmente, nas universidades, institutos de pesquisa e laboratórios. Oriunda do movimento de Acesso Aberto ao Conhecimento, a Ciência Aberta vem, aos poucos implantando mudanças expressivas principalmente relacionadas à organização, recuperação e acesso às informações e dados científicos. Neste sentido, uma questão que se apresenta está relacionada a integração entre esses diversos dados através de uma terminologia consistente para obtenção de uma recuperação precisa em Ambientes Heterogêneos.
Ambientes Heterogênicos e os Produtos Informacionais Tipos de dados podem incluir, por exemplo, números, imagens, textos, vídeos, áudio, software, algoritmos, equações, animações, modelos, simulações.
No Espaço da Ciência Exemplos específicos: sequência genômica, exemplar de uma planta, dados atmosféricos Fonte: http://www.scielo.br/scielo.php?script=sci_arttext&pid=s0102-261x2009000100010
A questão da Heterogeneidade Um problema de difícil tratamento e de recuperação devido a diversidade de fontes de informação e formas de tratamento Essas fontes possuem diferenças de natureza sintática, semântica e estruturais entre os sistemas Envolve interoperabilidade e cooperação entre essas múltiplas fontes de informação
A questão que se coloca Como possibilitar o intercâmbio desses dados e o compartilhamento de informações e conhecimentos de maneira que as informações recebidas sejam processadas de maneira significativa?
Interoperabilidade Semântica Capacidade dos sistemas de tecnologias de informação e comunicação (TIC) para o intercâmbio de dados e compartilhamento de informações e conhecimentos de forma significativa.
Objetivo Contribuir para a discussão no âmbito do acesso aberto de algumas questões que envolvem a interoperabilidade semântica em ambientes heterogêneos Apresentar procedimentos teóricos e metodológicos no âmbito da Ciência da Informação relacionados a compatibilização de linguagens, visando melhorias no tratamento e recuperação de informação nesses ambientes
O Universo de Ciência e de Tecnologia nos Sistemas de Informação de Pesquisa (CRIS) UM AMBIENTE HETEROGÊNIO Indústria Instituições de Pesquisa Organizações de Pesquisa Oportunidades de Investimento Publicações Publicadores Patentes Produtos Bibliotecas Projetos Pesquisadores Equipamento Governos Dados de Pesquisa Infraestrutura Financiadores Centros de Dados Pesquisadores Fonte: EUROCRIS.org Enorme Diversidade de Recursos
Uso Racional de Metadados Descrição de Dados de Forma Consistente Uso de Ontologias Fontes de Dados Heterôgeneos podem ser tratados através de associações semânticas Fonte: EUROCRIS.org
00110001110001101010001011000101110100101100101001111101010100 Informação não estruturada X estruturada INFORMAÇÃO DESCONTEXTUALIZADA Buscar por João Brasil??? Informações precisam ser contextualizadas INFORMAÇÃO CONTEXTUALIZADA Fonte: material didático do prof. Carlos Henrique Marcondes (UFF)
A questão fundamental é que queremos possibilitar o acesso a estas informações em um espaço de uma Web que se quer semântica INFORMAÇÃO CONTEXTUALIZADA = SENTIDO APROPRIADO PARA ATENDER A UM PROPÓSITO
Onde está a Semântica? Na Web Semântica Maria Luiza de A. Campos PréConfOA
O Cavalo Canadense é um herbívoro que come folhas de Plátano A Semântica está na linguagem?
come Vegetal É-um Árvore herbívoro É-um Cavalo É-um Plátano É-parte-de Folha É-um Cavalo Canadense A Semântica está no processo cognitivo de um indivíduo?
M A Semântica está no Modelo Cognitivo de compreensão de indivíduos?
A Semântica na Web Semântica deve ser extraída dos dados contidos nas informações e deverão ser transportados para um Modelo Formal. M
A linguagem natural para a máquina pode ser definida como um conjunto de caracteres que não fazem sentido.! # $ " % " % " É necessário que subjacente a estes caracteres exista uma linguagem formalizada $ " " $ % " & & # ' $ " $ " % % % " " $ " ( % " ) " *
A Linguagem Natural deve ser escrita para a máquina como um modelo formal.
O MODELO DEVE SER TRANSFERIDO DA MENTE DO INDIVÍDUO PARA A MÁQUINA ATRAVÉS DE UMA LINGUAGEM FORMALIZADA QUE POSSA POSSIBILITAR INFERÊNCIAS SOBRE UM DADO CONHECIMENTO
Web semântica Ontologias são fundamentais para a interoperabilidade semântica possuem uma linguagem formalizada Uma ontologia é (definindo de forma bem simples) um vocabulário consensual, compartilhado, de entendimento comum de um domínio. Escrito através de uma especificação formal, que a máquina entende. 21 Fonte: material didático - Disciplina Representação da Informação / UFF
Ontologia do dinossauro 22 Fonte: material didático - Disciplina Representação da Informação / UFF
Trecho do código OWL da ontologia 23 Fonte: material didático - Disciplina Representação da Informação / UFF
Ligações comuns x nomeadas: exemplo WEB SINTÁTICA X WEB SEMÂNTICA Fonte: material didático - Disciplina Representação da Informação / UFF
Relações nomeadas Buscas apoiadas por ontologias leves/tesauros 25 NECESSIDADE DE CONTROLE TERMINOLÓGICO
A Web semântica: características Uma Web de dados descritos com metadados Capaz de ser entendida por humanos e máquinas simultaneamente Informação estruturada e com semântica bem definida Permite a realização de inferências sobre o seu conteúdo Oferece suporte a aplicações inteligentes e inovadoras Agentes de software capazes de processar e entender os dados Facilita a automação, integração e distribuição dos dados Cooperação entre pessoas e agentes de software Fonte: material didático - Disciplina Representação da Informação / UFF
Web semântica Interoperabilidade Sintática Formatos de dados e linguagens compatíveis Interoperabilidade Semântica É preciso ser capaz de concordar sobre o significado de dados e operações sobre esses dados Fonte: material didático - Disciplina Representação da Informação / UFF
Fonte: Santos, F. C. L. Interoperabilidade Semântica entre repositórios de saúde pública. Conferência luso-brasileira de acesso aberto.
Eis a questão... Hoje em dia, os dados manipulados pelas instituições estão dispersos nos mais variados recursos de informação, tais como bases de dados e documentos de diferentes tipos. Com isso, a integração da informação contida nessas fontes é uma tarefa árdua. Diferentes abordagens podem ser seguidas para conseguir a integração, porém o desafio principal será conquistar a interoperabilidade semântica entre as fontes de informação, garantindo a manipulação do conjunto sem forçar a conversão das partes em um formato único.
Para atingir a interoperabilidade semântica é necessário adotar princípios de Compatibilização A Ciência da Informação e seus aportes teóricos
Compatibilização Ciência da Computação Capacidade dos computadores de vários tipos de utilizar programas escritos para outros sem conversão para outras linguagens de máquinas Ciência da Informação Medida de similaridade entre duas linguagens, onde se introduz o conceito de graus de compatibilidade e estabelecem a distribuição entre compatibilidade no plano semântico e no plano linguístico.
Compatibilidade de Linguagens de Tratamento e Recuperação de Informações: o desafio do profissional de informação Maria Luiza de A. Campos PréConfOA
Compatibilidade Medida de similaridade entre duas linguagens, onde se introduz o conceito de graus de compatibilidade e estabelecem a distribuição entre compatibilidade no plano semântico e no plano linguístico.
Compatibilidade pode ser definida, em outras palavras, como... a qualidade de um vocabulário de se articular com outro de temática afim, direta ou indiretamente, seja para definir equivalências conceituais entre seus termos, estabelecendo relações de semelhança, seja para complementá-lo em seu escopo, estabelecendo relações de natureza lógica ou ontológica
Compatibilidade - motivação Possibilidade de recuperar informação que pode coexistir ou ser conectada de forma coerente entre sistemas que utilizam esses vocabulários, permitindo um intercâmbio de informações entre esses sistemas. Para tanto cria-se Matriz de Compatibilização Mapeamento das potencialidade semânticas e linguísticas as Linguagens Taxa de Coincidência Verbal Grau de Compatibilidade Conceitual
Taxa de coincidência verbal Analise da medida de similaridade entre o símbolo linguístico e seu conteúdo conceitual Autor no Sistema A = Produtor intelectual de um Documento Autor no Sistema Y = O que promove uma demanda judicial A problemática dos Metadados
Grau de Compatibilidade Conceitual Compreende três fases: Coincidência conceitual Termos possuem a mesma forma verbal e todas as sua características são idênticas. Termos são idênticos conceitualmente e possuem/ e não possuem o mesmo termo genérico problemas encontrados nas Ontologias da GO Correspondência conceitual Dois conceitos combinam a maior parte de suas características, sendo similares São considerados quase sinônimos - problemas encontrados nas Ontologias da GO Correlação Conceitual Dois conceitos são correlacionados através de símbolos matemáticos, por exemplo. Indica que um conceito em uma linguagem equivale a uma combinação de conceitos na outra linguagem
A Medida de Compatibilidade Conceitual está diretamente relacionada com o estudo das definições e das relações conceituais As características dos conceitos, são também conceitos e estão expressas na definição conceitual e nas relações Estudo das definições conceituais Estudo das relações Método de Dalhberg matriz de compatibilidade conceitual- mapear as potencialidade semânticas Compatibilização pressupõe o estudo das definições e relações conceituais
Produto da compatibilização Pode ser : Um novo vocabulário, fruto da junção de vocabulários compatíveis, ou Uma linguagem intermediária que estabelece correspondências entre os termos destes vocabulários.
Existem diversas Propostas metodológicas Linguagem Mundial possibilidade de elaboração de uma linguagem universal Linguagem de Comutação propõe a criação de uma estrutura básica comum, servindo de elemento norteador no desenvolvimento de linguagens individuais Linguagem Intermediária é uma linguagem de conversão que integra diversas linguagens Este conceito surge em 1963, esboçado pelo Groupe d Etude sur Information Scientifique (GEIS) no projeto de criação de um léxico intermediário.
Linguagem Intermediária Criação de uma léxico intermediário com um sistema de códigos que possa convergir para dois ou mais instrumentos de representação a ser compatibilizados Características: As Linguagens originais são mantidas Criação de uma linguagem de conversão ( sistema de códigos) Propõe a adoção de uma Linguagem Base A linguagem de maior abrangência no domínio. Será utilizada como padrão para análise
Linguagem Intermediária Criação de uma léxico intermediário com um sistema de códigos que possa convergir para dois ou mais instrumentos de representação a ser compatibilizados Características: Estabelece onze níveis de correspondência correspondência exata (idiomas diferentes, plural/singular); termos sinônimos; termo específico para o termo genérico... Ex: O vocabulário de origem usa uma só um descritor para designar um conceito, enquanto que para o mesmo conceito o vocabulário destino precisa usar dois ou mais descritores em conjunto Ex: o descriptor do vocabulário de origem existe no vocabulário de destino descriptor mais genérico
Léxico intermediário Vocabulário central que atua como um mediador de mapeamentos entre n vocabulários com os quais queremos estabelecer compatibilidade. O Mapeamento é feito entre cada vocabulário e o léxico. Método de Neville Reconciliação de Tesauros propõe uma linguagem intermediária através do mapeamento entre vocabulários
Mapeamento no mapeamento busca-se obter uma correspondência entre dois vocabulários, onde se estabelecem critérios de conversão de um vocabulário para o outro. é unidirecional, ou seja, é feito tendo em vista a conversão de um vocabulário para outro, mas não vice-versa.
Uma outra Proposta... O Vocabulário Integrado Na integração o foco é gerar um novo vocabulário, que possivelmente tem seu escopo ampliado em relação aos vocabulários originais, uma vez que é o resultado da agregação desses vocabulários. Essa visão contrasta com a abordagem do léxico intermediário, que têm por princípio a preservação dos vocabulários originais e o estabelecimento de equivalências entre os vocabulários, enquanto que na integração essa preservação é perdida uma vez que se cria um novo vocabulário.
Abordagens para integração Uso de diversas estratégias de casamento léxico a normalização prévia dos termos dos vocabulários a exploração da estrutura hierárquica a análise de documentos indexados com os vocabulários a participação de especialistas para validar o resultado proposto de casamentos propostos por processos semi-automatizados
Qual o princípio adotar? O que serve aos nossos propósitos visando possibilitar o acesso aberto???? Grupo de pesquisa OBRIGADA!!! Estudos ônticos e ontológicos em contextos informacionais: representação, recuperação e métricas