OntoLP: Engenharia de Ontologias em Língua Portuguesa

Documentos relacionados
OntoLP: Engenharia de Ontologias em Língua Portuguesa

Manual OntoLP. 1-Introdução ao OntoLP Instalação do OntoLP Executando o OntoLP Observação Importante...4

Hierarquias de conceitos extraídas automaticamente de corpus de domínio específico Um experimento sobre um corpus de Pediatria

PPGCC. Análise Comparativa de Métodos de Extração de Termos: Abordagens Linguística e Estatística. Relatório Técnico N 0 053

Extração automática de termos compostos para construção de ontologias: um experimento na área da saúde

EXTRAÇÃO E SELEÇÃO AUTOMÁTICA DE SINTAGMAS NOMINAIS EM TEXTOS EM LÍNGUA PORTUGUESA: uma análise de citação do estado da arte

Sistema de Aquisição semi-automática de Ontologias

Mineração de Textos na Web

Descoberta Automática de Relações Não- Taxonômicas a partir de Corpus em Língua Portuguesa

Indexação automática. CBD/ECA Indexação: teoria e prática

Desenvolvimento de Sistemas de Extração de Informações para Ambientes Colaborativos na Web

MODELO DE CLASSIFICAÇÃO AUTOMÁTICA DE QUESTÕES NA LÍNGUA PORTUGUESA Henrique Maia Braum 1, Sandro José Rigo 1, Jorge L. V.

6 Atributos. A dívida da empresa subiu.

1 Introdução. 1 World Wide Web Consortium -

ONTOBRAS Seminário de Pesquisa em Ontologia do Brasil

Castro (2008, p.7) define a palavra ontologia de forma mais simplificada:

Descoberta de conhecimento em textos - Análise semântica. Diogo Cardoso Eduardo Camilo Inácio Eduardo Monteiro Dellandréa Guilherme Gomes

UMA FERRAMENTA PARA A PESQUISA EM CORPORA DE AQUISIÇÃO DE LINGUAGEM

Índice. Classificação de textos para o ensino de português como segunda língua. Índice. technology from seed

Universidade do Sul de Santa Catarina Ciência da Computação Aula 09 Introdução a Análise de Textos Prof. Max Pereira

5. Avaliação. 5.1 Elaboração do Questionário

SQLLOMining: Obtenção de Objetos de Aprendizagem utilizando técnicas de Aprendizado de Máquina

TeMário 2006: Estendendo o Córpus TeMário

Extração de paráfrases em português a partir de léxicos bilíngues: um estudo de caso

ELABORAÇÃO DE DICIONÁRIO ELETRÔNICO Mauro Rebello 1, Violeta de San Tiago Dantas Barbosa Quental 2.

IN Redes Neurais

U NIVERSIDADE F EDERAL DE P ERNAMBUCO

Uma ferramenta para expansão do vocabulário com base em coocorrência

Luiz Carlos Ribeiro Junior. OntoLP: Construção Semi-Automática de Ontologias a partir de Textos da Língua Portuguesa

UNIVERSIDADE FEDERAL DE PERNAMBUCO CENTRO DE INFORMÁTICA GRADUAÇÃO EM ENGENHARIA DA COMPUTAÇÃO

Descoberta de conhecimento em redes sociais e bases de dados públicas

Visualização de Texto e Documento

Uma ontologia para modelagem de conteúdo para Ensino a Distância. An ontology for modeling distance learning contents

I-Preproc: uma ferramenta para pré-processamento e indexação incremental de documentos

PLANO DE ENSINO. 1. Ementa

aplicação computacional no Unidades Lexicais: uma Estrutura Ontológica e domínio da Ecologia Leandro Henrique Mendonça de Oliveira USP/ICMC-NILC

Adaptação do Sistema de Busca Semântica ao Padrão XML e Automatização do Processo de Modelagem dos Objetos de Aprendizagem no ROAI para o Padrão OWL

PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL FACULDADE DE INFORMÁTICA PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO

Uma ontologia para o suporte na identificação de foraminíferos. An ontology to support in the identification of foraminifera

Prof. Walmes M. Zeviani

Inteligência Artificial. Prof. Esp. Pedro Luís Antonelli Anhanguera Educacional

Implementação de Kernel Customizado Aplicado à Análise de Sentimentos em Resenhas de Filmes

SERVIÇO PÚBLICO FEDERAL UNIVERSIDADE FEDERAL DE PERNAMBUCO Centro de Informática Departamento de Sistemas de Computação

1.1 Tema Aprendizado de Máquina (Mit97) é o campo da Inteligência Artificial responsável pelo desenvolvimento de modelos inferidos automaticamente a

Uma Abordagem de Extração de Terminologia Para a Construção de uma Representação Atributo-valor a Partir de Documentos Não Estruturados

Revisão Sistemática sobre Métricas para Ontologias

Avaliação da Influência da Remoção de Stopwords na Abordagem Estatística de Extração Automática de Termos

Sistema de Gerenciamento de Objetos de Aprendizagem para dispositivos Móveis

Corretor Gramatical Para o Emacs

ontokem: uma ferramenta para construção e documentação de ontologias

Revisão Sistemática de Validação de Ontologias

PROJETO DE INCLUSÃO DE DISCIPLINAS OPTATIVAS NO CURSO DE BACHARELADO EM SISTEMAS DE INFORMAÇÃO CAMPUS CURITIBA

4 Algoritmos de Aprendizado

Coloque aqui o Título da sua dissertação

Evento: XXV SEMINÁRIO DE INICIAÇÃO CIENTÍFICA

Extração e Validação de Ontologias a partir de Recursos Digitais

Identificação em Documentos

A/ART casa/n caiu/v./. Figura 3.1: Frase com anotação morfossintática.

ONTOLOGIAS E ONTOLOGIAS DIFUSAS

Oferta de disciplinas para o período 2018/2

Revisão/Mapeamento Sistemático

Aula 11 Desenvolvimento da linguagem: emergência da sintaxe (parte 2)

O tratamento da partícula se para fins de anotação de papéis semânticos

Classificação de Sentença

Aprendizagem de Máquina

Alinhamento Sentencial e Lexical de Córpus Paralelos: Recursos para a Tradução Automática

Roteiro. 1. Ferramenta GATE. 2. Conceitos básicos. 3. Anotando textos manualmente. 4. Anotando textos automaticamente

Verificação automática de substantivos compostos através de reconhecimento de padrões sintáticos

Recuperação de Informação em Bases de Texto

Identificação de Pontos Perceptualmente Importantes (PIP) em séries temporais de tópicos extraídos de dados textuais

Uma Infra-estrutura para Gerência de Conhecimento em ODE

Oferta de disciplinas para o período 2017/1

Ontologias: Definições e Tipos

Ontologia de Livro: Aplicativo Android para Busca de Dados

Classificação Hierárquica Multirrótulo Utilizando Redes Neurais Artificiais

O reconhecimento facial é dividido em três etapas: i) detecção da face, ii) extração de características e iii) reconhecimento da face.

UNIVERSIDADE ESTADUAL PAULISTA JÚLIO DE MESQUITA FILHO Instituto de Geociências e Ciências Exatas IGCE Curso de Bacharelado em Ciências da Computação

Aprendizagem de Máquina

CRI Minas Indústria 4.0. Case Vallourec: Golden Batch na produção de tubos

Introdução ao Processamento de Línguas Naturais. SCC5908 Introdução ao Processamento de Língua Natural. Thiago A. S. Pardo

UNIVERSIDADE DE SÃO PAULO ESCOLA DE ENGENHARIA ELÉTRICA ANNA PAULA AMADEU DA COSTA

Implementação de um Modelo para Previsão de Evasão Escolar no IFSULDEMINAS

Geração de Modelo para Reconhecimento de Entidades Nomeadas no OpenNLP

Sistema de recomendação de segundo nível para suporte à produção de matérias jornalísticas

Encontro 10 Anos da Linguateca PROPOR 2008 Aveiro Portugal

Ontologias: Definições e Tipos

CORPUS PARALELO E CORPUS PARALELO ALINHADO: PROPRIEDADES E APLICAÇÕES (PARALLEL CORPUS AND ALIGNED PARALLEL CORPUS: FEATURES AND APPLICATIONS)

Interligação de pessoas, habilidades técnicas e fazeres e preservação da memória institucional

Revisão Sistemática da Literatura sobre Métodos de Localização de Características

Realiter, Rio de Janeiro 2006

7 Congresso de Pós-Graduação MODELAGEM DE BASE DE CONHECIMENTO PARA TAREFA DE CLASSIFICAÇÃO EM MINERAÇÃO DE DADOS

CONCEITOS A PARTIR DE TEXTOS EM LÍNGUA PORTUGUESA LUCELENE LOPES

Introdução à Computação

Obtendo Interoperabilidade Semântica em Sistemas. Metamorphosis

OntoPsic: UMA ONTOLOGIA PARA PSIQUIATRIA NO CONTEXTO DA TELESSAÚDE

Categorização Automática de Textos Baseada em Mineração de Textos

U NIVERSIDADE F EDERAL DE P ERNAMBUCO GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO CENTRO DE INFORMÁTICA

Anáforas nominais definidas: balanceamento de corpus e classificação

Pesquisa de Iniciação Científica desenvolvida no Grupo de Pesquisa em Computação Aplicada (GCA) da UNIJUI 2

Gestão de Ontologias

Transcrição:

OntoLP: Engenharia de Ontologias em Língua Portuguesa Luiz Carlos Ribeiro Jr. (PUCRS, lucarijr@gmail.com) Renata Vieira (PUCRS, renata.vieira@gmail.com) Patrícia Nunes Gonçalves (PUCRS, patt.nunes@gmail.com) Resumo: Este trabalho apresenta a ferramenta OntoLP, desenvolvida como um plug-in para o ambiente Protégé, que faz a análise de um corpus de domínio em língua portuguesa e sugere candidatos a conceitos e hierarquias ao engenheiro de ontologia com base no conhecimento representado nos textos. Palavras-chave: Construção de Ontologia, Web Semântica, Processamento de Linguagem Natural. Abstract: This paper presents a tool (OntoLP) developed as a plug-in to the ontology editor Protégé which analyzes a given domain corpus of Portuguese texts and suggests concept candidates and their hierarchy to the ontology engineer, based on the knowledge presented in the texts. Keywords: Ontology Learning, Semantic Web, Natural Language Processing. Introdução Este trabalho propõe e avalia métodos de extração de termos candidatos a conceitos de textos da língua portuguesa, com objetivo de auxiliar engenheiros de ontologias especialmente dedicados a desenvolverem ontologias em língua portuguesa. Os métodos desenvolvidos constituem a ferramenta OntoLP, implementado como um plugin para o editor de ontologias Protégé, um ambiente bastante utilizado na comunidade científica e que dá suporte à construção de ontologias seguindo as tecnologias da Web Semântica, como por exemplo, a construção de ontologias OWL Web Ontology Language, conforme o padrão definido pelo World Wide Web Consortium (W3C) 1. Ferramenta OntoLP As abordagens atuais de construção de ontologias a partir de textos baseiam-se fortemente no uso de informações lingüísticas, característica que as torna dependentes de idioma. Sendo assim, para que todos tenham acesso aos benefícios da utilização de ontologias em larga escala, são necessários estudos específicos para cada língua. Nesse sentido, quando comparado com outros idiomas, principalmente o inglês, pouco foi feito para o português. O processo de construção automática de ontologias divide-se basicamente em cinco etapas (Buitelaar; Cimiano; Magnini, 2005): 1) Extração de Termos Candidatos a Conceitos de um domínio; 2) Identificação da Relação Hierárquica entre os Termos; 3) Identificação de Relações Não-Hierárquicas; 4) Identificação de Instâncias e 5) Extração de Regras (Axiomas). Nesse processo, a Extração de Termos é considerada uma tarefa central a qualquer abordagem de construção de ontologias, visto que termos são realizações lingüísticas de conceitos de uma área específica, sendo vitais para as fases seguintes. Existem três principais abordagens para a identificação de termos: estatística, lingüística e híbrida. Na primeira, cada documento pertencente ao corpus é considerado simplesmente como um vetor de termos e sua freqüência de ocorrência. Na segunda é 1 http://www.w3.org.

necessário que os textos estejam anotados com informações lingüísticas. Na última abordagem é feito o casamento entre as duas metodologias anteriores. O processo de extração de termos da ferramenta de auxílio à construção de ontologias, OntoLP, é baseado numa série de métodos híbridos, incluindo informações semânticas prototípicas para auxiliar o processo. Seleção de Grupos Semânticos Uma técnica bastante comum de ser aplicada a sistemas de extração de termos é a remoção de stopwords 2. Esse processo costuma apresentar melhoras significativas nos resultados dos métodos. Entretanto, a construção de uma lista de stopwords pode constituir um passo manual indesejável na tarefa de extração. A etapa de Seleção de Grupos Semânticos, proposta aqui, inspira-se no conceito de stopwords. A etapa baseia-se nas informações semânticas disponibilizadas pelo PALAVRAS (Bick, 2000). Essas são informações prototípicas que classificam nomes comuns em classes gerais, por exemplo, a tag <an> atribuída ao substantivo olho, indica que a palavra pertence à classe Anatomia. Dessa forma, os substantivos etiquetados com uma mesma tag são agrupados em conjuntos semânticos, por exemplo: Grupo <an> (Anatomia): {testa, ouvido, neurônio, cintura, olho, pé, mão}. Grupo <L> (Lugar): {território, campo, mundo, zona, área, rio, mar}. Grupo <H> (Humano): {pessoa, assassino, vítima, torcedor, arqueólogo}. Com base nesses conjuntos foi criado o método Filtro por Grupo Semântico, que emprega os seguintes passos: a) Extração dos Grupos Semânticos: as tags semânticas presentes no corpus de entrada são extraídas; b) Cálculo de relevância dos Grupos Semânticos: o cálculo de freqüência relativa (FR) é aplicado a lista de tags semânticas extraída anteriormente. A lista é apresentada ao engenheiro ordenada conforme essa medida; c) Exclusão dos Grupos Irrelevantes: o engenheiro exclui os grupos semânticos que considera não ter relação com o domínio representado pelo corpus de entrada. Quando o engenheiro exclui um determinado grupo estará automaticamente eliminando todos os termos pertencentes a ele. Sendo assim, esse método, através de uma abordagem semi-automática, possibilita a construção de uma lista de stopwords específica para um domínio. A seleção correta dos grupos depende do conhecimento do engenheiro de ontologia sobre a área, a ferramenta auxilia o engenheiro ao mostrar as ocorrências dos termos de cada grupo e sua relevância. Extração de Termos Simples e Complexos A etapa de extração de termos foi dividida em identificação de termos simples e complexos. Em ambos os casos foram implementados métodos híbridos para a execução da tarefa. A Tabela 1 descreve resumidamente cada método e sua execução. Para o cálculo de relevância dos termos foram utilizadas quatro medidas estatísticas: FR e tf-idf, descritas em (Manning; Schütze, 1999), NC-Value e C-Value, 2 Stopwords trata-se de uma lista de termos que não possuem relevância semântica. Geralmente é composta por classes gramaticais como artigos, preposições e advérbios.

propostas por (Frantzi; Ananiadou; Tsujii, 1998). A métrica C-Value é exclusiva para o cálculo da relevância de termos complexos, enquanto as demais são aplicadas tanto para termos simples quanto complexos. Tabela 1: Métodos de extração de termos implementados Método Execução Tipo de Termo Classe Gramatical Extrai classes gramaticais definidas pelo engenheiro Simples Núcleo do Sintagma Extrai apenas termos considerados núcleo de um SN Simples Nominal N-Grama Extrai conjuntos de palavras de tamanho n Complexos Padrões Extrai padrões morfossintáticos, semelhante a Complexos Morfossintáticos expressões regulares Sintagma Nominal Extrai somente termos que constituem SN s Complexos Durante o processo de extração os métodos recebem a lista de Grupos Semânticos gerada na etapa anterior e percorrem o corpus selecionando os termos considerados aptos e que pertençam a pelo menos um grupo presente na lista de entrada. A lista de termos extraída pelos métodos é submetida às medidas de relevância. Após o cálculo, os termos são re-organizados em ordem decrescente conforme essas medidas. A lista final pode ser editada pelo engenheiro. Avaliação do OntoLP feita por Usuários A estratégia utilizada na Seleção de Grupos Semânticos torna necessária a intervenção do usuário durante o processo. Dessa forma, os resultados obtidos são dependentes do seu nível de conhecimento sobre o domínio. Conseqüentemente, optouse por uma avaliação qualitativa da ferramenta feita por usuários experientes nas tarefas de extração de termos. O experimento teve como objetivo avaliar se a etapa de Seleção de Grupos Semânticos proposta realmente pode auxiliar o processo de extração. Para cumprir o objetivo foi dada preferência por pesquisadores com experiência em construção de ontologias. Esses usuários receberam listas de termos constituídas por uni, bi e trigramas, para que excluíssem os irrelevantes. Sendo assim, os avaliadores deveriam possuir familiaridade com o domínio em questão, tornando-os aptos a fazer essa seleção. Os experimentos foram executados por dois grupos de pesquisa, ambos relacionados à área de extração de termos e/ou organização hierárquica de conceitos. Para a tarefa foram utilizados dois corpora, de acordo com a experiência de cada grupo. Os grupos convidados para a tarefa e seu respectivo corpus foram: GETerm (UFSCar): este grupo foi constituído por dois avaliadores, um aluno de doutorado e um aluno de IC, todos da área de Lingüística. O grupo trabalha atualmente no desenvolvimento do projeto (Aluísio, 2005), cujo corpus foi utilizado nos experimentos. O corpus do projeto é constituído por documentos extraídos de diversas fontes, incluindo textos informativos, científico e técnico administrativo, compondo um total geral de 2.565.490 palavras, distribuídas em 1057 textos.

Grupo TERMISUL (UFRGS): neste grupo o experimento foi realizado por um avaliador, bolsista de IC da Ciência da Computação, supervisionado por um Doutor da área de Lingüística. Atualmente o grupo trabalha com o corpus (Coulthard, 2005), utilizado nos experimentos. O é constituído por 283 textos em português extraídos do Jornal de Pediatria, totalizando 785.448 palavras. Para a avaliação foram definidas uma série de tarefas de extração de termos. Ao final, cada avaliador gerou uma lista de Grupos Semânticos que considerou relevante para o domínio, utilizando o método Filtro por Grupos Semânticos. Para cada conjunto foram geradas três listas de termos, constituídas por uni, bi e trigramas. Finalmente, cada avaliador editou essas listas, restando apenas termos relevantes para o domínio. As listas finais foram utilizadas no cálculo de precisão dos métodos de extração de termos, considerando os 150 primeiros termos indicados pelos métodos. Os resultados são apresentados na Tabela 2 para unigramas,bigramas e trigramas. Nela é demonstrado: o método acompanhado da medida (Método/Medida); o total de termos corretos extraídos (Corretos); e a precisão de cada par método/medida (P). No domínio de Nanotecnologia & Nanociência (N&N) os resultados foram inferiores aos obtidos no domínio de Pediatria, provavelmente por ser uma área nova e muito específica. Outro ponto a ser observado é a diferença subjetiva na avaliação. Para o domínio N&N pode-se contar com dois avaliadores, sendo que o avaliador 2 considerou sempre um conjunto de termo relevantes maior do que o avaliador 1. Em resposta ao questionário de avaliação, descrito em (Ribeiro Jr., 2008), todos os avaliadores manifestaram satisfação com a opção de seleção por grupos semânticos. Tabela 2: Resultado da extração de termos Av1 26 17 Classe Gramatical Av2 59 39 TF-IDF Av3 108 72 Padrões Av1 19 13 Morfossintáticos Av2 57 38 TF-IDF Av3 139 93 Padrões Av1 17 11 Morfossintáticos Av2 45 30 TF-IDF Av3 83 55 Conclusão Apresentamos aqui uma ferramenta, em desenvolvimento, que tem por objetivo auxiliar o engenheiro de ontologias, quando o processo de construção utiliza textos como fonte de conhecimento. Para desenvolvermos esse tipo de tecnologia problemas particulares da língua devem ser considerados e pesquisados. O desenvolvimento da área, de forma assim contextualizada, requer ainda a construção de infra-estrutura básica de pesquisa. Há ainda carência de recursos básicos

para a pesquisa do tratamento computacional do português no processo de construção de ontologias. Faz-se necessário construir e disponibilizar recursos que possam ser compartilhados entre os pesquisadores, e assim impulsionar o desenvolvimento da área. Entendemos que a pesquisa na área de ontologias, de maneira geral, está fortemente ligada ao desenvolvimento de várias das áreas da computação, ciência da informação e lingüística, em questões como gestão da informação, modelagem de domínios do conhecimento e comunicação de forma geral. A contextualização, localização ou nacionalização dessa área é especialmente relevante neste cenário. Agradecimentos. Este trabalho foi parcialmente financiado pela CAPES e CNPq. Referências ALUÍSIO, S. Desenvolvimento de uma estrutura conceitual (ontologia) para a área de nanociência e nanotecnologia. Technical Report 2004.1.34165.1.6, Universidade de Paulo, 2005. BICK, E. The Parsing System Palavras. Automatic Grammatical Analysis of Portuguese in a Constraint Grammar Framework. Tese (Doutorado) Arhus University, 2000. BUITELAAR, P.; CIMIANO, P.; MAGNINI, B. Ontology learning from text: An overview. In: P-BUITELAAR; CIMIANO, P.; MAGNINI, B. (Ed.). Ontology Learning from Text: Methods, Evaluation and Applications. IOS Press, 2005, (Frontiers in Artificial Intelligence and Applications, v. 123). COULTHARD, R. J. The application of Corpus Methodology to Translation: the parallel corpus and the Pediatrics comparable corpus. Dissertação (Mestrado) - Programa de Pós-Graduação em Estudos da Tradução, Universidade Federal de Santa Catarina, 2005. FRANTZI, K. T.; ANANIADOU, S.; TSUJII, J. ichi. The c-value/nc-value method of automatic recognition for multi-word terms. In: ECDL '98: Proceedings of the Second European Conference on Research and Advanced Technology for Digital Libraries. London, UK: Springer-Verlag, 1998. p. 585-604. ISBN 3-540-65101-2. MANNING, C. D.; SCHÜTZE, H. Foundations of Statistical Natural Language Processing. Cambridge, Massachusetts: The MIT Press, 1999. RIBEIRO JR., L. C. OntoLP : Construção Semi-Automática de Ontologias a partir de Textos da Língua Portuguesa. Dissertação (Mestrado) - Programa de Pós-Graduação em Computação Aplicada, Universidade do Vale do Rio dos Sinos, 2008.