Comparação de técnicas para a construção de tesauros visando o enriquecimento de uma ontologia do domínio legal Roger Leitzke Granada (PUCRS) roger.granada@cpph.pucrs.br Mírian Bruckschen (PUCRS) mirian.bruckschen@cpph.pucrs.br Vera Lúcia Strube de Lima (PUCRS) vera.strube@pucrs.br Renata Vieira (PUCRS) renata.vieira@pucrs.br Caio Northfleet (HP Brasil) caio.northfleet@hp.com Resumo: Este artigo apresenta uma comparação de duas técnicas para a construção automática de tesauros, sendo uma delas baseada apenas em métodos estatísticos e a outra utilizando conhecimento linguístico. Neste trabalho, estes tesauros são associados a uma ontologia de domínio visando enriquecer os termos da ontologia com conjuntos de termos semelhantes. Palavras-chave: Construção Automática de Tesauros; Ontologia; Domínio legal. 1. Introdução Segundo Grefenstette (1993), a existência de um tesauro de domínio específico fornece uma visão hierárquica dos conceitos importantes de um domínio, bem como sugere termos alternativos que podem ser utilizados para descrever o mesmo conceito, em um domínio. Por sugerir termos alternativos a um termo-conceito (palavra-chave de entrada), um tesauro pode ser utilizado em associação com uma ontologia. Essa associação dos termos aos conceitos da ontologia facilita a compreensão do domínio (FREITAS, 2008). Se a ontologia for empregada no processo de recuperação de informações, poderão ser recuperados documentos relacionados a um conceito, mesmo que o termo original não apareça explicitamente nesses documentos. Inicialmente, tesauros eram construídos de forma manual, porém essa abordagem é custosa e demorada. Com o avanço da tecnologia, a quantidade de informação disponível em formato eletrônico tem aumentado e isso torna a criação manual de tesauros impraticável para determinados domínios. No domínio legal, por se tratar de um domínio dinâmico, onde novas leis aparecem de tempos em tempos, muitas vezes substituindo leis existentes, a manutenção de um tesauro se torna difícil. Por outro lado, o aumento da quantidade de leis e documentos
legais em formato digital permite a criação automática de tesauros a partir de uma coleção desses documentos. Como exemplo, podemos partir do conceito Spam_Act, que conteria as regulamentações para casos de spam. A este conceito podem estar associados termos como Act_129_of_2003, Act_45_of_2005, Australian_Spam_Act, etc, todos estes termos vinculados à mesma lei, que regulamenta o uso de spam na Austrália. Este trabalho visa comparar técnicas de construção automática de tesauros quando aplicadas ao domínio legal. O presente texto apresenta alguns trabalhos relacionados e recursos utilizados para a geração de um experimento (Seção 2), as técnicas escolhidas para construção automática de tesauros (Seção 3), o desenvolvimento de um experimento (Seção 4), a avaliação dos resultados (Seção 5) e as considerações finais e trabalhos futuros (Seção 6). 2. Problema, contexto e trabalhos relacionados Nos últimos anos tem crescido o volume de pesquisas envolvendo a construção de ontologias no domínio legal. Um exemplo desses trabalhos é o de Lame e Desprès (2005) que investiga técnicas automáticas para atualizar ontologias do domínio legal. A atualização de ontologias do domínio legal se faz necessária devido às constantes mudanças que as leis podem sofrer. Assim, em um determinado momento uma lei pode sofrer uma alteração e, com isso, poderão existir duas ontologias dessa mesma lei, sendo uma delas anterior à modificação, e outra da nova lei, resultando duas interpretações dessa lei. Lame e Desprès alinham os conceitos e relacionamentos das duas ontologias, resultando em uma ontologia final. Trabalhos como o de Lenci et al. (2009) visam a criação de estruturas ontológicas a partir de textos do domínio legal. Para fazer a extração de termos e relações e criar uma estrutura ontológica, Lenci et al. mesclam o uso de técnicas de Processamento de Linguagem Natural com aprendizado de máquina em um sistema chamado T2K. No experimento que realizam, são extraídos termos, bem como listas de hipônimos, de textos do domínio legal italiano, bem como relações de hipônimos. O trabalho apresentado por Bruckschen et al. (2010) faz o reconhecimento de Entidades Nomeadas (EN) no domínio legal para a população de uma ontologia previamente criada. Nesse trabalho, Bruckschen et al. fazem a identificação de entidades do tipo law,
rules e act., verificando termos que contenham essas palavras-chave. Caso esses termos não sejam verbos, o sistema procura por determinantes (the, this) e identificadores (números, ano e qualificadores), identificando-os como EN. Por fim, a ontologia é populada com essas EN identificadas. Embora os testes tenham sido preliminares, Bruckschen et al. encontraram resultados promissores quando da identificação de entidades nomeadas, tendo uma alta precisão (79.69%) porém uma baixa cobertura (21.21%), devido à limitação de alcance das heurísticas empregadas. O presente trabalho associa a uma ontologia do domínio legal um tesauro gerado para cada conceito desta ontologia. Os tesauros associados aos conceitos serão gerados a partir de um corpus formado por cem documentos, contendo aproximadamente um milhão de palavras. Esses documentos foram coletados de fontes de acesso público, normalmente sites governamentais, que disponibilizam leis, normas ou guidelines do domínio legal. Todos os documentos foram obtidos com versões em língua inglesa das normas, sendo aproximadamente metade obtidos de normas dos Estados Unidos. Austrália, Nova Zelândia, Reino Unido e Canadá são outros países com grande porcentagem de documentos. A ontologia utilizada foi construída manualmente, de forma a classificar entidades de interesse do domínio legal, visando principalmente a privacidade de dados, ações de responsabilidade, e riscos. Essa ontologia contém um total de 56 conceitos. Mais detalhes podem ser encontrados em Bruckschen et al. (2010). 3. Construção automática de tesauros A construção automática de um tesauro se baseia na identificação, de forma automatizada, dos relacionamentos semânticos entre as palavras, e agrupamento de termos similares a uma palavra-chave que é utilizada como entrada. Sabendo-se que palavras tendem a ter o mesmo significado se compartilham contextos semelhantes (HARRIS, 1954), os termos similares podem ser encontrados comparando termos que compartilham contextos análogos. Essa identificação automática pode se dar sem o uso de um corpus (como no caso de tesauros construídos apenas pela tradução de outros tesauros), ou com o uso de corpus. Neste trabalho é utilizado um corpus para a criação do tesauro. Para a identificação dos melhores relacionamentos entre as palavras, diversos trabalhos vêm sendo propostos (JING e CROFT, 1994; GREFENSTETTE, 1994; KAJI et al.,
2000; CHEN e CHEN, 2007; ANIC e SEBASTIAN, 2008; BING-GENG, 2008; ITO et al., 2008; KONGTHON et al., 2008; YANG e POWERS, 2008). Porém, mesmo sendo a criação automática de tesauros um assunto antigo, cabe ressaltar que ainda é um desafio encontrar os melhores relacionamentos entre as palavras de forma que o tesauro contenha termos que melhor cubram o escopo dos documentos da coleção. No presente trabalho são comparadas duas técnicas para a geração de termos semelhantes ao termo-chave, uma baseada apenas em métodos estatísticos para a geração dos termos semelhantes ao termo conceito e a outra fazendo uso da análise sintática, obtido com um POS Tagging, para a identificação dos termos relacionados ao conceito. 3.1 Construção baseada em métodos estatísticos (KAJI et al, 2000) Técnicas puramente estatísticas são consideradas técnicas mais simples para a construção automática de tesauros orientados a domínio pois não utilizam nenhum conhecimento linguístico. Foram as primeiras para a geração automática de tesauros, descritas em Kaji et al. (2000). Kaji et al. (2000) apresentam a técnica para a geração automática de um tesauro de associação, isto é, um tesauro onde os termos são associados pelo grau de semelhança em um corpus. Nessa abordagem é utilizada a associação entre as palavras, também conhecida como associação paradigmática (RUGE, 1991 apud KAJI et al., 2000). Essa abordagem propõe que a similaridade semântica possa ser computada pelo entendimento lexical entre os vizinhos. Por exemplo, a similaridade semântica entre as palavras vermelho e azul pode ser definida pelo fato de que ambas coocorrem frequentemente com palavras como cor, flor, carro, escuro, claro, e assim por diante. Corpus Extração de termos Termos com frequências Análise de correlação Tesauros Extração de coocorrências Coocorrências dos termos FIGURA 1 Passos para a geração do tesauro baseado em métodos estatísticos. Fonte: Adaptado de Kaji et al. (2000).
A criação de tesauro proposta por Kaji et al. (2000) consiste na extração de termos, extração de coocorrências dos termos e análise de correlação, como mostrado na FIGURA 1. Na extração de termos, Kaji et al. (2000) fazem a obtenção de termos com mais de uma palavra (N-grama) e, para isso, é utilizado um método de desambiguação estrutural, selecionando termos compostos mais frequentes contidos dentro de termos compostos menos frequentes. Assim, se existe um termo composto CN que inclui dois termos compostos CN1 e CN2, e esses termos são incompatíveis entre si, então, se um dos dois candidatos é mais frequente, a estrutura de CN incluindo a estrutura desse candidato mais frequente é escolhida. Na extração de coocorrências é coletado qualquer par de termos semanticamente ou contextualmente associados, não importando o tipo de associação. Nesse trabalho foi utilizada uma técnica de janela para a extração. A técnica de janela extrai pares de termos que ocorrem juntos dentro de uma janela que vai se movendo através do texto. Essa janela é composta por um conjunto de sentenças de n palavras, sendo n um número previamente escolhido. O tamanho da janela pode ser escolhido arbitrariamente e, devido ao custo computacional, os autores escolheram janelas com 20 a 50 palavras. Esses pares de palavras ainda são filtrados para que não apareçam pares de substantivos compostos que já foram previamente extraídos, pois se eles fossem incluídos na extração de coocorrência, causariam redundância. Por fim, é feita a análise de correlação entre os termos e, para isso, os autores utilizam a Informação Mútua, descrita no trabalho de Church e Hanks (1990), que irá medir o grau de semelhança dos termos do corpus com termos conceitos, permitindo decidir se certo termo vai para o tesauro. 3.2 Construção baseada em métodos linguísticos (GREFENSTETTE, 1994) Para a criação de um tesauro baseado em métodos lingüísticos, optou-se pelo método desenvolvido por Grefenstette (1994), por ter sido um dos primeiros trabalhos a utilizar informações sintáticas para a construção de um tesauro. Grefenstette (1994) descreve a criação de um tesauro a partir de um corpus, porém utilizando informações sintáticas para obter a similaridade entre termos. Os termos mais semelhantes a um termo
conceito são agrupados formando o tesauro. A FIGURA 2 apresenta os passos para a criação do tesauro proposto por Grefenstette. Nesse trabalho, Grefenstette (1994) inicia o processo de construção do tesauro fazendo a tokenização do corpus, isto é, marcando as categorias morfossintáticas dos termos contidos no corpus, e também tratando a ambiguidade sintática desses termos. Corpus Tokenização Identificação de sintagmas Extração de contextos sintáticos Aplicação da métrica de similaridade Tesauro FIGURA 2 Passos para a geração do tesauro baseado em sintaxe. Fonte: Inspirado em Grefenstette (1994). Após, um analisador sintático faz a identificação de Sintagmas Nominais e Sintagmas Verbais. Esses sintagmas são analisados e deles se obtêm os contextos sintáticos dos termos. Entende-se por contexto sintático qualquer termo que estabeleça uma relação sintática com outro termo no corpus. Para substantivos, são identificadas as relações sintáticas em que adjetivos os modificam; em que outros substantivos os modificam; e em que são modificados por outros substantivos com o uso de uma preposição. Para verbos são identificadas relações em que o substantivo faz o papel de sujeito, de objeto direto e de objeto indireto. Por fim, é utilizada uma variante da medida de Jaccard (TANIMOTO, 1958 apud GREFENSTETTE, 1994) que utiliza pesos associados aos contextos sintáticos. As duplas de termos mais similares, isto é, com uma medida de similaridade mais alta, formarão o conjunto de termos associados a determinado termo-chave. 4. Protótipo para a realização do experimento O sistema apresentado nesta seção foi projetado para fazer a criação de dois tipos de tesauros. O primeiro deles é o tesauro gerado apenas com a utilização de métodos estatísticos e foi baseado em Kaji et al. (2000). O outro tesauro é gerado com a adição de métodos linguísticos e foi baseado em Grefenstette (1994). O presente trabalho não visa a comparação da identificação de termos compostos, portanto esses termos foram inicialmente identificados no texto. Para a identificação dos n-gramas, foi feita a extração por padrões, isto é, a partir de um corpus previamente anotado com as categorias gramaticais são extraídos termos que seguem padrões pré-determinados. Para isso, procura-se no corpus por padrões como o
mostrado na TABELA 1, onde A refere-se a um adjetivo, P a uma preposição e N a um substantivo. TABELA 1. Padrões para a identificação de termos Padrão Exemplo A N linear function N N regression coefficients A A N Gaussian random variable A N N Cumulative distribution function N A N Mean square error N N N Class probability function N P N Degrees of freedom Fonte: Adaptado de Manning (1999). Após a identificação dos n-gramas, foi feito o processo de criação automática dos tesauros. A arquitetura do sistema para a criação dos mesmos pode ser vista na FIGURA 3. Limpeza do corpus Extração de termos Análise de correlação Tesauro Corpus Stoplist Ontologia Tokenização e POS Tagger Extração de contextos sintáticos FIGURA 3. Arquitetura do sistema para construção de tesauros Aplicação da métrica de similaridade Tesauro Para a construção do tesauro baseado em métodos estatísticos, inicialmente foi feita a limpeza do corpus, no qual foram retirados caracteres especiais e também a normalização dos termos, deixando-os em letras minúsculas, não diferenciando mais termos com letras maiúsculas (caso de termos que iniciavam frases) e termos em letras minúsculas. O próximo passo foi a extração de termos em janela e para isso, utilizou-se uma janela de tamanho 20, conforme descrito por Kaji et al. (2000). A seguir foram feitas as análises de correlação para termos descritos em uma ontologia do domínio legal, gerando assim um tesauro para cada conceito da ontologia. Para a construção do tesauro utilizando métodos linguísticos, seguiram-se basicamente os passos propostos por Grefenstette (1994). Assim, inicialmente foi feita a tokenização do corpus e a marcação das categorias gramaticais, bem como a marcação de sintagmas nominais e verbais utilizando um Part of Speech Tagger. Após foi feita a extração dos contextos sintáticos para os termos conceitos da ontologia e por fim, foi aplicada a
métrica de similaridade de Jaccard para medir a similaridade entre os contextos sintáticos. Os contextos sintáticos que tinham os maiores valores de similaridade se tornaram parte do tesauro. 5. Resultados No experimento realizado foram utilizados como entrada o corpus contendo cem documentos do domínio legal e uma lista contendo 56 termos, referentes aos conceitos de uma ontologia de domínio. O resultado obtido do experimento foi duas listas referentes aos tesauros gerados. Cada uma dessas listas é composta por cada palavrachave (referente a cada conceito da ontologia de domínio) seguida de n termos mais semelhantes a ela, organizados por ordem decrescente de similaridade. Para analisar o desempenho dos dois métodos de construção de tesauros, buscamos examinar os resultados obtidos no experimento. Para isso, comparamos inicialmente a quantidade de palavras-chave geradas em cada um dos tesauros. Dos 56 termos-chave contidos na lista de entrada do tesauro, foram encontrados 19 termos para o tesauro baseado em métodos estatísticos e 13 termos para o tesauro que utiliza recursos linguísticos. Porém como a ontologia utilizada foi construída manualmente e não a partir do corpus, procurou-se verificar quantos termos realmente existiam no corpus. Dos 56 termos existentes na lista referente aos conceitos da ontologia, 34 termos existem no corpus. Por questões de objetividade os termos que não foram encotrados no corpus foram descartados, não aplicando-se nenhum tipo de técnica, como stemming, para a verificação dos termos no corpus. Outra comparação realizada foi da quantidade de termos semelhantes encontrados para cada palavra-chave. Observou-se que, embora os tesauros gerados tenham uma média acima de cem termos relacionados, termos como credit_card_information tem um número bastante reduzido de termos semelhantes. No tesauro gerado com métodos estatísticos foram encontrados 7 termos semelhantes para essa palavra-chave, enquanto no tesauro que utiliza métodos linguísticos não foram encontrados termos semelhantes. Observando a quantidade de palavras-chave e a quantidade de termos semelhantes encontrados nos tesauros, podemos observar que a adição de recursos linguísticos na construção do tesauro pode diminuir a quantidade desses termos no tesauro gerado. Isso pode se dar pelo fato que embora o termo exista no corpus, ele não contenha uma
grande quantidade de relações sintáticas com outros termos do corpus, obtendo uma similaridade com outros termos muito próxima de zero, não entrando assim no tesauro. 6. Considerações finais e trabalhos futuros Neste artigo foi apresentada uma comparação entre dois métodos de construção automática de tesauros. Um dos métodos utiliza apenas cálculos estatísticos entre os termos para descobrir os termos que devem ser utilizados na construção do tesauro. O outro método faz uso além dos recursos estatísticos, também faz uso de conhecimento linguístico. Uma das vantagens de fazer a criação de tesauros baseados apenas em métodos estatísticos é a não necessidade de marcação sintática do corpus, tornando assim o processo mais rápido para geração dos termos relacionados. Por outro lado, essa técnica traz a inconveniência de existirem termos que não compartilham o mesmo contexto semântico da palavra-chave. Os tesauros gerados por métodos que utilizam uma marcação sintática, como o apresentado em (GREFENSTETTE, 1994), relacionam os termos semanticamente, extraindo os contextos sintáticos para cada termo. Esse relacionamento semântico melhora a qualidade dos termos evitando assim que se obtenham como termos semelhantes, preposições, verbos, artigos, etc. Porém, uma desvantagem ao utilizar a técnica proposta por Grefenstette é a necessidade da marcação com categorias morfossintáticas e posteriormente a separação em sintagmas nominais e verbais. Como continuação deste trabalho, ainda pretende-se criar tesauros que utilizem outras técnicas estatísticas durante o processo de geração dos termos similares, verificando assim a melhoria dos tesauros. Essas criações podem utilizar técnicas como a Análise Semântica Latente (do inglês Latent Semantic Analysis, ou LSA) ou ainda a Análise Semântica Latente Probabilística (do inglês Probabilistic Latent Semantic Analysis, ou PLSA). 7. Agradecimentos O presente trabalho foi alcançado em cooperação com a Hewlett-Packard Brasil Ltda. e com recursos provenientes da Lei de Informática (Lei nº 8.248, de 1991).
Referências ANICK, V.M.P.; SEBASTIAN, S. Similar term discovery using web search. Language Resources and Evaluation Conference LREC 08, 2008. BING-GENG, H. The Architecture and Algorithms of Retrieval Thesaurus on Web, In: Proceedings of the International Conference on Computer Science and Software Engineering, 2008, vol. 4, pp. 448-450. BRUCKSCHEN M.; NORTHFLEET, C.; SILVA, D. M.; BRIDI, P.; GRANADA, R.; VIEIRA, R.; RAO, P.; SANDER, T. Named entity recognition in the legal domain for ontology population. In LREC 2010, 2010, pp. 16-21. CHEN, L.; CHEN, S. A New Approach for Automatic Thesaurus Construction and Query Expansion for Document Retrieval. International Journal of Information and Management Sciences, 2007, vol. 18, n. 4, 299 p. CHURCH, K.W.; HANKS, P. Word association norms, mutual information, and lexicography. Computational Linguistics, 1990, vol. 16 pp. 22-29. FREITAS, K. F.; CAMPOS, M. L. M.; CAMPOS, M. L. A.; CAMPOS, L. M. Tesauro como base terminológica para a elaboração de ontologia de domínio: uma aplicação no domínio do Folclore e Cultura Popular. In: Seminário de Pesquisa em Ontologia no Brasil, 2008, Niterói. Anais do Seminário de Pesquisa em Ontologia no Brasil, 2008. GREFENSTETTE, G. Automatic thesaurus generation from raw text using knowledge-poor techniques. Making sense of Words. 9th Annual Conference of the UW Centre for the New OED and text Research, 1993. GREFENSTETTE, G. Explorations in automatic thesaurus discovery. Kluwer Academic Publishers Norwell, 1994, 306 p. HARRIS, Z. S. Distributional structure. Word, 1954, v. 10, n. 23, pp. 146,162. ITO, M.; NAKAYAMA, K.; HARA, T.; NISHIO, S. Association thesaurus construction methods based on link cooccurrence analysis for wikipedia. In: CIKM '08: Proceedings of the 17th ACM Conference on Information and Knowledge management, 2008, pp. 817-826, New York, NY, USA. JING, Y.; CROFT, W.B. An association thesaurus for information retrieval. Proceedings of RIAO, 1994, v. 94, pp. 146-160. KAJI, H.; MORIMOTO, Y.; AIZONO, T.; YAMASAKI, N. Corpus dependent association thesauri for information retrieval. In: Proceedings of the 18th Conference on Computational Linguistics, 2000, pp. 404-410. KONGTHON, A.; HARUECHAIYASAK, C.; THAIPRAYOON, S. Constructing term thesaurus using text association rule mining. 5th International Conference on Electrical Engineering/Electronics, Computer, Telecommunications and Information Technology, 2008, vol. 1. LAME, G; DESPRÈS, S. Updating ontologies in the legal domain. In Proceedings of the 10th international Conference on Artificial intelligence and Law (Bologna, Italy, June 06-11, 2005). ICAIL '05. ACM, New York, NY, 155-162. DOI= http://doi.acm.org/10.1145/1165485.1165509. LENCI, A.; MONTEMAGNI, S.; PIRRELLI, V.; VENTURI, G. Ontology learning from Italian legal texts. In Proceeding of the 2009 Conference on Law, ontologies and the Semantic Web, Eds. Frontiers in Artificial Intelligence and Applications, 2009, vol. 188. IOS Press, Amsterdam, The Netherlands, 75-94. MANNING, C.D.; SCHUTZE H. Foundations of statistical natural language processing. MIT Press, 1999. RUGE, G. Experiments on linguistically based term associations. In RIAO, 1991, pp. 528-546. TANIMOTO, T. T. An elementary mathematical theory of classification. Technical report, 1958, IBM Research. WILKS, Y.A.; SLATOR, B.M.; GUTHRIE, L.M.. Electric words: dictionaries, computers, and meanings. MIT Press Cambridge, 1996. YANG, D.; POWERS, D.M.W. Automatic thesaurus construction. In: ACSC '08: Proceedings of the 31st Australasian conference on Computer science, 2008, vol. 74, pp. 147-156.