Comparação de técnicas para a construção de tesauros visando o enriquecimento de uma ontologia do domínio legal

Documentos relacionados
Mineração de Textos na Web

OntoLP: Engenharia de Ontologias em Língua Portuguesa

Índice. Classificação de textos para o ensino de português como segunda língua. Índice. technology from seed

6 Atributos. A dívida da empresa subiu.

Comparação dos algoritmos sequencial e paralelo para contagem de palavras e contexto

Leitura de Documentos. Priscila Engiel

Algoritmo CLIQUE (Clustering In QUEst)

Sistema de Aquisição semi-automática de Ontologias

Geração de Modelo para Reconhecimento de Entidades Nomeadas no OpenNLP

Semântica no Reconhecedor Gramatical Linguístico

UNIVERSIDADE FEDERAL DE PERNAMBUCO CENTRO DE INFORMÁTICA GRADUAÇÃO EM ENGENHARIA DA COMPUTAÇÃO

Descoberta de conhecimento em textos - Análise semântica. Diogo Cardoso Eduardo Camilo Inácio Eduardo Monteiro Dellandréa Guilherme Gomes

7 Congresso de Pós-Graduação MODELAGEM DE BASE DE CONHECIMENTO PARA TAREFA DE CLASSIFICAÇÃO EM MINERAÇÃO DE DADOS

A/ART casa/n caiu/v./. Figura 3.1: Frase com anotação morfossintática.

Verificação automática de substantivos compostos através de reconhecimento de padrões sintáticos

Diego Martin Mancini Orientador: Prof. Paulo A. V. de Miranda Instituto de Matemática e Estatística Universidade de São Paulo

Hierarquias de conceitos extraídas automaticamente de corpus de domínio específico Um experimento sobre um corpus de Pediatria

Determinação do Grau de Similaridade entre Frases

Ontologias Linguísticas e Processamento de Linguagem Natural. Ygor Sousa CIn/UFPE

Linguagens Documentárias. Profa. Lillian Alvares Faculdade de Ciência da Informação, Universidade de Brasília

Resolução da Heterogeneidade na Identificação de Pacientes

MCZA Processamento de Linguagem Natural Semântica e similaridade de palavras: Parte III

Recuperação de Informação em Bases de Texto

Matéria: Desenho e desenvolvimento de tecnologias linguísticas

Implementação de Kernel Customizado Aplicado à Análise de Sentimentos em Resenhas de Filmes

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

Descritores de Imagens

Webmedia 06 Diego Fiori de Carvalho Júlio Cézar Estrella Renata Pontin de Mattos Fortes Rudinei Goularte

Geração de features para resolução de correferência: Pessoa, Local e Organização

UNIVERSIDADE FEDERAL DE P ERNAMBUCO

Automatização de um Método de Avaliação de Estruturas Retóricas

Identificação em Documentos

Descoberta Automática de Relações Não- Taxonômicas a partir de Corpus em Língua Portuguesa

DESENVOLVIMENTO DE METODOLOGIA PARA AFERIÇÃO DA QUALIDADE DE UM SCANNER 3D

Gazetteers - Aplicação em RI Geográfica. Ivre Marjorie R. Machado

Indexação automática. CBD/ECA Indexação: teoria e prática

Mineração de Grafos e Predição de Links. Antonio Pecli Ronaldo Goldschmidt

Profª Ana Lúcia Lima Marreiros Maia Profª Fabiana Cristina Bertoni

Síntese de programas utilizando a linguagem Alloy

Aplicação de uma Técnica Tradicional de Expansão de Consulta ao Modelo TR+

REVISÃO SISTEMÁTICA APLICADA À ENGENHARIA DE RISCOS DE PROJETOS DE SOFTWARE.

Análise de métodos de Inferência Ecológica

2 Sentiment Analysis 2.1

ALINHAMENTO MANUAL DE TEXTOS E SUMÁRIOS EM UM CORPUS JORNALÍSTICO MULTIDOCUMENTO

I-Preproc: uma ferramenta para pré-processamento e indexação incremental de documentos

Identificação e Tratamento de Expressões Multipalavras aplicado à Recuperação de Informação

5º Congresso de Pós-Graduação

Manual OntoLP. 1-Introdução ao OntoLP Instalação do OntoLP Executando o OntoLP Observação Importante...4

Uma abordagem de classificação automática para Tipo de Pergunta e Tipo de Resposta

Revisão Sistemática de Validação de Ontologias

O reconhecimento facial é dividido em três etapas: i) detecção da face, ii) extração de características e iii) reconhecimento da face.

PPGCC. Análise Comparativa de Métodos de Extração de Termos: Abordagens Linguística e Estatística. Relatório Técnico N 0 053

MCZA Processamento de Linguagem Natural Semântica e similaridade de palavras: Parte I

Inteligência Artificial. Prof. Esp. Pedro Luís Antonelli Anhanguera Educacional

Alinhamento Sentencial e Lexical de Córpus Paralelos: Recursos para a Tradução Automática

Realimentação de Relevância

Máquinas de Vetores de Suporte Aplicadas à Classificação de Defeitos em Couro Bovino

Caracterização de Imagens via Redes Neurais Artificiais

SEMINÁRIO DOS ARTIGOS:

18º Congresso de Iniciação Científica TRATAMENTO DE REGRAS DA ASSOCIAÇÃO MULTIRELACIONAL NA FERRAMENTA DE MINERAÇÃO DE DADOS KIRA

PALAVRAS-CHAVE COMO ELO ENTRE ARTIGOS E AUTORES: visualizações possíveis

1.1 Tema Aprendizado de Máquina (Mit97) é o campo da Inteligência Artificial responsável pelo desenvolvimento de modelos inferidos automaticamente a

Recuperação de Informação

Classificação Contínua de Documentos com Vocabulários Temáticos Dinâmicos para a Desambiguação de Termos

Recapitulando... Abordagens: PLN. Abordagens: PLN 29/03/2012. Introdução ao Processamento de Línguas Naturais. Distribuição de palavras

Sumário. Referências utilizadas. Introdução. MAFIA: Merging of Adaptive Finite Intervals. Introdução Visão Geral e Objetivos do MAFIA

Este capítulo aborda os fundamentos principais aplicados neste trabalho.

Computação Evolucionária Aplicada ao Problema de Seleção de Características em Text Mining

Extração e Representação Semântica de Fatos Temporais

DESENVOLVIMENTO DE FERRAMENTAS PARA A CONSTRUÇÃO ÁGIL DE EXTRATORES DE INFORMAÇÃO. Matheus Silva Santos 1 Cassiano Bueno Silva 2 Eraldo R.

Predição de links em uma rede heterogênea baseada em dados geolocalizados e de relacionamentos

Pré-processamento textual para a extração de informação em bases de patentes

5º Congresso de Pós-Graduação

UNIVERSIDADE FEDERAL DA BAHIA

Uma Abordagem ao PÁGICO baseada no Processamento e Análise de Sintagmas dos Tópicos

Utilização de técnicas de Process Mining em Sistemas de Middleware Adaptativos Proposta de Trabalho de Graduação

Compiladores. Motivação. Tradutores. Motivação. Tipos de Tradutores. Tipos de Tradutores

Um Método para Melhoria de Dados Estruturados de Imóveis

CC-226 Introdução à Análise de Padrões

MAPAS CONCEITUAIS COMPILADOS: UMA FERRAMENTA PARA CONSTRUÇÃO DE DIAGNÓSTICOS EM ENSINO A DISTÂNCIA

Uma avaliação de analisadores morfológicos do português

Dados Abertos Governamentais e a Web Semântica

Prof. Lorí Viali, Dr.

UMA FERRAMENTA PARA A PESQUISA EM CORPORA DE AQUISIÇÃO DE LINGUAGEM

INTERPOLAÇÃO LINEAR E BILINEAR: APLICAÇÃO EM TRANSFORMAÇÕES GEOMÉTRICAS DE IMAGEM INTRODUÇÃO

Sistemas de Recomendação Uma abordagem geral

Análise Automática de Coerência Textual em Resumos Científicos: Avaliando Quebras de Linearidade

CRI Minas Indústria 4.0. Case Vallourec: Golden Batch na produção de tubos

DEFINING METRIC THRESHOLDS FOR SOFTWARE PRODUCT LINES: A COMPARATIVE STUDY

FACILITANDO A AVALIAÇÃO DE TAXONOMIAS DE TÓPICOS AUTOMATICAMENTE GERADAS NO DOMÍNIO DO AGRONEGÓCIO

Grupo de Estudos. Tópicos Avançados em Design de Artefatos Digitais. Design Science Research. Semestre André Neves

Análise Sintática de Frases utilizando Gramáticas Livres de Contexto Probabilísticas

4 Algoritmos de Aprendizado

Ciência da Computação. Análise e Projeto Orientado a Objetos UML. Anderson Belgamo

Aprendizagem de máquina: Regressão Linear em uma instituição de Ensino

GSI024 - Organização e Recuperação da

Categorização de Textos baseada em Conceitos

NEPaLE: Uma ferramenta computacional de suporte à avaliação de paráfrases

Ontologias: Definições e Tipos

Marcação de Nomes Próprios usando técnicas de pesquisa local e recorrendo a fontes de conhecimento na Internet

Transcrição:

Comparação de técnicas para a construção de tesauros visando o enriquecimento de uma ontologia do domínio legal Roger Leitzke Granada (PUCRS) roger.granada@cpph.pucrs.br Mírian Bruckschen (PUCRS) mirian.bruckschen@cpph.pucrs.br Vera Lúcia Strube de Lima (PUCRS) vera.strube@pucrs.br Renata Vieira (PUCRS) renata.vieira@pucrs.br Caio Northfleet (HP Brasil) caio.northfleet@hp.com Resumo: Este artigo apresenta uma comparação de duas técnicas para a construção automática de tesauros, sendo uma delas baseada apenas em métodos estatísticos e a outra utilizando conhecimento linguístico. Neste trabalho, estes tesauros são associados a uma ontologia de domínio visando enriquecer os termos da ontologia com conjuntos de termos semelhantes. Palavras-chave: Construção Automática de Tesauros; Ontologia; Domínio legal. 1. Introdução Segundo Grefenstette (1993), a existência de um tesauro de domínio específico fornece uma visão hierárquica dos conceitos importantes de um domínio, bem como sugere termos alternativos que podem ser utilizados para descrever o mesmo conceito, em um domínio. Por sugerir termos alternativos a um termo-conceito (palavra-chave de entrada), um tesauro pode ser utilizado em associação com uma ontologia. Essa associação dos termos aos conceitos da ontologia facilita a compreensão do domínio (FREITAS, 2008). Se a ontologia for empregada no processo de recuperação de informações, poderão ser recuperados documentos relacionados a um conceito, mesmo que o termo original não apareça explicitamente nesses documentos. Inicialmente, tesauros eram construídos de forma manual, porém essa abordagem é custosa e demorada. Com o avanço da tecnologia, a quantidade de informação disponível em formato eletrônico tem aumentado e isso torna a criação manual de tesauros impraticável para determinados domínios. No domínio legal, por se tratar de um domínio dinâmico, onde novas leis aparecem de tempos em tempos, muitas vezes substituindo leis existentes, a manutenção de um tesauro se torna difícil. Por outro lado, o aumento da quantidade de leis e documentos

legais em formato digital permite a criação automática de tesauros a partir de uma coleção desses documentos. Como exemplo, podemos partir do conceito Spam_Act, que conteria as regulamentações para casos de spam. A este conceito podem estar associados termos como Act_129_of_2003, Act_45_of_2005, Australian_Spam_Act, etc, todos estes termos vinculados à mesma lei, que regulamenta o uso de spam na Austrália. Este trabalho visa comparar técnicas de construção automática de tesauros quando aplicadas ao domínio legal. O presente texto apresenta alguns trabalhos relacionados e recursos utilizados para a geração de um experimento (Seção 2), as técnicas escolhidas para construção automática de tesauros (Seção 3), o desenvolvimento de um experimento (Seção 4), a avaliação dos resultados (Seção 5) e as considerações finais e trabalhos futuros (Seção 6). 2. Problema, contexto e trabalhos relacionados Nos últimos anos tem crescido o volume de pesquisas envolvendo a construção de ontologias no domínio legal. Um exemplo desses trabalhos é o de Lame e Desprès (2005) que investiga técnicas automáticas para atualizar ontologias do domínio legal. A atualização de ontologias do domínio legal se faz necessária devido às constantes mudanças que as leis podem sofrer. Assim, em um determinado momento uma lei pode sofrer uma alteração e, com isso, poderão existir duas ontologias dessa mesma lei, sendo uma delas anterior à modificação, e outra da nova lei, resultando duas interpretações dessa lei. Lame e Desprès alinham os conceitos e relacionamentos das duas ontologias, resultando em uma ontologia final. Trabalhos como o de Lenci et al. (2009) visam a criação de estruturas ontológicas a partir de textos do domínio legal. Para fazer a extração de termos e relações e criar uma estrutura ontológica, Lenci et al. mesclam o uso de técnicas de Processamento de Linguagem Natural com aprendizado de máquina em um sistema chamado T2K. No experimento que realizam, são extraídos termos, bem como listas de hipônimos, de textos do domínio legal italiano, bem como relações de hipônimos. O trabalho apresentado por Bruckschen et al. (2010) faz o reconhecimento de Entidades Nomeadas (EN) no domínio legal para a população de uma ontologia previamente criada. Nesse trabalho, Bruckschen et al. fazem a identificação de entidades do tipo law,

rules e act., verificando termos que contenham essas palavras-chave. Caso esses termos não sejam verbos, o sistema procura por determinantes (the, this) e identificadores (números, ano e qualificadores), identificando-os como EN. Por fim, a ontologia é populada com essas EN identificadas. Embora os testes tenham sido preliminares, Bruckschen et al. encontraram resultados promissores quando da identificação de entidades nomeadas, tendo uma alta precisão (79.69%) porém uma baixa cobertura (21.21%), devido à limitação de alcance das heurísticas empregadas. O presente trabalho associa a uma ontologia do domínio legal um tesauro gerado para cada conceito desta ontologia. Os tesauros associados aos conceitos serão gerados a partir de um corpus formado por cem documentos, contendo aproximadamente um milhão de palavras. Esses documentos foram coletados de fontes de acesso público, normalmente sites governamentais, que disponibilizam leis, normas ou guidelines do domínio legal. Todos os documentos foram obtidos com versões em língua inglesa das normas, sendo aproximadamente metade obtidos de normas dos Estados Unidos. Austrália, Nova Zelândia, Reino Unido e Canadá são outros países com grande porcentagem de documentos. A ontologia utilizada foi construída manualmente, de forma a classificar entidades de interesse do domínio legal, visando principalmente a privacidade de dados, ações de responsabilidade, e riscos. Essa ontologia contém um total de 56 conceitos. Mais detalhes podem ser encontrados em Bruckschen et al. (2010). 3. Construção automática de tesauros A construção automática de um tesauro se baseia na identificação, de forma automatizada, dos relacionamentos semânticos entre as palavras, e agrupamento de termos similares a uma palavra-chave que é utilizada como entrada. Sabendo-se que palavras tendem a ter o mesmo significado se compartilham contextos semelhantes (HARRIS, 1954), os termos similares podem ser encontrados comparando termos que compartilham contextos análogos. Essa identificação automática pode se dar sem o uso de um corpus (como no caso de tesauros construídos apenas pela tradução de outros tesauros), ou com o uso de corpus. Neste trabalho é utilizado um corpus para a criação do tesauro. Para a identificação dos melhores relacionamentos entre as palavras, diversos trabalhos vêm sendo propostos (JING e CROFT, 1994; GREFENSTETTE, 1994; KAJI et al.,

2000; CHEN e CHEN, 2007; ANIC e SEBASTIAN, 2008; BING-GENG, 2008; ITO et al., 2008; KONGTHON et al., 2008; YANG e POWERS, 2008). Porém, mesmo sendo a criação automática de tesauros um assunto antigo, cabe ressaltar que ainda é um desafio encontrar os melhores relacionamentos entre as palavras de forma que o tesauro contenha termos que melhor cubram o escopo dos documentos da coleção. No presente trabalho são comparadas duas técnicas para a geração de termos semelhantes ao termo-chave, uma baseada apenas em métodos estatísticos para a geração dos termos semelhantes ao termo conceito e a outra fazendo uso da análise sintática, obtido com um POS Tagging, para a identificação dos termos relacionados ao conceito. 3.1 Construção baseada em métodos estatísticos (KAJI et al, 2000) Técnicas puramente estatísticas são consideradas técnicas mais simples para a construção automática de tesauros orientados a domínio pois não utilizam nenhum conhecimento linguístico. Foram as primeiras para a geração automática de tesauros, descritas em Kaji et al. (2000). Kaji et al. (2000) apresentam a técnica para a geração automática de um tesauro de associação, isto é, um tesauro onde os termos são associados pelo grau de semelhança em um corpus. Nessa abordagem é utilizada a associação entre as palavras, também conhecida como associação paradigmática (RUGE, 1991 apud KAJI et al., 2000). Essa abordagem propõe que a similaridade semântica possa ser computada pelo entendimento lexical entre os vizinhos. Por exemplo, a similaridade semântica entre as palavras vermelho e azul pode ser definida pelo fato de que ambas coocorrem frequentemente com palavras como cor, flor, carro, escuro, claro, e assim por diante. Corpus Extração de termos Termos com frequências Análise de correlação Tesauros Extração de coocorrências Coocorrências dos termos FIGURA 1 Passos para a geração do tesauro baseado em métodos estatísticos. Fonte: Adaptado de Kaji et al. (2000).

A criação de tesauro proposta por Kaji et al. (2000) consiste na extração de termos, extração de coocorrências dos termos e análise de correlação, como mostrado na FIGURA 1. Na extração de termos, Kaji et al. (2000) fazem a obtenção de termos com mais de uma palavra (N-grama) e, para isso, é utilizado um método de desambiguação estrutural, selecionando termos compostos mais frequentes contidos dentro de termos compostos menos frequentes. Assim, se existe um termo composto CN que inclui dois termos compostos CN1 e CN2, e esses termos são incompatíveis entre si, então, se um dos dois candidatos é mais frequente, a estrutura de CN incluindo a estrutura desse candidato mais frequente é escolhida. Na extração de coocorrências é coletado qualquer par de termos semanticamente ou contextualmente associados, não importando o tipo de associação. Nesse trabalho foi utilizada uma técnica de janela para a extração. A técnica de janela extrai pares de termos que ocorrem juntos dentro de uma janela que vai se movendo através do texto. Essa janela é composta por um conjunto de sentenças de n palavras, sendo n um número previamente escolhido. O tamanho da janela pode ser escolhido arbitrariamente e, devido ao custo computacional, os autores escolheram janelas com 20 a 50 palavras. Esses pares de palavras ainda são filtrados para que não apareçam pares de substantivos compostos que já foram previamente extraídos, pois se eles fossem incluídos na extração de coocorrência, causariam redundância. Por fim, é feita a análise de correlação entre os termos e, para isso, os autores utilizam a Informação Mútua, descrita no trabalho de Church e Hanks (1990), que irá medir o grau de semelhança dos termos do corpus com termos conceitos, permitindo decidir se certo termo vai para o tesauro. 3.2 Construção baseada em métodos linguísticos (GREFENSTETTE, 1994) Para a criação de um tesauro baseado em métodos lingüísticos, optou-se pelo método desenvolvido por Grefenstette (1994), por ter sido um dos primeiros trabalhos a utilizar informações sintáticas para a construção de um tesauro. Grefenstette (1994) descreve a criação de um tesauro a partir de um corpus, porém utilizando informações sintáticas para obter a similaridade entre termos. Os termos mais semelhantes a um termo

conceito são agrupados formando o tesauro. A FIGURA 2 apresenta os passos para a criação do tesauro proposto por Grefenstette. Nesse trabalho, Grefenstette (1994) inicia o processo de construção do tesauro fazendo a tokenização do corpus, isto é, marcando as categorias morfossintáticas dos termos contidos no corpus, e também tratando a ambiguidade sintática desses termos. Corpus Tokenização Identificação de sintagmas Extração de contextos sintáticos Aplicação da métrica de similaridade Tesauro FIGURA 2 Passos para a geração do tesauro baseado em sintaxe. Fonte: Inspirado em Grefenstette (1994). Após, um analisador sintático faz a identificação de Sintagmas Nominais e Sintagmas Verbais. Esses sintagmas são analisados e deles se obtêm os contextos sintáticos dos termos. Entende-se por contexto sintático qualquer termo que estabeleça uma relação sintática com outro termo no corpus. Para substantivos, são identificadas as relações sintáticas em que adjetivos os modificam; em que outros substantivos os modificam; e em que são modificados por outros substantivos com o uso de uma preposição. Para verbos são identificadas relações em que o substantivo faz o papel de sujeito, de objeto direto e de objeto indireto. Por fim, é utilizada uma variante da medida de Jaccard (TANIMOTO, 1958 apud GREFENSTETTE, 1994) que utiliza pesos associados aos contextos sintáticos. As duplas de termos mais similares, isto é, com uma medida de similaridade mais alta, formarão o conjunto de termos associados a determinado termo-chave. 4. Protótipo para a realização do experimento O sistema apresentado nesta seção foi projetado para fazer a criação de dois tipos de tesauros. O primeiro deles é o tesauro gerado apenas com a utilização de métodos estatísticos e foi baseado em Kaji et al. (2000). O outro tesauro é gerado com a adição de métodos linguísticos e foi baseado em Grefenstette (1994). O presente trabalho não visa a comparação da identificação de termos compostos, portanto esses termos foram inicialmente identificados no texto. Para a identificação dos n-gramas, foi feita a extração por padrões, isto é, a partir de um corpus previamente anotado com as categorias gramaticais são extraídos termos que seguem padrões pré-determinados. Para isso, procura-se no corpus por padrões como o

mostrado na TABELA 1, onde A refere-se a um adjetivo, P a uma preposição e N a um substantivo. TABELA 1. Padrões para a identificação de termos Padrão Exemplo A N linear function N N regression coefficients A A N Gaussian random variable A N N Cumulative distribution function N A N Mean square error N N N Class probability function N P N Degrees of freedom Fonte: Adaptado de Manning (1999). Após a identificação dos n-gramas, foi feito o processo de criação automática dos tesauros. A arquitetura do sistema para a criação dos mesmos pode ser vista na FIGURA 3. Limpeza do corpus Extração de termos Análise de correlação Tesauro Corpus Stoplist Ontologia Tokenização e POS Tagger Extração de contextos sintáticos FIGURA 3. Arquitetura do sistema para construção de tesauros Aplicação da métrica de similaridade Tesauro Para a construção do tesauro baseado em métodos estatísticos, inicialmente foi feita a limpeza do corpus, no qual foram retirados caracteres especiais e também a normalização dos termos, deixando-os em letras minúsculas, não diferenciando mais termos com letras maiúsculas (caso de termos que iniciavam frases) e termos em letras minúsculas. O próximo passo foi a extração de termos em janela e para isso, utilizou-se uma janela de tamanho 20, conforme descrito por Kaji et al. (2000). A seguir foram feitas as análises de correlação para termos descritos em uma ontologia do domínio legal, gerando assim um tesauro para cada conceito da ontologia. Para a construção do tesauro utilizando métodos linguísticos, seguiram-se basicamente os passos propostos por Grefenstette (1994). Assim, inicialmente foi feita a tokenização do corpus e a marcação das categorias gramaticais, bem como a marcação de sintagmas nominais e verbais utilizando um Part of Speech Tagger. Após foi feita a extração dos contextos sintáticos para os termos conceitos da ontologia e por fim, foi aplicada a

métrica de similaridade de Jaccard para medir a similaridade entre os contextos sintáticos. Os contextos sintáticos que tinham os maiores valores de similaridade se tornaram parte do tesauro. 5. Resultados No experimento realizado foram utilizados como entrada o corpus contendo cem documentos do domínio legal e uma lista contendo 56 termos, referentes aos conceitos de uma ontologia de domínio. O resultado obtido do experimento foi duas listas referentes aos tesauros gerados. Cada uma dessas listas é composta por cada palavrachave (referente a cada conceito da ontologia de domínio) seguida de n termos mais semelhantes a ela, organizados por ordem decrescente de similaridade. Para analisar o desempenho dos dois métodos de construção de tesauros, buscamos examinar os resultados obtidos no experimento. Para isso, comparamos inicialmente a quantidade de palavras-chave geradas em cada um dos tesauros. Dos 56 termos-chave contidos na lista de entrada do tesauro, foram encontrados 19 termos para o tesauro baseado em métodos estatísticos e 13 termos para o tesauro que utiliza recursos linguísticos. Porém como a ontologia utilizada foi construída manualmente e não a partir do corpus, procurou-se verificar quantos termos realmente existiam no corpus. Dos 56 termos existentes na lista referente aos conceitos da ontologia, 34 termos existem no corpus. Por questões de objetividade os termos que não foram encotrados no corpus foram descartados, não aplicando-se nenhum tipo de técnica, como stemming, para a verificação dos termos no corpus. Outra comparação realizada foi da quantidade de termos semelhantes encontrados para cada palavra-chave. Observou-se que, embora os tesauros gerados tenham uma média acima de cem termos relacionados, termos como credit_card_information tem um número bastante reduzido de termos semelhantes. No tesauro gerado com métodos estatísticos foram encontrados 7 termos semelhantes para essa palavra-chave, enquanto no tesauro que utiliza métodos linguísticos não foram encontrados termos semelhantes. Observando a quantidade de palavras-chave e a quantidade de termos semelhantes encontrados nos tesauros, podemos observar que a adição de recursos linguísticos na construção do tesauro pode diminuir a quantidade desses termos no tesauro gerado. Isso pode se dar pelo fato que embora o termo exista no corpus, ele não contenha uma

grande quantidade de relações sintáticas com outros termos do corpus, obtendo uma similaridade com outros termos muito próxima de zero, não entrando assim no tesauro. 6. Considerações finais e trabalhos futuros Neste artigo foi apresentada uma comparação entre dois métodos de construção automática de tesauros. Um dos métodos utiliza apenas cálculos estatísticos entre os termos para descobrir os termos que devem ser utilizados na construção do tesauro. O outro método faz uso além dos recursos estatísticos, também faz uso de conhecimento linguístico. Uma das vantagens de fazer a criação de tesauros baseados apenas em métodos estatísticos é a não necessidade de marcação sintática do corpus, tornando assim o processo mais rápido para geração dos termos relacionados. Por outro lado, essa técnica traz a inconveniência de existirem termos que não compartilham o mesmo contexto semântico da palavra-chave. Os tesauros gerados por métodos que utilizam uma marcação sintática, como o apresentado em (GREFENSTETTE, 1994), relacionam os termos semanticamente, extraindo os contextos sintáticos para cada termo. Esse relacionamento semântico melhora a qualidade dos termos evitando assim que se obtenham como termos semelhantes, preposições, verbos, artigos, etc. Porém, uma desvantagem ao utilizar a técnica proposta por Grefenstette é a necessidade da marcação com categorias morfossintáticas e posteriormente a separação em sintagmas nominais e verbais. Como continuação deste trabalho, ainda pretende-se criar tesauros que utilizem outras técnicas estatísticas durante o processo de geração dos termos similares, verificando assim a melhoria dos tesauros. Essas criações podem utilizar técnicas como a Análise Semântica Latente (do inglês Latent Semantic Analysis, ou LSA) ou ainda a Análise Semântica Latente Probabilística (do inglês Probabilistic Latent Semantic Analysis, ou PLSA). 7. Agradecimentos O presente trabalho foi alcançado em cooperação com a Hewlett-Packard Brasil Ltda. e com recursos provenientes da Lei de Informática (Lei nº 8.248, de 1991).

Referências ANICK, V.M.P.; SEBASTIAN, S. Similar term discovery using web search. Language Resources and Evaluation Conference LREC 08, 2008. BING-GENG, H. The Architecture and Algorithms of Retrieval Thesaurus on Web, In: Proceedings of the International Conference on Computer Science and Software Engineering, 2008, vol. 4, pp. 448-450. BRUCKSCHEN M.; NORTHFLEET, C.; SILVA, D. M.; BRIDI, P.; GRANADA, R.; VIEIRA, R.; RAO, P.; SANDER, T. Named entity recognition in the legal domain for ontology population. In LREC 2010, 2010, pp. 16-21. CHEN, L.; CHEN, S. A New Approach for Automatic Thesaurus Construction and Query Expansion for Document Retrieval. International Journal of Information and Management Sciences, 2007, vol. 18, n. 4, 299 p. CHURCH, K.W.; HANKS, P. Word association norms, mutual information, and lexicography. Computational Linguistics, 1990, vol. 16 pp. 22-29. FREITAS, K. F.; CAMPOS, M. L. M.; CAMPOS, M. L. A.; CAMPOS, L. M. Tesauro como base terminológica para a elaboração de ontologia de domínio: uma aplicação no domínio do Folclore e Cultura Popular. In: Seminário de Pesquisa em Ontologia no Brasil, 2008, Niterói. Anais do Seminário de Pesquisa em Ontologia no Brasil, 2008. GREFENSTETTE, G. Automatic thesaurus generation from raw text using knowledge-poor techniques. Making sense of Words. 9th Annual Conference of the UW Centre for the New OED and text Research, 1993. GREFENSTETTE, G. Explorations in automatic thesaurus discovery. Kluwer Academic Publishers Norwell, 1994, 306 p. HARRIS, Z. S. Distributional structure. Word, 1954, v. 10, n. 23, pp. 146,162. ITO, M.; NAKAYAMA, K.; HARA, T.; NISHIO, S. Association thesaurus construction methods based on link cooccurrence analysis for wikipedia. In: CIKM '08: Proceedings of the 17th ACM Conference on Information and Knowledge management, 2008, pp. 817-826, New York, NY, USA. JING, Y.; CROFT, W.B. An association thesaurus for information retrieval. Proceedings of RIAO, 1994, v. 94, pp. 146-160. KAJI, H.; MORIMOTO, Y.; AIZONO, T.; YAMASAKI, N. Corpus dependent association thesauri for information retrieval. In: Proceedings of the 18th Conference on Computational Linguistics, 2000, pp. 404-410. KONGTHON, A.; HARUECHAIYASAK, C.; THAIPRAYOON, S. Constructing term thesaurus using text association rule mining. 5th International Conference on Electrical Engineering/Electronics, Computer, Telecommunications and Information Technology, 2008, vol. 1. LAME, G; DESPRÈS, S. Updating ontologies in the legal domain. In Proceedings of the 10th international Conference on Artificial intelligence and Law (Bologna, Italy, June 06-11, 2005). ICAIL '05. ACM, New York, NY, 155-162. DOI= http://doi.acm.org/10.1145/1165485.1165509. LENCI, A.; MONTEMAGNI, S.; PIRRELLI, V.; VENTURI, G. Ontology learning from Italian legal texts. In Proceeding of the 2009 Conference on Law, ontologies and the Semantic Web, Eds. Frontiers in Artificial Intelligence and Applications, 2009, vol. 188. IOS Press, Amsterdam, The Netherlands, 75-94. MANNING, C.D.; SCHUTZE H. Foundations of statistical natural language processing. MIT Press, 1999. RUGE, G. Experiments on linguistically based term associations. In RIAO, 1991, pp. 528-546. TANIMOTO, T. T. An elementary mathematical theory of classification. Technical report, 1958, IBM Research. WILKS, Y.A.; SLATOR, B.M.; GUTHRIE, L.M.. Electric words: dictionaries, computers, and meanings. MIT Press Cambridge, 1996. YANG, D.; POWERS, D.M.W. Automatic thesaurus construction. In: ACSC '08: Proceedings of the 31st Australasian conference on Computer science, 2008, vol. 74, pp. 147-156.