Classicação de Relações Semânticas Abertas Baseada em Similaridade de Estruturas Gramaticais na Língua Portuguesa. Erick Nilsen Pereira de Souza

Transcrição

1 Classicação de Relações Semânticas Abertas Baseada em Similaridade de Estruturas Gramaticais na Língua Portuguesa Erick Nilsen Pereira de Souza Dissertação apresentada ao Programa de Pós-graduação em Ciência da Computação da Universidade Federal da Bahia para obtenção do título de Mestre em Ciência da Computação Programa: Mestrado Multi-institucional em Ciência da Computação - UFBA/UEFS Orientador: Prof a. Dr a. Daniela Barreiro Claro Durante o desenvolvimento deste trabalho o autor recebeu parcialmente auxílio nanceiro da FAPESB Salvador, julho de 2014

2 Classicação de Relações Semânticas Abertas Baseada em Similaridade de Estruturas Gramaticais na Língua Portuguesa Esta versão da dissertação contém as correções e alterações sugeridas pela Comissão Julgadora durante a defesa da versão original do trabalho, realizada em 22 de julho de Comissão Julgadora: Prof a. Dr a. Daniela Barreiro Claro (orientadora) - UFBA Prof a. Dr a. Laís do Nascimento Salvador - UFBA Prof. Dr. Frederico Luiz Gonçalves de Freitas - UFPE

3 Como regra geral, o homem mais bem-sucedido é aquele que dispõe das melhores informações. (Benjamin Disraeli). Nenhuma grande descoberta foi feita jamais sem um palpite ousado. (Isaac Newton) i

4 Agradecimentos Apoiar-se em ombros de gigantes é considerada por muitos uma das premissas losócas mais importantes da ciência. Portanto, agradeço a todos os que compartilharam seus conhecimentos e descobertas através de livros, artigos cientícos e ferramentas computacionais que tratam das áreas de Processamento de Linguagem Natural, Extração da Informação e Teoria dos Grafos, contribuições valiosas e indispensáveis à realização deste trabalho. Agradeço à professora, orientadora e amiga Daniela Claro, não apenas pela conança e oportunidade de trabalhar ao seu lado, mas também pelo seu imenso entusiasmo, exemplo de comprometimento e excelência, que tanto me motivaram ao longo desta jornada. À FAPESB pelo auxílio nanceiro durante o primeiro ano desta pesquisa. A todos os que ajudaram a construir o presente trabalho com enriquecedoras discussões, tanto nos congressos, quanto nas reuniões do grupo FORMAS. Em especial, agradeço aos membros da banca de qualicação do MMCC, professoras Vaninha Vieira e Christina von Flach, pelas valiosas críticas e sugestões. Aos professores do MMCC, Roberto Bittencourt e Aline Andrade, por proporcionarem em suas disciplinas um ambiente de construção de conhecimento que permitiu abrir minha mente a novas ideias. Aos professores da graduação em Ciência da Computação da UFBA, Cláudia Gama e Flávio Assis, que contribuíram muito para a minha formação acadêmica básica. Por m, mas nunca menos importante, agradeço aos amigos e familiares, principalmente a minha mãe Silene e minha avó Maria, que sempre apoiaram meus projetos de forma incondicional. ii

5 Resumo SOUZA, E. N. P. de Classicação de Relações Semânticas Abertas Baseada em Similaridade de Estruturas Gramaticais na Língua Portuguesa. Dissertação - Departamento de Ciência da Computação, Instituto de Matemática, Universidade Federal da Bahia, Salvador, A Extração de Relações (ER) é uma tarefa da Extração da Informação (EI) responsável pela descoberta de relacionamentos semânticos entre conceitos em textos não estruturados. Quando a extração não é limitada por um conjunto predenido de relações, a ER é dita Aberta (Open Relation Extraction), cujo principal desao consiste em reduzir a proporção de extrações inválidas geradas pelos métodos que tratam desta tarefa. As soluções atuais, baseadas em aprendizado sobre um conjunto de features linguísticas especícas, embora consigam eliminar grande parte das extrações inválidas, possuem como desvantagem a alta dependência do idioma-alvo. Tal dependência decorre da diculdade inerente à determinação do conjunto de features mais representativo para o problema, considerando as peculiaridades de cada língua. Soluções deste tipo necessitam de bases de treinamento extensas, geralmente produzidas com auxílio de conhecimento linguístico especializado, recursos comuns na Língua Inglesa, mas inexistentes em outros idiomas. Com o objetivo de facilitar a aplicação da tarefa de ER Abertas a textos redigidos em outras línguas, é proposto um método para classicação de relações baseado em similaridade de estruturas gramaticais, que constrói modelos a partir das estruturas morfológicas contidas nas extrações, com a nalidade de identicar padrões de similaridade que permitam distinguir relações válidas e inválidas, através da aplicação de algoritmos de detecção de isomorsmo em subgrafos. Os resultados obtidos neste trabalho corroboram a hipótese de que a similaridade entre as estruturas gramaticais das relações pode ser utilizada para reduzir a quantidade de extrações inválidas, a partir de bases de exemplos com número reduzido de instâncias. Com isso, o esforço de classicação pode ser minimizado através da substituição de conjuntos de treinamento baseados em features por conjuntos de exemplos com custo de construção inferior. Em particular, o Português do Brasil foi escolhido para a aplicação e validação da abordagem proposta, uma vez que constitui um dos vários idiomas que carecem deste tipo de recurso, sendo a abordagem precursora na extração de relações semânticas de domínio não limitado da língua. Para tanto, foi desenvolvido um modelo de extração e classicação de relações abertas baseado em padrões gramaticais adaptados para a Língua Portuguesa, a partir do qual é possível comparar a qualidade de classicação do método proposto com as principais abordagens baseadas em features. Resultados experimentais apresentam um aumento na qualidade de classicação em relação aos métodos do estado da arte desta categoria, como o ReVerb [FSE11] e o WOE [WW10]. Palavras-chave: extração da informação, isomorsmo em subgrafos, extração de relações abertas. iii

6 Abstract SOUZA, E. N. P. de Classication of Open Relation Extraction Using Similarity of Grammatical Structures in Portuguese. Dissertation - Department of Computer Science, Institute of Mathematics, Federal University of Bahia, Salvador, Relation Extraction (RE) is a task of Information Extraction (IE) responsible for the discovery of semantic relationships between concepts in unstructured text. When the extraction is not limited to a predened set of relations, the task is called Open Relation Extraction, whose main challenge is to reduce the proportion of invalid extractions generated by methods that handle this task. Current methods based on a set of specic machine learning features eliminate much of the inconsistent and incomplete extractions. However, these solutions have the disadvantage of being highly languagedependent. This dependence arises from the diculty in nding the most representative set of features to the Open RE problem, considering the peculiarities of each language. These solutions require extensive training bases, usually produced with the aid of specialized linguistic knowledge. Furthermore, although the linguistic knowledge resources are common in English, they are scarce in most languages. In order to facilitate the implementation of the Open RE task in texts written in other languages, we propose a method for classifying relationships based on similarity of grammatical structures, which builds models from morphological structures contained in the extraction, with the purpose of identify patterns of similarity that can be used to distinguish valid and invalid relationships, through the application of algorithms for detection of isomorphism in subgraphs. The results of this study support the hypothesis that the similarity between the grammatical structures of relations can be used to reduce the amount of invalid extractions from labeled example sets with a small number of instances. Thus, the eort of classication can be minimized by replacing feature training sets by sample sets with lower building cost. In particular, the Portuguese of Brazil was chosen for the implementation and validation of the proposed approach, since it is one of several languages that lack this type of resource, being the precursor approach in extracting open semantic relationships of this language. Thereby, a extraction and classication model of open relationships based on grammatical patterns adapted to Portuguese was developed, from which it is possible to compare the quality of the proposed classication method with the main approaches based on features. Experimental results show an increase in the quality of classication in relation to the state of the art methods in this category, such as ReVerb [FSE11] e o WOE [WW10]. Keywords: information extraction, subgraph-isomorsm, open relation extraction. iv

7 Sumário Lista de Abreviaturas Lista de Termos Lista de Símbolos Lista de Figuras Lista de Tabelas Lista de Algoritmos vii viii ix x xii xiii 1 Introdução Motivação Objetivo Contribuições Publicações Organização do Trabalho I Fundamentação Teórica 6 2 Mineração de Textos Arquitetura Tarefas de Pré-procesamento Recuperação da Informação Extração da Informação Extração de Relações Classicações Classicação por Técnica Aplicada Classicação por Tipo de Relação Extraída Extração de Relações Abertas O Estado da Arte O Problema de Classicação de Relações Abertas Trabalhos em Língua Portuguesa v

8 SUMÁRIO vi 4 Similaridade em Grafos Isomorsmo em Subgrafos O Problema do Subgrafo Comum Máximo (MCS) Algoritmos Exatos Similaridade entre Rótulos Aplicações II Contribuições da Dissertação 33 5 Solução Proposta Modelo de Extração e Classicação de Relações Abertas Extração de Relações Abertas em Português Avaliação de Cobertura Modelo de Estruturas Gramaticais Modelagem em Grafos Similaridade de Estruturas Gramaticais (SEG) Similaridade Estrutural Similaridade de Rótulos Cálculo de Similaridade Classicação por Similaridade de Estruturas Gramaticais (SEG) Validação da Proposta Metodologia Ferramentas e Recursos Utilizados Experimentos Experimento 1: representatividade das features Experimento 2: limiar ξ s Experimento 3: avaliação de classicação Experimento 4: avaliação de tempo Análise dos Resultados Conclusões Trabalhos Futuros A Algoritmos Auxiliares 64 B Complexidade Assintótica dos Algoritmos Propostos 66 Referências Bibliográcas 69

9 Lista de Abreviaturas AUC CETENFolha CRF DLS EI ER FN HMM LCS LSI MCS MCCES MCCIS MCES MCIS MT Open IE Open RE PLN POS REM ROC SEG SVD SVM VSM XML Area Under Curve Corpus de Extratos de Textos Eletrônicos NILC/Folha de S. Paulo Conditional Random Field Desambiguação Lexical de Sentido Extração da Informação Extração de Relações Frase Nominal Hidden Markov Model (Modelo Oculto de Markov) Least Common Superconcept Latent Semantic Indexing Maximum Common Subgraph-isomorsm Maximum Common Connected Edge Subgraph Maximum Common Connected Induced Subgraph Maximum Common Edge Subgraph Maximum Common Induced Subgraph Mineração de Textos Open Information Extraction Open Relation Extraction (Extração de Relações Abertas) Processamento de Linguagem Natural Part-Of-Speech Reconhecimento de Entidades Mencionadas Receiver Operating Characteristic (Característica de Operação do Receptor) Similaridade de Estruturas Gramaticais Singular Value Decomposition (Decomposição em Valores Singulares) Support Vector Machines (Máquinas de Vetores de Suporte) Vector Space Model extensible Markup Language (Linguagem de Marcação Extensível) vii

10 Lista de Termos Cobertura Corpus CRF Curva ROC Feature Frase Nominal Léxico Computacional Medida-F Precisão Token Neste trabalho, corresponde à fração de relações classicadas dentre todas as relações existentes no corpus. Conjunto de textos escritos em uma determinada língua que serve como base de análise. Modelo probabilístico usado para predição de sequências. Gráco de sensibilidade (ou taxa de verdadeiros positivos) versus taxa de falsos positivos. Qualquer característica associada a uma palavra ou grupo de palavras, direta ou indiretamente. Grupo de vocábulos que expressam uma ideia, sem a presença de verbos implícitos ou explícitos. Acervo de palavras de um determinado idioma agrupadas semanticamente e acessíveis eletronicamente. Medida harmônica entre precisão e cobertura. Neste trabalho, corresponde à fração de classicações corretas dentre todas as relações classicadas. Menor unidade textual tratável. viii

11 Lista de Símbolos ξ s k p M ψ D H Limiar de similaridade Fator de ponderação na matriz de correlação entre classes morfológicas Matriz de correlação entre classes morfológicas Função que retorna o rótulo de um vértice contido no clique máximo Profundidade de um conceito em uma taxonomia Profundidade de uma taxonomia ix

12 Lista de Figuras 2.1 Arquitetura de um sistema genérico de MT (modicado de [FS07]) Pré-processamento na MT (modicado de [FS07]) Representação textual no VSM [TP10] Decomposição de matrizes com SVD [LPD12] Representação geométrica de um modelo SVD [DDF + 90] Representação de informações extraídas de um texto não estruturado [DC11] Exemplo de REM [DC11] Classicação por tipo de método Classicação por tipo de relação Restrição sintática no Reverb [FSE11] Diferenças entre MCES, MCIS, MCCES e MCCIS [RW02] Produto modular [BM93] Exemplo de matriz gerada pelo algoritmo de Wagner-Fisher [BK73] Hierarquia de classicação dos seres vivos [Fel98] Exemplo de MCES entre estruturas moleculares [BM96] Detecção de subcircuitos [EZ83] Representação em Netlist (b) e em grafo (c) de uma célula RAM (a) [Lin98b] Modelo de Extração e Classicação de Relações Abertas Restrição sintática adaptada para a Língua Portuguesa Estruturas gramaticais das relações válidas (Tabela 5.2) após aplicação do Algoritmo Estruturas gramaticais das relações inválidas (Tabela 5.3) após aplicação do Algoritmo Interface para ajuste manual das bases de treinamento e de exemplos Arquitetura do protótipo para a realização dos experimentos Representatividade das features no conjunto de dados Avaliação dos conjuntos de features Variação da Medida-F e Área ROC em função da variação do limiar ξ s Variação da ponderação entre Medida-F e Área ROC em função da variação do limiar ξ s Avaliação da medida-f em função da quantidade de relações classicadas Curvas ROC da classicação baseada em features x

13 LISTA DE FIGURAS xi 6.9 Análise ROC do método SEG Comparativo entre as áreas médias das curvas ROC dos classicadores Tempo de construção dos modelos Tempo total de experimentação

14 Lista de Tabelas 2.1 Descrições de serviços duplicados Exemplos de relações especícas Exemplos de extrações inválidas Exemplos de padrões morfológicos possíveis a partir da expressão regular da Figura Relações válidas obtidas a partir da restrição sintática da Figura Relações inválidas obtidas a partir da restrição sintática da Figura Matriz de correlação entre classes morfológicas Similaridade de estruturas gramaticais com todas as combinações entre G 1, G 2, G 3 e G Features utilizadas para a base de treinamento em Língua Portuguesa Conjuntos de features Resultados médios obtidos por validação cruzada com 10 folds Avaliação de tempo B.1 Complexidade dos métodos auxiliares do Algoritmo B.2 Complexidade detalhada do Algoritmo B.3 Complexidade dos métodos auxiliares do Algoritmo A B.4 Complexidade detalhada do Algoritmo A B.5 Complexidade dos métodos auxiliares do Algoritmo B.6 Complexidade detalhada do Algoritmo B.7 Complexidade dos métodos auxiliares do Algoritmo B.8 Complexidade detalhada do Algoritmo xii

15 Lista de Algoritmos 4.1 Retorna um conjunto R que representa o clique máximo em um grafo G Constrói um grafo de estruturas morfológicas a partir do conjunto de classes de uma sentença Gera uma matriz de correlações entre classes morfológicas a partir do dicionário construído no Algoritmo A.1 (Apêndice A) Classica uma extração com base em similaridade de estruturas gramaticais A.1 Constrói um dicionário de palavras associadas a classes morfológicas a partir de uma lista de sentenças A.2 Exemplo de algoritmo necessário para extrair uma feature especíca (F 11, denida na Tabela 6.1) a partir de uma lista de sentenças, com a nalidade de compor o conjunto de treinamento utilizado nos algoritmos de aprendizado para classicação de relações abertas xiii

16 Capítulo 1 Introdução A crescente disponibilização de dados na Web tem possibilitado um intenso intercâmbio de informações a nível global. Estima-se que mais de 2,4 bilhões de pessoas acessaram a Internet em 2013 e cerca de 140 mil novos sites surgem a cada dia [Val13]. Segundo [FSE11], mais de 80% dos dados gerados em redes sociais, portais corporativos, trocas de s, blogs e sites de notícias são compostos por textos. Inevitavelmente, a maior parte deste grande volume de informações é irrelevante aos interesses especícos de cada usuário, o que torna a ltragem de conteúdos um requisito cada vez mais necessário. Entretanto, a seleção de conteúdo relevante pressupõe um certo nível de conhecimento semântico sobre a totalidade ou grande parte da informação disponível, análise que se congura impossível para um ser humano, dada a quantidade e dispersão da informação. Por conta disso, a interpretação automática deste grande volume de dados tornou-se foco de pesquisas em áreas importantes da Ciência da Computação, tais como a Web Semântica e a Mineração de Textos. A Mineração de Textos (MT), área que trata da descoberta de conhecimento em dados não estruturados, tem o objetivo de identicar determinados padrões, que permitem obter informações úteis contidas em conjuntos de documentos [FS07]. Como a MT não pressupõe a existência de informações sobre os dados (metadados), o texto original precisa ser segmentado e etiquetado na etapa de pré-processamento, isto é, transformado para um formato canônico estruturado. Esta etapa possibilita que a informação estruturada sirva como entrada das operações de mineração, responsáveis pela identicação de padrões relevantes nos dados. Nesse cenário, a qualidade das anotações semânticas realizadas na etapa de pré-processamento é determinante para a ecácia do processo de descoberta do conhecimento na MT, já que permite identicar os conceitos e relacionamentos mais importantes contidos nos documentos. Como os recursos humanos disponíveis são caros e insucientes para produzir manualmente as anotações necessárias, a Extração da Informação (EI) [MRS08] tem sido cada vez mais estudada e aplicada no contexto do processamento linguístico, pois reúne um conjunto de tarefas dedicadas à etiquetação automática de informação estruturada especíca a partir de dados não estruturados. As principais tarefas da EI são o Reconhecimento de Entidades Mencionadas (REM) [EBP08] e a Extração de Relações (ER) [ZAR03]. O objetivo do REM é identicar e classicar os nomes das entidades, tais como pessoas, organizações, locais, marcos de tempo e valores, sendo a ER responsável pela identicação de relações semânticas entre essas entidades. Porém, as principais soluções para extração de relações entre entidades são limitadas por um conjunto predenido de relações possíveis, o que reduz a aplicabilidade dos métodos a domínios e idiomas especícos. Um exemplo de aplicação de EI onde a limitação de domínio e idioma constitui um fator proibitivo é no REM aplicado à computação forense. Autores em [DC11] armam que a identicação de nomes de pessoas e organizações em mídias apreendidas pode reduzir em mais de 90% a quantidade de arquivos analisados manualmente por peritos criminais. Em aplicações deste tipo, é comum que a coleção de documentos contenha vocábulos de domínios e idiomas distintos, pois uma mesma investigação pode envolver organizações com atuações diferentes (como uma clínica médica e um órgão público) em diversos países. Pelo mesmo motivo, o requisito de independência do domínio e 1

17 1.2 MOTIVAÇÃO 2 idioma se mantém na extração de relações entre as entidades identicadas nesses documentos, já que a natureza de uma relação depende da semântica que envolve as entidades. Por exemplo, é mais provável encontrar um relacionamento entre médico e paciente em um prontuário hospitalar do que em documentos de um processo licitatório. Os métodos tradicionais de ER não atendem aos novos requisitos oriundos da variedade linguística presente nesses dados, pois restringem as extrações a um conjunto nito de relações, com aplicabilidade limitada a determinados domínios e idiomas. Dessa maneira, expandir a cobertura desses métodos a domínios e idiomas diferentes implica na identicação manual de novas relações especícas, além de adaptações geralmente custosas, como adição de novos atributos em conjuntos de treinamento. Por conta disso, estudos recentes têm sido conduzidos com o intuito de extrair relações semânticas com vocabulário não-limitado a partir de corpora em larga escala, caracterizando a tarefa de Extração de Relações Abertas (do inglês, Open Relation Extraction [BE08]). Sendo assim, ao contrário dos métodos tradicionais, a ER Abertas pode revelar relacionamentos inesperados entre entidades contidas em texto não estruturado, já que a extração não é limitada por um conjunto predenido de relações. Um dos grandes desaos da ER Abertas consiste em mitigar a ambiguidade inerente à linguagem natural, responsável pelo excessivo número de extrações inválidas geradas pelos métodos atuais que tratam desta tarefa. Uma extração é denida como inválida se for incoerente e/ou incompleta [MSB + 12]. Quando a semântica do relacionamento entre as entidades, mesmo sendo completa, não condiz com a interpretação correta da sentença, a extração é dita incoerente. Já uma extração incompleta é caracterizada quando a interpretação da associação entre as entidades ca prejudicada pela ausência de termos que compõem a relação. De acordo com [ZAR03], a distinção automática entre sentenças válidas e inválidas pode ser modelada como um problema de classicação. Trabalhos em [BE08], [WW10] e [FSE11] aplicam algoritmos de aprendizado de máquina sobre features linguísticas extraídas das sentenças para elevar a precisão de classicação das relações. Uma das principais desvantagem dessas abordagens é a diculdade na seleção de features adequadas à tarefa. Além disso, o aprendizado baseado em features necessita de bases de treinamento relativamente grandes para gerar resultados satisfatórios. Recursos deste tipo são comuns na Língua Inglesa, mas escassos ou inexistentes na maioria dos idiomas, incluindo o Português do Brasil. Com o objetivo de facilitar a aplicação da tarefa de ER Abertas a textos redigidos em idiomas que carecem desses recursos linguísticos, é proposto um método para classicação de relações baseado em similaridade de estruturas gramaticais, que constrói modelos a partir das estruturas morfológicas contidas nas extrações, com a nalidade de identicar padrões de similaridade que permitam distinguir relações válidas e inválidas, através da aplicação de algoritmos de detecção de isomorsmo em subgrafos. Dessa maneira, a principal vantagem obtida com o modelo proposto, em relação a modelos de classicação do estado da arte, consiste na redução do esforço de adaptação para extrair relações abertas a partir de textos escritos em outros idiomas, através da substituição de conjuntos de treinamento baseados em features por conjuntos de exemplos com custo de construção inferior. 1.1 Motivação A identicação de relacionamentos semânticos entre entidades tem aplicações em diversas áreas, tais como na construção automática de ontologias [AMS05] e sistemas de respostas a perguntas [HG01]. Em particular, extrair relações semânticas abertas é de fundamental importância para a computação forense [EM11], já que permite encontrar automaticamente ligações entre entidades suspeitas em grandes quantidades de documentos, de forma independente do domínio. Estas informações são de grande relevância, pois podem revelar, em um curto espaço de tempo, relações suspeitas desconhecidas ou inesperadas dentro do contexto investigativo [EM11].

18 1.3 OBJETIVO Objetivo Uma das maiores diculdades da tarefa de ER Abertas consiste em diferenciar relações válidas e inválidas, já que a ambiguidade inerente à linguagem natural compromete a qualidade dos métodos atuais. Diante disso, recursos linguísticos e abordagens cada vez mais sosticadas têm sido desenvolvidos para melhorar a classicação de relações abertas, tais como léxicos computacionais e bases de treinamento baseadas em features. Por outro lado, esses recursos e abordagens são construídos com foco em idiomas especícos (sobretudo em Inglês), dicultando a aplicação da tarefa a textos escritos em outros idiomas, como por exemplo a Língua Portuguesa. Nesse cenário, pretende-se minimizar uma limitação importante dos métodos de classicação baseados em features, materializada no alto custo de geração de bases de treinamento adequadas à tarefa, ocasionada tanto pela necessidade de um número signicativo de instâncias, quanto pela diculdade na escolha de um conjunto representativo de atributos. Para tanto, é desenvolvido um algoritmo de classicação de relações abertas baseado em similaridade de estruturas gramaticais, que constrói modelos a partir das estruturas morfológicas contidas nas extrações, com a nalidade de identicar padrões de similaridade que permitam distinguir relações válidas e inválidas, através da aplicação de algoritmos de detecção de isomorsmo em subgrafos. Dessa maneira, pretende-se minimizar o esforço de classicação de relações abertas através da substituição de conjuntos de treinamento baseados em features por conjuntos de exemplos com custo de construção inferior, com o objetivo de facilitar a aplicação da tarefa de ER Abertas a textos redigidos em outras línguas. 1.3 Contribuições As principais contribuições obtidas com o presente trabalho são as seguintes: Analise experimental das diculdades inerentes à classicação baseada em features de treinamento na tarefa de ER Abertas, com o objetivo de embasar novas soluções capazes de reduzir a dependência do idioma nesta tarefa; Proposta de um modelo de extração e classicação de relações abertas voltado para o Português do Brasil, sendo a abordagem precursora na extração de relações semânticas de domínio não limitado da língua; Construção de uma abordagem de classicação de relações abertas capaz de reduzir o custo e elevar a taxa de acertos em relação às abordagens atuais baseadas em features. Esta abordagem de classicação engloba as seguintes propostas: a) modelagem das estruturas gramaticais das relações em grafos; b) desenvolvimento de algoritmos que permitem estimar a similaridade entre os modelos gerados e c) desenvolvimento de um algoritmo de classicação baseado em similaridade de estruturas gramaticais. Validação da abordagem proposta em um corpus de textos jornalísticos escritos em Português do Brasil. Embora tenha sido validada em um corpus redigido em uma língua especíca, a solução proposta pode ser incorporada mais facilmente a métodos de ER Abertas aplicados a outros idiomas, uma vez que não utiliza léxicos ou outras bases de conhecimento de alto custo voltadas para idiomas especícos, apenas uma pequena base com exemplos de extrações morfologicamente etiquetadas e classicadas; Análise experimental comparativa entre a abordagem proposta e os métodos de classicação atuais baseados em features linguísticas; Disponibilização de um protótipo representativo do modelo de extração e classicação de relações abertas proposto, desenvolvido com o objetivo de possibilitar a realização dos experimentos do presente trabalho. Esse protótipo contribuirá para a realização de futuros experimentos, bem como poderá ser utilizado como linha de base para o desenvolvimento de um

19 1.3 CONTRIBUIÇÕES 4 framework de ER Abertas envolvendo outras tarefas de processamento linguístico associadas ao problema, como a identicação de frases nominais e correferências Publicações Algumas das principais contribuições desta dissertação, além de outros resultados intermediários ou correlatos obtidos, foram publicados em workshops, simpósios e conferências da área. Estas publicações são listadas a seguir: E. Souza and D. Claro. Evaluation of semantic similarity in wsd: An analysis to incorporate it into the association of terms. WebMedia'12, October 15-28, São Paulo/SP, Brazil, 2012 [SC12]. Neste trabalho foi possível avaliar a aplicação da similaridade semântica em problemas de processamento linguístico, mais precisamente na desambiguação lexical de sentido (DLS). Este resultado parcial permitiu considerar uma possível incorporação da similaridade na extração de relações entre conceitos em documentos. Notou-se que a similaridade foi capaz de exibilizar a tarefa de DLS, mas a dependência do idioma limitou a validação da proposta à Língua Inglesa, uma vez que a estrutura da WordNet 1 [Fel98] serviu de base para estimar a correlação entre conceitos. E. Souza e D. Claro. Detecção Multilíngue de Serviços Web Duplicados Baseada na Similaridade Textual, SBSI'14, de maio, Londrina/PR, Brasil, 2014 [SC14]. Diante da limitação identicada na solução do artigo anterior, estudos em métodos estatísticos foram conduzidos para viabilizar uma solução independente de idioma e domínio para o cálculo de similaridade em textos. Os resultados obtidos neste trabalho viabilizaram a proposta de um modelo multilíngue para agrupamento de serviços web similares, considerando apenas as descrições dos serviços em linguagem natural. O modelo foi testado com o método Latent Semantic Indexing (LSI), utilizando três medidas de similaridade em vetores de texto. Adicionalmente, os trabalhos mais recentes desenvolvidos nesta pesquisa encontram-se em andamento: E. Souza e D. Claro. Extração de Relações Semânticas utilizando Features Diferenciadas para Português do Brasil, submetido à 29 a edição do Simpósio Brasileiro de Banco de Dados (SBBD), encontra-se em fase avaliação pelos revisores do evento. Este trabalho analisa as diculdades da classicação baseada em features na extração de relações semânticas abertas em Português do Brasil, com o objetivo de embasar novas soluções capazes de reduzir a dependência do idioma nesta tarefa. Diante da análise de técnicas de similaridade textual aplicadas a problemas de evolução de software, notou-se que os rankings gerados pelos métodos de processamento linguístico na detecção de bug reports duplicados não eram avaliados de forma adequada pelos principais trabalhos do estado da arte. Por conta disso, foi desenvolvido um estudo que resultou na escrita do artigo intitulado New Approach for the Evaluation of Techniques for the Detection of Duplicate Bug Reports, que está em fase nal de revisão pelos autores e deverá ser submetido ao Journal of the American Society for Information Science and Technology. Neste artigo é proposta uma nova medida de avaliação para detecção de bug reports duplicados, que poderá ser utilizada na avaliação de outros métodos de processamento linguístico geradores de rankings. O último trabalho desenvolvido ao longo desta pesquisa de mestrado descreve os resultados obtidos a partir da incorporação da similaridade de estruturas gramaticais na classicação 1 A WordNet corresponde a uma taxonomia onde palavras na língua inglesa são relacionadas a um conjunto de sinônimos (synsets), classes gramaticais, sentidos possíveis e exemplos de utilização, que serve como base de conhecimento em diversas aplicações de processamento linguístico.

20 1.4 ORGANIZAÇÃO DO TRABALHO 5 de relações abertas, denominado Incorporation of Grammatical Structures Similarity in the Open RE Classication Problem. Atualmente este artigo encontra-se em fase de revisão pelos autores e deverá ser submetido ao IEEE Transactions on Knowledge and Data Engineering. 1.4 Organização do Trabalho O restante deste documento está estruturado como se segue. No Capítulo 2 é fornecida uma visão geral da Mineração de Textos, onde os principais conceitos e componentes arquiteturais são descritos, com o objetivo de posicionar a tarefa de Extração de Relações nesta área de pesquisa. O Capítulo 3 apresenta a tarefa de Extração de Relações e descreve dois tipos de categorização com base em diversos trabalhos pesquisados. Em seguida, uma categoria especíca desta tarefa, denominada Extração de Relações Abertas, é descrita com base nas principais soluções do estado da arte. Por m, o problema de classicação de relações abertas, foco deste trabalho, é denido e contextualizado. No Capítulo 4 são apresentados os conceitos e algoritmos relacionados ao cálculo de similaridade em grafos, bem como suas principais características e limitações. Em seguida, são descritos alguns trabalhos que utilizam a similaridade em grafos como estimativa de correlação entre modelos na resolução de problemas em diversas áreas. No Capítulo 5 é proposto um modelo para classicação de relações abertas baseado em similaridade de estruturas gramaticais. Adicionalmente, são discutidos os principais problemas associados ao domínio da solução, tais como a natureza intratável dos algoritmos exatos de isomorsmo em subgrafos e a inexistência de similaridade semântica entre strings de classes morfológicas da Língua Portuguesa, necessárias para viabilizar o desenvolvimento das abordagens de similaridade propostas. O Capítulo 6 trata da validação da proposta por meio de experimentos realizados em um conjunto representativo de dados. São delineados os métodos, ferramentas e recursos utilizados para a construção do protótipo que permite comparar o modelo proposto com abordagens de classicação de relações abertas do estado da arte, de acordo com a metodologia padrão descrita na literatura. Por m, o Capítulo 7 apresenta as considerações nais deste trabalho, enfatizando os resultados obtidos e as contribuições desta pesquisa para o cenário de EI brasileiro e internacional, além de sugestões e apontamentos para trabalhos futuros.

21 Parte I Fundamentação Teórica 6

22 Capítulo 2 Mineração de Textos A evolução dos dispositivos de armazenamento e tráfego de dados digitais impulsionou a proliferação de documentos disponíveis na Web, em redes corporativas, computadores pessoais, dispositivos móveis, dentre outros [WIZD05]. Entretanto, a despeito do crescimento no volume de textos publicados nos últimos anos, a capacidade humana de interpretar informações permanece constante. Nesse sentido, tornar a linguagem natural intercambiável entre seres humanos e máquinas representa um requisito cada vez mais necessário em aplicações de processamento linguístico. Em outras palavras, ferramentas e métodos tem sido aplicados para extrair de textos não estruturados informações estruturadas com utilidades especícas. O problema de fornecer informação interpretável a partir de dados não estruturados consiste em objeto de pesquisa da Mineração de Textos (MT). Em [FS07], a MT é denida como um processo intensivo de descoberta de conhecimento, no qual um usuário interage com uma coleção de documentos através de um conjunto de ferramentas de análise. Assim, de forma semelhante à Mineração de Dados (MD), a MT busca identicar informação útil a partir da exploração de padrões relevantes. A diferença básica entre a MT e a MD reside na natureza dos dados explorados. Enquanto a MD trabalha sobre dados estruturados, obtidos em formato canônico, geralmente em tabelas de bancos de dados, a MT recebe como entrada coleções de documentos textuais não estruturados. Por conta disso, os sistemas de MT necessitam preprocessar os documentos textuais e transformálos para um formato estruturado intermediário. Para tanto, a MT explora técnicas e metodologias em diversas áreas de linguística computacional, como Recuperação da Informação (RI), Processamento de Linguagem Natural (PLN) e Extração da Informação (EI). A Extração de Relações (ER), foco principal deste trabalho, consiste em uma das tarefas de préprocessamento dependentes do problema, pertencentes à Extração da Informação (EI) [MRS08], cujo objetivo é identicar relações semânticas entre conceitos em texto não estruturado. Este capítulo tem como objetivo fornecer uma visão geral da MT, bem como posicionar a tarefa de ER nesta área de pesquisa. 2.1 Arquitetura A Figura 2.1 mostra a arquitetura de um sistema genérico de MT, dividido em quatro componentes principais: (i) tarefas de pré-processamento, (ii) operações de mineração, (iii) técnicas de renamento e (iv) camada de apresentação. Figura 2.1: Arquitetura de um sistema genérico de MT (modicado de [FS07]). 7

23 2.2 TAREFAS DE PRÉ-PROCESAMENTO 8 A etapa de pré-processamento inclui as rotinas que preparam os documentos para as tarefas de descoberta de conhecimento nos sistemas de MT, isto é, convertem os dados originais (textos não estruturados) em um formato canônico estruturado, através da identicação de conceitos (entidades) e seus relacionamentos. Em seguida, os dados transformados servem como entrada das operações de mineração, responsáveis pela descoberta de padrões através dos algoritmos de aprendizado de máquina. Os padrões mais comuns obtidos na MT são as regras de associação, geradas a partir de limiares pré-denidos de suporte e conança, conforme a frequência de co-ocorrência entre os conceitos. Formalmente, o suporte de um conjunto X, representado por SU P (X), consiste no percentual de documentos que incluem todos os elementos de X. Já a conança de uma regra do tipo X Y é determinada pelo percentual dos documentos que satisfazem a regra no universo dos documentos que contêm X [FS07]: CONF (X Y ) = SUP (X Y ) SUP (X) (2.1) Dessa forma, a descoberta de regras de associação consiste no problema de identicar todas as co-ocorrências que possuem suporte e conança superiores a limiares mínimos previamente estabelecidos. Como esses novos padrões podem conter informações redundantes, técnicas de renamento, também conhecidas como pós-processamento, são utilizadas para ltrar os resultados, além de ordenar e agrupar dados semelhantes, o que permite realizar otimizações na busca das informações a partir de grandes repositórios de documentos. Por m, a camada de apresentação oferece uma interface ao usuário, que inclui ferramentas de visualização e editores de consultas [WIZD05]. Para ilustrar as etapas da MT, supondo conjuntos de textos não estruturados relacionados ao domínio dos registros de ações terroristas, a etapa de pré-processamento pode ser utilizada para identicar entidades mencionadas do tipo pessoa (PES) e organização (ORG). Em seguida, algoritmos de associação da etapa de mineração são aplicados para encontrar padrões, tais como: 67% dos documentos que contém a entidade <PES>Osama Bin Laden</PES> também contém a entidade <ORG>Al Qaeda</ORG> e 12% de todos os documentos contém estas duas entidades. Diante disso, é gerada uma regra de associação do tipo Osama Bin Laden Al Qaeda, com conança de 67% e suporte de 12%. Em seguida, técnicas de renamento são utilizadas para eliminar regras redundantes (como Bin Laden Al Qaeda) e agrupar regras semelhantes (como Nassir Ali Al Qaeda), que podem ser visualizadas na camada de apresentação por meio de uma interface com o usuário, permitindo a realização de consultas e modicação de parâmetros utilizados na geração dos padrões. A seguir são descritas com mais detalhes as características do pré-procesamento da MT, etapa que contempla a tarefa de Extração de Relações (ER), objeto principal de estudo neste trabalho. 2.2 Tarefas de Pré-procesamento O pré-processamento, que consiste na preparação do texto original para as operações de descoberta de conhecimento, é tipicamente utilizado no agrupamento de documentos, segmentação de sentenças, identicação de conceitos, relações e correferências em texto não estruturado. Na Figura 2.2 é possível visualizar a taxonomia das tarefas de pré-processamento da MT, dividida em sub tarefas que podem ser agrupadas em três classes: processamento preparatório, tarefas de PLN de propósito geral e tarefas dependentes do problema [LE11].

24 2.2 TAREFAS DE PRÉ-PROCESAMENTO 9 Figura 2.2: Pré-processamento na MT (modicado de [FS07]). Devido à diversidade de formatos atualmente utilizados na publicação de documentos textuais, tais como pdf, doc, rtf e html, é necessário converter o documento-alvo do processamento para um formato inteligível às demais tarefas. Esta conversão é realizada no processamento preparatório, onde documentos em diferentes formatos são padronizados para um formato único mais aceito, como o xml. Em muitos casos, esse processo envolve a identicação de zonas textuais, como parágrafos, colunas ou tabelas, além de campos que podem ser identicados através de sua posição no documento, como o título e autores do texto. O Processamento de Linguagem Natural (PLN) de propósito geral inclui as tarefas de extração de tokens (tokenization), radicalização (stemming), etiquetação POS (Part-of-Speech), e análise sintática (syntactic parsing). A extração de tokens transforma uma sentença em um vetor de termos, eliminando os sinais de pontuação e caracteres especiais do texto. Apesar disso, existem termos obtidos nesse processo que são comuns a qualquer contexto, ou seja, não são semanticamente signicativos, tais como artigos, preposições e verbos de ligação. Termos com pouca informação semântica agregada são denominados stopwords e geralmente são eliminados do vetor, pois tendem a reduzir a capacidade dos métodos estatísticos de processamento linguístico em diferenciar contextos especícos, já que tais métodos trabalham com vetores de pesos baseados em frequência de palavras [EBP08]. Outra característica prejudicial aos métodos estatísticos decorre da derivação linguística referente ao processo natural de formação das palavras. Um tratamento possível para este problema consiste em identicar um radical comum, dentre um conjunto de palavras derivadas, para a obtenção da frequência adequada de determinado termo. Assim, supondo que as palavras casa, casarão e casebre sejam encontradas em um documento, em certas aplicações é preferível que o peso do radical cas seja reforçado, ao invés de considerá-las como palavras distintas. A identicação de um radical comum em um conjunto de palavras é realizada pela tarefa de radicalização (stemming), cujas soluções mais populares são as baseadas em remoção de suxos, como o algoritmo de Porter [Por80]. Para tanto, é aplicada uma abordagem iterativa utilizando um pequeno número de suxos e algumas regras sensíveis ao contexto. A etiquetação POS realiza anotações morfológicas nas palavras com base no contexto em que elas aparecem no texto, provendo informações a respeito do conteúdo semântico de cada palavra. As anotações mais comuns realizadas pelos etiquetadores POS identicam artigos, substantivos, verbos, adjetivos, preposições, valores numéricos e nomes próprios. Já a análise sintática inclui a identicação de dependências gramaticais nas sentenças, como as que existem entre o sujeito e o objeto, ou entre o os adjetivos e os substantivos que eles modicam. As dependências são tipicamente modeladas em um grafo acíclico dirigido (DAG - directed acyclic graph), com elementos sintáticos

25 2.2 TAREFAS DE PRÉ-PROCESAMENTO 10 representados por nós e suas dependências mapeados nas arestas [WF05]. Essas tarefas de PLN são ditas de propósito geral porque suas saídas são úteis a vários problemas de processamento linguístico. Por outro lado, existe um conjunto de tarefas que são dependentes do problema, representadas pelas técnicas de Categorização de Textos (CT) e Extração da Informação (EI), ilustradas na subárvore mais à direita da Figura 2.2. A CT consiste em classicar documentos em um conjunto predenido de tópicos utilizando a informação semântica contida nesses documentos. Considerando que a busca de documentos torna-se mais útil quando aplicada a grandes coleções, técnicas de indexação, armazenamento e recuperação dessas informações textuais são cada vez mais necessárias. Nesse cenário, sistemas de Recuperação da Informação (RI) correspondem a aplicações diretas da CT, já que são responsáveis pela construção de dicionários (indexação de textos) e busca de documentos através das palavras-chave contidas nesses dicionários. Dessa maneira, quando as palavras-chave são vistas como categorias, a indexação de textos pode ser considerada uma instância do problema de CT. Como os sistemas de RI apenas retornam os documentos com base em critérios de busca, a identicação de informação relevante necessita de análise dos conteúdos presentes nesses documentos pelos usuários. Esta análise pode ser realizada de forma automática através das tarefas de EI, responsáveis por identicar essa informação relevante e apresentá-la em um formato tabular. A noção geral das áreas de RI e EI são descritas nos tópicos seguintes, bem como os métodos mais relevantes no contexto desta pesquisa Recuperação da Informação A Recuperação da Informação (RI) reúne um conjunto de técnicas de armazenamento, indexação e busca de documentos não estruturados contidos em repositórios de larga escala [MRS08]. As principais técnicas de agrupamento de documentos em RI utilizam a hipótese estatística de que palavras que aparecem juntas com frequência tendem a fazer parte de contextos semelhantes. Os principais métodos estatísticos utilizados no agrupamento de documentos similares são o Vector Space Model (VSM) e o Latent Semantic Indexing (LSI). O VSM dene um modelo de vetores de texto em um espaço multi-dimensional. Nesse modelo, cada dimensão do espaço corresponde a uma palavra e as posições dos vetores em relação às dimensões dependem da frequência das palavras no texto [TP10]. Dessa forma, a similaridade entre dois textos é medida pela distância entre os respectivos vetores no espaço. A Figura 2.3 mostra a representação gráca de vetores de texto em um espaço n-dimensional. Figura 2.3: Representação textual no VSM [TP10]. A distribuição linear de frequências nas dimensões, dada pela simples contagem de ocorrências,

26 2.2 TAREFAS DE PRÉ-PROCESAMENTO 11 pode reetir uma atribuição de pesos inadequada às palavras. De fato, supondo que a palavra w 1 apareça três vezes em um documento D e a palavra w 2 apareça apenas uma vez, é provável que w 1 seja semanticamente mais importante que w 2 em D, mas não será necessariamente três vezes mais importante. Portanto, realizar uma ponderação na frequência das palavras representa um requisito em certas aplicações de PLN. Uma abordagem de ponderação que vem apresentando bons resultados em diversos trabalhos é denominada TF-IDF (Term Frequency - Inverse Document Frequency) [LPD12]. A TF-IDF combina a frequência com a quantidade de documentos que contém o termo. Mais precisamente, o peso p i de uma palavra w i é dado por: p i = tf i idf i (2.2) Na equação acima, tf i indica a quantidade de vezes que a palavra w i aparece em D e idf i = log(d T /D wi ), onde D T representa o número total de documentos e D wi o número de documentos que contém w i. Dessa maneira, a ponderação TF-IDF denota que a importância de um termo é inversamente proporcional à quantidade de documentos que o contém, ou seja, palavras comuns tendem a ter pouca relevância semântica. Após a transformação de documentos em vetores, é necessário utilizar algum método para estimar a similaridade entre eles. Uma medida de similaridade bastante difundida na literatura utiliza o cosseno do ângulo entre os vetores no espaço como medida de distância. Assim, sejam dois vetores de palavras v 1 = (w 11, w 12,..., w 1n ) e v 2 = (w 21, w 22,..., w 2n ) e seus respectivos vetores de pesos P 1 = (p 11, p 12,..., p 1n ) e P 2 = (p 21, p 22,..., p 2n ), a similaridade entre v 1 e v 2 é dada por: n i=1 SIM(v 1, v 2 ) = p 1,ip 2,i ( n i=1 p 1,i) 2 ( n i=1 p (2.3) 2,i) 2 É possível perceber que a similaridade entre dois vetores no VSM será sempre zero quando os textos não contiverem palavras comuns, pois v 1 v 2 = v 1 v 2. Esta característica faz com que o VSM ignore a similaridade entre documentos que não possuam termos idênticos em comum, mesmo que sejam semanticamente correlatos. Tal deciência é tratada no método LSI, a partir do qual o cálculo de similaridade entre documentos é exibilizado. O LSI utiliza a estrutura semântica das associações entre termos e documentos, com o objetivo de agrupar documentos relevantes a partir de termos contidos em consultas [DDF + 90]. Para tanto, utiliza a técnica Singular Value Decomposition (SVD) para decompor a matriz de frequências dos termos nos documentos em um conjunto de fatores ortogonais, a partir dos quais a matriz original pode ser aproximada por uma combinação linear. O objetivo dessa abordagem é minimizar a deciência da busca de documentos por palavraschave, tratando a ambiguidade da associação entre termos como um problema estatístico. Segundo autores em [Bak62], existe uma estrutura semântica latente nos dados, que permanece parcialmente oculta na forma aleatória de disposição das palavras em um texto. Nesse sentido, o LSI utiliza técnicas estatísticas para estimar essa estrutura latente e reduzir os ruídos causados pela ambiguidade conceitual. Inicialmente, é construída uma matriz de frequência A m,n entre termos e documentos, onde cada coluna representa um documento e cada linha contém um termo existente em pelo menos dois documentos. Em seguida é aplicada uma decomposição linear na matriz original, resultando em três matrizes linearmente independentes: A m,n = U m,r Σ r,r Vr,n, T onde T representa a matriz de termos, D a matriz de documentos e S a matriz diagonal de valores singulares (Figura 2.4).

27 2.2 TAREFAS DE PRÉ-PROCESAMENTO 12 Figura 2.4: Decomposição de matrizes com SVD [LPD12]. O SVD gera um modelo aproximado da matriz original contendo dimensões menores, onde as similaridades termo a termo, documento a documento, e termo a documento são aproximadas pelos valores das matrizes com número reduzido de dimensões. Esses valores podem ser representados geometricamente por uma conguração espacial, na qual o cosseno entre os vetores que representam dois objetos (como um termo e um documento) correspondem a sua similaridade estimada. A Figura 2.5 mostra um exemplo de representação geométrica de um modelo com 12 termos e 9 documentos divididos por assunto (c i e m j ) retirado de [DDF + 90]. Os termos são representados por círculos preenchidos e os documentos por retângulos vazados. Os termos pertencentes a um documento estão entre parênteses. Assim, a representação indica que, por exemplo, o documento c 4 possui os termos 1, 5 e 8. Figura 2.5: Representação geométrica de um modelo SVD [DDF + 90]. Nesse estudo de caso é executada uma consulta para agrupar documentos que tratam de determinado assunto, representada no gráco como um pseudo-documento q contendo os termos 1 e 3. Além de agrupar os documentos pela semântica da consulta, o modelo gerado identica documentos relacionados que não contém os termos pesquisados, tais como c 3 e c 5, mas que são semanticamente signicativos para a consulta. Um exemplo de aplicação desta característica é encontrado em [SC14], onde serviços web duplicados são detectados na ausência de termos comuns com os respectivos serviços principais.

28 2.2 TAREFAS DE PRÉ-PROCESAMENTO 13 Conjunto Inglês Português S 1 calculate saudi shipping calcula os preços sauditas prices de envio D 11 calculate arab travel values calcula valores árabes de transporte D 12 arab travel values valores árabes de transporte S n sends an SMS message to a mobile phone envia uma mensagem SMS para um telefone móvel invite an SMS text to a manda um texto SMS para D n1 D n2 mobile cellphone invite an SMS text to a cellphone Tabela 2.1: Descrições de serviços duplicados um celular móvel manda um texto SMS para um celular Nos serviços WEB da Tabela 2.1, D i1 representa as descrições de duplicatas que contêm palavras signicativas 1 comuns com o serviço principal (S i ). Já em D i2, encontram-se os serviços duplicados sem palavras signicativas comuns com o serviço principal. Assim, Ω(S i D i1 ) e Ω(S i D i2 ) =, sendo Ω(T ) uma função que retorna os termos signicativos de uma sentença T. Os resultados em [SC14] mostram que aproximadamente 20% dos serviços duplicados do conjunto D i2 são detectados pelo LSI, enquanto outros métodos estatísticos de RI são incapazes de identicá-los Extração da Informação Um desao importante na área de linguística computacional consiste em tornar a linguagem humana interpretável às máquinas, possibilitando análises de padrões e tendências de forma automática. Como exemplo, se a análise de uma coleção de jornais e revistas europeias detectar constante redução na quantidade de documentos que fazem referência às entidades Bahia e carnaval, isso pode indicar uma redução do número de turistas europeus no carnaval da Bahia. Nesse contexto, técnicas de Extração da Informação (EI) são de fundamental importância, pois tratam da inferência de etiquetas semânticas em documentos textuais originalmente desestruturados [And00]. Conforme ilustrado na Figura 2.2, a EI atua na etapa de pré-processamento da MT, mais especi- camente como representante de tarefas dependentes do problema, dedicadas a extrair informações especícas de textos não estruturados, como os nomes das entidades neles contidos e as possíveis relações existentes entre esses nomes [MSB + 12]. O objetivo principal dos sistemas de EI é a predição, isto é, dado um conjunto de treinamento e um conjunto de teste, o objetivo é propor uma predição de rótulos de sequências textuais para o conjunto de teste com base no conjunto de treinamento, de forma a identicar e classicar automaticamente as informações especícas contidas nesse conjunto [Car08]. Desse modo, transforma-se o texto não estruturado em informação estruturada, que pode ser representada em formato tabular (Figura 2.6). 1 Palavras signicativas são os termos obtidos a partir de uma sentença após a remoção de stopwords.

29 2.2 TAREFAS DE PRÉ-PROCESAMENTO 14 Figura 2.6: Representação de informações extraídas de um texto não estruturado [DC11]. No exemplo da Figura 2.6, um conjunto de informações é extraído a partir de um texto, tais como nomes de pessoas e relações de parentesco (liação) entre elas. Embora estejam agrupadas na planilha do exemplo, as informações são obtidas por tarefas distintas de EI. Mais precisamente, as relações de liação entre as pessoas no texto são identicadas na tarefa de Extração de Relações (ER). Por outro lado, as demais informações da planilha (nome, telefone, endereço, prossão e salário) são obtidas pela tarefa de Reconhecimento de Entidades Mencionadas (REM). O objetivo do REM é identicar e classicar os nomes das entidades mencionadas (EM) contidas em documentos [SS04]. Dentre os tipos de EM possíveis, existem as genéricas e as especícas. As entidades genéricas podem ser encontradas em qualquer domínio, como pessoa <PES>, organização <ORG>, local <LOC>, tempo <TPO> e valor monetário <VAL>. Já as entidades especícas dependem do domínio em que estão inseridas, como por exemplo suspeito e crime na computação forense. A Figura 2.7 ilustra a identicação de entidades genéricas em um segmento de texto. Figura 2.7: Exemplo de REM [DC11]. Uma das principais diculdades no REM consiste em tratar a ambiguidade lexical das entidades [Vap98]. No exemplo anterior, é possível notar que a entidade São Paulo representa um local, mas em outros contextos pode signicar um clube de futebol ou uma pessoa. Nesse sentido, a tarefa de REM é caracterizada como um problema de classicação, cujo objetivo é atribuir para cada termo da sentença uma classe, identicada por um nome de entidade mencionada. Outra tarefa de EI que vem sendo cada vez mais estudada e aplicada é a Extração de Relações (ER) entre entidades mencionadas. Em [LSST + 02], uma relação é denida a partir de uma tupla na forma t = (e 1, r 1, e 2, r 2, e 3, r 3,..., e n 1, r n 1, e n ), onde r 1, r 2,..., r n 1 constituem relações entre as entidades (e 1, e 2 ), (e 2, e 3 ),..., (e n 1, e n ), respectivamente. A maioria das soluções tem foco na extração de relações binárias do tipo t = (e 1, r, e 2 ), como por exemplo (João, estuda em, UFBA), que indica a relação semântica entre uma pessoa e uma organização. Assim como no REM, a ER também pode ser tratada como um problema de classicação, onde a uma relação especíca são atribuídos valores de pertinência, que indicam se a relação existe ou não entre as entidades de uma dada sentença. Considerando a importância da ER no contexto desta dissertação, o próximo capítulo é dedicado a uma análise mais detalhada desta tarefa.

30 Capítulo 3 Extração de Relações A Extração de Relações (ER) é uma tarefa da Extração da Informação (EI) que pode ser denida como a descoberta de relações de signicado, normalmente binárias, explícitas ou implícitas, entre entidades mencionadas contidas em documentos não estruturados [FS07]. A ER tem aplicações em diversas áreas, tais como na construção automática de ontologias e léxicos computacionais, em sistemas de respostas a perguntas e na computação forense. As ontologias representam o conhecimento em um domínio especíco através de conjuntos de conceitos e seus relacionamentos [AMS05]. Para que este modelo seja minimamente representativo, é necessário populá-lo com um grande número de instâncias obtidas em diversas fontes de dados, inclusive em documentos textuais. Por conta disso, popular ontologias manualmente é considerada uma tarefa altamente dispendiosa, o que torna necessária a extração automática dessas informações. Quando as fontes de dados são textos não estruturados, a identicação automática dos relacionamentos entre os conceitos pode ser realizada através da ER. Outra aplicação do conhecimento gerado na tarefa de ER é exemplicada nos sistemas de respostas a perguntas [HG01]. Perguntas especícas têm sido cada vez mais frequentes nas strings pesquisadas nos motores de busca da Internet, tais como Onde nasceu Nelson Mandela?, que pode ser respondida através da relação (Nelson Mandela, nascido em,?). Em síntese, as questões são feitas em linguagem natural e o sistema busca automaticamente a resposta mais provável, que corresponde a um dos argumentos de uma relação extraída. O objetivo deste capítulo é conceituar, apresentar uma categorização e analisar os principais trabalhos referentes à tarefa de ER. Adicionalmente, uma classe mais especíca desta tarefa, denominada Extração de Relações Abertas, que contém o problema alvo desta dissertação, é denida e posicionada no estado da arte. 3.1 Classicações Embora não exista uma categorização clara dos métodos de ER, é possível agrupá-los a partir dos principais trabalhos apresentados na literatura. Neste seção são descritas duas classicações não mutualmente exclusivas na tarefa de ER: i) Por técnica aplicada; ii) Por tipo de relação extraída Classicação por Técnica Aplicada A classicação mais genérica dos métodos de ER distingue as abordagens baseadas em padrões textuais das que utilizam aprendizado de máquina [TC12]. A seguir é feita uma breve descrição das principais características de cada tipo de método. i. Padrões Textuais Os métodos de padrões textuais extraem relações utilizando regras formadas por expressões regulares contendo termos especícos. Um exemplo deste tipo de regra, que pode ser encontrado 15

31 3.1 CLASSIFICAÇÕES 16 em [Hea92], é dado por: NP 1 {, } especially {NP 2, NP 3...} {or and} NP n (3.1) Sendo NP k as frases nominais identicadas nas sentenças. Com este padrão é possível extrair relações de hiponímia do tipo is-a(np i, NP 1 ), com i {2, 3,..., n}. Tomando como exemplo a frase most countries, especially France, England and Spain (a maioria dos países, especialmente Franca, Inglaterra e Espanha), a aplicação da regra permite extrair as seguintes relações: is-a(france, country), is-a(england, country) e is-a(spain, country). É possível elencar uma série de deciências e limitações nos métodos baseados em padrões textuais. Primeiro, a especicidade das regras resulta em alta precisão, mas baixa cobertura [YB09], dada a diculdade inerente ao mapeamento de todas as construções linguísticas possíveis de um idioma, considerando inclusive suas variações ao longo do tempo. Segundo, devido à ambiguidade característica da linguagem natural, certos padrões podem ser associados a diversos tipos de relações, tornando inviável a identicação de todas as possibilidades [GBR + 10]. Por conta disso, a criação de uma base representativa de regras para esse tipo de método consiste em uma tarefa altamente dispendiosa, já que cada regra necessita de um tratamento especíco. Trabalhos posteriores apresentaram resultados mais efetivos em termos de precisão e cobertura, através de técnicas de aprendizado de máquina. ii. Aprendizado de Máquina As abordagens baseadas em aprendizado de máquina selecionam atributos (features 1 ) a partir de um conjunto de treinamento, a m de determinar se existe uma relação entre as entidades de uma nova instância [Kam04]. Mais precisamente, dada uma sentença S = w 1, w 2,..., e 1,..., w j,..., e 2,...w n, onde e 1 e e 2 são entidades, uma função de mapeamento f é denida por: { +1, se existe R entre e 1 e e 2, f R (Θ(S)) = (3.2) 1, caso contrário Onde Θ(S) constitui o conjunto de features extraídas de S e R representa a relação semântica avaliada. Assim, a Equação 3.2 decide se existe uma relação semântica R entre as entidades e 1 e e 2. Além das soluções baseadas em features, existem trabalhos que utilizam uma generalização da similaridade de subsequências de strings (string-kernels [ZAR03]) para a realização de treinamentos. Considerando duas strings x e y, a similaridade K(x, y) em string-kernels é calculada em função do número de subsequências que são comuns a ambas. Ou seja, quanto maior a quantidade de subsequências comuns entre x e y, maior a similaridade entre elas. Partindo deste princípio, sendo A e B exemplos de sentenças com relação positiva e negativa entre duas entidades, respectivamente, no conjunto de treinamento, a função de similaridade que indica a classe de uma instância de teste T é calculada com base na seguinte equação: { +1, se K(S + A, S T ) > K(S B, S T ), f R (K) = (3.3) 1, caso contrário Onde S A +, S B e S T representam os respectivos conjuntos constituídos pelos termos que cercam as entidades nas sentenças A, B e T. Como exemplo, considerando a sentença O campus da UFBA está situado em Ondina, as palavras campus e situado indicam uma relação do tipo localidade entre as entidades UFBA e Ondina, cujas similaridades com os termos que cercam entidades em outras sentenças podem ser utilizadas para extrair delas o mesmo tipo de relação. Em geral, a Equação 3.3 é utilizada como função de similaridade em classicadores discriminativos nesta tarefa, tais como Perceptron [NR13] e Support Vector Machines (SVM) [Vap98]. A classicação dos métodos de ER considerando a técnica aplicada é ilustrada na Figura As features representam propriedades léxicas, sintáticas ou semânticas dos termos de uma sentença. Exemplos de features são as classes morfológicas dos termos e o número de palavras entre as entidades de uma frase.

32 3.1 CLASSIFICAÇÕES 17 Figura 3.1: Classicação por tipo de método. Quanto ao treinamento nas técnicas de aprendizado de máquina aplicadas à tarefa de ER, é possível distinguir três tipos de métodos: supervisionados, semi-supervisionados e auto-supervisionados (self-supervised) [BM05b]. Os métodos supervisionados operam sobre um conjunto de treinamento previamente etiquetado. Já os semi-supervisionados geram um conjunto de treinamento, de forma automática, a partir de um número reduzido de instâncias etiquetadas manualmente. Por m, nos métodos auto-supervisionados todo o conjunto de treinamento é construído de forma automática. Uma avaliação do estado da arte permite distinguir os métodos de ER não apenas pela abordagem aplicada, mas também pelo tipo de relação extraída Classicação por Tipo de Relação Extraída A semântica das relações extraídas varia bastante nos trabalhos de ER. Entretanto, é possível identicar dois tipos de métodos: os que extraem relações especícas e os que extraem relações abertas. Um esquema que ilustra esta classicação é mostrado na Figura 3.2. Figura 3.2: Classicação por tipo de relação. i. Relações Especícas Na extração de relações especícas, um domínio nito de relações semânticas é denido para a tarefa de ER. Assim, todos os relacionamentos possíveis são predenidos (Tabela 3.1).

33 3.2 EXTRAÇÃO DE RELAÇÕES ABERTAS 18 Relação Exemplo de Sentença Extração locationof(algo/alguém, Um aluno pode ser encontrado na escola location-of(aluno, escola) local) is-a(subclasse, su- Salvador é uma cidade is-a(salvador, ci- perclasse) part-of(todo, parte) Roda é parte de um carro dade) part-of(roda, carro) Tabela 3.1: Exemplos de relações especícas A principal desvantagem dessa abordagem consiste na limitação da extração a um universo especíco. Dessa forma, muitas relações semânticas importantes presentes no texto não são identicadas por não pertencerem ao domínio denido. ii. Relações Abertas A descoberta de relações sem restrição de domínio representa um requisito essencial em diversas aplicações de EI. Por conta disso, pesquisas têm sido conduzidas no sentido de identicar relações de vocabulário não-limitado, caracterizando a Extração de Relações Abertas (do inglês, Open Relation Extraction) [BE08]. Como a categorização apresentada não é mutualmente exclusiva, os métodos de ER se enquadram em ambos os tipos de classicação, sendo possível identicar certas associações entre eles. Por exemplo, todas as abordagens de padrões textuais necessariamente extraem relações especícas. Por outro lado, existem abordagens de aprendizado de máquina utilizadas tanto na extração de relações especícas, quanto na extração de relações abertas. Nos métodos de extração de relações abertas investigados neste trabalho, as extrações são identicadas através de padrões morfológicos e classicadas utilizando aprendizado supervisionado. Na próxima seção são descritos os conceitos e trabalhos referentes à tarefa de ER Abertas, a partir da qual é denido o problema de classicação tratado no presente trabalho. 3.2 Extração de Relações Abertas A limitação de escopo das relações especícas diculta a aplicação da tarefa de ER a áreas que dependem do processamento linguístico multidomínio, como a análise de documentos na computação forense [EM11]. Segundo [DC11], a inclusão digital associada à popularização da Internet resultou em crescimento da prática de crimes praticados por computador ou com o auxílio deste. Além disso, o aumento da capacidade de armazenamento e a diminuição do custo de aquisição de mídias digitais resultou em crescimento do volume de textos forenses, isto é, textos de arquivos contidos em mídias apreendidas em operações policiais. Os textos forenses podem se enquadrar em diferentes gêneros textuais, desde um contrato formal de licitação pública contendo diversos termos jurídicos, até uma conversa informal por aplicativo de bate-papo, composta por neologismos e regionalismos encontrados na linguagem falada, sendo, portanto, caracterizados como textos de domínio irrestrito [EM11]. Por conta disso, o escopo das relações extraídas em textos forenses não deve ser limitado, pois acarretaria perdas signicativas de informação. Estudos recentes tem sido desenvolvidos com o intuito de contornar as limitações dos métodos tradicionais de ER, que restringem as extrações a um conjunto nito de relações, com aplicabilidade especíca a determinados domínios. Nesse contexto, a extração de relações abertas, derivada da Open Information Extraction (Open IE) [BE08], consiste na tarefa de extrair relações semânticas com vocabulário não-limitado a partir de corpora em larga escala. Entretanto, a quantidade de

34 3.2 EXTRAÇÃO DE RELAÇÕES ABERTAS 19 extrações inválidas ainda é muito grande nos métodos atuais que tratam desta tarefa. A Tabela 3.2 mostra exemplos de extrações inválidas geradas por esses métodos. Sentença Depois de a defesa do Criciúma rebater, Maurinho chutou e marcou. A estrela símbolo do PT vai emoldurar com destaque o cenário dos programas do candidato Luiz Inácio Lula da Silva. Extração Inválida (Defesa do Criciúma, rebater, Maurinho) (PT, vai emoldurar com, Luiz Inácio Lula da Silva) Tabela 3.2: Exemplos de extrações inválidas Uma extração é dita inválida quando é incoerente e/ou incompleta. Intuitivamente, uma extração incoerente ocorre quando a semântica do relacionamento entre as entidades, mesmo sendo completa, não condiz com a interpretação correta da sentença. A primeira linha da Tabela 3.2 mostra um exemplo de extração incoerente, já que a entidade Defesa do Criciúma rebate um objeto que está oculto na frase (a bola), e não a entidade Maurinho. Já na segunda linha, vai emoldurar com não denota uma relação com sentido completo entre as entidades PT e Luiz Inácio Lula da Silva. As abordagens precursoras de ER Abertas obtém extratos na forma (e 1, frase relacional, e 2 ) em três etapas [FSE11]: 1. Etiquetação: As sentenças são etiquetadas automaticamente através de heurísticas ou a partir de supervisão distante (treinamento semi-supervisionado); 2. Aprendizado: Um extrator de frases relacionais é treinado utilizando um modelo de etiquetação sequencial de aprendizado estatístico (e.g. CRF); 3. Extração: Um conjunto de argumentos (e 1, e 2 ) é identicado na sentença de teste. Em seguida, o extrator treinado na etapa 2 é utilizado para etiquetar as palavras contidas entre os argumentos e compor a frase relacional (caso ela exista), extraindo a relação no formato (e 1, frase relacional, e 2 ). Uma das desvantagens dessas abordagens reside no fato de que a etiquetação precisa ser realizada em uma quantidade muito grande de sentenças (na ordem de centenas de milhares) para que a etapa de aprendizado seja efetiva. Isto implica em alto custo de construção dos conjuntos de treinamento, além da demanda de recursos linguísticos sosticados para viabilizar a etiquetação automática, dicilmente encontrados na maioria dos idiomas. Além disso, o método de extração por etiquetação sequencial é pouco ecaz em sentenças maiores, pois há um aumento da incerteza na associação de cada etiqueta a uma palavra à medida que a sequência cresce. Abordagens mais recentes tem sido desenvolvidas para contornar algumas dessas limitações, por meio de modicações na metodologia e, consequentemente, nas estratégias adotadas nas etapas de extração, conforme procedimento descrito abaixo: 1. Extração: Inicialmente, um extrator baseados em padrões linguísticos (e.g. padrões morfológicos) seleciona uma sequência de palavras que representa a relação semântica entre e 1 e e 2, identicando frases relacionais que casam com esses padrões. Em seguida, se um conjunto de argumentos (e 1, e 2 ) for identicado na sentença de teste, então é gerada a relação na forma (e 1, frase relacional, e 2 ); 2. Aprendizado: Um classicador de extrações é treinado por meio de um conjunto de features linguísticas;

35 3.2 EXTRAÇÃO DE RELAÇÕES ABERTAS Classicação: O classicador treinado na etapa 2 é utilizado para distinguir as relações válidas das inválidas geradas na etapa 1. Essas novas abordagens substituem o aprendizado na etapa de extração pelo processamento de regras baseadas em padrões morfológicos. Em seguida, um classicador é utilizado na remoção das relações inválidas do conjunto que contém todas as relações extraídas. Esta metodologia permite uma redução signicativa na cardinalidade do conjunto de treinamento, já que a complexidade do aprendizado para classicação das relações é inferior à do aprendizado para a identicação das relações. Por outro lado, a construção de conjuntos de treinamento a partir de features linguísticas eleva o custo de classicação, pois a identicação de features representativas requer uma análise mais aprofundada das características da língua no contexto do problema. A seguir são descritas em mais detalhes as características dos principais métodos de ER Abertas do estado da arte O Estado da Arte Na abordagem precursora de ER Abertas, denominada TextRunner[BJCS + 01], a extração é realizada com auxílio de um classicador Bayesiano, treinado a partir de features obtidas por etiquetação POS (Part-Of-Speech Tagger 2 ) e identicação de frases nominais (NP-Chunk 3 ). Autores em [BE08] observaram melhorias na etapa de extração ao substituírem os classicadores Bayesianos pelos modelos probabilísticos de etiquetação sequencial Conditional Random Field (CRF) [LMP01] e Markov Logic Networks [ZNL + 09]. Entretanto, a incerteza inerente à associação de cada palavra da sentença à determinada etiqueta eleva a probabilidade de identicar relações inválidas, característica que prejudicou a qualidade das extrações em sentenças maiores nesta solução. Em seguida, resultados obtidos em [WW10] com a ferramenta WOE mostram que features baseadas em dependência sintática aumentam a precisão e cobertura da extração em relação às obtidas com etiquetação POS. No entanto, a identicação das dependências sintáticas nas sentenças eleva consideravelmente o custo do algoritmo de extração, tornando proibitiva a aplicação desta abordagem a corpora em larga escala. Os trabalhos mais recentes extraem relações abertas a partir de padrões morfológicos ([SFN04], [SM06] e [EN08]), sendo o Reverb [FSE11] a abordagem que apresenta os melhores resultados da categoria. Nesta técnica, os autores utilizam a observação descrita em [BE08] de que um conjunto pequeno de etiquetas POS é suciente para representar muitos tipos de relações em Inglês. Dessa forma, ao invés de identicar todas as dependências sintáticas da sentença, aplicam apenas etiquetação POS para tornar o algoritmo de extração mais eciente. A extração no Reverb utiliza dois tipos de restrição: sintática e léxica. Na restrição sintática, o método verica se a sequência de classes morfológicas da sentença segue um padrão denido por uma expressão regular. A Figura 3.3 mostra a expressão utilizada na identicação de padrões morfológicos no Reverb. Figura 3.3: Restrição sintática no Reverb [FSE11]. O padrão permite extrair relações constituídas apenas por um verbo (e.g., made/construiu), um verbo seguido por uma preposição (e.g., located on/localizado em), ou um verbo seguido por 2 Etiquetadores POS são ferramentas que realizam a etiquetação morfossintática das palavras de uma sentença. 3 Noun Phrase Chunk envolve o reconhecimento de segmentos de texto que correspondem a frases nominais.

36 3.2 EXTRAÇÃO DE RELAÇÕES ABERTAS 21 substantivos, adjetivos, advérbios, pronomes ou determinantes, terminando com uma preposição (e.g., conducted raids in/realizou incursões em). Com isso, é possível reduzir o número de extrações incompletas em relação a abordagens predecessoras. Por exemplo, na frase PT made a deal with Marcos Valério (O PT fez um acordo com Marcos Valério), as soluções anteriores (como o TextRunner) tendem a extrair a relação (PT, made, a deal). Já o Reverb consegue identicar a relação semântica completa made a deal with por meio da restrição sintática, gerando o extrato (PT, made a deal with, Marcos Valério). Por outro lado, a restrição sintática não evita extrações muito especícas e, portanto, pouco representativas. De fato, dada a sentença President Dilma Rousse has been spied three months ago by the U.S. Secret Service (A presidente Dilma Rousse vem sendo espionada há três meses pelo Serviço Secreto Americano), a frase relacional extraída (has been spied three months ago by/vem sendo espionada há três meses pelo) é considerada prolixa. Relações deste tipo são eliminadas através da restrição léxica. A restrição léxica é baseada na intuição de que uma relação válida deve ser encontrada em várias instâncias de um corpus extenso. Assim, quando uma relação não é identicada no corpus, ela é considerada muito especíca para compor uma extração. Dessa maneira, o algoritmo de extração do Reverb recebe como entrada uma sentença s etiquetada morfologicamente e retorna a tripla (x, r, y) em duas etapas: 1. Extração de Relações: Para cada verbo v em s, encontre a sequência mais longa de palavras r v, tal que (i) r v comece em v, (ii) r v satisfaça a restrição sintática, e (iii) r v satisfaça a restrição léxica. 2. Extração de Argumentos: Para cada relação r identicada no passo 1, encontre a frase nominal x mais próxima de r à esquerda e a frase nominal y mais próxima de r à direita. Se o par (x, y) for encontrado, retorne a extração (x, r, y). Segundo [FSE11], é possível identicar grande parte das relações binárias em Inglês a partir das restrições sintática e léxica, resultando em uma cobertura de aproximadamente 85%. Exemplos de situações nas quais a relação semântica não é identicada a partir das restrições do Reverb são: Frases com estruturas não-contíguas: phrasal verbs, como em X turned Y o (X desligou Y); Sentenças com relações que não estão entre os argumentos: frases introdutórias, tais como Discovered by X and Y (Descoberto por X e Y); Estruturas com padrões morfológicos não-mapeados: innitivos do tipo X to atack Y (X atacar Y). Após a aplicação do algoritmo de extração, um conjunto de relações abertas entre entidades contidas em frases nominais são encontradas em documentos não estruturados. Entretanto, a ambiguidade inerente à linguagem natural faz com que grande parte desse conjunto seja composto por extrações incoerentes e incompletas, tornando necessária a classicação das relações abertas O Problema de Classicação de Relações Abertas Apesar de apresentar alta cobertura, a extração com base em padrões morfológicos possui baixa precisão, ou seja, grande parte das extrações é constituída por relações inválidas. Por conta disso, todas as abordagens predecessoras de ER Abertas pesquisadas utilizam técnicas de aprendizado de máquina baseado em features para melhorar a precisão das extrações. Em geral, classicadores de regressão logística são utilizados para associar um valor de conança a cada extração, viabilizando a distinção entre relações válidas e inválidas. É possível elencar uma série de desaos relativos à classicação de relações abertas nos métodos atuais. Primeiro, a escolha do conjunto de features na fase de treinamento varia bastante entre os

37 3.3 TRABALHOS EM LÍNGUA PORTUGUESA 22 trabalhos. Esta variação é consequência da diculdade inerente à identicação de features adequadas a determinado conjunto de documentos em problemas especícos de EI [FS07]. Além disso, a fase de treinamento requer um número considerável de sentenças etiquetadas, geralmente produzidas com auxílio de conhecimento linguístico especializado, recursos comuns na Língua Inglesa, mas inexistentes na maioria dos idiomas. Dessa maneira, o custo associado à identicação das features mais representativas para a construção de bases de treinamento tem dicultado a aplicação da tarefa de ER Abertas a textos redigidos em outros idiomas, incluindo a Língua Portuguesa. 3.3 Trabalhos em Língua Portuguesa Os trabalhos descritos nas seções anteriores extraem relações utilizando o Inglês como idiomaalvo. Nesta seção são expostas as principais características dos poucos trabalhos desenvolvidos em Língua Portuguesa. Considerando o Português do Brasil, as pesquisas na tarefa de Extração de Relações são ainda mais raras, sendo que todas as abordagens encontradas tem foco na extração de relações especícas. Em [FQ07], é proposta uma adaptação dos padrões de Hearst [Hea92] para o Português do Brasil, por meio da tradução dos padrões existentes e inclusão de novos. Exemplos de padrões adaptados são such as (traduzido para tais como) e (and/or) others (e outros). Além desses, novos padrões foram incluídos a partir da análise de um corpus composto por textos sobre saúde pública, etiquetado morfologicamente pelo parser PALAVRAS [Bic00], conforme as expressões regulares abaixo: tipos de NP 1 : {NP 2, NP 3...} {e ou} NP n NP 1 chamad (o a os as) {de} NP 2 Nesta solução, tratamentos especícos são realizados nas expressões regulares para reduzir alguns problemas ocasionados pela ambiguidade das palavras contidas nas expressões adaptadas para a Língua Portuguesa. Por exemplo, o padrão tais como é comumente reduzido à palavra denotativa como em textos escritos em Português, que pode pertencer às seguintes classes morfológicas: conjunção, pronome relativo, substantivo, advérbio interrogativo, advérbio de modo, interjeição e preposição. A despeito disso, o único sentido da palavra como que deve ser reconhecido pelo referido padrão é o equivalente a por exemplo (pronome relativo). Os autores reportaram um índice de 73,4% de relações corretas dentre as 436 selecionadas para avaliação manual. Entretanto, não foi medida a precisão e cobertura do método em relação a todas as relações contidas no corpus, dicultando a comparação com outras abordagens. Em 2008, o evento para Avaliação de Reconhecedores de Entidades Mencionadas (HAREM) 4 contou com a tarefa de Reconhecimento de Relações entre Entidades Mencionadas (ReRelEM), onde foram avaliados três sistemas: REMBRANDT [Car08], SEI-Geo [Cha08] e SeRELeP [BSVR08]. O ReRelEM engloba as relações de identidade, inclusão, localização e outras. As relações do tipo identidade incluem sinonímia, denições, acrônimos e relações anafóricas, ocorrendo quando duas entidades possuem o mesmo referente. Relações de inclusão são identicadas quando uma entidade engloba outra, caracterizando a hiponímia e a meronímia. Já a localização denota um evento que ocorre em um local. Por m, as relações do tipo outras correspondem a todas as relações consideradas relevantes, mas que não se enquadram nas categorias anteriores. O REMBRANDT é um sistema de REM baseado em regras gramaticais, que utiliza a Wikipedia como base de conhecimento para a classicação das entidades mencionadas. O detector de relações do REMBRANDT realiza estimativas de similaridade entre as entidades para encontrar relações de identidade, além da distância entre as entidades do tipo acontecimento e local para identicar relações do tipo localidade. 4 O HAREM corresponde uma iniciativa para avaliar soluções de processamento linguístico em Português, semelhante ao MUC (Message Understanding Conferences [GS96]) e o ACE (Automatic Content Extraction [DMP + 04]), voltados para a Língua Inglesa.

38 3.3 TRABALHOS EM LÍNGUA PORTUGUESA 23 O SEI-Geo integra um sistema para gestão de conhecimento geográco (Geograc Knowledge Base (GKB)), responsável por gerar uma representação estruturada desse conhecimento. No contexto do ReRelEM, o SEI-Geo foi utilizado para identicar relações do tipo inclusão entre entidades mencionadas que representam locais. A identicação das entidades é realizada por meio de uma heurística que combina o conhecimento obtido a partir de uma ontologia de dados geográcos e padrões textuais semelhantes aos de Hearst. Já as relações são extraídas a partir da projeção das entidades sobre geo-ontologias. Dessa maneira, um novo relacionamento é identicado sempre que duas entidades são mapeadas em conceitos adjacentes da ontologia. O SeRELeP extrai relações dos tipos identidade, inclusão e localização, por meio de heurísticas especícas para cada tipo de relação, utilizando informações das etiquetas morfológicas produzidas pelo parser PALAVRAS. As relações de identidade são obtidas através de estratégias rudimentares de similaridade textual, como comparações entre subsequências de caracteres para determinar se as entidades são equivalentes. Por este critério, a entidade Luiz Inácio é equivalente a Inácio, mas não a Lula. As demais relações são obtidas por estratégias diferentes, porém de inecácia similar. Como exemplo, uma delas simplesmente utiliza preposições que denotam inclusão, tais como em, no e na, para encontrar relações do tipo inclui. Na avaliação conjunta, o sistema que apresentou o melhor desempenho foi o REMBRANDT, com uma medida-f de 45%, seguido pelo SeRELeP (36,6%) e pelo SEI-Geo (27,5%). Em seguida, autores em [OSG10] apresentaram o PAPEL 5 (Palavras Associadas Porto Editora - Linguateca), um léxico computacional semelhante à WordNet [Fel98], mas voltado para o Português Lusitano. As relações semânticas no PAPEL foram extraídas a partir de padrões textuais aplicados às denições do Dicionário PRO da Língua Portuguesa 6. Dentre as cerca de 190 mil relações extraídas, é possível identicar os seguintes tipos: sinonímia, hiperonímia, meronímia (dividida entre as relações parte de, membro de e contido em), antonímia, causalidade, produto-produtor, nalidade, estado (e.g. doença tem o estado doente), qualidade (e.g. bonita tem a qualidade beleza), localidade, maneira (a maneira como algo é realizado, e.g. rapidamente é realizado de maneira rápida), material (e.g. livro é feito de papel) e referente (e.g. cardíaco se refere a coração). A padronização do vocabulário constitui uma das grandes vantagens na extração de relações utilizando verbetes de dicionário se comparada à extração realizada em textos livres, que possuem uma variação linguística muito maior. Por outro lado, os textos livres são muito mais abrangentes que as denições de dicionário, possibilitando a extração de um número maior de tipos de relações. O trabalho mais recente de ER em Língua Portuguesa que se tem conhecimento é descrito em [TC12], onde é feita uma comparação entre as abordagens de padrões textuais e aprendizado de máquina, com o objetivo de representar conhecimento de senso comum no projeto Open Mind Common Sense no Brasil (OMCS-Br) 7. Nesse estudo foram utilizados dois corpora com textos em Português do Brasil, anotados morfossintaticamente pelo parser PALAVRAS, de onde se extraíram features de treinamento aplicadas a dois algoritmos de aprendizado de máquina: C4.5 [Qui93] e SVM [Vap98]. Já a abordagem de padrões textuais foi implementada utilizando as regras denidas em [FQ07]. As abordagens foram comparadas por meio da extração das seguintes relações especícas: propriedade de, é um, parte de, localizado em, efeito de, feito de e usado para. Os resultados mostraram superioridade da abordagem de aprendizado de máquina, ainda não aplicada em trabalhos voltados para a Língua Portuguesa. A partir desta análise do estado da arte, percebe-se que a maioria dos trabalhos em Língua Portuguesa utiliza técnicas rudimentares baseadas em padrões textuais na ER, sendo que as abordagem de aprendizado de máquina ainda são pouco exploradas. Isto se deve, possivelmente, à falta de recursos linguísticos em Português, dicultando a construção de bases de treinamento de forma automática e semi-automática para a tarefa, que necessita de features representativas obtidas a partir de conhecimento especializado na língua. Dentre o universo de relações especícas extraídas em Português, as mais frequentes são as relações de hiponímia, meronímia e localidade. Por outro

39 3.3 TRABALHOS EM LÍNGUA PORTUGUESA 24 lado, não foi identicada nenhuma pesquisa voltada para a Extração de Relações Abertas. A seguir são descritas abordagens de similaridade estrutural entre modelos, fundamentadas na teoria dos grafos, que podem ser adaptadas para modelar estruturas gramaticais contidas em relações abertas, permitindo a distinção entre extrações válidas e inválidas sem a necessidade de construção de conjuntos de treinamento baseados em features linguísticas.

40 Capítulo 4 Similaridade em Grafos A teoria dos grafos estuda as estruturas matemáticas utilizadas para modelar relações entre objetos ou conceitos. Um grafo consiste em uma estrutura de dados composta por um conjunto nito e não vazio de vértices, unidos aos pares por um conjunto nito e possivelmente vazio de arestas ou arcos [Val02]. De acordo com [NWH03], determinar a similaridade entre dois grafos equivale a determinar a similaridade entre os objetos estruturados, conceitos ou modelos que os grafos representam. Um método clássico para estimar a similaridade entre grafos consiste em identicar o maior padrão existente entre eles. A identicação deste padrão comum tem sido tratado em diversos estudos como um problema de isomorsmo em subgrafos. A detecção de similaridade entre objetos representados por grafos tem sido aplicada em diversas áreas, tais como no reconhecimento de padrões [LV02], na bioinformática [RW02] (incluindo estudos comparativos entre estruturas de proteínas [KLW96] e equivalência entre compostos químicos [NTJN87]) e extração de subcircuitos [EZ83, NWH03]. Este capítulo trata dos conceitos, problemas e algoritmos relativos à detecção de similaridade em grafos. Adicionalmente, é feito um estudo dos principais trabalhos que utilizam algoritmos de isomorsmo para estimar a similaridade estrutural entre modelos. Esta análise permite identicar como e em que medida é possível modelar estruturas gramaticais através de grafos, com o objetivo de denir uma abordagem de similaridade que permita classicar relações abertas no presente trabalho. 4.1 Isomorsmo em Subgrafos Muitas estimativas de similaridade estrutural entre modelos são obtidas a partir de técnicas de matching ou isomorsmo entre grafos [BM93]. Formalmente, dois grafos G 1 = (V 1, E 1 ) e G 2 = (V 2, E 2 ) são isomórcos se existe uma bijeção f : V 1 V 2, onde u e v são adjacentes em G 1 se, e somente se, f(u) e f(v) são adjacentes em G 2, u, v V 1. Quando dois grafos possuem subgrafos que são isomórcos, então esses subgrafos são ditos comuns. Nesse contexto, o subgrafo comum máximo (MCS) é considerado um importante indicativo de similaridade entre os grafos de uma coleção, pois representa o maior padrão existente entre eles O Problema do Subgrafo Comum Máximo (MCS) Os principais trabalhos em teoria dos grafos fornecem duas denições para o MCS: a primeira leva em conta o número máximo de arestas (MCES) e a segunda considera o número máximo de vértices do subgrafo induzido comum (MCIS). Dados dois grafos G 1 e G 2, o MCES (Maximum Common Edge Subgraph) representa o subgrafo que possui maior número de arestas comuns a G 1 e G 2. Já o MCIS (Maximum Common Induced Subgraph) consiste no subgrafo induzido 1 isomórco 1 Um subgrafo G (V, E ) é dito induzido de G(V, E) quando V V e todos os vértices de G são interligados pelas mesmas arestas que os interliga em G. 25

41 4.1 ISOMORFISMO EM SUBGRAFOS 26 entre G 1 e G 2 que possui o maior número de vértices. No exemplo da Figura 4.1, os vértices x 3 e y 3 não pertencem ao MCIS entre G 1 e G 2, pois a aresta (x 1, x 3 ) em G 1 não possui uma aresta correspondente em G 2. Por conta disso, não é possível mapear x 3 em y 3 nos subgrafos induzidos, já que todos os vértices de G 1 devem ser interligados pelas mesmas arestas que os interliga em G 2. Por outro lado, os vértices x 3 e y 3 pertencem ao MCES, uma vez que as arestas (x 2, x 3 ) e (x 3, x 8 ) de G 1 podem ser mapeadas nas arestas (y 2, y 3 ) e (y 3, y 8 ) de G 2. Variações do MCS restringem o MCES e o MCIS a grafos conectados. Um grafo G é dito conectado quando existe pelo menos um caminho interligando dois vértices quaisquer de G. A Figura 4.1 ilustra as variações conectadas do MCS (MCCES e MCCIS). Figura 4.1: Diferenças entre MCES, MCIS, MCCES e MCCIS [RW02]. O problema de encontrar o MCS entre dois grafos é classicado como NP-Completo, isto é, não se conhece um algoritmo com complexidade de tempo polinomial para o caso geral. Por conta disso, versões aproximadas do algoritmo foram desenvolvidas, bem como soluções exatas para determinados tipos de grafos com tamanho moderado. Algoritmos aproximados possuem complexidade de tempo aceitável, mas não garantem soluções ótimas globais. As principais heurísticas aproximadas aplicadas ao MCS utilizam algoritmos genéticos [GRHS06] e otimização combinatória [BM05a]. Embora os algoritmos exatos executem em complexidade de tempo exponencial no pior caso, são considerados adequados aos tipos de grafos gerados por certas aplicações. Autores em [RW02] armam que as soluções exatas são ecientes quando aplicadas à detecção de similaridade em estruturas de compostos químicos, já que os grafos gerados neste modelo são de tamanho moderado. De forma semelhante, o presente trabalho mostra no Capítulo 5 que esta propriedade também é válida para grafos gerados com base em estruturas gramaticais Algoritmos Exatos As soluções exatas mais ecientes reduzem o MCS ao problema do clique máximo entre dois grafos [BK73]. Um grafo G c representa um clique em G se G c G e G c é completo. O clique máximo corresponde ao G c com maior número de vértices em G. Levi [Lev72] demonstra que o MCIS equivale a encontrar o clique máximo entre dois grafos a partir da construção de um grafo de compatibilidade correspondente. Um grafo de compatibilidade que fornece a equivalência entre o MCIS e o clique máximo é obtido pelo produto modular entre os grafos. O produto modular entre G 1 (V 1, E 1 ) e G 2 (V 2, E 2 ), com V 1 = {x 1, x 2,..., x m } e V 2 = {y 1, y 2,..., y n }, corresponde ao grafo G(V, E), onde V = V 1 V 2 = {(x 1 y 1 ),..., (x 1 y n ),..., (x m y 1 ),..., (x m y n )} e os elementos de E são constituídos com base nas ligações em G 1 e G 2. Mais precisamente, dois vértices quaisquer x i y i e x j y j de V são adjacentes se:

42 4.2 ISOMORFISMO EM SUBGRAFOS 27 (x i, x j ) E 1 e (y i, y j ) E 2 ou (x i, x j ) / E 1 e (y i, y j ) / E 2 A Figura 4.2 mostra um exemplo de produto modular entre dois grafos. É possível perceber que a aresta (x 1 y 1, x 2 y 2 ) existe no grafo resultante, pois x 1 e x 2 são adjacentes em G 1, assim como y 1 e y 2 em G 2. Por outro lado, não existe aresta interligando os vértices x 2 y 1 e x 3 y 3 em G 1 G 2, já que x 2 é adjacente a x 3 em G 1, mas não há ligação entre y 1 e y 3 em G 2. Figura 4.2: Produto modular [BM93]. Os dois cliques máximos em G 1 G 2 com os vértices x 1 y 1, x 2 y 2, x 3 y 3 e x 3 y 1, x 2 y 2, x 1 y 3 correspondem ao MCIS entre G 1 e G 2. A transformação do MCS no problema do clique máximo, embora ambos sejam NP-Completos, permite reduzir o espaço de busca antes da aplicação de um algoritmo mais rigoroso. Esta redução no número de soluções possíveis caracteriza os algoritmos do tipo branch-and-bound. Uma das soluções branch-and-bound mais conhecidas para encontrar o MCIS a partir do clique máximo é o algoritmo de Bron-Kerbosch (Algoritmo 4.1) [BK73]. Algoritmo 4.1 Retorna um conjunto R que representa o clique máximo em um grafo G 1: function BronKerbosch(R,P,X) 2: if P = and X = then 3: return R 4: end if 5: for each v in P do 6: BronKerbosch(R {v}, P N(v), X N(v)) 7: P P {v} 8: X X {v} 9: end for 10: end function A versão clássica do algoritmo de Bron-Kerbosch recebe como entrada dois conjuntos vazios R e X, onde R representa o resultado temporário e X os vértices excluídos. O conjunto P contém os possíveis candidatos do clique máximo, que inicialmente são todos os vértices do grafo. O algoritmo começa a partir da expansão de um vértice v, adicionando-o a R e removendo todos os vértices que não são seus vizinhos (representados pelo conjunto N(v)). Assim, cada vizinho de v é expandido até que P se torne vazio. Se X também for vazio, R representa um novo clique máximo. Caso contrário, R contém o subconjunto de um clique máximo já encontrado. A redução no espaço de busca ocorre nas linhas 7 e 8, onde os vértices que não pertencem ao clique máximo são removidos de P e adicionados em X. Dessa maneira, a busca continua recursivamente no nível superior sempre que não existem mais vértices em P. Embora outras versões do MCS baseadas em clique máximo tenham sido desenvolvidas (como em [KLW96] e [LV02]), todas seguem a ideia geral do algoritmo de Bron-Kerbosch.

43 4.2 SIMILARIDADE ENTRE RÓTULOS Similaridade entre Rótulos A similaridade entre modelos de grafos é calculada não apenas a partir da estrutura isomórca, mas também através da correlação entre os rótulos dessa estrutura comum. Em geral, a similaridade entre os rótulos de um grafo é estimada pela distância de edição entre as strings contidas nos rótulos, denida como o número mínimo de operações necessárias para transformar uma sequência de caracteres em outra. Uma das variantes mais aplicadas neste problema é a distância de Levensthein [Lev66], que transforma uma string em outra por meio de três operações com custo unitário: inserção de um novo caracter, remoção de um caracter e substituição de um caracter por outro. Formalmente, sejam duas strings α = α 1,.., α m e β = β 1,..., β n geradas a partir de um alfabeto Σ, a distância d α,β é calculada a partir da construção de uma matriz de ordem (m + 1) (n + 1), conforme as operações denidas no algoritmo de Wagner-Fisher [WF74]: a i,j = a i,0 = i, i [0,..., m] a 0,j = j, j [0,..., n] { a i 1,j 1, se α j = β i, min(a i 1,j, a i,j 1, a i 1,j 1 ) + 1, caso contrário A intuição por trás deste algoritmo reside no fato de que a distância entre as strings pode ser calculada recursivamente a partir do armazenamento das distâncias entre todos os prexos de cada string. Dessa forma, a distância entre α e β é dada pelo elemento que ocupa a última linha e última coluna da matriz, ou seja, d α,β = a m,n. Figura 4.3: Exemplo de matriz gerada pelo algoritmo de Wagner-Fisher [BK73]. No exemplo da Figura 4.3, sendo α = Sunday e β = Saturday, o elemento a 6,8 = 3 fornece o número de operações necessárias para transformar α em β: 1. Sunday Saturday (remoção do caracter a); 2. Sunday Sturday (remoção do caracter t); 3. Sunday Surday (substituição do caracter r por n). A distância de Levensthein corresponde à generalização da distância de Hamming [Ham50], que é aplicada na detecção de erros em strings de mesmo tamanho. Em termos de similaridade entre dois rótulos de um grafo, quanto menor a quantidade de operações para transformar uma sequência de caracteres em outra, maior a similaridade entre os rótulos. Entretanto, quando os rótulos do grafo representam conceitos semanticamente mapeados, outras estratégias devem ser utilizadas no cálculo de similaridade. As abordagens de similaridade semântica têm aplicabilidade em diversos problemas que envolvem processamento linguístico, como na descoberta e composição de serviços web descritos em linguagem natural [PKPS02], na detecção de bug reports duplicados [RAN07] e na desambiguação lexical de sentido [BP02, PBP03, SC12],

Exibir mais