Classificação de Relações Abertas utilizando Similaridade entre Estruturas Gramaticais

Transcrição

1 Classificação de Relações Abertas utilizando Similaridade entre Estruturas Gramaticais George C. G. Barbosa 1, Daniela Barreiro Claro 1 1 FORMAS - Grupo de Pesquisa em Formalismos e Aplicações Semânticas Departamento de Ciência da Computação (DCC) Universidade Federal da Bahia (UFBA) Av. Adhemar de Barros, s/n, Ondina Salvador BA Brasil gcgbarbosa@gmail.com, dclaro@ufba.br Abstract. The amount of natural language data published over the Internet keeps growing faster than human capacity to process them. Thus, the information extraction technique becomes important to get useful information. This work aims to extract and classify semantic relations in a non-structured text. We proposed a method based on structural similarity. Multilingual and small training sets are one of our major contributions. Our preliminary results encourage and show a positive research direction. Keywords: information extraction, open relation extraction, multilingual; Resumo. A quantidade de dados publicados em linguagem natural na internet vem crescendo mais rápido do que a capacidade dos humanos em processálos. Desta forma, a técnica de extração de relações se torna importante na obtenção de informação útil e relevante. Este trabalho objetiv extrair e classificar relações semânticas em uma base de dados textual. Nossoo método proposto é baseado em similaridade entre estruturas gramaticais. Multilingual e um dataset de treino reduzido são algumas das principais contribuições deste trabalho. Os resultados preliminares encorajam e apresentam um direcionamento positivo da pesquisa. Palavras Chave: extração da informação, extração de relações abertas, multilingual; Mês e ano de ingresso no programa: Setembro/2014. Nível: Mestrado. Previsão para conclusão: Dezembro/2016. Etapas já concluídas: Etapa de Extração. Os experimentos preliminares foram realizados e evidenciaram que uma maior quantidade de relações amplia as possibilidades de classificá-las como válidas. Etapas futuras: Etapa de Classificação por similaridade das estruturas gramaticais. O desenvolvimento desta etapa está em andamento, restando finalizar a implementação do método proposto, realizar os experimentos e comparar os resultados propostos na literatura.

2 1. Introdução Um aumento nas operações policiais com a apreensão de computadores têm evidenciado um crescimento na análise dos documentos apreendidos. Estas análises são custosas e despendem tempo de peritos criminais responsáveis por extrair informações relevantes nas operações policiais. É evidente a necessidade de extrair informação destes documentos com o intuito de agilizar o processo da análise pericial e indiciação dos envolvidos no crime. Muitos esforços têm sido realizados no sentido de extrair informação desses textos [Fader et al. 2011]. A tarefa de aquisição de informação a partir de dados não estruturados ou semiestruturados é denominada de Extração da Informação (IE, do inglês Information Extraction). A IE pode ser classificada em aberta ou fechada. A IE fechada, também conhecida como tradicional, tem como objetivo extrair relações em um domínio específico, geralmente um conjunto pré-especificado de expressões [Schmitz et al. 2012]. O fato de existir um domínio fechado é um fator limitante pois dificulta a descoberta de novas informações. A IE aberta (OIE, do inglês Open Information Extraction) tem como principais objetivos: (i) independência de domínio, (ii) extração não supervisionada e (iii) escalabilidade para grandes bases de dados [Del Corro and Gemulla 2013]. Este trabalho aborda as IE abertas (OIE) devido a diversidade de domínio que podem ocorrer nas operações policiais. Dentro da IE existe a Extração de Relação (RE, do inglês Relation Extraction) que tem como objetivo extrair relações semânticas das sentenças [Faruqui and Kumar 2015]. A RE pode ser de domínio fechado ou aberto (ORE), na qual a primeira considera apenas um conjunto fechado de relações entre dois argumentos, e a segunda permite a extração de padrões de sentenças em uma determinada linguagem para identificar as relações existentes. A maioria dos trabalhos atuais realizam ORE exclusivamente para o Inglês. Esse idioma possui ferramentas linguísticas mais sofisticadas, como por exemplo, etiquetadores morfossintáticos, analisadores de NP, além de analisadores de árvores de dependência e por fim, grandes bases de treinamento. Muitas dessas ferramentas não estão disponíveis para outros idiomas. Esse fato eleva a necessidade de métodos independentes de idioma. Além do esforço para desenvolver modelos para outros idiomas, a construção da base de treinamento é um fator proibitivo. Normalmente, estas bases de treinamento necessitam de um especialista para rotular manualmente as relações extraídas, o que demanda muito tempo. Com o intuito de minimizar este esforço na criação das bases de treinamento, uma base reduzida, conforme proposto em [Souza and Claro 2014] para o Português do Brasil, para o inglês foi utilizada como base de treinamento, minimizando os esforços manuais para rotulá-la. Assim, este trabalho objetiva extrair e classificar as relações abertas considerando os padrões morfológicos e a similaridade entre estruturas gramaticais (SEG), evidenciando a utilização da base reduzida e da abordagem multilingual. Sendo c 1 e c 2 dois conjuntos de classes gramaticais obtidos a partir de duas sentenças s 1 e s 2, o método proposto (SEG) pode ser definido como uma função f(c 1, c 2 ) que retorna a similaridade entre as duas sentenças. Os resultados evidenciaram uma classificação promissora com a base reduzida de treinamento.

3 As próximas seções estão organizadas da seguinte forma: a seção 2 apresenta os trabalhos correlatos, a seção 3 explica as contribuições deste trabalho, na seção 4 são apresentados os experimentos preliminares e, por fim, a seção 5 traz as conclusões parciais e os trabalhos futuros. 2. Trabalhos Correlatos Duas abordagens principais têm sido utilizadas para extrair relações abertas. Essas abordagens são classificadas por este trabalho em primeira e segunda geração. A primeira geração obtém extratos na forma (e 1, frase relacional, e 2 ) em três etapas [Wu and Weld 2010]: 1. Etiquetação: As sentenças são etiquetadas automaticamente através de heurísticas ou a partir de supervisão distante (treinamento semi-supervisionado); 2. Aprendizado: Um extrator de frases relacionais é treinado utilizando um modelo de etiquetação sequencial (ex: CRF); 3. Extração: Um conjunto de argumentos (e 1, e 2 ) é identificado na sentença de teste. Em seguida o extrator treinado na etapa 2 é utilizado para etiquetar as palavras contidas entre os argumentos e compor a frase relacional (caso ela exista), extraindo a relação no formato (e 1, fraserelacional, e 2 ). Os primeiros trabalhos que seguiram esta abordagem foram [Banko et al. 2007], [Banko et al. 2008] e [Fader et al. 2011]. Autores em [Banko et al. 2007] introduziram a OIE através do TextRunner que faz uso de etiquetação gramatical (POS, do inglês Part-of-Speech) e etiquetação de frases nominais (NP, do inglês Noun Phrase), e um classificador Naive Bayes treinado usando exemplos gerados a partir do Penn Tree Bank [Marcus et al. 1993]. Trabalhos sucessores [Banko et al. 2008] demostraram que a utilização de uma cadeia linear CRF melhorava a qualidade das extrações. Em seguida, os autores em [Wu and Weld 2010] demonstraram com o WOE P arse que era possível usar as tabelas de informação presentes nas páginas da Wikipedia como fonte de treinamento, o que resultou em uma melhora na cobertura em decorrência da disponibilidade de uma grande base de treino. A principal desvantagem da abordagem da primeira geração se dá pela necessidade da etiquetação de uma grande base de dados, da ordem de milhares de sentenças. Isto implica em alto custo de construção dos conjuntos de treinamento, além da demanda de recursos linguísticos sofisticados para viabilizar a etiquetação automática, dificilmente encontrados fora do idioma Inglês. Além disso, o método de extração por etiquetação sequencial é pouco eficaz em sentenças maiores, pois há um aumento da incerteza na associação de cada etiqueta a uma palavra à medida que a sequência cresce [Souza and Claro 2014]. A segunda geração é a atualmente utilizada e foi desenvolvida para contornar algumas das limitações apresentadas por meio de modificações nas estratégias na etapa de extração. Nesta nova abordagem, primeiramente é realizada a etapa de extração, seguida pelo aprendizado necessário e por fim a classificação das relações conforme descrito abaixo: 1. Extração: Inicialmente, um extrator baseado em padrões linguísticos (ex: padrões verbais) seleciona uma sequência de palavras que representa a relação semântica

4 entre e 1 e e 2, identificando frases relacionais que correspondem a esses padrões. Em seguida, se um conjunto de argumentos (e 1, e 2 ) for identificado na sentença de teste, então é gerada a relação na forma (e 1, frase relacional, e 2 ); 2. Aprendizado: Um classificador de extrações é treinado por meio de um conjunto de features linguísticas; 3. Classificação: O classificador treinado na etapa 2 é utilizado para distinguir as relações válidas das inválidas geradas na etapa 1. A segunda geração tornou-se mais sólida com o ReVerb [Fader et al. 2011]. Ela substitui o aprendizado, na etapa de extração, pelo processamento de regras baseadas em padrões morfológicos. Após a extração das relações, um classificador é utilizado na remoção das extrações inválidas do conjunto que contém todas as relações extraídas. Esta abordagem permite uma redução significativa na cardinalidade do conjunto de treinamento, já que a complexidade do aprendizado para classificação das relações é inferior à do aprendizado para a identificação das relações. Por outro lado, a construção de conjuntos de treinamento a partir de features linguísticas eleva o custo de classificação, pois a identificação de features representativas requer uma análise mais aprofundada das características da língua no contexto do problema. Embora ainda pertencente à segunda geração, alguns trabalhos diferem na técnicas empregadas. O ReVerb [Fader et al. 2011] utiliza os padrões morfológicos na etapa de extração, enquanto alguns trabalhos mais recentes utilizam técnicas de análise de dependência que demostram um melhora na quantidade de relações extraídas [Schmitz et al. 2012, Del Corro and Gemulla 2013, Angeli et al. 2015]. O OLLIE [Schmitz et al. 2012] faz uso de um conjunto de padrões aprendidos a partir de um base de extrações de alto grau de confiança obtidos pelo ReVerb para extrair relações de forma aberta. Uma abordagem similar é utilizada no ClausIE [Del Corro and Gemulla 2013] no qual padrões identificados manualmente a partir da árvore de dependência das sentenças são utilizados para extrair relações. Em [Angeli et al. 2015] uma abordagem similar ao ClausIE é utilizada, porém, antes da etapa de extração são aplicadas técnicas para separar as sentenças em núcleos semânticos, de forma que as relações extraídas possuem relações mais curtas e informativas. Este trabalho se posiciona nesta segunda geração e trabalha com padrões gramaticais na etapa de Extração. Os padrões gramaticais utilizados no ReVerb para extração de relações em Inglês foram utilizados com êxito no Português por [Pereira and Pinheiro 2015]. Estes padrões gramaticais direcionam para uma independência de idioma na etapa de Extração. Os trabalhos anteriormente citados objetivam o idioma Inglês. Tanto o ReVerb quanto o TextRunner utilizam features baseadas em características específicas do Inglês. Em relação aos métodos que usam árvore de dependência sintática (OLLIE e CLAUSIE), os padrões utilizados para extração de relações são também específicos para o Inglês. Autores em [Faruqui and Kumar 2015] trazem uma abordagem para extrair relações, de forma independente de domínio, utilizando o OLLIE e o Google Translator. A sentença no idioma alvo é traduzida para o Inglês, as relações são extraídas utilizando o OLLIE e posteriormente a relação é traduzida novamente para o idioma alvo. Observouse que os erros inerentes ao processo de tradução são os principais fatores limitantes desse método.

5 Embora as features utilizadas estejam presentes na etapa de Extração, a etapa de classificação das relações extraídas também é dependente de idioma. Assim, a extração de relações baseadas em restrição sintática possui um bom nível de maturidade, tendo sido verificada a sua aplicabilidade em dois idiomas diferentes (PT-BR e EN). Porém, ainda é necessário o desenvolvimento de um método de classificação independente de idiomas. 3. Metodologia e Contribuições A Figura 1 descreve a arquitetura do método proposto neste trabalho. Esta proposta está dividida em: (1) extração e (2) classificação. Essas etapas estão descritas nas próximas subseções. Figura 1. Fluxograma de execução do método proposto 3.1. Extração Durante a etapa de extração uma base contendo texto em linguagem natural é recebida como entrada pelo método. Dentro da tarefa de NLP são realizadas as seguintes atividades: 1. Detecção de Sentenças: responsável por detectar o inicio e fim de cada sentença no texto; 2. Detecção de Tokens: responsável por detectar e separar cada palavra ou sinal de pontuação; 3. Etiquetador POS: responsável por atribuir uma classe morfológica a cada uma das palavras; 4. Etiquetador NP: identificar os sintagmas nominais dentro da sentença. Posteriormente é aplicada a restrição sintática com o objetivo de extrair as frases relacionais que combinam com o padrão descrito na Figura 2. Após a extração da frase relacional, as frases nominais mais próximas à esquerda e à direita na sentença são selecionadas, formando a tripla (e 1, fraserelacional, e 2 ). Por exemplo, a sentença A decisão sobre a UFM caberá ao prefeito Paulo Maluf. geraria a frase relacional caberá ao, por esta se tratar de um verbo seguido de preposição, sendo extraída a tripla ( A decisão sobre a UFM, caberá ao, prefeito Paulo Maluf )

6 Figura 2. Expressão regular para extração das relações [Fader et al. 2011] 3.2. Classificação A etapa de classificação concentra a principal contribuição deste trabalho. Os trabalhos em ORE, disponíveis na literatura para o Inglês, possuem em sua metodologia etapas dependentes de idioma. O presente trabalho propõe classificar as relações a partir da sua estrutura gramatical. As seguintes etapas fazem parte deste processo de classificação: 1. Construção da base reduzida: uma base reduzida (base de exemplos) é construída a partir de textos na língua alvo com relações obtidas da etapa de extração e classificada manualmente por um juiz; 2. Treinamento: a estrutura gramatical é mapeada em uma estrutura de grafos; 3. Classificação: o algoritmo SEG verifica a similaridade entre as relações comparando-as com estruturas similares presentes na base de exemplos. Dado três grafos da base de treinamento G t1, G t2 e G t3, onde G t1 foi classificado manualmente como válido e G t2 e G t3 são inválidos, o grafo da base de testes G ti é classificado baseado na comparação com os três grafos da base de exemplos. A Tabela 1 apresenta o cálculo de similaridade entre o grafo na base de teste G ti com os grafos na base de treinamento (G t1, G t2, G t3 ), obtendo os valores na Tabela 1. Tabela 1. Exemplo de comparação entre estruturas Comparação Similaridade G t1 G ti 0.95 G t3 G ti 0.63 G t2 G ti 0.57 Como o grafo G ti foi mais similar com G t1 e tendo G t1 sido classificado manualmente como válido, G ti é classificado pelo algoritmo também como válido. 4. Experimentos Preliminares Um experimento parcial foi realizado com o objetivo de avaliar a etapa de extração descrita na Seção 3. Esse experimento consistiu na validação do método proposto na etapa de extração aplicando-o em uma base em Inglês. A base foi disponibilizada por [Fader et al. 2011] e consiste em um arquivo de texto com 500 sentenças selecionadas da Web sem nenhum tipo de processamento prévio. A Figura 3 traz o número de extrações realizadas por cada ferramenta. É importante citar que no caso do SEG não houve uma etapa de classificação (o que justifica o maior número de extrações), porém, a metodologia utilizada enfatiza a importância de extrair o maior número de relações possível durante esta etapa. Isso mostra que o resultado

7 obtido é satisfatório, visto que amplia as possibilidades de classificação através do método proposto, que ainda está em desenvolvimento. Tendo o resultado da etapa de extração sido satisfatório, isso amplia as possibilidades de maximização na etapa de classificação. É notório observar que o número de extrações obtido com o SEG foi quase duplicado em relação as extrações obtidas pelo ReVerb [Fader et al. 2011]. Por fim, as extrações obtidas não foram analizadas quantitativamente, visto que não há uma separação explícita da etapa de classificação. Figura 3. Número de extrações obtidas por cada trabalho 5. Conclusões A maioria dos trabalhos atuais realizam ORE exclusivamente para o Inglês. Esse idioma possui ferramentas linguísticas mais sofisticadas e grandes bases de treinamento. Muitas dessas ferramentas não estão disponíveis para outros idiomas. Esse fato eleva a necessidade de métodos independentes de idiomas. Além disso, é importante observar que estes novos idiomas não possuem uma base de treinamento, o que demanda esforço e tempo para a construção da mesma. Este trabalho tem por objetivo reduzir o esforço nesta construção e consequentemente no processamento da etapa de classificação. A próxima etapa desse trabalho corresponde a conclusão do desenvolvimento e teste do método proposto denominado SEG. Espera-se que a utilização dessa abordagem apresente resultados similares ou melhores aos encontrados na literatura, com a vantagem da independência de idioma e necessidade de uma base de treinamento reduzida. Agradecimentos: à FAPESB pela concessão de bolsa de pesquisa BOL0334/2015. Referências Angeli, G., Premkumar, M. J., and Manning, C. D. (2015). Leveraging linguistic structure for open domain information extraction. Linguistics, (1/24). Banko, M., Cafarella, M. J., Soderland, S., Broadhead, M., and Etzioni, O. (2007). Open information extraction for the web. In IJCAI, volume 7, pages

8 Banko, M., Etzioni, O., and Center, T. (2008). The tradeoffs between open and traditional relation extraction. In ACL, volume 8, pages Del Corro, L. and Gemulla, R. (2013). Clausie: clause-based open information extraction. In Proceedings of the 22nd international conference on World Wide Web, pages ACM. Fader, A., Soderland, S., and Etzioni, O. (2011). Identifying relations for open information extraction. In Proceedings of the Conference on Empirical Methods in Natural Language Processing, pages Association for Computational Linguistics. Faruqui, M. and Kumar, S. (2015). Multilingual open relation extraction using crosslingual projection. arxiv preprint arxiv: Marcus, M. P., Marcinkiewicz, M. A., and Santorini, B. (1993). Building a large annotated corpus of english: The penn treebank. Computational linguistics, 19(2): Pereira, V. and Pinheiro, V. (2015). Report-um sistema de extração de informações aberta para língua portuguesa. In Proceedings of Symposium in Information and Human Language Technology, pages Sociedade Brasileira de Computação. Schmitz, M., Bart, R., Soderland, S., Etzioni, O., et al. (2012). Open language learning for information extraction. In Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, pages Association for Computational Linguistics. Souza, E. N. P. and Claro, D. B. (2014). Extração de relações utilizando features diferenciadas para português. Linguamática, 6(2): Wu, F. and Weld, D. S. (2010). Open information extraction using wikipedia. In Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics, pages Association for Computational Linguistics.