Extração e Representação Semântica de Fatos Temporais Leandro Gallina 1, Renata Galante 1 1 Instituto de Informática Universidade Federal do Rio Grande do Sul (UFRGS) Caixa Postal 15.064 91.501-970 Porto Alegre RS Brazil {lzgallina,galante}@inf.ufrgs.br Nível: mestrado Programa: Programa de Pós-graduação em Computação - UFRGS Ingresso: março/2009 Previsão de conclusão: março/2012 Etapas já concluídas: defesa da proposta e seminário de andamento Resumo. Este artigo descreve a abordagem Extraction of Temporal Information Using Ontologies (EXTIO), que permite a organização semântica de fatos temporais extraídos de texto em linguagem natural. EXTIO contempla: a especificação de uma gramática formal para a língua inglesa para a normalização de expressões temporais relativas (aquelas cujo valor só pode ser determinado a partir da data do documento); e a organização de fatos temporais extraídos do texto normalizado em uma ontologia. Experimentos iniciais demonstram que a gramática formal proposta para a normalização de expressões temporais relativas oferece resultados promissores. A principal contribuição deste trabalho é o processamento semântico da informação temporal disponível em formato texto em páginas da Web, para que possa ser melhor aproveitada por motores de busca, realizando inferências sobre fatos temporais. Palavras-chave: Expressões temporais, recuperação de informação, gramática formal, ontologias. 51
1. Introdução Os motores de busca atualmente são focados na informação sintática disponível nas páginas da Internet. Motores de busca comerciais como Google e Yahoo! têm fornecido resultados cada vez melhores para o usuário final, mas ainda deixam a desejar no que se refere ao processamento de informações temporais. Essas ferramentas utilizam apenas uma pequena parte da informação temporal da Web, especialmente a data de coleta do documento [Jin et al. 2008]. No entanto, existe uma grande quantidade de informação semântica disponível na Internet que pode ser inferida a partir de texto em linguagem natural. Para exemplificar, considere a figura 1 que ilustra uma página da Internet 1. Esta página traz a informação de que Bill Clinton foi presidente dos Estados Unidos de 1993 a 2001. Um ser humano, após ler esta página, será capaz de inferir que, em 1995, o presidente dos Estados Unidos era Bill Clinton. No entanto, se submetermos a pesquisa United States president 1995 a um motor de busca convencional, ele terá dificuldades em responder corretamente à pesquisa solicitada, por estar centrado apenas na informação sintática disponível nos documentos. O motor de busca poderá, entre outras estratégias, buscar pelo termo 1995 juntamente com os termos United States president em um único documento. Caso não exista um documento com esses três termos, ele não será considerado pela pesquisa. Adicionalmente, outros documentos poderão até mesmo confundir o motor de busca atribuindo grande relevância a resultados menos relevantes. Este exemplo mostra a importância de efetivamente interpretar a informação semântica do documento: um mecanismo que extrair o fato de que Bill Clinton foi presidente americano de 1993 a 2001 será capaz também de inferir que, em 1995, o presidente americano era Bill Clinton. Figura 1. Página da Web com períodos de tempo Outra fonte de informação temporal importante e pouco explorada na Internet reside nas expressões temporais relativas. Considere a página extraída da Web 2, que possui o título 2005 State of the Union Address. Em meio ao seu conteúdo, a página possui a seguinte frase: jobs. And in the last year alone, the United States has added 2.3 million new Observe a expressão last year encontrada neste trecho (ano passado). Esta expressão refere-se a um momento de tempo que ocorreu no passado. Para determinar o exato momento de tempo a que esta expressão se refere, é necessário saber a data de 1 http://www.britannica.com/ebchecked/topic/121813/bill-clinton 2 http://www.americanrhetoric.com/speeches/stateoftheunion2005.htm 52
publicação do documento. Assim, será possível computar a data absoluta correspondente a esta expressão. Por se tratar de uma expressão relativa à data do documento, esta construção é chamada de expressão temporal relativa. Em relação à data de publicação do documento, as expressões temporais relativas podem se referir a momentos no passado, futuro ou no presente, por exemplo three years ago, next year e today, respectivamente. No exemplo acima, dado que o documento foi publicado no ano de 2005, a expressão last year é normalizada para a data absoluta de 2004. Uma vez realizada esta etapa de normalização, um motor de busca à procura de números de emprego em 2004 nos Estados Unidos poderá encontrar esta página. O objetivo deste trabalho de mestrado é definir uma abordagem que permita a organização semântica de fatos temporais extraídos de texto. Esta abordagem, denominada EXTIO (Extraction of Temporal Information Using Ontologies), é baseada em duas etapas: primeiramente, o texto será submetido a uma etapa de normalização de expressões temporais, em que todas as ocorrências de data serão normalizadas para uma representação única. Isto inclui transformar expressões temporais relativas em datas absolutas. Em seguida, o texto passará por uma etapa de extração de fatos temporais. Os fatos temporais extraídos serão organizados em uma ontologia, para que posteriormente seja possível realizar inferências temporais sobre estes fatos. A principal contribuição deste trabalho é o processamento adequado da informação temporal disponível nas páginas da Web, para que possa ser melhor aproveitada por motores de busca, incluindo um processo de normalização de expressões temporais relativas. O principal foco de aplicação da abordagem EXTIO é em páginas da Web com qualquer tipo de expressão temporal, como notícias e biografias. O restante do texto está organizado como segue. Na Seção 2, é apresentada a revisão bibliográfica sobre o tema. A Seção 3 descreve a abordagem proposta neste trabalho (EXTIO) e alguns experimentos iniciais. Por fim, na Seção 4, são expostas as conclusões parciais e atividades futuras. 2. Trabalhos Relacionados A Web se tornou uma importante fonte de documentos sobre os quais se podem aplicar métodos de extração de informação. Diversas abordagens de extração de informações a partir de texto em linguagem natural já foram propostas, como Gate/Annie [Maynard and Cunningham 2003], Leila [Suchanek et al. 2006] e Open- Calais 3. Dentre estes, o sistema Leila é baseado em uma gramática de dependências [Sleator and Temperley 1993] para descobrir relações entre as palavras de uma frase. É gerado um grafo destas relações e o sistema utiliza métodos de aprendizado estatístico para extrair fatos baseado em modelos: a repetição de um grafo já ocorrido em um modelo fornecido pode indicar a repetição daquela relação entre palavras. Diversas ontologias de propósito geral estão sendo desenvolvidas em projetos acadêmicos e da indústria. O projeto TOB [Zhang et al. 2008] propõe uma ontologia de propósito geral, inclusive para representação de informação temporal. No entanto, esta ontologia não se baseia nos formatos padrão recomendados pela W3C 4 como RDF/XML [Heath and Bizer 2011]. O projeto DBpedia [Auer et al. 2007] possui o objetivo de or- 3 http://www.opencalais.com/ 4 http://www.w3.org/ 53
ganizar semanticamente fatos extraídos de infoboxes da Wikipédia. A ontologia da DBpedia, por seguir os padrões recomendados pela W3C, foi escolhida para representar semanticamente os fatos extraídos pela abordagem deste trabalho. Esta ontologia, que está livremente disponível 5, será utilizada para armazenar os fatos extraídos, de forma que será possível realizar inferências temporais sobre elas. Espera-se que o resultado final deste trabalho prove ou refute a viabilidade desta abordagem. 3. EXTIO Extraction of Temporal Information Using Ontologies A figura 2 apresenta a arquitetura da abordagem EXTIO, que tem como objetivo normalizar as expressões temporais do texto e extrair os fatos temporais para armazená-los em uma ontologia. Figura 2. Arquitetura da abordagem EXTIO O passo 1 é obter a data do documento, que servirá como base para a normalização de expressões temporais relativas. Em seguida, no passo 2, todas as ocorrências de datas são normalizadas, incluindo as expressões temporais relativas. Esta normalização é baseada em um método inédito proposto neste trabalho, que é a normalização de expressões temporais relativas através de uma gramática formal. O parser da gramática faz a normalização do texto com base em um conjunto de regras. Uma vez que o texto possua todas as ocorrências de data representadas de uma mesma maneira, é possível realizar a extração de fatos temporais no passo 3. Finalmente, no passo 4, os fatos temporais extraídos são armazenados na ontologia da DBpedia. 3.1. Normalização de expressões temporais relativas Na abordagem EXTIO, a normalização de expressões temporais relativas é realizada através de uma gramática formal para expressões de língua inglesa. Esta gramática formal foi especificada e implementada de forma que as regras da gramática realizam a normalização do texto, convertendo expressões relativas como yesterday, next month e last Tuesday para datas absolutas, com base na data de publicação do documento. Até onde é conhecido pelos autores deste trabalho, esta é a primeira vez que uma gramática formal é utilizada na normalização de expressões temporais, fazendo deste um método inédito. A listagem abaixo traz a regra principal do parser da gramática de EXTIO. temporal expression today tomorrow yesterday months ago years ago last weekday next weekday weekday last year next year day month word month date without year 5 http://wiki.dbpedia.org/ontology 54
Por premissas de espaço, apenas a regra principal da gramática está incluída neste texto. A gramática completa com exemplos de seu funcionamento durante o processo de normalização pode ser encontrada em [Gallina et al. 2011]. 3.2. Experimentos iniciais Para avaliar a eficiência da gramática formal proposta, foram realizados experimentos com o objetivo de determinar sua precisão e revocação. Para os experimentos foi utilizado o corpus de notícias LA Times. A partir de um corpus de 195 notícias, 777 expressões temporais relativas foram identificadas manualmente. Após a realização dos experimentos foram obtidos os resultados demonstrados na tabela 1. A precisão de 82,3% e a revocação de 80,2% são resultados promissores, semelhantes aos obtidos por outros trabalhos da área [Verhagen and Pustejovsky 2008] [Mani and Wilson 2000]. A gramática é bastante abrangente em relação às expressões temporais relativas que são tratadas, obtendo assim bons resultados de precisão e revocação. Tabela 1. Resultados Total Encontradas Acertos Erros Precisão Revocação 777 757 623 134 82,3% 80,2% 3.3. Próximas atividades O sistema de extração de informações Leila suporta apenas a extração de relações binárias entre as palavras de uma frase (por exemplo: X nasceu na data T ). O uso de tal abordagem pode resultar em uma baixa revocação do sistema, pois apenas uma parte dos fatos temporais é binária. O diferencial de EXTIO é extrair relações ternárias (como A comprou B em T0 ) e quaternárias de texto ( M trabalhou em N de T1 até T2 ), e não apenas relações binárias. Assim, para completar o trabalho, o sistema Leila existente será estendido de forma que suportará fatos temporais ternários e quaternários. Os fatos extraídos devem ser inseridos na ontologia da DBpedia. Para isto, esses fatos deverão ser convertidos para algum formato de representação de triplas ontológicas, como RDF/XML, RDFa ou N-Triples [Heath and Bizer 2011], de forma correspondente à estrutura da DBpedia. Em seguida, os fatos serão inseridos na ontologia da DBpedia, que está disponível livremente na Internet. Estas etapas serão validadas com a realização de experimentos que busquem medir a eficiência do método EXTIO, utilizando para isto as métricas de precisão e revocação. Estes experimentos serão realizados em dois momentos. Primeiramente, serão feitos experimentos sobre o método de extração de fatos temporais binários, ternários e quaternários a partir de um corpus com fatos temporais manualmente anotados. Depois que os fatos temporais forem inseridos na ontologia, novos experimentos serão realizados, realizando buscas que provoquem inferências sobre os fatos temporais. Adicionalmente, serão realizados experimentos comparativos utilizando outros trabalhos como baseline, como o projeto TOB [Zhang et al. 2008]. 4. Conclusões parciais e trabalhos futuros Este trabalho descreve a abordagem EXTIO, que propõe: a normalização de expressões temporais relativas de texto em língua inglesa, usando para isto um método inédito, uma 55
gramática formal; e a organização de fatos temporais extraídos deste mesmo texto em uma ontologia, permitindo a subsequente realização de inferências sobre a ontologia. Como próximos passos, destacam-se: (i) a realização de experimentos de comparação com outros trabalhos da área de normalização de expressões temporais relativas; (ii) a implementação de extração de fatos ternários e quaternários de texto; (iii) a extração de fatos temporais do texto normalizado; (iv) a inserção dos fatos binários na ontologia da DBpedia; (v) a realização de experimentos para verificação dos resultados; e (vi) ajustes na proposta de acordo com o resultado dos experimentos. Referências Auer, S., Bizer, C., Kobilarov, G., Lehmann, J., Cyganiak, R., and Ives, Z. (2007). Dbpedia: a nucleus for a web of open data. In Proceedings of the 6th international The semantic web and 2nd Asian conference on Asian semantic web conference, ISWC 07/ASWC 07, pages 722 735, Berlin, Heidelberg. Springer-Verlag. Gallina, L., Galante, R., and Dorneles, C. F. (2011). Formal grammar for the normalization of relative temporal expressions. WWW/IADIS 11. Heath, T. and Bizer, C. (2011). Linked Data: Evolving the Web into a Global Data Space. Morgan & Claypool, 1st edition. Jin, P., Lian, J., Zhao, X., and Wan, S. (2008). Tise: A temporal search engine for web contents. In Proceedings of the 2008 Second International Symposium on Intelligent Information Technology Application - Volume 03, pages 220 224, Washington, DC, USA. IEEE Computer Society. Mani, I. and Wilson, G. (2000). Robust temporal processing of news. In Proceedings of the 38th Annual Meeting on Association for Computational Linguistics, ACL 00, pages 69 76, Stroudsburg, PA, USA. Association for Computational Linguistics. Maynard, D. and Cunningham, H. (2003). Multilingual adaptations of annie, a reusable information extraction tool. In Proceedings of the tenth conference on European chapter of the Association for Computational Linguistics - Volume 2, EACL 03, pages 219 222, Stroudsburg, PA, USA. Association for Computational Linguistics. Sleator, D. and Temperley, D. (1993). Parsing english with a link grammar. In Proceedings of the 3rd International Workshop on Parsing Technologies. Suchanek, F. M., Ifrim, G., and Weikum, G. (2006). Combining linguistic and statistical analysis to extract relations from web documents. In Proceedings of the 12th ACM SIGKDD international conference on Knowledge discovery and data mining, KDD 06, pages 712 717, New York, NY, USA. ACM. Verhagen, M. and Pustejovsky, J. (2008). Temporal processing with the tarsqi toolkit. In 22nd International Conference on on Computational Linguistics: Demonstration Papers, COLING 08, pages 189 192, Stroudsburg, PA, USA. Association for Computational Linguistics. Zhang, Q., Suchanek, F. M., Yue, L., and Weikum, G. (2008). Tob: Timely ontologies for business relations. In WebDB. 56