Extração e Representação Semântica de Fatos Temporais

Documentos relacionados
Mineração de Textos na Web

Extração e Representação Semântica de Fatos Temporais

Extração de Alvos em Comentários de Notícias em Português baseada na Teoria da Centralização

Verificação automática de substantivos compostos através de reconhecimento de padrões sintáticos

Uma abordagem de classificação automática para Tipo de Pergunta e Tipo de Resposta

RDFMat Um serviço para criação de repositórios de dados RDF a partir de crawling na Web de dados

Desenvolvimento de Sistemas de Extração de Informações para Ambientes Colaborativos na Web

U NIVERSIDADE F EDERAL DE P ERNAMBUCO

Caracterização de Imagens via Redes Neurais Artificiais

Índice. Classificação de textos para o ensino de português como segunda língua. Índice. technology from seed

Algoritmo para Construção do Diagrama de Voronoi com abordagem de Divisão e Conquista

Adaptação do Sistema de Busca Semântica ao Padrão XML e Automatização do Processo de Modelagem dos Objetos de Aprendizagem no ROAI para o Padrão OWL

Universidade Federal de Pernambuco

Sistema de Aquisição semi-automática de Ontologias

Comparação dos algoritmos sequencial e paralelo para contagem de palavras e contexto

Predição de links em uma rede heterogênea baseada em dados geolocalizados e de relacionamentos

Uma Arquitetura de Tutor Inteligente que Provê Suporte ao Diálogo com o Aluno Iniciante em Linguagem de Programação

Construção de Linked Data Mashup: Integração de Dados na Saúde Pública. Gabriel Lopes, Vânia Vidal e Mauro Oliveira.

Identificação de Pontos Perceptualmente Importantes (PIP) em séries temporais de tópicos extraídos de dados textuais

Autor 1 Orientador: 1. dia de mês de ano

Sistemas de Recomendação Uma abordagem geral

UMA FERRAMENTA PARA A PESQUISA EM CORPORA DE AQUISIÇÃO DE LINGUAGEM

DESENVOLVIMENTO DE UM SISTEMA DE INFORMAÇÃO GEOGRÁFICA PARA GERAÇÃO DE MAPAS PLUVIOMÉTRICOS

CC-226 Introdução à Análise de Padrões

Declaração de Pesquisa: Extração Automática de Ontologias da Wikipédia

1 Introdução Motivação

Implementação de um Modelo para Previsão de Evasão Escolar no IFSULDEMINAS

UNIVERSIDADE FEDERAL DE SANTA CATARINA SISTEMAS DE INFORMAÇÃO E CIÊNCIAS DA COMPUTAÇÃO INE CTC DATA MINING Prof.: Luis Otavio Campos Alvares

Descritores de Imagens

MINERAÇÃO DE DADOS EM ARQUIVOS DE LOG GERADOS POR SERVIDORES DE PÁGINAS WEB

Sistemas Digitais INE 5406

UNIVERSIDADE FEDERAL DE PERNAMBUCO CENTRO DE INFORMÁTICA GRADUAÇÃO EM ENGENHARIA DA COMPUTAÇÃO

Descoberta de conhecimento em textos - Análise semântica. Diogo Cardoso Eduardo Camilo Inácio Eduardo Monteiro Dellandréa Guilherme Gomes

Análise de sentimentos para português brasileiro usando redes neurais recursivas

18º Congresso de Iniciação Científica TRATAMENTO DE REGRAS DA ASSOCIAÇÃO MULTIRELACIONAL NA FERRAMENTA DE MINERAÇÃO DE DADOS KIRA

UNIVERSIDADE FEDERAL DE P ERNAMBUCO

Estratégias de Teste para Modelos Baseados no Simulink

OntoLP: Engenharia de Ontologias em Língua Portuguesa

Utilização de técnicas de Process Mining em Sistemas de Middleware Adaptativos Proposta de Trabalho de Graduação

Utilizando Features Linguísticas Genéricas para Classificação de Triplas Relacionais em Português

Gazetteers - Aplicação em RI Geográfica. Ivre Marjorie R. Machado

Uma ferramenta para Definição de Mapeamentos entre Vocabulários usados na publicação de Dados Linkados

Classificação Hierárquica Multirrótulo Utilizando Redes Neurais Artificiais

1 Introdução. 1 World Wide Web Consortium -

TEMPLATE PARA TCC IFFAR - SVS

Aprendizado por imitação usando Redes Neurais

Metodologias para a Seleção de Atributos Relevantes

Publicação Eletrónica - Vislumbres do futuro sob uma perspetiva da Web Semântica. Ana Alice Baptista Universidade do Minho - Portugal

Um Mecanismo de Consulta Temporal por Palavras-Chave em Páginas Web

SBC - Sistemas Baseados em Conhecimento

Webmedia 06 Diego Fiori de Carvalho Júlio Cézar Estrella Renata Pontin de Mattos Fortes Rudinei Goularte

2 Sentiment Analysis 2.1

Extração de características utilizando filtros de Gabor aplicado a identificação de defeitos no couro bovino

Análise e conversão de tabloides de. Igor dos Santos Montagner Orientador: Prof. Dr. Roberto Marcondes Cesar Junior. promoções

5 Conclusão e trabalhos futuros

PREVISÃO EM SÉRIES TEMPORAIS COMBINANDO MODELOS ESTATÍSTICOS E CONCEITOS FUZZY

UBIBUSANALYSIS UMA FERRAMENTA DE INTERPRETAÇÃO DE

Semântica na Web. Carlos Bazilio. Depto de Computação Instituto de Ciência e Tecnologia Universidade Federal Fluminense

Encontro 10 Anos da Linguateca PROPOR 2008 Aveiro Portugal

MODELO DE CLASSIFICAÇÃO AUTOMÁTICA DE QUESTÕES NA LÍNGUA PORTUGUESA Henrique Maia Braum 1, Sandro José Rigo 1, Jorge L. V.

132 6 Conclusão 6.1. Contribuições da Tese

Aplicação de Histograma de Gradientes Orientados para detecção de hidrômetros em imagens de fundo complexo

Sumário. Trabalho que foi desenvolvido. Introdução

PLN e áreas correlatas

Revisão Sistemática de Validação de Ontologias

7 Congresso de Pós-Graduação MODELAGEM DE BASE DE CONHECIMENTO PARA TAREFA DE CLASSIFICAÇÃO EM MINERAÇÃO DE DADOS

Matéria: Desenho e desenvolvimento de tecnologias linguísticas

Um Método para Melhoria de Dados Estruturados de Imóveis

Avaliação de Desempenho de Sistemas Operacionais em dispositivos embarcados para a provisão de serviços em Internet das Coisas

Universidade Católica Dom Bosco

Extração de atributos usando o método LBP - Local Binary Pattern

MAC 5701 Tópicos em Ciência da Computação. Plano de Estudos

Integração de Dados. Processamento Analítico de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri Prof. Dr. Ricardo Rodrigues Ciferri

Um Mecanismo de Detecção de Versões de Páginas Web para Melhoria do Desempenho do Algoritmo de PageRank

Utilização da Indexação Automática para Auxílio à Construção de uma Base de Dados para a Extração de Conhecimento aplicada à Doenças Pépticas

CIN 7601 PLANO DE ENSINO (2018.2)

O USO DE BADGES PARA PROMOVER A MOTIVAÇÃO E O ENGAJAMENTO DE DISCENTES NA DISCIPLINA ONLINE DE METODOLOGIA DA PESQUISA DO ENSINO SUPERIOR

Classificação de Sentença

Proposta de Plano de Estudos. Modelos de Segurança em Assinatura sem Certificado. MAC Tópicos Especiais em Ciência da Computação

Análise de métodos de Inferência Ecológica

Extração de Informações na Web

Aluno: Lucas Schmidt. Orientador: Prof. Dr. Ricardo Rabelo Co-orientador: Prof. Dr. Fabrício Benevenuto

étodos uméricos Erros Visão Geral Prof. Erivelton Geraldo Nepomuceno PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA

REVISÃO SISTEMÁTICA APLICADA À ENGENHARIA DE RISCOS DE PROJETOS DE SOFTWARE.

Universidade Católica Dom Bosco

Gerenciamento de Regras de Qualidade em Cadeias Produtivas Agrícolas

Análise Automática de Coerência Textual em Resumos Científicos: Avaliando Quebras de Linearidade

Síntese de programas utilizando a linguagem Alloy

JADEX: A BDI REASONING ENGINE. Alexander Pokahr, Lars Braubach e Winfried Lamersdorf Springer US - Multi-Agent Programming 2005 pp.

Avaliação de atividades de programação submetidas em MOOC com emprego de técnicas de visualização

Uma Abordagem de Gerenciamento Contextual de Recursos Dinâmicos em Ambientes Pervasivos: Estudo de Caso em Aplicações de Home Care

Geração Automática de Metadados

Avaliação do Algoritmo de Força-Bruta para a Identificação de Padrões Freqüentes em Séries Temporais

Visualização de Texto e Documento

Medidas de Avaliação

Identificação e Tratamento de Expressões Multipalavras aplicado à Recuperação de Informação

Definição dotrabalho de Diplomação na ECP/UFRGS em Perguntas e Respostas e Procedimentos de Matrícula e Conclusão para 2008/2

Reconhecimento de texturas utilizando padrão binário local e classificador knn.

Transcrição:

Extração e Representação Semântica de Fatos Temporais Leandro Gallina 1, Renata Galante 1 1 Instituto de Informática Universidade Federal do Rio Grande do Sul (UFRGS) Caixa Postal 15.064 91.501-970 Porto Alegre RS Brazil {lzgallina,galante}@inf.ufrgs.br Nível: mestrado Programa: Programa de Pós-graduação em Computação - UFRGS Ingresso: março/2009 Previsão de conclusão: março/2012 Etapas já concluídas: defesa da proposta e seminário de andamento Resumo. Este artigo descreve a abordagem Extraction of Temporal Information Using Ontologies (EXTIO), que permite a organização semântica de fatos temporais extraídos de texto em linguagem natural. EXTIO contempla: a especificação de uma gramática formal para a língua inglesa para a normalização de expressões temporais relativas (aquelas cujo valor só pode ser determinado a partir da data do documento); e a organização de fatos temporais extraídos do texto normalizado em uma ontologia. Experimentos iniciais demonstram que a gramática formal proposta para a normalização de expressões temporais relativas oferece resultados promissores. A principal contribuição deste trabalho é o processamento semântico da informação temporal disponível em formato texto em páginas da Web, para que possa ser melhor aproveitada por motores de busca, realizando inferências sobre fatos temporais. Palavras-chave: Expressões temporais, recuperação de informação, gramática formal, ontologias. 51

1. Introdução Os motores de busca atualmente são focados na informação sintática disponível nas páginas da Internet. Motores de busca comerciais como Google e Yahoo! têm fornecido resultados cada vez melhores para o usuário final, mas ainda deixam a desejar no que se refere ao processamento de informações temporais. Essas ferramentas utilizam apenas uma pequena parte da informação temporal da Web, especialmente a data de coleta do documento [Jin et al. 2008]. No entanto, existe uma grande quantidade de informação semântica disponível na Internet que pode ser inferida a partir de texto em linguagem natural. Para exemplificar, considere a figura 1 que ilustra uma página da Internet 1. Esta página traz a informação de que Bill Clinton foi presidente dos Estados Unidos de 1993 a 2001. Um ser humano, após ler esta página, será capaz de inferir que, em 1995, o presidente dos Estados Unidos era Bill Clinton. No entanto, se submetermos a pesquisa United States president 1995 a um motor de busca convencional, ele terá dificuldades em responder corretamente à pesquisa solicitada, por estar centrado apenas na informação sintática disponível nos documentos. O motor de busca poderá, entre outras estratégias, buscar pelo termo 1995 juntamente com os termos United States president em um único documento. Caso não exista um documento com esses três termos, ele não será considerado pela pesquisa. Adicionalmente, outros documentos poderão até mesmo confundir o motor de busca atribuindo grande relevância a resultados menos relevantes. Este exemplo mostra a importância de efetivamente interpretar a informação semântica do documento: um mecanismo que extrair o fato de que Bill Clinton foi presidente americano de 1993 a 2001 será capaz também de inferir que, em 1995, o presidente americano era Bill Clinton. Figura 1. Página da Web com períodos de tempo Outra fonte de informação temporal importante e pouco explorada na Internet reside nas expressões temporais relativas. Considere a página extraída da Web 2, que possui o título 2005 State of the Union Address. Em meio ao seu conteúdo, a página possui a seguinte frase: jobs. And in the last year alone, the United States has added 2.3 million new Observe a expressão last year encontrada neste trecho (ano passado). Esta expressão refere-se a um momento de tempo que ocorreu no passado. Para determinar o exato momento de tempo a que esta expressão se refere, é necessário saber a data de 1 http://www.britannica.com/ebchecked/topic/121813/bill-clinton 2 http://www.americanrhetoric.com/speeches/stateoftheunion2005.htm 52

publicação do documento. Assim, será possível computar a data absoluta correspondente a esta expressão. Por se tratar de uma expressão relativa à data do documento, esta construção é chamada de expressão temporal relativa. Em relação à data de publicação do documento, as expressões temporais relativas podem se referir a momentos no passado, futuro ou no presente, por exemplo three years ago, next year e today, respectivamente. No exemplo acima, dado que o documento foi publicado no ano de 2005, a expressão last year é normalizada para a data absoluta de 2004. Uma vez realizada esta etapa de normalização, um motor de busca à procura de números de emprego em 2004 nos Estados Unidos poderá encontrar esta página. O objetivo deste trabalho de mestrado é definir uma abordagem que permita a organização semântica de fatos temporais extraídos de texto. Esta abordagem, denominada EXTIO (Extraction of Temporal Information Using Ontologies), é baseada em duas etapas: primeiramente, o texto será submetido a uma etapa de normalização de expressões temporais, em que todas as ocorrências de data serão normalizadas para uma representação única. Isto inclui transformar expressões temporais relativas em datas absolutas. Em seguida, o texto passará por uma etapa de extração de fatos temporais. Os fatos temporais extraídos serão organizados em uma ontologia, para que posteriormente seja possível realizar inferências temporais sobre estes fatos. A principal contribuição deste trabalho é o processamento adequado da informação temporal disponível nas páginas da Web, para que possa ser melhor aproveitada por motores de busca, incluindo um processo de normalização de expressões temporais relativas. O principal foco de aplicação da abordagem EXTIO é em páginas da Web com qualquer tipo de expressão temporal, como notícias e biografias. O restante do texto está organizado como segue. Na Seção 2, é apresentada a revisão bibliográfica sobre o tema. A Seção 3 descreve a abordagem proposta neste trabalho (EXTIO) e alguns experimentos iniciais. Por fim, na Seção 4, são expostas as conclusões parciais e atividades futuras. 2. Trabalhos Relacionados A Web se tornou uma importante fonte de documentos sobre os quais se podem aplicar métodos de extração de informação. Diversas abordagens de extração de informações a partir de texto em linguagem natural já foram propostas, como Gate/Annie [Maynard and Cunningham 2003], Leila [Suchanek et al. 2006] e Open- Calais 3. Dentre estes, o sistema Leila é baseado em uma gramática de dependências [Sleator and Temperley 1993] para descobrir relações entre as palavras de uma frase. É gerado um grafo destas relações e o sistema utiliza métodos de aprendizado estatístico para extrair fatos baseado em modelos: a repetição de um grafo já ocorrido em um modelo fornecido pode indicar a repetição daquela relação entre palavras. Diversas ontologias de propósito geral estão sendo desenvolvidas em projetos acadêmicos e da indústria. O projeto TOB [Zhang et al. 2008] propõe uma ontologia de propósito geral, inclusive para representação de informação temporal. No entanto, esta ontologia não se baseia nos formatos padrão recomendados pela W3C 4 como RDF/XML [Heath and Bizer 2011]. O projeto DBpedia [Auer et al. 2007] possui o objetivo de or- 3 http://www.opencalais.com/ 4 http://www.w3.org/ 53

ganizar semanticamente fatos extraídos de infoboxes da Wikipédia. A ontologia da DBpedia, por seguir os padrões recomendados pela W3C, foi escolhida para representar semanticamente os fatos extraídos pela abordagem deste trabalho. Esta ontologia, que está livremente disponível 5, será utilizada para armazenar os fatos extraídos, de forma que será possível realizar inferências temporais sobre elas. Espera-se que o resultado final deste trabalho prove ou refute a viabilidade desta abordagem. 3. EXTIO Extraction of Temporal Information Using Ontologies A figura 2 apresenta a arquitetura da abordagem EXTIO, que tem como objetivo normalizar as expressões temporais do texto e extrair os fatos temporais para armazená-los em uma ontologia. Figura 2. Arquitetura da abordagem EXTIO O passo 1 é obter a data do documento, que servirá como base para a normalização de expressões temporais relativas. Em seguida, no passo 2, todas as ocorrências de datas são normalizadas, incluindo as expressões temporais relativas. Esta normalização é baseada em um método inédito proposto neste trabalho, que é a normalização de expressões temporais relativas através de uma gramática formal. O parser da gramática faz a normalização do texto com base em um conjunto de regras. Uma vez que o texto possua todas as ocorrências de data representadas de uma mesma maneira, é possível realizar a extração de fatos temporais no passo 3. Finalmente, no passo 4, os fatos temporais extraídos são armazenados na ontologia da DBpedia. 3.1. Normalização de expressões temporais relativas Na abordagem EXTIO, a normalização de expressões temporais relativas é realizada através de uma gramática formal para expressões de língua inglesa. Esta gramática formal foi especificada e implementada de forma que as regras da gramática realizam a normalização do texto, convertendo expressões relativas como yesterday, next month e last Tuesday para datas absolutas, com base na data de publicação do documento. Até onde é conhecido pelos autores deste trabalho, esta é a primeira vez que uma gramática formal é utilizada na normalização de expressões temporais, fazendo deste um método inédito. A listagem abaixo traz a regra principal do parser da gramática de EXTIO. temporal expression today tomorrow yesterday months ago years ago last weekday next weekday weekday last year next year day month word month date without year 5 http://wiki.dbpedia.org/ontology 54

Por premissas de espaço, apenas a regra principal da gramática está incluída neste texto. A gramática completa com exemplos de seu funcionamento durante o processo de normalização pode ser encontrada em [Gallina et al. 2011]. 3.2. Experimentos iniciais Para avaliar a eficiência da gramática formal proposta, foram realizados experimentos com o objetivo de determinar sua precisão e revocação. Para os experimentos foi utilizado o corpus de notícias LA Times. A partir de um corpus de 195 notícias, 777 expressões temporais relativas foram identificadas manualmente. Após a realização dos experimentos foram obtidos os resultados demonstrados na tabela 1. A precisão de 82,3% e a revocação de 80,2% são resultados promissores, semelhantes aos obtidos por outros trabalhos da área [Verhagen and Pustejovsky 2008] [Mani and Wilson 2000]. A gramática é bastante abrangente em relação às expressões temporais relativas que são tratadas, obtendo assim bons resultados de precisão e revocação. Tabela 1. Resultados Total Encontradas Acertos Erros Precisão Revocação 777 757 623 134 82,3% 80,2% 3.3. Próximas atividades O sistema de extração de informações Leila suporta apenas a extração de relações binárias entre as palavras de uma frase (por exemplo: X nasceu na data T ). O uso de tal abordagem pode resultar em uma baixa revocação do sistema, pois apenas uma parte dos fatos temporais é binária. O diferencial de EXTIO é extrair relações ternárias (como A comprou B em T0 ) e quaternárias de texto ( M trabalhou em N de T1 até T2 ), e não apenas relações binárias. Assim, para completar o trabalho, o sistema Leila existente será estendido de forma que suportará fatos temporais ternários e quaternários. Os fatos extraídos devem ser inseridos na ontologia da DBpedia. Para isto, esses fatos deverão ser convertidos para algum formato de representação de triplas ontológicas, como RDF/XML, RDFa ou N-Triples [Heath and Bizer 2011], de forma correspondente à estrutura da DBpedia. Em seguida, os fatos serão inseridos na ontologia da DBpedia, que está disponível livremente na Internet. Estas etapas serão validadas com a realização de experimentos que busquem medir a eficiência do método EXTIO, utilizando para isto as métricas de precisão e revocação. Estes experimentos serão realizados em dois momentos. Primeiramente, serão feitos experimentos sobre o método de extração de fatos temporais binários, ternários e quaternários a partir de um corpus com fatos temporais manualmente anotados. Depois que os fatos temporais forem inseridos na ontologia, novos experimentos serão realizados, realizando buscas que provoquem inferências sobre os fatos temporais. Adicionalmente, serão realizados experimentos comparativos utilizando outros trabalhos como baseline, como o projeto TOB [Zhang et al. 2008]. 4. Conclusões parciais e trabalhos futuros Este trabalho descreve a abordagem EXTIO, que propõe: a normalização de expressões temporais relativas de texto em língua inglesa, usando para isto um método inédito, uma 55

gramática formal; e a organização de fatos temporais extraídos deste mesmo texto em uma ontologia, permitindo a subsequente realização de inferências sobre a ontologia. Como próximos passos, destacam-se: (i) a realização de experimentos de comparação com outros trabalhos da área de normalização de expressões temporais relativas; (ii) a implementação de extração de fatos ternários e quaternários de texto; (iii) a extração de fatos temporais do texto normalizado; (iv) a inserção dos fatos binários na ontologia da DBpedia; (v) a realização de experimentos para verificação dos resultados; e (vi) ajustes na proposta de acordo com o resultado dos experimentos. Referências Auer, S., Bizer, C., Kobilarov, G., Lehmann, J., Cyganiak, R., and Ives, Z. (2007). Dbpedia: a nucleus for a web of open data. In Proceedings of the 6th international The semantic web and 2nd Asian conference on Asian semantic web conference, ISWC 07/ASWC 07, pages 722 735, Berlin, Heidelberg. Springer-Verlag. Gallina, L., Galante, R., and Dorneles, C. F. (2011). Formal grammar for the normalization of relative temporal expressions. WWW/IADIS 11. Heath, T. and Bizer, C. (2011). Linked Data: Evolving the Web into a Global Data Space. Morgan & Claypool, 1st edition. Jin, P., Lian, J., Zhao, X., and Wan, S. (2008). Tise: A temporal search engine for web contents. In Proceedings of the 2008 Second International Symposium on Intelligent Information Technology Application - Volume 03, pages 220 224, Washington, DC, USA. IEEE Computer Society. Mani, I. and Wilson, G. (2000). Robust temporal processing of news. In Proceedings of the 38th Annual Meeting on Association for Computational Linguistics, ACL 00, pages 69 76, Stroudsburg, PA, USA. Association for Computational Linguistics. Maynard, D. and Cunningham, H. (2003). Multilingual adaptations of annie, a reusable information extraction tool. In Proceedings of the tenth conference on European chapter of the Association for Computational Linguistics - Volume 2, EACL 03, pages 219 222, Stroudsburg, PA, USA. Association for Computational Linguistics. Sleator, D. and Temperley, D. (1993). Parsing english with a link grammar. In Proceedings of the 3rd International Workshop on Parsing Technologies. Suchanek, F. M., Ifrim, G., and Weikum, G. (2006). Combining linguistic and statistical analysis to extract relations from web documents. In Proceedings of the 12th ACM SIGKDD international conference on Knowledge discovery and data mining, KDD 06, pages 712 717, New York, NY, USA. ACM. Verhagen, M. and Pustejovsky, J. (2008). Temporal processing with the tarsqi toolkit. In 22nd International Conference on on Computational Linguistics: Demonstration Papers, COLING 08, pages 189 192, Stroudsburg, PA, USA. Association for Computational Linguistics. Zhang, Q., Suchanek, F. M., Yue, L., and Weikum, G. (2008). Tob: Timely ontologies for business relations. In WebDB. 56