O Corpus CSTNews e sua Complementaridade Temporal

Transcrição

1 O Corpus CSTNews e sua Complementaridade Temporal Jackson W. C. Souza 1,3, Ariani Di Felippo 2,3 1 Programa de Pós-graduação em Linguística e Língua Portuguesa (PPGL/UFSCar) 2 Departamento de Letras (DL) - Universidade Federal de São Carlos (UFSCar) Caixa Postal São Carlos, SP, Brasil 3 Núcleo Interinstitucional de Linguística Computacional NILC Inst. de Ciências Matemáticas e de Computação (ICMC) - Universidade de São Paulo (USP) Caixa Postal São Carlos, SP, Brasil {jackcruzsouza, arianidf}@gmail.com Resumo. O corpus CSTNews é o recurso linguístico que tem subsidiado as pesquisas sobre Sumarização Automática Multidocumento (SAM) envolvendo o português. Dentre suas inúmeras anotações, destaca-se que os textos-fonte estão conectados pelas relações do modelo Cross-document Structure Theory. Neste artigo, investigar-se-ão as relações Follow-up e Historical background, que expressam diferentes tipos de complementaridade temporal. Especificamente, analisa-se a ocorrência de expressões temporais nas sentenças anotadas por essas relações com o objetivo de caracterizar linguisticamente o CSTNews, gerando conhecimento para a SAM, como a classificação automática dessas relações semântico-estruturais. Palavras-chave: sumarização multidocumento, relações CST, complementariedade temporal, corpus multidocumento. 1 Introdução No Processamento Automático das Línguas Naturais (PLN), a importância dos recursos linguísticos é amplamente reconhecida. Dentre eles, destacam-se os corpora, ou seja, conjuntos de dados linguístico-textuais coletados criteriosamente com o propósito de servirem para a pesquisa de uma língua ou variedade linguística [1]. Assim definidos, os corpora permitem o estudo da língua e a consequente definição manual de regras ou o aprendizado estatístico das mesmas. Para a Sumarização Automática Multidocumento (SAM), os pesquisadores do PLN no Brasil têm utilizado amplamente o CSTNews [2], corpus com 50 coleções ou grupos de textos. Cada coleção contém basicamente (i) 2 ou 3 notícias jornalísticas sobre um mesmo assunto compiladas de fontes distintas e (ii) 1 sumário humano multidocumento. As coleções possuem em média 42 sentenças e os sumários humanos multidocumento possuem em média 7 sentenças. Ademais, as coleções estão categorizadas pelos rótulos das seções dos jornais dos quais os textos foram compilados. Assim, o corpus possui coleções das seguintes categorias: esporte (10 coleções), mundo (14 coleções), dinheiro (1 coleção), política (10 coleções), ciência (1 coleção) e cotidiano (14 coleções).

2 O CSTNews possui diversas anotações. Dentre elas, destaca-se que os textos-fonte foram manualmente interconectados em cada coleção pelas relações da Crossdocument Structure Theory (CST) [3]. A CST é uma teoria semântico-discursiva que permite relacionar em pares segmentos de diferentes textos que abordam um mesmo assunto, explicitando informações redundantes, complementares e/ou contraditórias, diferenças de estilo de escrita, ordenação temporal dos eventos/fato, etc. A partir dessa explicitação, tem-se desenvolvidos métodos de SAM que não selecionam sentenças redundantes ou contraditórias para compor o sumário, mas selecionam sentenças complementares. Dada a importância da CST, tem-se focado a identificação automática das relações na SAM. O parser discursivo CSTParser [4], desenvolvido para o português, por exemplo, identifica as relações de complementaridade entre 2 sentenças com aproximadamente 70% de precisão, baseando-se apenas na similaridade lexical entre elas. Neste artigo, investigar-se-ão as relações Follow-up e Historical background, que expressam diferentes tipos de complementaridade temporal. Analisar-se-á a ocorrência de expressões temporais (ETs) nas sentenças anotadas por essas relações, objetivando-se caracterizar o CSTNews e gerar conhecimento para a SAM, como regras e/ou classificação automática dessas relações previstas pelo modelo CST. Na Seção 2, apresentam-se as relações de complementariedade temporal, Followup e Historical background. Na Seção 3, descreve-se a análise das relações do modelo CST no CSTNews. Por fim, na Seção 4, tecem-se os comentários finais. 2 As relações CST e as Expressões Temporais no CSTNews A partir da anotação do CSTNews, propôs-se uma tipologia na qual as relações foram classificadas em relações de conteúdo e relações de forma [2]. As relações de conteúdo são de redundância, complemento ou contradição. As relações de forma dizem respeito à fonte/autoria ou estilo. As relações de complementaridade dividemse em temporais ou atemporais. As temporais são Follow-up e Historical background. Follow-up ocorre quando, dado um par de sentenças e, apresenta acontecimentos/eventos que sucederam os acontecimentos/eventos presentes em ; os acontecimentos em e em devem ser relacionados e ter um espaço de tempo relativamente curto entre si, como em (1). Historical background ocorre quando apresenta informações históricas/passadas sobre algum elemento de, como em (2). (1) Follow-up (2) Historical background A pista auxiliar de Congonhas abriu às 6h, apenas para decolagens. Congonhas só abriu para pousos, às 8h50. Um acidente aéreo na localidade de Bukavu, no leste da República Democrática do Congo (RDC), matou 17 pessoas na quinta-feira à tarde, informou nesta sexta-feira um porta-voz das Nações Unidas. Acidentes aéreos são frequentes no Congo, onde 51 companhias privadas operam com aviões antigos principalmente fabricados na

3 antiga União Soviética. Como mencionado, o CSTNews possui uma gama variada de anotações. Uma delas consiste na identificação das ETs [5]. Para a anotação das ETs, utilizou-se a tipologia de [6]. De acordo com essa tipologia, as ETs são de 4 tipos: (i) tempo calendário, (ii) frequência (p.ex.: Ocorrerá entre os dias 29 e 31 de julho ), (iii) duração (p.ex.: O Natal é comemorado todo ano ) e (iv) genérico (p.ex.: Eu gosto do mês de julho ). As ETs que expressam tempo calendário são de 3 subtipos: (i) hora (p.ex.: Ele chegou às 9h30m), (ii) data e (iii) intervalo (p.ex.: Entre junho e julho ). E, por fim, as ETs do subtipo data são: (i) enunciação (p.ex.: Partiu em março ), (ii) textual (p.ex.: Um dia após a venda ) e (iii) absoluto (p.ex.: O acidente ocorreu em fevereiro de 2002 ). Tendo em vista a explicitação dessas expressões, analisou-se a ocorrência das ETs nos pares de sentenças do CSTNews anotados pelas relações de complementariedade temporal com o objetivo de verificar se essas relações no CSTNews caracterizam-se pela ocorrência de expressões temporais de tipos específicos, a fim de depreender conhecimento linguístico específico para a classificação automática dessas relações. Na sequência, descreve-se a análise de corpus. 3 Análise de corpus Do total de 380 pares de sentenças anotados com as relações Follow-up e Historical background, apenas 114 pares foram analisados manualmente até o momento, ou seja, 30%. Nesses 114 pares, constatou-se: a) as ETs ocorrem em 38 dos 57 pares anotados com Follow-up (ETs de hora e data ); ou seja, essas expressões estão presentes em 66,6% dos pares; b) a informação temporal nos pares de Follow-up também é indicada por outros mecanismos linguísticos. Por exemplo, em (3), a informação temporal é expressa por uma oração subordinada adverbial, iniciada pela conjunção quando ; isso foi observado em 19 dos 57 pares (ou seja, em 33,3% dos pares); (3) Todos morreram quando o avião, prejudicado pelo mau tempo, não conseguiu chegar à pista de aterrissagem e caiu numa floresta a 15 quilômetros do aeroporto de Bukavu. O avião acidentado, operado pela Air Traset, levava 14 passageiros e três tripulantes. c) as ETs ocorrem em 47 dos 57 pares anotados com Historical background (ETs de data e duração ). Ou seja, a frequência de ETs nesses pares é de 82,4%. Em (4), por exemplo, ambas as sentenças do par apresentam expressões temporais ( em julho do ano passado, em, e naquele horário, em ); Em julho do ano passado, a média foi de 36 km no horário. Naquele horário, segundo a CET (Companhia de Engenharia de Tráfego), havia (4) 110 km de congestionamento em toda a cidade enquanto a média para o horário era de 76 km. d) as ETs do tipo tempo calendário ocorrem tanto nos pares anotados com Followup, como nos pares conectados por Historical background;

4 e) as ETs do subtipo data ocorrem em 42 dos 57 pares cujas sentenças estão relacionadas por Historical background, ou seja, a frequência de ETs do subtipo data é de 73,6%; f) as ETs do subtipo hora ocorrem em 24 dos 57 pares cujas sentenças estão relacionadas Follow-up, ou seja, essas ETs ocorrem em 42,1% desses pares. Na Tabela 1, sistematiza-se a ocorrência das informações temporais (ETs ou outros) nas sentenças do CSTNews anotadas com Follow-up e Historical background. Tabela 1. Expressão de tempo nas relações de complementaridade temporal do CSTNews. Mecanismo linguístico Relação Expressão Temporal Total de CST Tempo calendário Outro 1 pares Frequência Duração Hora Data Follow-up Historical background Visando a criação de classificadores para a identificação das relações CST, com base em técnicas de aprendizado automático (simbólico e sistema de regras), elegeu-se o ambiente Weka (Waikato Environment for Knowledge Analysis) [7], o qual possui tais técnicas de aprendizado automático. O subcorpus foi pré-processado, a fim de gerar dados em formato adequado ao Weka. Para a classificação, foram utilizadas as ETs descritas na Tabela 1. Utilizaram-se os algoritmos J48 (simbólico) e PART (sistema de regras). O algoritmo J48, que indica quais atributos são utilizados para a classificação de dadas relações CST, obteve 79.8% de precisão, e permite observar que (i) a relação Historical background é caracterizada pelas ETs data, frequência e duração ; e que (ii) a relação Follow-up é caracterizada pela ET hora. O algoritmo PART obteve precisão de 78%, e permite observar que, dado um par de sentenças, se a ET utilizada for do subtipo data, então a relação é Historical background; se outra ET for utilizada, então se trata da relação Follow-up. 4 Considerações finais A análise manual em questão permitiu verificar que as relações Follow-up e Historical background caracterizam-se de forma distinta quanto à ocorrência de ETs. Além disso, os testes no Weka permitiram gerar regras para a identificação automática das relações de complementariedade temporal por meio de pistas na superfície textual. Agradecimentos Agradecemos à FAPESP e à CAPES pelo suporte financeiro. 1 Indica mecanismos linguísticos como os ilustrados em (3), que são se referem às ETs.

5 Referências 1. Sardinha, B. T. Linguística de Corpus. Barueri, SP: Editora Manole. (2004) 2. Cardoso, P.C.F.; Maziero, E.G.; Jorge, M.L.C.; Seno, E.M.R.; Di Felippo, A.; Rino, L.H.M.; Nunes, M.G.V.; Pardo, T.A.S. CSTNews - A Discourse-Annotated Corpus for Single and Multi-Document Summarization of News Texts in Brazilian Portuguese. In the Proceedings of the 3rd RST Brazilian Meeting, pp Cuiabá/Brazil. (2011) 3. Radev, D. R. A common theory of information fusion from multiple text sources, step one: cross-document structure. In: Acl Sigdial Workshop On Discourse And Dialogue. Proceedings, Hong Kong. (2000) 4. Maziero, E. G.; Pardo, T. A. S. CSTParser a multi-document discourse parser Menezes Filho, L.A. Pardo, T.A.S. Detecção de Expressões Temporais no Contexto de Sumarização Automática. In the Proceedings of the 2nd STIL Student Workshop on Information and Human Language Technology, pp Cuiabá/ Brasil. (2011) 6. Baptista, J.; Hagège, C.; Mamede, N. Identificação, classificação e normalização de expressões temporais do português: A experiência do segundo HAREM e o futuro. Em C. Mota e D. Santos (eds.), Desafios na avaliação conjunta do reconhecimento de entidades mencionadas: O Segundo HAREM. Linguateca. (2008) 7. Frank, E. Witten, I. H.; Hall, M. A. Data Mining: Pratical Machine Learning Toos and Techniques. 3a Ed. MK. Waikato (2011)