O tratamento da partícula se para fins de anotação de papéis semânticos

Documentos relacionados
Uma ferramenta para anotação de relações semânticas entre termos

Uma ferramenta para anotação de relações semânticas entre termos

VerbLexPor: um recurso léxico com anotação de papéis semânticos para o português

SUBCATEGORIZATION FRAMES A PARTIR DE CORPORA EM PORTUGUÊS

Anotação de papéis semânticos na prática. Magali Sanches Duran Pós-Doc USP-ICMC-NILC

Aula 09 PALAVRA SE. VOZ PASSIVA Sujeito agente Agente da passiva. VOZ ATIVA Objeto direto Sujeito paciente

Um repositório de verbos para a anotação de papéis semânticos disponível na web

ELABORAÇÃO DE DICIONÁRIO ELETRÔNICO Mauro Rebello 1, Violeta de San Tiago Dantas Barbosa Quental 2.

GUIA PARA ANOTAÇÃO LINGUÍSTICA USANDO A FERRAMENTA SALTO

Construções de Estrutura Argumental no âmbito do Constructicon da FrameNet Brasil: proposta de uma modelagem linguístico-computacional

UMA FERRAMENTA PARA A PESQUISA EM CORPORA DE AQUISIÇÃO DE LINGUAGEM

Corpus e Anotação Semântica: um Experimento para a Língua Portuguesa a partir da Semântica de Frames

Semântica no Reconhecedor Gramatical Linguístico

EXTRAÇÃO AUTOMÁTICA DE ESTRUTURAS DE SUBCATEGORIZAÇÃO A PARTIR DE CORPORA EM PORTUGUÊS

EDITOR DE ANOTAÇÃO DE SIMPLIFICAÇÃO: MANUAL DO USUÁRIO

A Floresta Sintá(c)tica como recurso Susana Afonso Projecto Floresta Sintá(c)tica

Anotação automática de papéis semânticos de textos jornalísticos e de opinião sobre árvores sintáticas não revisadas. Nathan Siegle Hartmann

Novas Ferramentas e Recursos Linguísticos para a Tradução Automática

UNIVERSIDADE FEDERAL DO CEARÁ COORDENADORIA DE CONCURSOS CCV. Evento: Concurso Público para Provimento de Cargos Técnico-Administrativos em Educação

DESENVOLVIMENTO DE UM PARSER DE CONECTORES TEXTUAIS E SUA APLICAÇÃO PARA ANÁLISE DE. Leonardo Zilio(Letras/UFRGS) Rodrigo Wilkens(PPG-Comp/UFRGS)

VERBOS AUXILIARES NO PORTUGUÊS DO BRASIL. NILC-TR Dezembro 2010

Extração de paráfrases em português a partir de léxicos bilíngues: um estudo de caso

SEMÂNTICA PARTE 3 (CONTINUAÇÃO)

Susana Afonso UMA FRAMENET PARA O PORTUGUÊS

LITERATURA LUSÓFONA PARTE DA LITERATURA MUNDIAL. recursos para leitura distante em português Diana Santos, Cláudia Freitas & João Marques Lopes

Prof. André Moraes A PALAVRA SE

SUMÁRIO ORTOGRAFIA... 29

Português 3º ano João J. Concordância Verbal

O Tratamento de Marcadores Discursivos em uma Ferramenta de Apoio à Escrita Acadêmica em Português para Nativos de Espanhol

Vozes Verbais 1. Voz ativa 2. Voz passiva

LÍNGUA PORTUGUESA PROFª.: THAÍS

SELEÇÃO E PREPARAÇÃO DE SENTENÇAS DO CORPUS PLN-BR PARA COMPOR O

Reconhecimento de Entidades Nomeadas para o Português Usando o OpenNLP

Bárbara da Silva. Português. Aula 55 Classificação do sujeito

OntoLP: Engenharia de Ontologias em Língua Portuguesa

Formulário de Resposta aos Recursos CONCURSO IBGE 2004

Índice. Classificação de textos para o ensino de português como segunda língua. Índice. technology from seed

Ontologias Linguísticas e Processamento de Linguagem Natural. Ygor Sousa CIn/UFPE

Sumário. Apresentação. Parte 1 Período simples 1 Quadro geral dos termos da oração 3 Frase, oração e período 3

Funções do pronome se. Pronome reflexivo. Narciso contemplava-se na água. = Narciso contemplava a si próprio. sujeito

REVISÃO DE ANÁLISE SINTÁTICA Período composto

INTRODUÇÃO À SINTAXE DA LÍNGUA PORTUGUESA

A ORDEM DE AQUISIÇÃO DOS PRONOMES SUJEITO E OBJETO: UM ESTUDO COMPARATIVO 10

EQUIVALENTES DE TRADUÇÃO ENTRE PORTUGUÊS, ESPANHOL E INGLÊS NA CONSTITUIÇÃO DE DICIONÁRIO TEMÁTICO TRILÍNGUE PARA A COPA

VOZES VERBAIS.

Introdução ao Processamento de Línguas Naturais. SCC5908 Introdução ao Processamento de Língua Natural. Thiago A. S. Pardo

Prof.ª Cristiana Ferreira Nunes

Uma abordagem conexionista para anotação de papéis semânticos. Erick Rocha Fonseca

Noções de Morfossintaxe

PADRÕES VERBAIS EM TEXTOS DE PEDIATRIA: CONTRAPONTOS COM O REGISTRO DICIONARIZADO

AUTOMATIC EXTRACTION OF SUBCATEGORIZATION FRAMES FROM CORPORA IN PORTUGUESE

Pedro Larronda Asti. Anotador Morfossintático para o Português-Twitter. Dissertação de Mestrado

Uma adaptação do algoritmo de Lappin e Leass para resolução de anáforas em português.

UDESC 2015/2 PORTUGUÊS. Gabarito do departamento de português sem resposta. Comentário

(1) A análise dos resultados experimentais indicaram um efeito principal de número do núcleo interveniente no processamento da concordância.

LÍNGUA PORTUGUESA GRAMÁTICA FRENTE B SINTAXE

A SEMÂNTICA DOS ADJETIVOS: COMO E POR QUE INCLUÍ-LA EM UMA ONTOLOGIA DE DOMÍNIO JURÍDICO

Noções de Morfossintaxe

O Corpus CSTNews e sua Complementaridade Temporal

Funções do que e do se

(2) A rápida publicação deste livro pela editora foi um bom negócio.

Capítulo 2 - Acentuação gráfica Regras gerais...10 Casos especiais...10 Prosódia...12 Exercícios...14

6 Atributos. A dívida da empresa subiu.

Elaboração textual via definição de entidades mencionadas e de perguntas relacionadas aos verbos em textos simplificados do português

Análise de sentimentos para português brasileiro usando redes neurais recursivas

10 Síntese e considerações finais

O Desenvolvimento de um Sistema Computacional de Sumarização Multidocumento com Base em um Método Linguisticamente Motivado

Os Limites da Criação Automática de Léxicos Computacionais Baseados em Frames: Um Estudo Contrastivo do Frame Criminal_process

Critérios para transcrição da fala espontânea

Avaliação de Centering em Resolução Pronominal da Língua Portuguesa

Ferramenta de apoio a identificação de eventos utilizando Linguagem Natural. Aluno: Ricardo Tomelin Orientador: Everaldo Artur Grahl

ANOTAÇÃO DE SENTIDOS DE VERBOS EM NOTÍCIAS JORNALÍSTICAS EM PORTUGUÊS DO BRASIL

LÍNGUA PORTUGUESA: REVISÃO DE TEXTO II

CONSTRUÇÕES COM SE APASSIVADOR E SE INDETERMINADOR: GRAMÁTICA TRADICIONAL X LINGUAGEM FALADA

Apresentação 11 Lista de abreviações 13. Parte I: NATUREZA, ESTRUTURA E FUNCIONAMENTO DA LINGUAGEM

Desenvolvimento de um recurso léxico com papéis semânticos para o português

Gramática de Montague

Nona semana do curso de Linguística III Professor Alessandro Boechat de Medeiros Departamento de Linguística e Filologia. A Teoria da Ligação

Automatização de um Método de Avaliação de Estruturas Retóricas

VerbNet.Br: construção semiautomática de um léxico computacional de verbos para o português do Brasil

TRAINING AND DISCOVERING CORPUS-BASED DATA-DRIVEN EXERCISES IN ENGLISH TEACHING (L2/FL) TO NATIVE SPEAKERS OF PORTUGUESE (L1)

Lições de Português pela análise sintática

EXTRAÇÃO E SELEÇÃO AUTOMÁTICA DE SINTAGMAS NOMINAIS EM TEXTOS EM LÍNGUA PORTUGUESA: uma análise de citação do estado da arte

Análise Sintática de Frases utilizando Gramáticas Livres de Contexto Probabilísticas

INF2981 Anotador de Papéis Semânticos para Português

LÍNGUA PORTUGUESA. Professora Rosane Reis. MÓDULO 15 Palavras QUE e SE

Comunicação. Capítulo 22

Geração de perguntas e respostas para a base de conhecimento de um chatterbot educacional

O verbo apresenta-se no plural, concordando com o sujeito que está no plural. Ex.: As nossas duas amigas italianas nos visitarão em julho.

Português. Profa. Flávia Rita

A AQUISIÇÃO DE SUJEITO NULO NO PORTUGUÊS BRASILEIRO (PB): UM ESTUDO COMPARATIVO 1

OBJETO DIRETO E OBJETO INDIRETO EM UM LIVRO DIDÁTICO: GRAMÁTICA NORMATIVA VS. GRAMÁTICA EXPLICATIVA/GERATIVA

OS DESAFIOS DA ANOTAÇÃO DE UM CORPUS DA LINGUAGEM DO FUTEBOL COM FRAMES SEMÂNTICOS

Guia de Anotação PropBank- Br

COLÉGIO DIOCESANO SERIDOENSE

Desenvolvimento de Sistemas de Extração de Informações para Ambientes Colaborativos na Web

2º ANO RESOLUÇÃO PARA PROVA DE 26/06/2014 GRAMÁTICA PROF. FASCINA

A/ART casa/n caiu/v./. Figura 3.1: Frase com anotação morfossintática.

Transcrição:

O tratamento da partícula se para fins de anotação de papéis semânticos Magali Sanches Duran, Sandra Maria Aluísio Núcleo Interinstitucional de Linguística Computacional ICMC Universidade de São Paulo - São Carlos SP Brasil magali.duran@uol.com.br, sandra@icmc.usp.br Abstract. This paper reports the reflections regarding the particle se arisen during the annotation of a Brazilian Portuguese corpus with semantic role labels. The particle se is multi-function in Portuguese and poses some difficulties to be classified, even syntactically. As the guidelines used for such semantic role labels annotation were conceived for English corpus, they obviously are not suitable to tackle all the functions of se. Project decisions present as a result a table with labels to be assigned to the particle se pronoun, which may benefit not only SRL, but also other studies in Natural Language Processing. Resumo. Este artigo relata as reflexões acerca da partícula se que surgiram durante a anotação de um corpus de português do Brasil com rótulos de papéis semânticos. A partícula se é multifuncional em português e apresenta certa dificuldade para ser classificada, mesmo sintaticamente. Como o guia usado para anotação de rótulos de papéis semânticos foi concebido para o inglês, obviamente não consegue contemplar todas as funções do se. As decisões de projeto tomadas resultaram em uma tabela com os rótulos a serem atribuídos à partícula se quando pronome, o que poderá beneficiar não somente estudos de rotulação de papéis semânticos, como também outros estudos em Processamento de Línguas Naturais. 1. Introdução A descrição do português pode ter como finalidade prover informações a falantes nativos, a aprendizes estrangeiros ou a sistemas computacionais. É nesse último caso que se enquadra o trabalho descrito neste artigo. Reportamos as decisões tomadas para anotar a partícula se para fins de rotulação de papéis semânticos em um corpus de português do Brasil. O projeto de anotação semântica que motivou o trabalho aqui descrito é o Propbank-Br (Duran, 2009) e utilizou o corpus Bosque, parte manualmente revisada do Floresta Sintá(c)tica (http://www.linguateca.pt/floresta/). A partícula se é um dos casos que oferecem mais dificuldade para a anotação de papéis semânticos. Essa partícula tem duas classificações morfológicas: pronome e conjunção (além de poder ser substantivado como em Existe um se nesta questão ). No corpus utilizado, que já estava sintaticamente anotado pelo parser Palavras (Bick, 2000), 21 Anais da II Jornada de Descrição do Português, páginas 21 25, Cuiabá, MT, Brasil, Outubro 24 26, 2011. c 2011 Sociedade Brasileira de Computação

observamos que a determinação automática da classe morfológica do se foi realizada com êxito. Na anotação sintática realizada pelo parser Palavras, o se conjunção não recebe nenhum rótulo individual (sua função é introduzir orações subordinadas) ao passo que o se pronominal recebe um rótulo de sintagma nominal (NP). No entanto, o parser não distingue se o se pronominal é recíproco, reflexivo, partícula integrante do verbo, partícula apassivadora, partícula expletiva ou índice de indeterminação do sujeito, como detalhado na Tabela 1: Função Exemplo Testes Pronome reflexivo Ele se feriu Aceita substituição do se por a si mesmo Pronome recíproco Eles se encontraram Admite substituição do se por um ao outro Partícula Vendem-se casas Aceita transformação em passiva analítica: Casas são apassivadora vendidas. Só ocorre com verbos transitivos diretos. Índice de indeterminação do sujeito Concordou-se com tudo o que foi dito. Ocorre com verbos transitivos indiretos. Não aceita passiva analítica. Aceita substituição do se por alguém ou ninguém. Verbo na 3ª. pessoa do singular. Partícula expletiva Acabou-se a festa. Aceita omissão do se sem que a frase se torne Partícula integrante do verbo Ele apaixonou-se assim que a viu. incorreta. Ocorre com verbos intransitivos Não aceita substituição por a si mesmo Tabela 1. Funções do se pronominal e testes para distingui-las No nível semântico, somente o se pronominal é candidato a receber um papel na estrutura argumental do verbo, pois ele pode refletir o verdadeiro ocupante do papel. Ocorre, porém, que nem sempre o se pronominal reflete um argumento do verbo. Quando o se for índice de indeterminação do sujeito, partícula apassivadora, partícula integrante do verbo ou partícula expletiva, não deve receber anotação de papel semântico. A análise automática do parser, contudo, não fornece nenhuma informação que auxilie a distinguir essas funções. A fim de suprir essa lacuna, decidimos realizar uma anotação extra no corpus, com as funções do se pronominal, mesmo aquelas que não correspondam a papéis semânticos. Na Seção 2 fornecemos uma breve descrição do que é a anotação de papéis semânticos, na Seção 3 relatamos nosso método de anotação, na Seção 4 fazemos a discussão do assunto e na Seção 5 apresentamos as considerações finais e apontamos possibilidades de trabalhos futuros. 2. Anotação de Papéis Semânticos A anotação de papéis semânticos consiste em atribuir rótulos de papéis semânticos aos argumentos de um verbo. A teoria subjacente é a da semântica de frames, de Fillmore (1968). Há pouco mais de uma década diversas iniciativas têm sido tomadas no sentido de anotar corpora com papéis semânticos, de modo a ter um modelo para a construção de anotadores automáticos de papéis semânticos, o que permitirá melhorar o processamento automático dos textos. As primeiras iniciativas foram para o inglês e são tomadas como modelo para projetos semelhantes em outras línguas. Até o momento não há corpora de português do Brasil disponíveis com rótulos de papéis semânticos, mas estão previstos 22

nos projetos Framecorp (Chishman et al. 2009), Framenet Brasil (Salomão, 2009) e Propbank-Br (Duran, 2009). Nos dois primeiros casos, o modelo seguido é o da Framenet (Baker et al. 1998) e no último, o do Propbank (Palmer et al. 2005). É natural, no entanto, que muitas das definições contidas nos manuais de anotação dos modelos do inglês não se apliquem ou não sejam suficientes para lidar com a língua portuguesa. Isso exige decisões que contribuirão para a elaboração de um guia de anotação de papéis semânticos para o português. 3. Materiais e Métodos Estamos anotando a porção brasileira do Bosque, que possui 4213 sentenças. A ferramenta de anotação utilizada é a SALTO (Burchardt, 2006). Estamos anotando os papéis sobre a árvore sintática, ou seja, agregamos uma nova camada de anotação a um corpus já anotado sintaticamente pelo parser Palavras (Bick, 2000). No caso do se anotado como pronome pelo parser Palavras, realizamos uma dupla anotação no Propbank-Br. Uma anotação detalhada foi atribuída às sentenças em que ele ocorre, visando trabalhos futuros (rótulos da primeira coluna da Tabela 2). Uma anotação com rótulo de papel semântico, seguindo as instruções do Propbank, foi atribuída em cima da anotação sintática do se (terceira coluna da Tabela 2). Rótulo atribuído à sentença 4. Discussão Conteúdo SE-REF-OD Pronome reflexivo como objeto direto argm-rec SE-REF-OI Pronome reflexivo como objeto indireto argm-rec SE-REC Pronome reflexivo recíproco argm-rec SE-PAS Partícula apassivadora nenhum SE-IND Índice de indeterminação do sujeito nenhum SE-EXP Partícula expletiva nenhum SE-VPR Partícula integrante do verbo nenhum Rótulo atribuído ao se Tabela 2. Rótulos de anotação do se pronominal no Propbank-Br Para a atribuição de papéis semânticos, estabelecemos as três regras. A primeira delas é que os pronomes reflexivos e recíprocos devem ser anotados com uma etiqueta especial, argm-rec (Figura 1), o que permitirá um pós-processamento para ligar esses pronomes ao sintagma nominal que eles refletem e que são os ocupantes de um papel semântico na estrutura argumental do verbo. Figura 1. Anotação da partícula se pronominal com valor reflexivo no Propbank-Br 23

A segunda regra é que os pronomes na função de partícula apassivadora, de índice de indeterminação do sujeito e de partícula expletiva não devem receber anotação de papel semântico (Figura 2): Figura 2. Partícula se pronominal com valor expletivo (não anotada no Propbank-Br) A terceira regra é que a partícula se integrante do verbo deve ser ligada ao verbo por meio da anotação (Figura 3). Figura 3. Tratamento da partícula se integrante do verbo no Propbank-Br) 5. Considerações Finais A anotação extra com as funções do se pronominal poderão beneficiar tanto a anotação de papéis semânticos quanto esforços de aperfeiçoamento dos parsers. As instâncias anotadas poderão ser usadas para levantar regras ou calcular correlação entre rótulos morfológicos, sintáticos e os parâmetros indicando as funções do se. Alguns recursos léxicos já se anunciam importantes para subsidiar a desambiguação automática das funções do se : uma relação dos verbos transitivos diretos, dos transitivos indiretos e dos intransitivos (importante para distinguir partícula apassivadora de índice de indeterminação do sujeito), uma relação de: verbos pronominais (esquecer-se, queixar-se, arrepender-se etc.); verbos que admitem uso reflexivo (pentear-se, ferir-se, cortar-se etc.) e verbos que admitem uso reflexivo recíproco (beijar, abraçar, encontrar, ver, amar etc.). 6. Agradecimentos Agradecemos à Fapesp pelo financiamento do projeto Propbank-Br, dentro do qual realizamos o trabalho aqui relatado. 24

Referências Bibliográficas Baker, C.F., Fillmore, C. J.; Lowe. J. B. (1998).The Berkeley FrameNet Project. In: Proceedings of Computational Linguistics 1998 Conference, University of Montréal, pp. 86-90. Bick, E. (2000) The Parsing System Palavras Automatic Grammatical Analysis of Portuguese in a Constraint Grammar Framework. Aarhus, Denmark, Aarhus University Press. Burchardt, K. E. et alli. (2006) SALTO - A Versatile Multi-Level Annotation Tool. In: Proceedings of LREC- 2006, Genoa, Italy. Chishman, R.; Bertoldi, A.; Padilha, J. G. (2009) Usando o FrameNet para a descrição semântica: um experimento de anotação de corpus. In: Jornada de Descrição do Português, 2009, São Carlos. VII STIL, 2009. v. 1. Duran, M. S. (2009) Propbank-Br: anotação de papéis semânticos em um corpus do português do Brasil. Projeto de Pós-Doc financiado pela FAPESP, Processo 2009/07394-9. Fillmore, C. The Case for Case (1968) In: Bach and Harms (Ed.): Universals in Linguistic Theory. New York: Holt, Rinehart, and Winston, 1-88. Palmer, M.; Gildea, D.; Kingsbury, P. (2005) The Proposition Bank: An Annotated Corpus of Semantic Roles. Computational Linguistics, 31:1., pp. 71-105, March, 2005. Salomão, M. M. M. (2009) FrameNet Brasil: um trabalho em progresso. Calidoscópio Vol. 7, n. 3, p. 171-182, set/dez 2009. 25