Anotação de papéis semânticos na prática Magali Sanches Duran Pós-Doc USP-ICMC-NILC
Organização do Minicurso Três módulos: Anotação de corpus Anotação de papéis semânticos Anotação usando a ferramenta SALTO
MÓDULO I ANOTAÇÃO DE CORPUS
Anotação de corpus: uma atividade antiga
Como era antes... Selecionava trechos do texto que mostrassem determinado fenômeno Destacava-os (com grifo ou cópia em ficha) Adicionava comentários ao destaque (categorização) Recuperava e contava manualmente todos os trechos destacados, por categoria.
Anotação em Corpus Hoje Automatização da mesma rotina usando ferramenta própria (editor de anotações)
Para que serve a anotação de um CORPUS? Linguística Substitui armazenamento manual PLN + informações disponíveis computacionalmente Facilita recuperação das informações + aprendizado de máquina para automatizar a tarefa
Anotação sobre corpus anotado Acrescentar uma nova camada de anotação a um corpus já anotado. Vantagens: permite buscas combinadas. permite mais correlações
O que é um Treebank Corpus de língua anotado sintática e morfossintaticamente por um parser e corrigido manualmente. Ex: PennTreebank Floresta Sintática (subcorpus Bosque)
Decisões Que fenômeno anotar? Que conjunto de rótulos ou etiquetas utilizar? Que ferramenta (editor) utilizar? Que corpus? Quantos e quais anotadores? Como instruir os anotadores?
O fenômeno anotado Já foi abordado por outros? Como analisá-lo? Que anotações devem ser feitas? É instanciado em palavras, sentenças, parágrafos ou texto completo? Associa outros tipos de mídia além da escrita? Ex: gestos, imagens, sons...
Conjunto de Etiquetas Que conjunto de etiquetas utilizar? Usar um conjunto já utilizado por outros? (facilita mapeamento e comparações) Customizar? Criar um novo?
Escolha de Ferramenta Boa é a que serve Fazer lista de requisitos para avaliar Opções: customizar ou desenvolver
MMAX 2 NITE TOOLKIT SALTO UAM PALINKA KNOWTAT OR TRED (Duran, M. S. ; Amâncio, M. A. ; Aluísio, S. M.. Assigning Wh-Questions to Verbal Arguments: Annotation Tools Evaluation and Corpus Building. In: LREC 2010) free x x * x x x x recent upgrades x x x x - - x annotation on parse trees - - x - - - x labels and attributes edition during annotation task - - x x - x x graphical interface x x x x x x x whole visualization of segments already labelled - x x x x x x easy label selection x x x x x x x sub-specification of labels x x - x - x x configuration of user s rights - x x - - - - comments edition during annotation - - x x - x - multi-level search engine x x - x - x x multi-level annotation x x - x - x x
Que corpus anotar? Tamanho Adequação para observar o fenômeno Adequação de formato para ferramenta escolhida
Anotadores Quem? Especialistas? Leigos? Quantos? Poucos? Muitos? Onde? Local? Distribuída?
Anotadores Nível de conhecimento dos anotadores X Complexidade da Tarefa Torne a tarefa mais LEVE para exigir menos dos anotadores
ANOTADORES Controle de qualidade: Pela qualificação do anotador e/ou Pela concordância entre anotadores
QUALIFICAÇÃO DOS ANOTADORES Alta qualificação / menor quantidade de anotadores Menos anotadores / corpus menor Alta qualificação / menor probabilidade de erro Corpus menor / menor universo para cálculo da concordância Baixa qualificação / maior quantidade de anotadores Mais anotadores / corpus maior Baixa qualificação / maior probabilidade de erro Corpus maior / maior universo para cálculo da concordância
Tendência: crowdsourcing Anotação centralizada Anotadores especializados X Anotação descentralizada Anotadores leigos
O Manual de Anotação Escrever o que deve ser feito e como deve ser feito Como ensinar alguém a fazer algo que você ainda não fez?
O Manual de Anotação Sugestão: Escrever o manual e experimentar as instruções ANTES de envolver muitos anotadores
Manual de Anotação Primeiro as regras Depois as exceções Muitos exemplos, colhidos na prática
Manual de Anotação Dúvidas e erros dos anotadores => insumo para aperfeiçoamento do manual Adicionar exemplos das dificuldades Fazer novas regras Esclarecer e complementar regras anteriores
MÓDULO II ANOTAÇÃO DE PAPÉIS SEMÂNTICOS
ANOTAÇÃO DE PAPÉIS SEMÂNTICOS O que é papel semântico? É a função semântica de um argumento na oração. Exemplos prototípicos: agente e paciente João agente matou José paciente José paciente foi morto por João agente
Um mesmo papel sintático e vários possíveis papéis semânticos O tiro [instrumento] fez um furo na parede. A bexiga [paciente] furou com o tiro. A mulher [agente] furou a toalha com a faca. O fogo [causa] fez um furo na toalha. A toalha [tema] queimou.
Análise dos papéis semânticos Remonta à antiga Grécia Retomada por Fillmore C. J. 1968 "The Case for Case" Jackendoff, R.S. 1976 Towards an Explanatory Semantic Representation Levin B. 1990 English Verb Classes Dowty D.R. 1991 Thematic Proto-Roles and Argument Selection
ANOTAÇÃO DE PAPÉIS SEMÂNTICOS LINHA DO TEMPO Framenet Japonês Keyo University Saito e Ohara Propbank Inglês U.Pensilvânia Palmer e Gildea Framenet Espanhol University Barcelona Carlos Subirats Framenet Português UFJF e Unisinos Margarida Salomão Rove Chishman 2002 2002 2003 2009 1997 2002 2003 2004 2010 Framenet Inglês Universidade de Berkeley Charles Fillmore Aprendizado de máquina sobre Framenet Universidades Berkeley e Colorado Jurafsky e Gildea Propbank Chinês Universidade do Colorado Nianwen Xue e Palmer Framenet Alemão Universidade do Texas Hans Boas Propbank Português USP NILC Magali Duran
ANOTAÇÃO DE PAPÉIS SEMÂNTICOS
Verbos e Nomes eventivos Verbos (quase todos) verbos plenos (ensinar, aprender, julgar) predicados complexos (dar para trás, ir embora, fazer falta) exceções: auxiliares e verbos de ligação Nomes (só aqueles que exigem complemento) substantivos (medo de; reação contra, respeito por) adjetivos (sensível a; ansioso por; dependente de) advérbios (relativamente a; juntamente com)
CONJUNTO DE PAPÉIS SEMÂNTICOS Não existe consenso quanto ao conjunto ideal de etiquetas ou rótulos que devam ser usados na anotação semântica. Problema de conjunto muito específico Problema de conjunto muito genérico
CONJUNTOS DE PAPÉIS SEMÂNTICOS FRAMENET: 1 conjunto por frame PROPBANK: 1 conjunto genérico 1 conjunto específico, por sentido do verbo
PAPÉIS PREVISTOS E ACESSÓRIOS Previstos: exigidos pela semântica do evento. Acessórios: não exigidos. Informações adicionais: onde, quando, como, por quê, quanto...
Diferença entre Propbank e Framenet Framenet: papéis acessórios se repetem em cada frame Propbank: papéis acessórios só no nível genérico
Examination Frame Papéis adjuntos (non-core) Manner [man] Semantic Type Manner Any description of the intentional act which is not covered by more specific FEs, including secondary effects (quietly, loudly), and general descriptions comparing events (the same way). In addition, it may indicate salient characteristics of an Examiner that also affect the action (presumptuously, coldly, deliberately, eagerly, carefully). Means [Mns] Semantic Type State_of_affairs An act whereby the Examiner assesses the Examinee. The sarge TESTED him by having him take his rifle apart and put it back together. Place [pla] Semantic Type Locative_relation The location where the examination takes place. Purpose [pur] Semantic Type State_of_affairs The state-of-affairs that the Examiner wants to bring about by giving the Examinee the Examination. Time [tim] Semantic Type Time The time at which the examination occurs. Lexical Units assessment.n, exam.n, examination.n, examine.v, test.n, test.v
Exemplo de Frame File Propbank
ÁREA DE INTERSECÇÃO Morar ONDE? Habitar ONDE? Pesar QUANTO? Medir QUANTO? Durar QUANTO TEMPO? Mover-se DE ONDE e PARA ONDE? Etc.
LÉXICO e PAPÉIS SEMÂNTICOS Papéis previstos pelo evento: dependentes, não podem ser previstos no LÉXICO Papéis acessórios: independentes do evento, podem ser previstos no LÉXICO
PAPÉIS PREVISTOS Repositório descrevendo os papéis previstos para: cada frame (FRAMENET) ou para cada classe (VERBNET) ou para cada sentido de um verbo (PROPBANK)
LÉXICO DOS PAPÉIS ACESSÓRIOS O PROBLEMA DOS PPs MULTIFUNCIONALIDADE DAS PREPOSIÇÕES = AMBIGUIDADE Ele falou em você. Arg1 ou Tópico Ele falou em voz baixa. ArgM-MNR ou Modo
MÓDULO III ANOTAÇÃO USANDO A FERRAMENTA SALTO
ROTEIRO 1. Baixar a ferramenta 2. Preparar o corpus no formato Tiger/Salto 3. Copiar o corpus para o diretório Corpus da ferramenta SALTO 4. Abrir a ferramenta executando Salto bigmemory 5. Criar o conjunto de papéis semânticos 6. Atribuir papéis semânticos
FERRAMENTA SALTO Um editor de anotação Um ambiente de anotação distribuída
O QUE ANOTAR PALAVRA? CONSTITUINTE? SENTENÇA? RELAÇÕES? ENTRE O QUÊ?
RECURSOS OFERECIDOS PELO MINICURSO Encontre no site da EBRALC: Guia para utilização da SALTO Script para converter corpus no formato TIGER- SALTO (multi propósito) Script para converter corpus no formato TIGER- SALTO e preparar para anotação de papéis semânticos (duplicação de sentenças com mais de um verbo e organização das instâncias por verbo)
EXERCÍCIO