Anotação de papéis semânticos na prática. Magali Sanches Duran Pós-Doc USP-ICMC-NILC

Documentos relacionados
O tratamento da partícula se para fins de anotação de papéis semânticos

SEMÂNTICA PARTE 3 (CONTINUAÇÃO)

Ontologias Linguísticas e Processamento de Linguagem Natural. Ygor Sousa CIn/UFPE

Uma ferramenta para anotação de relações semânticas entre termos

Os desafios da anotação de um corpus da linguagem do futebol com frames semânticos

Construções de Estrutura Argumental no âmbito do Constructicon da FrameNet Brasil: proposta de uma modelagem linguístico-computacional

A SEMÂNTICA DOS ADJETIVOS: COMO E POR QUE INCLUÍ-LA EM UMA ONTOLOGIA DE DOMÍNIO JURÍDICO

Elaboração textual via definição de entidades mencionadas e de perguntas relacionadas aos verbos em textos simplificados do português

Susana Afonso UMA FRAMENET PARA O PORTUGUÊS

O código do modelo de mapeamento sintático-conceitual do sistema ConPor

RECUPERAÇÃO DE GEOGRAFIA 7 o ANO Horário: das 7:20 h às 12:15 h. 1 a PROVA GEOGRAFIA DATA: 09/12/2015

Uma ferramenta para anotação de relações semânticas entre termos

SUBCATEGORIZATION FRAMES A PARTIR DE CORPORA EM PORTUGUÊS

Anotação automática de papéis semânticos de textos jornalísticos e de opinião sobre árvores sintáticas não revisadas. Nathan Siegle Hartmann

Ferramenta de apoio a identificação de eventos utilizando Linguagem Natural. Aluno: Ricardo Tomelin Orientador: Everaldo Artur Grahl

REUNIÃO DE PAIS 4º ANO A PROFESSORA LUANA

Uma abordagem conexionista para anotação de papéis semânticos. Erick Rocha Fonseca

Corpus e Anotação Semântica: um Experimento para a Língua Portuguesa a partir da Semântica de Frames

Apresentação 11 Lista de abreviações 13. Parte I: NATUREZA, ESTRUTURA E FUNCIONAMENTO DA LINGUAGEM

VerbLexPor: um recurso léxico com anotação de papéis semânticos para o português

MINISTÉRIO DA DEFESA EXÉRCITO BRASILEIRO DEPARTAMENTO DE EDUCAÇÃO E CULTURA DO EXÉRCITO DIRETORIA DE EDUCAÇÃO PREPARATÓRIA E ASSISTENCIAL

INF2981 Anotador de Papéis Semânticos para Português

Datas e Conteúdos das Avaliações - 6º Ano A CALENDÁRIO DE AVALIAÇÕES DO 2º PERÍODO DO 3º BIMESTRE Período de 17 a 25 de setembro de 2015

Anexo B Relação de Assuntos Pré-Requisitos à Matrícula

HORÁRIO DE RECUPERAÇÃO 7 o ANO. Componente Curricular DATA. 1 a SEMANA DESENHO GEOMÉTRICO / ARTES VISUAIS. História CIÊNCIAS MATEMÁTICA 1

6 Atributos. A dívida da empresa subiu.

INTRODUÇÃO À SINTAXE DA LÍNGUA PORTUGUESA

Português/Jhonatta 7º Ano CONTEÚDO DO BIMESTRE CRITÉRIOS DE AVALIAÇÃO TÓPICOS DO CONTEÚDO

ANOTAÇÃO DE SENTIDOS DE VERBOS EM NOTÍCIAS JORNALÍSTICAS EM PORTUGUÊS DO BRASIL

Capítulo1. Capítulo2. Índice A LÍNGUA E A LINGUAGEM O PORTUGUÊS: uma língua, muitas variedades... 15

Roteiro. 1. Ferramenta GATE. 2. Conceitos básicos. 3. Anotando textos manualmente. 4. Anotando textos automaticamente

SUMÁRIO. Língua Portuguesa

Allen B. Downey. Novatec

CONTEÚDOS PARA O 3º. TESTE DE INGRESSO Dezembro 2018 MATEMÁTICA (ingresso em 2019) INGRESSO NO 7º. ANO/2019 DO ENSINO FUNDAMENTAL

Básico I Sentenças e questões iniciadas com Wh- utilizando o verbo ser/estar Questões afirmativas e negativas e respostas curtas com o verbo

A categorização semântica dos compostos nominais técnicos em língua inglesa e os resultados tradutórios em português

Anotação automática semissupervisionada de papéis semânticos para o português do Brasil. Fernando Emilio Alva Manchego

PORTUGUÊS III Semestre

PROCESSAMENTO DE LINGUAGEM NATURAL (PLN): FERRAMENTAS E DESAFIOS

Um repositório de verbos para a anotação de papéis semânticos disponível na web

Desenvolvimento de um recurso léxico com papéis semânticos para o português

Inteligência Artificial. Sistemas Baseados em Conhecimento. Representação de Conhecimento (continuação)

Pensamento e linguagem

Análise lexicográfica na FrameNet Brasil

PRÁTICA DE ENSINO SUPERVISIONADA PLANIFICAÇÃO A MÉDIO PRAZO. Ano Letivo 2012/2013. Disciplina de Língua Portuguesa-8ºano-Turma 1

Investigação de métodos de desambiguação lexical de sentidos de verbos do português do Brasil. Marco Antonio Sobrevilla Cabezudo

GUIA PARA ANOTAÇÃO LINGUÍSTICA USANDO A FERRAMENTA SALTO

28/04/2011 SINTAXE PARTE 1. SCC5908 Tópicos em Processamento de Língua Natural. Thiago A. S. Pardo SINTAXE E GRAMÁTICAS

A CONSTRUÇÃO DE POSTVERBAIS EM PORTUGUÊS

Anotador de Papeis Semânticos para Português

Antes de iniciar as respostas, faça uma leitura completa da avaliação. Lembre-se:

As Metas Curriculares de Português, para o 2º Ciclo, apresentam quatro características essenciais:

A/ART casa/n caiu/v./. Figura 3.1: Frase com anotação morfossintática.

Bíblia do Obreiro - Almeida Revista e Atualizada: Concordância Dicionário Auxílios Cerimônias (Portuguese Edition)

Como Falar no Rádio - Prática de Locução Am e Fm (Portuguese Edition)

Recapitulando... Abordagens: PLN. Abordagens: PLN 29/03/2012. Introdução ao Processamento de Línguas Naturais. Distribuição de palavras

Aula 09 PALAVRA SE. VOZ PASSIVA Sujeito agente Agente da passiva. VOZ ATIVA Objeto direto Sujeito paciente

Roteiro de recuperação da 2ª etapa/2015 LÍNGUA PORTUGUESA CONTEÚDOS

24/09/2010 SINTAXE PARTE 2. SCC5869 Tópicos em Processamento de Língua Natural. Thiago A. S. Pardo PARSING PROBABILÍSTICO

Conteúdos para o teste de ingresso MATEMÁTICA agosto 2018 (Ingresso em 2019) INGRESSO DE 6ª PARA 7º. ANO/2019 DO ENSINO FUNDAMENTAL

Semântica no Reconhecedor Gramatical Linguístico

SELEÇÃO E PREPARAÇÃO DE SENTENÇAS DO CORPUS PLN-BR PARA COMPOR O

PORTUGUÊS com DUDA NOGUEIRA ANATEL / julho 2014

Cenários. Cenários são situações

02/03/2014 MORFOLOGIA X SINTAXE

1º PERÍODO DISCIPLINA DE PORTUGUÊS [5.º] PLANIFICAÇÃO ANUAL 2018/ º ANO DE ESCOLARIDADE. DOMÍNIO CONTEÚDO TEMPOS 1 Educação Literária

A SINTAXE A FAVOR DA CLAREZA. Paola C. Buvolini Freitas Mestre em Estudos Linguísticos Professora de Português do UniSALESIANO Lins

ENSINO FUNDAMENTAL II /2015 EDITAL PARA PROVAS DE RECUPERAÇÃO FINAL 8º ANO. Disciplina Conteúdo Material de estudo Língua Portuguesa

Sumarizando: o que é uma língua. Métodos para seu estudo...44

Inglês IV. plano de ensino. Ementa. Objetivos Gerais. UA 01 Company facts. UA 02 Telephoning in English

PLANIFICAÇÃO ANUAL 5º Ano. Disciplina de Português Ano Letivo /2017. Domínios/Conteúdos/Descritores. Unidade 0 Apresentações

Sumário. Apresentação. Parte 1 Período simples 1 Quadro geral dos termos da oração 3 Frase, oração e período 3

EQUIVALENTES DE TRADUÇÃO ENTRE PORTUGUÊS, ESPANHOL E INGLÊS NA CONSTITUIÇÃO DE DICIONÁRIO TEMÁTICO TRILÍNGUE PARA A COPA

LEONARDO ZILIO VERBLEXPOR: UM RECURSO LÉXICO COM ANOTAÇÃO DE PAPÉIS SEMÂNTICOS PARA O PORTUGUÊS

Aula de Hoje. Processamento Estatístico da Linguagem Natural. Módulo útil: re. Módulo útil: random

ELC 12/11/ Anotação de Corpus. Sandra Maria Aluisio

Conteúdo Programático

ENSINO FUNDAMENTAL II MATÉRIA DE AVALIAÇÃO DE RECUPERAÇÃO

Gestão de Projetos: As Melhores Práticas (Portuguese Edition)

TABELA DE NÍVEIS DO IDIOMA INGLÊS

Agrupamento de Escolas Nº 1 de Abrantes DISCIPLINA: PORTUGUÊS ANO: 8º ANO LETIVO 2013/2014

Processamento de Linguagem Natural

Agrupamento de Escolas General Humberto Delgado Planificação Anual º Ciclo- Português- Curso Vocacional

Introdução ao Processamento de Línguas Naturais. Thiago A. S. Pardo

CONCURSO DE BOLSA 2019

TeMário 2006: Estendendo o Córpus TeMário

Sexta semana do curso de Linguística III Professor Alessandro Boechat de Medeiros Departamento de Linguística e Filologia.

Tradução Automática com Paráfrases Bilingues Inglês-Português

SUMÁRIO. Língua Portuguesa. Pronome: classificação, emprego, colocação dos pronomes pessoais oblíquos átonos, formas de tratamento...

17/09/2010 SINTAXE PARTE 1. SCC5869 Tópicos em Processamento de Língua Natural. Thiago A. S. Pardo SINTAXE E GRAMÁTICAS

Posiçã o sintã ticã e pãpe is temã ticos

Interpretar discursos orais com diferentes graus de formalidade e complexidade. Registar,

EXTRAÇÃO AUTOMÁTICA DE ESTRUTURAS DE SUBCATEGORIZAÇÃO A PARTIR DE CORPORA EM PORTUGUÊS

Bárbara da Silva. Português. Aula 52 Adjunto adnominal

Análise sintática: Adjuntos e Complemento Nominal

Como atualizar casos na Central de atendimento ao cliente Cisco e/ou suas afiliadas. Todos os direitos reservados. 1

Sobre a resolução de correferência

SEMÂNTICA PARTE 3 ANÁLISE SEMÂNTICA 12/11/2010. SCC5869 Tópicos em Processamento de Língua Natural. Até agora, significado da sentença. Rhumba closed.

LUCAS GONÇALVES GRAMÁTICA

Transcrição:

Anotação de papéis semânticos na prática Magali Sanches Duran Pós-Doc USP-ICMC-NILC

Organização do Minicurso Três módulos: Anotação de corpus Anotação de papéis semânticos Anotação usando a ferramenta SALTO

MÓDULO I ANOTAÇÃO DE CORPUS

Anotação de corpus: uma atividade antiga

Como era antes... Selecionava trechos do texto que mostrassem determinado fenômeno Destacava-os (com grifo ou cópia em ficha) Adicionava comentários ao destaque (categorização) Recuperava e contava manualmente todos os trechos destacados, por categoria.

Anotação em Corpus Hoje Automatização da mesma rotina usando ferramenta própria (editor de anotações)

Para que serve a anotação de um CORPUS? Linguística Substitui armazenamento manual PLN + informações disponíveis computacionalmente Facilita recuperação das informações + aprendizado de máquina para automatizar a tarefa

Anotação sobre corpus anotado Acrescentar uma nova camada de anotação a um corpus já anotado. Vantagens: permite buscas combinadas. permite mais correlações

O que é um Treebank Corpus de língua anotado sintática e morfossintaticamente por um parser e corrigido manualmente. Ex: PennTreebank Floresta Sintática (subcorpus Bosque)

Decisões Que fenômeno anotar? Que conjunto de rótulos ou etiquetas utilizar? Que ferramenta (editor) utilizar? Que corpus? Quantos e quais anotadores? Como instruir os anotadores?

O fenômeno anotado Já foi abordado por outros? Como analisá-lo? Que anotações devem ser feitas? É instanciado em palavras, sentenças, parágrafos ou texto completo? Associa outros tipos de mídia além da escrita? Ex: gestos, imagens, sons...

Conjunto de Etiquetas Que conjunto de etiquetas utilizar? Usar um conjunto já utilizado por outros? (facilita mapeamento e comparações) Customizar? Criar um novo?

Escolha de Ferramenta Boa é a que serve Fazer lista de requisitos para avaliar Opções: customizar ou desenvolver

MMAX 2 NITE TOOLKIT SALTO UAM PALINKA KNOWTAT OR TRED (Duran, M. S. ; Amâncio, M. A. ; Aluísio, S. M.. Assigning Wh-Questions to Verbal Arguments: Annotation Tools Evaluation and Corpus Building. In: LREC 2010) free x x * x x x x recent upgrades x x x x - - x annotation on parse trees - - x - - - x labels and attributes edition during annotation task - - x x - x x graphical interface x x x x x x x whole visualization of segments already labelled - x x x x x x easy label selection x x x x x x x sub-specification of labels x x - x - x x configuration of user s rights - x x - - - - comments edition during annotation - - x x - x - multi-level search engine x x - x - x x multi-level annotation x x - x - x x

Que corpus anotar? Tamanho Adequação para observar o fenômeno Adequação de formato para ferramenta escolhida

Anotadores Quem? Especialistas? Leigos? Quantos? Poucos? Muitos? Onde? Local? Distribuída?

Anotadores Nível de conhecimento dos anotadores X Complexidade da Tarefa Torne a tarefa mais LEVE para exigir menos dos anotadores

ANOTADORES Controle de qualidade: Pela qualificação do anotador e/ou Pela concordância entre anotadores

QUALIFICAÇÃO DOS ANOTADORES Alta qualificação / menor quantidade de anotadores Menos anotadores / corpus menor Alta qualificação / menor probabilidade de erro Corpus menor / menor universo para cálculo da concordância Baixa qualificação / maior quantidade de anotadores Mais anotadores / corpus maior Baixa qualificação / maior probabilidade de erro Corpus maior / maior universo para cálculo da concordância

Tendência: crowdsourcing Anotação centralizada Anotadores especializados X Anotação descentralizada Anotadores leigos

O Manual de Anotação Escrever o que deve ser feito e como deve ser feito Como ensinar alguém a fazer algo que você ainda não fez?

O Manual de Anotação Sugestão: Escrever o manual e experimentar as instruções ANTES de envolver muitos anotadores

Manual de Anotação Primeiro as regras Depois as exceções Muitos exemplos, colhidos na prática

Manual de Anotação Dúvidas e erros dos anotadores => insumo para aperfeiçoamento do manual Adicionar exemplos das dificuldades Fazer novas regras Esclarecer e complementar regras anteriores

MÓDULO II ANOTAÇÃO DE PAPÉIS SEMÂNTICOS

ANOTAÇÃO DE PAPÉIS SEMÂNTICOS O que é papel semântico? É a função semântica de um argumento na oração. Exemplos prototípicos: agente e paciente João agente matou José paciente José paciente foi morto por João agente

Um mesmo papel sintático e vários possíveis papéis semânticos O tiro [instrumento] fez um furo na parede. A bexiga [paciente] furou com o tiro. A mulher [agente] furou a toalha com a faca. O fogo [causa] fez um furo na toalha. A toalha [tema] queimou.

Análise dos papéis semânticos Remonta à antiga Grécia Retomada por Fillmore C. J. 1968 "The Case for Case" Jackendoff, R.S. 1976 Towards an Explanatory Semantic Representation Levin B. 1990 English Verb Classes Dowty D.R. 1991 Thematic Proto-Roles and Argument Selection

ANOTAÇÃO DE PAPÉIS SEMÂNTICOS LINHA DO TEMPO Framenet Japonês Keyo University Saito e Ohara Propbank Inglês U.Pensilvânia Palmer e Gildea Framenet Espanhol University Barcelona Carlos Subirats Framenet Português UFJF e Unisinos Margarida Salomão Rove Chishman 2002 2002 2003 2009 1997 2002 2003 2004 2010 Framenet Inglês Universidade de Berkeley Charles Fillmore Aprendizado de máquina sobre Framenet Universidades Berkeley e Colorado Jurafsky e Gildea Propbank Chinês Universidade do Colorado Nianwen Xue e Palmer Framenet Alemão Universidade do Texas Hans Boas Propbank Português USP NILC Magali Duran

ANOTAÇÃO DE PAPÉIS SEMÂNTICOS

Verbos e Nomes eventivos Verbos (quase todos) verbos plenos (ensinar, aprender, julgar) predicados complexos (dar para trás, ir embora, fazer falta) exceções: auxiliares e verbos de ligação Nomes (só aqueles que exigem complemento) substantivos (medo de; reação contra, respeito por) adjetivos (sensível a; ansioso por; dependente de) advérbios (relativamente a; juntamente com)

CONJUNTO DE PAPÉIS SEMÂNTICOS Não existe consenso quanto ao conjunto ideal de etiquetas ou rótulos que devam ser usados na anotação semântica. Problema de conjunto muito específico Problema de conjunto muito genérico

CONJUNTOS DE PAPÉIS SEMÂNTICOS FRAMENET: 1 conjunto por frame PROPBANK: 1 conjunto genérico 1 conjunto específico, por sentido do verbo

PAPÉIS PREVISTOS E ACESSÓRIOS Previstos: exigidos pela semântica do evento. Acessórios: não exigidos. Informações adicionais: onde, quando, como, por quê, quanto...

Diferença entre Propbank e Framenet Framenet: papéis acessórios se repetem em cada frame Propbank: papéis acessórios só no nível genérico

Examination Frame Papéis adjuntos (non-core) Manner [man] Semantic Type Manner Any description of the intentional act which is not covered by more specific FEs, including secondary effects (quietly, loudly), and general descriptions comparing events (the same way). In addition, it may indicate salient characteristics of an Examiner that also affect the action (presumptuously, coldly, deliberately, eagerly, carefully). Means [Mns] Semantic Type State_of_affairs An act whereby the Examiner assesses the Examinee. The sarge TESTED him by having him take his rifle apart and put it back together. Place [pla] Semantic Type Locative_relation The location where the examination takes place. Purpose [pur] Semantic Type State_of_affairs The state-of-affairs that the Examiner wants to bring about by giving the Examinee the Examination. Time [tim] Semantic Type Time The time at which the examination occurs. Lexical Units assessment.n, exam.n, examination.n, examine.v, test.n, test.v

Exemplo de Frame File Propbank

ÁREA DE INTERSECÇÃO Morar ONDE? Habitar ONDE? Pesar QUANTO? Medir QUANTO? Durar QUANTO TEMPO? Mover-se DE ONDE e PARA ONDE? Etc.

LÉXICO e PAPÉIS SEMÂNTICOS Papéis previstos pelo evento: dependentes, não podem ser previstos no LÉXICO Papéis acessórios: independentes do evento, podem ser previstos no LÉXICO

PAPÉIS PREVISTOS Repositório descrevendo os papéis previstos para: cada frame (FRAMENET) ou para cada classe (VERBNET) ou para cada sentido de um verbo (PROPBANK)

LÉXICO DOS PAPÉIS ACESSÓRIOS O PROBLEMA DOS PPs MULTIFUNCIONALIDADE DAS PREPOSIÇÕES = AMBIGUIDADE Ele falou em você. Arg1 ou Tópico Ele falou em voz baixa. ArgM-MNR ou Modo

MÓDULO III ANOTAÇÃO USANDO A FERRAMENTA SALTO

ROTEIRO 1. Baixar a ferramenta 2. Preparar o corpus no formato Tiger/Salto 3. Copiar o corpus para o diretório Corpus da ferramenta SALTO 4. Abrir a ferramenta executando Salto bigmemory 5. Criar o conjunto de papéis semânticos 6. Atribuir papéis semânticos

FERRAMENTA SALTO Um editor de anotação Um ambiente de anotação distribuída

O QUE ANOTAR PALAVRA? CONSTITUINTE? SENTENÇA? RELAÇÕES? ENTRE O QUÊ?

RECURSOS OFERECIDOS PELO MINICURSO Encontre no site da EBRALC: Guia para utilização da SALTO Script para converter corpus no formato TIGER- SALTO (multi propósito) Script para converter corpus no formato TIGER- SALTO e preparar para anotação de papéis semânticos (duplicação de sentenças com mais de um verbo e organização das instâncias por verbo)

EXERCÍCIO