Ontologias Linguísticas e Processamento de Linguagem Natural. Ygor Sousa CIn/UFPE

Documentos relacionados
SEMÂNTICA PARTE 3 ANÁLISE SEMÂNTICA 14/06/2012. SCC5908 Tópicos em Processamento de Língua Natural. Até agora, significado da sentença

Recapitulando... Abordagens: PLN. Abordagens: PLN 29/03/2012. Introdução ao Processamento de Línguas Naturais. Distribuição de palavras

MCZA Processamento de Linguagem Natural Semântica e similaridade de palavras: Parte I

Introdução ao Processamento de Línguas Naturais. Thiago A. S. Pardo

Semântica no Reconhecedor Gramatical Linguístico

WordnetAffectBR: uma base lexical de palavras de emoções para a língua portuguesa

PLN e áreas correlatas

ANOTAÇÃO DE SENTIDOS DE VERBOS EM NOTÍCIAS JORNALÍSTICAS EM PORTUGUÊS DO BRASIL

Estudo Semântico e Aplicação Computacional de Adjetivos do Português do Brasil

Inteligência Artificial. Prof. Esp. Pedro Luís Antonelli Anhanguera Educacional

Introdução ao Processamento de Línguas Naturais. SCC5908 Introdução ao Processamento de Língua Natural. Thiago A. S. Pardo

Introdução ao Processamento de Línguas Naturais (PLN) SCC0230 Introdução à IA. Prof. Thiago A. S. Pardo. Em oposição às linguagens artificiais

UMA FERRAMENTA PARA A PESQUISA EM CORPORA DE AQUISIÇÃO DE LINGUAGEM

Capítulo1. Capítulo2. Índice A LÍNGUA E A LINGUAGEM O PORTUGUÊS: uma língua, muitas variedades... 15

A categorização semântica dos compostos nominais técnicos em língua inglesa e os resultados tradutórios em português

SEMÂNTICA PARTE 3 ANÁLISE SEMÂNTICA 12/11/2010. SCC5869 Tópicos em Processamento de Língua Natural. Até agora, significado da sentença. Rhumba closed.

6 Atributos. A dívida da empresa subiu.

SEMÂNTICA PARTE 3 (CONTINUAÇÃO)

MCZA Processamento de Linguagem Natural Introdução

Extração e Validação de Ontologias a partir de Recursos Digitais

Novas Ferramentas e Recursos Linguísticos para a Tradução Automática

Explorando Métodos de Uso Geral para Desambiguação Lexical de Sentidos para a Língua Portuguesa

PROCESSAMENTO DE LINGUAGEM NATURAL (PLN): FERRAMENTAS E DESAFIOS

Rumo a um Recurso Lexical para a Linguagem Jurídica Brasileira

EQUIVALENTES DE TRADUÇÃO ENTRE PORTUGUÊS, ESPANHOL E INGLÊS NA CONSTITUIÇÃO DE DICIONÁRIO TEMÁTICO TRILÍNGUE PARA A COPA

SignWriting Data Base: um sistema de dicionários para as línguas de sinais usadas pelos surdos

UNIVERSIDADE DO ESTADO DO PARÁ LÍNGUA PORTUGUESA e REDAÇÃO PROSEL/ PRISE 1ª ETAPA

Castro (2008, p.7) define a palavra ontologia de forma mais simplificada:

EMENTÁRIO DAS DISCIPLINAS DO CURSO DE LETRAS-PORTUGUÊS - IRATI (Currículo iniciado em 2015)

Construções de Estrutura Argumental no âmbito do Constructicon da FrameNet Brasil: proposta de uma modelagem linguístico-computacional

definitions in natural language (say, English) and, if possible, using formal relations and

Verificação automática de substantivos compostos através de reconhecimento de padrões sintáticos

Áreas de conhecimento de Geografia

CTCH DEPARTAMENTO DE LETRAS

Linguagens Documentárias. Profa. Lillian Alvares Faculdade de Ciência da Informação, Universidade de Brasília

INTERFACE DE ACESSO AO TEP 2.0 THESAURUS PARA O PORTUGUÊS DO BRASIL

SUMÁRIO. Língua Portuguesa

Inclusão de Informação Semântica dos Adjetivos na Base da Rede Wordnet para o Português do Brasil

Projeto COMET avanços e carências

UNIVERSIDADE ESTADUAL DE GOIÁS UNIDADE UNIVERSITÁRIA DE CIÊNCIAS SÓCIO-ECONÔMICAS E HUMANAS DE ANÁPOLIS

HORÁRIO CURSO DE LETRAS 1 ANO - 1º SEMESTRE - PERÍODO DIURNO E NOTURNO

Resumo. Palavras-chave: wordnet, Wordnet.Br, relações semânticas, hiperonímia

Automatização da Geração de Dicionários Tratáveis por Máquina: Reutilização de Recursos Linguísticos

Ontologias na Representação e na Recuperação de Informação. EDBERTO FERNEDA UNESP-Marília

Prof. Walter Moreira Unesp / Marília, 2017

Uma Abordagem ao PÁGICO baseada no Processamento e Análise de Sintagmas dos Tópicos

Currículo das Áreas Disciplinares/Critérios de Avaliação 8º Ano Disciplina: Português Metas Curriculares: Domínios/Objetivos / Descritores

ANEXO 1 A Ementário e Quadro de disciplinas por Departamentos/Setores

Ensino Fundamental SÉRIE PORTUGUÊS MATEMÁTICA PRODUÇÃO DE TEXTO

Onto.PT: Construção automática de uma ontologia lexical para o português

ESCOLA SECUNDÁRIA DE GONDOMAR Planificação Anual de Português - 10º ANO Ano letivo MANUAL: Com Textos (Edições ASA)

Edição de informações sintático-semânticas dos adjetivos na base da rede Wordnet.Br

Natural Language Processing: Dealing with unstructured data. Renata Vieira and Joaquim Neto

A construção de wordnets terminológicas com base em corpus

Plano de Ensino. Meses Fevereiro Março Abril Maio Junho Julho Aulas Regulares Aulas de

Indexação automática. CBD/ECA Indexação: teoria e prática

CURSO DE GRADUAÇÃO EM LETRAS PORTUGUÊS E ESPANHOL

Mapeamento da Comunidade Brasileira de Processamento de Línguas Naturais

4 Trabalhos relacionados à extração automática de hiperonímia

MCZA Processamento de Linguagem Natural Semântica e similaridade de palavras: Parte III

Verb Sense Annotation in News Texts in the CSTNews Corpus

Antes de iniciar as respostas, faça uma leitura completa da avaliação. Lembre-se:

Uma proposta para recuperação da informação através de redes lexicais: uma estratégia léxico-quantitativa

5 Ambigüidades no contexto de Mineração de Textos

PORTSERVICE-BR: UMA PLATAFORMA PARA PROCESSAMENTO DE LINGUAGEM NATURAL PARA LÍNGUA PORTUGUESA

Plano da apresentação. Processamento computacional do português: o que é? Trabalhar numa língua e apresentar os resultados noutra

Relações semânticas entre palavras. O papel das relações semânticas em português: Comparando o TeP, a MWN.PT e o PAPEL

Descoberta de conhecimento em textos - Análise semântica. Diogo Cardoso Eduardo Camilo Inácio Eduardo Monteiro Dellandréa Guilherme Gomes

Identificação e Tratamento de Expressões Multipalavras aplicado à Recuperação de Informação

Aplicação de uma Técnica Tradicional de Expansão de Consulta ao Modelo TR+

A/ART casa/n caiu/v./. Figura 3.1: Frase com anotação morfossintática.

PLANO DE ESTUDOS DE PORTUGUÊS 8.º ANO

Investigação de métodos de desambiguação lexical de sentidos de verbos do português do Brasil. Marco Antonio Sobrevilla Cabezudo

Identificação em Documentos

Língua, Linguagem e Variação

MATRIZ CURRICULAR DO CURSO DE GRADUAÇÃO EM LETRAS PORTUGUÊS E ESPANHOL - LICENCIATURA

Anotação de Sentidos de Verbos no Córpus CSTNews

PLANO DE ENSINO. CARGA HORÁRIA: 72 horas Para a Licenciatura: + 30 horas de PCC (Prática Componente Curricular)

Introdução à perspectiva cognitivista da linguagem: visão geral. Sintaxe do Português II Prof. Dr. Paulo Roberto Gonçalves Segundo FFLCH-USP DLCV FLP

AGRUPAMENTO de ESCOLAS de SANTIAGO do CACÉM Ano Letivo 2016/2017 PLANIFICAÇÃO ANUAL

O PAVEL: curso interativo de Terminologia

Uma ferramenta para anotação de relações semânticas entre termos

6LEM064 GRAMÁTICA DA LÍNGUA ESPANHOLA I Estudo de aspectos fonético-fonológicos e ortográficos e das estruturas morfossintáticas da língua espanhola.

MATRIZ CURRICULAR DO CURSO DE GRADUAÇÃO EM LETRAS PORTUGUÊS E ESPANHOL - LICENCIATURA

Indexação e Construção de Índice. Renato Fernandes Corrêa

UNIVERSIDADE FEDERAL DE PERNAMBUCO CENTRO DE INFORMÁTICA GRADUAÇÃO EM ENGENHARIA DA COMPUTAÇÃO

UNIVERSIDADE ESTADUAL PAULISTA CAMPUS DE SÃO JOSÉ DO RIO PRETO INSTITUTO DE BIOCIÊNCIAS, LETRAS E CIÊNCIAS EXATAS DE SÃO JOSÉ DO RIO PRETO

1 Introdução. (1) a. A placa dos automóveis está amassada. b. O álbum das fotos ficou rasgado.

Organização da Teleaula. A Significação. Contextualização. Processos Sintáticos e Semânticos em Língua Portuguesa. Teleaula 5. Licenciatura em Letras

SIM: A Semantic-Inferentialist Model for Natural Language Processing

Padre António Vieira: Sermão de Santo António. Oralidade. Leitura. Documentário Rubrica radiofónica

PoloCLUP Linguateca Belinda Maia

Encontro 10 Anos da Linguateca PROPOR 2008 Aveiro Portugal

Colégio Internato dos Carvalhos

Ferramenta de apoio a identificação de eventos utilizando Linguagem Natural. Aluno: Ricardo Tomelin Orientador: Everaldo Artur Grahl

O tratamento da partícula se para fins de anotação de papéis semânticos

PALAVRAS-CHAVE COMO ELO ENTRE ARTIGOS E AUTORES: visualizações possíveis

A construção da base da Wordnet.Br: conquistas e desafios

Transcrição:

Ontologias Linguísticas e Processamento de Linguagem Natural Ygor Sousa CIn/UFPE ycns@cin.ufpe.br 2015

Roteiro Processamento de Linguagem Natural Ontologias Linguísticas WordNet FrameNet Desambiguação de Sentido

Processamento de Linguagem Natural São técnicas para analisar e representar naturalmente textos com o propósito de alcançar um processamento de linguagem semelhante ao humano em muitos diferentes tipos de atividades e aplicações [6]. Textos ocorrem em um ou mais níveis de análise linguística.

Processamento de Linguagem Natural As técnicas de PLN são classificadas de acordo com o nível de unidade linguística processada [6]: Nível Fonológico Nível Morfológico Nível Lexical Nível Sintático Nível Semântico Nível de Discurso Nível Pragmático Raramente um sistema de PLN aplica todos os níveis Maior o nível, maior a complexidade [6]

Processamento de Linguagem Natural Estágios de Análise [6]

Processamento de Linguagem Natural Modelo Retroalimentado [9]

Processamento de Linguagem Natural Diversos tipos de aplicações para PLN podem ser destacadas, dentre elas estão [8]: Reconhecedores e Sintetizadores de Fala Corretores Ortográficos e Gramaticais Tradutores Automáticos Geradores de Texto e Resumo Extração de Informação Interfaces de Linguagem Natural para Domínios Específicos

Ontologias Linguísticas Caracterizam-se por armazenar conceitos lexicalizados, isto é, conceitos expressos uma ou mais palavras de uma língua. Inventário de sentidos de conceitos compartilhados por uma comunidade linguística. Neste sentido, uma ontologia linguística em holandês, por exemplo, não armazenaria um conceito container, já que este não é lexicalizado nessa língua.

Ontologias Linguísticas Algumas das ontologias mais difundidas em PLN são: WordNet (http://wordnet.princeton.edu) SENSUS (http://www.isi.edu/naturallanguage/projects/ontologies.html) FrameNet (https://framenet.icsi.berkeley.edu/) VerbNet (https://verbs.colorado.edu/~mpalmer /projects/verbnet.html) Generalized Upper Model (http://www.ontospace.unibremen.de/ontology/gum.html) Outros...

WordNet Uma base de dados léxica organizada hierarquicamente Thesaurus + aspectos de um dicionário Algumas outras línguas disponíveis ou em desenvolvimento (Árabe, Finlandês, Alemão, Português ) Criado e mantido pela Universidade de Princeton Categoria Palavras Únicas Noun 117,798 Verb 11,529 Adjective 22,479 Adverb 4,481

WordNet Organizada sob a forma de Synsets (conjunto de unidades sinônimas) Se relacionam por meio de relações lógicoconceituais como: Hiperonímia / Hiponímia Sinonímia / Antonímia Holonímia / Meronímia

Exemplo abstrato de Synset de car

Sentido de car na Wordnet

WordNet O synset também instancia um conceito informal por ele lexicalizado, conhecido como gloss Exemplo: chump como um substantivo tem o gloss a person who is gullible and easy to take advantage of Esse sentido de chump é compartilhado por 9 palavras: chump, fool, gull, mark, patsy, fall guy, sucker, soft touch, mug

Hierarquia de Hiperonímia da WordNet para battery

Relações de Substantivos da WordNet

WordNet Onde está: http://wordnet.princeton.edu/ http://wordnetweb.princeton.edu/perl/webwn (Online) Bibliotecas Python: WordNet da NLTK http://www.nltk.org/home Java: JWNL, extjwnl no sourceforge

FrameNet Desenvolvido e mantido pelo International Computer Science Institute (ICST - Berkley). É uma base lexical para língua inglesa baseada na teoria de semântica de frames de que significações são relativizadas a cenas [2]. Mas já expandida para outras línguas como Alemão, Japonês, Francês, Espanhol e Português Assim, temos o frame como um esquema imagético.

FrameNet Frames são compostos por Element Frames (EF) de diferentes classificações: Nucleares; Periféricos ou Não Nucleares; Extratemáticos. Se conectam por relações como: Herança SubFrame Causa de Uso

FrameNet Ao invés de palavras, o FrameNet trabalha com Lexical Units (LUs), cada uma sendo um par de palavra e sentido Evitar polissemia, ambiguidade léxica, entre outros; Diferentes LUs em WordNet pertencem a diferentes synsets, em FrameNet (geralmente) pertencem a diferentes Frames

FrameNet Frames são criados e legitimados a partir de textos selecionados em um corpus através de anotações. Abaixo o Corpus do ano de 2010 no FrameNet Br;

FrameNet Atualmente conta: 1215 Frames; 1827 Frame Relations; 13308 Lexical Units (LUs); 201226 Annotation sets. Onde encontrar: https://framenet.icsi.berkeley.edu/fndrupal/h ome https://framenet.icsi.berkeley.edu/fndrupal/in dex.php?q=frameindex (Online)

WordNet/FrameNets: Aplicações Wordnets e FrameNets têm sido utilizadas nas seguintes tarefas/aplicações [4]: Recuperação de informação; Sumarização automática; Desambiguação de sentido; Categorização de textos,; Tradução automática Entre outras.

Desambiguação de Sentido Um dos problemas mais discutidos em PLN. Comum nas aplicações de PLN, como as outras discutidas anteriormente; Problema ocorre quando uma palavra apresenta mais de uma opção de sentido com a mesma categoria gramatical; Exemplo: light, pode ser leve ou luz (homonímia) Qual sentido escolher?

Desambiguação de Sentido De forma simples, a aplicação de WordNets nesta tarefa pode vir a partir da hipótese de que: Palavras semanticamente relacionadas ou de um mesmo campo semântico tendem a co-ocorrer em um documento; Desta forma, a estratégia de modo geral pode ser: Identificar os sentidos/synsets que contêm as palavras em foco; Identificar as relações entre sentidos/synsets; Identificar qual o sentido mais provável das palavras em foco;

Desambiguação de Sentido Exemplo simples: Uma frase tem as palavras organ e bass. O sistema identifica que elas estão em 6 e 8 synsets, respectivamente; Obtemos uma relação de hiperônimos entre synsets das palavras; Desta forma, podemos deduzir que o melhor sentido para as duas palavras é instrumento musical

Referências [1] Princeton University "About WordNet." WordNet. Princeton University. 2015. http://wordnet.princeton.edu [2] FILLMORE, C. Topics in lexical semantics. 1977. [3] International Computer Science Institute FrameNet Documentation FrameNet. Berkley. 2015 https://framenet.icsi.berkeley.edu/fndrupal/documentation [4] DI FELIPPO, Ariani. ONTOLOGIAS LINGÜÍSTICAS APLICADAS AO PROCESSAMENTO AUTOMÁTICO DAS LÍNGUAS NATURAIS: O CASO DAS REDES WORDNETS1. Múltiplas perspectivas em Linguística. Uberlândia: Edufu, 2008. [5] PAULO, H. FSI: Uma Infraestrutura de Apoio ao Projeto FrameNet Utilizando Web Semântica. 132f. Dissertação de Mestrado. Instituto de Ciências Exatas, Universidade Federal de Juiz de Fora, Recife, 2010.

Referências [6] LIDDY, E. D. Enhanced Text Retrieval Using Natural Language Processing. In: Bulletin of the American Society for Information Science, v. 24, n. 4, 1998. [7] VOSSEN, P. Ontologies. In: MITKOV, R. (Ed.). The Oxford handbook of Computational Linguistics. Oxford: Oxford University Press, 2003, p. 464-82 [8] VIEIRA, R.; LIMA, V. L. S. Lingüística Computacional: Princípios e Aplicações. In: JAIA, SBC, Fortaleza, Brasil, 2001. [9] JUNIOR, A. T. FSI: Processamento de Linguagem Natural para Indexação Automática Semântico-Ontológica. 180f. Tese de Doutorado. Universidade de Brasília, Brasília, 2013.