Uma proposta de representação das relações de polissemia em wordnets

Documentos relacionados
Redes de polissemia: um mapeamento entre sentidos polissêmicos em ontologias semiformais

ISA MARA DA ROSA ALVES. Polyset: Modelo Linguístico-Computacional para a Estruturação de Redes de Polissemia de Nominais

Ontologias Linguísticas e Processamento de Linguagem Natural. Ygor Sousa CIn/UFPE

Módulo 01: As distintas abordagens sobre a linguagem: Estruturalismo, Gerativismo, Funcionalismo, Cognitivismo

SEMÂNTICA PARTE 3 ANÁLISE SEMÂNTICA 14/06/2012. SCC5908 Tópicos em Processamento de Língua Natural. Até agora, significado da sentença

UNIVERSIDADE ESTADUAL PAULISTA CÂMPUS DE ARARAQUARA FACULDADE DE CIÊNCIAS E LETRAS

MAPAS CONCEITUAIS COMPILADOS: UMA FERRAMENTA PARA CONSTRUÇÃO DE DIAGNÓSTICOS EM ENSINO A DISTÂNCIA

Introdução à perspectiva cognitivista da linguagem: visão geral. Sintaxe do Português II Prof. Dr. Paulo Roberto Gonçalves Segundo FFLCH-USP DLCV FLP

PLANO DE ENSINO DA DISCIPLINA BLOCO I IDENTIFICAÇÃO. (não preencher) Linguagem e cognição Quarta 16h-18h

PLANO DE ENSINO DA DISCIPLINA BLOCO I IDENTIFICAÇÃO. (não preencher) Topics on Language and Cognition Terça-feira 16h-18h

MIDB-OP: um Modelo de Integração de Dados Biológicos apoiado em Ontologias e Procedência de dados Caroline Beatriz Perlin

Estudo Semântico e Aplicação Computacional de Adjetivos do Português do Brasil

(2) A rápida publicação deste livro pela editora foi um bom negócio.

UNIVERSIDADE ESTADUAL PAULISTA CÂMPUS DE ARARAQUARA FACULDADE DE CIÊNCIAS E LETRAS

Mineração de Textos na Web

Percepção e cognição visual em soluções cartográficas. Claudia Robbi Sluter

António Leal 235. António Leal Centro de Linguística da Universidade do Porto (Portugal)

2. Corpus e metodologia

U NIVERSIDADE F EDERAL DE P ERNAMBUCO

PRIMEIRO SEMESTRE DE 2017 DISCIPLINA: TIPOLOGIA LINGUÍSTICA. PROFA. DRA. MÔNICA VELOSO BORGES

INTRODUÇÃO À LINGUÍSTICA COGNITIVA, DE LILIAN FERRARI: UM GUIA PRÁTICO PARA ESTUDANTES BRASILEIROS

Organização da informação e do conhecimento regulatório sob o enfoque neo-institucionalista

METÁFORAS COM VERBOS PONTUAIS DO PB E DO INGLÊS: UMA ANÁLISE DESCRITIVA E COMPARATIVA.

Construções de Estrutura Argumental no âmbito do Constructicon da FrameNet Brasil: proposta de uma modelagem linguístico-computacional

A SEMÂNTICA DOS ADJETIVOS: COMO E POR QUE INCLUÍ-LA EM UMA ONTOLOGIA DE DOMÍNIO JURÍDICO

A ONTOGOV-MT: CONTRIBUIÇÕES LINGÜÍSTICO-TECNOLÓGICAS PARA A DEMOCRATIZAÇÃO DOS SERVIÇOS PÚBLICOS EM MATO GROSSO

Organização da Teleaula. A Significação. Contextualização. Processos Sintáticos e Semânticos em Língua Portuguesa. Teleaula 5. Licenciatura em Letras

MCZA Processamento de Linguagem Natural Semântica e similaridade de palavras: Parte I

POLISSEMIA E CONTEXTO: O PROBLEMA DURO DA DIFERENCIAÇÃO DE SENTIDOS

POLISSEMIA E CONTEXTO: O PROBLEMA DURO DA DIFERENCIAÇÃO DE SENTIDOS

ONTOBRAS Seminário de Pesquisa em Ontologia do Brasil

1 Introdução. 1 World Wide Web Consortium -

METÁFORA E MULTIMODALIDADE: O SENTIDO RESULTANTE DA INTERAÇÃO VERBAL/IMAGÉTICO* 1

Padrões para Definição de Metadados

Teoria dos Grafos. Professor: Guilherme Oliveira Mota.

definitions in natural language (say, English) and, if possible, using formal relations and

Guião 1 Anexo (v1.0) 2. Do léxico à frase 2.1. Classes de palavras e critérios para a sua identificação

Ontologias: Definições e Tipos

O MEIO QUE NA MÍDIA: UMA ABORDAGEM FUNCIONAL DA LÍNGUA

Isaack Saymon Alves Feitoza Silva, Universidade Federal de Santa Catarina(UFSC)

Língua portuguesa: ultrapassar fronteiras, juntar culturas

SignWriting Data Base: um sistema de dicionários para as línguas de sinais usadas pelos surdos

PLANO DE ENSINO. CARGA HORÁRIA: 72 horas Para a Licenciatura: + 30 horas de PCC (Prática Componente Curricular)

MAPA CONCEITUAL E A MODELAGEM CONCEITUAL DE SISTEMAS DE HIPERTEXTO

Banco de Dados 08/08/2010

Grice: querer dizer. Projecto de Grice: explicar a significação em termos de intenções.

Perspectivas para Busca Semântica para Comunicação Alternativa: o caso SCALA. João Carlos Gluz Universidade do Vale do Rio dos Sinos (UNISINOS)

Mestranda do Programa de Pós-Graduação em Letras, Cultura e Regionalidade; Universidade de Caxias do Sul - UCS 2

Ontologias: Definições e Tipos

5 Ambigüidades no contexto de Mineração de Textos

OntoLP: Engenharia de Ontologias em Língua Portuguesa

Linguagens Documentárias. Profa. Lillian Alvares Faculdade de Ciência da Informação, Universidade de Brasília

XML. Prof. Júlio Machado

Círculo Fluminense de Estudos Filológicos e Linguísticos

Extração de informações e web semântica: a importância da semântica verbal

A INTERAÇÃO ENTRE OS PROCESSOS METAFÓRICO E METONÍMICO NA CONSTRUÇÃO DE SENTIDO DA CHARGE ANIMADA OS LULASTONES. 1

A ORDEM DE AQUISIÇÃO DOS PRONOMES SUJEITO E OBJETO: UM ESTUDO COMPARATIVO 10

CULTURA, LÉXICO E REGULARIDADES ESTRUTURAIS EM TEXTOS ESPECIALIZADOS DE MEDICINA E DE DIREITO AMBIENTAL: UM CONTRASTE EXPLORATÓRIO

Lógica Computacional

O comportamento polissêmico das preposições de e para

MODELO ENTIDADE RELACIONAMENTO

Programação para Internet. Professor Pedro Ramires 1º Informática

Frames e dicionários onomasiológicos: uma proposta na interface entre semântica cognitiva e lexicografia

Um Modelo de Identificação e Desambigüização de Palavras e Contextos

Automatização da Geração de Dicionários Tratáveis por Máquina: Reutilização de Recursos Linguísticos

RECUPERAÇÃO LEXICAL E TEMPO DE ESPERA NA INTERPRETAÇÃO SIMULTÂNEA DE PALAVRAS DO PORTUGUÊS PARA A LÍNGUA DE SINAIS BRASILEIRA

Ontologias. Profa. Lillian Alvares Faculdade de Ciência da Informação, Universidade de Brasília

5 Arquitetura de implementação

Fundamentos em Organização da Informação

6 Conclusão. 6.1 Trabalhos relacionados

CRÉDITOS DO CURSO. Carga Horária Créditos IN1030 Seminários 30 2

Automatização de um Método de Avaliação de Estruturas Retóricas

Linguística Computacional Interativa

5 Conclusão e trabalhos futuros

Modelagem de Dados MODELAGEM DE DADOS. Sistemas de Banco de Dados. Profa. Rosemary Melo

AQUISIÇÃO DAS RELATIVAS PADRÃO EM PB DURANTE A ESCOLARIZAÇÃO

Introdução à Computação

Integração de Bases de Dados

U NIVERSIDADE F EDERAL DE P ERNAMBUCO GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO CENTRO DE INFORMÁTICA

3 Kuaba: Uma Ontologia para Design Rationale

Codex Troano: análise particional e principais gestos composicionais

Castro (2008, p.7) define a palavra ontologia de forma mais simplificada:

Scott Schwenter é docente de Linguística Hispânica, ligado ao Departamento

Fernando Gil Coutinho de Andrade. Polissemia e produtividade nas construções lexicais: um estudo do prefixo re- no português contemporâneo

Plano de Estudos. Escola: Instituto de Investigação e Formação Avançada Grau: Programa de Doutoramento Curso: Informática (cód.

Sistema Gestor de Bancos de Dados (SGBD)

Márcia Araújo Almeida

ANOTAÇÃO DE SENTIDOS DE VERBOS EM NOTÍCIAS JORNALÍSTICAS EM PORTUGUÊS DO BRASIL

Desenvolvimento Orientado a Modelos

Uma Abordagem de Gerenciamento Contextual de Recursos Dinâmicos em Ambientes Pervasivos: Estudo de Caso em Aplicações de Home Care

Ontologias na Representação e na Recuperação de Informação. EDBERTO FERNEDA UNESP-Marília

Estendendo GeoDWCASE para Oracle Spatial e MySQL PROPOSTA DE TRABALHO DE GRADUAÇÃO

Encontro 10 Anos da Linguateca PROPOR 2008 Aveiro Portugal

O que é uma convenção? (Lewis) Uma regularidade R na acção ou na acção e na crença é uma convenção numa população P se e somente se:

EXEHDA-SS: Uma Contribuição a Sensibilidade ao Contexto na Medicina Ubíqua

Disciplina: Tópicos em Linguística Aplicada: Metáfora, Metonímia e Blending na Língua e Cultura

SCC-5832 Teoria da Computação

Variação angular no movimento dos articuladores braço e antebraço na produção da Libras: estudo sobre variação linguística e orientação sexual

UMA FERRAMENTA PARA A PESQUISA EM CORPORA DE AQUISIÇÃO DE LINGUAGEM

Transcrição:

Uma proposta de representação das relações de polissemia em wordnets Isa Mara da Rosa Alves 1, Rove Luiza de Oliveira Chishman 2 1,2 PPG-Linguística Aplicada Universidade do Vale do Rio dos Sinos (UNISINOS) Caixa Postal 15.064 91.501-970 São Leopoldo RS Brasil {ialves, rove}@unisinos.br Resumo. O objetivo deste trabalho é apresentar uma proposta de representação de relações de polissemia para as wordnets, particularmente, para a WordNet.Br. Abstract. This research aims at representing noun polysemy so that it can be useful to wordnet bases, particularly in WordNet.Br. 1. Introdução Esta pesquisa desenvolve-se seguindo uma metodologia em três domínios mutuamente complementares [DIAS-DA-SILVA, 1996]: linguístico, linguístico-computacional e computacional. As investigações empreendidas no domínio linguístico-computacional revelaram a importância de introduzir níveis distintos de generalidade entre os sentidos em uma wordnet, de modo a reduzir (ou não aumentar) a complexidade do processamento lexical. O domínio linguístico ficou responsável pela reflexão sobre os subsídios teórico-metodológicos que embasam a representação proposta. Por fim, o domínio computacional envolve as atividades de codificação das representações propostas no domínio linguístico-computacional em programas de computador. 2. A polissemia como uma rede de sentidos A Semântica Lexical Cognitiva (SLC) mostrou ser a teoria mais adequada para os propósitos deste trabalho. Para a SLC, os sentidos polissêmicos devem ser descritos como entidades cognitivas complexas, isto é, como uma categoria de sentidos [LAKOFF, 1987], descrevendo o potencial de sentidos convencionalmente associado a uma estrutura fonológica, representada em forma de rede, uma rede de polissemia. O estudo da polissemia está intimamente ligado ao estudo da homonímia e da monossemia; não há uma fronteira bem delimitada entre esses três fenômenos. Entender a polissemia como um fenômeno categorial implica entender que o fenômeno é caracterizado quando for possível delimitar certas porções de conteúdo conceitual (i) como um agrupamento de sentidos (potencial de sentidos) relacionados (ii) que fazem parte da estrutura semântica (categoria de sentidos) subjacente a uma unidade linguística, que tem status simbólico. A negação da parte (i) dessa definição torna os múltiplos sentidos como instância de homonímia por não serem percebidos como um conjunto (uma categoria), fato que pode ter como consequência considerar que estão sendo percebidos dois ou mais itens sem relação (e não um) instanciados na superfície da língua a partir da mesma estrutura fonológica. A negação da parte (ii) leva a entendermos a variação semântica como uma simples especificação contextual da estrutura semântica (categoria de sentidos), caracterizando a monossemia. 229 Proceedings of the 8th Brazilian Symposium in Information and Human Language Technology, pages 229 233, Cuiabá, MT, Brazil, October 24 26, 2011. c 2011 Sociedade Brasileira de Computação

3. O modelo polyset As redes de polissemia sincrônicas, em sua configuração livre e multidimensional, tal como Blank (2003) e Geeraerts (2006) propõem, são referência para o modelo polyset por possibilitarem um modelo de representação flexível em termos de relações polissêmicas. Há flexibilidade nesse modelo porque na medida em que o foco desce para sentidos específicos, o item vai sendo visto como mais polissêmico e à medida que o foco passa para os níveis mais altos, mais esquemáticos, o item é visto como menos polissêmico, ou até monossêmico [TAYLOR, 1995, p. 288]. Cada componente da estrutura do polyset contribui de algum modo para a definição dos nós (sentidos) e dos arcos (relações) que constituem a rede, são eles: (a) o item lexical polissêmico, aquele que ativa um determinado tipo de rotina cognitiva, de modo que uma mesma estrutura fonológica provê acesso a diferentes porções relacionadas de conteúdo no espaço conceitual; (b) a constante, que representa a estrutura fonológica/grafêmica de um item lexical, por esta ser a porção formal comum aos sentidos que compõem o polyset; (c) os sentidos polissêmicos, caracterizados com base em Croft e Cruse (2004), são os nós da rede e podem ser tanto sentidos plenos quanto os subsentidos (facetas e microssentidos); (d) os conjunto de sentidos que apresentam algum fator de coerência, ou seja, alguma relação semântica; (e) a relação entre os sentidos (polissemia regular ou polissemia irregular, do tipo automeronímia ou autohiponímia); (f) os efeitos de saliência. A seguir, serão apresentados detalhes sobre os elementos (e) e (f). As relações entre os sentidos polissêmicos podem ser de dois tipos: regulares ou irregulares. Entre as relações regulares [CRUSE, 2000], podemos ter a automeronímia/autoholonímia (relação de PARTE-TODO) ou a autohiponímia/autossuperordenação (relação É-UM). A primeira ocorre quando os subsentidos (do tipo facetas) associam-se por relação de parte-todo (ex.: porção/substância, objeto físico/conteúdo). Como exemplo, destacamos livro objeto físico e livro conteúdo. O segundo tipo de polissemia ocorre quando um dos subsentidos (do tipo microssentidos) é construído de modo mais específico em relação aos outros. Como exemplo, destacamos faca como utensílio doméstico, arma branca e instrumento cirúrgico. As relações de polissemia irregular caracterizam similaridade entre sentidos com alto grau de independência entre si, mas, ainda assim, com alguma similaridade entre eles. Ao contrário das relações que se detectam na polissemia regular, trata-se de uma relação horizontal, não havendo herança entre os sentidos e que apresenta um grau de subjetividade bem maior. O que ocorre é uma comparação entre os sentidos de modo que podemos dizer que há algum grau de similaridade entre eles. Nessas situações, há um grau médio de antagonismo e significativo grau de autonomia entre os sentidos polissêmicos, que se associam de algum modo a uma mesma noção geral (objetiva ou subjetiva). Destacamos como exemplo fonte como origem, causa, procedência, nascente de água e instalação para aproveitar a água nascente ou mesmo a água encanada, sentidos que podem ser associados à noção geral ponto de origem. O rótulo a ser utilizado para codificar essa é é-similar-a. Sobre os efeitos de saliência de sentido, é preciso dizer que [cf. GEERAERTS, 2006] podemos ter os seguintes cenários típicos: (a) sentido único quando há um 230

único sentido saliente que se sobrepõe aos outros, caracterizando a polissemia irregular (ex.: fonte, com o sentido origem, causa, procedência, nascente de água ); (b) sentidos múltiplos e independentes quando a independência é parcial, caracteriza-se a polissemia irregular ou a polissemia regular do tipo autohiponímia (ex.: faca, cão); (c) sentidos múltiplos e sobrepostos quando há a ocorrência de um modo independente, caracterizando a polissemia regular do tipo automeronímia (ex.: livro, universidade). Neste trabalho, para a identificação do núcleo de uma categoria de sentidos representada em termos de um polyset, consideraremos dois critérios fundamentais: a predominância na rede de polissemia e a frequência de ocorrência em corpus, conforme descreveremos. O sentido considerado predominante é o sentido que possui maior número de conexões na rede. Ele é, portanto, o sentido com maior saliência funcional. O critério é considerado válido por duas razões. Entende-se que ele é o sentido cognitivamente mais saliente e, portanto, o que tem maior vantagem psicológica, por facilitar o acesso aos demais. O sentido mais frequente no corpus web é aquele que possui maior saliência estrutural. 4. A construção do polyset As etapas linguísticas de construção de um polyset são realizadas em dois momentos. O primeiro deles, envolve a definição dos nós da rede de polissemia e a indicação dos conjuntos de sentidos. O segundo envolve as etapas de análise e de representação linguística propriamente dita. O item lexical banco, que aqui exemplifica o modelo, é frequentemente citado na literatura como exemplo de homonímia por não poder ser percebida qualquer similaridade entre banco instituição financeira e assento. Esses não são, no entanto, os únicos sentidos convencionalmente associados ao item, de maneira que diferentes agrupamentos podem ser percebidos em seu conteúdo semântico. O item banco é associado a dois polysets independentes. Para ilustrar agrupamento polissêmico 1 associado a banco, observemos a Figura 1. Figura 1 - Polyset1 banco 231

A Figura 1 representa o primeiro polyset associado a banco. A rede é estruturada em termos de polissemia regular e irregular. Optamos por organizar o conjunto de sentidos identificados para banco associados à noção geral coleção ou custódia de algo de valor em diferentes níveis. O primeiro nível relaciona três sentidos por similaridade subjetiva, que tem como referência a função de armazenamento de algo de valor. Um segundo nível de relações, e está aqui o nosso acréscimo, associa os sentidos por polissemia regular, em que o sentido pleno local onde se armazenam componentes orgânicos de doadores para tratamento ou uso de outras pessoas, serve como conteúdo esquemático para as leituras codificadas como microssentidos banco de sangue e banco de córnea, relação de autohiponímia. Entre os sentidos subordinados à ipfs ( instituição financeira, pessoas, funcionamento e sede física onde funciona a instituição financeira ), pode ser percebida uma relação de polissemia regular do tipo automeronímia. A regularidade é percebida por podermos encontrar outros itens lexicais que apresentam o mesmo tipo de variação entre instituição / pessoas / funcionamento / estrutura física, entre eles, escola, creche, universidade. A Figura 2 ilustra o Polyset2 associado ao rótulo banco, relacionando os sentidos móvel usado como assento e aglomeração de areia, conchas, fósseis e detritos de rochas por similaridade. Figura 2 - Polyset2 banco A construção do Polyset2 justifica-se pela identificação de uma similaridade subjetiva relacionada à noção geral função de apoio ou da similaridade objetiva baseada na forma de um banco do tipo móvel e um banco de areia ou fósseis e detritos. Há alto grau de autonomia e antagonismo entre esses sentidos, configurando-se como sentidos plenos relacionados por similaridade. A etapa computacional de construção de um polyset prevê sua representação no Protégé-OWL. Para tal, foram utilizadas as recomendações da World Wide Web Consortium (W3C) para a codificação da base WordNet de Princeton em Ontology Web Language (OWL), com o objetivo de criar um esquema representacional comum aos diferentes projetos, facilitando o intercâmbio de dados. 7. Conclusão Procuramos mostrar aqui que uma abordagem flexível como a de redes de polissemia é uma alternativa à estruturação de bases de dados lexicais por permitir a representação dos sentidos polissêmicos em seus diferentes níveis de generalidade. Para entender o desafio envolvido, basta olharmos para a estrutura global de tal base: os sentidos são agrupados em conjuntos de sinônimos cognitivos (synsets) e relações são estabelecidas entre os conceitos expressos linguisticamente pelos itens que compõem o synset. O que se observa é que a grande dificuldade na representação da polissemia em tais ontologias, ainda sem envolver a sua definição, é o fato de o fenômeno exigir um olhar para o léxico sob a perspectiva semasiológica e as wordnets, por definição, serem representações onomasiológicas. 232

Referências Blank, A. (2003) Polysemy in the lexicon and discourse. In: NERLICH, B. et al (Ed.). Polysemy: flexible patterns of meaning in mind and language. Hawthorne, N.Y.: Mouton de Gruyter, p. 267-293. Croft, W. e Cruse, D. A. (2004) Cognitive linguistics. Cambridge: Cambridge University Press. Cruse, D.A. (2000) Meaning in language: an introduction to semantics and pragmatics. Cambridge: Cambridge University Press. Dias-da-Silva, B. C. (1996). A face tecnológica dos estudos da linguagem: o processamento automático das línguas naturais. 272 f. Tese (Doutorado em Linguística e Língua Portuguesa) Faculdade de Ciências e Letras, UNESP/Araraquara. Fellbaum, C. (ed.). (1998) WordNet: an electronic lexical database. Cambridge: The MIT Press. Geeraerts, D. (2006) Words and other wonders: papers on lexical and semantic topics. Berlin: Mounton de Gruyter. Lakoff, G. (1987) Women, fire, and dangerous things: what categories reveal about the mind. Chicago: University of Chicago Press. Taylor, J. R. (1995) Linguistic categorization: prototypes in linguistic theory. London: Clarendon Press; New York: Oxford University Press. 233