PAPEL: a dictionary-based lexical ontology for Portuguese

Documentos relacionados
Project Management Activities

Ontology Building Process: The Wine Domain

Building a golden collection of parallel Multi-Language Word Alignment

TACIANO PINHEIRO DE ALMEIDA ALCÂNTARA. Erro! Fonte de referência não encontrada. FORTALEZA

Accessing the contents of the Moodle Acessando o conteúdo do Moodle

Scientific data repositories: the USP experience

e-lab: a didactic interactive experiment An approach to the Boyle-Mariotte law

Serviços: API REST. URL - Recurso

1ª A, B, C, D, E Nº DE HORAS/AULA SEMANAL: 02 TOTAL DE HORAS/AULA/ANO:

Reconhecimento de entidades mencionadas em português

/ʌ/ /ɑ:/ /e/ /æ/ /i:/ /ɪ/ /ʌ/ /ɑ:/ /e/ Sun Sol. Arm Braço

Digital Cartographic Generalization for Database of Cadastral Maps

Apresentação V.B.M.P.S.

Definição de Ontologia para Identificação de Riscos de Projetos de Software. Definition of Ontology for Software Projects Risk Identification

Intellectual Property. IFAC Formatting Guidelines. Translated Handbooks

MARCELO DE LIMA BRAZ REDUÇÃO DA QUANTIDADE DE REPROCESSO NO SETOR DE PRODUÇÃO DE CALDOS ALIMENTÍCIOS NA EMPRESA DO RAMO ALIMENTÍCIO (ERA).

:: FERRAMENTAS MRP APLICADAS PDF ::

Semestre do plano de estudos 1

English version at the end of this document

Transportes. Transportation. Semestre do plano de estudos 1

Estratégias de TI para a integração eletrônica da informação - um estudo sobre o estado da arte e da prática

O panorama geral e informática para a biodiversidade

Pesquisa Qualitativa do Início ao Fim (Métodos de Pesquisa) (Portuguese Edition)

OVERVIEW DO EAMS. Enterprise Architecture Management System 2.0

GBIF.PT. Cape Town, 7 April GBIF.PT The first steps to establish the Portuguese GBIF Node. Nelson Lima

As Novas Tecnologias como componente da. Formação, de 1º ciclo, em Serviço Social

WP8 Quality and Management/Governance National study Portuguese version 2012

Ontology Patterns e Ontology Pattern Languages

Creating a Technical Corpus

Implementing Data Models and Reports with SQL Server 2014 (20466)

English version at the end of this document

Interoperability through Web Services: Evaluating OGC Standards in Client Development for Spatial Data Infrastructures

Universidade do Minho. Escola de Engenharia. UC transversais Programas Doutorais 1º semestre de outubro 2012

5/10/10. Implementação. Building web Apps. Server vs. client side. How to create dynamic contents?" Client side" Server side"

Luiz Fernando Fernandes de Albuquerque. Avaliação de algoritmos online para seleção de links patrocinados. Dissertação de Mestrado

CMDB no ITIL v3. Miguel Mira da Silva

LUDMILA D. NUNES Curriculum Vitae Junho 2012

ANALYSIS OF THE APPLICATION OF THE LADM IN THE BRAZILIAN URBAN CADASTRE: A CASE STUDY FOR THE CITY OF ARAPIRACA BRAZIL

Instituto de Engenharia de Sistemas e Computadores: Investigação e Desenvolvimento em Lisboa

Welcome to Lesson A of Story Time for Portuguese

A CONVERSÃO ADJETIVO/SUBSTANTIVO EM FORMAÇÕES DEVERBAIS X-DO NO PORTUGUÊS DO BRASIL

PRINCE2 FOUNDATION AND PRACTITIONER INNOVATIVE LEARNING SOLUTIONS PORTUGAL - BRAZIL - MOZAMBIQUE

Bíblia do Obreiro - Almeida Revista e Atualizada: Concordância Dicionário Auxílios Cerimônias (Portuguese Edition)

Using Big Data to build decision support tools in

Como Falar no Rádio - Prática de Locução Am e Fm (Portuguese Edition)

English version at the end of this document

English version at the end of this document

Revisão do Mapeamento de Processos em Levantamentos Topográficos de Áreas Patrimoniais. Antônio Diego Oliveira de Almeida Ivanildo Barbosa

ANÁLISE DO ALINHAMENTO ENTRE O BALANÇO SOCIAL E O RELATÓRIO DE SUSTENTABILIDADE DOS TRÊS MAIORES BANCOS EM ATIVIDADE NO BRASIL

Gerir referências bibliográficas. APA 6th. EndNote Web

FEDERAL UNIVERSITY OF RIO DE JANEIRO THIAGO BRANDÃO DA CUNHA

學 術 研 究 獎 學 金 申 請 表. Bolsas de Investigação Académica Boletim de Candidatura. Academic Research Grant Application Form

DIBELS TM. Portuguese Translations of Administration Directions

Participatory Map of Rio de Janeiro

Aula 02: Conceitos Fundamentais

UNIVERSIDADE ESTADUAL DE GOIÁS UNIDADE UNIVERSITÁRIA DE CIÊNCIAS SÓCIO-ECONÔMICAS E HUMANAS DE ANÁPOLIS

Easy Linux! FUNAMBOL FOR IPBRICK MANUAL. IPortalMais: a «brainware» company Manual

Padrões de Aplicações Empresariais

Enplicaw Documentation

English version at the end of this document

A presença do português na escrita do aprendiz de inglês: um estudo sobre o emprego lexical

Knowledge Representation and Reasoning

MySQL: Comece com o principal banco de dados open source do mercado (Portuguese Edition)

STUDY ABOUT INFLUENCE ON ACADEMIC PERFORMANCE OF STUDENTS USERS OF SOCIAL NETWORKS

Wiki::Score A Collaborative Environment For Music Transcription And Publishing

:: COMO ESCOLHER UMA ESCOLA IDIOMAS PDF ::

MÉTODOS DE INVESTIGAÇÃO QUALITATIVA EM SAÚDE / QUALITATIVE METHODOLOGIES

Terras do Sem Fim (Em Portugues do Brasil)

Schmidt, Valois, Miranda, Ferreira & Agel - Advogados

ISO, IHE e HL7. Apresentação ABNT. José Costa Teixeira. Junho 2015

Project Communications Management. PMBOK Capítulo 10

DGES DIRECÇÃO GERAL DO ENSINO SUPERIOR MINISTÉRIO DA CIÊNCIA, TECNOLOGIA E ENSINO SUPERIOR FORM

ENGENHARIA DE SERVIÇOS SERVICES ENGINEERING

Medicina e Meditação - Um Médico Ensina a Meditar (Portuguese Edition)

Writing Good Software Engineering Research Papers

O guia do enxoval do bebê nos Estados Unidos: Dicas e segredos da maior especialista de compras em Miami, Orlando e Nova York (Portuguese Edition)

Sistemas Operativos - Mooshak. 1 Mooshak. in fct.ualg.pt/. mooshak.deei.fct.ualg.pt/.

Tese / Thesis Work Análise de desempenho de sistemas distribuídos de grande porte na plataforma Java

Informática e Programação. Computer Science and Programming. Semestre do plano de estudos 1

Trabalho de Compensação de Ausência - 1º Bimestre

Software Testing with Visual Studio 2013 (20497)

English version at the end of this document

English version at the end of this document

Dilogo Brasil Livro Texto: Curso Intensivo De Portugues Para Estrangeiros (Dialogo Brasil) (Portuguese Edition)

Comparador: forma de auscultar corpos no AC/DC

Indicadores de Pesquisa, Desenvolvimento e Inovação (P,D&I) em Software e Serviços de TI: o Caso da Lei do Bem (nº /05)

VIAGEM A SALVADOR DA BAHIA PDF

As 10 bobagens mais comuns que as pessoas inteligentes cometem (Portuguese Edition)

English version at the end of this document

GUIÃO A. Ano: 9º Domínio de Referência: O Mundo do Trabalho. 1º Momento. Intervenientes e Tempos. Descrição das actividades

Research Institute: Experience of Surviving Transferring Knowledge to Society

Como Mudar a Senha do Roteador Pelo IP o.1.1. Configure e Altere a Senha do seu Roteador acessando o IP Acesse o Site e Confira!

URBAN AGE SOUTH AMERICA CONFERENCE DECEMBER 2008

A dança do corpo vestido: Um estudo do desenvolvimento do figurino de balé clássico até o século XIX (Portuguese Edition)

English version at the end of this document

Um Método para Melhoria de Dados Estruturados de Imóveis

Course Computer Science Academic year 2012/2013 Subject Social Aspects of Computers ECTS 5

Proposta de Criação do Mestrado em Gestão Logística. III - Informação Relativa ao Suplemento ao Diploma

Transformando Pessoas - Coaching, PNL e Simplicidade no processo de mudancas (Portuguese Edition)

Uma Abordagem ao PÁGICO baseada no Processamento e Análise de Sintagmas dos Tópicos

Transcrição:

PAPEL: a dictionary-based lexical ontology for Portuguese Hugo Gonçalo Oliveira, Paulo Gomes, Nuno Seco Linguateca, node of Coimbra, DEI-FCTUC, CISUC Diana Santos Linguateca, node of Oslo, SINTEF ICT Universidade de Coimbra Faculdade de Ciências e Tecnologia Departamento de Engenharia Informática Knowledge and Intelligent Systems Laboratory Cognitive and Media Systems Group Centre of Informatics and Systems of the University of Coimbra 1

Contents Project objectives Related work Building PAPEL Further work/possible directions Availability 2

Project objectives PAPEL stands for Palavras Associadas Porto Editora Linguateca 3

MRDs as a source of semantic knowledge Since 1970's (Calzolari 1977, Amsler 1981, ) Restricted and predictable vocabulary Typical definition structure: genus + differentia genus: the superordinate concept differentia: properties for distinction between instances of the same superordinate concept. 4

Similar resources Princeton WordNet (Miller 1990) Microsoft's MindNet (Richardson et al. 1998) FrameNet (Baker et al. 1998) WordNet.BR (Dias da Silva 2004) WordNet.PT (Marrafa et al. 2006) 5

Building PAPEL Examples of relations to include: Relation HIPERONIMO-DE(X, Y) HIPONIMO-DE(X, Y) CAUSADOR-DE(X, Y) RESULTADO-DE(X, Y) MEIO-PARA(X, Y) FINALIDADE-DE(X, Y) PARTE-DE(X, Y) INCLUI(X, Y) LOCAL-DE(X, Y) OCORRE-EM(X, Y) Read X is a HIPERONIMO-DE Y X is a HIPONIMO-DE Y X is a CAUSADOR-DE Y X is a RESULTADO-DE Y X is a MEIO-PARA Y X is a FINALIDADE-DE Y X is a PARTE-DE Y X INCLUI Y X is a LOCAL-DE Y X OCORRE-EM Y Example HIPERONIMO-DE(animal, cão) HIPONIMO(cão, animal) CAUSADOR-DE(vírus,doença) RESULTADO-DE(doença, vírus) MEIO-PARA(chave, abrir) FINALIDADE-DE(abrir, chave) PARTE-DE(roda, carro) INCLUI(carro, roda) LOCAL-DE(restaurante, comer) LOCALIZADO-EM(comer, restaurante) 6

Building PAPEL Quantitative studies about the patterns used in the definitions. Using the chart parser PEN with specific grammars to extract relations [http://www.linguateca.pt/ Coimbra] Extraction of relations between entities, from definitions: Y1 tipo de X1 HIPERONIMO-DE(X1, Y1) Y2 formado por um X2 PARTE-DE(X2, Y2) 7

Building PAPEL Pattern selection Processing the DLP Grammar Testing Set of relations Regression Manual result analysis Correct Incorrect 8

Detailed example Causation relation: relation between an agent (the causer) and a result (the caused) CAUSADOR-DE and its inverse RESULTADO-DE. Based on verbs: causar, originar, provocar, produzir, gerar, motivar, suscitar. 9

Detailed example Simplified rules for CAUSADOR-DE: {causad originad provocad produzid gerad motivad suscitad} {o os a as} FREQ* PREP CAUSADOR concussão (s.f.) - choque violento originado por uma explosão CAUSADOR-DE(explosão, concussão) devido {a ao à às aos} CAUSADOR engasgo (s.m.) - incapacidade de respirar devido a obstrução da garganta CAUSADOR-DE(obstrução, engasgo) 10

Detailed example Simplified rules for RESULTADO-DE: que {causa origina provoca produz motiva gera suscita} RESULTADO incomodidade (s.f.) - o que causa mal-estar ou desconforto RESULTADO-DE(mal-estar, incomodidade) RESULTADO-DE(desconforto, incomodidade) {causar originar provocar produzir motivar gerar suscitar} RESULTADO germe (s. m.) - microrganismo susceptível de provocar uma doença RESULTADO-DE(doença, germe) 11

Detailed example Examples of current problems: Specific relations inside the definition estetoscópio (s.m.) instrumento para auscultar a respiração, as batidas do coração e outros sons produzidos pelo corpo. CAUSADOR-DE(corpo, estetoscópio) Identifying the result erinose (s.f.) - doença das videiras originada por um ácaro que ataca as folhas destas plantas, provocando a formação de umas galhas felpudas RESULTADO-DE(formação, erinose)? RESULTADO-DE(galhas, erinose)? 12

Evaluation of results Precision Manual relation evaluation Online interactive game, like RealMics [http://www.realmics.com] Relation name Runs Hits Tagged Tagged correct Tagged incorrect Precision CAUSADOR-DE 6 5955 3551 3440 111 0.97 RESULTADO-DE 6 1870 1190 1101 89 0.93 FINALIDADE-DE 2 1432 284 275 9 0.97 MEIO-PARA 2 813 326 302 24 0.93 INCLUI 3 585 322 315 7 0.98 PARTE-DE 2 811 202 171 31 0.85 Number of definitions in the whole DLP = 237,246 13

Evaluation of results Recall (always hard to measure!) randomly choose a subset of the dictionary entries and create the results for them manually (too much work, not done so far ) use independent lists by gathering / eliciting from people relations between lexemes. If the information in the lists is enconded in the dictionary, we can use it as a golden standard. publicly available wordnets for other languages + machine translation + some manual cleaning (prone to a lot of problems) 14

Further work Improvements to PEN + grammars Weigh the use of external resources (morphological analyser, broad-coverage parser ) Study the presence of modifiers (grande, forte, ligeira, ) in the definitions Word sense ambiguation (Dolan 1994) Evaluation 15

Further work Learn from the ReRelEM (1) experience Network representation Expansion of the network obtaining inverse relations PART-OF(A, B) CONTAINS(B, A) applying transitivity rules: PART-OF(A,B) + PART-OF (B,C) PART-OF (A,C) Use of the golden collection for pattern mining? 1 Evaluation of semantic relations among named entities (HAREM track) 16

Availability Reports and presentations are available in http:// www.linguateca.pt/papel First version: publicly available in June 2009 (according to contract with Porto Editora) Further ontology creation projects in the scope of future projects or PhD theses. 17

The end... Acknowledgement This work was done in the scope of Linguateca, contract nº339/1.3/c/nac, project jointly funded by the Portuguese Government and the European Union. Universidade de Coimbra Faculdade de Ciências e Tecnologia Departamento de Engenharia Informática Knowledge and Intelligent Systems Laboratory Cognitive and Media Systems Group Centre of Informatics and Systems of the University of Coimbra 18