Onto.PT: Construção automática de uma ontologia lexical para o português

Documentos relacionados
Uma Abordagem ao PÁGICO baseada no Processamento e Análise de Sintagmas dos Tópicos

Ontologias Linguísticas e Processamento de Linguagem Natural. Ygor Sousa CIn/UFPE

SEMÂNTICA PARTE 3 ANÁLISE SEMÂNTICA 14/06/2012. SCC5908 Tópicos em Processamento de Língua Natural. Até agora, significado da sentença

MCZA Processamento de Linguagem Natural Semântica e similaridade de palavras: Parte I

MAPAS CONCEITUAIS COMPILADOS: UMA FERRAMENTA PARA CONSTRUÇÃO DE DIAGNÓSTICOS EM ENSINO A DISTÂNCIA

portuguesas a partir de um dicionário

Recuperação de Informação em Bases de Texto

Uma Abordagem para Detecção Automática de Sinônimos em Mapas Conceituais

Extracção de relações semânticas entre palavras a partir de um dicionário: o PAPEL e sua avaliação

Comparação dos algoritmos sequencial e paralelo para contagem de palavras e contexto

Extração e Validação de Ontologias a partir de Recursos Digitais

Uma rede léxico-semântica de grandes dimensões para o português, extraída a partir de dicionários electrónicos

Uma Abordagem ao Págico baseada no Processamento e Análise de Sintagmas dos Tópicos

Sistema de Aquisição semi-automática de Ontologias

Relações semânticas entre palavras. O papel das relações semânticas em português: Comparando o TeP, a MWN.PT e o PAPEL

Construção automática de uma wordnet com medidas de confiança associadas

Mineração de Textos na Web

Making the most of a 100-year-old dictionary. Alberto Simões, Álvaro Iriarte

Extracção de conhecimento léxico-semântico a partir de resumos da Wikipédia

Aprendizagem de vocabulário novo em crianças: efeitos do tipo de palavra e da composição da lista de estímulos na organização léxico-semântica

Extracção de conhecimento léxico-semântico a partir de resumos da Wikipédia

Métodos de Acesso Métrico

U NIVERSIDADE F EDERAL DE P ERNAMBUCO

Extracção de relações semânticas entre palavras a partir de um dicionário: primeira avaliação

Avaliando a similaridade semântica entre frases curtas através de uma abordagem híbrida

Índice. Classificação de textos para o ensino de português como segunda língua. Índice. technology from seed

DEFINING METRIC THRESHOLDS FOR SOFTWARE PRODUCT LINES: A COMPARATIVE STUDY

Uma Abordagem de Gerenciamento Contextual de Recursos Dinâmicos em Ambientes Pervasivos: Estudo de Caso em Aplicações de Home Care

Recapitulando... Abordagens: PLN. Abordagens: PLN 29/03/2012. Introdução ao Processamento de Línguas Naturais. Distribuição de palavras

UNIVERSIDADE FEDERAL DE PERNAMBUCO CENTRO DE INFORMÁTICA GRADUAÇÃO EM ENGENHARIA DA COMPUTAÇÃO

Predição de links em uma rede heterogênea baseada em dados geolocalizados e de relacionamentos

Explorando Métodos de Uso Geral para Desambiguação Lexical de Sentidos para a Língua Portuguesa

PAPEL. Utilização do (analisador sintáctico) PEN para extracção de informação das denições de um dicionário

Descoberta de conhecimento em textos - Análise semântica. Diogo Cardoso Eduardo Camilo Inácio Eduardo Monteiro Dellandréa Guilherme Gomes

ONTOBRAS Seminário de Pesquisa em Ontologia do Brasil

PROCESSAMENTO DE TEXTO

4 Trabalhos relacionados à extração automática de hiperonímia

Descritores de Imagens

Construção de Linked Data Mashup: Integração de Dados na Saúde Pública. Gabriel Lopes, Vânia Vidal e Mauro Oliveira.

Determinação do Grau de Similaridade entre Frases

Automatização da Geração de Dicionários Tratáveis por Máquina: Reutilização de Recursos Linguísticos

Plano de Estudos. Escola: Instituto de Investigação e Formação Avançada Grau: Programa de Doutoramento Curso: Informática (cód.

Análise de Difusão de Influência em redes sociais com foco na Hipótese dos Influentes

UMA FERRAMENTA DE APOIO A DETERMINAÇÃO DE EQUIVALÊNCIAS SEMÂNTICAS ENTRE ESQUEMAS GML UTILIZANDO ONTOLOGIAS OWL

UMA FERRAMENTA PARA A PESQUISA EM CORPORA DE AQUISIÇÃO DE LINGUAGEM

O analisador sintáctico PEN

Descoberta Automática de Relações Não- Taxonômicas a partir de Corpus em Língua Portuguesa

PLN e áreas correlatas

Estudo Semântico e Aplicação Computacional de Adjetivos do Português do Brasil

JWN-Br Uma API Java para a WordNet.Br

Desambiguação Lexical de Sentido com uso de Informação Multidocumento por meio de Redes de Co-ocorrência

Obtendo Interoperabilidade Semântica em Sistemas. Metamorphosis

Integração de Dados em GIS. Charles Ferreira Gonçalves

Novas Ferramentas e Recursos Linguísticos para a Tradução Automática

Uma proposta de representação das relações de polissemia em wordnets

definitions in natural language (say, English) and, if possible, using formal relations and

5 Ambigüidades no contexto de Mineração de Textos

SQLLOMining: Obtenção de Objetos de Aprendizagem utilizando técnicas de Aprendizado de Máquina

Uma Metodologia para a Extração de Ontologias a partir de Páginas Web

Análise de métodos de Inferência Ecológica

Avaliação da inteligibilidade de textos para o público infantil: adaptação das métricas do Coh-Metrix para o Português

Guião 1 Anexo (v1.0) 2. Do léxico à frase 2.1. Classes de palavras e critérios para a sua identificação

Gramática de Montague

UNIVERSIDADE FEDERAL DA BAHIA

ASAPP: Alinhamento Semântico Automático de Palavras aplicado ao Português

CURRICULUM VITAE. Luís Gustavo Pereira Marques Martins

Um Mecanismo de Detecção de Versões de Páginas Web para Melhoria do Desempenho do Algoritmo de PageRank

Lógica Computacional

VOCABULÁRIOS CONTROLADOS. Prof. Cesar A. Tacla/UTFPR Curitiba

Verificação automática de substantivos compostos através de reconhecimento de padrões sintáticos

Extração e Representação Semântica de Fatos Temporais

Dicionário-Aberto: Construção semiautomática de uma funcionalidade codificadora

PALAVRAS-CHAVE COMO ELO ENTRE ARTIGOS E AUTORES: visualizações possíveis

Autor 1 Orientador: 1. dia de mês de ano

Prof. Walter Moreira Unesp / Marília, 2017

Anotação de corpus com a OpenWordNet-PT: um exercício de desambiguação

Achieving Interoperability between SystemC and System#

Mineração de Grafos e Predição de Links. Antonio Pecli Ronaldo Goldschmidt

WordNet: Relações Semânticas e Métricas de Associação/Semelhança. Seminário Doutoral Nuno Seco

Um Método para Melhoria de Dados Estruturados de Imóveis

Infra-Estrutura de Dados Espaciais. Bruno Rabello Monteiro

Tutorial sobre o MineraFórum

UNIVERSIDADE DO ESTADO DO PARÁ LÍNGUA PORTUGUESA e REDAÇÃO PROSEL/ PRISE 1ª ETAPA

Seiji Isotani CURRICULUM VITAE

Introdução ao Processamento de Línguas Naturais. SCC5908 Introdução ao Processamento de Língua Natural. Thiago A. S. Pardo

T6.1 Reconhecimento de Padrões

Uma proposta para recuperação da informação através de redes lexicais: uma estratégia léxico-quantitativa

Publicação Eletrónica - Vislumbres do futuro sob uma perspetiva da Web Semântica. Ana Alice Baptista Universidade do Minho - Portugal

Referenciação Bibliográfica de Documentos

Adaptação do Sistema de Busca Semântica ao Padrão XML e Automatização do Processo de Modelagem dos Objetos de Aprendizagem no ROAI para o Padrão OWL

Maria Luiza de A. Campos Pré ConfOA

Aluno: Lucas Schmidt. Orientador: Prof. Dr. Ricardo Rabelo Co-orientador: Prof. Dr. Fabrício Benevenuto

Encontro 10 Anos da Linguateca PROPOR 2008 Aveiro Portugal

Ontology-Based Data Access. Diogo Espinhara Oliveira Banco de Dados

Computação Musical - Introdução slides do curso Computação Musical

Experiências de Avaliação (alunos) online

Tesauros Distribucionais para o Português: avaliação de metodologias

Gestão de dados em biodiversidade: uma perspectiva.

Uma Arquitetura de Tutor Inteligente que Provê Suporte ao Diálogo com o Aluno Iniciante em Linguagem de Programação

Transcrição:

Onto.PT: Construção automática de uma ontologia lexical para o português Hugo Gonçalo Oliveira 1, Paulo Gomes {hroliv,pgomes}@dei.uc.pt Cognitive & Media Systems Group CISUC, Universidade de Coimbra 9 de Dezembro de 2010 1 financiado pela bolsa FCT SFRH/BD/44955/2008 Gonçalo Oliveira & Gomes (CISUC) Onto.PT 9 de Dezembro de 2010 1 / 31

Conteúdos 1 Introdução 2 Fases Extracção de informação Descoberta de conceitos/synsets Juntar recursos baseados em synsets Quantificar triplos Associar termos a synsets Organização do conhecimento 3 Observações finais Gonçalo Oliveira & Gomes (CISUC) Onto.PT 9 de Dezembro de 2010 2 / 31

Introdução Introdução É partilhada uma enorme quantidade de informação escrita Gonçalo Oliveira & Gomes (CISUC) Onto.PT 9 de Dezembro de 2010 3 / 31

Introdução Introdução É partilhada uma enorme quantidade de informação escrita Manipulação optimizada através de: Recuperação de informação Que documentos estão relacionados com determinado tema? Gonçalo Oliveira & Gomes (CISUC) Onto.PT 9 de Dezembro de 2010 3 / 31

Introdução Introdução É partilhada uma enorme quantidade de informação escrita Manipulação optimizada através de: Recuperação de informação Que documentos estão relacionados com determinado tema? Sumarização automática Quais os conteúdos chave de cada documento? Gonçalo Oliveira & Gomes (CISUC) Onto.PT 9 de Dezembro de 2010 3 / 31

Introdução Introdução É partilhada uma enorme quantidade de informação escrita Manipulação optimizada através de: Recuperação de informação Que documentos estão relacionados com determinado tema? Sumarização automática Quais os conteúdos chave de cada documento? Resposta automática a outras perguntas Como se faz X? Quem é o responsável por Y? Quando nasceu Z? Gonçalo Oliveira & Gomes (CISUC) Onto.PT 9 de Dezembro de 2010 3 / 31

Introdução Introdução É partilhada uma enorme quantidade de informação escrita Manipulação optimizada através de: Recuperação de informação Que documentos estão relacionados com determinado tema? Sumarização automática Quais os conteúdos chave de cada documento? Resposta automática a outras perguntas Como se faz X? Quem é o responsável por Y? Quando nasceu Z? Necessário estruturar e interpretar a linguagem natural... Gonçalo Oliveira & Gomes (CISUC) Onto.PT 9 de Dezembro de 2010 3 / 31

Introdução Introdução É partilhada uma enorme quantidade de informação escrita Manipulação optimizada através de: Recuperação de informação Que documentos estão relacionados com determinado tema? Sumarização automática Quais os conteúdos chave de cada documento? Resposta automática a outras perguntas Como se faz X? Quem é o responsável por Y? Quando nasceu Z? Necessário estruturar e interpretar a linguagem natural... Melhor acesso a informação léxico-semântica! Gonçalo Oliveira & Gomes (CISUC) Onto.PT 9 de Dezembro de 2010 3 / 31

Ontologias lexicais Introdução Definição: Ontologia + léxico [Hirst, 2004] Gonçalo Oliveira & Gomes (CISUC) Onto.PT 9 de Dezembro de 2010 4 / 31

Ontologias lexicais Introdução Definição: Ontologia + léxico [Hirst, 2004] Estruturadas em palavras e no seu significado Gonçalo Oliveira & Gomes (CISUC) Onto.PT 9 de Dezembro de 2010 4 / 31

Ontologias lexicais Introdução Definição: Ontologia + léxico [Hirst, 2004] Estruturadas em palavras e no seu significado Abranger toda uma ĺıngua, sem domínio específico Gonçalo Oliveira & Gomes (CISUC) Onto.PT 9 de Dezembro de 2010 4 / 31

Ontologias lexicais Introdução Definição: Ontologia + léxico [Hirst, 2004] Estruturadas em palavras e no seu significado Abranger toda uma ĺıngua, sem domínio específico Exemplo: Princeton WordNet [Fellbaum, 1998] Gonçalo Oliveira & Gomes (CISUC) Onto.PT 9 de Dezembro de 2010 4 / 31

Introdução Ontologias lexicais (aplicações) Ajuda à escrita: Queria comprar um lindo anel, mas não tinha dinheiro Adiei esta oferta especial, porque não tinha dinheiro... Gonçalo Oliveira & Gomes (CISUC) Onto.PT 9 de Dezembro de 2010 5 / 31

Introdução Ontologias lexicais (aplicações) Ajuda à escrita: Queria comprar um lindo anel, mas não tinha dinheiro Adiei esta oferta especial, porque não tinha dinheiro... É possível substituir algumas palavras, melhorando a sonoridade e mantendo o significado? Gonçalo Oliveira & Gomes (CISUC) Onto.PT 9 de Dezembro de 2010 5 / 31

Introdução Ontologias lexicais (aplicações) Ajuda à escrita: Queria comprar um lindo anel, mas não tinha dinheiro Adiei esta oferta especial, porque não tinha dinheiro... É possível substituir algumas palavras, melhorando a sonoridade e mantendo o significado? Queria comprar um lindo anel, mas não tinha pastel Adiei esta oferta especial, porque não tinha capital... Gonçalo Oliveira & Gomes (CISUC) Onto.PT 9 de Dezembro de 2010 5 / 31

Introdução Ontologias lexicais (aplicações) Ajuda à escrita: Queria comprar um lindo anel, mas não tinha dinheiro Adiei esta oferta especial, porque não tinha dinheiro... É possível substituir algumas palavras, melhorando a sonoridade e mantendo o significado? Queria comprar um lindo anel, mas não tinha pastel Adiei esta oferta especial, porque não tinha capital... Idealmente... O meu gato tem quatro rodas motrizes. Tenho automóveis, talheres e computadores, entre outros animais. Gonçalo Oliveira & Gomes (CISUC) Onto.PT 9 de Dezembro de 2010 5 / 31

Introdução Ontologias lexicais (aplicações) Ajuda à escrita: Queria comprar um lindo anel, mas não tinha dinheiro Adiei esta oferta especial, porque não tinha dinheiro... É possível substituir algumas palavras, melhorando a sonoridade e mantendo o significado? Queria comprar um lindo anel, mas não tinha pastel Adiei esta oferta especial, porque não tinha capital... Idealmente... O meu gato tem quatro rodas motrizes. Tenho automóveis, talheres e computadores, entre outros animais. Morfologia: ok, Sintaxe: ok Semântica: tem a certeza que é isto que pretende? Gonçalo Oliveira & Gomes (CISUC) Onto.PT 9 de Dezembro de 2010 5 / 31

Ontologias lexicais (cont.) Introdução Outras tarefas: Determinação de semelhanças Tradução automática Estudos sobre a ĺıngua.... Gonçalo Oliveira & Gomes (CISUC) Onto.PT 9 de Dezembro de 2010 6 / 31

Ontologias lexicais (cont.) Introdução Outras tarefas: Determinação de semelhanças Tradução automática Estudos sobre a ĺıngua.... Muitas vezes criadas de forma manual... Construção e manutenção muito trabalhosas! Gonçalo Oliveira & Gomes (CISUC) Onto.PT 9 de Dezembro de 2010 6 / 31

Introdução Onto.PT [Gonçalo Oliveira and Gomes, 2010b] Construção automática de uma ontologia lexical para o português Gonçalo Oliveira & Gomes (CISUC) Onto.PT 9 de Dezembro de 2010 7 / 31

Introdução Onto.PT [Gonçalo Oliveira and Gomes, 2010b] Construção automática de uma ontologia lexical para o português A partir de vários recursos Thesaurus Dicionários/enciclopédias Corpos Gonçalo Oliveira & Gomes (CISUC) Onto.PT 9 de Dezembro de 2010 7 / 31

Introdução Onto.PT [Gonçalo Oliveira and Gomes, 2010b] Construção automática de uma ontologia lexical para o português A partir de vários recursos Thesaurus Dicionários/enciclopédias Corpos Modelo Wordnet Gonçalo Oliveira & Gomes (CISUC) Onto.PT 9 de Dezembro de 2010 7 / 31

Introdução Onto.PT [Gonçalo Oliveira and Gomes, 2010b] Construção automática de uma ontologia lexical para o português A partir de vários recursos Thesaurus Dicionários/enciclopédias Corpos Modelo Wordnet Synsets: grupos de palavras sinónimas Ligados através de relações semânticas Gonçalo Oliveira & Gomes (CISUC) Onto.PT 9 de Dezembro de 2010 7 / 31

Introdução Onto.PT [Gonçalo Oliveira and Gomes, 2010b] Construção automática de uma ontologia lexical para o português A partir de vários recursos Thesaurus Dicionários/enciclopédias Corpos Modelo Wordnet Synsets: grupos de palavras sinónimas Ligados através de relações semânticas Desambiguação baseada em informação já extraída/sem contexto Gonçalo Oliveira & Gomes (CISUC) Onto.PT 9 de Dezembro de 2010 7 / 31

Introdução Onto.PT [Gonçalo Oliveira and Gomes, 2010b] Construção automática de uma ontologia lexical para o português A partir de vários recursos Thesaurus Dicionários/enciclopédias Corpos Modelo Wordnet Synsets: grupos de palavras sinónimas Ligados através de relações semânticas Desambiguação baseada em informação já extraída/sem contexto Explorar métodos de avaliação automática/semi-automática Gonçalo Oliveira & Gomes (CISUC) Onto.PT 9 de Dezembro de 2010 7 / 31

Fases Extracção de informação Gonçalo Oliveira & Gomes (CISUC) Onto.PT 9 de Dezembro de 2010 8 / 31

Exemplos Fases Extracção de informação Dicionários (eg. Dicionário Aberto 2, Wikcionário): tenreiro, n -- terneiro, novilho ou bezerro. terneiro SINONIMO DE tenreiro novilho SINONIMO DE tenreiro bezerro SINONIMO DE tenreiro 2 http://dicionario-aberto.net Gonçalo Oliveira & Gomes (CISUC) Onto.PT 9 de Dezembro de 2010 9 / 31

Exemplos Fases Extracção de informação Dicionários (eg. Dicionário Aberto 2, Wikcionário): tenreiro, n -- terneiro, novilho ou bezerro. terneiro SINONIMO DE tenreiro novilho SINONIMO DE tenreiro bezerro SINONIMO DE tenreiro bola, n -- virose que provoca febres e hemorragias ébola CAUSADOR DE febres ébola CAUSADOR DE hemorragias 2 http://dicionario-aberto.net Gonçalo Oliveira & Gomes (CISUC) Onto.PT 9 de Dezembro de 2010 9 / 31

Exemplos Fases Extracção de informação Dicionários (eg. Dicionário Aberto 2, Wikcionário): tenreiro, n -- terneiro, novilho ou bezerro. terneiro SINONIMO DE tenreiro novilho SINONIMO DE tenreiro bezerro SINONIMO DE tenreiro bola, n -- virose que provoca febres e hemorragias ébola CAUSADOR DE febres ébola CAUSADOR DE hemorragias Corpos (eg. artigos da Wikipédia): O automobilismo (também conhecido como corridas de automóveis ou desporto motorizado) é um desporto... automobilismo SINONIMO DE corridas de automóveis automobilismo SINONIMO DE desporto motorizado desporto HIPERONIMO DE automobilismo 2 http://dicionario-aberto.net Gonçalo Oliveira & Gomes (CISUC) Onto.PT 9 de Dezembro de 2010 9 / 31

Triplos extraídos Fases Extracção de informação Dicionário da Língua Portuguesa (PAPEL 2.0 3 ) [Gonçalo Oliveira et al., 2010b] Dicionário Aberto (DA) Resumos da Wikipédia [Gonçalo Oliveira et al., 2010a] Relação Argumentos PAPEL 2.0 DA Wikipédia Exemplos nome,nome 37,452 20,910 auxílio, contributo Sinonímia verbo,verbo 21,465 8,715 tributar, colectar 11,862 adj,adj 19,073 7,353 flexível, moldável adv,adv 1,171 605 após, seguidamente Hiperonímia nome,nome 62,591 59,887 29,563 planta, salva nome,nome 2,805 1,795 cauda, cometa Parte-de nome,adj 3.721 4,902 tampa, coberto 1,287 nome,nome 5.929 1,564 ervilha, Leguminosas Membro-de adj,nome 883 59 celular, célula nome,nome 1.013 264 fricção, assadura Causa adj,nome 498 166 520 reactivo, reacção verbo,nome 6,399 5,714 limpar, purgação nome,nome 2,886 1,760 defesa, armadura Finalidade verbo,nome 5,192 3,383 743 fazer rir, comédia verbo,adj 260 186 corrigir, correccional 3 http://www.linguateca.pt/papel Gonçalo Oliveira & Gomes (CISUC) Onto.PT 9 de Dezembro de 2010 10 / 31

Fases Descoberta de conceitos/synsets Gonçalo Oliveira & Gomes (CISUC) Onto.PT 9 de Dezembro de 2010 11 / 31

Fases Rede lexical de sinonímia exemplo Descoberta de conceitos/synsets Gonçalo Oliveira & Gomes (CISUC) Onto.PT 9 de Dezembro de 2010 12 / 31

Fases Descoberta de conceitos/synsets Aglomerados sobressaem em redes de sinonímia... Objectivo: identificar synsets com base em clusters Gonçalo Oliveira & Gomes (CISUC) Onto.PT 9 de Dezembro de 2010 13 / 31

Fases Descoberta de conceitos/synsets Aglomerados sobressaem em redes de sinonímia... Objectivo: identificar synsets com base em clusters Abordagem: Algoritmo de clustering sobre a rede de sinonímia Gonçalo Oliveira & Gomes (CISUC) Onto.PT 9 de Dezembro de 2010 13 / 31

Fases Descoberta de conceitos/synsets Aglomerados sobressaem em redes de sinonímia... Objectivo: identificar synsets com base em clusters Abordagem: Algoritmo de clustering sobre a rede de sinonímia Manter ambiguidade: os clusters podem sobrepor-se! Gonçalo Oliveira & Gomes (CISUC) Onto.PT 9 de Dezembro de 2010 13 / 31

Clustering exemplo Fases Descoberta de conceitos/synsets Gonçalo Oliveira & Gomes (CISUC) Onto.PT 9 de Dezembro de 2010 14 / 31

Fases Juntar recursos baseados em synsets Gonçalo Oliveira & Gomes (CISUC) Onto.PT 9 de Dezembro de 2010 15 / 31

Fases Juntar synsets de diferentes thesaurus Juntar recursos baseados em synsets Juntar synsets com conteúdo semelhante: Por exemplo: B1 = (diva, beldade, beleza, deidade, deusa, divindade) B2 = (divindade, deidade, deus, nume) Gonçalo Oliveira & Gomes (CISUC) Onto.PT 9 de Dezembro de 2010 16 / 31

Fases Juntar synsets de diferentes thesaurus Juntar recursos baseados em synsets Juntar synsets com conteúdo semelhante: Por exemplo: B1 = (diva, beldade, beleza, deidade, deusa, divindade) B2 = (divindade, deidade, deus, nume) T1 = (divindade, diva, deusa) Gonçalo Oliveira & Gomes (CISUC) Onto.PT 9 de Dezembro de 2010 16 / 31

Fases Juntar synsets de diferentes thesaurus Juntar recursos baseados em synsets Juntar synsets com conteúdo semelhante: Por exemplo: B1 = (diva, beldade, beleza, deidade, deusa, divindade) B2 = (divindade, deidade, deus, nume) T1 = (divindade, diva, deusa) B1 = B 1 T 1 = (diva, beldade, beleza, deidade, deusa, divindade) Gonçalo Oliveira & Gomes (CISUC) Onto.PT 9 de Dezembro de 2010 16 / 31

Fases Juntar recursos baseados em synsets Primeiros resultados [Gonçalo Oliveira and Gomes, 2010a] TeP 4 thesaurus OpenThesaurus.PT 5 (OT) 4 http://www.nilc.icmc.usp.br/tep2/index.htm 5 http://openthesaurus.caixamagica.pt/ Gonçalo Oliveira & Gomes (CISUC) Onto.PT 9 de Dezembro de 2010 17 / 31

Fases Juntar recursos baseados em synsets Primeiros resultados [Gonçalo Oliveira and Gomes, 2010a] TeP 4 thesaurus OpenThesaurus.PT 5 (OT) Clusters do PAPEL (CLIP) 4 http://www.nilc.icmc.usp.br/tep2/index.htm 5 http://openthesaurus.caixamagica.pt/ Gonçalo Oliveira & Gomes (CISUC) Onto.PT 9 de Dezembro de 2010 17 / 31

Fases Juntar recursos baseados em synsets Primeiros resultados [Gonçalo Oliveira and Gomes, 2010a] TeP 4 thesaurus OpenThesaurus.PT 5 (OT) Clusters do PAPEL (CLIP) TeP + OT + CLIP (TOP) 4 http://www.nilc.icmc.usp.br/tep2/index.htm 5 http://openthesaurus.caixamagica.pt/ Gonçalo Oliveira & Gomes (CISUC) Onto.PT 9 de Dezembro de 2010 17 / 31

Fases Juntar recursos baseados em synsets Primeiros resultados [Gonçalo Oliveira and Gomes, 2010a] TeP 4 thesaurus OpenThesaurus.PT 5 (OT) Clusters do PAPEL (CLIP) TeP + OT + CLIP (TOP) Termos Synsets TeP OT CLIP TOP Quantidade 17,158 5,819 23,741 30,554 Ambíguos 5,867 442 12,196 13,294 Mais ambíguo 20 4 47 21 Quantidade 8,254 1,872 7,468 9,960 Tamanho médio 3.51 3.37 12.57 6.6 Maior 21 14 103 277 Tabela: Thesaurus (de nomes) em números. 4 http://www.nilc.icmc.usp.br/tep2/index.htm 5 http://openthesaurus.caixamagica.pt/ Gonçalo Oliveira & Gomes (CISUC) Onto.PT 9 de Dezembro de 2010 17 / 31

Validação manual Fases Juntar recursos baseados em synsets Amostra Correctos Incorrectos N/A Concordância CLIP 519 sets 65.8% 31.7% 2.5% 76.1% CLIP 310 sets 81.1% 16.9% 2.0% 84.2% TOP 480 sets 83.2% 15.8% 1.0% 82.3% TOP 448 sets 86.8% 12.3% 0.9% 83.0% Tabela: Resultados da validação manual de synsets. CLIP e TOP consideram apenas synsets com 10 ou menos termos. Gonçalo Oliveira & Gomes (CISUC) Onto.PT 9 de Dezembro de 2010 18 / 31

Validação manual Fases Juntar recursos baseados em synsets Amostra Correctos Incorrectos N/A Concordância CLIP 519 sets 65.8% 31.7% 2.5% 76.1% CLIP 310 sets 81.1% 16.9% 2.0% 84.2% TOP 480 sets 83.2% 15.8% 1.0% 82.3% TOP 448 sets 86.8% 12.3% 0.9% 83.0% Tabela: Resultados da validação manual de synsets. CLIP e TOP consideram apenas synsets com 10 ou menos termos. Melhor qualidade para synsets mais pequenos Gonçalo Oliveira & Gomes (CISUC) Onto.PT 9 de Dezembro de 2010 18 / 31

Validação manual Fases Juntar recursos baseados em synsets Amostra Correctos Incorrectos N/A Concordância CLIP 519 sets 65.8% 31.7% 2.5% 76.1% CLIP 310 sets 81.1% 16.9% 2.0% 84.2% TOP 480 sets 83.2% 15.8% 1.0% 82.3% TOP 448 sets 86.8% 12.3% 0.9% 83.0% Tabela: Resultados da validação manual de synsets. CLIP e TOP consideram apenas synsets com 10 ou menos termos. Melhor qualidade para synsets mais pequenos Synsets em que uma palavra une dois conceitos, como excesso em: insobriedade, desmedida, imoderação, excesso, nimiedade, desmando, desbragamento, troco, descontrolo, superabundância, desbunda, desregramento, demasia, incontinência, imodicidade, superação, intemperança, descomedimento, superfluidade, sobejidão, acrasia Gonçalo Oliveira & Gomes (CISUC) Onto.PT 9 de Dezembro de 2010 18 / 31

Fases Quantificar triplos Gonçalo Oliveira & Gomes (CISUC) Onto.PT 9 de Dezembro de 2010 19 / 31

Fases Atribuir pesos com base em... Quantificar triplos Frequência de extracção Gonçalo Oliveira & Gomes (CISUC) Onto.PT 9 de Dezembro de 2010 20 / 31

Fases Quantificar triplos Atribuir pesos com base em... Frequência de extracção Métricas de semelhança distribucional em corpos (e.g. LSA [Deerwester et al., 1990], PMI [Turney, 2001] ) Gonçalo Oliveira & Gomes (CISUC) Onto.PT 9 de Dezembro de 2010 20 / 31

Fases Quantificar triplos Atribuir pesos com base em... Frequência de extracção Métricas de semelhança distribucional em corpos (e.g. LSA [Deerwester et al., 1990], PMI [Turney, 2001] ) Métricas de semelhança distribucional na Web (e.g. WebJaccard, WebOverlap [Bollegala et al., 2007]) Gonçalo Oliveira & Gomes (CISUC) Onto.PT 9 de Dezembro de 2010 20 / 31

Fases Atribuir pesos com base em... Quantificar triplos Frequência de extracção Métricas de semelhança distribucional em corpos (e.g. LSA [Deerwester et al., 1990], PMI [Turney, 2001] ) Métricas de semelhança distribucional na Web (e.g. WebJaccard, WebOverlap [Bollegala et al., 2007]) Algumas conclusões: Correlações elevadas ( 58%) entre a correcção de triplos de hiperonímia e os valores do LSA para os termos envolvidos [Costa et al., 2010] Gonçalo Oliveira & Gomes (CISUC) Onto.PT 9 de Dezembro de 2010 20 / 31

Fases Atribuir pesos com base em... Quantificar triplos Frequência de extracção Métricas de semelhança distribucional em corpos (e.g. LSA [Deerwester et al., 1990], PMI [Turney, 2001] ) Métricas de semelhança distribucional na Web (e.g. WebJaccard, WebOverlap [Bollegala et al., 2007]) Algumas conclusões: Correlações elevadas ( 58%) entre a correcção de triplos de hiperonímia e os valores do LSA para os termos envolvidos [Costa et al., 2010] Métricas de semelhança conjugadas com padrões indicadores podem ser utilizadas para validar triplos [Costa et al., 2011] Gonçalo Oliveira & Gomes (CISUC) Onto.PT 9 de Dezembro de 2010 20 / 31

Validação automática Fases Quantificar triplos animal HIPERONIMO DE cão porta PARTE DE carro Gonçalo Oliveira & Gomes (CISUC) Onto.PT 9 de Dezembro de 2010 21 / 31

Validação automática Fases Quantificar triplos animal HIPERONIMO DE cão animais [tal tais]* como cães cão é um uma [tipo forma variedade... de]* animal... porta PARTE DE carro Gonçalo Oliveira & Gomes (CISUC) Onto.PT 9 de Dezembro de 2010 21 / 31

Validação automática Fases Quantificar triplos animal HIPERONIMO DE cão animais [tal tais]* como cães cão é um uma [tipo forma variedade... de]* animal... porta PARTE DE carro porta [é uma parte]* de da do] carro carro [tem possui] [um uma]* porta carro [é formado constituído... por [um uma]* porta... Gonçalo Oliveira & Gomes (CISUC) Onto.PT 9 de Dezembro de 2010 21 / 31

Fases Associar termos a synsets Gonçalo Oliveira & Gomes (CISUC) Onto.PT 9 de Dezembro de 2010 22 / 31

Objectivo Fases Associar termos a synsets Entrada: Thesaurus T, que contém synsets Rede lexical, N, com termos nos nós e arcos com um tipo R Gonçalo Oliveira & Gomes (CISUC) Onto.PT 9 de Dezembro de 2010 23 / 31

Objectivo Fases Associar termos a synsets Entrada: Thesaurus T, que contém synsets Rede lexical, N, com termos nos nós e arcos com um tipo R Objectivo: passar de a R b N para A R B, (A, B) T Gonçalo Oliveira & Gomes (CISUC) Onto.PT 9 de Dezembro de 2010 23 / 31

Objectivo Fases Associar termos a synsets Entrada: Thesaurus T, que contém synsets Rede lexical, N, com termos nos nós e arcos com um tipo R Objectivo: passar de a R b N para A R B, (A, B) T porta PARTE DE carro (porta, entrada, portão) PARTE DE (carro, automóvel) Gonçalo Oliveira & Gomes (CISUC) Onto.PT 9 de Dezembro de 2010 23 / 31

Objectivo Fases Associar termos a synsets Entrada: Thesaurus T, que contém synsets Rede lexical, N, com termos nos nós e arcos com um tipo R Objectivo: passar de a R b N para A R B, (A, B) T porta PARTE DE carro (porta, entrada, portão) PARTE DE (carro, automóvel) Saída: rede semântica W, cujos nós são synsets, que se relacionam entre si por meio de relações semânticas (wordnet) Gonçalo Oliveira & Gomes (CISUC) Onto.PT 9 de Dezembro de 2010 23 / 31

Fases Associar termos a synsets Procedimento exemplo [Gonçalo Oliveira and Gomes, 2010c] Olhando para a rede lexical, associar a (em a R b) a A: 1 Fixar b Gonçalo Oliveira & Gomes (CISUC) Onto.PT 9 de Dezembro de 2010 24 / 31

Fases Associar termos a synsets Procedimento exemplo [Gonçalo Oliveira and Gomes, 2010c] Olhando para a rede lexical, associar a (em a R b) a A: 1 Fixar b 2 S a T : S ai S a, a S ai Gonçalo Oliveira & Gomes (CISUC) Onto.PT 9 de Dezembro de 2010 24 / 31

Fases Associar termos a synsets Procedimento exemplo [Gonçalo Oliveira and Gomes, 2010c] Olhando para a rede lexical, associar a (em a R b) a A: 1 Fixar b 2 S a T : S ai S a, a S ai 3 Para cada S ai S a Gonçalo Oliveira & Gomes (CISUC) Onto.PT 9 de Dezembro de 2010 24 / 31

Fases Associar termos a synsets Procedimento exemplo [Gonçalo Oliveira and Gomes, 2010c] Olhando para a rede lexical, associar a (em a R b) a A: 1 Fixar b 2 S a T : S ai S a, a S ai 3 Para cada S ai S a S a1 = (a, c, d, e), p a1 = 3 4 S a2 = (a, f, g), p a2 = 2 3 S a3 = (a, h, i, j), p a3 = 1 4 Gonçalo Oliveira & Gomes (CISUC) Onto.PT 9 de Dezembro de 2010 24 / 31

Fases Associar termos a synsets Procedimento exemplo [Gonçalo Oliveira and Gomes, 2010c] Olhando para a rede lexical, associar a (em a R b) a A: 1 Fixar b 2 S a T : S ai S a, a S ai 3 Para cada S ai S a S a1 = (a, c, d, e), p a1 = 3 4 S a2 = (a, f, g), p a2 = 2 3 S a3 = (a, h, i, j), p a3 = 1 4 4 a S a1 Gonçalo Oliveira & Gomes (CISUC) Onto.PT 9 de Dezembro de 2010 24 / 31

Fases Associar termos a synsets Validação Automática A partir de ocorrências dos triplos (A R B) em corpos 1 Compilar um conjunto de padrões indicadores de R, P i : 2 Quantificar com ocorrências de a P i b, a A, b B Gonçalo Oliveira & Gomes (CISUC) Onto.PT 9 de Dezembro de 2010 25 / 31

Validação Fases Associar termos a synsets Automática A partir de ocorrências dos triplos (A R B) em corpos 1 Compilar um conjunto de padrões indicadores de R, P i : 2 Quantificar com ocorrências de a P i b, a A, b B Semi-automática Mapeamento manual utilizado como recurso dourado Trabalhoso e nem sempre consensual... Gonçalo Oliveira & Gomes (CISUC) Onto.PT 9 de Dezembro de 2010 25 / 31

Validação Fases Associar termos a synsets Automática A partir de ocorrências dos triplos (A R B) em corpos 1 Compilar um conjunto de padrões indicadores de R, P i : 2 Quantificar com ocorrências de a P i b, a A, b B Semi-automática Mapeamento manual utilizado como recurso dourado Trabalhoso e nem sempre consensual... Manual Julgamentos humanos a ocorrências dos triplos em corpos Gonçalo Oliveira & Gomes (CISUC) Onto.PT 9 de Dezembro de 2010 25 / 31

Fases Organização do conhecimento Gonçalo Oliveira & Gomes (CISUC) Onto.PT 9 de Dezembro de 2010 26 / 31

Fases Organização do conhecimento Organização do conhecimento Regras: Transitividade se R for transitiva (p.e. Sinonímia, Hiperonímia,...): (A R B) (B R C) (A R C) 6 http://www.w3.org/2006/03/wn/wn20/ Gonçalo Oliveira & Gomes (CISUC) Onto.PT 9 de Dezembro de 2010 27 / 31

Fases Organização do conhecimento Organização do conhecimento Regras: Transitividade se R for transitiva (p.e. Sinonímia, Hiperonímia,...): (A R B) (B R C) (A R C) Herança se R não for uma relação de Hiperonímia ou Hiponímia: (A HIPERONIMO DE B) (A R C) (B R C) 6 http://www.w3.org/2006/03/wn/wn20/ Gonçalo Oliveira & Gomes (CISUC) Onto.PT 9 de Dezembro de 2010 27 / 31

Fases Organização do conhecimento Organização do conhecimento Regras: Transitividade se R for transitiva (p.e. Sinonímia, Hiperonímia,...): (A R B) (B R C) (A R C) Herança se R não for uma relação de Hiperonímia ou Hiponímia: (A HIPERONIMO DE B) (A R C) (B R C) Auto-hiponímia (A HIPERONIMO DE B) (B HIPERONIMO DE A) (A B) 6 http://www.w3.org/2006/03/wn/wn20/ Gonçalo Oliveira & Gomes (CISUC) Onto.PT 9 de Dezembro de 2010 27 / 31

Fases Organização do conhecimento Organização do conhecimento Regras: Transitividade se R for transitiva (p.e. Sinonímia, Hiperonímia,...): (A R B) (B R C) (A R C) Herança se R não for uma relação de Hiperonímia ou Hiponímia: (A HIPERONIMO DE B) (A R C) (B R C) Auto-hiponímia (A HIPERONIMO DE B) (B HIPERONIMO DE A) (A B) Representação num modelo RDF/OWL, semelhante à WordNet-RDF 6 6 http://www.w3.org/2006/03/wn/wn20/ Gonçalo Oliveira & Gomes (CISUC) Onto.PT 9 de Dezembro de 2010 27 / 31

Observações finais Observações finais Resposta a: Crescente número de aplicações que necessitam de interpretar a linguagem natural Gonçalo Oliveira & Gomes (CISUC) Onto.PT 9 de Dezembro de 2010 28 / 31

Observações finais Observações finais Resposta a: Crescente número de aplicações que necessitam de interpretar a linguagem natural Falta de recursos lexico-semânticos livres para o português Gonçalo Oliveira & Gomes (CISUC) Onto.PT 9 de Dezembro de 2010 28 / 31

Observações finais Observações finais Resposta a: Crescente número de aplicações que necessitam de interpretar a linguagem natural Falta de recursos lexico-semânticos livres para o português Actualizações e recursos disponíveis em http://ontopt.dei.uc.pt Gonçalo Oliveira & Gomes (CISUC) Onto.PT 9 de Dezembro de 2010 28 / 31

Referências I Referências [Bollegala et al., 2007] Bollegala, D., Matsuo, Y., and Ishizuka, M. (2007). Measuring semantic similarity between words using web search engines. In Proc. 16th International conference on World Wide Web (WWW 07), pages 757 766, New York, NY, USA. ACM. [Costa et al., 2010] Costa, H., Gonçalo Oliveira, H., and Gomes, P. (2010). The impact of distributional metrics in the quality of relational triples. In Proc. ECAI Workshop on Language Technology for Cultural Heritage, Social Sciences, and Humanities (LaTeCH 2010). [Costa et al., 2011] Costa, H., Gonçalo Oliveira, H., and Gomes, P. (2011). Using the web to validate semantic relations. Submitted to ECIR 2011. [Deerwester et al., 1990] Deerwester, S., Dumais, S. T., Furnas, G. W., Landauer, T. K., and Harshman, R. (1990). Indexing by latent semantic analysis. Journal of the American Society for Information Science, 41:391 407. [Fellbaum, 1998] Fellbaum, C., editor (1998). WordNet: An Electronic Lexical Database (Language, Speech, and Communication). The MIT Press. [Gonçalo Oliveira et al., 2010a] Gonçalo Oliveira, H., Costa, H., and Gomes, P. (2010a). Extracção de conhecimento léxico-semântico a partir de resumos da Wikipédia. In Proceedings of INFORUM 2010. [Gonçalo Oliveira and Gomes, 2010a] Gonçalo Oliveira, H. and Gomes, P. (2010a). Automatic creation of a conceptual base for portuguese using clustering techniques. In Proc. 19th European Conference on Artifical Intelligence (ECAI 2010). [Gonçalo Oliveira and Gomes, 2010b] Gonçalo Oliveira, H. and Gomes, P. (2010b). Onto.PT: Automatic Construction of a Lexical Ontology for Portuguese. In Proceedings of 5th European Starting AI Researcher Symposium (STAIRS 2010). Gonçalo Oliveira & Gomes (CISUC) Onto.PT 9 de Dezembro de 2010 29 / 31

Referências II Referências [Gonçalo Oliveira and Gomes, 2010c] Gonçalo Oliveira, H. and Gomes, P. (2010c). Towards the automatic creation of a wordnet from a term-based lexical network. In Proceedings of the ACL Workshop TextGraphs-5: Graph-based Methods for Natural Language Processing. [Gonçalo Oliveira et al., 2010b] Gonçalo Oliveira, H., Santos, D., and Gomes, P. (2010b). Extracção de relações semânticas entre palavras a partir de um dicionário: o PAPEL e sua avaliação. Linguamática, 2(1):77 93. Nova versão, revista e aumentada, da publicação Gonçalo Oliveira et al (2009), no STIL 2009. [Hirst, 2004] Hirst, G. (2004). Ontology and the lexicon. In Staab, S. and Studer, R., editors, Handbook on Ontologies, International Handbooks on Information Systems, pages 209 230. Springer. [Turney, 2001] Turney, P. D. (2001). Mining the web for synonyms: PMI IR versus LSA on TOEFL. In Proc. 12th European Conference on Machine Learning (ECML-2001), volume 2167, pages 491 502. Springer. Gonçalo Oliveira & Gomes (CISUC) Onto.PT 9 de Dezembro de 2010 30 / 31

Fim Obrigado! Gonçalo Oliveira & Gomes (CISUC) Onto.PT 9 de Dezembro de 2010 31 / 31