WordNet: Relações Semânticas e Métricas de Associação/Semelhança. Seminário Doutoral Nuno Seco

Documentos relacionados
SEMÂNTICA PARTE 3 ANÁLISE SEMÂNTICA 14/06/2012. SCC5908 Tópicos em Processamento de Língua Natural. Até agora, significado da sentença

Avaliação do Uso de Métodos Baseados em LSA e WordNet para Correção de Questões Discursivas

MCZA Processamento de Linguagem Natural Semântica e similaridade de palavras: Parte I

Ontologias Linguísticas e Processamento de Linguagem Natural. Ygor Sousa CIn/UFPE

RELAÇÕES SEMÂNTICAS FUNDAMENTOS DE SEMÂNTICA APOIO PEDAGÓGICO 20/04/2018 SAULO SANTOS

Capítulo1. Capítulo2. Índice A LÍNGUA E A LINGUAGEM O PORTUGUÊS: uma língua, muitas variedades... 15

6 Atributos. A dívida da empresa subiu.

Onto.PT: Construção automática de uma ontologia lexical para o português

Plano de Doutoramento

INSTITUTO POLITÉCNICO DE TOMAR

Análise de Medidas de Similaridade Semântica na Tarefa de Reconhecimento de Implicação Textual

SEMÂNTICA PARTE 3 ANÁLISE SEMÂNTICA 12/11/2010. SCC5869 Tópicos em Processamento de Língua Natural. Até agora, significado da sentença. Rhumba closed.

Novas Ferramentas e Recursos Linguísticos para a Tradução Automática

4 Trabalhos relacionados à extração automática de hiperonímia

Tópicos de Aprendizagem Automática aplicada a PLN. 1. Introdução e Motivação. Aquisição (Semi-)Automática de Recursos Semânticos AA?

PAPEL. Utilização do (analisador sintáctico) PEN para extracção de informação das denições de um dicionário

WordnetAffectBR: uma base lexical de palavras de emoções para a língua portuguesa

Uma proposta para recuperação da informação através de redes lexicais: uma estratégia léxico-quantitativa

T6.1 Reconhecimento de Padrões

MCZA Processamento de Linguagem Natural Semântica e similaridade de palavras: Parte III

Introdução à Probabilidade

Mestrado Profissional em Administração. Disciplina: Análise Multivariada Professor: Hedibert Freitas Lopes 1º trimestre de 2015

Verificação automática de substantivos compostos através de reconhecimento de padrões sintáticos

IMPLICAÇÕES SEMÂNTICA AULA 02 SAULO SANTOS

Introdução à Probabilidade

Comunidade: definição

5 Ambigüidades no contexto de Mineração de Textos

Relações semânticas entre palavras. O papel das relações semânticas em português: Comparando o TeP, a MWN.PT e o PAPEL

Resumo. Palavras-chave: wordnet, Wordnet.Br, relações semânticas, hiperonímia

SEMÂNTICA PARTE 3 (CONTINUAÇÃO)

COESÃO COERÊNCIA. É um dos meios que garante a unidade semântica e a organização de um enunciado.

INICIAÇÃO À PESQUISA

Abordagens na Tradução Automática


ASAPP: Alinhamento Semântico Automático de Palavras aplicado ao Português

Introdução à Probabilidade

Recapitulando... Abordagens: PLN. Abordagens: PLN 29/03/2012. Introdução ao Processamento de Línguas Naturais. Distribuição de palavras

Estudo Semântico e Aplicação Computacional de Adjetivos do Português do Brasil

CONTEÚDOS PROGRAMÁTICOS

REGRAS DE PROBABILIDADE

Aonde vamos em relação a aonde

Inteligência Artificial. Raimundo Osvaldo Vieira [DECOMP IFMA Campus Monte Castelo]

Biomedical Text Mining J O S É F E R N A N D E S R U I S I L V A

ANEXO I CONTEÚDOS PROGRAMÁTICOS

Plano de Estudos. Escola: Instituto de Investigação e Formação Avançada Grau: Programa de Doutoramento Curso: Informática (cód.


Processamento de Linguagem Natural

SUMÁRIO. Língua Portuguesa

REGRAS PARA CÁLCULO DE PROBABILIDADES

Modelos em Sistemas de Informação. Aula 3

Procura-PALavras (P-PAL):

Módulo 2: Análise Bibliométrica Bibliometria: Conceito, Leis e Princípios; Lei de Bradford; Lei de Lotka; Leis de Zipf; Ponto de Transição (T) de

Áreas de conhecimento de Geografia

Correção Ortográfica. Processamento Estatístico da Linguagem Natural. Correção de Erros. Distância Mínima de Edição. Distância Mínima de Edição

RESENHA: INTRODUÇÃO À LINGUÍSTICA BANTU

SUMÁRIO. Língua Portuguesa

Estatística: Probabilidade e Distribuições

LÍNGUA PORTUGUESA: RACIOCÍNIO LÓGICO E MATEMÁTICO:

PoloCLUP Linguateca Belinda Maia

Sistema de Controle Acadêmico. Grade Curricular. Curso : MATEMÁTICA

Trabalho de Linguagens Formais e Compilação

Programação Concorrente. 2º Semestre 2010

Em direção ao delineamento conceitual de corpus via indexação léxico-conceitual

SSC0640 Sistemas Operacionais I

Probabilidade Aula 03

Procura-PALavras (P-PAL):

1 Introdução Motivação

3º ano Atenas Tânia Castro English Teacher

Automatização da Geração de Dicionários Tratáveis por Máquina: Reutilização de Recursos Linguísticos

Anotação de Sentidos de Verbos no Córpus CSTNews

A CONSTRUÇÃO DE POSTVERBAIS EM PORTUGUÊS

Aula - Introdução a Teoria da Probabilidade

Avaliação dealinhadores à Frase p.1/17

Roteiro de Recuperação 1º Semestre 6º Ano Básico INSTRUÇÕES PARA A PARTICIPAÇÃO NA RECUPERAÇÃO SEMESTRAL

Banco de Dados. André Luís Duarte Capítulo 2. exatasfepi.com.br

Introdução à Estatística

CONCURSO DE BOLSA 2019

Curso de Farmácia Estatística Vital Aula 05 Comentários Adicionais. Prof. Hemílio Fernandes Depto. de Estatística - UFPB

Roteiro de trabalho para o 1o ano

Processamento de Imagens. Texturas

Linguagem de Programação II Herança

Avaliando a similaridade semântica entre frases curtas através de uma abordagem híbrida

Aplicação de uma Técnica Tradicional de Expansão de Consulta ao Modelo TR+

2. INTRODUÇÃO À PROBABILIDADE

Definição e Conceitos Básicos

Introdução a Probabilidade

Recuperação de Informação em Bases de Texto

Capítulo 2 - Acentuação gráfica Regras gerais...10 Casos especiais...10 Prosódia...12 Exercícios...14

OS DIFERENTES CRITÉRIOS UTILIZADOS PARA CLASSIFICAÇÃO DE PALAVRAS EM GRAMÁTICAS ESCOLARES

Pronome relativo A língua portuguesa apresenta 7 formas de pronomes e advérbios relativos consensuais: Que O que Quem O qual Onde Quanto Cujo

METÁFORAS COM VERBOS PONTUAIS DO PB E DO INGLÊS: UMA ANÁLISE DESCRITIVA E COMPARATIVA.

Teoria das Probabilidades

BIOESTATISTICA. Unidade IV - Probabilidades

Relatório Março-Abril 2008

ÍNDICE. PREFÁCIO xv. 3 PROCESSOS GERADOS POR PROCEDIMENTOS Recursão Linear Cálculo de potências Cálculo de factoriais 91

Ensino Fundamental SÉRIE PORTUGUÊS MATEMÁTICA PRODUÇÃO DE TEXTO

hábito (a) [Metoprene, substância análoga a o hormônio juvenil de os insetos,] que atua em as formas imaturas ( larvas e pupas ), impedindo...

Desambiguação Lexical Automática de Sentido: Um Panorama

Transcrição:

WordNet: Relações Semânticas e Métricas de Associação/Semelhança Seminário Doutoral Nuno Seco

Estrutura da Apresentação Relações de Semântica Lexical Objecto de Estudo WordNet Métricas de Semelhança no WordNet Base de Conhecimento Lexical Corpus Teoria de Informação Dicionários

WordNet É uma BCL inspirada em teorias psico- linguísticas. Divisão em categorias sintácticas Substantivos Verbos Advérbios Adjectivos Taxonomia de substantivos estava(??) particionada em 9 domínios diferentes. (evento, emoção, processo, etc)

Organização dos Termos Termos estão organizados em SynSets (Synomym Sets): {car.1, auto.1, automobile.1, machine.1, motorcar.1} a motor vehicle with four wheels; usually propelled by an internal combustion engine; "he needs a car to get to work"

Relações Semânticas As relações são estabelecidas entre synsets. veículo.2 car.1 motorcycle.1

Relações Semânticas Hyperonímia/Hiponímia (substantivos, verbos) Meronímia (substantivos) Substância substância_de(lenhina, madeira) Membro membro_de(jogador, equipa) Parte parte_de(pata, gato) Sinonímia (todas as cat.)

Relações Semânticas Antonímia (todas as cat. lexical ) Atributo (substantivoadjectivo) peso(leve), peso(pesado) Domínio (todas) Categoria topico_de(guerra, militar) Região região_de(saratoga, nova_york)

Relações Semânticas Causais (verbos) causa(matar, morrer) Implicação (verbos) Implica(ressonar, dormir) Derivação (adverbioadjectivo, lexical ) derivado_de(somente, só)

Emprega uma visão de Homonímia Forte {duck.1} -- small wild or domesticated web-footed broad-billed swimming bird usually having a depressed body and short legs. {duck.3} -- flesh of a duck (domestic or wild). Representam diferentes dimensões do mesmo conceito.

A Taxonomia A utilização de relações de hiperonímia é uma forte componente do WordNet. 65% das relações (substantivos) são de hiperonímia/hiponímia Permite uma estruturação eficiente dos conceitos. Considere a organização de um super-mercado.

Teoria Diferenciadora A preocupação é fornecer atributos que distingam um conceito do seu hiperónimo. Wine fermented juice (of grapes especially) Foritified Wine wine to which alcohol has been added Port Wine sweet dark-red desset wine from Portugal

Teoria Construtiva Um conjunto de conceitos primitivos. São utilizados para construir novos conceitos Exemplo: HowNet -- Base de Conhecimento Lexical para o Chinês YanJun Yan Sábio Jun - Bonito 800 conceitos primitivas 110,000 conceitos

Associação Semântica Utilizado em motores de pesquisa como métrica de ranking. Utilização de algoritmos de Criatividade Computacional. Geração de Conceitos Detecção de Malapropisms Concerto vs. Conserto Coro vs. Couro Intercessão vs. Intersecção

Semelhança e Associação Semântica São coisas diferentes mas normalmente não é feita a distinção na literatura. Qual dos pares é mais semelhante? Carro --- Pára-choques Carro --- Bicicleta

Semelhança e Associação Semântica Entidades Relacionadas gasolina Entidades semelhantes carro mota camião pneu pára-choques

Tipos de Abordagens Baseado nas relações da BCL Baseado nas estatísticas derivadas de Corpus Baseado na Teoria da Informação Abordagem híbrida (BCL, Corpus) Baseado em Dicionários (nas definições)

Base de Conhecimento Lexical A Base de Conhecimento pode encarada como um grafo. A Z A associação semântica é calculado em função do número de arcos que separem dois conceitos.

Base de Conhecimento Lexical Alguns refinamentos a esta estratégia: Só utilizar alguns tipos de relações Por exemplo: Hyperonímia (semelhança) Atribuição de pesos às relações

Baseado em Corpus Extracção de Co-ocorrências de palavras. Informação Mútua: I( x, y) = log 2 P( x, y) P( x) P( y) Compara a probabilidade de x e y co-ocorrerem com a probabilidade de ocorrerem independentemente.

Baseado em Corpus Vector Space Model Para cada palavra cria-se um vector contendo as frequências das palavras que co-ocorrem com a primeira. Latent Semantic Analysis (LSA)

Teoria de Informação Na realidade são abordagens híbridas Utilizam BCL Corpus Restringem-se às relações hiperonímia (semelhança). Tentam quantificar a informação que um conceito expressa. Noção Base Quantidade de Informação ( Information Content ) ( ( )) IC( c) = log 2 P c

Teoria de Informação A B C D E F G P(A) = P (A) + P(B) + P(C) P(A) 1 IC(A) 0 P(B) = P (B) + P(D) + P(E) P(D) = P (B) + P(G) IC mede a especificidade de um dado conceito

Teoria de Informação Métrica de Resnik sim ( c1, c2) = IC( hiper( c1, c2)) veículo carro mota

Teoria de Informação Métrica de Lin sim( c 1, c 2 ) = 2 IC( hiper( c IC( c 1 ) + 1 IC( c, c 2 ) 2 )) Métrica de Jiang e Conrath distjcn ( c1, c2) = IC( c1) + IC( c2) 2 IC( hiper( c1, c2))

Teoria de Informação IC mede a especificidade de um termo. Então porque não utilizar o número de hipónimos de um termo como medida de especificidade? ( hypo( ) 1) IC( c) = log 2 c +

Dicionários Utiliza as definições dos dicionários Algoritmo de Lesk Intercessão dos termos contidos nas definições reflecte a associação dos mesmos. Banco instituição financeira que realiza operações mercantis relacionados com o dinheiro ou com os títulos e valores que o representam Cheque título de crédito que enuncia uma ordem de pagamento da soma nele inscrita Banjeree and Pedersen Utilizam as definições na vizinhança de cada termo no WordNet para desambiguar.

Estudo Comparativo Averiguar a semelhança entre pares de palavras. car automobile lad brother gem jewel journey car journey voyage oracle monk boy lad cemetery woodland coast shore food rooster asylum madhouse coast hill magician wizard forest graveyard midday noon shore woodland furnace stove monk slave food fruit coast forest bird cock lad wizard bird crane chord smile tool implement glass magician brother monk noon string crane implement rooster voyage

Estudo Comparativo Algortimo Correlação Leacock and Chodorow 0,82 Hirst St. Onge 0,68 Banjeree and Pedersen 0,37 Wu and Palmer 0,74 LSA 0,72 Resnik 0,77 Lin 0,80 Jiang and Conrath -0,81 Resnik* 0,77 Lin* 0,81 Jiang and Conrath* 0,84

WordNet: Relações Semânticas e Métricas de Associação/Semelhança Seminário Doutoral Nuno Seco