MCZA Processamento de Linguagem Natural Semântica e similaridade de palavras: Parte I

Documentos relacionados
MCZA Processamento de Linguagem Natural Semântica e similaridade de palavras: Parte III

MCZA Processamento de Linguagem Natural Laboratório: Classificação de textos

MCZA Processamento de Linguagem Natural Reconhecimento de entidades nomeadas

MCZA Processamento de Linguagem Natural Modelando a linguagem com N-gramas

MCZA Processamento de Linguagem Natural Expressões regulares

MCZA Processamento de Linguagem Natural Classificação de textos

MCZA Processamento de Linguagem Natural Normalização de texto: Stemming

MCZA Processamento de Linguagem Natural Normalização de texto: Palavras e stopwords

SEMÂNTICA PARTE 3 ANÁLISE SEMÂNTICA 14/06/2012. SCC5908 Tópicos em Processamento de Língua Natural. Até agora, significado da sentença

Ontologias Linguísticas e Processamento de Linguagem Natural. Ygor Sousa CIn/UFPE

MCZA Processamento de Linguagem Natural Introdução

Universidade do Sul de Santa Catarina Ciência da Computação Aula 09 Introdução a Análise de Textos Prof. Max Pereira

Bárbara da Silva. Português. Aula 32 Semântica

6 Atributos. A dívida da empresa subiu.

Recapitulando... Abordagens: PLN. Abordagens: PLN 29/03/2012. Introdução ao Processamento de Línguas Naturais. Distribuição de palavras

Técnicas de Inteligência Artificial

RELAÇÕES SEMÂNTICAS FUNDAMENTOS DE SEMÂNTICA APOIO PEDAGÓGICO 20/04/2018 SAULO SANTOS

AULA 11 PROJETO E ANÁLISE DE ALGORITMOS. Conceitos básicos e representação de grafos Karina Valdivia Delgado

ANOTAÇÃO DE SENTIDOS DE VERBOS EM NOTÍCIAS JORNALÍSTICAS EM PORTUGUÊS DO BRASIL

LISTA DE EXERCÍCIOS GRAMÁTICA

Castro (2008, p.7) define a palavra ontologia de forma mais simplificada:

Aula 05: - Recursão (parte 1)

Capítulo 2. Orientação a Objetos

A procura da melhor partição em Classificação Hierárquica: A abordagem SEP/COP

Agrupamento de dados. Critério 1: grupos são concentrações de dados k-means Critério 2: grupos são conjuntos de elementos próximos entre si espectral

Limite assintótico para a ordenação, Ordenação em tempo linear

Correção Ortográfica. Processamento Estatístico da Linguagem Natural. Correção de Erros. Distância Mínima de Edição. Distância Mínima de Edição

Bancos de Dados Orientados a Grafos. Mateus Lana e Thiago Santana

Aula 13: Listas encadeadas (estruturas lineares)

Árvores: Conceitos Básicos e Árvore Geradora

Estudo Semântico e Aplicação Computacional de Adjetivos do Português do Brasil

Protocolos de Roteamento link-state

Ambiente de Data Warehouse Para Imagens Médicas Baseado Em Similaridade

TGR BCC Representação Computacional de Grafos. Prof. Ricardo José Pfitscher

Prova Didática Grafos: Árvores Geradoras e Caminhos Mínimos, Análise de Complexidade

MAPAS CONCEITUAIS COMPILADOS: UMA FERRAMENTA PARA CONSTRUÇÃO DE DIAGNÓSTICOS EM ENSINO A DISTÂNCIA

Aula 19 Conjuntos disjuntos (Union-find)

O estudo utilizando apenas este material não é suficiente para o entendimento do conteúdo. Recomendamos a leitura das referências no final deste

Modelagem de Tarefas e Interação (1)

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

Teoria dos Grafos. Valeriano A. de Oliveira Socorro Rangel Departamento de Matemática Aplicada.

Teoria dos Grafos Aula 5

Modelo Espaço Vetorial. Mariella Berger

Prof. Marco Antonio M. Carvalho

Processamento da Informação Ambientes de programação

Teoria dos Grafos. Valeriano A. de Oliveira, Socorro Rangel, Silvio A. de Araujo. Departamento de Matemática Aplicada

Estruturas de Dados Apresentação

SIGNIFICAÇÃO VOCABULAR E TEXTUAL

MCTA028 Programação Estruturada Aula 19 Custos de um algoritmo e funções de complexidade

Língua Portuguesa. Compreensão de Textos. Maria Tereza Faria

Universidade Federal da Paraíba CCEN Departamento de Informática Disciplina: Banco de Dados. Aula 1 Introdução a Banco de Dados


5 Ambigüidades no contexto de Mineração de Textos

Aula 05: - Recursão (parte 1)

Teoria dos Grafos. Aula 5 - Estruturas de Dados para Grafos. Profª. Alessandra Martins Coelho. março/2013

INF 1771 Inteligência Artificial

Aula 19: Métodos eficientes de ordenação

Capítulo 3. Descrição e visualização do modelo 25

Sub-grafo. Árvore Geradora Mínima

CIC 110 Análise e Projeto de Algoritmos I

SINÔNIMOS E PARÔNIMOS

Processamento de Malhas Poligonais

Aplicação de uma Técnica Tradicional de Expansão de Consulta ao Modelo TR+

Banco de Dados I Parte I: Introdução

CIC 111 Análise e Projeto de Algoritmos II

Linguagens Documentárias. Profa. Lillian Alvares Faculdade de Ciência da Informação, Universidade de Brasília

Desenho Técnico. Aula 5 Prof. Daniel Cavalcanti Jeronymo. Cotagem e Escalas

Processamento da Informação Estruturas de seleção simples e composta

Aula 08. Estruturas de dados Árvore e Grafo

Mineração de Textos. Mineração de Textos

Pedro Oliveira

1.1 Tema Aprendizado de Máquina (Mit97) é o campo da Inteligência Artificial responsável pelo desenvolvimento de modelos inferidos automaticamente a

Dicionario Portugues Espanhol

GRAMATEMÁTICA Leandro Bertoldo GRAMATEMÁTICA. Leandro Bertoldo

Andrés Eduardo Coca Salazar Tutor: Prof. Dr. Zhao Liang

INTERFACE DE ACESSO AO TEP 2.0 THESAURUS PARA O PORTUGUÊS DO BRASIL

SEMÂNTICA PARTE 3 (CONTINUAÇÃO)

2COP229 Inteligência Computacional. Aula 3. Clusterização.

Verificação automática de substantivos compostos através de reconhecimento de padrões sintáticos

Ambiguidade e vagueza. Disponível em: < Acesso em

Programação Orientada a Objetos

Realimentação de Relevância

WordnetAffectBR: uma base lexical de palavras de emoções para a língua portuguesa

Implementação de Kernel Customizado Aplicado à Análise de Sentimentos em Resenhas de Filmes

UMA FERRAMENTA PARA A PESQUISA EM CORPORA DE AQUISIÇÃO DE LINGUAGEM

Consultas por Similaridade em Domínios de Dados Complexos

Busca em Profundidade. Busca em Grafos. Busca em Grafos. Busca em Grafos. Busca em Grafos. Os objetivos da busca são: Aplicações???

MODELO DE CLASSIFICAÇÃO AUTOMÁTICA DE QUESTÕES NA LÍNGUA PORTUGUESA Henrique Maia Braum 1, Sandro José Rigo 1, Jorge L. V.

Estrutura de Dados Conceitos Iniciais

Comparação dos algoritmos sequencial e paralelo para contagem de palavras e contexto

Material preparado a partir de slides dos profs. Jesús Mena-Chalco e Fabrício Olivetti

Processamento da Informação Números Aleatórios Matrizes parte 2

MC3305 Algoritmos e Estruturas de Dados II. Aula 06 Árvores. Prof. Jesús P. Mena-Chalco.

LÍNGUA PORTUGUESA 6 ANO ENSINO FUNDAMENTAL PROF.ª DINANCI SILVA PROF. MÁRIO PAIXÃO

BC1424 Algoritmos e Estruturas de Dados I Aula 03: Recursão / Recursividade

Projeto e Análise de Algoritmos NP Completude. Prof. Humberto Brandão

Antes de iniciar as respostas, faça uma leitura completa da avaliação. Lembre-se:

Português 1º ano João J. Linguagem e Significação

CURSO COM INÍCIO EM: 22/11/2016 TURMAS: MANHÃ E NOITE

Visão Computacional. Prof. Leandro Augusto Frata Fernandes TCC Introdução à Ciência da Computação (2012.

Transcrição:

MCZA017-13 Processamento de Linguagem Natural Semântica e similaridade de palavras: Parte I Prof. Jesús P. Mena-Chalco jesus.mena@ufabc.edu.br 1Q-2018 1

Bibliografia Daniel Jurafsky & James H. Martin. Speech and language processing: An introduction to natural language processing, computational linguistics, and speech recognition. Pearson/Prentice Hall. 2019? 2000 2009 Stanford University University of Colorado, Boulder 2

Bibliografia Capítulo 15 https://web.stanford.edu/~jurafsky/slp3/ 3

Cinco definições importantes sobre significado de palavras 4

Da aula 04: Stemming x Lemmatization Stemming (a ação de reduzir em stems) Stem: Parte de uma palavra Stemmer: O artefato (programa) Produc Produced Produce Lemmatization (a ação de reduzir em Lemmas) Lemma: Forma básica da palavra Lemmatizer: O artefato (programa) 5

Lemma e Wordform Lemma: é a forma básica da palavra. Wordform: é uma palavra com inflexão. wordform Lemma Banks Bank Sung Sing Durmiu dormir Bancos Banco 6

Diferentes significados? Um determinado lemma pode ter significados diferentes. 7

Diferentes significados? Um determinado lemma pode ter significados diferentes. Exemplo: um banco pode manter investimentos dos correntistas... os métodos implementados em um banco de dados... trocaram de cor o banco de madeira... 8

1) Homônimos São palavras que compartilham a mesma forma mas com significados diferentes (origens diferentes). Banco: Instituição financeira. Banco: Artefato para armazenamento de dados. Banco: Assento. Homônimos podem ser: Homógrafos, i.e., mesma forma de escrita (banco/banco) Homófonos, i.e., mesma forma de fala (Concerto/conserto) 9

Homônimos criam problemas em PLN Em recuperação de informação banco quebrado (a instituição ou o assento?) Em tradução de textos bat: morcego bat: bastão Em aplicações text-to-speech (a pronuncia é diferente) bass (instumento musical) bass (peixe) 10

2) Polissemia (muitos significados) É a propriedade de uma palavra tem de apresentar vários significados. Uma palavra polissêmica tem significados relacionados. (origens similares): Letra: Elemento básico de um alfabeto. Letra: Texto de uma canção. Letra: Caligrafia de uma determinado indivíduo. 11

Relações sistemáticas (metonímia) Muitos tipos de polissemia são sistemáticos: Rádio Universidade Escola Hospital Prédio Organização 12

Relações sistemáticas (metonímia) Muitos tipos de polissemia são sistemáticos: Rádio Universidade Escola Hospital Outros tipos de relações sistemáticas: Eu amo J. K. Rowling Eu amo (as obras de) J. K. Rowling Maracujá tem lindas flores Ontem experimentei maracujá Prédio Organização Autor Trabalhos de autor Árvore Fruto 13

Como determinar se uma palavra tem mais de um significado? Usando o teste Zeugma (figura de linguagem ou estilo)... construirá uma universidade de mármore pedirá à universidade de João... 14

Como determinar se uma palavra tem mais de um significado? Usando o teste Zeugma (figura de linguagem ou estilo)... construirá uma universidade de mármore pedirá à universidade de João... Teste: Se a construção não faz sentido (coerente), provavelmente a palavra seja polissêmica: construirá uma universidade de mármore e de João? 15

3) Sinônimos Palavras que tem o mesmo significado em alguns ou todos os contextos. Caderno Carro Sofá Agua Computador Caderneta Automóvel Divá H 2O PC Duas palavras são sinônimas se: Ambas podem ser substituídas em todas as situações. Ambas têm o mesmo significado proposicional. 16

4) Antônimos Palavras que tem significado oposto em relação a uma característica. escuro quente curto para cima rápido claro frio longo para baixo lento 17

5) Hiponímia e Hiperonímia sub super Indicam relação hierarquica de significados entre palavras. Uma palavra A é hiponímia de B, se o significado de A é mais específico que B: Carro Sandália é uma hiponímia de é uma hiponímia de Se modo inverso: Automóvel é uma hiperonímia de Calçado é uma hiperonímia de Automóvel Calçado Carro Sandália 18

Wordnet: Um repositório (tesauro) muito útil em PLN 19

Wordnet wordnet.princeton.edu A Wordnet é uma base de dados (1985) usada na área de linguística computacional, em inglês. Wordnet está organizado em base de relações (hierarquicas). Usado para desambiguar o significado das palavras. Versão 3.0, contem mais substantivos 20

21

22

Synset = Synonym set É um conjunto de sinônimos (próximos) a uma palavra 23

Synset = Synonym set Hierarquia de hiperonomios 24

Wordnet diferentes iniciativas http://www.globalwordnet.org/gwa/wordnet_table.html 25

Wordnet em português http://wnpt.brlcloud.com/wn/search?term=banana 26

Similaridade entre palavra? 27

Similaridade entre palavras Duas palavras são similares se ambas compartilham o mesmo significado. As palavras similares mantem uma relação de significado. Instituição financeira: Banco é similar a fundo Objeto: Caderno é similar a caderneta 28

Porque é importante avaliar similaridade? A similaridade de palavras pode ser útil em diferentes tipos de aplicações, como por exemplo: Recuperação de Informação (IR) Busca por elementos similares Detecção de plágio Busca por regiões similares Agrupamento de textos Busca por conjuntos de textos similares 29

Porque é importante avaliar similaridade? 30

Similaridade entre palavras e palavras correlatas Versão mais flexível: A similaridade entre palavras pode ser estimadada por uma medida de proximidade de significado: Quase sinônimos Carro é similar a Bicicleta Exemplo de palavras correlatas: Carro está relacionado com Gasolina 31

Algoritmos Duas abordagens para identificar similaridade entre palavras: (1) Algoritmos baseados em tesauro: Duas palavras são similares se uma é hiponímia de outra Carro Sandália é uma hiponímia de é uma hiponímia de Automóvel Calçado Ou se compartilham a mesma definição (gloss) 32

Algoritmos Duas abordagens para identificar similaridade entre palavras: (2) Algoritmos baseados em distribuição de palavras: Não precisam de um tesauro, mas de um corpus grande no qual sejam evidenciados diferentes pares de palavras... 33

(1) Algoritmos de similaridade de palavras basedos em tesauro(s) 34

Similaridade usando tesauro Denomiado de path based similarity : Assumindo que as palavras tem comprimento igual a 1 para si mesmos Duas palavras são similares se ambas estão na mesma hierarquia (ou bem próximas). Pensamento computacional: distância do menor caminho entre eles. 35

Formalizando as medidas Pathlen(c1, c2) = 1 + comprimento do caminho entre c1 e c2 na árvore de hiponímia. 36

Exemplo 37

Problema Podemos discutir um problema dessa abordagem: Assumimos que cada aresta representa distância uniforme. simpath(nickel, money) == simpath(nickel, standard) Os vértices em hierarquias superiores são mais abstratos! 38

Problema Podemos discutir um problema dessa abordagem: Assumimos que cada aresta representa distância uniforme. simpath(nickel, money) == simpath(nickel, standard) Palavras conectadas por um vértice abstrado deveriam ser menos similares Os vértices em hierarquias superiores são mais abstratos! Deveria ser possível representar o custo de cada aresta de forma independente 39

Contornando o problema Utiliza um corpus para captar da melhor forma a distância entre 2 conceitos ou 2 palavras 40

Contornando o problema 1988 Utiliza um corpus para captar da melhor forma a distância entre 2 conceitos ou 2 palavras 41

Contornando o problema 42

Interfaces NLTK oferece métodos para calculo de similaridade de palavras baseada em wordnet. Por outro lado existem outras iniciativas on line: http://maraca.d.umn.edu/cgi-bin/similarity/similarity.cgi 43

Interfaces 44

(2) Algoritmos de similaridade de palavras basedos em distribuição de palavras Porque? 45

Por que é necessário este tipo de abordagem? As métricas apresentadas nos slides anteriores são dependentes de um tesauro. Dependem da completude das palavras (dicionário), ie. não são flexíveis. No Tesauro algumas relações não estão representadas. Adjetivos e verbos são menos representados nos tesauros: Wordnet Versão 3.0, contem mais substantivos 46

Por que é necessário este tipo de abordagem? A semantica muda/evolue ao longo do tempo 47

Abordagem baseada em distribuição de palavras Obras similares estão geralmente próximas Em PLN: Palavras que estão em contextos similares, tendem a ser semanticamente similares 48

Abordagem baseada em distribuição de palavras Na literatura isso é conhecido como: Distributional semantics. Vector semantics. O significado de uma palavra é calculada a partir da distribuição de palavras que ao redor dela. As palavras são representadas como um vetor de números. 49

Abordagem baseada em distribuição de palavras 50

Abordagem baseada em distribuição de palavras Podemos não saber o que é tesguino (certamente não estará presente em algum tesauro), mas pelo contexto podemos intuir que trata-se de uma bebida alcoólica. --> Duas palavras serão similares se ambas estão em contextos similares. 51

Matriz: termo-documento 52

Matriz: termo-documento 53

Matriz: termo-documento 54

Matriz: termo-documento 55

Agrupamento hierarquico 56

Capturar significa relacional 57