MCZA Processamento de Linguagem Natural Semântica e similaridade de palavras: Parte III

Documentos relacionados
Comparação dos algoritmos sequencial e paralelo para contagem de palavras e contexto

GSI024 - Organização e Recuperação da

Verificação automática de substantivos compostos através de reconhecimento de padrões sintáticos

6 Atributos. A dívida da empresa subiu.

Processamento de Imagem. Prof. MSc. André Yoshimi Kusumoto

Estatística Aplicada ao Serviço Social

Aula de Hoje. Processamento Estatístico da Linguagem Natural. Módulo útil: re. Módulo útil: random

Extração de características: textura

Convolução Correlação. Profs. Theo Pavan e Adilton Carneiro TAPS

Unidade III ESTATÍSTICA. Prof. Fernando Rodrigues

Mineração de Dados em Biologia Molecular

RECUPERAÇÃO LEXICAL E TEMPO DE ESPERA NA INTERPRETAÇÃO SIMULTÂNEA DE PALAVRAS DO PORTUGUÊS PARA A LÍNGUA DE SINAIS BRASILEIRA

Aula 13: Listas encadeadas (estruturas lineares)

FILTROS ESPACIAIS PASSA-BAIXA

Faculdade de Engenharia da Computação

Grupo de Usuários Java do Noroeste Paulista. Tópicos Avançados em Java

Arquivos invertidos 39

Aula 11 Desenvolvimento da linguagem: emergência da sintaxe (parte 2)

Aula 12 - Correção de erros

4 TEORIA MATEMÁTICA DA COMUNICAÇÃO DE SHANNON

Aula Teórica 14 Matrizes

AULAS 14 E 15 Modelo de regressão simples

Aula de Hoje. Processamento Estatístico da Linguagem Natural. Bottom-Up Filtering. Ambiguidade. Combinando Top-Down e Bottom-Up

Processamento da Informação Estruturas de seleção simples e composta

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

IMPLEMENTAÇÃO DE ALGORITMO PARA IDENTIFICAÇÃO DE IMPRESSÕES DIGITAIS

Análise Sintática de Frases utilizando Gramáticas Livres de Contexto Probabilísticas

Ministério da Educação UNIVERSIDADE TECNOLÓGICA FEDERAL DO PARANÁ Campus Cornélio Procópio PLANO DE ENSINO. Resolução CEPEM 125/05 de 01/12/05

Modelo Relacional. Aula 02

Aula 02: Custos de um algoritmo e funções de complexidade

ANTECESSORES RELATIVAMENTE PRIMOS

Programação Imperativa. Lição n.º 1 Preliminares

AULA 07 Inferência a Partir de Duas Amostras

Fazendo máquinas enxergarem com OpenCV. TCHÊLINUX 2017 Felipe Aguiar Corrêa

Revisão/Mapeamento Sistemático

Paradigmas de programação

Aprendizado de Máquina

Sinais e Sistemas Unidade 5 Representação em domínio da frequência para sinais contínuos: Transformada de Laplace

Potência e Energia de um sinal

16/6/2014. Teste Qui-quadrado de independência

Utilização de Algoritmos Genéticos para Otimização de Altura de Coluna da Matriz de Rigidez em Perfil no Método dos Elementos Finitos

Análise de Sentimento - Parte I

Computação Musical - Introdução slides do curso Computação Musical

LINGUAGEM C: ARRAY: VETORES E MATRIZES

Disciplina: Programação I

Aula 7 Medidas de Distância. Profa. Elaine Faria UFU

Recuperação P1 de Estrutura de Dados

RECONHECIMENTO IDENTIFICAÇÃO BASEADA EM APARÊNCIA

MATEMÁTICA A - 12o Ano Probabilidades - Teoremas e operações com conjuntos Propostas de resolução

Podemos representar a relação existente entre as entidades de um relacionamento 1:1 através do conjunto abaixo:

Para que possamos utilizar Sistemas de informação, primeiro precisamos entender onde nascem as informações.

Identificação e Tratamento de Expressões Multipalavras aplicado à Recuperação de Informação

Introdução a filtros digitais. Theo Pavan e Adilton Carneiro TAPS

INFORMAÇÃO-PROVA DE EQUIVALÊNCIA À FREQUÊNCIA 358- Língua Estrangeira I- Inglês-12 º ANO_ENSINO SECUNDÁRIO Prova escrita e prova oral _ 2014

PNV Introdução à Engenharia PNV3100 Aula S8 INTRODUÇÃO AVALIAÇÃO DE SOLUÇÕES

Pesquisa de Mercado. 08 de junho de Profa. Daniela Callegaro, Dr. Martiele Cortes Borges

Problema de Particionamento de Conjuntos

Gauss-Seidel para Solução de Sistemas com Matrizes Banda Usando Armazenamento Especial

CC-226 Aula 05 - Teoria da Decisão Bayesiana

Apresentação do Curso

Filtragem. Processamento digital de imagens. CPGCG/UFPR Prof. Dr. Jorge Centeno

Curso de Engenharia Elétrica Processamento Digital de Sinais II Exercícios sobre filtros não recursivos Data de entrega: 17/11/2015

Compressão de Textos. Introdução. Introdução. Introdução. O volume de informação textual disponível on-line é imenso:

Lógica Proposicional. LEIC - Tagus Park 2 o Semestre, Ano Lectivo 2007/08. c Inês Lynce c Luísa Coheur

Tutorial sobre o MineraFórum I. Introdução

0DWUL]HVGH&R2FRUUrQFLD

RECONHECIMENTO FACIAL UTILIZANDO EIGENFACES

Ajustar Técnica usada na análise dos dados para controlar ou considerar possíveis variáveis de confusão.

Programação para Internet I 4. XML. Nuno Miguel Gil Fonseca nuno.fonseca@estgoh.ipc.pt

Prof. Lorí Viali, Dr.

Linguagens Formais e Autômatos (BBC242) Professor: Anderson Almeida Ferreira DECOM-UFOP

SME0822 Análise Multivariada 2 o semestre de Prof. Cibele Russo. Sala 3-113

Bases Computacionais da Ciência (BC-0005)

Teste Qui-quadrado. Dr. Stenio Fernando Pimentel Duarte

Índice. Escolha de um Computador

Aula 07: Algoritmos de busca e Listas encadeadas

A categorização semântica dos compostos nominais técnicos em língua inglesa e os resultados tradutórios em português

Aula 2 Lei de Coulomb

Mecânica experimental Lima Junior, P.; Silva, M.T.X.; Silveira, F.L.

INTERPOLAÇÃO LINEAR E BILINEAR: APLICAÇÃO EM TRANSFORMAÇÕES GEOMÉTRICAS DE IMAGEM INTRODUÇÃO

CLASSIFICAÇÃO DE PADRÕES EM IMAGENS UTILIZANDO DESCRITORES DE TEXTURA Pattern Classification in Images Using Descriptors of Texture

Processamento de Imagem. Prof. MSc. André Yoshimi Kusumoto

A procura da melhor partição em Classificação Hierárquica: A abordagem SEP/COP

Neste tópico veremos:

Distribuição T - Student. Prof. Herondino S. F.

Laboratório de Programação A Exercícios sobre vetores e matrizes

Testes de Aderência, Homogeneidade e Independência

Representação das Informações

Guião 1 Anexo (v1.0) 2. Do léxico à frase 2.1. Classes de palavras e critérios para a sua identificação

Textura. Textura 04/09/2014. Prof. Yandre Costa

Introdução à Mineração de Dados com Aplicações em Ciências Espaciais

Arrays em Java. Prof. Renato Pimentel. GGI030 Programação Orientada a Objetos. Universidade Federal de Uberlândia Faculdade de Computação

2 Segmentação de imagens e Componentes conexas

MC3305 Algoritmos e Estruturas de Dados II. Aula 02 Hashing. Prof. Jesús P. Mena-Chalco.

w 1 = v 1 + v 2 + v 3 w 2 = 2v 2 + v 3 (1) w 3 = v 1 + 3v 2 + 3v 3 também são linearmente independentes. T =

Probabilidade - aula II

UNIVERSIDADE ESTADUAL DE MARINGÁ PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO. Prof. Yandr re Costa - 1. Prof. Yandre Costa.

Universidade Federal de São Carlos Departamento de Estatística. Plano de Ensino (B) - Teoria de Matrizes para Estatística

Exemplo (tabela um) distribuições marginais enquanto que. Distribuição Conjunta

TÉCNICO EM MANUTENÇÃO E SUPORTE EM INFORMÁTICA FORMA SUBSEQUENTE. Professora: Isabela C. Damke

Transcrição:

MCZA017-13 Processamento de Linguagem Natural Semântica e similaridade de palavras: Parte III Prof. Jesús P. Mena-Chalco jesus.mena@ufabc.edu.br 1Q-2018 1

Bibliografia Daniel Jurafsky & James H. Martin. Speech and language processing: An introduction to natural language processing, computational linguistics, and speech recognition. Pearson/Prentice Hall. 2019? 2000 2009 Stanford University University of Colorado, Boulder 2

Bibliografia Capítulo 15 https://web.stanford.edu/~jurafsky/slp3/ 3

Da aula de laboratório... 4

Matriz de co-ocorrência: termo-documento Dois documentos são similares (semantica) se os vetores são similares V A dimensão do vetor é o tamanho do vocabulário: N V 5

Matriz de co-ocorrência: termo-documento 6

Matriz de co-ocorrência: termo-documento Duas palavras são similares (semantica) se os vetores são similares A dimensão do vetor é o número de documentos: N D Abordagem simples mas quais seriam os problemas? 7

Matriz: termo-documento A similaridade entre palavras considera todas as palavras presentes em todos os documentos. Os vetores tem muitos elementos nulos (vetores esparsos) O tamanho do vetor depende do número de documentos. 8

Matriz termo-documento O mais natural seria considerar: Matriz termo-termo. Matriz palavra-palavra. Matriz termo-contexto. Sinônimos Dimensão V x V Cada celula da matriz registra o número de vezes que a palavra (da linha) co-ocorre com outra palavra (da coluna) em um contexto, dado em um corpus de treinamento. O contexto poderia ser o documento: Cada celula representa o número de vezes que duas palavras estão presentes no documento 9

Matriz termo-contexto Por que não usar um contexto menor? Obras similares estão geralmente próximas. Palavras que estão em contextos similares, tendem a ser semanticamente similares Por exemplo parâgrafos. Por exemplo usar 4 palavras antes e depois de uma determinada palavra: w 10

Matriz termo-contexto Exemplo de contexto local de palavras: O carro é rápido? Sim, ele é muito veloz! O manuscrito é longo. Geralmente o tamanho é menor. 11

Quatro exemplos: Corpus Brown sugar, a sliced lemon, a tablespoonful of apricot preserve or jam, a pinch each of, their enjoyment. Cautiously she sampled her first pineapple and another fruit whose taste she likened well suited to programming on the digital computer. In finding the optimal R-stage policy from for the purpose of gathering data and information necessary for the study authorized in the 12

(Corpus Brown) The Brown University Standard Corpus of Present-Day American English Criado na decada dos 1960 é um corpus geral que contem 500 amostras em inglês. https://the.sketchengine.co.uk/open/ Ao todo 1,014,312 palavras de trabalhos publicacos nos Estados Unidos em 1961 (500 fontes), organizado em 15 categorias.. É um corpus pioneiro na área de linguistica computacional. 13

Quatro exemplos: Corpus Brown +- 7 palavras sugar, a sliced lemon, a tablespoonful of apricot preserve or jam, a pinch each of, their enjoyment. Cautiously she sampled her first pineapple and another fruit whose taste she likened well suited to programming on the digital computer. In finding the optimal R-stage policy from for the purpose of gathering data and information necessary for the study authorized in the 14

Matriz termo-contexto (+-7 palavras) Uma palavra é representada por um vetor de números que consideram um contexto No exemplo temos um vetor de tamanho 6, mas a dimensão é proporcional ao tamanho do vocabulário considerado Apricot = [ 0, 0, 0, 1, 0,, 3, 0, 0, 0, 0, 0, 1, 1,, 0, 0, 0, ] A estrutura de dados deve ser a mais eficiente possível para armazenar um vetor esparso de tamanho ~20 ou 50 mil elementos. 15

Matriz termo-contexto (+-7 palavras) 16

Matriz termo-contexto: Janelas 1, 3, 7 Similaridade mais sintática w... w... w Similaridade mais semântica Contexto total de 15 palavras 17

Similaridade baseada em distribuição de palavras Na literatura isso é conhecido como: Distributional semantics. Vector semantics. Vector-space semantics. O significado de uma palavra é calculada a partir da distribuição de palavras que ao redor dela. Em tópicos anteriores uma palavra era representada por um índice em um vocabulário. Nesta abordagem: as palavras são representadas como um vetor de números. (embedding into a vector) 18

Matriz termo-contexto V wi 0 0 0 2 0 5 0 0 0 3 0 0 1 0 0 0 0 0 0 0 0 0 0 30 0 0 Cada celula indica uma frequência V 19

Matriz termo-contexto V wi V 0 0 0 2 0 5 0 0 0 3 0 0 1 0 0 0 0 0 0 0 0 0 0 30 0 0 Apenas contagem de palavras não é boa escolha para determinar se 2 palavras são similares. Ex. de e em são muito frequentes, e podem não ajudar em discriminar similaridade entre palavras. 20

Pointwise Mutual Information (PMI) Positive Pointwise Mutual Information (PPMI) Ambas medidas permitem mensurar quão informativa é a palavra de contexto dada uma palavra (alvo) 21

Similaridade por acaso? As palavras: de, em, para, quem, está, eles, nossos Não são informativas pois estão presentes em quase todos os contextos. A melhor ponderação ou medida de associação entre palavras deve nos dizer com que frequência mais do que o acaso as duas palavras co-ocorrem. 22

Pointwise Mutual Information (PMI) É uma medida baseada na medida de Informação Mútua: Informação Mútua: é uma medida que representa a quantidade de informação que uma variável aleatória contém sobre outra variável aleatória. é uma medida de dependência entre variáveis aleatórias. é uma medida da sobreposição de informações entre duas variáveis aleatórias. 23

Informação Mútua: Interpretação Mede a quantidade de informação que X e Y têm em comum 24

Pointwise Mutual Information (PMI) PMI é uma medida de associação que mede quão frequente dois eventos (x e y) ocorrem se ambos são independentes: A razão entre a prob. Conjunta dos eventos e suas prob. separadas Para palavras mede o quanto 2 palavras estão associadas. 25

Pointwise Mutual Information (PMI) Se <1 o PMI será negativo PMI terá valores entre [-, + ]: Negativos: implica que as coisas estão ocorrendo com menos frequência do que esperávamos por acaso Valores não confiáveis para corpus pequeno! 26

Pointwise Mutual Information Positive Pointwise Mutual Information O mais comum é substituir os valores negativos do PMI por zero. 27

Calculando PPMI em uma matriz termo-contexto Seja F a matriz com W linhas (palavras) e C colunas (contextos) C Número de vezes que wi ocorre no contexto cj W wi 28

Atividade 1 Calcule: PPMI(w=information, c=data) da seguinte matriz termo-contexto 29

Atividade 1 Calcule: PPMI(w=information, c=data) da seguinte matriz termo-contexto P(w=information, c=data) = 6/19 = 0.32 P(w=information) = 11/19 = 0.58 P(c=data) = 7/19 = 0.37 1.49 PPMI(w=information, c=data) = log2(0.32/(0.58*0.37)) = 0.5764 30

-0.63 31

O PPMI tem valores altos para eventos pouco frequentes (palavras muito raras) Uma maneira de reduzir esse viés é considerar: 32

Levy, O., Goldberg, Y., & Dagan, I. (2015). Improving distributional similarity with lessons learned from word embeddings. Transactions of the Association for Computational Linguistics, 3, 211-225. Quando c é raro, esta expressão permite diminuir o PPMI 33

Uma alternativa é usar uma estratégia que tenha um efeito similar: Suavisação: Add-k smoothing Laplace smoothing 34

35

Outras medidas de similaridade? 36

Agrupamento hierarquico 37