Modelo Espaço Vetorial. Mariella Berger

Documentos relacionados
Recuperação de Informação

Lista de exercícios 2 Recuperação de Informação Textual

Profª Ana Lúcia Lima Marreiros Maia Profª Fabiana Cristina Bertoni

Melhorando a Recuperação de Informação

Máquinas de Busca. Estruturas de Dados II Prof. a Mariella Berger. 1. Objetivo

Mineração de Textos. Mineração de Textos

News Clipping. Como calcular ângulos entre notícias pode ajudar na prevenção à lavagem de dinheiro. Willian Gigliotti

GSI024 - Organização e Recuperação da

Recuperação de Informações

Recuperação de Dado X Informação. Gerenciamento de Dados e Informação. Histórico. Recuperação de Informação. Histórico. Histórico

Realimentação de Relevância

3 Recuperação de Informações Textuais

Universidade do Sul de Santa Catarina Ciência da Computação Aula 09 Introdução a Análise de Textos Prof. Max Pereira

4 Recuperação de Informação

GSI024 - Organização e Recuperação da

O modelo espaço de vetores. vetorial. Marcelo Keese Albertini. Faculdade de Computação - UFU 12/03/2013. O modelo de espaço vetorial 1 / 27

O modelo espaço de vetores. vetorial. Marcelo Keese Albertini. Faculdade de Computação - UFU. O modelo de espaço vetorial 1 / 25

Modelo Probabilístico

03/07/2017. Modelo de Recuperação de Informação

Arquivos invertidos 39

MINERAÇÃO DE DADOS. Thiago Marzagão MINERAÇÃO DE TEXTOS. Thiago Marzagão (UnB) MINERAÇÃO DE DADOS 1/ / 25

textos documentos semi-estruturado

SISTEMA PARA RECUPERAÇÃO DE INFORMAÇÃO DE DOWNLOADS DE SOFTWARES

25/04/2017. Modelo de Recuperação de Informação

Ponderação de termos

Disciplina: Álgebra Linear e Geometria Analítica

Consultas por Similaridade em Domínios de Dados Complexos

Integrando recuperação de informação em banco de dados com Hibernate Search

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

Segundo trabalho de Organização e Recuperação da Informação

Outline. 2 Abordagem probabiĺıstica para ORI. 3 Teoria de probabilidades. 4 Princípio de ranking probabiĺıstico

CIC 111 Análise e Projeto de Algoritmos II

Algoritmos e Estruturas de Dados II. Trabalho Prático 4

Capítulo 4. Comitê BAS 35

Visualização de Texto e Documento

ORI: Pontuação e o modelo de espaço vetorial

Term weighting: outras ideias

Experiências em Armazenamento e Recuperação de Informação

Um estudo sobre diferentes modelos de Recuperação de Informação em documentos semi-estruturados (XML) -

1 Espaços Vectoriais

Keyword Search over RDF Graphs. Lucas Peres Gaspar

DATA MINING & MACHINE LEARNING (I) Thiago Marzagão

GIRS - GENETIC INFORMATION RETRIEVAL SYSTEM - UMA PROPOSTA EVOLUTIVA PARA SISTEMAS DE RECUPERAÇÃO DE INFORMAÇÕES

Recuperação de Informação

Seleção e geração de características utilizando regras de associação para o problema de ordenação de resultados de máquinas de buscas

Agrupamento de dados. Critério 1: grupos são concentrações de dados k-means Critério 2: grupos são conjuntos de elementos próximos entre si espectral

Gestão e Recuperação de Informação. Avaliação em Sistemas de Recuperação de Informação. José Borbinha DEI/IST

Indexação e Modelos Clássicos

Otimização de Recuperação de Informação usando Algoritmos Genéticos

GA - Retas no espaço euclidiano tridimensional

Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação

FUNDAMENTOS DE SISTEMAS LINEARES PARTE 1

Aprendizado de Supervisionado

Modelo Booleano Wendel Melo

Dados Internacionais de Catalogação na Publicação (CIP)

DEPARTAMENTO DE ESTATÍSTICA PLANO DE ENSINO FICHA N.º 1

Aplicação de uma Técnica Tradicional de Expansão de Consulta ao Modelo TR+

Rickson Guidolini Orientador: Nivio Ziviani Co-orientador: Adriano Veloso

Álgebra Linear I - Aula 8. Roteiro

INSTITUTO DE COMPUTAÇÃO. Um Método para Busca de Competências a. Partir de currículos Lattes

Classificação: Árvores de Decisão e k-nn. Eduardo Raul Hruschka

UMA ARQUITETURA PARA UTILIZAÇÃO DE ONTOLOGIAS EM SISTEMAS DE RECUPERAÇÃO DE INFORMAÇÃO

ÁLGEBRA LINEAR AULA 9 ESPAÇOS VETORIAIS EUCLIDIANOS

MCZA Processamento de Linguagem Natural Semântica e similaridade de palavras: Parte I

01. Determinar as equações da reta que passa pelo ponto A( 2, 3, 2) e tem a. = 2x. v são: b c

Pontifícia Universidade Católica do Rio de Janeiro / PUC-Rio Departamento de Engenharia Mecânica. ENG1705 Dinâmica de Corpos Rígidos.

Tabela Hash: Índice remissivo

, a equação. x, y x, y k. u, u, k. x, y 2, 3 k. 1, 2, k. Exemplo: Determina uma equação reduzida da reta que tem declive 3 e ordenada na origem 2.

META-MODELO FUNCIONAL PARA RECUPERAÇÃO DE INFORMAÇÃO

Mineração de Dados. Análise e Seleção de Variáveis

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

Seleção de Informações Usando Text Mining com RI

Aprendizagem de Máquina

Aprendizado de Máquina (Machine Learning)

Informação de Links no Modelo Vetorial Usando uma Estrutura Funcional

Fabrício Jailson Barth. Recuperação de documentos e pessoas em ambientes empresariais através de árvores de decisão

Aprendizagem de Máquina

Aula 6 Mineração Streams Representação dos Dados. Profa. Elaine Faria UFU

Classificação: Árvores de Decisão e k-nn. Eduardo Raul Hruschka

Relação de ordem em IR. Inequações

Processamento de Imagens CPS755

Capítulo Aplicações do produto interno

04/03/2013. Gerenciamento de Dados e Informação. Recuperação de Dado X Informação. Histórico

UMA ABORDAGEM BASEADA EM MÉTRICAS DE REDES COMPLEXAS PARA O ESTABELECIMENTO DO GRAU DE INFLUÊNCIA DE TERMOS EM DOCUMENTOS

Aula 7 Medidas de Distância. Profa. Elaine Faria UFU

UNIVERSIDADE METODISTA DE PIRACICABA RECUPERAÇÃO DE DOCUMENTOS TEXTO USANDO UM MODELO PROBABILÍSTICO ESTENDIDO

Revisão. Meio ambiente da Recuperação de Informação. Linguagem Analógico x Digital

Lista de Exercícios de Cálculo 3 Primeira Semana

Avaliação de Desempenho de SRI

Medidas de Avaliação

Programação Orientada a Objetos

Pré-processamento dos Dados e Análise Exploratória

Combinando Fatores de Ponderação para Melhorar a

UMA PROPOSTA DE CONSTRUÇÃO DE ÍNDICE INVERTIDO PARA RECUPERAÇÃO DE IMAGENS BASEADA EM CONTEÚDO

CLASSIFICAÇÃO AUTOMÁTICA DE PATENTES COM O MODELO VETORIAL DE REPRESENTAÇÃO DE DOCUMENTOS

PLANO DE ENSINO E APRENDIZAGEM

Redução de Dimensionalidade, DCDistance, e CARFRE

Transcrição:

Modelo Espaço Vetorial Mariella Berger

Agenda Introdução Atribuição de Pesos Frequência TF-IDF Similaridade Exemplo Vantagens e Desvantagens

Modelo Espaço Vetorial Introdução

Modelo Espaço Vetorial O modelo espaço-vetorial foi desenvolvido por Gerard Salton.

Modelo Espaço Vetorial Documentos e queries são representados por um vetor com n dimensões, onde n é o numero de termos diferentes na coleção de documentos. Achar documentos é comparar o vetor de documentos com o vetor query do usuário

Modelo Espaço Vetorial termos doc1 doc2 doc3 query good w 11 0 0 0 tutorial on w 12 w 13 w 22 0 0 0 0 0 java sun w 14 0 w 24 0 w 34 w 35 w 4 0 site 0 0 w 36 0 0 indica a ausência de um termo w it : Peso que indica a importância do termo

Modelo Espaço Vetorial Atribuição de Pesos

Atribuição de Peso Os pesos são usados para computar a similaridade O peso de um termo em um documento pode ser calculado de diversas formas: Frequência no documento Balancear características em comum (intradocumentos) e características para fazer a distinção entre documentos (interdocumentos) Salton e Buckey

Atribuição de Pesos Frequência

Exemplo Documento A A dog and a cat. a 2 dog 1 Documento B A frog. and 1 cat 1 a 1 frog 1

Exemplo O vocabulário contém todas as palavras utilizadas a, dog, and, cat, frog O vocabulário necessita ser ordenado a, and, cat, dog, frog

Exemplo Documento A: A dog and a cat. a and cat dog 2 1 Vetor: (2,1,1,1,0) Documento B: A frog. Vetor: (1,0,0,0,1) a 1 and 0 1 cat 0 1 dog 0 frog 0 frog 1

Exemplo: Queries Queries também podem ser representadas como vetores: Dog = (0,0,0,1,0) Frog = (0,0,0,0,1) Dog and frog = (0,1,0,1,1)

Atribuição de Pesos Balanceamento de características (tf-idf)

TF-IDF Onde: tf i (frequência do termo) = o número de vezes que o termo i ocorre no documento (reflete a informação local) df i (frequência do documento) = o número de documentos que contém o termo i. D = número total de documentos

TF-IDF A fração df i /D é a probabilidade de selecionar um documento que contém o termo i. log(d/df i ) é o Inverse Document Frequency (IDF i ), e reflete a informação global Se o termo aparece pouco nos documentos, então este é mais relevante.

Exemplo

Uma outra definição TF = freq(k,s) (frequência do termo k no documento/consulta S) IDF = log (N/n k ) (Inverse Document Frequency), onde: N: é o número de termos na coleção N k : é o número de vezes que o termo ocorre na coleção

Modelo Espaço Vetorial Similaridades

Similaridade Cada elemento do vetor de termos é considerado uma coordenada dimensional. Assim, os documentos podem ser colocados em um espaço euclidiano de n dimensões (onde n é o número de termos) e a posição do documento em cada dimensão é dada pelo seu peso (figura no próximo slide).

Similaridade

Similaridade Cada dimensão corresponde a um termo, e o valor do documento em cada dimensão varia entre 0 (irrelevante ou não presente) e 1 (totalmente relevante).

Similaridade

Similaridade As distâncias entre um documento e outro indicam seu grau de similaridade ou seja, documentos que possuem os mesmos termos acabam sendo colocados em uma mesma região do espaço e, em teoria, tratam de assuntos similares.

Similaridade - Consulta Os vetores dos documentos podem ser comparados com o vetor da consulta e o grau de similaridade entre cada um deles pode ser identificado. Os documentos mais similares (mais próximos no espaço) à consulta são considerados relevantes para o usuário e retornados como resposta

Similaridade - Consulta Uma das formas de calcular a proximidade entre os vetores é testar o ângulo entre estes vetores. No modelo original, é utilizada uma função batizada de cosine vector similarity

Coseno entre vetores Para 2 vetores d e d, a similaridade é calculada pelo coseno, ou seja: d d d ' d'

Similaridade Depois dos graus de similaridade terem sido calculados, é possível montar uma lista ordenada (ranking) de todos os documentos e seus respectivos graus de relevância à consulta, da maior para a menor relevância.

Exemplo Brasil 0.3 Olimpíadas 0.5 Sidney 0.2 d i Sidney d j 0.2 d i Brasil 0.2 Olimpíadas 0.4 Sidney 0.4 d j Brasil 0.3 0.5 Olimpíadas d i = 0.3 Brasil + 0.5 Olimpiadas + 0.2 Sidney d j = 0.2 Brasil + 0.4 Olimpiadas + 0.4 Sidney

Exemplo Similaridade: produto interno / produto das normas d i d j Sim= d i d j = = 0.28 0.3 0.2 + 0.5 0.4 + 0.2 0.4 ( 0.09 + 0.25 + 0.04 ) ½ ( 0.04 + 0.16 + 0.16 ) ½

Modelo Vetorial Exemplos

Exemplo 1 Query: "gold silver truck" A coleção possui 3 documentos (D = 3) D1: "Shipment of gold damaged in a fire" D2: "Delivery of silver arrived in a silver truck" D3: "Shipment of gold arrived in a truck"

Análise da similaridade

Análise da similaridade

Análise da similaridade

Análise da similaridade Resultado obtido: Rank 1: Doc 2 = 0.8246 Rank 2: Doc 3 = 0.3271 Rank 3: Doc 1 = 0.0801

Modelo Vetorial Vantagens e Desvantagens

Vantagens Oferecer um framework simples e elegante Atribuir pesos aos termos melhora o desempenho É uma estratégia de encontro parcial (função de similaridade), que é melhor que a exatidão do modelo booleano; Os documentos são ordenados de acordo com seu grau de similaridade com a consulta. Em geral, seu desempenho (precisão e recall) supera todos os outros modelos

Desvantagens Ausência de ortogonalidade entre os termos. Isso poderia encontrar relações entre termos que aparentemente não têm nada em comum; É um modelo generalizado; Um documento relevante pode não conter termos da consulta; Documentos muito longos podem dificultar na medida da similaridade;

Idéias para melhorá-lo Apontar um conjunto de palavras-chaves nos documentos Eliminar palavras muito comuns (como exemplo artigos) Limitar o vetor espaço em substantivos e poucos verbos ou adjetivos Criar subvetores para documentos muito grandes