GSI024 - Organização e Recuperação da

Documentos relacionados
GSI024 - Organização e Recuperação da

Profª Ana Lúcia Lima Marreiros Maia Profª Fabiana Cristina Bertoni

Universidade do Sul de Santa Catarina Ciência da Computação Aula 09 Introdução a Análise de Textos Prof. Max Pereira

Recuperação de Informações por Álgebra Linear Computacional

Lista de exercícios 2 Recuperação de Informação Textual

Term weighting: outras ideias

Modelo Espaço Vetorial. Mariella Berger

Arquivos invertidos 39

Recuperação de Dado X Informação. Gerenciamento de Dados e Informação. Histórico. Recuperação de Informação. Histórico. Histórico

Realimentação de Relevância

Recuperação de Informações

Dados no R n. Dados em altas dimensões 29/03/2017

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

GSI024 - Organização e Recuperação da

Consultas por Similaridade em Domínios de Dados Complexos

4 Recuperação de Informação

SVD. Single Value Decomposition 18/09/2017. Lema. Toda matriz A, com n linhas e d colunas, admite uma fatoração A= UDV T =

Recuperação de Informação

Melhorando a Recuperação de Informação

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

Organização e Recuperação da Informação

03/07/2017. Modelo de Recuperação de Informação

Projeções Multi-dimensionais

DATA MINING & MACHINE LEARNING (I) Thiago Marzagão

Compressão de Textos. Introdução. Introdução. Introdução. O volume de informação textual disponível on-line é imenso:

FUNDAMENTOS DE SISTEMAS LINEARES PARTE 1

MINERAÇÃO DE DADOS. Thiago Marzagão MINERAÇÃO DE TEXTOS. Thiago Marzagão (UnB) MINERAÇÃO DE DADOS 1/ / 25

3 Recuperação de Informações Textuais

Thiago Marzagão LSA, LDA

SISTEMA PARA RECUPERAÇÃO DE INFORMAÇÃO DE DOWNLOADS DE SOFTWARES

Capítulo 4. Comitê BAS 35

Hashing: conceitos. Hashing

O modelo espaço de vetores. vetorial. Marcelo Keese Albertini. Faculdade de Computação - UFU 12/03/2013. O modelo de espaço vetorial 1 / 27

textos documentos semi-estruturado

O modelo espaço de vetores. vetorial. Marcelo Keese Albertini. Faculdade de Computação - UFU. O modelo de espaço vetorial 1 / 25

Geometria Computacional

Computação Gráfica. Engenharia de Computação. CEFET/RJ campus Petrópolis. Prof. Luis Retondaro. Aula 3. Transformações Geométricas

Um estudo sobre diferentes modelos de Recuperação de Informação em documentos semi-estruturados (XML) -

Auto-Fusão na Recuperação de Imagens Baseadas em Conteúdo.

Mineração de Textos. Mineração de Textos

GAAL - Exame Especial - 12/julho/2013. Questão 1: Considere os pontos A = (1, 2, 3), B = (2, 3, 1), C = (3, 1, 2) e D = (2, 2, 1).

Criptografia Pós-Quântica Corretores de Erros

Aula 7 Medidas de Distância. Profa. Elaine Faria UFU

ORI: Pontuação e o modelo de espaço vetorial

Resolução da Questão 1 Item I (Texto Definitivo)

Visualização de Texto e Documento

ESPAÇOS VETORIAIS EUCLIDIANOS

News Clipping. Como calcular ângulos entre notícias pode ajudar na prevenção à lavagem de dinheiro. Willian Gigliotti

Ângulo e ortogonalidade em espaços com produto interno

Informação de Links no Modelo Vetorial Usando uma Estrutura Funcional

AVALIAÇÃO DA QUALIDADE DO USO DE WAVELETS PARA RECUPERAÇÃO, CLASSIFICAÇÃO E AGRUPAMENTO DA INFORMAÇÃO TEXTUAL. Fabrício Raphael Silva Ferreira

Reconhecimento de Faces com PCA e Redes Neurais

4 Algoritmo de reconstrução de curvas

Aula 6 Mineração Streams Representação dos Dados. Profa. Elaine Faria UFU

Sumário. RObust Clustering using links ROCK. Thiago F. Covões. Motivação. Motivação. Links. Market basket analys. Motivação

Exame de Ingresso. Física Aplicada Física Computacional. Segundo Semestre de 2014

Tipos de Índices. Profa. Dra. Cristina Dutra de Aguiar Ciferri

Lista de Exercícios de Cálculo 3 Primeira Semana

SCC0173 Mineração de Dados Biológicos

MCZA Processamento de Linguagem Natural Semântica e similaridade de palavras: Parte III

Segundo trabalho de Organização e Recuperação da Informação

Indexação e Modelos Clássicos

Algoritmo CLIQUE (Clustering In QUEst)

Combinando Fatores de Ponderação para Melhorar a

Outline. 2 Abordagem probabiĺıstica para ORI. 3 Teoria de probabilidades. 4 Princípio de ranking probabiĺıstico

Aprendizado de Máquina (Machine Learning)

Códigos de blocos lineares. Outubro de 2017

Ponderação de termos

25/04/2017. Modelo de Recuperação de Informação

Ambiente de Data Warehouse Para Imagens Médicas Baseado Em Similaridade

Descritores de Imagens

RECONHECIMENTO FACIAL UTILIZANDO EIGENFACES

DATA MINING & MACHINE LEARNING (I) Thiago Marzagão

Reconhecimento de Gestos

Esquemas de identificação baseados no problema

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

Visualização Computacional

Visualização por Computador: Teoria, Prática e Aplicações

Resolução da Questão 1 Item I Texto definitivo

Álgebra Linear e Geometria Anaĺıtica. Espaços Vetoriais Reais

Image Descriptors: color

Modelo Booleano Wendel Melo

Aprendizado de Máquina (Machine Learning)

Resolução da Questão 1 Item I (Texto Definitivo)

Redução de Dimensionalidade, DCDistance, e CARFRE

Classificação: Árvores de Decisão e k-nn. Eduardo Raul Hruschka

Álgebra e cálculo relacional. Andre Noel

Kanade-Lucas-Tomasi Tracker

Lista 8 de Álgebra Linear /01 Produto Interno

Métodos de Acesso Métrico

Econometria. Operações básicas de vetores. Operações básicas de vetores. Operações básicas de vetores. Independência de vetores

Universidade Federal de Alagoas Instituto de Matemática. Geometria. Prof. Thales Vieira

Hashing convencional...

AGRUPAMENTO DE ESCOLAS ANSELMO DE ANDRADE

Norma em matrizes e condicionamento de sistemas lineares

Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação

Aula 8 - Reconhecimento e Interpretação. Prof. Adilson Gonzaga

DEPARTAMENTO DE MATEMÁTICA INFORMÁTICA DISCIPLINA:

Mineração de Dados em Biologia Molecular

Transcrição:

GSI024 - Organização e Recuperação da Informação Ilmério Reis da Silva ilmerio@facom.ufu.br UFU/FACOM/BSI Arquivo 6 - Modelo Vetorial GSI024-ORI Pg:6. 1

Ranking baseado no modelo vetorial Considerações de desempenho GSI024-ORI Pg:6. 2

(Relembrando) Documento como vetor de termos cada documento pode ser visto como um vetor de termos (coluna na matriz termo-documento) cada termo é um eixo no espaço vetorial documentos são vetores nesse espaço o espaço tem milhares de eixos (dimensões) GSI024-ORI Pg:6. 3

Aplicações de Vetores de documentos Query by Example: Encontre documentos similares a um dado documento Busca aproximada Encontre documentos próximos a um dado vetor de documento GSI024-ORI Pg:6. 4

Intuição GSI024-ORI Pg:6. 5

Propriedades essenciais para proximidade no espaço vetorial if d 1 está próximo de d 2 então d 2 está próximo de d 1 (simetria) if d 1 está próximo de d 2 e d 2 está próximo de d 3 então d 1 não está distante de d 3 (transitividade) Nenhum documento está mais próximo de d i do que ele mesmo (reflexividade) GSI024-ORI Pg:6. 6

Primeiro corte distância euclidiana: distancia(d 1, d 2 ) = d 1 d 2 porque não é uma boa idéia para busca? tamanho do documento tem grande influência todos os documentos muito pequenos serão similares necessita normalização, por exemplo, observando ângulo e não distância euclidiana GSI024-ORI Pg:6. 7

Coseno não satisfaz transitividade GSI024-ORI Pg:6. 8

Coseno Normalização de pesos Como tornar todos os vetores com tamanho igual a 1 d j = (w 1,j, w 2,j,, w t,j ), onde t é o número de termos do vocabulário, logo, a dimensão do espaço vetorial Norma de d j : d j = t i w 2 i,j Peso normalizado: W i,j = w i,j d j GSI024-ORI Pg:6. 9

Vetor de pesos normalizados Tamanho do vetor normalizado D j = t Wi,j 2 = i t i w i,j t i w2 i,j 2 = 1 Com isso, documentos grandes não levarão vantagem Todos estarão próximos. GSI024-ORI Pg:6. 10

Similaridade baseada no coseno coseno do ângulo entre os vetores denominador normaliza os vetores GSI024-ORI Pg:6. 11

Similaridade baseada no coseno Para documentos normalizados o coseno é o próprio produto interno GSI024-ORI Pg:6. 12

Exemplo GSI024-ORI Pg:6. 13

Consultas no espaço vetorial Considere a consulta como um documento no espaço vetorial Seja d q o vetor relativo à consulta q Então: sim(d j, q) = ( t i=1 t i=1 w i,q w i,j ) ( t wi,d 2 i=1 ) wi,j 2 Obs: o vetor d q poucos termos. em geral é esparso, pois normalmente a consulta tem GSI024-ORI Pg:6. 14

Características do Modelo Vetorial um espaço algébrico bem formado a consulta pode ser vista como um documento pequeno a consulta também é um vetor no mesmo espaço possibilidade de medir a proximidade de todos os documentos com a consulta score/ranking natural possilidade de várias medidas de similaridade, ver survery em http://www.lans.ece.utexas.edu/ strehl/diss/node52.html GSI024-ORI Pg:6. 15

Modelo Vetorial na Web - Problemas indexação baseada em coleção estática a Web é uma coleção dinâmica GSI024-ORI Pg:6. 16

Modelo Vetorial e Frases indexar as frases com tf.idf para, por exemplo, tangerine trees há problemas com a dimensão do vocabulário que palavras combinar? uma alternativa são os índices posicionais GSI024-ORI Pg:6. 17

Consultas booleanas e Modelo Vetorial concepções diferentes do espaço o modelo booleano observa um retângulo e o vetorial um círculo. GSI024-ORI Pg:6. 18

Modelo Booleano Extendido (MIR) q or = k 1 k 2 : o ponto (0, 0) é o alvo a ser evitado sim(d j, q or ) = w 2 1,j + w2 2,j 2 GSI024-ORI Pg:6. 19

Modelo Booleano Extendido (MIR) q and = k 1 k 2 : o ponto (1, 1) é o alvo a ser alcançado sim(d j, q and ) = 1 (1 w1,j ) 2 + (1 w 2,j ) 2 2 GSI024-ORI Pg:6. 20

Wildcards e Modelo Vetorial transformar consultas em termos associados à wildcard query pesos podem influenciar e descaracterizar a consulta GSI024-ORI Pg:6. 21

Linguagem de consulta e score Linguagens: texto livre, frases, wildcard, etc. Miscelânia - considere para consultas texto livre: topo do ranking formado por documentos onde a frase está presente (com ou sem ranking) segundo grupo de documentos com todas as palavras da consulta (com ou sem ranking) terceiro grupo, para casamento parcial, um ranking baseado em tf.idf GSI024-ORI Pg:6. 22

Eficiência no cálculo do coseno O problema: encontrar os k topdocs É possível obter os k topdocs sem calcular todos os cosenos? Índices são projetados para obter esse conjunto em consultas pequenas (poucos termos) GSI024-ORI Pg:6. 23

Cálculo eficiente do coseno Armazene tf i,j para todo documento d j na lista invertida do termo k i Opcionalmente, armazena-se pesos baseados em tf.idf para obter o so- No processamento da consulta use acumuladores A j matório acumuladores para todo documento que possua pelo menos um termo da consulta pode ser inviável se a consulta possui termos muito frequentes GSI024-ORI Pg:6. 24

Lista invertida com freqüencias tf t,j foi adicionado à lista código unário ou γ podem ser usados em geral são valores pequenos GSI024-ORI Pg:6. 25

Obtendo os k topdocs Uso de seleção baseada em heap heap: árvore binária onde o nó tem similaridade maior que de seus decendentes GSI024-ORI Pg:6. 26

Obtendo os k topdocs Uso de seleção baseada em heap construído em 2n operações (O(n)) seleção do topo é O(1) seleção dos k = log n top em 2 log n para n = 1M e k = 100 custo de construção e seleção 10% do sorting GSI024-ORI Pg:6. 27

Gargalo Necessidade de calcular todos os cosenos Considerar apenas documentos com coseno diferente de zero Obter lista de documentos da união das listas dos termos da consulta Tentar inicialmente consulta conjuntiva (intersecção das listas-google) Se intesecção das listas dos x termos da consulta é vazia, tente conjunções de (x 1) termos GSI024-ORI Pg:6. 28

Limitando os acumuladores Ecolhendo os melhores Obtenha o topo da lista de cada termo Calcule a união dos topdocs de cada termo Calcule o coseno para os documentos na união Obtenha os topdocs baseado no coseno GSI024-ORI Pg:6. 29

Ordenando a lista invertida por tf i,j Idéia: obter documentos com altos valores de wf i,j Ordenar listas invertidas por wf i,j Obter termos por ordem de idf Obter blocos de documentos para cada termo Obter novos blocos até completar o número suficiente de acumuladores Anh et al. 2001 GSI024-ORI Pg:6. 30

Poda por agrupamentos pré-processados. Obtenha aleatoriamente n documentos chamados ĺıderes Para cada documento assinale os documentos mais próximos, chamados seguidores Provavelmente cada ĺıder terá n seguidores Obtenha o ĺıder mais próximo da consulta Obtenha os k topdocs da consulta baeado na similaridade com os seguidores de L GSI024-ORI Pg:6. 31

Visualização - Poda por agrupamentos pré-processados. GSI024-ORI Pg:6. 32

Variações - Poda por agrupamentos pré-processados. Associe cada seguidor a três ĺıderes Obtenha os quatro ĺıderes mais próximos à consulta GSI024-ORI Pg:6. 33

Redução de Dimensionalidade Reduzir dimensões preservando distâncias Melhoraria cálculo do coseno Dois métodos Projeção aleatória Latent Semantic Indexing (LSI) GSI024-ORI Pg:6. 34

Projeção aleatória em k << m eixos Escolha aleatoriamente uma dimensão x 1 Para i = 2 to k Escolha aleatoriamente uma dimensão x i ortogonal a x 1,, x i 1 Projete cada vetor de documentos no subespaço formado por {x 1, x 2,, x k } GSI024-ORI Pg:6. 35

Reduzindo de 3 para 2 dimensões GSI024-ORI Pg:6. 36

Garantias Alta probabilidade de que as distâncias relativas sejam mantidas Teoria nas referências GSI024-ORI Pg:6. 37

Calculando uma projeção Projeção de n vetores de m dimensões em k dimensões: inicie com a matriz A m n de termos e documentos obtenha a matriz R k m, uma projeçõ ortogonal de A calcule W = R A a coluna j th da matriz W é o documento d j em k dimensões GSI024-ORI Pg:6. 38

Custo computacional Total de k m n multiplicações Existem técnicas de otimização (vide referências) Vantagem: a redução dimensional é pré-processada O cálculo do coseno em k << m dimensões é mais rápido GSI024-ORI Pg:6. 39

Redução baseada em LSI Redução dependente dos dados Elimina eixos redundantes Colapsa eixos relacionados, por exemplo, car, automobile Capítulo 18 e/ou seminários GSI024-ORI Pg:6. 40

Referências IIR 7; MIR 2.5 e 2.7.2; MG 4 Ranking with Effective Early Termination, Proc. 24th Annual International ACM SIGIR Conference, 35-42. Anh, V.N. and A. Moffat. 2006. Pruned query evaluation using precomputed impacts. SIGIR 2006, 372-379. Random projection theorem, Dasgupta and Gupta. An elementary proof of the Johnson-Lindenstrauss Lemma (1999). Faster random projection - A.M. Frieze, R. Kannan, S. Vempala. Fast Monte-Carlo Algorithms for finding low-rank approximations. Symposium on Foundations of Computer Science, 1998. IEEE GSI024-ORI Pg:6. 41