Indexação e Modelos Clássicos

Documentos relacionados
Modelo Booleano Wendel Melo

Modelo Booleano Wendel Melo

Ponderação de termos

Modelo Probabilístico

Organização e Recuperação da Informação

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

Realimentação de Relevância

4 Recuperação de Informação

Avaliação da Recuperação

Recuperação de Dado X Informação. Gerenciamento de Dados e Informação. Histórico. Recuperação de Informação. Histórico. Histórico

Profª Ana Lúcia Lima Marreiros Maia Profª Fabiana Cristina Bertoni

Recuperação de Informações

Segundo trabalho de Organização e Recuperação da Informação

Arquivos invertidos 39

Segundo trabalho de Organização e Recuperação da Informação FACOM- UFU Professor: Wendel Melo

3 Recuperação de Informações Textuais

Desenvolvimento de um Web Crawler para indexação de documentos científicos

Primeiro trabalho de Organização e Recuperação da Informação

Visualização de Texto e Documento

Um estudo sobre diferentes modelos de Recuperação de Informação em documentos semi-estruturados (XML) -

Linguagens Documentárias. Profa. Lillian Alvares Faculdade de Ciência da Informação, Universidade de Brasília

Pré-Processamento de Documentos

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

Universidade do Sul de Santa Catarina Ciência da Computação Aula 09 Introdução a Análise de Textos Prof. Max Pereira

Revisão. Meio ambiente da Recuperação de Informação. Linguagem Analógico x Digital

DESCOBERTA DO CONHECIMENTO COM O USO DE TEXT MINING APLICADA AO SAC TEXT MINING. Aluno José Lino Uber. Orientador Paulo Roberto Dias

Modelagem de dados usando MER. Andre Noel

Lista de exercícios 2 Recuperação de Informação Textual

GSI024 - Organização e Recuperação da

ANGELO ALFREDO SUCOLOTTI RECUPERAÇÃO DE INFORMAÇÃO EM BASES TEXTUAIS: UMA ABORDAGEM BASEADA EM LÓGICA PARACONSISTENTE

24/09/2014. Prof. André Backes

UNIVERSIDADE DO SUL DE SANTA CATARINA RODRIGO RAFAEL VARELA SISTEMA DE ARMAZENAMENTO, INDEXAÇÃO E RECUPERAÇÃO DE DOCUMENTOS DIGITAIS

Arquivos Seqüenciais: Intercalação

LÍNGUA NATURAL RECUPERAÇÃO DE INFORMAÇÃO (INFORMATION RETRIEVAL) Nuno Mamede N E C E S S I D A D E

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

Aplicação de uma Técnica Tradicional de Expansão de Consulta ao Modelo TR+

Este capítulo aborda os fundamentos principais aplicados neste trabalho.

1 OBJETIVOS 2 HORÁRIO DE AULAS 3 PROGRAMA

lnteligência Artificial Introdução a Lógica Nebulosa (Fuzzy)

Capítulo 3. Álgebra de Bool

Melhorando a Recuperação de Informação

Hashing Externo. SCC-503 Algoritmos e Estruturas de Dados II. Thiago A. S. Pardo M.C.F. de Oliveira Cristina Ciferri

Sistemas de Arquivos. (Aula 23)

MCZA Processamento de Linguagem Natural Introdução

Sistema de Banco de Dados. UNIDADE 1 Introdução aos Sistemas de Bancos de Dados Professor: Armando Hage

Consultas por Similaridade em Domínios de Dados Complexos

Vocabulário estruturado: DeCS. Descritores em Ciências da Saúde. Facilitador: Arão Nogueira de Araújo

META-MODELO FUNCIONAL PARA RECUPERAÇÃO DE INFORMAÇÃO

Hashing Organização Direta de Arquivos

Estrutura de Dados. Aleardo Manacero Jr.

2 Mineração de Textos: Fundamentos e Aplicações

SISTEMA PARA RECUPERAÇÃO DE INFORMAÇÃO DE DOWNLOADS DE SOFTWARES

Gerência do Sistema de Arquivos. Adão de Melo Neto

Os efeitos do paralelismo e relações de thesaurus em uma ferramenta de busca em bases textuais

Mecanismos de Interrupção e de Exceção, Barramento, Redes e Sistemas Distribuídos. Sistemas Operacionais, Sistemas

Máquinas de Busca. Estruturas de Dados II Prof. a Mariella Berger. 1. Objetivo

Sistemas de PROFA. LILLIAN ALVARES FACULDADE DE CIÊNCIA DA INFORMAÇÃO

Ambiente de Data Warehouse Para Imagens Médicas Baseado Em Similaridade

Gerência do Sistema de Arquivos. Adão de Melo Neto

Introdução a Sistemas Gerenciadores de Banco de Dados

MIDB-OP: um Modelo de Integração de Dados Biológicos apoiado em Ontologias e Procedência de dados Caroline Beatriz Perlin

UNIVERSIDADE METODISTA DE PIRACICABA RECUPERAÇÃO DE DOCUMENTOS TEXTO USANDO UM MODELO PROBABILÍSTICO ESTENDIDO

3. Modelação Evolução histórica

1 Introdução Motivação

Análise e projeto de sistemas

Gerência do Sistema de Arquivos. Adão de Melo Neto

Algoritmos e Estruturas de Dados I. Hash Table - Python. Prof. Tiago Eugenio de Melo

Lista de Exercícios Preparatórios para Prova de Introdução ao Geoproc SER-300, 2016

Sistemas de Banco de Dados

BIG DATA: UMA INTRODUÇÃO. Prof. Ronaldo R. Goldschmidt

Indexação automática. CBD/ECA Indexação: teoria e prática

a determinadas condições de uso. Este mecanismo permite, ainda, a integração de domínios externos. A descrição da interface é feita de forma

MODELAGEM DE DADOS UNIDADE 2 Projeto de Banco de Dados. Luiz Leão

ÁRVORE B+ Vanessa Braganholo Estruturas de Dados e Seus Algoritmos

Introdução. O que é um Banco de Dados (BD)?

Sistemas de Organização do Conhecimento

Mineração de Textos. Mineração de Textos

Categorização Automática de Textos Baseada em Mineração de Textos

PESQUISA EM INFORMÁTICA -COMO ESCREVER O TEXTO. Prof. Angelo Augusto Frozza, M.Sc.

Acesso Sequencial Indexado

Modelagem de Dados MODELAGEM DE DADOS. Sistemas de Banco de Dados. Profa. Rosemary Melo

Hashing: conceitos. Hashing

Arquitetura de um Ambiente de Data Warehousing

Uma linguagem de especificação formal simplificada

Modelo Relacional Wendel Melo

Sumário. Índices Ordenados: Nível Único. Índices Primários. Bancos de Dados Avançados Índices. Índices: Ordenados em nível único Multiníveis

Sistemas de Recomendação Uma abordagem geral

SUPREMO TRIBUNAL FEDERAL Secretaria de Tecnologia da Informação Coordenadoria de Sistemas BIBLIOTECA DIGITAL. Glossário

6 Conclusão Contribuições da Dissertação

Classificação Externa: Intercalação de Partições Classificadas

Capítulo 11 Sistemas de Arquivos

Tipos de Sistemas de Organização do Conhecimento

BUSCA EM ARRAYS. Prof. André Backes. Ato de procurar por um elemento em um conjunto de dados

Prof. Jorge Cavalcanti

Algoritmos e Estruturas de Dados II. Trabalho Prático 4

Universidade Estadual do Oeste do Parana - UNIOESTE Jhonata R.de Peder Marcelo Schuck

Automatização de um Método de Avaliação de Estruturas Retóricas

Leitura de Documentos. Priscila Engiel

Modelagem de Dados MODELAGEM DE DADOS. Sistemas de Banco de Dados. Profa. Rosemary Melo

Universidade Católica de Pelotas

Transcrição:

Wendel Melo Faculdade de Computação Universidade Federal de Uberlândia Recuperação da Informação Adaptado do Material da Profª Vanessa Braganholo - IC/UFF

Construção de um Sistema de Busca 1ª Etapa: Definir a base de documentos 2

Construção de um Sistema de Busca 1ª Etapa: Definir a base de documentos: Na maioria dos casos, a base é textual; Em muitos casos, pode ser necessário construir algum tipo de aplicação para coletar os documentos em repositórios ou na internet; Define-se o modelo de texto e quais elementos poderão ser recuperados: Palavras? Parágrafos? Páginas? Documento inteiro? Define-se as operações sobre a base, como remoção de palavras vazias (stopwords), extração de radicais, etc. 3

Construção de um Sistema de Busca 1ª Etapa: Definir a base de documentos 2ª Etapa: Indexação da base de documentos O Objetivo é permitir busca rápida sobre a base; Geralmente são utilizados índices invertidos; 4

Índice Invertido Objetivo: construir uma estrutura de dados que permita rapidamente saber quais documentos contém um determinado termo. 5

Índice Invertido Objetivo: construir uma estrutura de dados que permita rapidamente saber quais documentos contém um determinado termo. Lista-se todas as palavras distintas da base de dados (após operações como remoção de stopwords e extração de radicais); Para cada palavra da base, listamos os documentos em que a mesma aparece. Para cada documento D onde a palavra em questão aparece, registramos também a quantidade de vezes em que a palavra aparece em D 6

Índice Invertido - Exemplo D1 Quem casa, quer casa D2 Pau que nasce torto, cresce e morre torto. D3 Casa de homem ferreiro, espeto de pau. D4 Homem nasce, cresce, reproduz e morre. 7

Índice Invertido - Exemplo D1 Quem casa, quer casa D3 Casa de homem ferreiro, espeto de pau. D2 Pau que nasce torto, cresce e morre torto. D4 Homem nasce, cresce, reproduz e morre. Temos 4 documentos: D1, D2, D3 e D4 Desconsideramos as stopwords: de, e, que, quem Para simplificar, não extrairemos os radicais. 8

Índice Invertido - Exemplo D1 D2 Quem casa, quer casa Pau que nasce torto, cresce e morre torto. casa cresce espeto (D1,2) (D3,1) (D2,1) (D4,1) (D3,1) D3 Casa de homem ferreiro, espeto de pau. D4 Homem nasce, cresce, reproduz e morre. ferreiro homem morre nasce pau (D3,1) (D3,1) (D4,1) (D2,1) (D4,1) (D2,1) (D4,1) (D2,1) (D3,1) quer (D1,1) reproduz (D4,1) torto (D2,2) 9

Índice Invertido - Exemplo D1 D2 Quem casa, quer casa D3 Casa de homem ferreiro, espeto de pau. Pau que nasce torto, cresce e morre torto. D4 Homem nasce, cresce, reproduz e morre. O termo casa aparece no documento D1 duas vezes, e no documento D3 uma vez. casa cresce espeto ferreiro homem morre nasce pau quer reproduz torto (D1,2) (D3,1) (D2,1) (D4,1) (D3,1) (D3,1) (D3,1) (D4,1) (D2,1) (D4,1) (D2,1) (D4,1) (D2,1) (D3,1) (D1,1) (D4,1) (D2,2) 10

Índice Invertido Adicionalmente, o índice invertido pode também armazenar a posição em que os termos ocorrem nos arquivos. Localizar rapidamente um determinado termo no índice invertido é de suma importância, por essa razão, estruturas que permitem acesso rápido como tabelas hash (dicionários /mapas) e árvores são utilizadas. O conjunto de termos indexados é denominado vocabulário da base. 11

Construção de um Sistema de Busca 1ª Etapa: Definir a base de documentos 2ª Etapa: Indexação da base de documentos 3ª Etapa: Definição de um modelo para elaboração de consultas e para responder as mesmas O usuário poderá especificar uma consulta que será sintaticamente analisada e expandida com sinônimos e/ou termos relacionados aos termos da consulta; A partir do índice, obtém-se uma lista com um conjunto de documentos a serem recuperados; Em seguida, os documentos são ranqueados segundo sua suposta relevância para o usuário, e apresentados ao mesmo seguindo a ordem do ranking. 12

Modelos de RI Parte principal dos sistemas de RI; Determina como documentos, termos e consultas serão tratados afim de determinar relevância entre documentos e consultas e produzir ranqueamento; 13

Modelos de RI A definição formal de um modelo de RI envolve quatro elementos principais (D, Q, F, R(q i, d j )), onde: D: conjunto das representações dos documentos da base; Q: conjunto das representações das consultas; F: framework para a modelagem dos documentos, consultas e o relacionamento entre ambos; R(q i, d j ): função de ordenamento que associa a cada consulta q i, Q e a cada documento d j D, um grau de similaridade entre o documento e a consulta. 14

Modelos de RI Teoria dos Conjuntos Recuperação: Busca Filtragem Modelos Clássicos Booleano Vetorial Probabilístico Modelos Estruturados Non-Overlapping Lists Proximal Nodes Fuzzy Booleano Estendido Algébricos Vetorial Generalizado Índice Semântico Redes Neurais Probabilísticos Redes de Inferência Redes de Crença 15

Modelos de RI Teoria dos Conjuntos Recuperação: Busca Filtragem Modelos Clássicos Booleano Vetorial Probabilístico Modelos Estruturados Non-Overlapping Lists Proximal Nodes Fuzzy Booleano Estendido Algébricos Vetorial Generalizado Índice Semântico Redes Neurais Probabilísticos Redes de Inferência Redes de Crença 16

Modelos Clássicos de RI Foco da disciplina; São destinados a RI não estruturada; Três modelos fundamentais: Modelo Booleano Modelo Vetorial Modelo Probabilístico Variações dos 3 modelos clássicos surgiram adotando técnicas mais sofisticadas 17

Modelos Clássicos de RI Os modelos partem da ideia de atribuição de pesos aos termos que compõem os documentos; Os modelos booleano e probabilístico adotam pesos binários para indicar presença ou ausência de um termo; O modelo vetorial pode adotar esquemas de ponderação mais sofisticados, onde o peso de um termo em um documento pode ser proporcional à sua importância para descrever o documento e a raridade na base. 18