Modelo Booleano Wendel Melo

Documentos relacionados
Modelo Booleano Wendel Melo

Indexação e Modelos Clássicos

Modelo Probabilístico

Ponderação de termos

Avaliação da Recuperação

Segundo trabalho de Organização e Recuperação da Informação

Profª Ana Lúcia Lima Marreiros Maia Profª Fabiana Cristina Bertoni

Organização e Recuperação da Informação

Primeiro trabalho de Organização e Recuperação da Informação

Segundo trabalho de Organização e Recuperação da Informação FACOM- UFU Professor: Wendel Melo

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

Realimentação de Relevância


Lógica para Computação

4. Algoritmos de Busca em Vetores

Unidade IV. Unidade III. Na álgebra booleana, estão todos os fundamentos da eletrônica digital.

CINEMAN.ULTRA. Manual de usuário

Lógica para computação - Propriedades Semânticas da Lógica Proposicional (parte 2/2) Alfabeto Simplificado e Formas Normais

Lógica para Computação. Álgebra de Boole

Relações semânticas entre os conectivos da Lógica Proposicional(Capítulo 5)

Recuperação de Informações

4 Recuperação de Informação

3 Satisfação de Restrições

23/05/12. Agenda. Introdução. Introdução. Introdução. Álgebra. Relacional. Cálculo. Relacional

Desenvolvimento de um Web Crawler para indexação de documentos científicos

Recuperação de Informações por Álgebra Linear Computacional

Recuperação de Dado X Informação. Gerenciamento de Dados e Informação. Histórico. Recuperação de Informação. Histórico. Histórico

Classificação Externa: Intercalação de Partições Classificadas

Conteúdo da Apresentação

3. CAPÍTULO LÓGICAS DIGITAIS

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

Recuperação de Informação

Avaliação de Monografias - MAC0499

Lógica Computacional

Prof. Leandro Tonietto Introdução a computação e suas aplicações Curso de Segurança da Informação UNISINOS jun-09

3 Recuperação de Informações Textuais

LÍNGUA NATURAL RECUPERAÇÃO DE INFORMAÇÃO (INFORMATION RETRIEVAL) Nuno Mamede N E C E S S I D A D E

Linguagens Documentárias. Profa. Lillian Alvares Faculdade de Ciência da Informação, Universidade de Brasília

Classificação Externa: Intercalação de Partições Classificadas

Engenharia de Software

Aula 3 Bytes e Bits. DIM0103 Introdução à Informática. Profº Pedro Alexandre

LABORATÓRIO DE CIRCUITOS DIGITAIS. PREPARAÇÃO 04: Circuitos Combinacionais Decodificadores

Restrições do modelo relacional

Introdução à Programação I

Linguagens de Programação

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

LÓGICA APLICADA A COMPUTAÇÃO

UNIDADE ACADÊMICA: Faculdade de

Capítulo 7. Expressões e Sentenças de Atribuição

INSTITUTO FEDERAL CATARINENSE Campus Ibirama

Segunda prova de Álgebra Linear Aplicada - 20/02/2013 Prof. Juliana Coelho - 07h00-09h00

ORDENAÇÃO EXTERNA DE ARQUIVOS: GERAÇÃO DE PARTIÇÕES CLASSIFICADAS. Vanessa Braganholo Estruturas de Dados e Seus Algoritmos

Arquivos Seqüenciais: Intercalação

Lógica Computacional

Como primeira e indispensável parte da Lógica Matemática temos o Cálculo Proporcional ou Cálculo Sentencial ou ainda Cálculo das Sentenças.

Modelo Espaço Vetorial. Mariella Berger

Conceitos Básicos Sistemas de banco de dados; Sistemas de gerência de banco de dados.

Capítulo 3. Álgebra de Bool

Introdução a Sistemas Gerenciadores de Banco de Dados

a determinadas condições de uso. Este mecanismo permite, ainda, a integração de domínios externos. A descrição da interface é feita de forma

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

Modelagem de Dados MODELAGEM DE DADOS. Sistemas de Banco de Dados. Profa. Rosemary Melo

TGR BCC Representação Computacional de Grafos. Prof. Ricardo José Pfitscher

Algoritmos e Estruturas de Dados. Prof. Marcelo Zorzan Profa. Melissa Zanatta

Pré-Processamento de Documentos

aula 01 (Lógica) Ementa Professor: Renê Furtado Felix Site:

Algoritmos Fundamento e Prática

Aula 2 BD Introdução. Profa. Elaine Faria UFU

PORTAS E OPERAÇÕES LÓGICAS

Dicionários. Prof. César Melo

Aula 2 Abordagem Entidade-Relacionamento Cleverton Hentz

BUSCA EM ARRAYS. Prof. André Backes. Ato de procurar por um elemento em um conjunto de dados

Ambiente de Data Warehouse Para Imagens Médicas Baseado Em Similaridade

Um estudo sobre diferentes modelos de Recuperação de Informação em documentos semi-estruturados (XML) -

Organização de Computadores

Reconhecimento das cores do MSX por Lógica Fuzzy

Gemini Vetrô. Fogão portátil. Descrições

RESOLVENDO O PROBLEMA PSAT COM O AUXÍLIO DA FERRAMENTA DE SOFTWARE LIVRE MINISAT. Aluno: Mikail Campos Freitas Orientador: Prof.

Aula 8 BD1 Álgebra Relacional. Profa. Elaine Faria UFU

DESENVOLVIMENTO DE UM CLASSIFICADOR AUTOMÁTICO DE DOCUMENTOS UTILIZANDO O MODELO VETORIAL

Álgebra Linear - 2 a lista de exercícios Prof. - Juliana Coelho

Tipos Algébricos. Programação Funcional. Capítulo 11. José Romildo Malaquias Departamento de Computação Universidade Federal de Ouro Preto

PROJETO DE BANCO DE DADOS -PROJETO CONCEITUAL. Prof. Angelo Augusto Frozza, M.Sc.

DCC011 Introdução a Banco de Dados. Construindo o Esquema. 1. Propriedades de Modelos ER. Construindo Esquema Conceitual

3.4 Álgebra booleana, ordens parciais e reticulados

Medidas de Avaliação

INTRODUÇÃO AO AMBIENTE DE PROGRAMAÇÃO MATLAB

Sistemas Digitais Universidade Católica do Salvador Professor Marco Antônio C. Câmara. Aula 03 Simplificação de Expressões Lógicas.

Aprendizado de Máquina

Eletrônica Digital. Funções lógicas, álgebra de boole e circuitos lógicos combinacionais básicos. Professor: Francisco Ary

ab c x x 1

CAPÍTULO 4 - OPERADORES E EXPRESSÕES

UNIVERSIDADE METODISTA DE PIRACICABA RECUPERAÇÃO DE DOCUMENTOS TEXTO USANDO UM MODELO PROBABILÍSTICO ESTENDIDO

Aplicação de uma Técnica Tradicional de Expansão de Consulta ao Modelo TR+

Douglas Matheus de Souza Prof. Marcel Hugo, Mestre - Orientador

Sistemas Digitais Módulo 2 Representações com Sinal e Aritmética Digital

Paradigmas de Linguagem de. Programação Profª. Roberta B Tôrres de programação referem-se a:

JavaScript (Elementos de Programação e Programação Básica)

1 TECNOLOGIA ELEMENTAR CAPÍTULO 3 E-books PCNA. Vol. 1 TECNOLOGIA ELEMENTAR CAPÍTULO 3 APRESENTANDO A LINGUAGEM C. Página 1

Transcrição:

Wendel Melo Faculdade de Computação Universidade Federal de Uberlândia Recuperação da Informação Adaptado do Material da Profª Vanessa Braganholo - IC/UFF

Modelo simples; Baseado em teoria dos conjuntos e álgebra booleana; Documentos e consultas são representados como vetores binários; Consultas são especificadas como expressões booleanas 2

Cada documento é representado logicamente por um vetor de pesos binários ; Seja w ij o peso do termo k i no documento d j. Assim: w ij = 1, se k i aparece em d j, 0, caso contrário Desse modo, o número de componentes do vetor de pesos é dado pelo número de termos do vocabulário da base. 3

Exemplo D1 D2 A casa de campo é linda, azul e amarela. O Carro azul é de Marcelo. Índice terá os seguintes termos (supondo eliminação de termos irrelevantes): casa campo é linda azul amarela carro Marcelo 4

Exemplo D1 D2 A casa de campo é linda, azul e amarela. O Carro azul é de Marcelo. Índice terá os seguintes termos (supondo eliminação de stopwords): casa campo é linda azul amarela carro Marcelo Cada documento será modelado como um vetor de pesos: D1 = (1,1,1,1,1,1,0,0) D2 = (0,0,1,0,1,0,1,1) 5

Considerando uma consulta q: q = ka (kb kb kc)) 6

Considerando uma consulta q: q = ka (kb kb kc)) Como um documento pode satisfazer a esta consulta? Se ka, kb e kc estiverem presentes, OU Se ka e kb estiverem presentes, OU Se ka estiver presente e kc não estiver presente 7

Considerando uma consulta q: q = ka (kb kb kc)) Como um documento pode satisfazer a esta consulta? Se ka, kb e kc estiverem presentes (1,1,1), OU Se ka e kb estiverem presentes (1,1,0), OU Se ka estiver presente e kc não estiver presente (1,0,0) 8

(1,1,0) (1,0,0) q = ka (kb kb kc)) (1,1,1) ka kb Esta consulta pode ser representada na forma normal disjuntiva, da seguinte forma: kc q = (1,1,1) (1,1,0) (1,0,0) 9

Para que um documento seja classificado como relevante, basta que seu vetor de pesos case com alguma das disjunções da FND da consulta. Não há ranqueamento entre os documentos. Cada documento é apenas classificado como relevante ou não relevante. 10

Exemplo D1 D2 A casa de campo é linda, azul e amarela. O Carro azul é de Marcelo. D1 = (1,1,1,1,1,1,0,0) D2 = (0,0,1,0,1,0,1,1) Índice: casa campo é linda azul amarela carro Marcelo Q = azul 11

Exemplo D1 D2 A casa de campo é linda, azul e amarela. O Carro azul é de Marcelo. D1 = (1,1,1,1,1,1,0,0) D2 = (0,0,1,0,1,0,1,1) Índice: casa campo é linda azul amarela carro Marcelo Q = azul (1) D1 = (1) D2 = (1) 12

Exemplo D1 D2 A casa de campo é linda, azul e amarela. O Carro azul é de Marcelo. D1 = (1,1,1,1,1,1,0,0) D2 = (0,0,1,0,1,0,1,1) Índice: casa campo é linda azul amarela carro Marcelo Q = azul (1) D1 = (1) D2 = (1) Resposta: D1 e D2 13

Exemplo D1 D2 A casa de campo é linda, azul e amarela. O Carro azul é de Marcelo. D1 = (1,1,1,1,1,1,0,0) D2 = (0,0,1,0,1,0,1,1) Índice: casa campo é linda azul amarela carro Marcelo Q = azul amarela 14

Exemplo D1 D2 A casa de campo é linda, azul e amarela. O Carro azul é de Marcelo. D1 = (1,1,1,1,1,1,0,0) D2 = (0,0,1,0,1,0,1,1) Índice: casa campo é linda azul amarela carro Marcelo Q = azul amarela (1,1) D1 = (1,1) D2 = (1,0) 15

Exemplo D1 D2 A casa de campo é linda, azul e amarela. O Carro azul é de Marcelo. D1 = (1,1,1,1,1,1,0,0) D2 = (0,0,1,0,1,0,1,1) Índice: casa campo é linda azul amarela carro Marcelo Q = azul amarela (1,1) D1 = (1,1) D2 = (1,0) Resposta: D1 16

Vantagens do Fácil compreensão e implementação; Semântica precisa: resultados previsíveis Suporte nativo ao operador NOT: Muitas vezes, sistemas de RI baseados em outros modelos implementam a operação de MENOS em vez de NOT devido a dificuldade de fornecer suporte a esse operador. 17

Desvantagens do A semântica precisa faz com que o casamento entre documento e consulta precise ser exato para o documento ser considerado relevante; Isto torna este modelo mais próximo a recuperação de dados que recuperação de informação. O critério binário de decisão pode implicar em qualidade ruim para a recuperação: Se uma consulta exigir a presença de 10 termos, e um documento d contiver apenas 9, a simples falta de um fará com que ele não entre no resultado; Talvez d fosse considerado relevante pelo usuário, especialmente se não houver nenhum documento que case exatamente com a consulta. 18

Desvantagens do Usuários podem se confundir com uso de operadores lógicos; Consultas booleanas formuladas pelos usuários frequentemente são simplistas; Em consequência, a quantidade de resultados retornado pode ser muito pequena ou muito grande; A falta de ranqueamento torna o modelo não prático; 19