Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

Documentos relacionados
Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

Indexação e Modelos Clássicos

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

Hinos do Brasil VÁRIOS AUTORES. Hino Nacional. Música: Francisco Manuel da Silva (1795/1865) Letra: Joaquim Osório Duque Estrada (1870/1927)

PLANEJAMENTO ( MÚSICAS)

Exposição Bandeira Brasileira - Patriotismo Sex, 02 de Outubro de :00

Profª Ana Lúcia Lima Marreiros Maia Profª Fabiana Cristina Bertoni

QUÃO GRANDE É O MEU DEUS (Chris T./Jesse R.)

BRASIL, REPÚBLICA: SÍMBOLOS. PEDRO BRUNO. A Pátria, 1919, óleo/tela, Acervo Museu da República, Rio de Janeiro.

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

Realimentação de Relevância

Projeto Eleitor do Futuro - Tribunal Regional Eleitoral da Bahia

PÁTRIA. À pátria tudo se deve dar e nada pedir, nem mesmo compreensão. SIQUEIRA CAMPOS

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

Arquivos invertidos 39

HINO NACIONAL. O Pátria amada. O Pâtria amada. Es belo, és forte, impávido colosso, Es tu, Brasil, Idolatrada

Modelo Booleano Wendel Melo

RELAÇÃO DE ALUNOS. Disciplina: Turma: Nº NOME DO ALUNO F/2. SEDUC - Secretaria da Educação do Estado do Ceará

3 Recuperação de Informações Textuais

Organizaçãoe Recuperação de Informação GSI521. Prof. Rodrigo Sanches Miani FACOM/UFU

Compreendendo o Hino Nacional Brasileiro

Melhorando a Recuperação de Informação

Modelo Booleano Wendel Melo

4 Recuperação de Informação

Lista de exercícios 2 Recuperação de Informação Textual

Segundo trabalho de Organização e Recuperação da Informação

Modelo Probabilístico

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

Aplicação de uma Técnica Tradicional de Expansão de Consulta ao Modelo TR+

Universidade Federal da Paraíba CCEN Departamento de Informática Disciplina: Banco de Dados. Aula 1 Introdução a Banco de Dados

Avaliação da Recuperação

MATRIZES - PARTE Mais exemplos Multiplicação de duas matrizes AULA 26

Medidas de Avaliação

GSI024 - Organização e Recuperação da

Organização e Recuperação da Informação

UNIVERSIDADE METODISTA DE PIRACICABA RECUPERAÇÃO DE DOCUMENTOS TEXTO USANDO UM MODELO PROBABILÍSTICO ESTENDIDO

Nem todos os problemas algorítmicos que podem ser resolvidos em princípio podem ser resolvidos na prática: os recursos computacionais requeridos

Conjuntos Difusos. Sistemas de Informação/Ciências da Computação UNISUL Aran Bey Tcholakian Morales, Dr. Eng. (Apostila 7)

Recuperação de Dado X Informação. Gerenciamento de Dados e Informação. Histórico. Recuperação de Informação. Histórico. Histórico

AVALIAÇÃO 3º ANO O VENTO E O SOL

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

Desenvolvimento de um Web Crawler para indexação de documentos científicos

Recuperação de Informações

03/07/2017. Modelo de Recuperação de Informação

ANEXO IV MENSAGEM AO ALUNO E HISTÓRICO DE UTILIZAÇÃO DO LIVRO

GSI024 - Organização e Recuperação da

Representações de Números Inteiros: Sinal e Magnitude e Representação em Excesso de k

Recuperação de Informações por Álgebra Linear Computacional

Revisão. Meio ambiente da Recuperação de Informação. Linguagem Analógico x Digital

POLÍCIA MILITAR DO PARANÁ 4º COLÉGIO DA POLÍCIA MILITAR HINOS E CANÇÕES MILITARES. Maringá

01 - Quais as principais vantagens da utilização de um Sistema de Banco de Dados em relação aos sistemas tradicionais de gerenciamento de arquivos?

Universidade do Sul de Santa Catarina Ciência da Computação Aula 09 Introdução a Análise de Textos Prof. Max Pereira

Modelo Espaço Vetorial. Mariella Berger

Ponderação de termos

TRANSAMÉRICA ESPORTES

Eletrônica Digital. Funções lógicas, álgebra de boole e circuitos lógicos combinacionais básicos. Professor: Francisco Ary

Material Teórico - Módulo: Vetores em R 2 e R 3. Operações Envolvendo Vetores. Terceiro Ano - Médio

AULA 11 PROJETO E ANÁLISE DE ALGORITMOS. Conceitos básicos e representação de grafos Karina Valdivia Delgado

Cursos de Formação Inicial e Continuada

Fabrício Jailson Barth. Recuperação de documentos e pessoas em ambientes empresariais através de árvores de decisão

Organização e Recuperação da Informação

Hino Nacional. Hino Nacional Hino à Bandeira Hino da Independência Hino da Proclamação da República

Lógica Proposicional

META-MODELO FUNCIONAL PARA RECUPERAÇÃO DE INFORMAÇÃO

Estatística e Modelos Probabilísticos - COE241

Estatística e Modelos Probabilísticos - COE241

,,,,,,,, e são constantes com,,,, e, não todas nulas. Uma equação desse tipo é a equação de uma quádrica. Observe que a equação

Estatística e Modelos Probabilísticos - COE241

Mineração de Textos. Mineração de Textos

Índice Bitmap. Aluno: Carlos Henrique Villa Pinto Orientador: Ricardo Rodrigues Ciferri Colaboradora: Renata Miwa Tsuruda

Estatística e Modelos Probabilísticos - COE241

MATRIZES - PARTE Definição e Manipulação de Matrizes AULA 21

Prof. Leonardo Augusto Casillo

Circuitos Digitais. Conteúdo. Soma de Números Binários. Soma de Números Binários. Exemplos. Exemplos. Aritmética Binária

Outline. 2 Abordagem probabiĺıstica para ORI. 3 Teoria de probabilidades. 4 Princípio de ranking probabiĺıstico

Um estudo sobre diferentes modelos de Recuperação de Informação em documentos semi-estruturados (XML) -

BIG DATA: UMA INTRODUÇÃO. Prof. Ronaldo R. Goldschmidt

MCZA Processamento de Linguagem Natural Introdução

SISTEMA PARA RECUPERAÇÃO DE INFORMAÇÃO DE DOWNLOADS DE SOFTWARES

25/04/2017. Modelo de Recuperação de Informação

Álgebra Linear Semana 05

UNIVERSIDADE FEDERAL DE UBERLÂNDIA FACULDADE DE ENGENHARIA CIVIL COLEGIADO DO CURSO DE ENGENHARIA CIVIL PLANO DE CURSO

Linguagens Documentárias. Profa. Lillian Alvares Faculdade de Ciência da Informação, Universidade de Brasília

Sistemas de Organização do Conhecimento

MAT Resumo Teórico e Lista de

Regras de Feynman para uma teoria Bosônica em geral

Identificação de Pontos Perceptualmente Importantes (PIP) em séries temporais de tópicos extraídos de dados textuais

Esta disciplina auxilia em todas as outras áreas da Matemática. Isso porque veremos noções de lógica e de demonstrações matemáticas.

Dados Internacionais de Catalogação na Publicação (CIP)

Material Teórico - Sistemas Lineares e Geometria Anaĺıtica. Sistemas com três variáveis - Parte 1. Terceiro Ano do Ensino Médio

Lógica Computacional

Já falamos que, na Matemática, tudo se baseia em axiomas. Já estudamos os números inteiros partindo dos seus axiomas.

CONTEÚDOS. 1 O que é a Web of Science? 2 Registo 3 Pesquisa 4 Resultados de pesquisa 5 Personalizar

Álgebra Linear e Geometria Analítica Bacharelados e Engenharias Parte I - Matrizes

Aula 7: Representações de Números Inteiros: Sinal e Magnitude e Representação em Excesso de k

Estatística Aplicada I

Probabilidade - aula II

Segundo trabalho de Organização e Recuperação da Informação FACOM- UFU Professor: Wendel Melo

Lógica Computacional Aula 4

ORIENTAÇÕES DE RESPOSTA DAS ATIVIDADES FORMATIVAS 1

Transcrição:

Organizaçãoe Recuperaçãode Informação GSI521 Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

Modelosde RI e o ModeloBooleano Organização e Recuperação de Informação(GSI521)

Tópicos Modelagem em RI; Caracterização de um modelo de RI; Taxonomia de modelos de RI; Recuperação de informação clássica; Modelo booleano.

Breve resumo da aula anterior Organização e Recuperação de Informação(GSI521)

Aula anterior O objetivo da área de estudo conhecida como Recuperação de Informação é: Prover aos usuários o acesso fácil às informações de seu interesse A diferença entre os objetivos iniciais da área e como esses objetivos mudaram com o advento da Web; Breve histórico.

Aula anterior O problema de RI está ligado basicamente a: Como extrair as informações dos documentos? Como utilizar tais informações para decidir sobre a sua relevância? Sistema de RI pode ser dividido em seis módulos: 1) Obtenção e coleção de documentos; 2) Indexação dos documentos; 3) Consulta do usuário; 4) Recuperação de documentos; 5) Ranqueamento dos documentos; 6) Apresentação para o usuário.

Modelagem em RI Organização e Recuperação de Informação(GSI521)

Modelagem em RI Modelagem em RI é um processo complexo que tem o objetivo de produzir uma função de ranqueamento, ou seja, uma função que atribui valores a documentos em relação a uma consulta; Esse processo pode ser dividido em duas tarefas principais: A concepção de um sistema lógico para representar documentos e consultas; A definição de uma função de ranqueamento que computa o grau de similaridade de cada documento em relação à consulta dada.

Modelagem em RI Sistema lógico O sistema lógico é normalmente baseado em teoria de conjuntos, vetores ou em distribuições de probabilidade; Ele afeta diretamente o cálculo dos graus de cada documento que são utilizados para ordená-los em resposta à consulta dada.

Modelagem em RI Função de ranqueamento Um algoritmo de ranqueamento opera de acordo com premissas básicas a respeito da noção de relevância de um documento; Existe um grau de incerteza ou de imprecisão envolvido nesse processo, pois dois usuários podem discordar sobre o que é e o que não é relevante; Diferentes conjuntos de premissas produzem modelos de RI diferentes; O modelo de RI adotado determina as predições do que é e do que não é relevante (Exemplo: Google e Bing).

Caracterização de um modelo de RI Organização e Recuperação de Informação(GSI521)

Caracterização de um modelo de RI Um modelo de RI é uma quádrupla [D,Q,F,R(q i,d j )] onde: 1. D é um conjunto composto por visões lógicas (ou representações) dos documentos da coleção. 2. Q é um conjunto composto por visões lógicas (ou representações) das necessidades de informação dos usuários. Essas representações são chamadas de consultas. 3. F é um sistema lógico usado para modelar as representações dos documentos, das consultas e de seus relacionamentos, como conjuntos e relações Booleanas; 4. R(q i,d j ) é uma função de ranqueamento que associa um número real à representação de uma consulta q i Q e à representação de um documento d j D. Esse ranking define um ordenamento entre os documentos em relação à consulta q i.

Caracterização de um modelo de RI Função de ranqueamento

Caracterização de um modelo de RI - Exercício Dado um sistema de RI de busca de livros, como o sistema de bibliotecas da UFU. Quem são D,Q,F,R(q i,d j )??

Taxonomia de modelos de RI Organização e Recuperação de Informação(GSI521)

Caracterização de um modelo de RI - Exemplo Modelos de RI são fundamentalmente baseados em texto, isto é, eles usam o texto dos documentos para ranqueá-los em relação à consulta; Na Web, contudo, também é necessário utilizar a informação sobre a estrutura de links para alcançar um bom ranqueamento. Objetos multimídia (imagens e áudios) não são codificados da mesma forma que o texto e devem ser ranqueados de maneira diferente. Dadas essas características, distinguimos três categorias de modelos de RI: Baseadas em texto; Baseadas em links; Baseadas em objetos multimídia.

Taxonomia de modelos de RI

Recuperação de informação clássica Organização e Recuperação de Informação(GSI521)

Conceitos básicos Os modelos clássicos de RI consideram que cada documento é descrito por um conjunto de palavras-chave representativas, chamadas de termos de indexação: Um conjunto pré-selecionado de termos de indexação pode ser utilizado, por exemplo, para sumarizar o conteúdo dos documentos. Nesse caso, os termos são principalmente substantivos ou grupos de substantivos, uma vez que substantivos possuem significado próprio; Adjetivos, advérbios e conectores são menos úteis como termos de indexação, pois funcionam principalmente como complementos.

Conceitos básicos- Vocabulário Definição: Considere t como o número de termos de indexação na coleção de documentos e k i como um termo de indexação genérico. V = {k 1,..., k t } é o conjunto de todos os termos de indexação distintos na coleção e é comumente chamado de vocabulário V da coleção. O tamanho do vocabulário é t.

Conceitos básicos Representação de documento e consulta Definição: Considere V = {k 1, k 2,..., k t } como o vocabulário da coleção. Se três termos de indexação k l, k m e k n ocorrem em um mesmo documento d j, dizemos que o padrão [k l, k m, k n ] de coocorrência de termos foi observado. Cada um desses padrões de coocorrências de termos é chamado de componente conjuntivo de termo. Exemplo: o padrão (1,0,...,0) indica a presença do termo k 1. O padrão (1,1,...,1) indica a presença de todos os termos no referido documento.

Conceitos básicos Representação de documento e consulta Nesse caso, consultas e documentos são representados simplesmente pelos componentes conjuntivos de termo; Essa é a representação mais simples possível e é frequentemente conhecida como bag of words (saco de palavras).

Conceitos básicos Representação de documento Cada documento do conjunto pode ser representado por: 1) Um conjunto de termos indexados que melhor representem seus tópicos (existem diversas técnicas para construção desse conjunto) 2) Texto completo; 3) Texto completo + estrutura interna (capítulos, seções e etc).

Conceitos básicos Representação de documento

Conceitos básicos Matriz de termos e documentos Abordagem simples para quantificar a relação entre a ocorrência de termos em determinados documentos: Onde k n representa os termos de indexação, d n os documentos e f i,j a frequência do termo k i no documento d j.

Matriz de termos e documentos- Exercício Considere k1 = {as}, k2 = {um} e k3 = {ne}. Seja d1 = {primeira estrofe do hino nacional} e d2 = {segunda estrofe do hino nacional}. Monte a matriz de termos e documentos para esse sistema.

Matriz de termos e documentos- Exercício D1 = {Ouviram do Ipiranga as margens plácidas De um povo heroico o brado retumbante, E o sol da Liberdade, em raios fúlgidos, Brilhou no céu da Pátria nesse instante.} D2 = {Se o penhor dessa igualdade Conseguimos conquistar com braço forte, Em teu seio, ó Liberdade, Desafia o nosso peito a própria morte!}

Modelo booleano Organização e Recuperação de Informação(GSI521)

Modelo booleano Lembrando que para cada um dos modelos de RI (booleano, vetorial e probabilístico) que serão estudados, veremos o funcionamento dos seguintes processos de RI: 1) Obtenção e coleção de documentos; 2) Indexação dos documentos; 3) Consulta do usuário; 4) Recuperação de documentos; 5) Ranqueamento dos documentos; 6) Apresentação para o usuário.

Modelo booleano O modelo Booleano é um modelo de recuperac ão de informação simples baseado na teoria de conjuntos e na álgebra Booleana; Como consequência, o modelo é bastante intuitivo e possui uma semântica precisa; Pela sua inerente simplicidade e formalismo, o modelo Booleano recebeu uma atenção considerável no passado e foi adotado por muitos dos primeiros sistemas bibliográficos comerciais.

Modelo booleano O modelo Booleano considera que os termos de indexação estão presentes ou ausentes nos documentos, ou seja, as frequências na matriz de termos por documentos são todas binárias (0 ou 1); Uma consulta q em um modelo booleano é composta por termos de indexação ligados por três conectivos Booleanos: not, and e or. Uma consulta é essencialmente uma expressão Booleana convencional sobre termos de indexação.

Modelo booleano- Definição No modelo Booleano, uma consulta q é uma expressão Booleana convencional sobre termos de indexação. Considere c(q) como qualquer dos componentes conjuntivos da consulta. Dado um documento d j, sendo c(d j ) seu componente conjuntivo de documento correspondente, então a similaridade entre o documento e a consulta q é definida por Sem sim(d j, q) = 1, então d j é relevante a consulta q.

Modelo booleano- Relevância O modelo Booleano prevê que cada documento seja relevante ou não relevante; Não existe satisfação parcial das condições da consulta; Esse critério binário de decisão, sem nenhuma noção de grau, impede uma boa qualidade na recuperação de informação.

Modelo booleano- Exemplo Suponha que o vocabulário da coleção seja dado por V = {k a,k b,k c }. Seja dj um documento que contém os termos k a e k c. Ou seja, d j = {1,0,1}. Considere a consulta q = k a AND (k b OR NOT k c ). Pergunta 1: o documento d j satisfaz a consulta q? Pergunta 2: que documento satisfaz a consulta q?

Modelo booleano- Passos 1) Encontrar o vocabulário da coleção; 2) Representar os documentos usando os componentes conjuntivos de termo; 3) Representar as consultas usando a forma normal disjuntiva; 4) Comparar os documentos com as consultas.

Modelo booleano Exercício Considere três documentos D1, D2 e D3. D1 é a primeira estrofe do hino à bandeira, D2 é a primeira estrofe do hino da independência e D3 é a primeira estrofe do hino nacional. Considere somente os substantivos em cada documento. a) Encontre o vocabulário dessa coleção. b) Monte a matriz de termos e documentos. c) Encontre a similaridade entre os documentos e cada uma das consultas a seguir: q1 = {liberdade brasil}, q2 = {patria} e q3 = {nobre heroico}.

Modelo booleano Exercício D1 = {Salve, lindo pendão da esperança, Salve, símbolo augusto da paz! Tua nobre presença à lembrança A grandeza da Pátria nos traz. } D2 = {Já podeis, da Pátria filhos, Ver contente a mãe gentil; Já raiou a liberdade No horizonte do Brasil.} D3 = {Ouviram do Ipiranga as margens plácidas De um povo heroico o brado retumbante, E o sol da Liberdade, em raios fúlgidos, Brilhou no céu da Pátria nesse instante.}

Modelo booleano x Sistema de RI Consulta do usuário Uso de expressões booleanas; Recuperação de documentos Somente os documentos que satisfazem a consulta são recuperados; Ranqueamento dos documentos Impossível!

Modelo booleano Vantagens e desvantagens Vantagens Formalismo claro; Simplicidade; Fácil de implementar; Adoção de pesos binários para os termos de indexação. Desvantagens Impossibilidade de realizar ranqueamento dos documentos; Formulação de consultas booleanas pode ser incoveniente para os usuários.

Comentários Organização e Recuperação de Informação(GSI521)

No decorrer da aula vimos Modelagem de sistemas de RI passa pela criação de uma função de ranqueamento (probabilidade de relevância para o usuário); A caracterização formal de um sistema de RI passa pela definição de quatro elementos: D (documentos da coleção), Q (consultas), F (sistema lógico para modelar as representações dos documentos e consultas) e R (função de ranqueamento).

No decorrer da aula vimos Taxonomia de modelos de RI (texto, link, multimídia); Conceitos básicos da recuperação de informação clássica: Vocabulário; Componente conjuntivo; Matriz de termos e documentos. Modelo booleano Funcionamento; Vantagens e desvantagens.

Próximas aulas Melhoria do modelo booleano com o auxílio da ponderação de termos; Modelo vetorial; Modelo probabilístico.