Organização e Recuperação da Informação

Documentos relacionados
Indexação e Modelos Clássicos

Avaliação da Recuperação

Modelo Booleano Wendel Melo

Realimentação de Relevância

Modelo Booleano Wendel Melo

Avaliação de Monografias - MAC0499

POLÍTICA DE COOKIES. Copyright Intertradec. Todos os direitos reservados. Para mais infos. acesse:

Ponderação de termos

Prof. Daniel Hasse. Multimídia e Hipermídia

Treinamento SEO. Dicas para aumentar as vendas e proporcionar uma boa experiência de compra para o consumidor.

Guião de pesquisa de informação

PROPOSTA COMERCIAL. Marketing digital PARA VOCÊ MAIS MARKETING PARA EMPRESAS MAIS VENDAS

Como... Como... Como... Pesquisar artigos científicos. Pesquisar dissertações e teses. Localizar periódicos

Guia de Consulta Rápida

INTRODUÇÃO: INTERAÇÃO HUMANO- COMPUTADOR. Aula 5

O Impacto da Internet na Disseminação da Informação Científica e na Potencialização da Inovação Tecnológica no Brasil

Lógica, Informática e Comunicação

Sistema Gestor de Bancos de Dados (SGBD)

PROTÓTIPO DE UM SISTEMA DE SERVIÇOS WAP PARA A BIBLIOTECA CENTRAL DA FURB

Apresentação da matéria. Ing. Yamila Díaz Suárez

Profª Ana Lúcia Lima Marreiros Maia Profª Fabiana Cristina Bertoni

Desenvolvedor Android: Avançado. Plano de Estudo

5 Infraestrutura de TI

Introdução a Sistemas Gerenciadores de Banco de Dados

informação enviada (ex. Facebook) ou que a rede social utilize essa informação para sugerir locais de interesse próximos ao usuário (ex. Foursquare).

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

Modelo Probabilístico

Transformando ideias em negócios de sucesso...

A quantidade de informação existente no mundo é grande e cresce a uma taxa exponencial a cada ano. Aplicações como engenhos de busca web, por

BIBLIOTECA ANACOM MANUAL DO UTILIZADOR

Introdução à Ciência da Computação

Pesquisar Online. A Era da Informação 13/05/2010. Pesquisar na Web. Que Informação é Esta? Estratégias de pesquisa.

SISTEMAS OPERACIONAIS

Manual do usuário Dicionário Técnico Industrial

Sis i te t mas a O perac a i c o i nai a s um p ouco c d a a h is i tó t ria i. a... SO His i t s ó t r ó ic i o

Introdução ao Sistemas de Informação

Perguntas Sobre Max Cardoso

SERVIÇO PÚBLICO FEDERAL MINISTÉRIO DA EDUCAÇÃO INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DE MINAS GERAIS IFMG

O Jornal Montes Claros O poder do Pequeno

AGRUPAMENTO DE ESCOLAS À BEIRA DOURO ESCOLA BÁSICA E SECUNDÁRIA À BEIRA DOURO - MEDAS

SERVIÇO PÚBLICO FEDERAL MINISTÉRIO DA EDUCAÇÃO INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DE MINAS GERAIS IFMG

Técnicas de recuperação de informação: filtragem, agrupamento

SERVIÇO PÚBLICO FEDERAL MINISTÉRIO DA EDUCAÇÃO INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DE MINAS GERAIS IFMG

OFICINA DE INCLUSÃO TECNOLÓGICA

Internet Explorer 8.0 Navegador (Browser)

Política de Cookies Para painéis e pesquisas

Manual de Uso e Serviços dos Recursos da Internet

Catálogo de Requisitos de Titulação. Habilitação: Ensino Medio - BNC / PD


SERVIÇO PÚBLICO FEDERAL MINISTÉRIO DA EDUCAÇÃO INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DE MINAS GERAIS IFMG

Design de sites web e software

SERVIÇO PÚBLICO FEDERAL MINISTÉRIO DA EDUCAÇÃO INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DE MINAS GERAIS IFMG

SERVIÇO PÚBLICO FEDERAL MINISTÉRIO DA EDUCAÇÃO INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DE MINAS GERAIS IFMG

SERVIÇO PÚBLICO FEDERAL MINISTÉRIO DA EDUCAÇÃO INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DE MINAS GERAIS IFMG

Introdução. Conceitos Básicos. Conceitos Básicos. Conceitos Básicos

3 Arquitetura do Sistema

Introdução a Ciência de Dados Com Linguagem R

SOBRE O ARTIGO SOBRE OS AUTORES

Pedro Paulo Balage Filho

serviço 52 Fotografe Melhor n o 263

Pesquisa em Sistemas Distribuídos

Introdução Geral a Computação Gráfica. Universidade Católica de Pelotas Curso de Engenharia da Computação Disciplina de Computação Gráfica

SmartNews: aliando tecnologia à informação 1

Uma ferramenta para Definição de Mapeamentos entre Vocabulários usados na publicação de Dados Linkados

Definição IHC. Disciplina ou campo de estudo interessada no design, implementação e avaliação de sistemas computacionais interativos para uso humano.

PESQUISA INTEGRADA SISTEMA DE PESQUISA INTEGRADA EBSCO DISCOVERY SERVICE MANUAL DO UTILIZADOR

BUSCALEGIS: UMA BIBLIOTECA JURÍDICA VIRTUAL. Aires J. Rover, Dr. Hélio Santiago Ramos Júnior RESUMO

população brasileira com perfis ativos nas redes sociais. (Fonte: Conversion (especializada em Search Engine Optmization)

Manual do Usuário do Integrador de Notícias de Governo

Questionário aos alunos

7 formas de monitorar veículos de comunicação. O clipping nas assessorias de imprensa

Questionário aos alunos

Formamos um grupo de empresas de soluções estratégicas de comunicação e tecnologia.

Abaixo você encontrará esses pequenos detalhes listados, e o porquê são crucias e extremamente potencializadores da imagem da empresa que os portam.

Sistemas Distribuídos

COMO DESENVOLVER UM SITE PARA EVENTOS COM

10 DICAS PARA UM WEBSITE DE SUCESSO O QUE VOCÊ PRECISA SABER PARA CONSTRUIR UM WEBSITE BEM SUCEDIDO!

PERCEPÇÕES E IMPRESSÕES DOS USUÁRIOS QUANTO A SEGURANÇA JURÍDICA DE SUAS COMPRAS NA INTERNET

APRESENTAÇÃO DO CURSO

Sistemas Distribuídos

Para onde vamos. Recuperação de Informação na WEB. Medidas de Avaliação. Recuperação de informação na WEB

Figura 4.2: Matriz Curricular

Introdução à Programação uma Abordagem Funcional

1 Introdução Motivação

Este guia tem a finalidade de orientar o usuário quanto ao uso do acervo, aos serviços prestados e regulamento da biblioteca.

Gerenciamento de conteúdo semântico ECI/UFMG. Eduardo Ribeiro Felipe.

Conheça 7 fatos que mostram a Transformação Digital como protagonista dos negócios em 2017

Tutorial de Acesso ao AVA - Ambiente Virtual de Aprendizagem e-learning Consinco. Agosto 2015, versão 1

Conceitos relativos a Banco de Dados & Modelos de Informação de Banco de Dados. Introdução

Aula 05. Infraestrutura de TI: hardware e software Pearson. Todos os direitos reservados.

Banco de Dados. Perspectiva Histórica dos Bancos de Dados. Prof. Walteno Martins Parreira Jr

Sistemas de PROFA. LILLIAN ALVARES FACULDADE DE CIÊNCIA DA INFORMAÇÃO

Seg, 20 de Abril de :01 - Última atualização Seg, 20 de Abril de :15

Vídeos educacionais indexados por Sintagmas Nominais permitindo a navegação no interior da mídia. Slide 1 de 23

Inovando o suporte em TI

Banco de Dados Data Mining Data Warehouse Big Data

BUSINESS INTELLIGENCE BI FERNANDO ESCOBAR, PMP, MSC.

Bancos de Dados Orientados a Grafos. Mateus Lana e Thiago Santana

A Sistemas Virtuais é uma empresa que nasceu com a proposta de atender, principalmente, micro, pequenas e média empresas, profissionais liberais nas

Ciências da Computação Disciplina:Computação Gráfica

Transcrição:

Organização e Recuperação da Informação Wendel Melo Faculdade de Computação Universidade Federal de Uberlândia Recuperação da Informação Adaptado do Material da Prof Vanessa Braganholo - IC/UFF

Recuperação de Informação Recuperação de Informação (RI) se remete a, dada uma base de documentos, ser capaz de apontar um subconjunto que atenda à necessidade de informação do usuário; Idealmente, os documentos devem ser apresentados segundo um ranking onde os supostamente mais relevantes vêm antes dos mais relevantes; Todavia, a relevância é um conceito subjetivo e pode depender de diversos fatores externos como localização, instante de tempo, dispositivo, preferências pessoais, nível de cultura, etc; 2

Recuperação de Dados Recuperação de Informação X Tarefas determinísticas e precisas; Respostas devem ser corretas; Sistemas não visam incorporar o significado do que está sendo buscado. Ex: Obter lista alunos de SI com CRA maior que 80; Busca por documentos com a palavra Brasil. Tarefas imprecisas; Pequenos erros são tolerados; Normalmente não há o conceito de resposta 100 % correta; Sistemas se preocupam com o significado do que está sendo buscado; Ex: busca por bons documentos sobre o Brasil. 3

Recuperação de Dados Recuperação de Informação X A informação pode estar bem estruturada como em banco de dados, o que permite mecanismos de recuperação elaborados como consultas SQL; Pode se mostrar limitada quando for preciso trazer informações sobre um determinado assunto. Frequentemente lida com textos em linguagem natural; Documentos da base costumam não ser bem estruturados e podem ser semanticamente ambíguos; Tem capacidade de organizar e consultar acervos de documentos. Em geral não há suporte para consultas bem elaboradas como em SQL. 4

Recuperação de Informação Exemplo de sistema de RI: buscador de internet. Base de documentos: conteúdo da WEB Uma busca por poesia de amor no Google retornou dezenas de milhões de resultados (já ranqueados) em menos de meio segundo! 5

Recuperação de Informação Nesse curso, estudaremos técnicas da área de recuperação da informação, que dão a base para que seja possível ter um sistema como o buscador Google em funcionamento; Veremos que área de RI é altamente empírica, o que abre espaço para criatividade de técnicos e acadêmicos; O sucesso de sistemas como Google se deve, em parte, a engenhosas ideias para melhorar eficiência e eficácia sobre uma base de dados gigantesca; Entretanto, muitos sistemas de RI podem ter uma base não tão grande para pesquisar. 6

Recuperação de Informação A base de documentos sobre a qual um sistema de RI atua depende do contexto e pode ser composta de: Livros; Páginas da internet; Documentos; Normas Imagens; Notícias Áudios; Registros em geral: Vídeos; Estruturados; Catálogos; Semiestruturados; Prontuários de pacientes; Não estruturados... 7

Visões de Recuperação de Informação A área de RI possui duas visões complementares: Centrada no computador: consiste principalmente na construção de estruturas de dados eficientes, no processamento de consultas com alto desempenho e desenvolvimento de bons modelos e algoritmos de ranqueamento. Centrada no usuário: engloba o estudo do comportamento do usuário, o entendimento de suas principais necessidades e como estas afetam a organização e a operação do sistema de recuperação. A visão centrada no computador é o foco da disciplina e historicamente tem recebido maior atenção (mas a atenção na visão centrada no usuário também vem crescendo). 8

Histórico da área de RI Os primeiros sistemas computacionais de RI surgiram para automatizar acesso a informação em bibliotecas na década de 1960; Até o início dos anos 1990, as aplicações principais da área ainda eram catálogos de bibliotecas, jornais, revistas e enciclopédias eletrônicas e bases de dados de empresa; Até então, RI era uma área periférica dentro da computação, contando com a atuação de poucos pesquisadores e técnicos. 9

Histórico da área de RI Os primeiros sistemas computacionais de RI surgiram para automatizar acesso a informação em bibliotecas na década de 1960; Até o início dos anos 1990, as aplicações principais da área ainda eram catálogos de bibliotecas, jornais, revistas e enciclopédias eletrônicas e bases de dados de empresa; Até então, RI era uma área periférica dentro da computação, contando com a atuação de poucos pesquisadores e técnicos. 10

Histórico da área de RI No final dos anos 90, uma mudança brusca trouxe RI para o primeiro plano: a popularização da WEB. Junto com a WEB, surgiram novos desafios, por exemplo: 1) Base de dados bastante distribuída: é preciso coletar os documentos para um repositório central; 2) Base de dados muito extensa: é fundamental um bom ranqueamento; 3) Grande número de usos simultâneos: problemas de escalabilidade e desempenho. 11

Tipos de problemas de RI Os principais tipos de problemas na área de RI são: Busca Filtragem Classificação 12

Tipos de problemas de RI Os principais tipos de problemas na área de RI são: Busca Filtragem Classificação 13

Busca Base de dados: documentos. Entrada: consultas dos usuários. Objetivo: retornar os documentos que melhor atendem às consultas. Usuários apresentam uma consulta e sistema busca respostas em uma base de dados pré-existente. Tipo mais comum 14

Sistemas de Busca - Funcionamento consultas Sistema de Busca respostas usuário Base de dados: documentos 15

Busca Ex: bibliotecas digitais, buscadores web, etc 16

Filtragem Base de dados: lista de interesses de cada usuário. Entrada: documentos. Objetivo: identificar os usuários que se interessam pelos documentos. Inverso do problema de busca; Aqui, os interesses do usuário estão pré-cadastrados e os documentos vão chegando ao sistema dinamicamente, que então identifica possíveis interessados nos documentos. 17

Sistemas de Filtragem Funcionamento usuário 1 Sistema de Filtragem usuário 2 documento Base de dados: interesses dos usuários usuário 3... usuário N 18

Filtragem www.topclip.com.br: sistema de monitoramento de mídias Usado em sites de notícias, controle de correspondência, sistemas de publicações, etc. www.researchgate.net: rede social para pesquisadores com sugestões de artigos, empregos e autores. 19

Classificação Base de dados: documentos e descrição de categorias de documentos. Objetivo: identificar os usuários que se interessam pelos documentos. Quando as categorias não são conhecidas, o problema é conhecido como problema de agrupamento (clustering) 20

Sistemas de Classificação Funcionamento Categoria 1 Base de dados: documentos Sistema de Classificação Informações sobre categorias Categoria 2... Categoria N 21

Classificação Ex: sistemas de monitoramento de lojas eletrônicas www.zoom.com.br 22

Recuperação de Informação O foco da disciplina são os sistemas de busca; Em alguns casos, sistemas podem mesclar diferentes problemas de RI; Quando o usuário fornece termos para uma pesquisa, dizemos que o mesmo está realizando uma busca; Quando o usuário clica em links para navegar em categorias, dizemos que está realizando uma navegação; Em alguns casos, sistemas de RI podem mesclar busca e navegação. 23