Recuperação de informação na WEB

Documentos relacionados
Para onde vamos. Recuperação de Informação na WEB. Medidas de Avaliação. Recuperação de informação na WEB

Recuperar informação consiste em identificar, no conjunto de documentos de um sistema, quais atendem à necessidade de informação do usuário.

Revisão. Meio ambiente da Recuperação de Informação. Linguagem Analógico x Digital

1.1 META VEM DO PREFIXO GREGO E SIGNIFICA JUNTO A, DEPOIS DE, ENTRE, COM PREFIXO QUE INDICA ALGO QUE SE APLICA A SI MESMO

TUTORIAL DE USO DO SISTEMA PERGAMUM

ferramenta de busca integrada

Como publicar conteúdos na Web preserváveis para o futuro

Busca de informação na Internet

Tutorial de Pesquisa

Informática. Mecanismos de Busca. Professor Márcio Hunecke.

Sumário 1 APRESENTAÇÃO DO TUTORIAL DE NAVEGAÇÃO E PESQUISA COMO PESQUISAR? DICAS DE PESQUISA... 09

Informática para Concursos


MANUAL DE PESQUISA E RESERVA NO SISTEMA PERGAMUM CATÁLOGO DAS BIBLIOTECAS DO SISTEMA DE BIBLIOTECAS DA UFS - SIBIUFS

Tutorial Submissão de Artigos

Academic OneFile. A principal fonte de artigos revisados com texto completo

Informática. Buscadores. Professor Sérgio Spolador.

GARDOC-2013 Instituto Politécnico de Setúbal

SUPREMO TRIBUNAL FEDERAL Secretaria de Tecnologia da Informação Coordenadoria de Sistemas BIBLIOTECA DIGITAL. Glossário

EMBASE. RESPOSTAS BIOMÉDICAS.

1. ACESSANDO O SISTEMA

CATÁLOGO DE APLICAÇÕES Geração do Boleto na Web

Visor de Informações para o Sistema Único de Assistência Social VISUAS

Manual do Usuário do Integrador de Notícias de Governo

Universidade Federal do Rio Grande do Sul UFRGS Pró-reitoria de Pesquisa Seminário Temático Portal de Periódicos da Capes

Indexação. Profa. Lillian Alvares Faculdade de Ciência da Informação Universidade de Brasília

Manual do painel administrativo. Site Instituto de Oncologia do Vale IOV

A BIBLIOTECA DE BABEL

PORTAL CAPES. Josiane Gonçalves da Costa Bibliotecária / CBR-10/1544 Faculdade de Biblioteconomia e Comunicação

4 Recuperação de Informação

Pesquisa no Passado. Miguel Costa Engenheiro, Investigador, Aluno de Doutoramento

atos SEO agenciaatos.com.br

WordPress - Criação de Sites Carga horária: 40 horas

Tutorial Submissão de Artigos 2012

Planejamento da Elaboração de Índice

Sistema Objetivo de Ensino. Pedido Web. pedidoweb.objetivo.br

Indexadores: o que são e qual sua importância? UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL. Rejane Raffo Klaes

Cópia Controlada. Manual de Processos Portal de Cotações Online

Diagrama de Classes Módulo de Treinamento FIGURA 19: DIAGRAMA DE CLASSES DO MÓDULO DE TREINAMENTO

Exercicio EAD : Tema: Cadastro de Produtor/Propriedade/Talhões

SISTEMA DE BIBLIOTECAS DO IFRS. Manual do Usuário

SISTEMA DE BIBLIOTECAS DO IFRS. Manual do Usuário

Scopus e Web of Science

Manual de Usuário Solução para problemas no acesso ao SIGA?

Funções Escolhendo as bases de dados Aqui se escolhe quais das bases de dados serão usadas na busca.

5 Crawler Focado Definição

EBSCOhost

03/07/2017. Modelo de Recuperação de Informação

Manual do Software

1 Introdução Motivação

Bom dia! Seja bem vindo ao Treinamento. Fluxos de aprovação

CRA-CE. Manual Sistema de DISTRIBUIÇÃO. Versão 2.0

Sumário: Tipos de Metadados

SISTEMAS DE INFORMAÇÃO GERENCIAL. Introdução. Prof. Cássio Marques

Enriquecendo sua pesquisa com A ProQuest. Portal Periódicos CAPES 2017

Crawling. Marcelo K. Albertini. Faculdade de Computação, Universidade Federal de Uberlândia. Crawling 1 / 26

Conteúdo 1 Um crawler simples 2 Crawling 2 / 28

Luciana Danielli BIREME: centro latino-americano e do caribe de informação em ciências da saúde. convênio OPAS/MS/MEC 1967

CATÁLOGO DE CUSTOMIZAÇÕES Cotação de Compra WEB

Pesquisar Online. A Era da Informação 13/05/2010. Pesquisar na Web. Que Informação é Esta? Estratégias de pesquisa.

A Interação Humano-Computador

Portal de Serviços SEAD

Análise de Requisitos

Solicitação de Eventos Planejamento Replanejamento

PESQUISA INTEGRADA SISTEMA DE PESQUISA INTEGRADA EBSCO DISCOVERY SERVICE MANUAL DO UTILIZADOR

Introdução. Conceitos Básicos. Conceitos Básicos. Conceitos Básicos

CATÁLOGO DE APLICAÇÕES Cotação de Compra WEB

FONTES DE INFORMAÇÃO NA INTERNET

. Tutorial de Acesso.

MANUAL DE USUÁRIO. Versão 1.0 Servidor

Manual Cuidados Pela Vida Autorizador Integrado Versão

A competitividade no mercado de escolas de cursos livres impõe às empresas uma gestão ágil, eficiente e focada em resultados.

Crawling. Marcelo K. Albertini. Faculdade de Computação, Universidade Federal de Uberlândia. Crawling 1 / 26

Web Empresas. Agemed Saúde S/A. Versão 01

Layout de integração com webservices de clientes. Serviço de autenticação do cooperado

Mensagens instantâneas

Tutorial para uso rápido do aboard Editor

Aplicação de uma Técnica Tradicional de Expansão de Consulta ao Modelo TR+

CAEX Administração 1 Gestão de Ações de Extensão

Recuperação de Dado X Informação. Gerenciamento de Dados e Informação. Histórico. Recuperação de Informação. Histórico. Histórico

Elaboração de Provas Online usando o Formulário Google Docs

Resumo da Política de Privacidade. Política de privacidade completa

USO DO AMBIENTE VIRTUAL DE FORMAÇÃO ROTEIRO 02 INSCRIÇÃO NO AMBIENTE DAS TAREFAS PRÉVIAS

EndNote basic. Flávia Helena Cassin

AULA 2: Fontes de Informação

MANUAL DO ADMINISTRATOR

AUTOR. Tutorial para utilização da plataforma OJS 3.01 do Portal de Periódicos da UFT

TUTORIAL DO PORTAL DE BUSCA INTEGRADA

Figura 16 Niagara - Visão de grupos de notas.

Introdução. Este manual foi construído de maneira a orientar na utilização do sistema, demonstrando passo-a-passo todas as suas funcionalidades.

Manual de Utilização do Usuário Docente

Seu guia para obter o melhor da plataforma Emerald Insight

Gerenciadores de referências. Flávia Helena Cassin

Linguagens Documentárias. Profa. Lillian Alvares Faculdade de Ciência da Informação, Universidade de Brasília

Liberação de Atualização

SENAI ESCOLA. Gerenciador de conteúdo SENAI escolas. Documentação de especificação de gerenciamento de conteúdo para escolas SENAI.

Transcrição:

Recuperação de Informação na Sites de Busca (search engines/buscadores) Permitem ao usuário submeter sua expressão de busca e recuperar uma lista (geralmente ordenada) de endereços de páginas (URLs) que presumivelmente são relevantes para a sua necessidade de informação Maioria de uso geral Em um acervo extremamente grande como é a Web é essencial uma indexação antecipada de seus documentos (páginas). A maioria dos mecanismos de busca da Web gera índices. Pelo caráter dinâmico da Web esses índices devem permanecer em constante processo de atualização 1

Sites de busca Índexação Não Automática O autor fornece dados sobre sua página e associa a ela uma ou mais categorias que descrevem o assunto tratado na página Automática Spiders (robôs, crawlers ou worms) Partindo de uma lista inicial de URLs, rastreiam a estrutura hipertextual da, colhendo informações sobre as páginas que encontram; Idexam cada página utilizando métodos de indexação automática Indexação não-automática (manual) Indexadores profissionais especificam uma hierarquia de assuntos e indexam as páginas Web utilizando tais categorias. Uma URL submetida pode ser associada a uma categoria de qualquer nível. Por exemplo, ela pode ser ligada a uma categoria principal, Ciência, ou à subcategoria, Ciências Humanas, ou à subsubcategoria, Biblioteconomia e Ciência da Informação. A URL cadastrada é avaliada por profissionais, que podendo alterar os dados fornecidos pelo usuário. Caso um usuário não consiga encontrar uma categoria apropriada para descrever sua página, ele pode sugerir uma nova categoria. 2

Indexação automática A indexação automática é realizada através de duas etapas: Seleção de endereços (URLs) de páginas; Indexação das páginas, gerando para cada uma um conjunto de termos de indexação. Existem programas que viajam através da Web a fim de selecionar URLs de páginas de potencial interesse para que sejam indexadas. Utilizando a metáfora da Web, esses programas são chamados de spiders (aranhas) ou ainda robôs, crawlers ou worms. Partindo de uma lista inicial de URLs, esses robôs rastreiam a estrutura hipertextual da Web colhendo informação sobre as páginas que encontram. 3

Indexação automática: Estratégias breadth-first - visa maximizar a amplitude da pesquisa descendo apenas poucos níveis de cada site depth-first - visa maximizar a profundidade buscando um maior detalhamento do assunto tratado pelo site. Quando uma nova página é recuperada, o spider extrai todas as URLs dessa página e os adiciona na sua base de dados. Indexação automática Para aumentar a velocidade de cobertura da Web podem ser usados vários spiders trabalhando em paralelo, cada um cobrindo uma região ou um domínio diferente da Web e enviando suas URLs para a base de dados Depois de formado o banco de dados de URLs o robô poderá acessar cada página e indexá-la usando métodos de indexação automática. 4

Buscas Geralmente dois níveis de busca: básico e avançado Básico: Buscas booleanas utilizando os operadores AND, OR, NOT ou alguma outra forma; Avançado: Buscas por proximidade: NEAR, ADJ Buscas por tipo de mídia ou tipo de arquivo:.jpg,.mpeg,.gif, etc. 5

Meta-buscadores Realizam buscas utilizando diversos mecanismos de busca; A expressão de busca é traduzida e enviada para cada um dos mecanismos que o meta-buscador utiliza. Cada buscador retornará uma lista de URLs O meta-buscador agrega as listas em uma única lista, eliminando possíveis duplicações. 6

7

Interfaces http://digitalvaults.org/ 8

http://moebio.com/research/lifeuniverse/ 9