Recuperação de informação na WEB

Recuperação de Informação na Sites de Busca (search engines/buscadores) Permitem ao usuário submeter sua expressão de busca e recuperar uma lista (geralmente ordenada) de endereços de páginas (URLs) que presumivelmente são relevantes para a sua necessidade de informação Maioria de uso geral Em um acervo extremamente grande como é a Web é essencial uma indexação antecipada de seus documentos (páginas). A maioria dos mecanismos de busca da Web gera índices. Pelo caráter dinâmico da Web esses índices devem permanecer em constante processo de atualização 1

Sites de busca Índexação Não Automática O autor fornece dados sobre sua página e associa a ela uma ou mais categorias que descrevem o assunto tratado na página Automática Spiders (robôs, crawlers ou worms) Partindo de uma lista inicial de URLs, rastreiam a estrutura hipertextual da, colhendo informações sobre as páginas que encontram; Idexam cada página utilizando métodos de indexação automática Indexação não-automática (manual) Indexadores profissionais especificam uma hierarquia de assuntos e indexam as páginas Web utilizando tais categorias. Uma URL submetida pode ser associada a uma categoria de qualquer nível. Por exemplo, ela pode ser ligada a uma categoria principal, Ciência, ou à subcategoria, Ciências Humanas, ou à subsubcategoria, Biblioteconomia e Ciência da Informação. A URL cadastrada é avaliada por profissionais, que podendo alterar os dados fornecidos pelo usuário. Caso um usuário não consiga encontrar uma categoria apropriada para descrever sua página, ele pode sugerir uma nova categoria. 2

Indexação automática A indexação automática é realizada através de duas etapas: Seleção de endereços (URLs) de páginas; Indexação das páginas, gerando para cada uma um conjunto de termos de indexação. Existem programas que viajam através da Web a fim de selecionar URLs de páginas de potencial interesse para que sejam indexadas. Utilizando a metáfora da Web, esses programas são chamados de spiders (aranhas) ou ainda robôs, crawlers ou worms. Partindo de uma lista inicial de URLs, esses robôs rastreiam a estrutura hipertextual da Web colhendo informação sobre as páginas que encontram. 3

Indexação automática: Estratégias breadth-first - visa maximizar a amplitude da pesquisa descendo apenas poucos níveis de cada site depth-first - visa maximizar a profundidade buscando um maior detalhamento do assunto tratado pelo site. Quando uma nova página é recuperada, o spider extrai todas as URLs dessa página e os adiciona na sua base de dados. Indexação automática Para aumentar a velocidade de cobertura da Web podem ser usados vários spiders trabalhando em paralelo, cada um cobrindo uma região ou um domínio diferente da Web e enviando suas URLs para a base de dados Depois de formado o banco de dados de URLs o robô poderá acessar cada página e indexá-la usando métodos de indexação automática. 4

Buscas Geralmente dois níveis de busca: básico e avançado Básico: Buscas booleanas utilizando os operadores AND, OR, NOT ou alguma outra forma; Avançado: Buscas por proximidade: NEAR, ADJ Buscas por tipo de mídia ou tipo de arquivo:.jpg,.mpeg,.gif, etc. 5

Meta-buscadores Realizam buscas utilizando diversos mecanismos de busca; A expressão de busca é traduzida e enviada para cada um dos mecanismos que o meta-buscador utiliza. Cada buscador retornará uma lista de URLs O meta-buscador agrega as listas em uma única lista, eliminando possíveis duplicações. 6

Interfaces http://digitalvaults.org/ 8

http://moebio.com/research/lifeuniverse/ 9