ANÁLISE DOS SISTEMAS DE BUSCA NA WEB



Documentos relacionados
Usando Ferramentas de Busca

INSTRUMENTO NORMATIVO 004 IN004

SUMÁRIO Acesso ao sistema... 2 Atendente... 3

Ajuda ao SciEn-Produção O Artigo Científico da Pesquisa Experimental

02 - Usando o SiteMaster - Informações importantes

Manual SAGe Versão 1.2 (a partir da versão )

Construtor de sites SoftPixel GUIA RÁPIDO - 1 -

Manual AGENDA DE BACKUP

Manual do Publicador. Wordpress FATEA Sistema de Gerenciamento de Conteúdo Web

Manual do Visualizador NF e KEY BEST

Está apto a utilizar o sistema, o usuário que tenha conhecimentos básicos de informática e navegação na internet.

OCOMON PRIMEIROS PASSOS

Novell. Novell Teaming 1.0. novdocx (pt-br) 6 April 2007 EXPLORAR O PORTLET BEM-VINDO DESCUBRA SEU CAMINHO USANDO O NOVELL TEAMING NAVIGATOR

OBSERVATÓRIO DE GESTÃO DA INFORMAÇÃO. Palavras-chave: Gestão da Informação. Gestão do conhecimento. OGI. Google alertas. Biblioteconomia.

Banco de Dados Aula 1 Introdução a Banco de Dados Introdução Sistema Gerenciador de Banco de Dados

Manual do Painel Administrativo

Introdução ao EBSCOhost 2.0

CONSTRUÇÃO DE BLOG COM O BLOGGER

Metadados. 1. Introdução. 2. O que são Metadados? 3. O Valor dos Metadados

SUMÁRIO 1. AULA 6 ENDEREÇAMENTO IP:... 2

1. Introdução pág.3 2. Apresentação do sistema Joomla! pág.4 3. Acessando a administração do site pág.4 4. Artigos 4.1. Criando um Artigo 4.2.

Controle do Arquivo Técnico

Manual da Turma Virtual: MATERIAIS. Para acessar a turma virtual com o perfil Docente, siga o caminho indicado abaixo:

CONCEITOS INICIAIS. Agenda A diferença entre páginas Web, Home Page e apresentação Web;

Manual de Gerenciamento de Conteúdo

04/08/2012 MODELAGEM DE DADOS. PROF. RAFAEL DIAS RIBEIRO, MODELAGEM DE DADOS. Aula 1. Prof. Rafael Dias Ribeiro. M.Sc.

Manual Portal Ambipar

MANUAL PARA UTILIZAÇÃO DO MOODLE FACULDADE INTERAÇÃO AMERICANA VIRTUAL - Versão: Aluno

APRESENTAÇÃO. Sua melhor opção em desenvolvimento de sites! Mais de 200 clientes em todo o Brasil. Totalmente compatível com Mobile

ISO/IEC 12207: Gerência de Configuração

1. Quem somos nós? A AGI Soluções nasceu em Belo Horizonte (BH), com a simples missão de entregar serviços de TI de forma rápida e com alta qualidade.

Manual do usuário. v1.0

Gestão de Relacionamento com o Cliente CRM

EDITORA FERREIRA MP/RJ_EXERCÍCIOS 01

CAPÍTULO 2. Este capítulo tratará :

ROTEIRO PARA ELABORAÇÃO DE PROJETOS

Utilizando a ferramenta de criação de aulas

Ministério da Educação Secretaria de Educação Superior Diretoria de Políticas e Programas de Graduação. Sistema de Seleção Unificada - SISU

Tutorial WEB CONTENT MANAGEMENT [WCM] Obtenha benefícios a partir das aplicações customizadas da ADMT.

FATEC Cruzeiro José da Silva. Ferramenta CRM como estratégia de negócios

Após a confirmação de pagamento de sua inscrição para o congresso, você estará apto a entrar no sistema de submissão de trabalho.

Guia Básico de Utilização da Biblioteca Virtual da FAPESP. Thais Fernandes de Morais Fabiana Andrade Pereira

Programação Orientada a Objetos com PHP & MySQL Cookies e Sessões. Prof. MSc. Hugo Souza

Microsoft Access XP Módulo Um

Pag: 1/20. SGI Manual. Controle de Padrões

CAPÍTULO 3 - TIPOS DE DADOS E IDENTIFICADORES

MANUAL C R M ÍNDICE. Sobre o módulo de CRM Definindo a Campanha... 3

INTRODUÇÃO A PORTAIS CORPORATIVOS

QUALIDATA Soluções em Informática. Módulo CIEE com convênio empresas

ROTEIRO DE IMPLANTAÇÃO

Sistema de Gestão de Freqüência. Manual do Usuário

Processo de Controle das Reposições da loja

PERGUNTAS MAIS FREQUENTES 1. MEUS PEDIDOS

O SITE DA MINHA EMPRESA por Ivan F. Cesar

BEM-VINDO AO dhl PROVIEW

Manual de Utilização

Manual Geral do OASIS

Aplicação Prática de Lua para Web

ROTEIRO PARA TREINAMENTO DO SAGRES DIÁRIO Guia do Docente

O Acordo de Haia Relativo ao Registro. Internacional de Desenhos Industriais: Principais características e vantagens

Engenharia de Software III

Sumário. Apresentação O que é o Centro de Gerenciamento de Serviços (CGS) NTI? Terminologia Status do seu chamado Utilização do Portal Web

GUIA DE REDAÇÃO PARA TRABALHO DE EM974

ACOMPANHAMENTO GERENCIAL SANKHYA

VISUAL LIGHTBOX FERRAMENTA WEB DESIGN FABIANO KEIJI TAGUCHI

MULTIACERVO Implementações da versão 19 - Completa

MUDANÇAS NA ISO 9001: A VERSÃO 2015

Avanços na transparência

Novell Vibe 3.4. Novell. 1º de julho de Inicialização Rápida. Iniciando o Novell Vibe. Conhecendo a interface do Novell Vibe e seus recursos

PARANÁ GOVERNO DO ESTADO

Dadas a base e a altura de um triangulo, determinar sua área.

Procedimentos para Reinstalação do Sisloc

Manual de criação de envios no BTG360

AULA 3 FERRAMENTAS E APLICATIVOS DE NAVEGAÇÃO, DE CORREIO ELETRÔNICO, DE GRUPOS DE DISCUSSÃO, DE BUSCA E PESQUISA (PARTE II)

Manual AGENDA DE BACKUP

Ao redigir este pequeno guia pretendi ser conciso, indo directamente ao essencial.

10 DICAS DE TECNOLOGIA PARA AUMENTAR SUA PRODUTIVIDADE NO TRABALHO

Operações de Caixa. Versão 2.0. Manual destinado à implantadores, técnicos do suporte e usuários finais

Este documento tem o objetivo de esclarecer alguns procedimentos e definir parâmetros para facilitar o processo.

PORTAL DE COMPRAS SÃO JOSÉ DO RIO PRETO

Proposta Concessionária Terra Nova Land Rover

Proposta Revista MARES DE MINAS

Manual do Ambiente Moodle para Professores

1 INTRODUÇÃO Internet Engineering Task Force (IETF) Mobile IP

COMO COMEÇAR 2016 se organizando?

OI CONTA EMPRESA MANUAL DO USUÁRIO

Organizaçãoe Recuperação de Informação GSI521. Prof. Rodrigo Sanches Miani FACOM/UFU

Manual de Publicaça o no Blog da Aça o TRIBOS nas Trilhas da Cidadania

Introdução a listas - Windows SharePoint Services - Microsoft Office Online

TUTORIAL DO ALUNO. Olá, bem vindo à plataforma de cursos a distância da Uniapae!!!

1. 1. COMO ACESSAR O CURSO

Personalizações do mysuite

05/05/2015. Recuperação de Informação

Está apto a utilizar o sistema, o usuário que tenha conhecimentos básicos de informática e navegação na internet.

Tutorial Básico de Google Analytics

MANUAL DO USUÁRIO SORE Sistema Online de Reservas de Equipamento. Toledo PR. Versão Atualização 26/01/2009 Depto de TI - FASUL Página 1

CAPÍTULO 4. AG8 Informática

MRP II. Planejamento e Controle da Produção 3 professor Muris Lage Junior

Transcrição:

ANÁLISE DOS SISTEMAS DE BUSCA NA WEB GISELE VASCONCELOS DZIEKANIAK* RESUMO O estudo aborda o cenano informacional no qual a sociedade da informação está inserida, buscando exaltar a importância na classificação e recuperação da informação na Internet. Analisa as diferenças, bem como os pontos positivos e negativos das classes de sistemas de busca mais utilizados e conhecidos atualmente - motores de busca, diretórios e rnetaferramentas - e comenta brevemente as ferramentas híbridas, que mesclam características dos motores de busca e dos diretórios. Estas classificações baseiam-se na técnica de análise documental dos helps e revisão bibliográfica. Aponta os principais critérios de relevância utilizados por estes sistemas na indexação dos documentos para a inserção dos mesmos em suas bases de dados, evitando a recuperação do lixo informacional pelo usuário, no momento da consulta. Aborda a questão da multidisciplinaridade entre profissionais da informação envolvidos no processo de criação e avaliação dos sistemas de busca, a fim de que estes profissionais entrem em consenso acerca da criação e utilização destas novas tecnologias. PALAVRAS-CHAVE: Internet; sistemas de busca; motores de busca; diretórios; metaferramentas; web; ferramentas híbridas. 1 - INTRODUÇÃO Mais de 500 bilhões de páginas! Essa é a gama de documentos que compunha a Internet no final do ano 2000. Porém, um número exorbitante de informação já estava armazenado na rede em 1992, época em que surgiu o primeiro sistema de busca, com o objetivo de btimizar o processo de localização e recuperação dessa informação. Os primeiros sistemas surgiram na tentativa de pôr ordem ao caos instaurado anteriormente com a explosão documental, e um pouco mais tarde, com a Internet, servindo de repositório para o boom informacional devido à disseminação da informação através do suporte * Bacharel em Biblioteconomia pela FURG; Bibliotecária da UNIFRA; Mestranda em Engenharia de Produção, linha de pesquisa em Tecnologia da Informação, pela UFSM, Santa Maria, RS. Biblos. 14: 171-184,2002. 171

que se assemelhava aos OPACs 1 utilizados atualmente pelas bibliotecas. Há quase dez anos, a web já sofria do mal da desordem informacional e da dificuldade do pesquisador/estudante/leitor e dos profissionais envolvidos no processo de preparação, indexação, armazenamento e recuperação da informação, em gerenciar a informação. O novo milênio iniciou-se com propostas de novos sistemas de busca, como a disseminação das metaferramentas (que serão apresentadas mais adiante no item 2.3 e com a constatação de que ainda não se resolveu a problemática da busca e acesso à informação no ciberespaço, e de fatores como a dificuldade para manter atualizados seus catálogos (a Internet é muito dinâmica, sites e links novos estão sendo inseridos constantemente na rede), prejudicando a qualidade na disseminação da informação. Este trabalho busca analisar quais políticas de organização e principalmente de indexação de documentos/páginas devem ser tomadas, e o que já está sendo realizado para enfrentar tais dificuldades até mesmo em relação ao armazenamento dos documentos na "Digital order"de Levy (1995). Com base no conhecimento tácito, através de testes com consultas a sistemas de busca como o Cadê? e o Google, sabe-se que os sistemas existentes atualmente não satisfazem as principais necessidades dos seus usuários. Isto pode ocorrer por vários motivos: quer devido às falhas provenientes dos programas que ainda não utilizam a inteligência artificial a seu favor ou falhas na criação de algoritmos mais eficientes, quer porque os próprios sistemas de busca trouxeram consigo a problemática do congestionamento no tráfego de dados. Nos itens a seguir, serão abordados tipos de sistemas de busca existentes atualmente no universo virtual, bem como serão discutidas diferenças entre estes sistemas, suas especificidades e peculiaridades, critérios de relevância adotados para a formação/indexação de suas bases de dados, além de abordar a atual problemática enfrentada pelo profissional da informação envolvido no processo de gerenciamento da informação. 2 - SISTEMAS DE BUSCA Devido à grande quantidade de informações na Internet e dificuldades em acessá-ias, houve a necessidade do desenvolvimento de sistemas que, além de armazená-ias, fornecessem também o seu acesso através de buscas, como foi mencionado anteriormente. A estes sistemas dá-se o nome de sistemas de busca, ou mecanismos de busca, ou Buscadores, ou search engines, entre outras nomenclaturas. Porém, neste trabalho far-se-á referência a eles como sistemas de busca, por uma questão de padronização do termo, como também por ser uma das denominações mais utilizadas na literatura brasileira. Um sistema de busca, segundo Moura (2001), é um conjunto organizado constituído de computadores, índices, bases de dados e algo ritmos com o objetivo de analisar e indexar páginas da rede e armazená-ias em uma base de dados. O usuário faz uma Consulta e o sistema de busca pesquisa em sua base de dados, retornando ao usuário, através da interface web, os resultados recuperados na pesquisa. É interessante esclarecer que, ao realizar uma pesquisa, o usuário não está pesquisando dados diretamente na web, e sim em uma base de dados que armazena as cópias dos sites por ela indexados. Existem oficialmente três classes de sistemas de busca. São elas: motores de busca, diretórios e metaferramentas. Há uma quarta divisão, não tão consistente como as anteriormente citadas - as ferramentas híbridas - mas que não são consideradas como sistema de busca devido ao fato de serem uma mescla da utilização de diretórios e de motores de busca. Porém, como poderá ser visto no item 2.4, as ferramentas híbridas estão se revelando como a melhor forma de busca, uma vez que permitem ao usuário customizar e ajustar a sensibilidade e a qualidade da busca, dependendo da sintaxe adotada e da profundidade objetivada nos resultados de uma pesquisa via rede. 2.1 - Motores de busca Um motor de busca é um tipo específico de sistema de busca, assim como diretórios e metaferramentas. Surgiu após o sistema de busca por diretório, porém trouxe algumas vantagens, como a velocidade no rastreamento de novos sites a serem indexados em sua base de dados e a presença de programas criados para efetuar e otimizar estas inserções, os chamados robôs. Segundo a enciclopédia digital Webopedia (2000), motores de busca são Programas que pesquisam em documentos por palavras-chave especificadas e recuperam uma lista de documentos onde as palavraschave foram encontradas. OPAC: Online Public Access Cataloging, ou seja, Catálogo Online de Acesso Público. São os catálogos de bibliotecas disponíveis em rede, para consulta às suas bases de dados bibliográficos. 1 172 14: 171-184, 2002. 14:171-184, 2002. 173

[Este] (...) trabalha enviando um robô (spider') para buscar o maior volume de documentos possível. Outro programa, chamado indexador, lê esses documentos e cria um índice baseado nas palavras contidas em cada documento. Cada mecanismo de busca" usa um algoritmo próprio para criar seu índice de tal modo que, em condições ideais, só resultados significativos sejam recuperados para cada busca. Os motores de busca possuem três componentes principais. São eles: a) um programa de computador denominado robot, spider (aranha), crawler (rastejadores), wanderers (viajantes), knowbot, worm (verme), web-bot ou simplesmente robô, que percorre os sites ou páginas armazenadas na web e, ao chegar em cada site, cria uma cópia ou réplica do texto contida na página visitada e guarda essa cópia para si. Essa cópia ou réplica vai compor a sua base de dados. b) uma base de dados, constituída das cópias efetuadas pelo robô. Essa base de dados, às vezes também denominada índice ou catálogo, fica armazenada no computador, chamado servidor do mecanismo de busca. c) um programa de busca propriamente dito. Esse programa de busca é acionado cada vez que alguém realiza uma pesquisa. Nesse instante, o programa sai percorrendo a base de dados do motor de busca dos endereços - os URL3 - das páginas que contêm as palavras, expressões ou frases informadas na consulta. Em seguida, os endereços encontrados são apresentados ao usuário. Há bibliografias que abordam um quarto componente, que seria a interface. Preferiu-se neste trabalho não entrar no mérito da interface, uma vez entendido que todo sistema de busca trabalha via browser, e através da Internet, o que a priori identifica o cenário no qual os sistemas de busca estão inseridos. A outra maneira de o motor de busca encontrar os sites na web é o autor do site informar a este motor de busca qual o endereço, o URL, deste site. Todos os motores têm um quadro reservado para o cadastramento, submissão ou inscrição de novas páginas. É um hiperlink, que recebe diversas denominações conforme o sistema de busca. Buscou-se em Cendón (2001, p. 41) esclarecimento sobre as estratégias para inserção de documentos da web: Lê-se motor de busca ao invés de mecanismos de busca, pois trata-se de sistemas que utilizam robôs. 3 URL: Uniform Resource Locetot: é um endereço único na Internet, composto pelo nome do arquivo, diretório, nome do servidor e o método como ele será requisitado. 2 [...]Existem várias estratégias que os robôs podem utilizar para se locomoverem de um documento a outro, utilizando-se dos links existentes nas páginas da Web. Geralmente, eles iniciam a busca a partir de sites conhecidos, especialmente daqueles que possuem muitos links, recuperam a sua home page e, sistematicamente, seguem os links encontrados nesta página inicial. Usam algoritmos próprios para determinar que links devem seguir. Por exemplo, alguns recuperam os documentos da hierarquia superior de um grande número de servidores (abordagem breadth-first) [busca em largura], enquanto outros capturam todos os documentos em links de um mesmo servidor (abordagem depthfirst) [busca em profundidade]. 2.2 - Diretórios Para conceituar diretórios, não basta dizer que vêm a ser um tipo de sistema de busca no qual a indexação das páginas da web é realizada por pessoas, como informam muitos trabalhos presentes na literatura. Um diretório também precisa ser questionado quanto às suas metodologias de trabalho na recuperação, armazenagem e organização da informação. O mesmo apresenta dois componentes principais: a) uma base de dados, também chamada de índice ou catálogo; b) um programa de computador que faz a pesquisa na base de dados. A montagem ou criação da base de dados de um diretório é realizada por pessoas, que fazem a análise e a indexação dos sites da web. Nos diretórios, não existem robôs para a catalogação e a indexação dos documentos. Enquanto os motores de busca copiam todo o conteúdo das páginas que encontram pela frente e mantêm tudo isso em suas bases, os diretórios mantêm em suas bases de dados apenas um resumo do conteúdo dos sites por eles catalogados. Muitas vezes esse resumo, que fica na base de dados do diretório, contém apenas o título do site e mais duas ou três frases sobre o assunto nele contido. Esse resumo tanto pode ser elaborado pelo autor da página ou por quem a submete, como por um indexador, dependendo do diretório. O diretório tem a mesma finalidade dos motores de busca, ou seja, a indexação e a recuperação de páginas da web. Eles têm a mesma finalidade, porém existem duas diferenças fundamentais entre os diretórios e os mecanismos de busca. Umas das diferenças é no modo como o diretório encontra na web os sites a serem por ele indexados. Enquanto o programa robô do motor de busca toma, ou pode tomar, a iniciativa de sair "visitando" os 14: 171-184,2002. 174 14: 171-184, 2002. 175

sítes e suas páginas pela web, o diretório espera que o autor do síte e das páginas apresente-os a ele (demais diferenças serão abordadas no item 3). A seguir, tem-se o quadro explicativo do diretório demonstrando como é feito o cadastramento de um site. QUADRO 1 - Modo de cadastramento Cadê? de sites no Diretório Cadê. 1. Como é feito o cadastro dos sites pelo Cadê? O processo de construção do catálogo exige um grande esforço de qualidade e atenção, garantindo um serviço de qualidade aos usuários. A partir da solicitação de inclusão de um site por seu responsável, a nossa equipe editorial verifica: a. se o site realmente existe no endereço fornecido; b. se a descrição está de acordo com o conteúdo do site; c. se a descrição sugerida está coerente, objetiva e clara para os usuários e; d. a inclusão do site na categoria mais adequada do catálogo. Após estes 4 passos terem sido seguidos criteriosamente, o endereço é catalogado. São em média 5000 solicitações de inclusão por semana. O prazo para colocar seu site no ar é de aproximadamente 10 dias úteis, mas hoje, com investimentos feitos na nossa equipe editorial, esse prazo tem sido menor 2. Pedi a inclusão do meu site há bastante tempo, mas até agora, nada. O que houve? Os cadastros são revisados um a um por nossa equipe editorial para assegurar a qualidade do catálogo e com isso um site pode levar até 10 dias úteis para ser cadastrado. Caso esse prazo tenha expirado e seu site ainda não esteja cadastrado, mande um e-mail com as informações de sua inclusão. Verificaremos o que aconteceu e lhe daremos. FONTE: Site Cadê? URL: www.cadê.com.br 2.3 - Metaferramentas As metaferramentas são sistemas de busca que utilizam as bases de dados tanto dos motores de busca quanto dos diretórios para realizar uma pesquisa na web. As metaferramentas (também denominadas metamotores e multibuscadores) não possuem base de dados própria. Devido a isto, 176 14: 171 184, 2002. procuram em vários sistemas de busca ao mesmo tempo, sendo esta sua principal vantagem em relação aos motores de busca e aos diretórios. Este tipo de ferramenta é indicado quando não se encontram muitos resultados ao pesquisar em um só sistema. Pode também ser utilizado para verificar quais sistemas individuais trazem as melhores respostas e fornecer uma visão geral do que cada ferramenta contém sobre um tópico com fins de seleção de um sistema específico para uma busca mais expandida. Devido a esta peculiaridade, as metaferramentas são os sistemas, segundo predições de especialistas no assunto, que mais crescerão no cíberespaço, uma vez que poupam o tempo do pesquisador na busca pela informação e compilam resultados. É preciso não confundir uma metaferramenta com alguns sistemas existentes no ambiente web que perguntam ao usuário, no momento da consulta, em qual buscador ele deseja efetuar sua pesquisa. Estas são na verdade pseudometaferramentas, pois apenas disponibilizam uma interface onde vários sistemas são listados sem que exista um mecanismo de busca integrado. Sendo assim, há uma caixa para cada sistema, e as consultas são requisitadas e submetidas de forma separada umas das outras; uma vez escolhido um sistema para busca, esta opção exclui a busca nos demais sistemas. Este tipo de procedimento difere da forma com que uma metaferramenta trabalha, porque esta não efetua a busca em um só buscado r, e sim em vários buscadores simultaneamente, poupando dessa forma o tempo do seu usuário. 2.4 - Ferramentas híbridas Como o próprio nome diz, ferramentas híbridas são aqueles sistemas de busca que se utilizam tanto de motores de busca (robô) quanto de diretórios (pessoas) para inserir um sue em sua base de dados. Basicamente trabalham com o robô no momento da busca pelo novo site a ser inserido na sua base de dados e utilizam a mão-de-obra humana no momento da indexação destes novos sites. O Google é um representante destes sistemas, assim como o Lycos, o Yahoo e outros. Essa iniciativa otimizou o processo de busca na rede, uma vez que o usuário pode adaptar a ferramenta certa para o tipo de busca desejada. Alguns autores arriscam-se em fazer previsões de que em um futuro próximo não haverá sistemas somente com uma modalidade de busca. A tendência será os sistemas híbridos. 14: 171 184,2002. 177

3 - CARACTERíSTICAS E DIFERENÇAS Os motores de busca diferem dos diretórios por vanas peculiaridades, entre as quais destacamos as mais representativas como a representação hierárquica, que vem a ser a forma como as organizações das páginas são pefetuadas, ou seja, os motores de busca "preocupam-se menos com a seletividade que com a abrangência de suas bases de dados" Cendón (2000, p. 41), procurando anexar em sua base o maior número possível de páginas sem atentar para a qualidade e relevância do documento. Outra diferença merecedora de destaque, já citada anteriormente no momento da definição de cada tipo de sistema de busca, é a forma de busca utilizada por estes sistemas: os motores de busca utilizam robôs para efetuar a constante busca por novos sites a serem catalogados em suas bases, enquanto os diretórios utilizam profissionais da informação (bibliotecários, ontologistas, indexadores) para selecionar os novos sites, inferindo se estes possuem a qualidade exigida (que está diretamente relacionada com as políticas de inserção de cada diretório) para compor sua base de dados. O diretório dispõe de uma equipe de editores (bibliotecários) que visita o site e faz uma revisão do conteúdo. Uma vez aprovada a inclusão, o site é inserido no índice do mesmo. Mas também existem os diretórios sem editores, os quais aceitam as informações da maneira que o autor submeteu e as arquivam no respectivo índice. Quando o diretório adota o procedimento de apenas fazer a inclusão de um site após a conferência dos indexadores, três situações podem acontecer: a) talvez o site demore bastante tempo para aparecer na base de dados. Depende da metodologia de cada diretório: alguns prometem fazer a inclusão de um site no prazo de duas semanas, outros estabelecem um prazo de até seis semanas; b) talvez a página jamais seja indexada (pois seu conteúdo pode não corresponder às expectativas do indexador); c) talvez o site seja logo indexado e fique disponível para futuras consultas. As pessoas, ao contrário dos programas de computador, possuem o que se chama critério de relevância. É segundo os critérios de relevância que os editores vão avaliar se a página merece ou não freqüentar os índices. Embora esses critérios não sejam divulgados, apenas os melhores recursos são selecionados para a inclusão, que deverá ser classificada em categorias e subcategorias. Quando a URL do site for informada para que o diretório faça a indexação, também deve informar a qual dessas categorias a página pertence. Os motores de busca e os diretórios também diferem em outros aspectos: tamanho, modo de cadastramento e de atualização. Os diretórios geralmente têm uma base de dados de menor tamanho que os motores de busca, o que não significa que eles produzam resultados inferiores, ao contrário. Devido ao modo de criação de sua base de dados, geralmente eles têm um índice de relevância bem maior. Outro aspecto a considerar é que enquanto um motor de busca cadastra todas as páginas de um site uma a uma, um diretório cadastra todo um site, evitando encontrar, nos resultados de uma pesquisa, várias vezes a ocorrência do mesmo site. As bases de dados dos motores de busca são, de uma maneira geral, mais atualizadas do que as bases de dados dos diretórios. A razão dessa maior atualidade é facilmente percebida. Os robôs não dependem das pessoas para a atividade de indexação da web. Já os diretórios dependem totalmente das pessoas para essa catalogação, o que torna o trabalho mais moroso. O tempo de espera, desde a apresentação de um site (ou URL) a um motor de busca, até que ele venha a surgir nas pesquisas, pode ser de um dia a três semanas. Nos diretórios, esse tempo de espera geralmente é bem maior. 4 - CRITÉRIOS DE RELEVÂNCIA Toma-se por critérios de relevância todo recurso utilizado pelos sistemas de busca no momento da busca, indexação, recuperação e forma de apresentação dos resultados (ordenação). São eles: tamanho da base dados, indexação de documentos, inclusão de sites, ordenação dos resultados, freqüência na atualização dos dados, cobertura. Torna-se difícil a identificação dos critérios de relevância utilizados pelos sistemas de busca nos resultados das consultas. Segundo pesquisas recentes, pode-se destacar como uma das principais dificuldades, a ação constante de alguns sites que trabalham ativamente para impedir que os programas dos sistemas de busca consigam acessar suas páginas, buscando proteger, desta forma, seus direitos autorais. A crescente quantidade de conteúdos e documentos novos também é um dos fatores determinantes da dificuldade que estes sistemas têm em oferecer bons resultados para seus usuários (relevância). Os critérios nos diretórios não são divulgados. Porém, crê-se que, por serem indexados por bibliotecários e profissionais da informação, utilizam o construto da área, ou seja, vocabulário controlado por tesauro, 14: 171-184,2002. 178 14: 171 184,2002. 179

além de utilizarem a linguagem de seus usuários (palavras mais usadas nas buscas) para definir os termos destes tesauros. 4.1 - Critérios de indexação Se um termo não estiver incluído no índice de um sistema de busca, ele não será encontrado, portanto os critérios utilizados para indexação influenciam os resultados das buscas. A maioria dos motores indexa cada palavra do texto visível das páginas, mas alguns extraem, em vez do texto completo, apenas a URL, as palavras que ocorrem com freqüência ou as palavras e frases mais importantes contidas no título ou nos cabeçalhos e nas primeiras linhas. Também são indexados termos que não fazem parte do texto visível, mas que contêm informações importantes e úteis, que são as metatags para classificação, descrição e palavras-chave e texto AL T do tag Image, ou seja, texto associado com imagens. Alguns motores não incluem no seu índice algumas palavras do texto, chamadas stop words (palavras proibidas), tais como preposições e artigos, porque, além de serem irrelevantes em uma busca, ocupam muito espaço de armazenamento, por aparecerem com freqüência, tornando a busca mais lenta. 4.2 - Critérios para inclusão Alguns sistemas incluem todas ou a maioria das páginas visitadas. Outros indexam os sites superficialmente, ou seja, incluem apenas a home page e algumas páginas principais. Há páginas que não estão presentes em nenhum motor de busca. São aquelas páginas que requerem senhas para acesso (o robô não tem acesso a elas), bem como páginas em HTML que contenham o metatag Meta Robot "noindex". O metatag Robot «META name= "robots" contente "noindex"» pode ser acrescentado aos marcadores de cabeçalho pelo criador da página para indicar aos robôs que eles não devem capturá-ia. Existe dentro da Internet uma parte denominada web invisível, por incluir páginas não indexadas pela maioria dos motores de busca. São as páginas que contêm tremes', image-maps e as páginas dinâmicas. No caso de páginas que contêm trames, é comum ver-se sites com mais de 100 páginas que somente têm indexada a sua homepage. O Google e o Altavista são alguns dos poucos motores que indexam trames. Mas Frame: Vem a ser, de acordo com CRUMLlSH (1997, p. 97) uma "moldura. Um bloco de dados que, para ser transmitido por uma rede, foi emoldurado com um cabeçalho (header) 4 e um bloco de finalização 180 não trazem o contexto em que elas estão inseridas. Páginas dinâmicas também são difíceis para os robôs, pois são montadas no momento da formulação da busca, no momento em que o usuário clica em um link. Caracterizam-se por conter quase sempre um ponto de interrogação como parte da sua URL. 4.3 - Critérios para atualização Devido à grande quantidade informacional presente na web, os dados precisam ser atualizados. Os motores de busca comprometem-se em atualizar suas bases de dados uma vez por mês. Porém, páginas mais visitadas e que mudam com maior freqüência são atualizadas em intervalos mais curtos. Novos URLs e links inativos descobertos pelos robôs são atualizados diariamente. Cada motor tem sua própria estratégia para manter-se atualizado. Alguns passam cerca meses sem cadastrar novos sites em função apenas das atualizações. Há empresas, como a Inktomi, que disponibilizam programas que cobram uma taxa para inserir um site num prazo de 48 horas. 4.4 - Critérios de ordenação São os critérios considerados mais importantes numa busca. Com a finalidade de permitir que os melhores sites sejam apresentados nas primeiras posições, a maioria dos motores de busca utiliza algoritmos de ordenação de resultados. Esses algoritmos utilizam critérios como: - Localização e treqüência de ocorrência das palavras em uma página, ou seja, se os termos de busca aparecem no título, nos cabeçalhos de destaque ou nos primeiros parágrafos de uma página. Se uma palavra aparece mais freqüentemente em uma página que em outra, a primeira seria mais relevante. - Número de termos da consulta que estão presentes na página e a proximidade em que os termos se encontram. - Densidade (tamanho do documento): quanto menor o documento, mais denso. Ou seja, se dois documentos possuem o mesmo número de repetições para uma palavra, o menor deles será considerado mais relevante. - Metatags de palavras-chave e descrição: representação do conteúdo da página. Essas informações estão acessíveis nos metatags de descrição ou de palavras-chave. - Popularidade dos links: refere-se ao número de links que apontam para uma página. Quanto mais links indicando uma página, maior relevância ela possui. Assim como, se os sites importantes (trailer). 14: 171 184,2002. 14: 171-184, 2002. 181

referenciam uma página, ela também é considerada importante. - Direct Hit: é um serviço na web que monitora quais os links que milhares de usuários selecionam entre os resultados apresentados para uma busca e quanto tempo permanecem nos sites selecionados. São exemplos de motores que usam este serviço: HotBot, Lycos e Metabusca. - Conceitos (Análise Documental): essa análise é realizada através do uso de índices gerados por profissionais da informação. Os resultados são organizados em pastas que representam conceitos ou assuntos, tipos de sites ou idiomas. Os resultados de cada pasta são ordenados por relevância. - Spam: é um conjunto de métodos pouco ético para a promoção de páginas através da repetição das palavras irrelevantes, porém muito procuradas, para que as páginas sejam localizadas facilmente. Como técnica usual de spam se têm os textos invisíveis (escritos da mesma cor do fundo da página) que também são capturadas pelos robôs. - Pagamento: técnica discutível que apresenta nas primeiras posições dos resultados de buscas, os sites cujos autores pagaram para estar entre eles. 5 - PROBLEMÁTICA DOS SISTEMAS DE BUSCA Um dos maiores equívocos que se pode apontar na indexação de documentos na web está atrelado ao pouco entrosamento entre os profissionais da informação. De um lado tem-se o profissional da informática, dividido entre várias correntes de pesquisa sobre indexação na web dentro da ciência da computação. Alguns grupos buscam melhorias através de linguagens ontológicas, ou seja, linguagens utilizadas pela ciência da computação e que têm sua origem na semântica (área da Lingüística), na utilização da lógica de predicados (área abstrata que trabalha com a indexação eletrônica não somente de termos mas também de códigos de programação, e pode fazer uso de raciocínios mais simples, como a lógica de Boole, tão conhecida da Biblioteconomia). Outros grupôs buscam a contribuição da Ciência da Computação para a busca na Internet através da utilização de fórmulas estatísticas para mensurar os termos mais utilizados dentro de um conjunto de documentos sobre o mesmo assunto. Outros, ainda, seguem correntes que estudam o uso da inteligência artificial para manipulação de termos indexáveis. Por outro lado, temos os bibliotecários que trabalham em diretórios que continuam a repetir a velha fórmula de indexação para 182 14: 17", 84, 2002. organizar uma base de dados com mais de 10.000 inserções diárias, da mesma forma como catalogavam e indexavam livros em uma biblioteca. Enfim, um profissional desconsidera a importância e existência do outro. O informata desconsidera todo o construto da Biblioteconomia, ou seja, os séculos de desenvolvimento de técnicas para o tratamento da informação, no momento em que se envolve com a indexação como se tivesse sido inventada por eles. E o bibliotecário, por sua vez, não admite que o profissional da informática detém os meios tecnológicos e lógicos para facilitar o seu trabalho. 6 - CONSIDERAÇÕES FINAIS O presente trabalho buscou fazer referências aos diferentes tipos de sistemas de busca, diferenciando-os através de metodologias de trabalho e peculiaridades no armazenamento, indexação, inserção, ordenação e recuperação da informação na Internet. Apesar da evolução que houve, partindo dos diretórios - o primeiro sistema de busca - seguidos dos motores de busca, até chegar nas metaferramentas, ainda não existe a qualidade almejada pelos usuários. Os sistemas de busca atuais não conseguem abranger nem 60% do conteúdo total da web, o que demonstra falhas no seu propósito. Predições são feitas por especialistas, no sentido de que as metaferramentas serão o futuro da Internet, uma vez que fazem uma busca em vários sistemas concomitantemente, assim poupando, o tempo do usuário e expandindo a margem de acerto (relevância) de uma consulta. Algumas tentativas no ramo da Inteligência Artificial (IA) estão sendo pesquisadas a fim de otimizarem o processo de organização e buscas, como técnicas heurísticas e sistemas inteligentes, baseadas em ontologias (lógica semântica) e/ou tesauros mais consistentes. Os profissionais envolvidos precisam aliar seus conhecimentos, a fim de estimular a disseminação da informação de qualidade. Enquanto houver desconsideração da biblioteconomia para com a tecnologia da informação e vice-e-versa, os resultados serão sempre inferiores àqueles que poderiam ser obtidos se o trabalho para organizar a informação na web fosse multidisciplinar, envolvendo todas as ciências da informação: biblioteconomia, arquivística/documentação e a tecnologia da informação. Os sistemas de busca na web têm muito a desenvolver, a fim de acompanhar a acelerada produção intelectual, principalmente no que tange à velocidade de recuperação da informação e à relevância da 14: 171-184, 2002. 183

informação nos resultados encontrados nas pesquisas, enfim, todas as categorias de otimização da disseminação da informação no espaço virtual.. Isso porque principalmente a informação publicada e disponibilizada na rede, na maioria das vezes, não está acessível em nenhum outro suporte informacional além do digital e o seu acesso envolve (ou deveria envolver) o crescimento cultural da sociedade do conhecimento, sociedade da informação, ou seja qual for o nome que se quiser dar ao período cultural que se está vivendo. BIBLIOGRAFIA 1. ALENCAR, Maria Simone de M. Mecanismos de busca na web: uma análise da metodologia de estudos comparados. 2000. 95f. Dissertação (Mestrado em Ciência da Informação) - Escola de Comunicação, Universidade Federal do Rio de Janeiro, Rio de Janeiro. 2. ALMEIDA, Rubens Queiroz de. Vortais. Revista de Informação e Tecnologia: Universo Internet. Campinas: Unicamp. Disponível em: <http://www.revista.unicamp.br/infotec/internetlinternet161.htm>.acessoem:25abr.de 2001. 3. CENDÓN, Beatriz Valadares. Ferramentas de busca na Web. Ciência da Informação, Brasília, v. 30, n. 1, p. 39-49, janjabr. 2001. 4. CORNELLA, P. Avanços das ferramentas de busca. Infonomia. Disponível em: <www.intexnet.com.br/polors/revistalinfonomia/20.htm>acessoem:300ut.de 2001. 5. CRUMLlSH, Christian. O dicionário da internet um guia indispensável para os internautas. Rio de Janeiro: Campus, 1997. 297p. 6. LEVY, David M. Cataloging in the digital order. Disponível em: <http://csdl.tamu.edu/dl95/papers/lew/lew.html> Acesso em: 25 out. 2000. 7. MARTIN, Philippe; EKLUND, Peter W. Knowledge retrieval and the World Wide Web. IEEE Intel/igent Systems. 2000 Disponível em: <http://www.ieeeinteligentsystems.com.br> Acesso em: 2 novo2001. 8. MOURA, Gevilacio Aguiar Coêlho de. Sistemas de busca da web: diretórios e mecanismos de busca. Disponível em: <www.guatrocantos.com.br>. Acesso em: 20 out. de 2001. 9. SERACEVIC, Tekfo. Relevance: a review of and a framework for the thinking on the notion in Information Science. Journal of the American Society for Information Science. V. 26, n.6,p. 321-343, 1975. 10. WEBOPEDIA. Disponível em: <www.webopedia.edu.br>. Acesso em: 20 out. 2001. 184 14: 171-184,2002.