AS CATEGORIAS DOS MECANISMOS DE BUSCA: OBJETO EM CONSTRUÇÃO E EM PERMANENTE MODIFICAÇÃO THE SEARCH ENGINES CATEGORIES: AN OBJECT UNDER CONSTRUCTION AND IN CONSTANT CHANGING Silvana Drumond Monteiro drumond@sercomtel.com.br Universidade Estadual de Londrina Renata Gonçalves Curty recurty@gmail.com Universidade Estadual de Londrina Nelma Camêlo Araujo nelma@uel.br Universidade Estadual de Londrina Maria Júlia Carneiro Giraldes giraldes@uel.br Universidade Estadual de Londrina Rogério Paulo Muller Fernandes rmuller@uol.com.br Universidade Estadual de Londrina Joel Gomes Abreu abreujg@hotmail.com Universidade Estadual de Londrina Resumo O trabalho analisa as categorias dos mecanismos de busca no ciberespaço, por meio de suas expressões linguísticas constantes na literatura. O método utilizado foi a análise de conteúdo, a partir de um corpus selecionado de acordo com critérios de representatividade e homogeneidade do tema. No sentido ontológico, categoria significa qualquer noção que sirva de regra para investigação ou sua expressão linguística. No sentido lógico, significa os modos mais gerais de predicar um sujeito ou substância. Os textos foram diagramados visando registrar as categorias explicitadas pelos autores para comparar e contrastar diferentes posicionamentos conceituais e classificatórios para estabelecer as categorias mais gerais a posteriori. A partir do trabalho semântico da ocorrência das expressões diagramadas, as categorias mais gerais são depreendidas: tipos de mecanismos de busca, anatomia, formas de ordenação e apresentação dos resultados e paradigmas semióticos. Percebe-se também que não há uma uniformização de terminologia para designar o objeto mecanismo de busca. O estudo evidencia no âmbito da linguagem a pragmática das múltiplas sintaxes dos mecanismos de busca no ciberespaço. Palavras-chave Mecanismos de Busca. Ciberespaço. Organização do Conhecimento.
1 INTRODUÇÃO Os complexos agenciamentos maquínicos e a multiplicidade das categorias dos mecanismos de busca reforçam a nossa tese das múltiplas sintaxes de organização e busca do conhecimento e da informação operadas no ciberespaço. Essa premissa poderá ser verificada a partir das várias categorias dos buscadores extraídas a partir da literatura pertinente sobre o assunto, especialmente quando consideradas as formas de ordenação e apresentação dos resultados de busca, ou ainda, um processo denominado searching. A quebra da sintaxe única e a heterogeneidade dos signos, base para estudo do paradigma semiótico, nos indicam que não há uma única e universal forma de organizar o conhecimento no ciberespaço. Além dos mecanismos, a questão da linguagem e sua consequente taxonomia na Web mundial é uma preocupação ou fato recorrente, seja de especialistas ou de usuários da rede. Assim, outras formas de organização emergem, na medida em que se aprimoram as tecnologias existentes. Dessa forma, nesse complexo cenário, estão presentes as ontologias, que são as semânticas específicas de domínio de conhecimentos e a folkosonomia ou ainda a tagosfera, que dizem respeito à etiquetagem coletiva praticada nas redes sociais. Este artigo tem como objetivo apresentar e comparar as categorias dos mecanismos de busca, apresentadas na literatura, com base em investigação realizada pelo grupo de pesquisa Informação e Conhecimento no Ciberespaço do Departamento de Ciência da Informação da Universidade Estadual de Londrina. 2 A LITERATURA: da definição do corpus à identificação das categorias Para efeito da análise de conteúdo, utilizamos um corpus composto por artigos que apresentam as categorias explícitas ou não, dos mecanismos de buscas, constituído especialmente pelos autores infracitados na seção 2.2. A partir da identificação dos autores, outro passo importante para a pesquisa foi a diagramação das categorias, com o objetivo de visualizá-las para estabelecer o estudo
comparativo sobre o tema. Com efeito, extraímos das representações sobre mecanismos de busca o conhecimento necessário para estudar o objeto em questão. Ainda no campo das representações, o diagrama faz-se importante para a pesquisa, pois do ponto de vista da Semiótica é um hipoícone de secundidade, ou seja, um signo icônico que expressa por similaridade ou por referência as relações internas do conteúdo de um texto (signo) e seu objeto. Dessa forma, entendemos que o diagrama permite uma identidade visual dos conceitos e das classificações atribuídas pelos autores, recurso esse que se faz essencial para as atividades em que buscamos comparar e contrastar diferentes posicionamentos conceituais e classificatórios para estabelecer as categorias mais gerais a posteriori. 2.1 A ANÁLISE DE CONTEÚDO O ponto de partida de análise de conteúdo é a mensagem, como destaca Franco (2003), seja ela verbal (oral ou escrita), gestual, figurativa e/ou documental. Bardin (1997, p.38) pondera que A análise de conteúdo pode ser considerada como um conjunto de técnicas de análises de comunicações, que utiliza procedimentos sistemáticos e objetivos de descrição do conteúdo das mensagens [ ]. Assim, diferentemente da análise do discurso, é o conteúdo manifesto e explícito que se inicia o processo de análise. O campo teórico da análise de conteúdo vai do domínio da Linguística, ou métodos lógico-estéticos e formais, passando pelos métodos lógico-semânticos até aos domínios da hermenêutica, isto é, os métodos semânticos e semântico- estruturais, de acordo com a Figura 1:
Figura 1: Os campos de análise de conteúdo. Fonte: Franco (2003, p. 29). O primeiro método trata das questões que buscam os aspectos formais típicos do autor ou do texto. Na dimensão central da análise de conteúdo, os métodos lógicosemânticos tornam-se importante porque está à função de um classificador e sua classificação é lógica frente aos conteúdos manifestos e também semânticos, uma vez que são interpretados. Reiterando os métodos lógico-semânticos, Franco (2003, p.31-32) salienta que: não se vinculam às pesquisas que se dedicam à análise de estrutura formal de um texto, como, por exemplo, o procedimento de sua construção ou de seu estilo; aplicam-se às mais variadas modalidades de textos, após o índex dos diversos conceitos utilizados (sua enumeração simples e seus desdobramentos) e a classificação dos elementos de informação (reagrupamento por categorias); em suma, esses métodos concentram semelhanças comuns em relação àqueles que precedem: inventários, desdobramentos, caracterização, codificação, pesquisa de eventuais correlações [...] mas sempre, e ao mesmo tempo, a partir da compreensão do sentido. Sentido das palavras, sentido expresso nas palavras, imagem e símbolos, sentido das percepções e analogias das mensagens (base de todos os reagrupamentos e classificações de sentido das hierarquias dos sentidos). Segundo Franco (2003), nos métodos na fronteira com a hermenêutica, a metodologia de análise deve ser considerada como uma das dimensões da compreensão e interpretação, muitas vezes de cunho de investigação sócio-semântica, mas comporta também a análise lógica, formal e objetiva dos campos lógicos. Ou seja, para além da linguagem, encontram-se territórios sociais conflituosos e um complexo processo
histórico. A nosso ver, essa dimensão da análise de conteúdo estaria mais relacionada à análise do discurso. A metodologia utilizada em nossa análise de conteúdo, na detecção das categorias para o estudo comparativo, insere-se no contexto dos métodos lógico-semânticos, uma vez que nos situamos na caracterização, codificação, pesquisa de eventuais correlações, tendo por objetivo após a leitura, a composição de "índex" diagramando a sintaxe das categorias para o estudo das tipologias dos mecanismos de busca. 2.2 O Corpus da pesquisa Corpus é o conjunto de documentos selecionados para ser submetidos aos procedimentos analíticos (BARDIN, 1977). Para Barthes (1997, p.104) O corpus é uma coleção finita de materiais, determinada de antemão pelo analista, conforme certa arbitrariedade (inevitável) em torno da qual ele vai trabalhar. Corpus de pesquisa é utilizado em trabalhos científicos cujo objeto específico é construído teoricamente e especialmente quando a coleta de dados é realizada em documentos e mensagens, e esses mesmos constituem-se no objeto observado a ser construído. Na Ciência da Informação a análise documental e de conteúdo (como métodos) podem e devem utilizar-se do corpus de pesquisa, ou seja, de uma amostra de documentos ou fontes pré-selecionados a priori, para o desenvolvimento do estudo. Assim, quando a coleta de dados é realizada na linguagem e documentos, tem-se o corpus, em vez do sujeito de pesquisa, próprio das investigações inseridas no contexto metodológico das Ciências Sociais. Os textos escolhidos para a composição do corpus respeitaram tanto a regra da representatividade quanto da homogeneidade, isto é, os documentos selecionados devem obedecer a critérios precisos e atender aos objetivos definidos da pesquisa, que é identificar e estudar as categorias dos mecanismos de busca, conforme segue a ordem de análise do corpus: 1 1 O corpus, neste trabalho, está listado em ordem de análise dos artigos.
CENDÓN, Beatriz V. Ferramentas de busca na web. Ci. Inf., Brasília, v. 30, n. 1, p. 39-49, jan./abr. 2001. MONTEIRO, Silvana Drumond. Os mecanismos de busca: à guisa de uma tipologia das múltiplas sintaxes. In: TOMAÉL, Maria Inês. Fontes de informação na Internet. Londrina: EDUEL, 2008. Cap.5, p.97-122. MOSTAFA, Javed. WWW procura indolor. Scientific American Brasil, p. 85-91, 2005. Disponível em: <www.sciam.com.br >. Acesso em: 28 out. 2006. FIORAVANTE, Felipe. Tendências emergentes em mecanismos de busca. Disponível em: < www.terraforum.com.br/>. Acesso: 20 abr. 2009. BRANSKI, Regina Meyer. Recuperação de informações na Web. Perspect. cienc. inf., Belo Horizonte, v. 9, n. 1, p. 70-87, jan./jun. 2004. SOARES, Claudio. A anatomia da busca. In: Pontolit, 2008. Disponível em: <http://blog.pontolit.com.br/autor/>. Acesso em: 08 abr. 2009. DETERS, Janice Inês, ADAIME, Silsomar Flôres. Um estudo comparativo dos sistemas de busca na web. In: SEMINCO, 9. Anais... Disponível em: < www.ulbra-to.br/.../sistemasbuscaweb-encoinfo.2003.pdf>. Acesso em: 08 abr. 2009. É importante salientar que outro corpus será consultado, visando atender a regra da exaustividade, contemplando a literatura internacional sobre o tema. 2.3 AS CATEGORIAS Categoria, no sentido lógico, significa os modos mais gerais de predicar o sujeito, no sentido ontológico é qualquer noção que sirva de regra para investigação ou sua expressão linguística em qualquer campo (ABBAGNANO, 2003). Os autores, citados no corpus, em extensão maior ou menor, intencionalmente ou não, estão realizando um estudo ontológico acerca dos mecanismos de busca. Isso significa que, por meio da ontologia, os esquemas categóricos podem ser aperfeiçoados para que possam acomodar a inserção de novos objetos, visto que um esquema categórico geral baseia-se em uma ontologia ou a abrange. Nesse sentido, os mecanismos de busca, considerados como máquinas semióticas e de organização, são um objeto novo nas ciências, e seu conhecimento empírico fornece categorias pelas quais podem ser agrupados e discutidos teoricamente nos artigos científicos. Com efeito, a literatura, nesses termos, pode fornecer recursos sintáticos para
a formulação semântica de categorias gerais que possam expressar a tipologia dos mecanismos de busca. 3 APRESENTAÇÃO E ANÁLISE DAS CATEGORIAS O objeto mecanismo de busca será analisado e diagramado visando a identificar as principais categorias ou distinções apresentadas pelos autores citados no corpus de pesquisa para a criação a posteriori de categorias mais gerais que possam agrupar e ilustrar partícipes da mesma propriedade. Inicialmente, Cendón (2001) apresenta um cenário acerca dos mecanismos de busca e, apesar de o artigo ter sido publicado há oito anos, para um tema em constante atualização, sua análise mostrou-se relevante, portanto, sendo considerado um artigo que atende o critério de representatividade sobre o tema. Para Cendón (2001), o termo ferramentas de busca é utilizado como gênero e, motores de busca e diretórios como espécies. Percebe-se que as categorizações descritas na literatura, a partir desse artigo, não apresentam a mesma curva de crescimento dos buscadores, no ciberespaço. Com efeito, os itens forma de ordenação e forma de apresentação são os mais comentados por abrigar, implícita ou explicitamente, a atualização dos mecanismos que surgem no espaço virtual do ciberespaço.
1) FERRAMENTAS DE BUSCA Motores de busca Diretórios CATEGORIAS MOTORES DE BUSCA Robô ou crawler Indexador Motor de busca Interface a) Temáticos b) Tamanho da base de dados c) Critérios para indexação d) Critérios para inclusão de páginas e) Frequência de atualização de dados f) Interfaces e recursos para busca g) Critérios de ordenação dos resultados: metatags; popularidade dos links; direct hit; inclusão do site; conceitos; pagamentos; spam; forma de apresentação dos resultados. 2) METAMOTORES Permitem a execução de uma mesma busca em mais de uma ferramenta (motores ou diretórios) Diagrama 1: Tipologia dos mecanismos de acordo com Cendón (2001) Analisando o diagrama feito para abrigar a ontologia de Cendón, a categoria que diz respeito à anatomia dos mecanismos encontra-se implicitamente alocada na descrição dos motores de busca. Quer dizer o funcionamento básico das máquinas de indexação no ciberespaço por meio dos robôs que rastreiam e coletam as páginas - os crawlers - dos indexadores dos serviços de busca e o motor de busca propriamente dito, que é a interface. Assim como Cendón (2001), Monteiro (2008) apresenta na categoria geral anatomia, os processos crawling, indexing e searching. Comparativamente com Cendón (2001), Monteiro (2008) organiza um eixo classificatório em que dá destaque à forma de organização ou indexação dos mecanismos de busca, como categoria geral, uma vez que é a forma mais geral de organização da informação e do conhecimento no ciberespaço. Abriga os mecanismos de busca como gênero, os diretórios, motores, mecanismos híbridos e metabuscadores como espécies.
1) ANATOMIA Crawling (varrer) Indexing (indexar ou gerar o índice a partir da base de dados) Searching (buscar através da interface de busca) 2) FORMA GERAL DE ORGANIZAÇÃO OU INDEXAÇÃO DOS MECANISMOS DE BUSCA (indexing) Diretórios ou Catálogos Programas ou robôs de Busca Híbridos Metabuscadores CATEGORIAS 3) ORDENAÇÃO DOS RESULTADOS (searching) 4) APRESENTAÇÃO DOS RESULTADOS (searching) Localização/frequência do termo Análise de links Relevância Agrupamento ou clusterização: a) Textual b) Visual Especializados Personalizados Ontoweb Web Semântica 5) PARADIGMA SEMIÓTICO (indexing e searching) Sonoro Visual a) Espacial Verbal escrito Híbridos Diagrama 2: Tipologia dos mecanismos de acordo com Monteiro (2008) Monteiro (2008) contempla ainda, no eixo forma de organização ou indexação, os mecanismos híbridos, posto que aqueles que se denominam eminentemente ora em um ora em outro estão apresentando as duas maneiras de organização, observado especialmente os mecanismos gerais mais populares como o Google e o Yahoo!. De acordo com Monteiro (2008) os metabuscadores estão alocados nessa categoria, mas poderiam ser considerados também buscadores de agrupamento (quanto à forma de ordenação e apresentação dos resultados). Cabe ressaltar que, a apresentação dos resultados em Cendón (2001) é uma subcategoria da ordenação dos resultados, porque discute, nesta, o formato de
exibição da página de resultado da busca, o número de itens listados, se há ou não resumo, entre outros, quer seja, o layout da página. Monteiro (2008) também considera esses dois elementos em uma pressuposição recíproca, fazendo referência ao conceito de dobra, em que [...] é a continuidade do avesso e do direito, a arte de instaurar essa continuidade, de tal maneira que o sentido na superfície se distribui dos dois lados ao mesmo tempo. (DELEUZE, p. 130, 1998). Essa separação é tênue e tensionada entre um processo e outro, e é apresentada tão somente para fins didáticos e representada por linha pontilhada no diagrama. Com efeito, a autora apresenta os princípios filosóficos das máquinas de busca, situados em teoria pós-moderna da linguagem, para comprovação da tese das múltiplas sintaxes de organização e busca do conhecimento e da informação no ciberespaço. Monteiro (2008) na categoria apresentação dos resultados propõe a tipologia exaustiva de acordo com os vários buscadores existentes no ciberespaço, como os especializados (que CENDÓN, 2001, designa temáticos), os personalizados, os de agrupamento e aqueles que apresentam ontologias ou alguma semântica de indexação e busca do conhecimento no ciberespaço. Reserva à ordenação dos resultados os atributos dos algoritmos dos buscadores responsáveis pelos critérios de relevância, citação, frequência e localização do léxico nos resultados, item no qual Cendón (2001) arrola mais exemplos, como: ordenação do resultado conforme pagamento, spam, inclusão do site pelo autor ou editor e direct hit. Este último seria um critério por relevância de acordo com a escolha de sites pelos usuários. Monteiro (2008) afirma que ao estudarmos a organização do conhecimento no ciberespaço tendo como premissa o conceito filosófico rizoma de Deleuze e Guattari (1995), que se distancia do conceito da Árvore de Porfírio, já consolidado do esquema sobre o qual paira a organização do conhecimento, faz-se necessário observar que esse ambiente cognitivo se difere da linguagem verbal escrita. O ciberespaço reúne a nova sociedade da informação; uma sociedade que se reorganiza num espaço sociotécnico, suportada por uma linguagem hipertextual de códigos, o HTML 2, que consiste em diferentes nós de texto digital. (NICOLA, 2004, p.26). 2 Hypertext Markup Language (linguagem de marcação hipertextual)
Assim, Monteiro (2008) e Nicola (2004), citados acima, compactuam sobre as novas formas para organizar o conhecimento em ambiente virtual. O formato como se apresentam a informação e o conhecimento nesse novo meio é o que determina essa nova forma, pois o conteúdo deixa de ser uma representação apenas gráfica, permitindo outros formatos de entrada e saída para a busca do usuário. Esse novo formato descrito por Monteiro (2008) está relacionado aos aspectos da Semiótica, aspectos filosóficos e da cognição (representação do conhecimento por parte do usuário), representando uma nova forma de se entender a lógica para organizar e buscar as informações no ciberespaço, principalmente no que se refere aos motores de busca, pois, por meio dessas ferramentas que se tem acesso ao conteúdo armazenado no ambiente virtual. Do ponto de vista terminológico, Mostafa (2003) chama o objeto de mecanismos não se atendo na categoria clássica de tipos de buscadores. Traz, em relação aos diagramas anteriores, menção à busca geográfica, assim como Monteiro (2008), que menciona como categoria semiótica da matriz visual as buscas realizadas por parâmetros geoespaciais. Outro aspecto interessante são os crawlers denominados Wrappers que indexam a Web oculta, uma vez Que exploram a sintaxe habitual dos pedidos de busca e formatos padrão dos recursos on-line para obter acesso a conteúdos ocultos. (MOSTAFA, 2005, p. 87).
1) FUNCIONAMENTO Crawler Índice Busca 2) ORDENAÇÃO Freqüência Análise de links 3) MECANISMOS SUPERIORES AGRUPAMENTO Aglutina os resultados baseados em termos relevantes verbais e visuais CATEGORIAS BUSCA IMPLÍCITA Extrai características do disco rígido da máquina do usuário para melhorar a busca PERSONALIZADA Esses mecanismos focam o hábito, temas, traçam o perfil do usuário SONORA GEOGRÁFICA Conversão da consulta musical em forma prontamente computável; armazenamento e pesquisas digitais de partituras musicais e a computação das consultas com os dados musicais armazenados Complementa a busca textual, utilizando tecnologia de GPS para localizar resultados geograficamente próximos IMAGEM WEB OCULTA Buscador de conteúdo gráfico Pesquisa arquivos que não estão conectados por hiperconexões Diagrama 3: Tipologia dos mecanismos de acordo com Mostafa (2005) Ainda no mesmo artigo, o autor faz menção à classe de mecanismos de busca não verbais, como os sonoros, imagens e geográficos em que Monteiro (2008) formaliza e desenvolve a categoria paradigma semiótico, utilizando as matrizes da linguagem para classificá-los e estudá-los: sonoro, visual, verbais escritos e híbridos. Portanto, a Semiótica vem corroborar com a análise quanto à organização do conhecimento sobre os mecanismos de busca no ciberespaço, pois caracteriza a linguagem em toda a sua forma de expressão, verbal escrita ou não. Monteiro (2008, p.116) faz uso dos conceitos e princípios da Semiótica peirciana para o [...] estudo das linguagens nos mecanismos de busca [...], conforme Diagrama 2.
Dando continuidade na análise, observa-se no artigo de Fioravante (2009) e Mostafa (2005) alguns tipos de mecanismos que dizem respeito à forma de apresentação e ordenação dos resultados, a saber: CATEGORIAS 1) MECANISMOS DE BUSCA, BUSCADORES FERRAMENTAS a) INTEGRAÇÃO Vários arquivos: MP3, PDF, HTML.. VISUALIZAÇÃO POR AGRUPAMENTO LINGUAGEM NATURAL SEGMENTAÇÃO PERSONALIZAÇÃO Complementa a integração e o AGRUPAMENTO Compreende a linguagem do usuário Foca um público, a audiência, crianças, acadêmicos... Perfil e contexto da busca Diagrama 4: Tipologia dos mecanismos de acordo com Fioravante (2009) Fioravante (2009) também não se atém na discussão sobre tipos de mecanismos, utilizando várias terminologias, como mecanismos de busca, ferramenta de busca e buscadores. Comparando essas categorias com o Diagrama 2 pode-se depreender similaridades com a integração, isto é, corresponde aos mecanismos híbridos em Monteiro (2008), com o agrupamento ou clusterização, com a personalização. Já a segmentação equivale aos especializados e, tanto a linguagem natural quanto à visualização seriam os mecanismos contidos nos paradigmas semióticos. Na mesma medida, a comparação do Diagrama 3 e 4 são coincidentes nas categorias agrupamento, personalização e visualização. Para Branski (2004), buscadores, ferramentas de busca ou mecanismos de busca são sistemas especializados utilizados na recuperação de informação na Internet. Não obstante, considera buscadores como gênero e diretórios e programas como espécies. Apresenta uma tipologia não muito diferenciada das comentadas anteriormente. Por um lado, não privilegia as formas de ordenação e apresentação. Por outro, discorre minuciosamente o refinamento de busca a partir dos operadores e conectivos lógicos e booleanos, bem como de estratégias avançadas de busca, pois esse é o foco do texto, ou seja, a recuperação de informações na Web.
Dessa forma, mostra as diferentes formas de coletar e estruturar as informações que caracterizam os diversos buscadores disponíveis na Internet, conceituando a estrutura da informação como a [...] organização lógica para posterior recuperação e linguagem de busca como os comandos que permitem a recuperação da informação através de palavras contidas nos títulos, resumos ou outros campos de dados. (BRANSKI, 2004, p.71). A partir do diagrama abaixo, as categorias implícitas da autora são representadas da seguinte forma: CATEGORIAS 1) FUNCIONAMENTO 2) ORDENADORES Coleta Base de dados Interface Localização e frequência Análise de links 3) BUSCADORES Diretórios Programas de busca 4) REFINAMENTO DE BUSCA Apresenta e compara os operadores e conectivos lógicos e booleanos de vários mecanismos de busca 5) OUTRAS FORMAS DE Especialistas ou temáticas LOCALIZAR INFORMAÇÕES Bibliotecas virtuais Metabuscadores Web oculta Diagrama 5: Tipologia dos mecanismos de acordo com Branski (2004) Soares (2008) em um artigo sobre anatomia da busca considera os mecanismos como oráculos pós-modernos e apresenta uma categoria mais diferenciada dos demais textos no que tange aos tipos de mecanismos de busca, conforme item 3) no Diagrama 6. CATEGORIAS 1) ANATOMIA 2) CRITÉRIOS DE ORDENAÇÃO Interface de busca Crawlers, spiders e robots Banco de dados Algoritmos de busca Localização Frequência Quantidade de links Click-though Primários 3) TIPOS DE MECANISMOS DE BUSCA Secundários Segmentados Diagrama 6: Tipologia dos mecanismos de acordo com Soares (2008)
Os processos básicos de funcionamento dos mecanismos de busca, em Soares (2008), estão aqui explicitados como tal, tanto quanto em Monteiro (2008), apenas discriminando os algoritmos de busca. Quanto à ordenação, apresenta um elemento novo, em relação aos anteriores, a saber, click-though, ou seja, quantidade de vezes que as páginas são consultadas ou pelo menos clicadas coincidindo com o Direct-hit de Cendón (2001). A categoria tipos de mecanismos de buscas, de Soares (2008), em relação aos demais autores é a mais diferenciada. Considera os mecanismos de busca primários aqueles mais conhecidos e gerais, como o Google, Yahoo!... Já os secundários atingem audiências mais específicas e são apropriados para pesquisas mais focadas e cita como exemplos o Lycos e o LookSmart. Os segmentados são aqueles mecanismos organizados por tópicos específicos, no que corresponderiam aos especializados ou segmentados de Monteiro (2008) e Fioravante (2009), respectivamente. Assim, para Soares (2008) os mecanismos de busca são o gênero e as espécies são os mecanismos primários, secundários e segmentados. Deters e Adaime (2003) descrevem a categoria usual de tipos de mecanismos, conforme Diagrama 7, considerando sistemas de busca como o gênero e mecanismos de busca como espécie, além dos diretórios, sistemas de metabusca e sistemas híbridos. Diretórios CATEGORIAS 1) SISTEMAS DE BUSCA Mecanismos de busca (robôs) a) base de dados b) software de interface Sistemas de metabusca Sistemas híbridos Diagrama 7: Tipologia dos mecanismos de acordo com Deters e Adaime (2003) Os sistemas apresentados são exemplificados e detalhados de acordo com o seu funcionamento, inclusive com a sistematização das vantagens e desvantagens de uso. Uma tabela, reproduzida na íntegra no Diagrama 8, é apresentada comparando os processos básicos de funcionamento dos mesmos.
SISTEMAS Descobrimento de páginas Representação do conteúdo do documento Representação da consulta Apresentação dos resultados 1) DIRETÓRIOS Realizada manualmente (por pessoas) Classificação manual Implícita mediante navegação pelas categorias Páginas de resultados previamente construída. Os resultados são mostrados de forma bastante precisa 2) MECANISMOS DE BUSCA Principalmente de forma automática mediante robots Indexação automática Explícita mediante palavra-chave Página criada de forma dinâmica para cada consulta. Pouca precisão 3) METABUSCA Não possuem mecanismos de descobrimento próprio Usam a base de dados de outros sistemas de busca, não indexam o conteúdo Explícita mediante palavra-chave Páginas criadas de forma dinâmica apresentam uma maior cobertura, mas os resultados são pouco precisos 4) SISTEMA HÍBRIDOS De acordo com o sistema o descobrimento pode ser manual ou automático Conforme o sistema a indexação pode ser automática ou manual, trabalham em parceria com outro sistema Ela pode ser implícita como explícita Diagrama 8: Principais características dos sistemas de busca Fonte: Deters e Adaime (2003) Páginas criadas de forma dinâmica Assim, desdobram os sistemas de busca que Monteiro (2008) denomina anatomia em análise do funcionamento básico das máquinas em: descobrimento de páginas, a etapa de crawlin ou captura no ciberespaço, representação do conteúdo do documento, o processo de indexing e representação da consulta e apresentação dos resultados, os processos de searching, ou seja, a interface de busca. CONSIDERAÇÕES FINAIS A categorização, no sentido da análise de conteúdo, é uma operação de classificação de elementos [...] constitutivos de um conjunto, por diferenciação seguida de um reagrupamento baseado em analogias, a partir de critérios definidos. (FRANCO, 2003, 51). As categorias diagramadas, neste trabalho, por meio da análise do conteúdo, refletem a parte metodológica da pesquisa, ora em desenvolvimento.
De maneira geral, percebe-se que não há uma padronização na literatura quanto ao assunto, como não há no objeto estudado. Quanto à terminologia sobre os buscadores, categoria mais geral designada tipos de mecanismos, encontramos esse exemplo mais premente: para Cendón (2001) ferramentas de busca é o gênero e motores de busca e diretórios os tipos ou espécie; para Monteiro (2008) mecanismos de busca é o gênero e, diretórios, programas de busca, mecanismos híbridos e metabuscadores são as espécies. Aqui, em especial, a autora designa como categoria mais geral dos tipos de buscadores como forma geral de organização e indexação dos mecanismos de busca, explicitando assim, que essa divisão diz respeito à forma como os buscadores organizam a informação e o conhecimento no ciberespaço; para Mostafa (2005) não há essa apresentação, partindo para a classificação dos mecanismos quanto à sua ordenação e apresentação dos resultados, não obstante sua terminologia seja mecanismos de busca ; para Fioravante (2009) a terminologia utilizada, ora é mecanismo de busca, ora, ferramenta de busca, também não fazendo distinção com relação ao tipos de mecanismos de busca. Apresenta uma tipologia com relação às múltiplas formas de ordenação e apresentação dos resultados; para Branski (2004) buscadores são o gênero e diretórios e programas suas espécies; para Soares (2008) a terminologia utilizada é mecanismos de busca tendo como espécies os mecanismos primários, secundários e segmentados, ou seja, a classificação mais diferenciada, da literatura, no tocante a essa categoria; para Deters e Adaime (2008) sistemas de busca são o gênero e as espécies são: diretórios, mecanismos de busca, sistema de metabusca e sistemas híbridos. Essa análise de conteúdo, como instrumento metodológico, que teve como objetivo a análise sintática, nos evidencia a tese das múltiplas sintaxes não só de organizar e buscar a informação e o conhecimento no ciberespaço, mas também designar, linguisticamente, esse objeto.
Percebe-se também, que cada autor traz em seu texto o corpus de sua área de formação. Com efeito, os textos inseridos no corpus da Ciência da Informação apresentam preocupação em discorrer sobre os tipos de mecanismos de busca posto que essa é a categoria que se assemelha com a organização do conhecimento, seja por meio do conceito de diretórios ou catálogos, seja por meio de índices. Em especial no texto de Deters e Adaime (2003) o emprego do léxico sistema da tipologia dos mecanismos reflete o corpus da área da Ciência da Computação. Outra categoria mais geral apreendida é o processo básico de funcionamento ou anatomia dos mecanismos de busca: o crawler, o índice e a interface de busca, como evidenciado, não há padronização do termo. As formas de ordenação e apresentação dos mecanismos de busca são categorias que se apresentam em vários textos, sendo inclusive, mesmo que implicitamente, objeto de análise e exemplificação prioritária do objeto de investigação, como nos artigos de Fioravante (2009) e Mostafa (2005). Monteiro (2008) relata a dificuldade de separar esses dois processos e o faz, mediante a apresentação de uma linha pontilhada ilustrando o conceito de dobra de Deleuze (1998) que é arte de instaurar o sentido na continuidade entre o avesso e o direito, na distribuição em que se dá em pressuposição recíproca. A última categoria mais geral detectada, a partir da diagramação efetuada na análise de conteúdo, explicitada por Monteiro(2008) é a designada paradigmas semióticos, que visa classificar e estudos os mecanismos de busca com base na Semiótica peirciana, compreendendo os mesmos como objetos sígnicos. De uma forma geral, o trabalho que mais se engajou nas questões filosóficas e da linguagem, dentre o corpus estudado, foi o de Monteiro (2008) que também reflete sua formação em contexto mais abrangente que as áreas supracitadas. Foi também o que manifestamente apresentou as categorias mais gerais pelas quais subcategorias e exemplos partícipes possam ser relacionados e agrupados. A partir deste trabalho, ou do levantamento das múltiplas sintaxes dos mecanismos de busca, o diagrama desenvolvido anteriormente, pelo grupo de pesquisa, será aperfeiçoado, no que tange especialmente às subcategorias partícipes das formas de
ordenação e apresentação de resultados, em que, na literatura, foram mais diversificados em sua apresentação. A partir da literatura internacional e da exaustividade, como critérios de seleção do corpus, outras categorias mais gerais possam emergir, mediante a análise de conteúdo. Não obstante, o exemplo desta análise no âmbito da linguagem evidencia a pragmática das múltiplas sintaxes dos mecanismos de busca no ciberespaço. REFERÊNCIAS ABBAGNANO, Nicola. Dicionário de filosofia. São Paulo: Martins Fontes, 2003. BARDIN, Laurence. Análise de conteúdo. Lisboa: Ed.70, 1997. BARTHES, Roland. Elementos de Semiologia. 11. ed. São Paulo: Cultrix, 1997. BRANSKI, Regina Meyer. Recuperação de informações na Web. Perspect. Cienc. Inf., Belo Horizonte, v. 9, n. 1, p. 70-87, jan./jun. 2004. CENDÓN, Beatriz V. Ferramentas de busca na web. Ci. Inf., Brasília, v. 30, n. 1, p. 39-49, jan./abr. 2001. DELEUZE, Gilles. Lógica do sentido. São Paulo: Perspectivas, 1998. DETERS, Janice Inês, ADAIME, Silsomar Flôres. Um estudo comparativo dos sistemas de busca na web. In: SEMINCO, 9. Anais... Disponível em: <www.ulbrato.br/.../sistemasbuscaweb-encoinfo.2003.pdf>. Acesso em: 8 abr. 2009. FRANCO, Maria Laura P. B. Análise de conteúdo. Brasília: Plano, 2003. FIORAVANTE, Felipe. Tendências emergentes em mecanismos de busca. Disponível em: < www.terraforum.com.br/>. Acesso: 20 abr. 2009. MONTEIRO, Silvana Drumond. Os mecanismos de busca: à guisa de uma tipologia das múltiplas sintaxes. In: TOMAÉL, Maria Inês. Fontes de informação na Internet. Londrina: EDUEL, 2008. Cap.5, p.97-122. MOSTAFA, Javed. WWW procura indolor. Scientific American Brasil, p. 85-91, 2005. Disponível em: <www.sciam.com.br>. Acesso em: 28 out. 2006. NICOLA, Ricardo. Cibersociedade: quem é você no mundo on-line? São Paulo: SENAC, 2004. (Série Ponto Futuro; 16) SOARES, Claudio. A anatomia da busca. In: Pontolit, 2008. Disponível em: <http://pontolit.com.br/blog/2009/01/a-anatomia-da-busca/>. Acesso em: 8 abr. 2009.
Title The search engines categories: an object under construction and in constant changing Abstract The article investigates the search engines categories in cyberspace, through the linguistic expressions presented in the literature. The Content Analysis method was adopted to analyze the selected corpus according to the correlation between representativeness and homogeneity criteria of the subject. In the ontological sense, category means any notion that serves as a rule for researching or as its own linguistic expression. In the logical sense, means the more general ways of predicating a subject or substance. The texts were diagrammatized in order to register the categories presented by the authors as well as to compare and contrast different positions and conceptual classifications and, lately, to establish more general categories. From the diagrammatized expressions general semantic categories can be inferred, such as: search engines types, anatomy, ways of organizing and presenting the results, and semiotic paradigms. It also became evident that there is no terminological standardization to describe the object "search engine". The study provides evidence of the pragmatics of the multiple language syntax concerning the search engines in cyberspace. Keywords Search Engines. Cyberspace. Knowledge Organization.