UMA ABORDAGEM PARA PERSONALIZAÇÃO DE RESULTADOS DE BUSCA NA WEB

Transcrição

1 KÉSSIA RITA DA COSTA MARCHI UMA ABORDAGEM PARA PERSONALIZAÇÃO DE RESULTADOS DE BUSCA NA WEB MARINGÁ 2010

2

3 KÉSSIA RITA DA COSTA MARCHI UMA ABORDAGEM PARA PERSONALIZAÇÃO DE RESULTADOS DE BUSCA NA WEB Dissertação apresentada ao Programa de Pós-Graduação em Ciência da Computação da Universidade Estadual de Maringá, como requisito parcial para obtenção do grau de Mestre em Ciência da Computação. Orientador: Prof. Dr. Sérgio Roberto Pereira da Silva Co-Orientador: Profa. Dra. Valéria Delisandra Freltrim MARINGÁ 2010

4 Dados Internacionais de Catalogação na Publicação (CIP) M316a Marchi, Késsia Rita da Costa Abordagem para a personalização de resultados de busca na web, uma / Késsia Rita da Costa Marchi. Maringá: UEM, Orientador: Prof. Dr. Sérgio Roberto P. da Silva Co-orientadora: Profª. Drª. Valéria D. Feltrin Dissertação (mestrado) Universidade Estadual de Maringá, Programa de Pós-Graduação em Ciências da Computação, Ciência da Computação - busca. 2. Personalização resultado de busca na web. 3. Mecanismo de busca - modo de usar I. Universidade Estadual de Maringá II. Título. (21. ed.) CDD: 004 Bibliotecária Responsável Zineide Pereira dos Santos CRB 9/1577

5 KÉSSIA RITA DA COSTA MARCHI UMA ABORDAGEM PARA A PERSONALIZAÇÃO DE RESULTADOS DE BUSCA NA WEB Dissertação apresentada ao Programa de Pós-Graduação em Ciência da Computação da Universidade Estadual de Maringá, como requisito parcial para obtenção do grau de Mestre em Ciência da Computação. Aprovado em 25/02/2010 BANCA EXAMINADORA.

6

7 AGRADECIMENTOS Agradeço primeiramente a Deus, por ter me dado forças para concluir todas as etapas desse curso e, principalmente, concluir este trabalho. Agradeço e dedico este trabalho, a toda a minha família, em especial meus pais, José e Enete, meu marido André, minha filha Gabriela e meus irmãos Katiuce e Tiago, sem o apoio, compreensão, carinho, incentivo e companherismo de vocês a realização deste sonho não seria possível. Ao meu orientador, Prof. Dr. Sérgio Roberto P. da Silva, idealista deste trabalho e a minha co-orientadora, Profa. Dra. Valéria D. Feltrim, pelas orientações, auxílio e confiança em mim depositada. Aos meus eternos amigos de mestrado, e em especial aos meus irmãos de mestrado Roberto Pereira e José Valderlei da Silva (Jesus). Aos meus companheiros de trabalho, Claudete Werner, Wyllian Fressati e em especial à Daniela Eloise Flôr, que sempre me orientou e me ouviu nos momentos difíceis. Agradeço a vocês por todo apoio dado e todas as substituições realizadas ao longo do período de mestrado. Por fim, agradeço a Maira Inês Davanço, secretária do mestrado, por toda a dedicação e atenção dada a todos os alunos diariamente.

8

9 RESUMO O excesso de informação disponível na Web tem requerido dos usuários um maior esforço na recuperação de informação relevante ao seu interesse. Apesar dos motores de busca convencionais possuírem capacidade de retornar resultados de boa qualidade em resposta à maioria das consultas, eles ainda não conseguem oferecer estes resultados de forma eficiente. Neste trabalho é proposta uma arquitetura para um sistema de personalização de busca na Web que emprega a técnica de indexação de semântica latente, adaptada para o ambiente Web, em conjunto com um modelo de usuário construído de forma implícita por meio do acompanhamento da navegação do usuário nos documentos resultantes da busca. Por um lado, a técnica de indexação de semântica latente permite identificar a relação semântica existente entre os websites, proporcionando uma melhor ordenação dos resultados. Por outro, o modelo de usuário proporciona condições de identificar os interesses de um usuário na busca e possibilita uma melhoria na ordenação dos resultados oferecidos de acordo com esse interesse. Para validar esta proposta foram realizadas algumas simulações que comparam a classificação oferecida pelo motor de busca convencional Google com a reclassificação oferecida pelo protótipo desenvolvido. Os resultados dessas simulações apresentaram-se bastante favoráveis, mostrando uma melhor classificação para os documentos considerados relevantes, o que tende a reduzir os esforços empregados pelos usuários na busca de informação relevante. No entanto, o modelo de usuário ainda apresenta alta sensibilidade frente às escolhas de documentos com baixa relevância durante a navegação do usuário. Palavras-Chave: Personalização de Busca na Web, Indexação de Semântica Latente, Modelo de Usuário.

10

11 ABSTRACT The excess of information available on the Web has required a greater effort from users to retrieve information relevant to their interest. Despite conventional search engines possess the ability to retrieve good quality results in response to the majority of users' queries, they are not able to offer these results efficiently. In this work, we propose an architecture for a web search personalization system, employing the technique of latent semantic indexing, adapted to the Web environment, together with a user model built implicitly by monitoring users while they browse among the documents retrieved in the search. In one side, the technique of latent semantic indexing allows the identification of semantic relationship among websites, providing a better ordering of the results. In other side, the user model provides conditions to identify the interest of a user in the search and allows an improvement in the ordering of the results provided according to that interest. To evaluate this proposal, some simulations were carried out comparing the classification offered by conventional search engine Google with the reclassification offered by the prototype developed in our research. The results of these simulations are quite favorable, showing better classification for documents relevant to the user, which tends to reduce the efforts employed by users in finding relevant information. However, the user model stilll has a high sensitivity to the choice of low relevant documents during the user navigation. Keywords: Personalization of Web Search, Latent Semantic Indexing, User Model.

12

13 SUMÁRIO LISTA DE FIGURAS LISTA DE QUADROS E TABELAS LISTA DE EQUAÇÕES LISTA DE ABREVIATURAS E SIGLAS INTRODUÇÃO RECUPERAÇÃO DE INFORMAÇÃO Aspectos Gerais Pré-processamento em Documentos O processo de Tokenização O Processamento de Stopwords O Processo de Stemming Modelos Clássicos Modelo Booleano Modelo Vetorial Modelo Probabilístico Modelos Alternativos O Processo de Indexação de Semântica Latente Decomposição de Valores Singulares Exemplo de aplicação da LSI Recuperação de Informação na Web Aspectos gerais sobre os motores de busca Deficiências dos motores de busca atuais Experimento PERSONALIZAÇÃO DE BUSCA NA WEB A Modelagem do Usuário em Sistemas de Personalização Navegação Adaptativa Abordagens de Personalização na Web Pesquisa contextual Personalização baseada em histórico de consultas Personalização baseada na representação rica das necessidades dos usuários Resultados adaptados por clusterização Personalização baseada em hiperlink:... 86

14 4. ADAPTAÇÃO E PERSONALIZAÇÃO PARA BUSCAS NA WEB A Proposta de um Sistema Adaptativo de Busca Arquitetura do sistema proposto Etapa de pré-processamento Construção do modelo de usuário Adaptação da indexação de semântica latente Personalização dos resultados AVALIAÇÃO DA ARQUITETURA PROPOSTA Metodologia Definindo a Consulta Inicial Aplicando a LSI Aplicando a LSI Adaptada Aplicando o Modelo De Usuário CONCLUSÃO REFERÊNCIAS

15 LISTA DE FIGURAS Figura 1 - Processo básico de Recuperação de Informação Figura 2 - Processo de Tokenização e remoção de Stopwords Figura 3 Posição do primeiro documento relevante classificado pelo Google Figura 4 - Processo de personalização como parte do processo de recuperação Figura 5 Processo de personalização por re-classificação dos resultados obtidos Figura 6 - Processo de personalização por modificação da consulta Figura 7 - Distinção das abordagens de personalização Figura 8 - Arquitetura do Protótipo Figura 9 Proposta de interface Figura 10 - Long tail dos termos utilizados Figura 11- Personalização dos resultados Figura 12 - Processo de Simulação Figura 13 - Ordenação oferecida pelo Google para o primeiro usuário Figura 14 - Ordenação oferecida pelo Google para o segundo usuário Figura 15 - Ordenação oferecida pelo Google para o terceiro usuário Figura 16 Ordenação Google e Protótipo considerando consulta do primeiro usuário Figura 17 - Ordenação Google e Protótipo considerando consulta do segundo usuário Figura 18 - Ordenação Google e Protótipo considerando consulta do terceiro usuário Figura 19 - Gráfico da Comparação Precisão Média dos Retornos Oferecidos Figura 20 - Classificação obtida pelo primeiro usuário utilizando 80% dos termos Figura 21 - Classificação obtida pelo primeiro usuário utilizando 60% dos termos Figura 22 - Classificação obtida pelo primeiro usuário utilizando 40% dos termos Figura 23- Classificação obtida pelo primeiro usuário utilizando 20% dos termos Figura 24 - Classificação obtida pelo primeiro usuário utilizando 10% dos termos Figura 25 Tempo médio de processamento e % de termos utilizados Figura 26 - Precisão Média e % de termos utilizados Figura 27 - Precisão Média e tempo de processamento Figura 28 Ordenação Google e Protótipo considerando a navegação do primeiro usuário. 120 Figura 29 - Classificação obtida a partir de 1 website navegado Figura 30 - Classificação obtida a partir de 3 website navegado Figura 31 - Classificação obtida a partir de 5 website navegado Figura 32 - Classificação obtida a partir de 7 website navegado

16 Figura 33 - Classificação obtida a partir de 9 website navegado Figura 34 - Precisão média considerando a navegação do primeiro usuário Figura 35 - Precisão média considerando a navegação do segundo usuário Figura 36 - Precisão média considerando a navegação do terceiro usuário Figura 37 - Precisão média considerando websites parcialmente relevantes Figura 38 - Precisão média considerando websites irrelevantes

17 LISTA DE QUADROS E TABELAS Tabela 1 - Representação de uma coleção de documentos Tabela 2 - Modelos de Recuperação de Informação Tabela 3 - Coleção de documentos Tabela 4 - Matriz de frequência termo-documento Tabela 5 - Matriz termo-documento normalizada Tabela 6 - Matriz termo-documentos com cálculos TF-IDF Tabela 7 - Coleção de documentos re-ordenada Tabela 8 - Consultas realizadas por usuários Tabela 9 - Número de documentos totalmente relevantes Tabela 10 - Número de documentos com relevância parcial Tabela 11 - Comparação dos retornos obtidos pelos usuários Tabela 12 - Posição dos documentos relevantes Tabela 13 - Abordagens de personalização e forma de obtenção do perfil do usuário Tabela 14 Precisão média da ordenação oferecida pelo motor de busca Tabela 15- Tempo consumido para execução da LSI sem adaptação Tabela 16 - Redução no total de termos Tabela 17 - Precisão Média e Tempo de Execução para o corte de 20% dos termos Tabela 18 - Precisão Média e Tempo de Execução para o corte de 40% dos termos Tabela 19- Precisão Média e Tempo de Execução para o corte de 60% dos termos Tabela 20 - Precisão Média e Tempo de Execução para o corte de 80% dos termos Tabela 21 - Tempo de processamento X Precisão Média Tabela 22 - Precisão média

18

19 LISTA DE EQUAÇÕES Equação 1 - Representação Vetorial de um documento no modelo Espaço-Vetorial Equação 2 - Função de Similaridade Equação 3 Equação para comparação documento-documento Equação 4 Equação para realização do matching entre consulta e documentos Equação 5- Adição de novos documentos Equação 6 - Adição de novos termos Equação 7 - Cálculo da Precisão

20

21 LISTA DE ABREVEATURAS E SIGLAS LSI Latent Semantic Indexing HTML HyperText Markup Language TF Term-Frequency IDF Inverse document frequency SVD Single Value Decomposition HA Hipermídia Adaptativa MOSC Módulo de operações sobre as consultas MOST Módulo de operações sobre o texto MR Módulo de re-ordenação SEO Search Engine Optimization

22

23 23 C a p í t u l o I INTRODUÇÃO Recuperar informações em um contexto aberto, como é o caso da Web, ainda é uma tarefa complexa para os modelos tradicionais de busca de informações, baseados em algoritmos de indexação de conteúdos. A despeito dos softwares atuais de localização de informações, denominados motores de busca, possuirem um grande número de páginas indexadas, sendo capazes de obter resultados de boa qualidade em resposta às consultas dos usuários, os resultados nem sempre vão ao encontro dos reais interesses dos usuários. Em geral, o uso de técnicas de search engine optimization (SEO 1 ) coloca vários website comerciais nas primeiras posições do ranking destes motores de busca, o que pode ser contrário ao interesse de um usuário que está interessado na parte técnica ou artística de um assunto. 1 Os SEOs Search Engine Optimizator, são pessoas ou entidades que realizam trabalhos referentes à otimização de websites. Essa otimização é obtida por meio do posicionamento nos primeiros lugares nas ferramentas de busca para algumas palavras-chaves.

24 24 É neste cenário que os motores de busca convencionais encontram dois grandes desafios. O primeiro diz respeito à qualidade dos resultados, ou seja, como fornecer resultados de qualidade independente do nível de conhecimento sobre a construção de strings de consultas de cada usuário. Mesmo os melhores motores de busca ainda não conseguem retornar uma classificação precisa referente ao contexto de interesse do usuário. Os resultados oferecidos por estes motores de busca misturam websites que são verdadeiramente relevantes ao contexto do usuário com websites que apresentam uma similaridade marginal à consulta, ou que são totalmente irrelevantes. De acordo com MANNING (2008), o número de termos utilizados na elaboração de consultas na Web está em torno de duas ou três palavras-chaves e raramente são utilizados os conectivos booleanos ou caracteres especiais. Esse fato reflete diretamente nos resultados oferecidos pelos motores de busca, que tendem a retornar muitos websites irrelevantes, exigindo que o usuário realize uma filtragem manual dos resultados para obtenção dos que traduzam realmente seu interesse. O esforço empregado nessa filtragem pode ser alto de acordo com a precisão da classificação dos resultados oferecidos pelo motor de busca (HARDTKE, 2009; BRUSILOVSKY, 2009; [B] MICARELLI, 2007; PANT, 2003). O segundo desafio dos motores de busca se relaciona com qualidade da interface com o usuário, ou seja, como atender usuários leigos e/ou profissionais experientes com uma única interface simples. Embora se deseje ter uma interface simples, é interessante que ela possua recursos que facilitem a navegação e, ao mesmo tempo, constituam uma poderosa ferramenta para consultas complexas. Essas interfaces devem ser capazes de apresentar resultados que atendam as necessidades do usuário e exijam desse usuário um mínimo esforço na busca de informação relevante.

25 25 De acordo com KHOPKAR (2003), os motores de busca que têm recursos que possibilitam a interação com o usuário, visando a construção de um modelo de interesses do usuário, apresentam um nível maior de complexidade de interação. Essa interação pode ocorrer de duas formas, sendo por meio: do feedback implícito, no qual as ações do usuário são capturadas de forma não intrusiva; ou do feedback explícito, que requer do usuário uma intervenção direta. Os sistemas que fazem uso do feedback explícito apresentam problemas relacionados a obtenção da informação correta, devido à preocupação com a privacidade ([B] MICARELLI, 2007; PAZZANI, 2007). Softwares como o SurfCanyon (HARDTKE, 2009) utilizam os dois meios de interação, entretanto, usuários leigos apresentam dificuldade de interagir com os recursos adicionais, como os ícones apresentados no final de cada link que possibilita a aproximação de websites similares a esse link. Com o intuito de discutir possíveis melhorias aos problemas referentes aos retornos oferecidos pelos motores de busca convencionais, este trabalho explora ineficiências comuns a estes motores de busca, propondo uma forma de personalização dos resultados oferecidos pelos mesmos de acordo com um modelo de usuário construído de forma implícita, o qual considera as ações do mouse ou do teclado durante a navegação do usuário, possibilitando, assim, identificar o interesse do usuário em cada website. Com a finalidade de apoiar a realização da personalização dos resultados das consultas, foi considerada a hipótese de se criar um modelo de usuário implícito com o uso da técnica de LSI (Latent Semantic Indexing) para auxiliar na indexação semântica dos websites (por meio da identificação de estruturas semânticas ocultas nas relações entre termos e websites) (MANNING, 2008; DEERWESTER, 1996; BAEZA-YATES, 1999). Trabalhos citados por [A] MICARELLI (2007), BRUSILOVSKY (2004, 2009), MANNING (2008), sugerem o uso da LSI em motores de busca no momento da indexação. Neste trabalho, é proposta a aplicação dessa técnica em websites retornados pelos motores de busca

26 26 convencionais e a apresentação de uma nova classificação baseada na similaridade identificada pela LSI no browser do usuário. O modelo de usuário será construído a partir da matriz LSI de cada website visitado. Para tornar viável a utilização da LSI no ambiente web é necessária a realização de adaptações. Com base na lei de Zipf (BRYNJOLFSSON, 2007; KOCH, 2000; ZIPF, 1949) é proposto um corte significativo no número de termos usados na matriz LSI, o que proporciona um maior desempenho e possibilita que as classificações dos resultados das consultas realizadas pelos usuários aconteçam em paralelo à sua navegação. As classificações ocorrem a cada atualização do modelo de usuário e os resultados são re-ordenados por meio do método de visualização personalizada, fazendo uso da ordenação, ou classificação, adaptativa dos links retornados pelo motor de busca. Para validar a utilização da técnica de LSI em conjunto com o modelo de usuário construído de forma implícita, foram realizadas algumas simulações com os resultados obtidos por meio de um protótipo construído e comparados aos resultados obtidos pelo motor de busca Google. As simulações realizadas indicaram a viabilidade de se aplicar o modelo de usuário proposto e a técnica de LSI aplicada a um percentual de termos extraídos de cada documento, na re-ordenação dos resultados oferecidos pelos motores de busca convencionais na Web. Entretanto, é importante salientar que, por se tratar de uma simulação, certos detalhes foram ignorados, como, a não consideração das diferentes taxas de conexões que os usuário utilizam e as questões de interação humano-computador. Esta dissertação está organizada da seguinte forma. No Capítulo II, apresentamos os conceitos relativos a área de recuperação de informação, falando sobre a etapa de préprocessamento de texto realizado nas tarefas de Recuperação de Informação (RI); os modelos clássicos de RI; os modelos alternativos, como a LSI; e o processo de recuperação de informação na Web, citando o funcionamento tradicional dos motores de busca e identificando

27 27 algumas de suas deficiências. No Capítulo III, abordamos os conceitos sobre personalização de busca na Web, enfocando conceitos de adaptatividade, hipermídia adaptativa, modelo de usuário; navegação adaptativa e técnicas de personalização. No Capítulo IV, descrevemos nossa proposta de personalização dos resultados oferecidos pelos motores de busca convencionais utilizando a LSI aplicada a um percentual de termos em conjunto com um modelo de usuário criado de forma implícita. No Capítulo V, detalhamos o processo de simulação realizado e as análises dos resultados obtidos nesse processo. Finalmente, no Capítulo VI, apresentamos nossas conclusões sobre o trabalho desenvolvido, discutimos suas limitações e sugerimos algumas pesquisas futuras.

28

29 29 C a p í t u l o II RECUPERAÇÃO DE INFORMAÇÃO Atarefa de recuperar informações lida com os processos de representação, armazenamento, organização e acesso à informação, objetivando proporcionar ao usuário uma maior facilidade de acesso à informação relevante (BAEZA- YATES, 1999). Neste capítulo, aborda-se o conceito de Recuperação de Informação (RI), sua origem, aplicações e classificação. Apresentam-se ainda as tarefas que ocorrem na etapa de préprocessamento dos documentos, a qual tem como objetivo principal identificar as palavras importantes do texto no contexto ao qual elas pertencem. A seguir são apresentados os

30 30 modelos booleano, vetorial e probabilístico, os quais são considerados clássicos na tarefa de RI. Após essas discussões são citados alguns modelos alternativos de RI e realizada uma explanação sobre o processo de Indexação de Semântica Latente (LSI do Inglês Latent Semantic Index), o qual visa melhorar os resultados oferecidos em tarefas de RI. Por fim, apresenta-se as características inerentes à recuperação de informação na Web, a qual, normalmente, ocorre por meio de motores de busca Aspectos Gerais O termo RI tem sido utilizado desde a década de 40, sendo citado pela primeira vez por Calvin Mooers em sua dissertação de mestrado (MOOERS, 1950). A RI é reconhecida como uma área de pesquisa interdisciplinar, englobando áreas como Ciência da Computação, Arquitetura da Informação, Psicologia Cognitiva, Lingüística, Estatística e outras (GARFIELD, 1977). No princípio, a RI era uma tarefa utilizada apenas por pessoas que trabalhavam em áreas específicas, como bibliotecários, paralegais e pesquisadores em geral. Entretanto, a sobrecarga de informação 2 atual mudou esse cenário. Hoje milhares de pessoas estão engajadas na recuperação de informações quando estão utilizando a Web por meio dos motores de busca disponíveis, ou mesmo na consulta de seus s. Nesse contexto, nota-se que a RI abrange outros tipos de dados que não somente os estruturados como no modelo de banco de dados relacional, fortemente empregado hoje em dia no armazenamento de dados. Dessa forma, estabeleceu-se uma nova necessidade: a consulta em dados semi-estruturados, os quais são caracterizados por possuírem uma estrutura 2 Sobrecarga de Informação é um termo amplamente utilizado para definir a quantidade excessiva de informações disponível na Web (HIMMA, 2007).

31 31 irregular e, muitas vezes, implícita como nos tipos de dados contidos nas páginas HTML (HyperText Markup Language) (MANNING, 2008; PAPAKONSTANTINOU, 1995). Os dados semi-estruturados apresentam uma representação estrutural heterogênea, sendo caracterizados por não possuírem um esquema pré-definido, tendo o esquema de representação presente de forma implícita ou explícita juntamente com os dados, ou seja, eles possuem uma estrutura auto-descritiva. Este tipo de estrutura determina que deve ser feita uma análise dos dados para identificar e extrair a estrutura e os dados que poderão ser utilizados (ELMASRI, 2005). Sistemas de RI são classificados, segundo MANNING (2008), em três escalas. Na escala inicial está a recuperação de informação pessoal, a qual apresenta como objetivo realizar a recuperação de informação em computadores pessoais. Sistemas operacionais como o Windows 7 e Apple s Mac OS X, entre outros, tem integrado a recuperação pessoal de informação. Outros exemplos são os programas de s que fornecem meios para classificações automáticas ou manuais em pastas particulares e filtros anti-spam. Na escala intermediária, encontram-se os sistemas empresariais, institucionais e de busca em um domínio específico, nos quais a recuperação ocorre em uma coleção de dados específica, como em uma determinada base de dados ou em artigos resultantes de uma pesquisa (na qual, normalmente, esses arquivos ficam armazenados em um sistema centralizado). Por fim, na escala mais avançada, tem-se a busca na Web, na qual o sistema realiza a pesquisa na Web e deve ser capaz de trabalhar de forma eficiente, tornando possível que o usuário empregue o menor esforço, e eficaz, produzindo o melhor resultado. A pesquisa realizada deve considerar aspectos particulares da rede, como a exploração de hiperdocumentos e a existência de spamming 3, para a manipulação dos resultados obtidos nos mecanismos de busca. 3 Spamming são técnicas que promovem uma maior exposição do website nos mecanismos de busca, ocasionando resultados insatisfatórios.

32 32 De uma forma geral, sistemas de RI suportam três processos básicos, sendo eles: a representação dos conteúdos dos documentos; a representação das necessidades dos usuários, normalmente indicadas por consultas; e a comparação entre esses dois processos, conforme mostra a figura 1 (CROFT, 1993). Figura 1 - Processo básico de Recuperação de Informação Os documentos são representados por um processo chamado de indexação, o qual gera uma representação formal dos dados de cada documento. Os algoritmos que realizam a indexação variam desde soluções triviais, normalmente utilizadas para indexar documentos de textos completos, até algoritmos mais complexos que armazenam parcialmente o conteúdo dos documentos, geralmente utilizados para grandes coleções. Além dos conteúdos, os índices também guardam informações sobre a localização real de cada documento. Há vários métodos de indexação já desenvolvidos, como o array de sufixos, a assinatura de arquivos e os índices invertidos (HIEMSTRA, 2001). A representação de informações sobre o problema, ilustrada na figura 1, frequentemente é referenciada como o processo de formulação de consultas. Formular uma consulta pode denotar a interação completa entre o sistema e o usuário. Por meio da consulta, o sistema consegue subsídios para começar a entender qual é a necessidade do usuário

33 33 (HIEMSTRA, 2001). Deste modo, a formulação da consulta determina diretamente os resultados oferecidos no processo de comparação. Para formular uma consulta nas ferramentas de busca convencionais pode-se: Fazer uso de termos, ou seja, palavras chaves extraídas da comunicação em linguagem natural, para as quais o mecanismo de busca retornará documentos que possuem esses termos, independentes de sua posição no texto. Ex. information retrieval retornará qualquer documento que possua a palavra information ou retrieval, independente de sua posição. Fazer uso de aspas, que permite definir a sequência exata dos termos, normalmente formando uma frase. Ex. information retrieval retornará documentos que possuem essa sequência de palavras. Fazer uso de conectivos lógicos AND e OR, que determinam a obrigatoriedade ou não do termo no documento. Ex1. information AND retrieval retornará documentos que possuam, obrigatoriamente, os dois termos independentes de posição. Ex2. information OR retrieval retornará documentos que possuam, pelo menos, um dos termos utilizados na consulta. Fazer uso de negação, que permite especificar que a presença de um determinado termo no documento exclua esse documento da lista de retornos, ou seja, consultando por information retrieval serão retornados documentos que possuam o termo information e não possuam o termo retrieval. Escrever consultas que reúnam termos, aspas, conectivos lógicos e negação para explicitar de forma completa a necessidade do usuário. Formulando uma consulta de forma consistente e coerente é possível obter um maior número de documentos relevantes ao interesse do usuário. Quanto mais detalhes forem

34 34 apresentados ao mecanismo de busca no momento da formulação da consulta, mais refinado fica o resultado apresentado por esse mecanismo. O processo de comparação (matching) refere-se a comparar a consulta formulada pelo usuário com os documentos indexados pelo mecanismo de busca. A partir de um conjunto de documentos e uma consulta, o processo de comparação obtém um subconjunto ordenado de documentos relevantes à consulta formulada. Essa ordenação tem como objetivo principal minimizar o tempo que o usuário leva para encontrar documentos interessantes e é estabelecida pelo algoritmo de classificação de cada mecanismo de busca. Esses algoritmos, na sua maioria, utilizam a frequência dos termos e/ou métodos estatísticos para a distribuição desses documentos. Ao navegar nos documentos retornados, o usuário pode obter informações sobre o problema, o que pode auxiliá-lo a melhorar a query e, por conseqüência, obter um maior número de documentos relevantes. Na sua forma convencional, o processo de comparação realizado por motores de busca utiliza simplesmente a recuperação de palavras por semelhança literal, não levando em consideração toda a informação existente no documento ou as interações realizadas pelos usuários. RIJSBERGEN (1999) comenta que esse processo poderia ser realizado por meio do conjunto de palavras pertencentes aos documentos da coleção, fazendo o uso de sinonímia 4. A sinonímia pode causar uma sensível redução no número de documentos retornados relevantes à consulta, devido ao fato de que a palavra-chave que está sendo utilizada na consulta pode não estar sendo utilizada no documento. E, além desse uso, também é possível utilizar informações referentes ao interesse do usuário por meio da sua interação com o sistema. Em uma abordagem de RI, tanto a sinonímia quanto a polissemia 5, são problemas importantes que devem ser tratados na etapa de pré-processamento. A polissemia pode causar retornos de documentos não relevantes ao usuário, pois as palavras-chaves utilizadas na string 4 Sinonímia é um fenômeno que ocorre com palavras diferentes que apresentam o mesmo significado. 5 A polissemia é um fenômeno em que uma palavra possui múltiplos significados.

Exibir mais