UMA ABORDAGEM PARA PERSONALIZAÇÃO DE RESULTADOS DE BUSCA NA WEB

Documentos relacionados

Organizaçãoe Recuperação de Informação GSI521. Prof. Rodrigo Sanches Miani FACOM/UFU

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

Novell. Novell Teaming 1.0. novdocx (pt-br) 6 April 2007 EXPLORAR O PORTLET BEM-VINDO DESCUBRA SEU CAMINHO USANDO O NOVELL TEAMING NAVIGATOR

T U T O R I A I S WEB OF SCIENCE TUTORIAL. Biblioteca da Escola de Engenharia da UFRGS. WEB OF SCIENCE - Tutorial

4 Segmentação Algoritmo proposto

Modelo Cascata ou Clássico

Resolução de problemas e desenvolvimento de algoritmos

ADM041 / EPR806 Sistemas de Informação

CAPÍTULO 3 - TIPOS DE DADOS E IDENTIFICADORES

Status. Barra de Título. Barra de Menu. Barra de. Ferramentas Padrão. Caixa de nomes. Barra de. Ferramentas de Formatação. Indicadores de Coluna

Para construção dos modelos físicos, será estudado o modelo Relacional como originalmente proposto por Codd.

Tabela de Símbolos. Análise Semântica A Tabela de Símbolos. Principais Operações. Estrutura da Tabela de Símbolos. Declarações 11/6/2008

Algoritmos e Programação (Prática) Profa. Andreza Leite andreza.leite@univasf.edu.br

GARANTIA DA QUALIDADE DE SOFTWARE

textos documentos semi-estruturado

RECUPERAÇÃO DE DOCUMENTOS TEXTO USANDO MODELOS PROBABILISTICOS ESTENDIDOS

Desenvolvendo uma Arquitetura de Componentes Orientada a Serviço SCA

MODELAGEM DE DADOS MODELAGEM DE DADOS. rafaeldiasribeiro.com.br 04/08/2012. Aula 7. Prof. Rafael Dias Ribeiro.

ISO/IEC 12207: Gerência de Configuração

Recuperação de Informação

Banco de Dados Aula 1 Introdução a Banco de Dados Introdução Sistema Gerenciador de Banco de Dados

Capítulo 3. Avaliação de Desempenho. 3.1 Definição de Desempenho

UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS

Análise e Desenvolvimento de Sistemas ADS Programação Orientada a Obejeto POO 3º Semestre AULA 03 - INTRODUÇÃO À PROGRAMAÇÃO ORIENTADA A OBJETO (POO)

PROCESSO DE DESENVOLVIMENTO DE SOFTWARE. Modelos de Processo de Desenvolvimento de Software

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

Na medida em que se cria um produto, o sistema de software, que será usado e mantido, nos aproximamos da engenharia.

CONCEITOS INICIAIS. Agenda A diferença entre páginas Web, Home Page e apresentação Web;

Módulo 4. Construindo uma solução OLAP

Pós-Graduação em Gerenciamento de Projetos práticas do PMI

Introdução ao EBSCOhost 2.0

Introdução aos cálculos de datas

Conteúdo. Disciplina: INF Engenharia de Software. Monalessa Perini Barcellos. Centro Tecnológico. Universidade Federal do Espírito Santo

Pesquisa e organização de informação

ENGENHARIA DE SOFTWARE I

Introdução a listas - Windows SharePoint Services - Microsoft Office Online

04/03/2013. Gerenciamento de Dados e Informação. Recuperação de Dado X Informação. Histórico

Ajuda ao SciEn-Produção O Artigo Científico da Pesquisa Experimental

Documento Descritivo do Mecanismo de Busca. Preparação do Portal para indexação

DESENVOLVIMENTO DE UM SOFTWARE NA LINGUAGEM R PARA CÁLCULO DE TAMANHOS DE AMOSTRAS NA ÁREA DE SAÚDE

Planejando o aplicativo

Metadados. 1. Introdução. 2. O que são Metadados? 3. O Valor dos Metadados

Engenharia de Software III

3 SCS: Sistema de Componentes de Software

Recuperação. Profa. Lillian Alvares Faculdade de Ciência da Informação Universidade de Brasília

EDITORA FERREIRA MP/RJ_EXERCÍCIOS 01

DATA WAREHOUSE. Introdução

ADMINISTRAÇÃO DOS RECURSOS DE DADOS

Aula 4 Pseudocódigo Tipos de Dados, Expressões e Variáveis

SQL APOSTILA INTRODUÇÃO A LINGUAGEM SQL

Algoritmos: Lógica para desenvolvimento de programação de computadores. Autor: José Augusto Manzano. Capítulo 1 Abordagem Contextual

Nathalie Portugal Vargas

Organização e Recuperação da Informação

3 Classificação Resumo do algoritmo proposto

6 Construção de Cenários

UNIVERSIDADE FEDERAL DE SANTA MARIA CENTRO DE TECNOLOGIA AULA 14 PROFª BRUNO CALEGARO

UNIVERSIDADE FEDERAL DO PARANÁ UFPR Bacharelado em Ciência da Computação

Universidade Federal de Santa Maria Curso de Arquivologia. Disciplina de Banco de Dados Aplicados à Arquivística. Versao 1.

)HUUDPHQWDV &RPSXWDFLRQDLV SDUD 6LPXODomR

QFD: Quality Function Deployment QFD: CASA DA QUALIDADE - PASSO A PASSO

Arquitetura dos Sistemas de Informação Distribuídos

Banco de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri. Banco de Dados Processamento e Otimização de Consultas

Introdução aos critérios de consulta. Um critério é semelhante a uma fórmula é uma cadeia de caracteres que pode consistir em

O ESPAÇO NULO DE A: RESOLVENDO AX = 0 3.2

ENGENHARIA DA COMPUTAÇÃO BANCO DE DADOS I CONTEÚDO 5 ABORDAGEM RELACIONAL

Orientação a Objetos

Sistemas de Informação I

Noções de. Microsoft SQL Server. Microsoft SQL Server

Sistemas Distribuídos

Guia de Especificação de Caso de Uso Metodologia CELEPAR

Banco de Dados I. Apresentação (mini-currículo) Conceitos. Disciplina Banco de Dados. Cont... Cont... Edson Thizon

Este documento tem o objetivo de esclarecer alguns procedimentos e definir parâmetros para facilitar o processo.

Guia de utilização da notação BPMN

PROVA DE NOÇÕES DE MICROINFORMÁTICA

Semântica para Sharepoint. Busca semântica utilizando ontologias

Conceitos de Banco de Dados

Persistência e Banco de Dados em Jogos Digitais

TCEnet. Manual Técnico. Responsável Operacional das Entidades

Engenharia de Software: conceitos e aplicações. Prof. Tiago Eugenio de Melo, MSc tiagodemelo@gmail.com

Web Design. Prof. Felippe

TECNOLOGIAS DA INFORMAÇÃO E COMUNICAÇÃO - TIC 10º C. Planificação de. Curso Profissional de Técnico de Secretariado

MÓDULO 11 ELEMENTOS QUE FAZEM PARTE DO PROJETO DO SISTEMA

Princípios de Design TRADUÇÃO DE TATIANE CRISTINE ARNOLD, DO ARTIGO IBM DESIGN: DESIGN PRINCIPLES CHECKLIST.

Roteiro. Modelo de Dados Relacional. Processo de Projeto de Banco de Dados. BCC321 - Banco de Dados I. Ementa. Posicionamento.

Dadas a base e a altura de um triangulo, determinar sua área.

Bancos de dados distribuídos Prof. Tiago Eugenio de Melo

ALESSANDRO RODRIGO FRANCO FERNANDO MARTINS RAFAEL ALMEIDA DE OLIVEIRA

04/08/2012 MODELAGEM DE DADOS. PROF. RAFAEL DIAS RIBEIRO, MODELAGEM DE DADOS. Aula 2. Prof. Rafael Dias Ribeiro. M.Sc.

Metodologias de Desenvolvimento de Sistemas. Analise de Sistemas I UNIPAC Rodrigo Videschi

Gerenciamento de Projetos Modulo II Ciclo de Vida e Organização do Projeto

Técnicas de Caixa Preta de Teste de Software

2 Diagrama de Caso de Uso

DESENVOLVIMENTO WEB DENTRO DOS PARADIGMAS DO HTML5 E CSS3

Arquitetura de Rede de Computadores

Transcrição:

KÉSSIA RITA DA COSTA MARCHI UMA ABORDAGEM PARA PERSONALIZAÇÃO DE RESULTADOS DE BUSCA NA WEB MARINGÁ 2010

KÉSSIA RITA DA COSTA MARCHI UMA ABORDAGEM PARA PERSONALIZAÇÃO DE RESULTADOS DE BUSCA NA WEB Dissertação apresentada ao Programa de Pós-Graduação em Ciência da Computação da Universidade Estadual de Maringá, como requisito parcial para obtenção do grau de Mestre em Ciência da Computação. Orientador: Prof. Dr. Sérgio Roberto Pereira da Silva Co-Orientador: Profa. Dra. Valéria Delisandra Freltrim MARINGÁ 2010

Dados Internacionais de Catalogação na Publicação (CIP) M316a Marchi, Késsia Rita da Costa Abordagem para a personalização de resultados de busca na web, uma / Késsia Rita da Costa Marchi. Maringá: UEM, 2010. Orientador: Prof. Dr. Sérgio Roberto P. da Silva Co-orientadora: Profª. Drª. Valéria D. Feltrin Dissertação (mestrado) Universidade Estadual de Maringá, Programa de Pós-Graduação em Ciências da Computação, 2010. 1. Ciência da Computação - busca. 2. Personalização resultado de busca na web. 3. Mecanismo de busca - modo de usar I. Universidade Estadual de Maringá II. Título. (21. ed.) CDD: 004 Bibliotecária Responsável Zineide Pereira dos Santos CRB 9/1577

KÉSSIA RITA DA COSTA MARCHI UMA ABORDAGEM PARA A PERSONALIZAÇÃO DE RESULTADOS DE BUSCA NA WEB Dissertação apresentada ao Programa de Pós-Graduação em Ciência da Computação da Universidade Estadual de Maringá, como requisito parcial para obtenção do grau de Mestre em Ciência da Computação. Aprovado em 25/02/2010 BANCA EXAMINADORA.

AGRADECIMENTOS Agradeço primeiramente a Deus, por ter me dado forças para concluir todas as etapas desse curso e, principalmente, concluir este trabalho. Agradeço e dedico este trabalho, a toda a minha família, em especial meus pais, José e Enete, meu marido André, minha filha Gabriela e meus irmãos Katiuce e Tiago, sem o apoio, compreensão, carinho, incentivo e companherismo de vocês a realização deste sonho não seria possível. Ao meu orientador, Prof. Dr. Sérgio Roberto P. da Silva, idealista deste trabalho e a minha co-orientadora, Profa. Dra. Valéria D. Feltrim, pelas orientações, auxílio e confiança em mim depositada. Aos meus eternos amigos de mestrado, e em especial aos meus irmãos de mestrado Roberto Pereira e José Valderlei da Silva (Jesus). Aos meus companheiros de trabalho, Claudete Werner, Wyllian Fressati e em especial à Daniela Eloise Flôr, que sempre me orientou e me ouviu nos momentos difíceis. Agradeço a vocês por todo apoio dado e todas as substituições realizadas ao longo do período de mestrado. Por fim, agradeço a Maira Inês Davanço, secretária do mestrado, por toda a dedicação e atenção dada a todos os alunos diariamente.

RESUMO O excesso de informação disponível na Web tem requerido dos usuários um maior esforço na recuperação de informação relevante ao seu interesse. Apesar dos motores de busca convencionais possuírem capacidade de retornar resultados de boa qualidade em resposta à maioria das consultas, eles ainda não conseguem oferecer estes resultados de forma eficiente. Neste trabalho é proposta uma arquitetura para um sistema de personalização de busca na Web que emprega a técnica de indexação de semântica latente, adaptada para o ambiente Web, em conjunto com um modelo de usuário construído de forma implícita por meio do acompanhamento da navegação do usuário nos documentos resultantes da busca. Por um lado, a técnica de indexação de semântica latente permite identificar a relação semântica existente entre os websites, proporcionando uma melhor ordenação dos resultados. Por outro, o modelo de usuário proporciona condições de identificar os interesses de um usuário na busca e possibilita uma melhoria na ordenação dos resultados oferecidos de acordo com esse interesse. Para validar esta proposta foram realizadas algumas simulações que comparam a classificação oferecida pelo motor de busca convencional Google com a reclassificação oferecida pelo protótipo desenvolvido. Os resultados dessas simulações apresentaram-se bastante favoráveis, mostrando uma melhor classificação para os documentos considerados relevantes, o que tende a reduzir os esforços empregados pelos usuários na busca de informação relevante. No entanto, o modelo de usuário ainda apresenta alta sensibilidade frente às escolhas de documentos com baixa relevância durante a navegação do usuário. Palavras-Chave: Personalização de Busca na Web, Indexação de Semântica Latente, Modelo de Usuário.

ABSTRACT The excess of information available on the Web has required a greater effort from users to retrieve information relevant to their interest. Despite conventional search engines possess the ability to retrieve good quality results in response to the majority of users' queries, they are not able to offer these results efficiently. In this work, we propose an architecture for a web search personalization system, employing the technique of latent semantic indexing, adapted to the Web environment, together with a user model built implicitly by monitoring users while they browse among the documents retrieved in the search. In one side, the technique of latent semantic indexing allows the identification of semantic relationship among websites, providing a better ordering of the results. In other side, the user model provides conditions to identify the interest of a user in the search and allows an improvement in the ordering of the results provided according to that interest. To evaluate this proposal, some simulations were carried out comparing the classification offered by conventional search engine Google with the reclassification offered by the prototype developed in our research. The results of these simulations are quite favorable, showing better classification for documents relevant to the user, which tends to reduce the efforts employed by users in finding relevant information. However, the user model stilll has a high sensitivity to the choice of low relevant documents during the user navigation. Keywords: Personalization of Web Search, Latent Semantic Indexing, User Model.

SUMÁRIO LISTA DE FIGURAS... 15 LISTA DE QUADROS E TABELAS... 17 LISTA DE EQUAÇÕES... 19 LISTA DE ABREVIATURAS E SIGLAS... 21 1. INTRODUÇÃO... 23 2. RECUPERAÇÃO DE INFORMAÇÃO... 29 2.1. Aspectos Gerais... 30 2.2. Pré-processamento em Documentos... 35 2.2.1. O processo de Tokenização... 36 2.2.2. O Processamento de Stopwords... 38 2.2.3. O Processo de Stemming... 39 2.3. Modelos Clássicos... 41 2.3.1. Modelo Booleano... 41 2.3.2. Modelo Vetorial... 42 2.3.3. Modelo Probabilístico... 44 2.4. Modelos Alternativos... 45 2.4.1. O Processo de Indexação de Semântica Latente... 46 2.4.1.1. Decomposição de Valores Singulares... 47 2.4.1.2. Exemplo de aplicação da LSI... 50 2.5. Recuperação de Informação na Web... 56 2.5.1. Aspectos gerais sobre os motores de busca... 57 2.5.1.1. Deficiências dos motores de busca atuais... 60 2.5.1.2. Experimento... 61 3. PERSONALIZAÇÃO DE BUSCA NA WEB... 69 3.1. A Modelagem do Usuário em Sistemas de Personalização... 72 3.2. Navegação Adaptativa... 77 3.3. Abordagens de Personalização na Web... 79 3.3.1. Pesquisa contextual... 81 3.3.2. Personalização baseada em histórico de consultas... 82 3.3.3. Personalização baseada na representação rica das necessidades dos usuários... 83 3.3.4. Resultados adaptados por clusterização... 85 3.3.5. Personalização baseada em hiperlink:... 86

4. ADAPTAÇÃO E PERSONALIZAÇÃO PARA BUSCAS NA WEB... 87 4.1. A Proposta de um Sistema Adaptativo de Busca... 88 4.1.1. Arquitetura do sistema proposto... 89 4.1.2. Etapa de pré-processamento... 91 4.1.3. Construção do modelo de usuário... 94 4.1.4. Adaptação da indexação de semântica latente... 96 4.1.5. Personalização dos resultados.... 97 5. AVALIAÇÃO DA ARQUITETURA PROPOSTA... 99 5.1. Metodologia... 99 5.2. Definindo a Consulta Inicial... 101 5.3. Aplicando a LSI... 107 5.4. Aplicando a LSI Adaptada... 110 5.5. Aplicando o Modelo De Usuário... 119 6. CONCLUSÃO... 129 7. REFERÊNCIAS... 137

LISTA DE FIGURAS Figura 1 - Processo básico de Recuperação de Informação... 32 Figura 2 - Processo de Tokenização e remoção de Stopwords... 39 Figura 3 Posição do primeiro documento relevante classificado pelo Google... 65 Figura 4 - Processo de personalização como parte do processo de recuperação... 75 Figura 5 Processo de personalização por re-classificação dos resultados obtidos... 75 Figura 6 - Processo de personalização por modificação da consulta... 76 Figura 7 - Distinção das abordagens de personalização.... 80 Figura 8 - Arquitetura do Protótipo... 89 Figura 9 Proposta de interface... 91 Figura 10 - Long tail dos termos utilizados... 92 Figura 11- Personalização dos resultados... 97 Figura 12 - Processo de Simulação... 100 Figura 13 - Ordenação oferecida pelo Google para o primeiro usuário... 103 Figura 14 - Ordenação oferecida pelo Google para o segundo usuário... 104 Figura 15 - Ordenação oferecida pelo Google para o terceiro usuário... 104 Figura 16 Ordenação Google e Protótipo considerando consulta do primeiro usuário... 108 Figura 17 - Ordenação Google e Protótipo considerando consulta do segundo usuário... 108 Figura 18 - Ordenação Google e Protótipo considerando consulta do terceiro usuário... 109 Figura 19 - Gráfico da Comparação Precisão Média dos Retornos Oferecidos... 109 Figura 20 - Classificação obtida pelo primeiro usuário utilizando 80% dos termos... 112 Figura 21 - Classificação obtida pelo primeiro usuário utilizando 60% dos termos.... 113 Figura 22 - Classificação obtida pelo primeiro usuário utilizando 40% dos termos.... 114 Figura 23- Classificação obtida pelo primeiro usuário utilizando 20% dos termos.... 115 Figura 24 - Classificação obtida pelo primeiro usuário utilizando 10% dos termos.... 117 Figura 25 Tempo médio de processamento e % de termos utilizados... 118 Figura 26 - Precisão Média e % de termos utilizados... 118 Figura 27 - Precisão Média e tempo de processamento.... 119 Figura 28 Ordenação Google e Protótipo considerando a navegação do primeiro usuário. 120 Figura 29 - Classificação obtida a partir de 1 website navegado... 121 Figura 30 - Classificação obtida a partir de 3 website navegado... 121 Figura 31 - Classificação obtida a partir de 5 website navegado... 121 Figura 32 - Classificação obtida a partir de 7 website navegado... 121

Figura 33 - Classificação obtida a partir de 9 website navegado... 121 Figura 34 - Precisão média considerando a navegação do primeiro usuário... 122 Figura 35 - Precisão média considerando a navegação do segundo usuário... 123 Figura 36 - Precisão média considerando a navegação do terceiro usuário... 124 Figura 37 - Precisão média considerando websites parcialmente relevantes... 124 Figura 38 - Precisão média considerando websites irrelevantes... 125

LISTA DE QUADROS E TABELAS Tabela 1 - Representação de uma coleção de documentos... 43 Tabela 2 - Modelos de Recuperação de Informação.... 45 Tabela 3 - Coleção de documentos... 50 Tabela 4 - Matriz de frequência termo-documento... 51 Tabela 5 - Matriz termo-documento normalizada... 52 Tabela 6 - Matriz termo-documentos com cálculos TF-IDF... 53 Tabela 7 - Coleção de documentos re-ordenada... 55 Tabela 8 - Consultas realizadas por usuários... 62 Tabela 9 - Número de documentos totalmente relevantes... 63 Tabela 10 - Número de documentos com relevância parcial... 64 Tabela 11 - Comparação dos retornos obtidos pelos usuários... 64 Tabela 12 - Posição dos documentos relevantes... 66 Tabela 13 - Abordagens de personalização e forma de obtenção do perfil do usuário... 81 Tabela 14 Precisão média da ordenação oferecida pelo motor de busca... 106 Tabela 15- Tempo consumido para execução da LSI sem adaptação... 110 Tabela 16 - Redução no total de termos... 111 Tabela 17 - Precisão Média e Tempo de Execução para o corte de 20% dos termos... 112 Tabela 18 - Precisão Média e Tempo de Execução para o corte de 40% dos termos... 114 Tabela 19- Precisão Média e Tempo de Execução para o corte de 60% dos termos... 115 Tabela 20 - Precisão Média e Tempo de Execução para o corte de 80% dos termos... 116 Tabela 21 - Tempo de processamento X Precisão Média... 117 Tabela 22 - Precisão média... 126

LISTA DE EQUAÇÕES Equação 1 - Representação Vetorial de um documento no modelo Espaço-Vetorial.... 42 Equação 2 - Função de Similaridade... 44 Equação 3 Equação para comparação documento-documento... 49 Equação 4 Equação para realização do matching entre consulta e documentos... 49 Equação 5- Adição de novos documentos... 97 Equação 6 - Adição de novos termos... 97 Equação 7 - Cálculo da Precisão... 107

LISTA DE ABREVEATURAS E SIGLAS LSI Latent Semantic Indexing... 25 HTML HyperText Markup Language... 31 TF Term-Frequency... 42 IDF Inverse document frequency... 42 SVD Single Value Decomposition... 47 HA Hipermídia Adaptativa... 70 MOSC Módulo de operações sobre as consultas... 90 MOST Módulo de operações sobre o texto... 90 MR Módulo de re-ordenação... 90 SEO Search Engine Optimization... 107

23 C a p í t u l o I INTRODUÇÃO Recuperar informações em um contexto aberto, como é o caso da Web, ainda é uma tarefa complexa para os modelos tradicionais de busca de informações, baseados em algoritmos de indexação de conteúdos. A despeito dos softwares atuais de localização de informações, denominados motores de busca, possuirem um grande número de páginas indexadas, sendo capazes de obter resultados de boa qualidade em resposta às consultas dos usuários, os resultados nem sempre vão ao encontro dos reais interesses dos usuários. Em geral, o uso de técnicas de search engine optimization (SEO 1 ) coloca vários website comerciais nas primeiras posições do ranking destes motores de busca, o que pode ser contrário ao interesse de um usuário que está interessado na parte técnica ou artística de um assunto. 1 Os SEOs Search Engine Optimizator, são pessoas ou entidades que realizam trabalhos referentes à otimização de websites. Essa otimização é obtida por meio do posicionamento nos primeiros lugares nas ferramentas de busca para algumas palavras-chaves.

24 É neste cenário que os motores de busca convencionais encontram dois grandes desafios. O primeiro diz respeito à qualidade dos resultados, ou seja, como fornecer resultados de qualidade independente do nível de conhecimento sobre a construção de strings de consultas de cada usuário. Mesmo os melhores motores de busca ainda não conseguem retornar uma classificação precisa referente ao contexto de interesse do usuário. Os resultados oferecidos por estes motores de busca misturam websites que são verdadeiramente relevantes ao contexto do usuário com websites que apresentam uma similaridade marginal à consulta, ou que são totalmente irrelevantes. De acordo com MANNING (2008), o número de termos utilizados na elaboração de consultas na Web está em torno de duas ou três palavras-chaves e raramente são utilizados os conectivos booleanos ou caracteres especiais. Esse fato reflete diretamente nos resultados oferecidos pelos motores de busca, que tendem a retornar muitos websites irrelevantes, exigindo que o usuário realize uma filtragem manual dos resultados para obtenção dos que traduzam realmente seu interesse. O esforço empregado nessa filtragem pode ser alto de acordo com a precisão da classificação dos resultados oferecidos pelo motor de busca (HARDTKE, 2009; BRUSILOVSKY, 2009; [B] MICARELLI, 2007; PANT, 2003). O segundo desafio dos motores de busca se relaciona com qualidade da interface com o usuário, ou seja, como atender usuários leigos e/ou profissionais experientes com uma única interface simples. Embora se deseje ter uma interface simples, é interessante que ela possua recursos que facilitem a navegação e, ao mesmo tempo, constituam uma poderosa ferramenta para consultas complexas. Essas interfaces devem ser capazes de apresentar resultados que atendam as necessidades do usuário e exijam desse usuário um mínimo esforço na busca de informação relevante.

25 De acordo com KHOPKAR (2003), os motores de busca que têm recursos que possibilitam a interação com o usuário, visando a construção de um modelo de interesses do usuário, apresentam um nível maior de complexidade de interação. Essa interação pode ocorrer de duas formas, sendo por meio: do feedback implícito, no qual as ações do usuário são capturadas de forma não intrusiva; ou do feedback explícito, que requer do usuário uma intervenção direta. Os sistemas que fazem uso do feedback explícito apresentam problemas relacionados a obtenção da informação correta, devido à preocupação com a privacidade ([B] MICARELLI, 2007; PAZZANI, 2007). Softwares como o SurfCanyon (HARDTKE, 2009) utilizam os dois meios de interação, entretanto, usuários leigos apresentam dificuldade de interagir com os recursos adicionais, como os ícones apresentados no final de cada link que possibilita a aproximação de websites similares a esse link. Com o intuito de discutir possíveis melhorias aos problemas referentes aos retornos oferecidos pelos motores de busca convencionais, este trabalho explora ineficiências comuns a estes motores de busca, propondo uma forma de personalização dos resultados oferecidos pelos mesmos de acordo com um modelo de usuário construído de forma implícita, o qual considera as ações do mouse ou do teclado durante a navegação do usuário, possibilitando, assim, identificar o interesse do usuário em cada website. Com a finalidade de apoiar a realização da personalização dos resultados das consultas, foi considerada a hipótese de se criar um modelo de usuário implícito com o uso da técnica de LSI (Latent Semantic Indexing) para auxiliar na indexação semântica dos websites (por meio da identificação de estruturas semânticas ocultas nas relações entre termos e websites) (MANNING, 2008; DEERWESTER, 1996; BAEZA-YATES, 1999). Trabalhos citados por [A] MICARELLI (2007), BRUSILOVSKY (2004, 2009), MANNING (2008), sugerem o uso da LSI em motores de busca no momento da indexação. Neste trabalho, é proposta a aplicação dessa técnica em websites retornados pelos motores de busca

26 convencionais e a apresentação de uma nova classificação baseada na similaridade identificada pela LSI no browser do usuário. O modelo de usuário será construído a partir da matriz LSI de cada website visitado. Para tornar viável a utilização da LSI no ambiente web é necessária a realização de adaptações. Com base na lei de Zipf (BRYNJOLFSSON, 2007; KOCH, 2000; ZIPF, 1949) é proposto um corte significativo no número de termos usados na matriz LSI, o que proporciona um maior desempenho e possibilita que as classificações dos resultados das consultas realizadas pelos usuários aconteçam em paralelo à sua navegação. As classificações ocorrem a cada atualização do modelo de usuário e os resultados são re-ordenados por meio do método de visualização personalizada, fazendo uso da ordenação, ou classificação, adaptativa dos links retornados pelo motor de busca. Para validar a utilização da técnica de LSI em conjunto com o modelo de usuário construído de forma implícita, foram realizadas algumas simulações com os resultados obtidos por meio de um protótipo construído e comparados aos resultados obtidos pelo motor de busca Google. As simulações realizadas indicaram a viabilidade de se aplicar o modelo de usuário proposto e a técnica de LSI aplicada a um percentual de termos extraídos de cada documento, na re-ordenação dos resultados oferecidos pelos motores de busca convencionais na Web. Entretanto, é importante salientar que, por se tratar de uma simulação, certos detalhes foram ignorados, como, a não consideração das diferentes taxas de conexões que os usuário utilizam e as questões de interação humano-computador. Esta dissertação está organizada da seguinte forma. No Capítulo II, apresentamos os conceitos relativos a área de recuperação de informação, falando sobre a etapa de préprocessamento de texto realizado nas tarefas de Recuperação de Informação (RI); os modelos clássicos de RI; os modelos alternativos, como a LSI; e o processo de recuperação de informação na Web, citando o funcionamento tradicional dos motores de busca e identificando

27 algumas de suas deficiências. No Capítulo III, abordamos os conceitos sobre personalização de busca na Web, enfocando conceitos de adaptatividade, hipermídia adaptativa, modelo de usuário; navegação adaptativa e técnicas de personalização. No Capítulo IV, descrevemos nossa proposta de personalização dos resultados oferecidos pelos motores de busca convencionais utilizando a LSI aplicada a um percentual de termos em conjunto com um modelo de usuário criado de forma implícita. No Capítulo V, detalhamos o processo de simulação realizado e as análises dos resultados obtidos nesse processo. Finalmente, no Capítulo VI, apresentamos nossas conclusões sobre o trabalho desenvolvido, discutimos suas limitações e sugerimos algumas pesquisas futuras.

29 C a p í t u l o II RECUPERAÇÃO DE INFORMAÇÃO Atarefa de recuperar informações lida com os processos de representação, armazenamento, organização e acesso à informação, objetivando proporcionar ao usuário uma maior facilidade de acesso à informação relevante (BAEZA- YATES, 1999). Neste capítulo, aborda-se o conceito de Recuperação de Informação (RI), sua origem, aplicações e classificação. Apresentam-se ainda as tarefas que ocorrem na etapa de préprocessamento dos documentos, a qual tem como objetivo principal identificar as palavras importantes do texto no contexto ao qual elas pertencem. A seguir são apresentados os

30 modelos booleano, vetorial e probabilístico, os quais são considerados clássicos na tarefa de RI. Após essas discussões são citados alguns modelos alternativos de RI e realizada uma explanação sobre o processo de Indexação de Semântica Latente (LSI do Inglês Latent Semantic Index), o qual visa melhorar os resultados oferecidos em tarefas de RI. Por fim, apresenta-se as características inerentes à recuperação de informação na Web, a qual, normalmente, ocorre por meio de motores de busca. 2.1. Aspectos Gerais O termo RI tem sido utilizado desde a década de 40, sendo citado pela primeira vez por Calvin Mooers em sua dissertação de mestrado (MOOERS, 1950). A RI é reconhecida como uma área de pesquisa interdisciplinar, englobando áreas como Ciência da Computação, Arquitetura da Informação, Psicologia Cognitiva, Lingüística, Estatística e outras (GARFIELD, 1977). No princípio, a RI era uma tarefa utilizada apenas por pessoas que trabalhavam em áreas específicas, como bibliotecários, paralegais e pesquisadores em geral. Entretanto, a sobrecarga de informação 2 atual mudou esse cenário. Hoje milhares de pessoas estão engajadas na recuperação de informações quando estão utilizando a Web por meio dos motores de busca disponíveis, ou mesmo na consulta de seus emails. Nesse contexto, nota-se que a RI abrange outros tipos de dados que não somente os estruturados como no modelo de banco de dados relacional, fortemente empregado hoje em dia no armazenamento de dados. Dessa forma, estabeleceu-se uma nova necessidade: a consulta em dados semi-estruturados, os quais são caracterizados por possuírem uma estrutura 2 Sobrecarga de Informação é um termo amplamente utilizado para definir a quantidade excessiva de informações disponível na Web (HIMMA, 2007).

31 irregular e, muitas vezes, implícita como nos tipos de dados contidos nas páginas HTML (HyperText Markup Language) (MANNING, 2008; PAPAKONSTANTINOU, 1995). Os dados semi-estruturados apresentam uma representação estrutural heterogênea, sendo caracterizados por não possuírem um esquema pré-definido, tendo o esquema de representação presente de forma implícita ou explícita juntamente com os dados, ou seja, eles possuem uma estrutura auto-descritiva. Este tipo de estrutura determina que deve ser feita uma análise dos dados para identificar e extrair a estrutura e os dados que poderão ser utilizados (ELMASRI, 2005). Sistemas de RI são classificados, segundo MANNING (2008), em três escalas. Na escala inicial está a recuperação de informação pessoal, a qual apresenta como objetivo realizar a recuperação de informação em computadores pessoais. Sistemas operacionais como o Windows 7 e Apple s Mac OS X, entre outros, tem integrado a recuperação pessoal de informação. Outros exemplos são os programas de e-mails que fornecem meios para classificações automáticas ou manuais em pastas particulares e filtros anti-spam. Na escala intermediária, encontram-se os sistemas empresariais, institucionais e de busca em um domínio específico, nos quais a recuperação ocorre em uma coleção de dados específica, como em uma determinada base de dados ou em artigos resultantes de uma pesquisa (na qual, normalmente, esses arquivos ficam armazenados em um sistema centralizado). Por fim, na escala mais avançada, tem-se a busca na Web, na qual o sistema realiza a pesquisa na Web e deve ser capaz de trabalhar de forma eficiente, tornando possível que o usuário empregue o menor esforço, e eficaz, produzindo o melhor resultado. A pesquisa realizada deve considerar aspectos particulares da rede, como a exploração de hiperdocumentos e a existência de spamming 3, para a manipulação dos resultados obtidos nos mecanismos de busca. 3 Spamming são técnicas que promovem uma maior exposição do website nos mecanismos de busca, ocasionando resultados insatisfatórios.

32 De uma forma geral, sistemas de RI suportam três processos básicos, sendo eles: a representação dos conteúdos dos documentos; a representação das necessidades dos usuários, normalmente indicadas por consultas; e a comparação entre esses dois processos, conforme mostra a figura 1 (CROFT, 1993). Figura 1 - Processo básico de Recuperação de Informação Os documentos são representados por um processo chamado de indexação, o qual gera uma representação formal dos dados de cada documento. Os algoritmos que realizam a indexação variam desde soluções triviais, normalmente utilizadas para indexar documentos de textos completos, até algoritmos mais complexos que armazenam parcialmente o conteúdo dos documentos, geralmente utilizados para grandes coleções. Além dos conteúdos, os índices também guardam informações sobre a localização real de cada documento. Há vários métodos de indexação já desenvolvidos, como o array de sufixos, a assinatura de arquivos e os índices invertidos (HIEMSTRA, 2001). A representação de informações sobre o problema, ilustrada na figura 1, frequentemente é referenciada como o processo de formulação de consultas. Formular uma consulta pode denotar a interação completa entre o sistema e o usuário. Por meio da consulta, o sistema consegue subsídios para começar a entender qual é a necessidade do usuário

33 (HIEMSTRA, 2001). Deste modo, a formulação da consulta determina diretamente os resultados oferecidos no processo de comparação. Para formular uma consulta nas ferramentas de busca convencionais pode-se: Fazer uso de termos, ou seja, palavras chaves extraídas da comunicação em linguagem natural, para as quais o mecanismo de busca retornará documentos que possuem esses termos, independentes de sua posição no texto. Ex. information retrieval retornará qualquer documento que possua a palavra information ou retrieval, independente de sua posição. Fazer uso de aspas, que permite definir a sequência exata dos termos, normalmente formando uma frase. Ex. information retrieval retornará documentos que possuem essa sequência de palavras. Fazer uso de conectivos lógicos AND e OR, que determinam a obrigatoriedade ou não do termo no documento. Ex1. information AND retrieval retornará documentos que possuam, obrigatoriamente, os dois termos independentes de posição. Ex2. information OR retrieval retornará documentos que possuam, pelo menos, um dos termos utilizados na consulta. Fazer uso de negação, que permite especificar que a presença de um determinado termo no documento exclua esse documento da lista de retornos, ou seja, consultando por information retrieval serão retornados documentos que possuam o termo information e não possuam o termo retrieval. Escrever consultas que reúnam termos, aspas, conectivos lógicos e negação para explicitar de forma completa a necessidade do usuário. Formulando uma consulta de forma consistente e coerente é possível obter um maior número de documentos relevantes ao interesse do usuário. Quanto mais detalhes forem

34 apresentados ao mecanismo de busca no momento da formulação da consulta, mais refinado fica o resultado apresentado por esse mecanismo. O processo de comparação (matching) refere-se a comparar a consulta formulada pelo usuário com os documentos indexados pelo mecanismo de busca. A partir de um conjunto de documentos e uma consulta, o processo de comparação obtém um subconjunto ordenado de documentos relevantes à consulta formulada. Essa ordenação tem como objetivo principal minimizar o tempo que o usuário leva para encontrar documentos interessantes e é estabelecida pelo algoritmo de classificação de cada mecanismo de busca. Esses algoritmos, na sua maioria, utilizam a frequência dos termos e/ou métodos estatísticos para a distribuição desses documentos. Ao navegar nos documentos retornados, o usuário pode obter informações sobre o problema, o que pode auxiliá-lo a melhorar a query e, por conseqüência, obter um maior número de documentos relevantes. Na sua forma convencional, o processo de comparação realizado por motores de busca utiliza simplesmente a recuperação de palavras por semelhança literal, não levando em consideração toda a informação existente no documento ou as interações realizadas pelos usuários. RIJSBERGEN (1999) comenta que esse processo poderia ser realizado por meio do conjunto de palavras pertencentes aos documentos da coleção, fazendo o uso de sinonímia 4. A sinonímia pode causar uma sensível redução no número de documentos retornados relevantes à consulta, devido ao fato de que a palavra-chave que está sendo utilizada na consulta pode não estar sendo utilizada no documento. E, além desse uso, também é possível utilizar informações referentes ao interesse do usuário por meio da sua interação com o sistema. Em uma abordagem de RI, tanto a sinonímia quanto a polissemia 5, são problemas importantes que devem ser tratados na etapa de pré-processamento. A polissemia pode causar retornos de documentos não relevantes ao usuário, pois as palavras-chaves utilizadas na string 4 Sinonímia é um fenômeno que ocorre com palavras diferentes que apresentam o mesmo significado. 5 A polissemia é um fenômeno em que uma palavra possui múltiplos significados.