Um Mecanismo de Detecção de Versões de Páginas Web para Melhoria do Desempenho do Algoritmo de PageRank

Documentos relacionados
VersionsRank: escores de reputação de páginas Web baseados na detecção de versões

Uma Proposta para o Uso de Detecção de Versões de Páginas Web para Melhoria do Desempenho do Algoritmo de PageRank*

Recuperação de Informação

Medidas de Avaliação

Pagerank para Ordenação de Resultados em Ferramenta de Busca na Web

5 Experimentos Conjunto de Dados

Comparação dos algoritmos sequencial e paralelo para contagem de palavras e contexto

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

SISTEMA PARA RECUPERAÇÃO DE INFORMAÇÃO DE DOWNLOADS DE SOFTWARES

INTERPOLAÇÃO LINEAR E BILINEAR: APLICAÇÃO EM TRANSFORMAÇÕES GEOMÉTRICAS DE IMAGEM INTRODUÇÃO

4 Testes e experimentos realizados 4.1. Implementação e banco de dados

Otimização. Conceitos Fundamentais. Paulo Henrique Ribeiro Gabriel Faculdade de Computação Universidade Federal de Uberlândia 2016/2

Informação de Links no Modelo Vetorial Usando uma Estrutura Funcional

MAPAS CONCEITUAIS NA EDUCAÇÃO: PROPONDO UMA NOVA INTERFACE PARA AMBIENTES DE APRENDIZAGEM BASEADOS NA PLATAFORMA MOODLE

GROUPS-NET: Roteamento Ciente de Encontros de Grupos em Redes Móveis

Avaliação de Desempenho

Fabrício Jailson Barth. Recuperação de documentos e pessoas em ambientes empresariais através de árvores de decisão

Análise do site do Ponto Frio - Versão Mobile Link para acesso ao site: m.pontofrio.com.br

S E O. Search Engine Optimization Motores de Busca. ebook vol. I. Template por: SEOptimization Julho 2016

Comparando, Distribuindo e Ordenando

Índice. Classificação de textos para o ensino de português como segunda língua. Índice. technology from seed

RECONHECIMENTO FACIAL UTILIZANDO EIGENFACES

UNIVERSIDADE FEDERAL DE SANTA CATARINA SISTEMAS DE INFORMAÇÃO E CIÊNCIAS DA COMPUTAÇÃO INE CTC DATA MINING Prof.: Luis Otavio Campos Alvares

Nome da disciplina Título do trabalho

Compressão de Textos. Introdução. Introdução. Introdução. O volume de informação textual disponível on-line é imenso:

Prof. Lorí Viali, Dr.

PRATICAS PEDAGÓGICAS DO BIBLIOTECÁRIO: UMA ANÁLISE DA PRODUÇÃO DO CONHECIMENTO DA REDE FEDERAL DE EDUCAÇÃO PROFISSIONAL, CIENTÍFICA E TECNOLÓGICA.

Tipos para uma Linguagem de Transformação

Guia auto-avaliação segundo EFQM GUIA PARA A APLICAÇÃO DA METODOLOGIA EFQM NA AUTO-AVALIAÇÃO DE PROJECTOS EM PARCERIA

M O D E L O E U R O P E U D E

MARACATU. A component search tool. Especificação, Projeto e Implementação de uma Arquitetura para um Engenho de Busca de Componentes

Aplicação de Histograma de Gradientes Orientados para detecção de hidrômetros em imagens de fundo complexo

Aplicando Gestão de Energia ao Protocolo de Roteamento para Redes Ad Hoc Móveis VRP

Inteligência Computacional

Introdução à Revisão Sistemática

São José dos Campos, SP 4 a 7 de outubro de 2016 CONVITE

Matriz de Referência da área de Matemática Ensino Fundamental

Arquivos Sequenciais Ordenados Fisicamente

Arquivar a Web. Daniel Gomes

Recuperação de Imagens da Web Utilizando Múltiplas Evidências Textuais e Programação Genética

A base de dados JCR é A base de dados é atualizada anualmente (normalmente em meados do ano civil) e trata os dados do ano anterior.

Unidade III ORGANIZAÇÃO DE COMPUTADORES. O que quer dizer 14?

Ciências da Computação Disciplina:Computação Gráfica

Índice de figuras e tabelas 13 Agradecimentos 17 Resumo 19 Lista de abreviaturas 21 Introdução 23. A Internet os motores de busca e os utentes 29

FUNDAMENTOS DA PROGRAMAÇÃO DE COMPUTADORES BIT / CARACTERE / BYTE/ PALAVRA

Google PageRank: matemática básica e métodos numéricos. Paulo Vasconcelos - CMUP

BC1424 Algoritmos e Estruturas de Dados I Aula 05 Custos de um algoritmo e funções de complexidade

Checklist completo: otimizações de SEO que você precisa fazer hoje mesmo. VIVER DE BLOG Página 1

Aula 11 Introdução ao Java Script

Avaliação de desempenho de virtualizadores no envio e recebimento de pacotes em sistemas Linux

PNV Introdução à Engenharia PNV3100 Aula S8 INTRODUÇÃO AVALIAÇÃO DE SOLUÇÕES

SSC643 -Avaliação de Desempenho de Sistemas Computacionais Sarita Mazzini Bruschi

Programação para Web HTML - Parte 2

Documento de Requisitos SISTEMA DE APOIO À ESCRITA (SAPES)

Projeto de Formatura I

CONTPATRI Plano de Garantia de Qualidade. Versão 1.1

Banco de Dados. Perspectiva Histórica dos Bancos de Dados. Prof. Walteno Martins Parreira Jr

Banco de Dados. Métodos de Ordenação de Dados. Prof. Walteno Martins Parreira Jr

Gosta de acompanhar os rumos das linguagens de programação? Então não fique de fora dessa! Descubra o que é o HTML 5!

ATIVIDADES PRÁTICAS SUPERVISIONADAS

Computação Musical - Introdução slides do curso Computação Musical

GIRS - GENETIC INFORMATION RETRIEVAL SYSTEM - UMA PROPOSTA EVOLUTIVA PARA SISTEMAS DE RECUPERAÇÃO DE INFORMAÇÕES

Pesquisar Online. A Era da Informação 13/05/2010. Pesquisar na Web. Que Informação é Esta? Estratégias de pesquisa.

Recuperação de Imagens na Web Baseada em Informações Textuais

PROCESSAMENTO TEXTUAL EM PÁGINAS DA WEB

Application Note PARÂMETROS DE CONFIGURAÇÃO DE UM OTDR. WISE Indústria de Telecomunicações

Administração Central Unidade de Ensino Médio e Técnico - Cetec. Ensino Técnico. Habilitação Profissional: TÉCNICO EM INFORMÁTICA PARA INTERNET

Organizaçãoe Recuperação de Informação GSI521. Prof. Rodrigo Sanches Miani FACOM/UFU

Avaliação Sistemas de Recuperação da Informação

MES. Curso Superior em Redes de Computadores

Paulo Guilherme Inça. 7 de dezembro de 2016

Introdução à Informática

Anexo I. Recomendações para construção de páginas acessíveis para o EAD da Universidade Caixa.

Existem alguns procedimentos que contribuem para que a pesquisa seja mais rápida, objetiva e precisa, tais como: Caracter(es) Atitude Exemplo

Sistema de recomendação de segundo nível para suporte à produção de matérias jornalísticas

Introdução 12 que inuenciam a execução do sistema. As informações necessárias para o diagnóstico de tais problemas podem ser obtidas através da instru

Aplicação de Tags em Objetos de Sistemas de Visualização em Tempo Real

MAPA CONCEITUAL E A MODELAGEM CONCEITUAL DE SISTEMAS DE HIPERTEXTO

Hashing: conceitos. Hashing

Grafos representação e aplicações. Prof. Guilherme Tomaschewski Netto

Programação: Vetores

MÉTODO PARA AVALIAÇÃO DA USABILIDADE DE WEB SITES BANCÁRIOS

TÍTULO: RESOLUÇÃO DAS FALHAS ENCONTRADAS EM CAMPO RELACIONADO AO MODULO T76 UTILIZANDO A FERRAMENTA SEIS SIGMA (DMAIC)

Comparação de métodos de fingerprints para o rastreio virtual de inibidores da 5α-redutase

Uso de Expressões Temporais em Busca na Web: Uma análise através das sugestões de consulta

WEKA: Prática Carregando a base de dados no Weka

Medida do Tempo de Execução de um Programa. Bruno Hott Algoritmos e Estruturas de Dados I DECSI UFOP

Um Sistema de Informação Criativo baseado na técnica de criatividade whiteboard

Rastreamento de Objetos Baseado em Grafos. Casamento Inexato entre Grafos Relacionais com Atributos

Extração de conteúdo em páginas da web

Informações Importantes! INF TURMA A

Instituto Federal Catarinense, Araquari/SC. Aluno do Curso Técnico em Informática Instituto Federal Catarinense Araquari/SC 2

Identificação e Caracterização de Comportamentos Suspeitos Através da Análise do Tráfego DNS

EPUSP PCS 2011/2305/2355 Laboratório Digital SOMADORES DECIMAIS

Métodos de Segmentação de Imagem para Análise da Marcha

Detecção e Correção Automáticas de Olhos Vermelhos

JADEX: A BDI REASONING ENGINE. Alexander Pokahr, Lars Braubach e Winfried Lamersdorf Springer US - Multi-Agent Programming 2005 pp.

Renato Assunção UFMG

Representação de Arranjos

REGIMENTO INTERNO DAS ATIVIDADES COMPLEMENTARES DO CURSO DE GRADUAÇÃO EM PSICOLOGIA DA ESADE LAUREATE INTERNATIONAL UNIVERSITIES.

Transcrição:

Um Mecanismo de Detecção de Versões de Páginas Web para Melhoria do Desempenho do Algoritmo de PageRank Glauber Rodrigues da Silva, Renata de Matos Galante Instituto de Informática Universidade Federal do Rio Grande do Sul (UFRGS) Caixa Postal 15.064 91.501-970 Porto Alegre RS Brazil Nível: Mestrado Acadêmico Programa de Pós-Graduação em Computação Ingresso: 03/2007 Conclusão prevista: 03/2009 {grsilva,galante}@inf.ufrgs.br Etapas concluídas: defesa de proposta e seminário de andamento Resumo. Os motores de busca utilizam o webgraph formado pelas páginas e seus links para atribuir reputação às páginas web. Essa reputação é utilizada para montar o ranking de resultados retornados ao usuário. No entanto, novas versões de páginas com uma boa reputação podem não aparecer bem posicionadas, uma vez que não são detectadas a priori. Este artigo propõe um mecanismo de detecção de versões de páginas web para a melhoria do desempenho do algoritmo de PageRank. O mecanismo consiste em posicionar no ranking novas versões de páginas web de acordo com o escore de reputação obtido por versões antigas dessas páginas ao longo do tempo. A contribuição desse trabalho é aplicar a detecção de versões de modo a identificar versões de um documento web, para melhorar o desempenho do algoritmo de PageRank. Experimentos são propostos para validação da eficiência desse mecanismo. Palavras-chave: recuperação de informação, armazenamento e indexação, serviços de dados para web.

1. Introdução A natureza distribuída das informações disponíveis na Internet levou à busca constante de maneiras eficientes de executar consultas sobre uma grande coleção de documentos. Os motores de busca realizam essa tarefa, porém, devido ao grande número de documentos da coleção, o número de documentos relevantes para uma consulta pode facilmente ter milhões de itens. Devido a este fator, a montagem de um ranking de resultados eficiente passou a ser uma tarefa crucial. A estrutura de links, comum nos documentos HTML, fornece uma maneira de estimar quais são as páginas mais "populares", partindo-se da premissa de que quanto maior o número de links que apontam para certa página (links esses vindos também de páginas populares), mais popular essa página é. Os algoritmos que levam em conta essa estrutura de links na montagem do ranking dos resultados de uma pesquisa são chamados de algoritmos de análise de links. O algoritmo de PageRank [Page, Brin, Motwani and Winograd 1998] é o que mais tem destaque nesta família de algoritmos. O termo PageRank é comumente atribuído a um número que diz o quanto uma página web é relevante na Internet, ou seja, quanto maior esse número, maior é a relevância da página. O algoritmo PageRank tem como principal objetivo simular o comportamento de um usuário ao navegar na Internet. Em outras palavras, o número do PageRank de uma página diz respeito a quão fácil/difícil seria encontrar esta página partindo de uma URL randômica e, seguindo os links, se tentasse chegar a página desejada. Quanto maior o valor resultante PageRank, mais fácil seria encontrar a página procurada [Brin and Page 1998]. A velocidade em que a estrutura da Internet se modifica acaba por trazer alguns problemas ao algoritmo de PageRank. Novas versões de uma página web, com alto grau de relevância, não irão ter o mesmo grau de relevância da página original, mesmo para as versões de um mesmo documento. Por exemplo, considerando uma página web p, um fator importante para constituir o ranking pelos motores de busca é a quantidade de outras páginas que apontam para p. Contudo, novas versões desta página terão uma baixa taxa de links que apontam para elas, pois as páginas que apontam para p não sabem da existência de suas novas versões. A detecção de versões pode melhorar o posicionamento no ranking de versões de p, baseado nos links que apontam para p. Por exemplo, considerando a página www.tempoglauber.com.br/glauber/biografia/vida.htm que por anos foi apontada por outras páginas como a página mais relevante sobre a biografia do cineasta Glauber Rocha e por isso tem uma alta reputação nos mecanismos de busca. Porém, supondo que o domínio tempoglauber.com.br seja adquirido por uma empresa que deseja colocar outro tipo de conteúdo no site e que a página sobre a biografia de Glauber Rocha tenha migrado para www.glauberrocha.com.br/glauber-bio.html, sofrendo pequenas alterações relativas ao conteúdo do site na qual a mesma está hospedada. As páginas que apontam para a antiga versão, além de terem links quebrados, não poderão atribuir reputação para a nova versão da página, visto que não sabem da existência de uma nova versão da página referenciada. Ao detectar que as duas páginas na verdade são versões de um mesmo documento lógico, é possível atribuir um escore de reputação único para o documento, propiciando um melhor posicionamento no ranking da nova versão da página da biografia de Glauber Rocha. O objetivo deste trabalho é especificar um mecanismo para detecção de versões de páginas web, visando melhorar o cálculo do PageRank. Pretende-se fazer com que o grau de relevância de uma página seja computado, considerando o escore de suas versões antigas, mantendo assim, o grau de importância que a página obteve ao longo do tempo.

Isto significa que uma nova versão da página ou a alteração de sua localização, como por exemplo a mudança de sua URL, não cause prejuízo ao seu posicionamento no ranking de resultados do motor de busca. O restante do texto está organizado da seguinte forma. A seção 2 descreve os trabalhos relacionados. A seção 3 apresenta o mecanismo de detecção de versões proposto para a melhoria do desempenho do algoritmo de PageRank. A seção 4 apresenta as considerações finais e os trabalhos futuros para validação da proposta. 2. Trabalhos Relacionados Após a publicação do artigo The PageRank Citation Ranking: Bringing Order to the Web [Page, Brin, Motwani and Winograd 1998] surgiram vários outros trabalhos propondo técnicas para melhorar a lógica e o desempenho do algoritmo de PageRank, comumente chamados de variantes do algoritmo original, porém a idéia central de ranking baseado na análise dos links é sempre mantida. Um exemplo foi a proposta de variante do algoritmo de PageRank que leva em conta os atributos das páginas web [Baeza-yates and Davis 2004]. Em outro trabalho foi proposto um conjunto de algoritmos baseados em links (link-based), os quais propagam a importância das páginas através dos links [Baeza-yates, Boldi and Castillo 2006]. Berlt et al [Berlt, Moura, Carvalho, Cristo, Ziviani and Couto 2007] propõem uma variante do algoritmo de PageRank chamada Hiperpagerank. O Hiperpagerank é computado utilizando um hipergrafo ao invés de utilizar o webgraph utilizado pelo PageRank. Neste hipergrafo, as páginas são agrupadas de acordo com algum critério de particionamento páginas, domínios ou hosts, por exemplo a fim de eliminar links internos desse particionamento para o cálculo da reputação de páginas web. Outros trabalhos propõem a detecção de quase duplicatas (do inglês nearduplicates) de páginas web. Monika Henzinger [Henzinger 2006] apresenta um comparativo entre os dois principais algoritmos de cálculo de similaridade [Broder, Glassman, Manasse and Zweig 1997] [Charikar 2002], utilizados para detecção de quase duplicatas de páginas web. Manku et al em [Manku, Jain and Das Sarma 2007] utiliza o algoritmo de fingerprints proposto por Charikar para a detecção de quase duplicatas com o intuito de melhorar o desempenho do processo de webcrawler. Os experimentos apresentados no trabalho de Manku et al demonstram que o algoritmo de Charikar pode ser utilizado eficientemente mesmo em repositórios contendo bilhões de páginas web. Apesar de existirem várias pospostas para variantes do algoritmo de PageRank, um problema em aberto é o de considerar versões antigas das páginas web para melhorar a relevância das versões atuais. Um fator importante para constituir o ranking pelos motores de busca é a quantidade de outras páginas que apontam para p. Contudo, novas versões de p terão uma baixa taxa de links que apontam para elas pois as páginas que apontam para p não sabem da existência de novas versões de p. Nesse contexto, a detecção de versões pode melhorar a posição no ranking de versões de p baseado nos links que apontam para p 3. Proposta para Detecção de Versões para Melhoria do Desempenho do PageRank Esta seção apresenta o mecanismo proposto para a detecção de versões de páginas web que tem como principal objetivo atribuir um escore as novas versões de uma página baseado na relevância de todas as versões da página em questão. A atribuição de um escore unificado a todas as versões de um mesmo documento lógico na web é uma tarefa a ser realizada para cumprir esse objetivo. Especificar um novo escore de relevância, o qual é atribuído a documentos lógicos na web e não diretamente a páginas web passa a ser um dos requisitos

desse trabalho. Documentos lógicos são um modo de representar diferentes versões e réplicas de páginas web como um mesmo documento na web. A Figura 1 apresenta os componentes do mecanismo proposto. O mecanismo proposto tem como fonte de informações o repositório de páginas de um motor de busca. Ao realizar a indexação das páginas desse repositório são detectadas quais páginas são versões de um mesmo documento. A partir dessa indexação, da detecção de versões e da análise dos links entre os documentos lógicos, monta-se o webgraph denominado DocumentGraph. O Módulo de Ranking executa o algoritmo de PageRank tendo como base o DocumentGraph para a atribuição do escore denominado DocumentRank. Figura 1. Detector de Versões com os outros componentes de um motor de busca. O objetivo do mecanismo é detectar que um certo conjunto de páginas web representam diferentes versões de um mesmo documento do mundo real. Essa detecção é feita de forma offline, ou seja, a partir do repositório de páginas, são detectadas quais páginas são versões de um mesmo documento. A detecção de diferentes versões de um mesmo documento lógico é feita através do algoritmo de fingerprints proposto por Charikar [Charikar 2002]. Esse algoritmo já teve sua eficiência comprovada na detecção de quase duplicatas [Manku, Jain and Das Sarma 2007]. Com a manipulação dos parâmetros de entrada utilizados por Manku et al, pode-se utilizar o algoritmo de fingerprints para a detecção de versões. A eficiência desse algoritmo para a tarefa de detecção de versões é uma das tarefas que está em fase de desenvolvimento, além daquelas apresentadas na seção 4.. Feita essa detecção, esse novo conhecimento é representado no webgraph. A Figura 2(B) apresenta uma evolução do grafo da Figura 2(A), no qual as páginas e e f são detectadas e representadas como versões da página d. Figura 2. Webgraph baseado em páginas (A), no qual é aplicada a detecção de versões (B), resultando no DocumentGraph (C).

A partir dessa detecção, é proposta uma nova representação das páginas no webgraph. A idéia principal é que versões de uma mesma página sejam representadas no webgraph através de um único vértice, visto que representam um único documento no mundo real. A Figura 2(C) mostra a página d e suas versões representadas com um único vértice, denominado DocumentGraph. Com esse novo modelo denominado DocumentGraph é possível rodar algoritmos de análise de links com pouca ou nenhuma alteração em suas estrutura, visto que a estrutura que serve como entrada é a mesma, porém com outro significado. Com base no modelo de DocumentGraph é possível realizar a atribuição de escores do algoritmo de PageRank a partir de um grafo que represente somente documentos do mundo real e não várias versões de um mesmo documento. A partir dessa atribuição de escores baseada no DocumentGraph (baseado em documentos) e não físico (baseado em páginas), pode-se atribuir um valor de PageRank a um documento lógico e não a um conjunto de páginas que na verdade são versões de um mesmo documento lógico. Esse valor de PageRank atribuído a um documento lógico é denominado DocumentRank. O DocumentRank é um valor que visa atribuir um escore a documentos da web, independente de quantas versões ou réplicas esse documentos tenham em diferentes sites da Internet. O valor de PageRank ainda pode ser utilizado para realizar a ordenação entre as páginas que representam versões de um mesmo documento web. Experimentos comparativos devem ser realizados para medir o impacto da utilização do DocumentRank ao invés do PageRank. Ao ordenar os resultados de uma busca considerando o valor de DocumentRank garante-se que todas as versões de um mesmo documento estejam em posições próximas no ranking. Considerando o grafo apresentado na Figura 2(A), e supondo que o voto de relevância dado pela página web c para a página f é de pouco peso, enquanto os votos de relevância das páginas a e b tem um peso significativo, o posicionamento no ranking de resultados da página f - em um universo de outras páginas com conteúdo semelhante - estaria bem distante das páginas d e e. De outra forma, ao considerar que as páginas d, e e f são versões de uma mesma página (Figura 2(B)) e representá-las no modelo de DocumentGraph (Figura 2(C)) garante-se que estas páginas estarão em posições próximas no ranking montando pelo algoritmo de PageRank. Os valores de DocumentRank e PageRank podem ainda ser utilizados em conjunto para promover uma sumarização dos resultados apresentados para o usuário de um motor de busca. 4. Considerações Finais e Trabalhos Futuros Como produto do trabalho realizado até o momento, tem-se a especificação do funcionamento do mecanismo de detecção em conjunto com os outros componentes de um motor de busca. A proposta do modelo DocumentGraph e de um escore de reputação a partir do mesmo - denominado DocumentRank - são conceitos apresentados e também fazem parte da solução para o problema apresentado. A principal tarefa a ser realizada é a validação da solução através de experimentos. Os experimentos a serem realizados têm como objetivo medir a eficiência do escore DocumentRank em comparação com o escore de PageRank. O objetivo dos experimentos é comparar esses dois escores. Para realizar essa comparação, serão utilizadas métricas consolidadas de avaliação de motores de busca pela área de recuperação de informações. Serão comparados os resultados obtidos por uma série de consultas préselecionadas as quais serão aplicadas sobre a coleção WBR03. Tanto as consultas quanto a

coleção, tem como base o extinto motor de busca TodoBR. A coleção WBR03 é o repositório de páginas do motor de busca no ano de 2003, composto por mais de 12 milhões de páginas. Para medir a qualidade dos resultados obtidos quando o ranking de páginas é ordenado seguindo o escore baseado no valor de DocumentRank, serão utilizadas as diferentes métricas conforme o tipo de consulta. A métrica Mean Reciprocal Rank (MRR) valoriza a posição no ranking do resultado considerado correto, quanto mais próximo ao topo, melhor o escore obtido e por isso ela é utilizada em consultas navegacionais. Consultas navegacionais são aquelas cujo desejo do usuário é ir a algum site e somente um resultado satisfaz a consulta. Para consultas informacionais consultas com o objetivo de obter alguma informação sobre algum tópico específico, nas quais mais de um resultado satisfazem à consulta - será utilizada a métrica Mean Average Precision (MAP). A métrica MAP unifica em um mesmo escore os valores clássicos da recuperação de informação: precisão e revocação. Serão comparados os resultados obtidos pelas consultas quando for utilizado como escore o valor de DocumentRank e quando for utilizado como escore o valor de PageRank. O principal comportamento a ser avaliado é o melhor posicionamento no ranking de páginas relevantes de uma certa consulta quando for utilizado o escore de DocumentRank. Esse comportamento é esperado principalmente quando uma página bem ranqueada tiver versões novas, porém essas com um baixo PageRank. A principal contribuição desse trabalho é a apresentação de um mecanismo para detecção de versões de páginas web para melhoria do desempenho do algoritmo de PageRank. Como parte da solução, é apresentada uma extensão do modelo de webgraph baseado em documentos lógicos, denominada DocumentGraph. Referências Baeza-yates, R. and Davis, E. (2004) Web page ranking using link attributes. In Proceedings of the 13th international World Wide Web conference on Alternate track papers & posters. Baeza-yates, R., Boldi, P. and Castillo, C. (2006) Generalizing PageRank: damping functions for link-based ranking algorithms. In Proceedings of the 29th annual international ACM SIGIR conference on Research and development in information retrieval. Pags: 308 315. Berlt, K., Moura, E. S., Carvalho, A. L. C., Cristo, M., Ziviani N. and Couto, T. (2007) A hypergraph model for computing page reputation on web collections. In Anais do Simpósio Brasileiro de Banco de Dados, pages 35-49. Brin, S. and Page, L. (1998) The anatomy of a large-scale hypertextual Web search engine. 7th WWW Conference, Brisbane, Australia. Broder, A. Z., Glassman, S. C., Manasse, M. S., and Zweig, G. (1997) Syntactic clustering of the Web. In Selected Papers From the Sixth international Conference on World Wide Web (Santa Clara, California, United States). Charikar, M. S. (2002) Similarity estimation techniques from rounding algorithms. In Proceedings of the Thiry-Fourth Annual ACM Symposium on theory of Computing (Montreal, Quebec, Canada, May 19-21, 2002). STOC '02. ACM, New York, NY, 380-388 Henzinger, M. (2006) Finding near-duplicate web pages: a large-scale evaluation of algorithms. In Proceedings of the 29th Annual international ACM SIGIR Conference on Research and Development in information Retrieval (Seattle, Washington, USA, August 06-11). SIGIR '06. Manku, G. S., Jain, A., and Das Sarma, A. (2007) Detecting near-duplicates for web crawling. In Proceedings of the 16th international Conference on World Wide Web (Banff, Alberta, Canada, May 08-12). WWW '07. ACM, New York, NY, 141-150. Page, L., Brin, S., Motwani, R. and Winograd T. (1998) The PageRank citation ranking: Bringing order to the Web. Tech. report, Stanford University.