Francisco Benjamim Filho. XHITS: Estendendo o Algoritmo HITS para Extração de Tópicos na WWW DISSERTAÇÃO DE MESTRADO

Documentos relacionados
6 Conclusões e Trabalhos Futuros

4 Ambiente de Experimentação

Estudo Comparativo de Estratégias de Classificação de Páginas Web

Iam Vita Jabour. O Impacto de Atributos Estruturais na Identificação de Tabelas e Listas em Documentos HTML. Dissertação de Mestrado

SQLLOMining: Obtenção de Objetos de Aprendizagem utilizando técnicas de Aprendizado de Máquina

Controle da Execução e Disponibilização de Dados para Aplicativos sobre Seqüências Biológicas: o Caso BLAST

Mineração de Dados voltada para Recomendação no Âmbito de Marketing de Relacionamento

Os grafos para cada tópico foram gerados, de acordo com os valores fornecidos nos experimentos de Jon Kleinberg [1,2], com os seguintes parâmetros:

Sistema para Consultas sobre Banco de Dados Relacional Baseado em Palavras-Chave

Elicitação de requisitos de software através da utilização de questionários

Aprendizado de Máquina para o Problema de Sentiment Classification

Experimentos de Previsão da Estrutura a Termo da Taxa de Juros Americana: Reversão à Media, Inércia e Influência de Variáveis Macroeconômicas

APLICAÇÃO DE CONCEITOS DE ENGENHARIA DE FATORES HUMANOS: UM ESTUDO DE CASO EM UMA EMPRESA DE OPERAÇÕES LOGÍSTICAS

Análise e Avaliação do Equity Premium Puzzle no Mercado Acionário Brasileiro sob diferentes Contextos Econômicos

Bruno de Figueiredo Melo e Souza. Modelos de fatoração matricial para recomendação de vídeos. Dissertação de Mestrado

Efeito do erro de apontamento de antenas fixadas em plataformas móveis no desempenho de sistemas de comunicação digital por satélite

João Paulo de Freitas Araujo. Algoritmos para acelerar a computação de Árvores de corte de Gomory e Hu. Dissertação de Mestrado

Sistema de recomendação de segundo nível para suporte à produção de matérias jornalísticas

Pedro Tiago Barbosa do Couto. Resolução de problemas de transporte rodoviário de cargas utilizando programação inteira DISSERTAÇÃO DE MESTRADO

Gerenciando Conflitos em Reuniões: Uma Estratégia para a Elicitação de Requisitos de Software

QEEF-G: Execução Paralela Adaptativa de Consultas Iterativas

SDiff: Uma ferramenta para comparação de documentos com base nas suas estruturas sintáticas

Avaliação Probabilística de Reservas de Óleo e Gás Considerando o Efeito da Variação do Preço do Óleo

Heidegger e a relação homem-técnica-natureza na crise ambiental contemporânea

Bruno Loureiro Rezende. Um Framework para a Automação de Testes com Linguagens de Especificação Configuráveis DISSERTAÇÃO DE MESTRADO

Matchmaking Uma infraestrutura para alinhamento de esquemas

Mauricio Kreczmarsky Guimarães Meinicke. Opacidade 3D na Visualização Volumétrica de Dados Sísmicos

Bruno Siqueira Silva. Workflows dinâmicos em gerência de projetos ágeis. Dissertação de Mestrado

Utilização de uma estratégia para identificação de fontes de informação na fase de elicitação

Considerações sobre o Afeto em Psicanálise

Marcelo Ribeiro de Carvalho. Modelagem da Operação de um Recinto Especial para Despacho Aduaneiro de Exportação (Redex) Dissertação de Mestrado

Pontifícia Universidade Católica do Rio de Janeiro

Modelagem em Experimentos Mistura-Processo para Otimização de Processos Industriais

Um Estudo Sobre Middlewares Adaptáveis

Adriano Medeiros dos Santos. Suporte a Componentes Compostos Para o Middleware SCS. Dissertação de Mestrado

Liquidez e Formação de Preço: Evidência do mercado acionário brasileiro

Jessica Quintanilha Kubrusly. Métodos Estatísticos para Cálculo de Reservas DEPARTAMENTO DE MATEMÁTICA

Considerações sobre a terceirização da logística e uma metodologia de classificação para os Party Logistics

Comparação de estratégias de construção de poços marítimos incorporando incertezas

Entropia de Rényi e Informação Mútua de Cauchy-Schwartz Aplicadas ao Algoritmo de Seleção de Variáveis MIFS-U: Um Estudo Comparativo

Theo Cotrim Martins. Leis de dividendo mínimo obrigatório protegem acionistas minoritários? Dissertação de Mestrado

Mapeamento Automático de Horizontes e Falhas em Dados Sísmicos 3D baseado no algoritmo de Gás Neural Evolutivo

Roberto Pereira Cavalcante. Filtragem Colaborativa aplicada a Publicidade Direcionada. Dissertação de Mestrado

Estudo de Viabilidade da Implementação de Software de Roteamento para Transporte de Funcionários de Refinaria da Petrobras

Davi Romero de Vasconcelos. Análise de Estratégias Utilizando Verificação Formal de Modelos. Dissertação de Mestrado

A noção de consciência: ecos do cartesianismo e uma crítica a partir da Pragmática

Integração de Ontologia com Modelagem de Processo: Um Método para Facilitar a Elicitação de Requisitos

Consideração Conjunta da Atenuação por Chuvas e de Interferências Externas na Estimação dos Parâmetros de Desempenho de Enlaces Digitais Terrestres

Tatiana Waintraub. Modelagem da calçada de Copacabana. Dissertação de Mestrado

Avaliação da Licitação de Lotes de Frequência para LTE Utilizando a Teoria de Opções Reais

Adriano Francisco Branco. Um modelo de programação para RSSF com. Dissertação de Mestrado

Um Framework de Jogos Sérios para Mercado de Informações com Aplicação em Ética Empresarial

Geraldo da Silva Rocha Netto. Escalonamento Flexível de Workflows com Restrições Temporais. Dissertação de Mestrado

Uma abordagem baseada em SPH para animação interativa de águas rasas em jogos

Atos de fala, atos falhos: uma aproximação entre as teorias linguísticas de Austin e de Wittgenstein e a psicanálise de Freud e Lacan

Alexandre Roberto Rentería ESTIMAÇÃO DE PROBABILIDADE FUZZY A PARTIR DE DADOS IMPRECISOS. Tese de Doutorado

Relação entre Governança Corporativa e Remuneração de Executivos no Brasil

Rogério José Ramos de Oliveira Magalhães

Geração semi-automática de massas de testes funcionais a partir da composição de casos de uso e tabelas de decisão

Análise do Modelo de Apreçamento de Opções GARCH em Opções de Compra da Telebras

Análise da satisfação dos clientes de serviços de cabotagem no Brasil: Um estudo de caso

Gustavo Simão Rodrigues

Sándor Ferenczi: entre os limites da clínica e as experimentações técnicas

Coordenação entre pequenos fundos de investimento em um mercado relativamente ilíquido: efeitos sobre volume e preços

Um modelo para cobertura de notícias na Web

Compras de itens não críticos: implementação no nível operacional e práticas em uma empresa de petróleo

Ricardo Fukasawa. Resolução de problemas de logística ferroviária utilizando programação inteira DISSERTAÇÃO DE MESTRADO

Uma Análise de Cenário Legislativo e Operacional dos Operadores de Transporte Multimodal (OTM) no Brasil

Zonas de Influência Portuárias (Hinterlands) e um Estudo de Caso em um Terminal de Contêineres com a Utilização de Sistemas de Informação Geográfica

Interpretação e construção em psicanálise: uma visão desde a definição matemática dos conceitos de sujeito e objeto a

Carlos Roberto da Costa Ferreira. Interpolação Modificada de LSF's. Dissertação de Mestrado

Mercados Futuros Agropecuários no Brasil: Análise dos Contratos e da Formação dos Preços Futuros

Marcelo de Mattos Bezerra. Interações no Ensino e na Prática do Design e da Arquitetura. Dissertação de Mestrado

Guilherme de Sousa Neves. Previsão de estoque de peças eletrônicas sobressalentes. Dissertação de Mestrado

Uma meta-ferramenta de geração de diagramas utilizada na engenharia reversa de sistemas legados.

Criação Automática de Visões Materializadas em SGBDs Relacionais

As notícias sobre crime e a construção da realidade:

Patrícia Helena G. Seize

Liberdade e verdade na filosofia cartesiana

Realce de Imagens no Domínio da Transformada

Thomas de Campos Tsuchida. Modelagem da localização de pólos de venda de derivados de petróleo. Dissertação de Mestrado (Opção Profissional)

UMA IMPLEMENTAÇÃO DO SERVIÇO WMS SOBRE A BIBLIOTECA TERRALIB

Natasha Ribeiro Vianna. Direitos Fundamentais da Pessoa Jurídica. Um estudo de Direito Comparado. Dissertação de Mestrado

Previsão da Produção Industrial do Brasil: Uma Aplicação do Modelo de Índice de Difusão Linear

Influência de Avaliações Online Negativas na Atitude e na Intenção de Compra

OPERADORES LOGÍSTICOS E SEUS CLIENTES: UM ESTUDO EMPÍRICO

Francisco Eduardo Torres Cursino de Moura. Uma proposta para Rendering Baseado em Imagens em celulares

Framework para coordenação e mediação de Web Services modelados como Learning Objects para ambientes de aprendizado na Web

Otávio de Pinho Forin Braga. Uma Arquitetura para Síntese de Imagens Fotorrealistas baseada em Técnicas de Monte Carlo DISSERTAÇÃO DE MESTRADO

Desenvolvimento e avaliação de um jogo de computador para ensino de vocabulário para crianças com autismo

Matemática e Conhecimento na República de Platão

Rodrigo Pereira David. Técnica de Estimação de Canal Utilizando Símbolos Pilotos em Sistemas OFDM. Dissertação de Mestrado

Rachel Nigro. Charles Taylor As Fontes Morais do Self Moderno. Dissertação de Mestrado

Da sublimação à idealização: implicações psíquicas das transformações no mundo do trabalho

Remo Mannarino Filho. O método das divisões: a última proposta dialética de Platão. Dissertação de mestrado

Pontifícia Universidade Católica do Rio de Janeiro

Política Monetária e Investimento no Brasil

Reação da Política Fiscal e Sustentabilidade da Dívida Federal no Brasil,

Transcrição:

Francisco Benjamim Filho XHITS: Estendendo o Algoritmo HITS para Extração de Tópicos na WWW DISSERTAÇÃO DE MESTRADO DEPARTAMENTO DE INFORMÁTICA Programa de Pós-Graduação em Informática Rio de Janeiro, abril de 2005

Francisco Benjamim Filho XHITS: Estendendo o Algoritmo HITS para Extração de Tópicos na WWW Dissertação de Mestrado Dissertação apresentada como requisito parcial para obtenção do título de Mestre pelo Programa de Pós- Graduação em Informática da PUC-Rio. Orientadores: Ruy Luiz Milidiú Raúl Rentería Rio de Janeiro, abril de 2005

Francisco Benjamim Filho XHITS: Estendendo o Algoritmo HITS para Extração de Tópicos na WWW Dissertação apresentada como requisito parcial para obtenção do título de Mestre pelo Programa de Pós-Graduação em Informática da PUC-Rio. Aprovada pela Comissão Examinadora abaixo assinada. Prof. Ruy Luiz Milidiú Orientador Departamento de Informática - PUC - Rio Prof. Raúl Pierre Renteria Departamento de Informática - PUC - Rio Prof. Marcus Vinicius Soledade Poggi de Aragão Departamento de Informática - PUC - Rio Prof. Daniel Schwabe Departamento de Informática - PUC - Rio Prof. José Eugenio Leal Coordenador(a) Setorial do Centro Técnico Científico - PUC-Rio Rio de Janeiro, 04 de abril de 2005

Todos os direitos reservados. É proibida a reprodução total ou parcial do trabalho sem autorização da universidade, do autor e do orientador. Francisco Benjamim Filho Graduou-se em Engenharia de Computação no Instituto Militar de Engenharia. Benjamim Filho, Francisco Ficha Catalográfica XHITS: estendendo o algoritmo HITS para extração de tópicos WWW / Francisco Benjamim Filho ; orientadores: Ruy Luiz Milidiu, Raúl Rentería. Rio de Janeiro : PUC- Rio, Departamento de Informática, 2005. 76 f. ; 30 cm Dissertação (Mestrado) Pontifícia Universidade Católica do Rio de Janeiro, Departamento de Informática. Inclui referências bibliográficas 1. Informática Teses. 2. Análise de hyperlinks. 2. Busca na WWW. 3. Hub. 4. Autoridade. 5. Portal. 6. Novidade. 7. HITS. 8. XHITS. I. Milidiu, Ruy Luiz. II. Rentería, Raúl. III. Pontifícia Universidade Católica do Rio de Janeiro. Departamento de Informática. III. Título. CDD: 004

À minha esposa Nathália.

Agradecimentos À minha esposa Nathália, pelo apoio incondicional e compreensão. À família, pelo apoio. Ao meu orientador, Prof. Ruy Luiz Milidiú, pelas correções e sugestões a esse trabalho. Ao Prof. Raúl Rentería, pelas correções e sugestões a esse trabalho. À direção do CTEx e à chefia da Divisão de Tecnologia da Informação, por permitirem a realização do curso de mestrado em tempo parcial.

Resumo Benjamim Filho, Francisco. XHITS: Estendendo o Algoritmo HITS para Extração de Tópicos na WWW. Rio de Janeiro, 2005. 076p. Dissertação de Mestrado - Departamento de Informática, Pontifícia Universidade Católica do Rio de Janeiro. O ambiente baseado em hyperlink possui na sua topologia informações substanciais sobre o seu conteúdo. Baseado nesse tipo de ambiente, Jon Kleingerg desenvolveu um conjunto de algoritmos, popularmente conhecido como HITS (Hyperlink Induced Topic Search), que utiliza a estrutura de hyperlinks na WWW para extrair essas informações. O foco central desses algoritmos é a classificação de tópicos de busca de caráter geral na WWW, através da descoberta de páginas que representam autoridade sobre tais tópicos. Para tanto, os algoritmos formulam a noção de autoridade considerando o relacionamento, decorrente da estrutura de hyperlink, entre o conjunto de páginas que são autoridades relevantes e o conjunto de páginas que apontam para essas, denominadas de hubs. Jon Kleingerg definiu, portanto, uma relação de interdependência entre os conjuntos anteriormente citados: uma boa autoridade será uma página apontada por bons hubs e um bom hub será uma página que aponta para boas autoridades. Neste trabalho, propomos a extensão do modelo formulado por Jon Kleingerg, através da inserção de novos conceitos nas relações de interdependência entre autoridades e hubs. Assim, formulamos um algoritmo estendido, XHITS (Extended Hyperlink Induced Topic Search), que visa melhorar a classificação das autoridades do ambiente. Nessa extensão as autoridades são apontadas por bons hubs, às vezes apontadas por bons portais e também apontam para boas novidades. Os bons hubs são páginas que apontam para boas autoridades e novidades, e são apontados por bons portais. As boas novidades são páginas que são apontadas pelas boas autoridades, pelos bons hubs e pelos bons portais e bons portais são páginas que apontam para as boas autoridades, para bons hubs e para boas novidades. Adicionalmente, mostramos que o algoritmo proposto converge e também os diversos resultados experimentais que indicam a melhoria na precisão dos hiperdocumentos recuperados. Palavras-chave Análise de hyperlinks; busca na WWW; hub; autoridade; portal; novidade; HITS; XHITS.

Abstract Benjamim Filho, Francisco. XHITS: Extending the HITS Algorithm for distillation of broad search topic on WWW. Rio de Janeiro, 2005. 076p. Dissertação de Mestrado - Departamento de Informática, Pontifícia Universidade Católica do Rio de Janeiro. The network structure of a hyperlinked environment can be a rich source of information about the content of this environment. Jon Kleinberg developed a set of algorithms, called HITS (Hyperlink Induced Topic Search), for extracting information from the hyperlink structures of those environments. The aim of these algorithms is the distillation of broad search topics, through the discovery of related authoritative information sources. The notion of authority is based on the hyperlink structure relationship between a set of relevant authoritative pages and the set of hubs. Thus, hubs and authorities exhibit what could be called a mutually reinforcing relationship: a good hub is a page that points to many good authorities; a good authority is a page that is pointed by many good hubs. In this work, we present the XHITS (Extended Hyperlink Induced Topic Search) algorithm, an extension of the HITS algorithm by introducing new concepts on the mutually reinforcing relationship. In XHITS, a good authority is a page that is pointed by many good hubs, some good portals and points to good novels; a good hub is a page that points to many good authorities, some good novels and is pointed by some good portals; and a good novel is a page that is pointed by good authorities, some good hubs and some good portals; a good portal is a page that points to some good authorities, some good hubs and some good novels. In addition, we show that XHITS converges and, through some experiments, the improved quality of the hyper documents retrieved. Keywords link analysis; ranking; Web searching; hubs; authorities; novel; portal; HITS; XHITS.

Sumário 1 Introdução 13 2 Modelo de Hubs e Authorities 16 2.1. Algoritmo HITS 16 3 Extensão do Modelo de Hubs e Authorities 20 3.1. O Algoritmo XHITS 20 3.2. Convergência do XHITS 23 4 Ambiente de Experimentação 29 4.1. A Ferramenta 29 4.1.1. SubGrafo da WWW 29 4.1.2. Algoritmo HITS 31 4.1.3. Algoritmo XHITS 33 4.1.4. Estatísticas e Gráficos 34 4.1.5. Algoritmo HITS 35 4.1.6. Algoritmo XHITS 36 4.1.7. Calibração 38 4.2. Benchmark 39 4.2.1. Consultas 39 4.2.2. Avaliação dos Especialistas 42 4.2.3. Relevância 42 5 Experimentos 43 5.1. Soluções por Histograma Média e Modal 44 5.2. Resultados Experimentais 45 5.3. Tópico Fome 52 5.3.1. Análise com a classificação do Yahoo 52 5.3.2. Análise com a classificação do Google 57 5.4. Tópico Harvard 60 5.4.1. Análise com a classificação do Yahoo 60

5.4.2. Análise com a classificação do Google 65 6 Conclusões e Trabalhos Futuros 69 6.1. Conclusões 69 6.2. Trabalhos Futuros 72 7 Referências Bibliográficas 74

Lista de figuras Figura 1: Expansão de R σ. 17 Figura 2: Hubs e autoridades. 18 Figura 3: Módulo de construção do sub-grafo direcionado. 31 Figura 4: Classificação das páginas do grafo utilizando o algoritmo HITS. 32 Figura 5: Classificação das páginas do grafo utilizando o algoritmo XHITS. 34 Figura 6: Gráficos comuns aos dois algoritmos. 35 Figura 7: Acompanhamento da classificação pela variação das iterações. 36 Figura 8: Acompanhamento da classificação pela variação do parâmetro teta. 37 Figura 9: Calibração dos parâmetros do XHITS. 38 Figura 10: Gráfico de acertos por consulta nas dez primeiras páginas. 50 Figura 11: Gráfico de acertos por consulta nas vinte primeiras páginas. 50 Figura 12: Gráfico de acertos por consulta nas cinqüenta primeiras páginas. 51 Figura 13: Gráfico variando o parâmetro φ de 0 a 1 com α = -1, β = 0, γ = 0 e θ = 0 pelo XHITS. 53 Figura 14: Gráfico variando o parâmetro de iteração do algoritmo entre 20 e 40 pelo HITS. 53 Figura 15: Número de acertos nas cinqüenta primeiras páginas pelo XHITS. 54 Figura 16: Número de acertos nas vinte primeiras páginas pelo XHITS. 54 Figura 17: Número de acertos nas dez primeiras páginas pelo XHITS. 54 Figura 18: Número de acertos nas dez primeiras páginas pelo HITS. 55 Figura 19: Número de acertos nas cinqüentas primeiras páginas pelo HITS. 55 Figura 20: Gráfico variando o parâmetro φ de 0 a 1 com α = -1, β = 0, γ = 0 e θ = 0 pelo XHITS. 57 Figura 21: Gráfico variando o parâmetro de iteração do algoritmo entre 20 e 40 pelo HITS. 58 Figura 22: Número de acertos nas cinqüenta primeiras páginas pelo XHITS. 58 Figura 23: Número de acertos nas vinte primeiras páginas pelo XHITS. 59 Figura 24: Número de acertos nas dez primeiras páginas pelo XHITS. 59 Figura 25: Número de acertos nas dez primeiras páginas pelo HITS. 59 Figura 26: Número de acertos nas cinqüenta primeiras páginas pelo HITS. 60 Figura 27: Gráfico variando o parâmetro θ de 0 a 1 com α = -1, β = -1, γ = 0 e φ = 0 pelo XHITS. 61

Figura 28: Gráfico variando o parâmetro de iteração do algoritmo entre 10 e 20 pelo HITS. 61 Figura 29: Número de acertos nas cinqüenta primeiras páginas pelo XHITS. 62 Figura 30: Número de acertos nas vinte primeiras páginas pelo XHITS. 62 Figura 31: Número de acertos nas dez primeiras páginas pelo XHITS. 62 Figura 32: Número de acertos nas dez primeiras páginas pelo HITS. 63 Figura 33: Número de acertos nas cem primeiras páginas pelo HITS. 63 Figura 34: Gráfico variando o parâmetro θ de 0 a 1 com α = 0.3, β = 0, γ = 0 e φ = 1 pelo XHITS. 66 Figura 35: Gráfico variando o parâmetro de iteração do algoritmo entre 10 e 20 pelo HITS. 66 Figura 36: Número de acertos nas cinqüenta primeiras páginas pelo XHITS. 67 Figura 37: Número de acertos nas trinta primeiras páginas pelo XHITS. 67 Figura 38: Número de acertos nas dez primeiras páginas pelo XHITS. 67 Figura 39: Número de acertos nas dez primeiras páginas pelo HITS. 68 Figura 40: Número de acertos nas cem primeiras páginas pelo HITS. 68

Lista de tabelas Tabela 1: Soluções por Histograma. 45 Tabela 2: Comparações dos diversos resultados obtidos com o Yahoo. 46 Tabela 3: Comparações dos diversos resultados obtidos com o Google. 47 Tabela 4: Os dez primeiros resultados do XHITS para o tópico Lula. 48 Tabela 5: Os dez primeiros resultados do XHITS para o tópico Pelé. 48 Tabela 6: Os dez primeiros resultados do XHITS para o tópico Rio de Janeiro. 49 Tabela 7: Média de acertos por intervalo de páginas para cada solução. 51 Tabela 8: Classificação do Yahoo. 52 Tabela 9: Vinte primeiras páginas classificadas com α = -1, β = 0, γ = 0, φ = 1 e θ = 0 pelo XHITS. 56 Tabela 10: Vinte primeiras páginas classificadas pelo HITS. 56 Tabela 11: Classificação do Google 57 Tabela 12: Classificação do Yahoo. 60 Tabela 13: Vinte primeiras páginas classificadas com α = 0.3, β = 0, γ = 0, φ = 1 e θ = 0.6 pelo XHITS. 64 Tabela 14: Vinte primeiras páginas classificadas pelo HITS. 64 Tabela 15: Classificação do Google. 65