Informação de Links no Modelo Vetorial Usando uma Estrutura Funcional

Transcrição

1 Informação de Links no Modelo Vetorial Usando uma Estrutura Funcional Ilmério R. Silva 1, João N. Souza 1, Renata F. Lisboa Moura 1, Berthier Ribeiro-Neto 2 1 Faculdade de Computação Universidade Federal Uberlândia(UFU) Uberlândia MG Brasil 2 Departamento de Ciência da Computação Universidade Federal de Minas Gerais (UFMG) Belo Horizonte MG Brasil [ilmerio, nunes]@facom.ufu.br, renata@comp.ufu.br, berthier@dcc.ufmg.br Abstract The Classical Models of Information Retrieval (IR) only consider the content-based information to retrieve relevant documents. The information is captured by comparing document keywords against the user query terms. Considering the Web, the structure of links among the documents (or pages) is a rich source of information that has not been used by the Classic Models. On the other hands, Bayesian Network models for IR has revealed that link-based combined with content-based information can improve the quality of the retrieved documents. In this work we discuss this combination in the context of the Classic Vector Space Model(VSM). We present three new contributions. We make the combination of link-based with contentbased information close to the IR community, through an extension of the VSM. We define a query language that allows users to state document preferences according to the structure of links. Finally, we propose a metric that allows the comparison among documents using link-based information. 1. Introdução A quantidade de documentos existentes na Web tem crescido muito e a tarefa de recuperar informação relevante obtendo um bom desempenho neste ambiente tem se tornado cada vez mais difícil. Os modelos clássicos de Recuperação de Informação, como o Modelo Vetorial, o Modelo Booleano e o Modelo Probabilístico consideram apenas informações baseadas em conteúdo para recuperar documentos relevantes. Estas informações são extraídas através da busca por palavras-chaves (chamadas termos) nos documentos. Porém, na Web existe uma rica informação que pode ser extraída da estrutura de links entre os documentos (ou páginas) que não é considerada pelos modelos clássicos. Combinar estas informações extraídas de links com informações extraídas de conteúdo pode ser uma boa estratégia para melhorar a qualidade do ranking. Silva et al [10] propõem um modelo, aqui chamado de Modelo Bayesiano, que combina estas informações utilizando Redes Bayesianas. Os experimentos realizados demonstraram que este tipo de combinação melhora a qualidade das respostas sem requerer nenhuma informação extra do usuário em tempo de consulta. Porém, o uso de Redes Bayesianas é pouco difundido entre a comunidade de Recuperação de Informação. Aqui estendemos o Modelo Vetorial Clássico combinando informações baseadas em link com informações baseadas em conteúdo. Definimos uma métrica para o cálculo do ranking e por meio desta métrica é possível parametrizar pesos para conteúdo, hub e autoridade em tempo de consulta. Hub e autoridade são valores extraídos da análise da estrutura de links para cada documento da coleção [5]. Os conceitos sobre hub e autoridade são descritos com mais detalhes na Seção 3.2.

2 Este trabalho está dividido da seguinte forma. Na Seção 2 apresentamos os trabalhos relacionados. Na Seção 3 descrevemos alguns conceitos fundamentais em Recuperação de Informação que são utilizados como base para o nosso trabalho. Na Seção 4 apresentamos os conceitos da Estrutura Funcional utilizada para comparar modelos. Na seção 5 representamos a combinação de evidências do Modelo Bayesiano na Estrutura Funcional. Além disso, definimos uma métrica que combina link e conteúdo. Na Seção 6 definimos um Modelo Vetorial Estendido com informações baseadas em link, permitindo a parametrização de conteúdo, hub e autoridade na elaboração da consulta. Na Seção 7 mostramos alguns exemplos com o Modelo Vetorial Estendido e na Seção 8 apresentamos as conclusões e trabalhos futuros. 2. Trabalhos Relacionados Muitos modelos em Recuperação de Informação, tais como o Modelo Vetorial Clássico[9] e o Modelo Probabilístico[7] utilizam somente informações baseadas no conteúdo dos documentos para recuperar documentos relevantes. Nossa proposta é estender o Modelo Vetorial Clássico combinando outras fontes de informação. Brin e Page [2] propõem um algoritmo que usa a estrutura de links para indicar o quanto um documento é uma autoridade em determinado tópico ou consulta. O grau de autoridade pode ser interpretado como uma medida de popularidade de um documento baseada na estrutura de links em volta dele. Kleinberg [5] propõe outro algoritmo que também analisa a estrutura de links. Este algoritmo procura por páginas, chamadas hubs, que apontam para várias outras páginas e as usa como um componente para determinar o grau de autoridade dos documentos. Documentos que são apontados por vários hubs possuem um alto grau de autoridade. A extensão do Modelo Vetorial Clássico que propomos incorpora estas informações de links. Alguns trabalhos combinam evidências baseadas em conteúdo e link utilizando um único modelo de Recuperação de Informação. O algoritmo de Chakrabarti et al [4] combina análise de link local descrita em [5] com evidência baseada em conteúdo. Eles utilizam o texto próximo aos links como conteúdo para determinar um peso para cada link analisado. Após determinar os pesos de cada link, o ranking é calculado usando uma versão do algoritmo proposto por Kleinberg que considera pesos. A desvantagem desta proposta é o processamento da consulta em duas fases. A primeira calcula o peso dos links e a segunda executa o algoritmo de Kleinberg. Em nosso trabalho, fazemos a combinação de link e conteúdo com velocidade de processamento semelhante à do Modelo Vetorial Clássico. Bharat e Henzinger [1] também utilizam conteúdo para determinar a relevância dos links. Além disso, eles expandem a consulta original usando os termos dos documentos que fazem parte do conjunto resposta local e calculam o peso de cada link baseado na consulta expandida. Este processo de expansão melhora a qualidade das respostas, porém tem um alto custo computacional porque aumenta o número de termos processados. Silva et al [10] propõem explorar o uso das Redes Bayesianas para representar e combinar informações baseadas em links e conteúdo. Aqui discutimos esta combinação no contexto do Modelo Vetorial Clássico. Calado et al [3] fez uma comparação entre a informação de link global e local. A análise global considera todos os documentos da coleção. A análise local é derivada do conjunto de documentos retornados como respostas da consulta corrente. Os resultados da comparação indicam a utilização da análise global devido às facilidades de précomputação do índice, sem perdas significativas na qualidade das respostas. Portanto, neste trabalho utilizamos a análise de link global.

3 Tsikrika e Lalmas [12] introduzem um expressivo modelo de Recuperação de Informação formal baseado em Redes Bayesianas. Este modelo combina múltiplas representações de documentos no Modelo de Inferência. Estas representações são extraídas do conteúdo dos documentos e da análise da estrutura de links na Web. Este trabalho não apresenta experimentos que comprovem ganhos na qualidade das repostas e ele também utiliza Redes Bayesianas, ou seja, utiliza uma abordagem que ainda está distante da comunidade de Recuperação de Informação. Nosso trabalho propõe um Modelo Vetorial Estendido com informações de links. Ele difere dos outros por uma série de fatores. Primeiro, porque discutimos a combinação de link e conteúdo no contexto do Modelo Vetorial. Desta maneira, tornamos o tema mais próximo à comunidade de Recuperação de Informação. Em segundo lugar, esta combinação traz a possibilidade de definirmos uma linguagem de consulta que atribui pesos às informações baseadas em conteúdo e link. Finalmente, a combinação aqui é feita com base em uma métrica, permitindo inclusive utilizá-la para comparar documentos. 3. Conceitos Fundamentais Nesta seção descrevemos os conceitos básicos de Recuperação de Informação (RI). Descrevemos o Modelo Vetorial Clássico e uma abordagem para utilizar informações obtidas da estrutura de links em RI. Mostramos uma estratégia de ranking que combina informações de conteúdo e de links. Esta estratégia foi apresentada na literatura no contexto de Redes Bayesianas Modelo Vetorial No Modelo Vetorial um documento é um registro de dados que inclui uma parte textual. O j-ésimo documento em uma coleção de documentos é denotado por d j. Um termo é uma palavra que semanticamente ajuda a lembrar o tema principal do documento. Um termo é denotado por k i. Geralmente, uma consulta é um conjunto de termos que expressa a necessidade do usuário. Ela é denotada por q. Consultas e documentos são representados como vetores em um espaço t-dimensional, onde t é o número de termos da coleção. Cada dimensão deste espaço é associada com um vetor de termos k i. Estes vetores de termos são ortogonais, ou seja, i j k i k j = 0. Isto implica que termos ocorrem independentemente dentro dos documentos e consultas. Além disso, k i = 1. Documentos e consultas são vetores do tipo d j = (w 1j, w 2j,..., w tj ) e q = (w 1q, w 2q,..., w tq ), onde w ij e w iq são pesos associados aos termos k i no documento d j e na consulta q respectivamente. O Modelo Vetorial atribui pesos positivos aos termos das consultas e documentos. Para calcular estes pesos, uma abordagem comum é balancear a importância dos termos intradocumento com a importância dos termos interdocumentos. O Modelo Vetorial propõe o cálculo do grau de similaridade entre um documento d j e uma consulta q através do coseno entre estes dois vetores. A similaridade entre d j e q mostra a proximidade dos dois vetores: sim v (d j, q) = d j q = t i=1w ij. w iq Eq. (3.1) d j x q t 2 i=1 w ij t 2 i=1 w iq

4 3.2. Evidências Baseadas em Link O conhecimento sobre a estrutura de links é uma das fontes de informação mais ricas em um ambiente de hyperlink, como a Web [5]. Tal conhecimento freqüentemente codifica algum julgamento humano sobre os documentos. Este julgamento pode ter uma grande importância na geração de um bom ranking. Realmente, o fato de um documento indicar outro induz alguma informação relevante. Kleinberg propõe um algoritmo chamado HITS [5] que usa esta informação para medir a importância de um documento (Figura 3.1). Ele se baseia em duas métricas: um grau de autoridade e um grau de hub. Uma boa autoridade é definida como um documento que é referenciado por um grande número de bons hubs. Recursivamente, um bom hub é definido como um documento que possui um grande número de links para boas autoridades. O algoritmo HITS calcula um grau de hub e um grau de autoridade associado a cada documento de uma coleção. Estes cálculos têm como base a análise da estrutura de links entre os documentos mostrada a seguir. Algoritmo Hub-Autoridade (V,E) V : um conjunto de documentos E : um conjunto de arcos direcionados ligando documentos de V Seja N o número de documentos em V Seja X := (X 1, X 2,..., X N ) um vetor, tal que X i é o valor que define a autoridade do documento d i. Inicialmente temos i, X i = 1. Seja Y := (Y 1, Y 2,..., Y N ) um vetor, tal que Y i é o valor que define o hub do documento d i. Inicialmente temos i, Y i = 1. Enquanto os vetores X e Y não convergirem faça Para i := 1 até N faça X i := (Dj, Di) E Y j fim Para i := 1 até N faça Y i := (Di, Dj) E X j fim Normalize os vetores X e Y tal que i X i 2 = i Y i 2 = 1 Fim Retorne X e Y em ordem decrescente. Figura 3.1: Algoritmo para o cálculo dos valores de Hub e Autoridade de cada documento. O algoritmo HITS interpreta uma coleção de documentos como um grafo direcionado G, onde cada documento (página) é representado por um nó e cada link entre dois documentos é representado por um arco direcionado. Um link de um documento D para outro documento D' implica que o autor do documento D recomenda o documento D'. Detalhes sobre a convergência do algoritmo podem ser encontrados em [5].

5 3.3. Combinando Evidências de Link e Conteúdo Utilizando Redes Bayesianas As informações de conteúdo são extraídas com base nos termos dos documentos. O Modelo Vetorial descrito na Seção 3.1 é um exemplo de modelo que fornece o ranking de documentos baseado em conteúdo. Já as informações da estrutura de links são obtidas do algoritmo de Kleinberg apresentado na Seção 3.2. O Modelo de Redes Bayesianas, assim como o Modelo Vetorial, fornece o ranking dos documentos baseando-se em conteúdo. Nos sistemas tradicionais de Recuperação de Informação baseados em conteúdo, documentos e consultas são representados como um conjunto de palavras-chave. No Modelo de Redes Bayesianas, eles são tratados de forma análoga. A Figura 3.2 ilustra uma rede bayesiana que reflete esta simetria. Nesta rede, cada nodo D j modela um documento d j, o nodo Q modela a consulta q do usuário e os nodos k i modelam as palavras-chave da coleção. Q Lado da consulta U k 1 k 2.. k i.. k t Raíz D i D j D n Lado dos documentos Figura 3.2: Rede Bayesiana para uma consulta Q composta dos termos k 1 e k i. Na rede o cálculo do ranking é baseado na similaridade entre um documento d j e uma consulta q. Esta similaridade é dada pela probabilidade P(d j q). A probabilidade P(d j q) é definida pela regra da probabilidade total e as independências modeladas na rede: P(d j q) = η P(d j k) P(q k) P(k) Eq. (3.2) k onde η é uma constante de normalização. Esta é a equação genérica para determinar o ranking de um documento d j em relação a uma consulta q no Modelo de Redes Bayesianas. Detalhes sobre a derivação desta equação podem ser vistos em [10]. A rede bayesiana descrita anteriormente pode ser expandida para combinar fontes de evidências. Silva et al [10] propõem um Modelo Bayesiano que combina as informações de link e conteúdo na rede. Para isso são inseridos à rede original apresentada na Figura 3.2, nós e arcos representando evidências baseadas em links. Na Figura 3.3, o lado esquerdo da rede representa a rede original com as seguintes adaptações: cada documento D j foi renomeado como Dc j, pois o Modelo Vetorial Clássico é utilizado para extrair a informação do conteúdo. O lado direito da rede modela as informações da estrutura de links. O nó Dh j representa o documento D j como hub e Da j representa o documento D j como autoridade. As evidências de C, A e H representam conteúdo, autoridade e hub, respectivamente. No nó D j combina-se estas três evidências por meio de um operador disjuntivo or:

6 P(d j k) = or ((P(dc j k), P(dhj k), P(da j k)) Eq. (3.3) P(d j k) = 1 (1 P(dc j k)) x (1 P(dh j k)) x (1 P(da j k)) Eq. (3.4) Rede Original Lado da consulta Raíz Lado dos documentos Figura 3.3: Rede Bayesiana estendida com evidências baseada em links. De forma análoga a rede da Figura 3.2, para a rede da Figura 3.3, temos que: P(d j q) = η P(d j k) P(q k) P(k) k então, substituindo P(d j k) pela Eq. (3.4) temos: P(d j q) = η [1 (1 P(dc j k))x(1 P(dh j k))x(1 P(da j k))]x P(q k)xp(k) Eq. (3.5) k onde, P(dc j k) = t i=1w ij. w iq = R jq, t i=1 w ij 2 t i=1 w iq 2 é o peso deste documento como conteúdo, calculado pelo Modelo Vetorial de acordo com a Eq. (3.1); P(dh j k) = H jq É o grau de hub deste documento, calculado pelo algoritmo de Kleinberg; P(da j k) = L jq É o grau de autoridade deste documento, calculado pelo algoritmo de Kleinberg; P(q k) = 1 Se ki, g i (q) = g i (k) 0 caso contrário

7 P(k) = 1 Se ki, g i (q) = g i (k) 0 caso contrário Para simplificar, a Eq. (3.5) pode ser rescrita desta forma: P(d j q) = η [1 (1 R jq ) (1 H j ) (1 A j )] Eq. (3.6) Esta equação combina link e conteúdo e é utilizada para o cálculo do ranking no Modelo Bayesiano. Observe que a constante η não influencia no resultado final do ranking. É uma constante que mantém as propriedades da distribuição de probabilidade modelada na rede. Além disso, os valores R jq, H j e A j já estão normalizados. Então a seguinte equação representa o ranking do Modelo Bayesiano: Sim RB (d j,q) = 1 (1 R jq ) (1 H j ) (1 A j ) Eq. (3.7) É importante destacar que esta equação não permite que o usuário, na formulação da consulta, expresse sua preferência por hubs ou autoridades. 4. Estrutura Funcional Nesta seção apresentamos os conceitos da Estrutura Funcional [11]. Esta estrutura é capaz de representar vários modelos de RI. Ela permite também a comparação entre modelos. Neste trabalho, ela é utilizada para representar os modelos de Redes Bayesianas e vetoriais, como também para uma comparação algébrica entre eles. Fundamentos da Estrutura Funcional. Os modelos de recuperação de informação clássicos consideram que cada documento é descrito por um conjunto de palavras chaves denominadas termos. A Estrutura Funcional considera, além disso, as relações entre os termos. Definição 4.1 (Termo Funcional). Um termo funcional é uma função cuja semântica relaciona conjuntos de termos. Definição 4.2 (Função Peso). Seja C = {d 1,..., d z } uma coleção de documentos e K={k 1,..., k t } o conjunto de termos em C. Define-se a função peso g: K x {C {q}} R tal que g(k i, d j ) retorna o peso associado com o par (k i, d j ) e g(k i, q) retorna o peso associado com o par (k i, q). Por conveniência é adotado uma notação simplificada. Seja g j : K R uma função unária que retorna o peso de cada termo no documento d j. Neste caso, g j (k i ) retorna o peso associado com o par (k i, d j ). Analogamente, seja g q : K R uma função unária que retorna o peso na consulta q. Logo, g q (k i ) retorna o peso associado com o par (k i, q). A função peso g j é um termo funcional. Definição 4.3 (Representação de Documentos Funcionais). Um documento funcional df j é representado por um conjunto de termos funcionais. Estas funções relacionam termos em um documento d j. Definição 4.4 (Representação de Consultas Funcionais). Analogamente, uma consulta funcional qf é representada por um conjunto de termos funcionais. Estas funções relacionam termos em uma consulta q. Definição 4.5 (Métrica entre dois Documentos Funcionais). Dada uma coleção C = {df 1,..., df n } de documentos funcionais, uma métrica é uma função distância

8 : C x C R que assinala um número real positivo df j df m para cada par (df j, df m ) C 2, satisfazendo as seguintes propriedades(ou axiomas): (1) df j df m 0 (2) df j df m = df m df j e (3) df j df m + df m df s df j df m Neste caso, (df j, df m ) denota a distância entre os documentos df j e df m. A métrica (df j, qf) é definida de forma análoga. Definição 4.6 (Casamento entre Documentos Funcionais e Consultas). Sejam df j um documento funcional e qf uma consulta funcional. Seja α um número positivo. O documento funcional df j e a consulta funcional qf são casados com precisão α, se df j qf α, onde df j qf é uma métrica na coleção de documentos funcionais. Definição 4.7 (Modelo Funcional). Um modelo funcional é uma coleção de documentos funcionais e uma métrica. Ele é representado por Ψ = {df 1,..., df n, } onde é uma métrica sobre os pares de documentos funcionais da coleção. Definição 4.8 (Equivalência de Modelos Funcionais). Dois modelos funcionais Ψ 1 = {df 1,..., df n, 1 } e Ψ 2 = {ds 1,..., ds n, 2 } são equivalentes se e somente se existe uma função bijetora φ : {df 1,..., df n } {ds 1,..., ds n } tal que se φ(df i ) = ds j e φ(df l ) = ds m então 1 (df i, df l ) = 2 (ds j, ds m ). Neste caso, φ é um isomorfismo entre Ψ 1 e Ψ 2. Definição 4.9 (Sobreposição de Modelos Funcionais). O modelo funcional Ψ 1 = {df 1,..., df n, 1 } é sobreposto pelo modelo funcional Ψ 2 = {ds 1,..., ds n, 2 }, u n, se e somente se existe uma função injetora φ : {df 1,..., df n } {ds 1,..., ds n } tal que se φ(df i ) = ds j e φ(df l ) = ds m então 1 (df i, df l ) = 2 (ds j, ds m ). A comparação entre modelos de Recuperação de Informação é útil para um melhor entendimento do relacionamento entre os modelos comparados. A Estrutura Funcional é uma ferramenta capaz de proporcionar meios para comparar modelos de Recuperação de Informação através da formalização dos conceitos de equivalência e sobreposição Representação do Modelo Vetorial na Estrutura Funcional Para representar um modelo na estrutura funcional é necessário definir um modelo funcional Ψ que o represente. Seja Ψ v = {df v1,..., df vn, v } um modelo funcional. O Modelo Vetorial pode ser representado definindo: df vj = {g j }. Conjunto unário que contém a função peso para o documento d j. A função g j define o peso w ij no modelo vetorial. Portanto, g j (k i )= w ij ; qf v = {g q }. Conjunto unário que contém a função peso da consulta q. No modelo vetorial a função que define o peso de cada termo na consulta é g q. Portanto, g q (k i ) = w iq ; Métrica dada por v (df vj, qf v ) = 1 t i=1g j (k i ). g q (k i ) t i=1 g j (k i ) 2 t i=1 g q (k i ) 2 Note que v é uma função de distância e a função de similaridade sim v do Modelo Vetorial é uma função de proximidade. O ranking do Modelo Vetorial pode ser obtido definindo a similaridade sim v (df vj, qf v ) = 1 v (df vj, qf v ).

9 5. Representação do Modelo Bayesiano na Estrutura Funcional Nesta seção definimos uma representação do Modelo Bayesiano na Estrutura Funcional. O modelo funcional deve ser composto por um conjunto de documentos funcionais e uma métrica. Seja Ψ r = {df r1,..., df rn, r } o modelo funcional que representa o Modelo Bayesiano na Estrutura Funcional. Vamos definir o documento funcional df rj e a métrica r. Um documento funcional é formado por um conjunto de funções. O Modelo Bayesiano pode ser representado utilizando três funções a saber: (1) g j função que define o peso dos termos no documento. (2) g hubj é uma função constante que define o valor de hub do documento definido pelo algoritmo de Kleinberg apresentado na seção 3.2. Então, temos g hubj = H j. (3) g autj é uma função constante que define o valor de autoridade do documento definido pelo algoritmo de Kleinberg (Figura 3.1). Então, temos g autj = A j. Portanto, a definição do documento funcional é dada por df rj = {g j, g hubj, g autj }. Para definirmos a métrica do modelo funcional que representa o Modelo Bayesiano precisamos fazer a seguinte consideração. Ao contrário do Modelo Vetorial, o Modelo Bayesiano não faz referência à similaridade entre dois documentos. De forma análoga à definição da métrica funcional para representar o Modelo Vetorial, definimos a métrica r = (1 R jl ) (1 H jl ) (1 A jl ) para hub e autoridade no modelo funcional Ψ r, onde : R jl = t i=1g j (k i ). g l (k i ) ; H jl = g hubj g hubl ; e A jl = g autj g autl Então temos: t i=1 g j (k i ) 2 t i=1 g l (k i ) 2 df rj df rl = (1 R jl ) (1 g hubj g hubl ) (1 g autj g autl ) Eq. (5.1) df rl df rj = (1 R lj ) (1 g hubl g hubj ) (1 g autl g autj ) Eq. (5.2) Uma consulta qf r pode ser representada de forma análoga ao documento. Definimos g q (k i ) = w iq. Entretanto, como não temos valores de hub e autoridade associados à consulta, definimos os valores constantes H q =1 e A q =1. Então, a representação da consulta será: qf r = {g q, H q, A q } A mesma função de distância utilizada para os documentos pode ser utilizada para um documento e a consulta: df rj qf r = (1 R jq ) (1 H jq ) (1 A jq ) Eq. (5.3) onde R jq = t i=1g j (k i ). g q (k i ) ; H jq = g hubj H q ; e A jq = g autj A q t i=1 g j (k i ) 2 t i=1 g q (k i ) 2 Para representar o Modelo Bayesiano na Estrutura Funcional, definimos: sim RB (df rj, qf r ) = 1 r (df rj, qf r ). De acordo com o exposto anteriormente, o modelo funcional ψ r pode ser definido como se segue:

10 (1) df rj = {g j, g hubj, g autj } (2) qf r = {g q, A q, H q } (3) r (df rj, qf r ) = (1 R jq ) (1 g hubj H q ) (1 g autj A q ). Considerando H q = A q = 1 esta representação conserva as mesmas funcionalidades do Modelo Bayesiano. Observe que H q e A q podem ser utilizados como parâmetros de entrada durante a especificação da consulta, possibilitando ao usuário manifestar sua preferência por hub ou autoridade. Além disso, a métrica definida para possibilitar a representação do Modelo Bayesiano na Estrutura Funcional mede a distância entre dois documentos, o que não ocorre no Modelo Bayesiano. 6. Modelo Vetorial Estendido com Informações de Links Nesta seção definimos um Modelo Vetorial Estendido com informações de links. Representamos este modelo na Estrutura Funcional e mostramos a equivalência entre ele e o Modelo Bayesiano. Esta equivalência é baseada no conceito de isomorfismo da Estrutura Funcional Definição do Modelo Vetorial Estendido com Informações de Links Como referimos na Seção 3.1, no Modelo Vetorial Clássico o conjunto de termos {k i 1 i t}, formam os eixos do espaço vetorial. Os documentos e consultas são representados como vetores neste espaço: d j = (w 1j, w 2j,..., w tj ) e q = (w 1q, w 2q,..., w tq ), respectivamente. As coordenadas do vetor d j são os pesos de cada termo no documento e as coordenadas do vetor q são os pesos de cada termo na consulta (Veja Figura 6.1). k 1 w 1j d j w 2j k 2 Figura 6.1: Representação do documento d j em um espaço 2-dimensional Estamos propondo neste trabalho um modelo que combina informações baseadas em link e conteúdo por meio de uma extensão do Modelo Vetorial Clássico. Para isso, estendemos o espaço vetorial adicionando dois novos eixos. Um eixo representa a informação de hub e o outro eixo representa a informação de autoridade. Seja hub o eixo que representa o grau de hub e aut o eixo que representa o grau de autoridade. Neste espaço vetorial um documento é representado por um vetor de j = (H j, A j, w 1j, w 2j,..., w tj ), onde H j é o valor de hub associado ao documento d j e A j é o valor de autoridade associado ao documento d j. Veja Figura 6.2. Analogamente, definimos a consulta qe = (H q, A q, w 1q, w 2q,...,w tq ). Observe que H q e A q podem ser utilizados como parâmetros de entrada durante a especificação da consulta, possibilitando ao usuário manifestar sua preferência por hub ou autoridade.

11 k 1 w 1j de j H j hub A j aut Figura 6.2: Representação do documento d j em um espaço 3-dimensional considerando os novos eixos hub e aut. Discutimos o cálculo da similaridade neste modelo na próxima seção, já no contexto da Estrutura Funcional Representação do Modelo Vetorial Estendido na Estrutura Funcional Dado um documento d j, os valores de hub e autoridade H j e A j, são coordenadas do vetor de j que representa o documento. Os valores de hub e autoridade podem ser considerados como imagens das funções g' hubj e g' autj, definindo g' hubj = H j e g' autj = A j. Além disso, definimos g' j (k i ) = w ij que representa as coordenadas relativas aos termos. Portanto, podemos extrair as informações de links de forma análoga à que extraímos as informações de conteúdo. O documento funcional que representa o documento de j é definido por: df ej = {g' j, g' hubj, g' autj }. A consulta qe do modelo vetorial estendido é definida de forma análoga no modelo funcional: qf e = {g' q, H q, A q }. O Modelo Vetorial Clássico utiliza o coseno entre dois vetores de documentos para definir a similaridade. Entretanto, podemos utilizar outras funções para calcular a similaridade entre documentos e consulta. Em nosso modelo utilizamos a métrica definida na Seção 5. Temos uma métrica que considera o coseno entre os dois vetores no subespaço dos termos e ainda considera o grau de hub e autoridade de cada documento. Portanto, o modelo funcional ψ e que representa o modelo vetorial estendido com informações de links é definido como: (1) df ej = {g' j, g' hubj, g' autj } (2) qf e = {g' q, H q, A q } (3) e (df ej, qf e ) = (1 R jq ) (1 g' hubj H q ) (1 g' autj A q ). g' j (k i ) = w ij i. Analogamente, g' q (k i ) = w iq i. g' hubj = H j ; g' autj = A j ; são o grau de hub e autoridade, respectivamente, calculados pelo algoritmo de Kleinberg[5], mostrado na Figura 3.1. H q e A q são valores determinados pelo usuário para indicar sua preferência por hub ou autoridade.

12 R jq é o coseno entre os vetores d e q no sub-espaço vetorial formado pelos vetores k i i 6.3. Equivalência entre os Modelos Funcionais que Representam o Modelo Bayesiano e o Modelo Vetorial Estendido com Informações de Links Conforme mostramos, o Modelo Bayesiano e o Modelo Vetorial Estendido com informações de link possuem uma representação na Estrutura Funcional. São representados pelos modelos funcionais ψ r e ψ e. Nesta seção mostramos que há um isomorfismo entre estes dois modelos funcionais. Ou seja, existe uma função bijetora φ :{df r1,...,df rn } {df e1,...,df en } tal que se φ (df ri ) = df ei e φ (df rj ) = df ej então r (df ri, df rj ) = e (df ei, df ej ). Para demonstrar a equivalência, definimos um isomorfismo entre dois documentos funcionais. Neste caso, basta considerar: φ(df rj ) = df ej j. Observe que φ é a função identidade. Na Figura 6.3. temos um mapeamento de df rj em df ej. Ele mostra a função φ tal que φ(df e ) = φ({g j, g hubj, g autj }) = {g' j, g' hubj, g' autj }. g j g' j g hubj g' hubj g autj g' autj df r df e Figura 6.3. Mapeamento dos documentos funcionais dfr e dfe. Para demonstrar que a função identidade é um isomorfismo, devemos provar que r (df ri, df rj ) = e (df ei, df ej ). Esta igualdade é satisfeita devido à definição da métrica no Modelo Bayesiano e no Modelo Vetorial Estendido. Temos que: r (df ri, df rj ) = (1 R jq ) (1 g hubj H q ) (1 g autj A q ) = (1 R jq ) (1 g' hubj H q ) (1 g' autj A q ) = e (df ei, df ej ) Como φ é um isomorfismo, concluímos que os dois modelos são equivalentes. Nesta Seção apresentamos um Modelo Vetorial Estendido com informações de links. Consideramos aqui a informação de link global, ou seja, o grau de hub e autoridade são calculados considerando-se todos os documentos da coleção. Isto significa que estes valores são calculados previamente (pré-processamento). Por isso, o cálculo da similaridade no nosso modelo tem um desempenho computacional e uma facilidade de implementação semelhantes aos do Modelo Vetorial Clássico.

13 7. Exemplos Para ilustrar as idéias discutidas anteriormente apresentamos a seguir uma simulação dos cálculos no modelo proposto. Seja uma amostra com 6 documentos {d 1, d 2, d 3, d 4, d 5 e d 6 }. Suponha uma consulta q e os seguintes valores de R jq : R 1q = 0,64; R 2q = 0,34; R 3q = 0,47; R 4q = 0,53; R 5q = 0,68; R 6q = 0,49. De acordo com o modelo vetorial, teríamos o seguinte ranking de documentos: <d 5, d 1, d 4, d 6, d 3, d 2 >. Isto pode ser simulado no modelo funcional ψ e fazendo A q = H q = 0. Suponhamos que estes documentos possuem os seguintes valores de hub e autoridade: h 1 = 0,22; h 2 = 0,48; h 3 = 0,27; h 4 = 0,34; h 5 = 0,54; h 6 = 0,42; a 1 = 0,31; a 2 = 0,37; a 3 = 0,51; a 4 = 0,45; a 5 = 0,42; a 6 = 0,29. Suponha que na consulta q, o usuário não especifica preferência entre hub e autoridade, ou seja, A q = H q = 1. Este caso é uma simulação do Modelo Bayesiano. Veja o ranking para este caso: Ranking d 5 d 4 d 3 d 1 d 6 d 2 e 0,085 0,170 0,189 0,193 0,210 0, e 0,915 0,830 0,811 0,807 0,790 0,784 Entretanto, em nosso modelo o usuário pode manifestar sua preferência por hubs. Ou seja, suponha que o usuário esteja realizando uma pesquisa sobre um determinado assunto e que ele prefere páginas mais abrangentes, i.e. páginas que apontam para várias outras páginas. Esta preferência pode ser facilmente representada com A q = 0 e H q = 1. O novo ranking para esta consulta seria então: Ranking d 5 d 1 d 6 d 4 d 2 d 3 e 0,147 0,280 0,295 0,310 0,343 0, e 0,853 0,720 0,705 0,690 0,657 0,614 Se o usuário preferir documentos de maior autoridade, a consulta terá A q = 1 e H q = 0. Neste caso o usuário está interessado em páginas que são autoridades em um determinado assunto, ou seja, páginas que são apontadas por várias outras boas páginas. O novo ranking para esta consulta seria: Ranking d 5 d 1 d 4 d 3 d 6 d 2 e 0,185 0,248 0,258 0,259 0,362 0, e 0,815 0,752 0,742 0,741 0,638 0,585 Além disso, o usuário pode estabelecer parâmetros intermediários para hubs e autoridades. Porém, determinar estes valores é uma tarefa difícil para o usuário. Podemos pensar então em armazenar a preferência do usuário no momento em que ele escolhe documentos em diferentes iterações com o sistema. Por exemplo, se em 70% das iterações com o sistema o usuário escolhe documentos com alto valor de hub, podemos pensar em parametrizar automaticamente a consulta com H q = 0,7 e A q = 0,3. Neste caso o ranking seria: Ranking d 5 d 1 d 4 d 6 d 3 d 2 e 0,172 0,278 0,307 0,329 0,364 0, e 0,828 0,722 0,693 0,671 0,636 0,613

14 Os resultados que mostram que a combinação de informações de link (utilizando a análise de link global) com informações de conteúdo melhoram a qualidade do ranking foram apresentados em [3]. Nosso objetivo aqui é mostrar como podemos trabalhar com a linguagem de consulta, ou seja, como o usuário pode manifestar sua preferência por conteúdo, hub ou autoridade. Observamos que d 5 está no topo do ranking em todos os casos. Isto se justifica porque o seu valor para conteúdo, R 5q, é o maior desta amostra, assim como seu valor de hub. Porém, quando o usuário manifesta preferência por autoridades, o documento d 3 é o que possui maior valor de autoridade, no entanto, aparece em quarto lugar no ranking. Isto ocorre porque d 3 é uma autoridade, mas não neste assunto (R 3q é baixo). Neste caso, existem documentos que combinam melhor conteúdo e autoridade. No caso em que o usuário manifesta 70% de preferência por hubs observamos que em relação ao ranking em que ele manifesta 100% de preferência por hubs, na terceira posição, d 4 aparece no lugar de d 6. Isto ocorre porque consideramos 30% de preferência por autoridades e o valor de autoridade de d 4 combinado com seus valores de hub e conteúdo supera os valores de d 6. Por isso, neste caso d 4 aparece primeiro no ranking. 8. Conclusão e Trabalhos Futuros Neste trabalho representamos o Modelo Vetorial Clássico e o Modelo Bayesiano em uma Estrutura Funcional. A representação do Modelo Bayesiano foi realizada com base na definição de uma métrica. Esta métrica permite parametrizar pesos para conteúdo, hub e autoridade em tempo de consulta. Além disso, a métrica permite também o cálculo da similaridade entre dois documentos. Propomos um Modelo Vetorial Estendido com informações de links que combina informações baseadas em link e conteúdo. Além disso, este modelo possui a simplicidade de implementação e o desempenho computacional para obtenção do ranking semelhantes aos do Modelo Vetorial Clássico. Utilizando o conceito de equivalência entre modelos funcionais mostramos que o Modelo Vetorial Estendido é equivalente ao Modelo Bayesiano representado na Estrutura Funcional. Mostramos por meio de exemplos como trabalhar com a linguagem de consulta proposta aqui. Vimos que por meio desta linguagem o usuário pode manifestar sua preferência por hub ou autoridade. Observamos também que mesmo quando ele manifesta preferência por páginas que são hubs, a métrica ordena os documentos considerando o valor de hub e o valor de conteúdo, ou seja, as palavras que o usuário escolheu. Portanto, estarão no topo do ranking os documentos que são bons hubs naquele assunto. Para trabalhos futuros pretendemos avaliar um Modelo Vetorial Estendido, cuja métrica é o coseno e este será calculado considerando-se todo o espaço, inclusive os novos eixos de hub e autoridade. Um outro trabalho é utilizar a métrica entre dois documentos para clusterização. Referências 1. Bharat, K., Henzinger, M.R. Improved algorithms for topic distillation in a hyperlinked environment. In Proc. of the 21st ACM SIGIR Conference on Research and Development in Information Retrieval, Distributed Retrieval, pages , Brin, S., Page, L. The anatomy of a large-scale hypertextual web search engine. In Proc. of the 7th International World Wide Web Conference (WWW7), pages , Brisbane, Australia, 1998.

15 3. Calado, P., Ribeiro-Neto, B., Ziviani, N., Moura, E., Silva, I. Local Versus Global Link Information in the Web. ACM Transactions on Information Systems, Vol. 21, No. 1, pages 1-22, January Chakrabarti, S., Dom, B., Raghavan, P., Rajagopalan, S., Gibson, D., Kleinberg, J. Automatic resource compilation by analyzing hyperlink structure end associated text. In Proc. of the 7th International World Wide Web Conference (WWW7), pages 65-74, Brisbane, Australia, Kleinberg, J. M. Authoritative sources in a hyperlinked environment. In Proc. of the Ninth Annual ACM-SIAM Symposium on Discrete Algorithms, pages , San Francisco, California, Ribeiro-Neto, B., Muntz R. A belief network model for IR. In Proc. of the 19th ACM SIGIR Conference on Research and Development in Information Retrieval, pages , Zurich, Switzerland, Robertson, S. E., Jones, K. S. Relevance weighting of search terms. Journal of the American Society for Information Sciences, 27(3): , Salton, G. Automatic Information Organization and Retrieval. McGraw-Hill, New York, NY, Salton, G., Yang, C., Wong, A. A vector space model for automatic indexing. Communications of the ACM, 18(11), pages , Silva, I., Ribeiro-Neto, B., Calado, P., Moura, E., Ziviani, N. Link-based and contentbased evidential information in a belief network model. In Proc. of 23rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (Athens, Greece), , Best Student paper. 11. Silva, I., Souza, J. A Functional Framework to Model IR. Technical Report, Federal University of Uberlândia, Minas Gerais, Brazil, Tsikrika, T., Lalmas M. Combining Web Document Representations in a Bayesian Inference Network Model Using Link and Content-Based Evidence. In Proc. of 24th BCS-IRSG European Colloquium on IR Research, Glasgow, pages 53-72, March Turtle, H., Croft, W. Evaluation of an inference network-based retrieval model. ACM Transactions on Information Systems, 9(3): , 1991.