Informação de Links no Modelo Vetorial Usando uma Estrutura Funcional
|
|
- Aparecida Benke Fraga
- 7 Há anos
- Visualizações:
Transcrição
1 Informação de Links no Modelo Vetorial Usando uma Estrutura Funcional Ilmério R. Silva 1, João N. Souza 1, Renata F. Lisboa Moura 1, Berthier Ribeiro-Neto 2 1 Faculdade de Computação Universidade Federal Uberlândia(UFU) Uberlândia MG Brasil 2 Departamento de Ciência da Computação Universidade Federal de Minas Gerais (UFMG) Belo Horizonte MG Brasil [ilmerio, nunes]@facom.ufu.br, renata@comp.ufu.br, berthier@dcc.ufmg.br Abstract The Classical Models of Information Retrieval (IR) only consider the content-based information to retrieve relevant documents. The information is captured by comparing document keywords against the user query terms. Considering the Web, the structure of links among the documents (or pages) is a rich source of information that has not been used by the Classic Models. On the other hands, Bayesian Network models for IR has revealed that link-based combined with content-based information can improve the quality of the retrieved documents. In this work we discuss this combination in the context of the Classic Vector Space Model(VSM). We present three new contributions. We make the combination of link-based with contentbased information close to the IR community, through an extension of the VSM. We define a query language that allows users to state document preferences according to the structure of links. Finally, we propose a metric that allows the comparison among documents using link-based information. 1. Introdução A quantidade de documentos existentes na Web tem crescido muito e a tarefa de recuperar informação relevante obtendo um bom desempenho neste ambiente tem se tornado cada vez mais difícil. Os modelos clássicos de Recuperação de Informação, como o Modelo Vetorial, o Modelo Booleano e o Modelo Probabilístico consideram apenas informações baseadas em conteúdo para recuperar documentos relevantes. Estas informações são extraídas através da busca por palavras-chaves (chamadas termos) nos documentos. Porém, na Web existe uma rica informação que pode ser extraída da estrutura de links entre os documentos (ou páginas) que não é considerada pelos modelos clássicos. Combinar estas informações extraídas de links com informações extraídas de conteúdo pode ser uma boa estratégia para melhorar a qualidade do ranking. Silva et al [10] propõem um modelo, aqui chamado de Modelo Bayesiano, que combina estas informações utilizando Redes Bayesianas. Os experimentos realizados demonstraram que este tipo de combinação melhora a qualidade das respostas sem requerer nenhuma informação extra do usuário em tempo de consulta. Porém, o uso de Redes Bayesianas é pouco difundido entre a comunidade de Recuperação de Informação. Aqui estendemos o Modelo Vetorial Clássico combinando informações baseadas em link com informações baseadas em conteúdo. Definimos uma métrica para o cálculo do ranking e por meio desta métrica é possível parametrizar pesos para conteúdo, hub e autoridade em tempo de consulta. Hub e autoridade são valores extraídos da análise da estrutura de links para cada documento da coleção [5]. Os conceitos sobre hub e autoridade são descritos com mais detalhes na Seção 3.2.
2 Este trabalho está dividido da seguinte forma. Na Seção 2 apresentamos os trabalhos relacionados. Na Seção 3 descrevemos alguns conceitos fundamentais em Recuperação de Informação que são utilizados como base para o nosso trabalho. Na Seção 4 apresentamos os conceitos da Estrutura Funcional utilizada para comparar modelos. Na seção 5 representamos a combinação de evidências do Modelo Bayesiano na Estrutura Funcional. Além disso, definimos uma métrica que combina link e conteúdo. Na Seção 6 definimos um Modelo Vetorial Estendido com informações baseadas em link, permitindo a parametrização de conteúdo, hub e autoridade na elaboração da consulta. Na Seção 7 mostramos alguns exemplos com o Modelo Vetorial Estendido e na Seção 8 apresentamos as conclusões e trabalhos futuros. 2. Trabalhos Relacionados Muitos modelos em Recuperação de Informação, tais como o Modelo Vetorial Clássico[9] e o Modelo Probabilístico[7] utilizam somente informações baseadas no conteúdo dos documentos para recuperar documentos relevantes. Nossa proposta é estender o Modelo Vetorial Clássico combinando outras fontes de informação. Brin e Page [2] propõem um algoritmo que usa a estrutura de links para indicar o quanto um documento é uma autoridade em determinado tópico ou consulta. O grau de autoridade pode ser interpretado como uma medida de popularidade de um documento baseada na estrutura de links em volta dele. Kleinberg [5] propõe outro algoritmo que também analisa a estrutura de links. Este algoritmo procura por páginas, chamadas hubs, que apontam para várias outras páginas e as usa como um componente para determinar o grau de autoridade dos documentos. Documentos que são apontados por vários hubs possuem um alto grau de autoridade. A extensão do Modelo Vetorial Clássico que propomos incorpora estas informações de links. Alguns trabalhos combinam evidências baseadas em conteúdo e link utilizando um único modelo de Recuperação de Informação. O algoritmo de Chakrabarti et al [4] combina análise de link local descrita em [5] com evidência baseada em conteúdo. Eles utilizam o texto próximo aos links como conteúdo para determinar um peso para cada link analisado. Após determinar os pesos de cada link, o ranking é calculado usando uma versão do algoritmo proposto por Kleinberg que considera pesos. A desvantagem desta proposta é o processamento da consulta em duas fases. A primeira calcula o peso dos links e a segunda executa o algoritmo de Kleinberg. Em nosso trabalho, fazemos a combinação de link e conteúdo com velocidade de processamento semelhante à do Modelo Vetorial Clássico. Bharat e Henzinger [1] também utilizam conteúdo para determinar a relevância dos links. Além disso, eles expandem a consulta original usando os termos dos documentos que fazem parte do conjunto resposta local e calculam o peso de cada link baseado na consulta expandida. Este processo de expansão melhora a qualidade das respostas, porém tem um alto custo computacional porque aumenta o número de termos processados. Silva et al [10] propõem explorar o uso das Redes Bayesianas para representar e combinar informações baseadas em links e conteúdo. Aqui discutimos esta combinação no contexto do Modelo Vetorial Clássico. Calado et al [3] fez uma comparação entre a informação de link global e local. A análise global considera todos os documentos da coleção. A análise local é derivada do conjunto de documentos retornados como respostas da consulta corrente. Os resultados da comparação indicam a utilização da análise global devido às facilidades de précomputação do índice, sem perdas significativas na qualidade das respostas. Portanto, neste trabalho utilizamos a análise de link global.
3 Tsikrika e Lalmas [12] introduzem um expressivo modelo de Recuperação de Informação formal baseado em Redes Bayesianas. Este modelo combina múltiplas representações de documentos no Modelo de Inferência. Estas representações são extraídas do conteúdo dos documentos e da análise da estrutura de links na Web. Este trabalho não apresenta experimentos que comprovem ganhos na qualidade das repostas e ele também utiliza Redes Bayesianas, ou seja, utiliza uma abordagem que ainda está distante da comunidade de Recuperação de Informação. Nosso trabalho propõe um Modelo Vetorial Estendido com informações de links. Ele difere dos outros por uma série de fatores. Primeiro, porque discutimos a combinação de link e conteúdo no contexto do Modelo Vetorial. Desta maneira, tornamos o tema mais próximo à comunidade de Recuperação de Informação. Em segundo lugar, esta combinação traz a possibilidade de definirmos uma linguagem de consulta que atribui pesos às informações baseadas em conteúdo e link. Finalmente, a combinação aqui é feita com base em uma métrica, permitindo inclusive utilizá-la para comparar documentos. 3. Conceitos Fundamentais Nesta seção descrevemos os conceitos básicos de Recuperação de Informação (RI). Descrevemos o Modelo Vetorial Clássico e uma abordagem para utilizar informações obtidas da estrutura de links em RI. Mostramos uma estratégia de ranking que combina informações de conteúdo e de links. Esta estratégia foi apresentada na literatura no contexto de Redes Bayesianas Modelo Vetorial No Modelo Vetorial um documento é um registro de dados que inclui uma parte textual. O j-ésimo documento em uma coleção de documentos é denotado por d j. Um termo é uma palavra que semanticamente ajuda a lembrar o tema principal do documento. Um termo é denotado por k i. Geralmente, uma consulta é um conjunto de termos que expressa a necessidade do usuário. Ela é denotada por q. Consultas e documentos são representados como vetores em um espaço t-dimensional, onde t é o número de termos da coleção. Cada dimensão deste espaço é associada com um vetor de termos k i. Estes vetores de termos são ortogonais, ou seja, i j k i k j = 0. Isto implica que termos ocorrem independentemente dentro dos documentos e consultas. Além disso, k i = 1. Documentos e consultas são vetores do tipo d j = (w 1j, w 2j,..., w tj ) e q = (w 1q, w 2q,..., w tq ), onde w ij e w iq são pesos associados aos termos k i no documento d j e na consulta q respectivamente. O Modelo Vetorial atribui pesos positivos aos termos das consultas e documentos. Para calcular estes pesos, uma abordagem comum é balancear a importância dos termos intradocumento com a importância dos termos interdocumentos. O Modelo Vetorial propõe o cálculo do grau de similaridade entre um documento d j e uma consulta q através do coseno entre estes dois vetores. A similaridade entre d j e q mostra a proximidade dos dois vetores: sim v (d j, q) = d j q = t i=1w ij. w iq Eq. (3.1) d j x q t 2 i=1 w ij t 2 i=1 w iq
4 3.2. Evidências Baseadas em Link O conhecimento sobre a estrutura de links é uma das fontes de informação mais ricas em um ambiente de hyperlink, como a Web [5]. Tal conhecimento freqüentemente codifica algum julgamento humano sobre os documentos. Este julgamento pode ter uma grande importância na geração de um bom ranking. Realmente, o fato de um documento indicar outro induz alguma informação relevante. Kleinberg propõe um algoritmo chamado HITS [5] que usa esta informação para medir a importância de um documento (Figura 3.1). Ele se baseia em duas métricas: um grau de autoridade e um grau de hub. Uma boa autoridade é definida como um documento que é referenciado por um grande número de bons hubs. Recursivamente, um bom hub é definido como um documento que possui um grande número de links para boas autoridades. O algoritmo HITS calcula um grau de hub e um grau de autoridade associado a cada documento de uma coleção. Estes cálculos têm como base a análise da estrutura de links entre os documentos mostrada a seguir. Algoritmo Hub-Autoridade (V,E) V : um conjunto de documentos E : um conjunto de arcos direcionados ligando documentos de V Seja N o número de documentos em V Seja X := (X 1, X 2,..., X N ) um vetor, tal que X i é o valor que define a autoridade do documento d i. Inicialmente temos i, X i = 1. Seja Y := (Y 1, Y 2,..., Y N ) um vetor, tal que Y i é o valor que define o hub do documento d i. Inicialmente temos i, Y i = 1. Enquanto os vetores X e Y não convergirem faça Para i := 1 até N faça X i := (Dj, Di) E Y j fim Para i := 1 até N faça Y i := (Di, Dj) E X j fim Normalize os vetores X e Y tal que i X i 2 = i Y i 2 = 1 Fim Retorne X e Y em ordem decrescente. Figura 3.1: Algoritmo para o cálculo dos valores de Hub e Autoridade de cada documento. O algoritmo HITS interpreta uma coleção de documentos como um grafo direcionado G, onde cada documento (página) é representado por um nó e cada link entre dois documentos é representado por um arco direcionado. Um link de um documento D para outro documento D' implica que o autor do documento D recomenda o documento D'. Detalhes sobre a convergência do algoritmo podem ser encontrados em [5].
5 3.3. Combinando Evidências de Link e Conteúdo Utilizando Redes Bayesianas As informações de conteúdo são extraídas com base nos termos dos documentos. O Modelo Vetorial descrito na Seção 3.1 é um exemplo de modelo que fornece o ranking de documentos baseado em conteúdo. Já as informações da estrutura de links são obtidas do algoritmo de Kleinberg apresentado na Seção 3.2. O Modelo de Redes Bayesianas, assim como o Modelo Vetorial, fornece o ranking dos documentos baseando-se em conteúdo. Nos sistemas tradicionais de Recuperação de Informação baseados em conteúdo, documentos e consultas são representados como um conjunto de palavras-chave. No Modelo de Redes Bayesianas, eles são tratados de forma análoga. A Figura 3.2 ilustra uma rede bayesiana que reflete esta simetria. Nesta rede, cada nodo D j modela um documento d j, o nodo Q modela a consulta q do usuário e os nodos k i modelam as palavras-chave da coleção. Q Lado da consulta U k 1 k 2.. k i.. k t Raíz D i D j D n Lado dos documentos Figura 3.2: Rede Bayesiana para uma consulta Q composta dos termos k 1 e k i. Na rede o cálculo do ranking é baseado na similaridade entre um documento d j e uma consulta q. Esta similaridade é dada pela probabilidade P(d j q). A probabilidade P(d j q) é definida pela regra da probabilidade total e as independências modeladas na rede: P(d j q) = η P(d j k) P(q k) P(k) Eq. (3.2) k onde η é uma constante de normalização. Esta é a equação genérica para determinar o ranking de um documento d j em relação a uma consulta q no Modelo de Redes Bayesianas. Detalhes sobre a derivação desta equação podem ser vistos em [10]. A rede bayesiana descrita anteriormente pode ser expandida para combinar fontes de evidências. Silva et al [10] propõem um Modelo Bayesiano que combina as informações de link e conteúdo na rede. Para isso são inseridos à rede original apresentada na Figura 3.2, nós e arcos representando evidências baseadas em links. Na Figura 3.3, o lado esquerdo da rede representa a rede original com as seguintes adaptações: cada documento D j foi renomeado como Dc j, pois o Modelo Vetorial Clássico é utilizado para extrair a informação do conteúdo. O lado direito da rede modela as informações da estrutura de links. O nó Dh j representa o documento D j como hub e Da j representa o documento D j como autoridade. As evidências de C, A e H representam conteúdo, autoridade e hub, respectivamente. No nó D j combina-se estas três evidências por meio de um operador disjuntivo or:
6 P(d j k) = or ((P(dc j k), P(dhj k), P(da j k)) Eq. (3.3) P(d j k) = 1 (1 P(dc j k)) x (1 P(dh j k)) x (1 P(da j k)) Eq. (3.4) Rede Original Lado da consulta Raíz Lado dos documentos Figura 3.3: Rede Bayesiana estendida com evidências baseada em links. De forma análoga a rede da Figura 3.2, para a rede da Figura 3.3, temos que: P(d j q) = η P(d j k) P(q k) P(k) k então, substituindo P(d j k) pela Eq. (3.4) temos: P(d j q) = η [1 (1 P(dc j k))x(1 P(dh j k))x(1 P(da j k))]x P(q k)xp(k) Eq. (3.5) k onde, P(dc j k) = t i=1w ij. w iq = R jq, t i=1 w ij 2 t i=1 w iq 2 é o peso deste documento como conteúdo, calculado pelo Modelo Vetorial de acordo com a Eq. (3.1); P(dh j k) = H jq É o grau de hub deste documento, calculado pelo algoritmo de Kleinberg; P(da j k) = L jq É o grau de autoridade deste documento, calculado pelo algoritmo de Kleinberg; P(q k) = 1 Se ki, g i (q) = g i (k) 0 caso contrário
7 P(k) = 1 Se ki, g i (q) = g i (k) 0 caso contrário Para simplificar, a Eq. (3.5) pode ser rescrita desta forma: P(d j q) = η [1 (1 R jq ) (1 H j ) (1 A j )] Eq. (3.6) Esta equação combina link e conteúdo e é utilizada para o cálculo do ranking no Modelo Bayesiano. Observe que a constante η não influencia no resultado final do ranking. É uma constante que mantém as propriedades da distribuição de probabilidade modelada na rede. Além disso, os valores R jq, H j e A j já estão normalizados. Então a seguinte equação representa o ranking do Modelo Bayesiano: Sim RB (d j,q) = 1 (1 R jq ) (1 H j ) (1 A j ) Eq. (3.7) É importante destacar que esta equação não permite que o usuário, na formulação da consulta, expresse sua preferência por hubs ou autoridades. 4. Estrutura Funcional Nesta seção apresentamos os conceitos da Estrutura Funcional [11]. Esta estrutura é capaz de representar vários modelos de RI. Ela permite também a comparação entre modelos. Neste trabalho, ela é utilizada para representar os modelos de Redes Bayesianas e vetoriais, como também para uma comparação algébrica entre eles. Fundamentos da Estrutura Funcional. Os modelos de recuperação de informação clássicos consideram que cada documento é descrito por um conjunto de palavras chaves denominadas termos. A Estrutura Funcional considera, além disso, as relações entre os termos. Definição 4.1 (Termo Funcional). Um termo funcional é uma função cuja semântica relaciona conjuntos de termos. Definição 4.2 (Função Peso). Seja C = {d 1,..., d z } uma coleção de documentos e K={k 1,..., k t } o conjunto de termos em C. Define-se a função peso g: K x {C {q}} R tal que g(k i, d j ) retorna o peso associado com o par (k i, d j ) e g(k i, q) retorna o peso associado com o par (k i, q). Por conveniência é adotado uma notação simplificada. Seja g j : K R uma função unária que retorna o peso de cada termo no documento d j. Neste caso, g j (k i ) retorna o peso associado com o par (k i, d j ). Analogamente, seja g q : K R uma função unária que retorna o peso na consulta q. Logo, g q (k i ) retorna o peso associado com o par (k i, q). A função peso g j é um termo funcional. Definição 4.3 (Representação de Documentos Funcionais). Um documento funcional df j é representado por um conjunto de termos funcionais. Estas funções relacionam termos em um documento d j. Definição 4.4 (Representação de Consultas Funcionais). Analogamente, uma consulta funcional qf é representada por um conjunto de termos funcionais. Estas funções relacionam termos em uma consulta q. Definição 4.5 (Métrica entre dois Documentos Funcionais). Dada uma coleção C = {df 1,..., df n } de documentos funcionais, uma métrica é uma função distância
8 : C x C R que assinala um número real positivo df j df m para cada par (df j, df m ) C 2, satisfazendo as seguintes propriedades(ou axiomas): (1) df j df m 0 (2) df j df m = df m df j e (3) df j df m + df m df s df j df m Neste caso, (df j, df m ) denota a distância entre os documentos df j e df m. A métrica (df j, qf) é definida de forma análoga. Definição 4.6 (Casamento entre Documentos Funcionais e Consultas). Sejam df j um documento funcional e qf uma consulta funcional. Seja α um número positivo. O documento funcional df j e a consulta funcional qf são casados com precisão α, se df j qf α, onde df j qf é uma métrica na coleção de documentos funcionais. Definição 4.7 (Modelo Funcional). Um modelo funcional é uma coleção de documentos funcionais e uma métrica. Ele é representado por Ψ = {df 1,..., df n, } onde é uma métrica sobre os pares de documentos funcionais da coleção. Definição 4.8 (Equivalência de Modelos Funcionais). Dois modelos funcionais Ψ 1 = {df 1,..., df n, 1 } e Ψ 2 = {ds 1,..., ds n, 2 } são equivalentes se e somente se existe uma função bijetora φ : {df 1,..., df n } {ds 1,..., ds n } tal que se φ(df i ) = ds j e φ(df l ) = ds m então 1 (df i, df l ) = 2 (ds j, ds m ). Neste caso, φ é um isomorfismo entre Ψ 1 e Ψ 2. Definição 4.9 (Sobreposição de Modelos Funcionais). O modelo funcional Ψ 1 = {df 1,..., df n, 1 } é sobreposto pelo modelo funcional Ψ 2 = {ds 1,..., ds n, 2 }, u n, se e somente se existe uma função injetora φ : {df 1,..., df n } {ds 1,..., ds n } tal que se φ(df i ) = ds j e φ(df l ) = ds m então 1 (df i, df l ) = 2 (ds j, ds m ). A comparação entre modelos de Recuperação de Informação é útil para um melhor entendimento do relacionamento entre os modelos comparados. A Estrutura Funcional é uma ferramenta capaz de proporcionar meios para comparar modelos de Recuperação de Informação através da formalização dos conceitos de equivalência e sobreposição Representação do Modelo Vetorial na Estrutura Funcional Para representar um modelo na estrutura funcional é necessário definir um modelo funcional Ψ que o represente. Seja Ψ v = {df v1,..., df vn, v } um modelo funcional. O Modelo Vetorial pode ser representado definindo: df vj = {g j }. Conjunto unário que contém a função peso para o documento d j. A função g j define o peso w ij no modelo vetorial. Portanto, g j (k i )= w ij ; qf v = {g q }. Conjunto unário que contém a função peso da consulta q. No modelo vetorial a função que define o peso de cada termo na consulta é g q. Portanto, g q (k i ) = w iq ; Métrica dada por v (df vj, qf v ) = 1 t i=1g j (k i ). g q (k i ) t i=1 g j (k i ) 2 t i=1 g q (k i ) 2 Note que v é uma função de distância e a função de similaridade sim v do Modelo Vetorial é uma função de proximidade. O ranking do Modelo Vetorial pode ser obtido definindo a similaridade sim v (df vj, qf v ) = 1 v (df vj, qf v ).
9 5. Representação do Modelo Bayesiano na Estrutura Funcional Nesta seção definimos uma representação do Modelo Bayesiano na Estrutura Funcional. O modelo funcional deve ser composto por um conjunto de documentos funcionais e uma métrica. Seja Ψ r = {df r1,..., df rn, r } o modelo funcional que representa o Modelo Bayesiano na Estrutura Funcional. Vamos definir o documento funcional df rj e a métrica r. Um documento funcional é formado por um conjunto de funções. O Modelo Bayesiano pode ser representado utilizando três funções a saber: (1) g j função que define o peso dos termos no documento. (2) g hubj é uma função constante que define o valor de hub do documento definido pelo algoritmo de Kleinberg apresentado na seção 3.2. Então, temos g hubj = H j. (3) g autj é uma função constante que define o valor de autoridade do documento definido pelo algoritmo de Kleinberg (Figura 3.1). Então, temos g autj = A j. Portanto, a definição do documento funcional é dada por df rj = {g j, g hubj, g autj }. Para definirmos a métrica do modelo funcional que representa o Modelo Bayesiano precisamos fazer a seguinte consideração. Ao contrário do Modelo Vetorial, o Modelo Bayesiano não faz referência à similaridade entre dois documentos. De forma análoga à definição da métrica funcional para representar o Modelo Vetorial, definimos a métrica r = (1 R jl ) (1 H jl ) (1 A jl ) para hub e autoridade no modelo funcional Ψ r, onde : R jl = t i=1g j (k i ). g l (k i ) ; H jl = g hubj g hubl ; e A jl = g autj g autl Então temos: t i=1 g j (k i ) 2 t i=1 g l (k i ) 2 df rj df rl = (1 R jl ) (1 g hubj g hubl ) (1 g autj g autl ) Eq. (5.1) df rl df rj = (1 R lj ) (1 g hubl g hubj ) (1 g autl g autj ) Eq. (5.2) Uma consulta qf r pode ser representada de forma análoga ao documento. Definimos g q (k i ) = w iq. Entretanto, como não temos valores de hub e autoridade associados à consulta, definimos os valores constantes H q =1 e A q =1. Então, a representação da consulta será: qf r = {g q, H q, A q } A mesma função de distância utilizada para os documentos pode ser utilizada para um documento e a consulta: df rj qf r = (1 R jq ) (1 H jq ) (1 A jq ) Eq. (5.3) onde R jq = t i=1g j (k i ). g q (k i ) ; H jq = g hubj H q ; e A jq = g autj A q t i=1 g j (k i ) 2 t i=1 g q (k i ) 2 Para representar o Modelo Bayesiano na Estrutura Funcional, definimos: sim RB (df rj, qf r ) = 1 r (df rj, qf r ). De acordo com o exposto anteriormente, o modelo funcional ψ r pode ser definido como se segue:
10 (1) df rj = {g j, g hubj, g autj } (2) qf r = {g q, A q, H q } (3) r (df rj, qf r ) = (1 R jq ) (1 g hubj H q ) (1 g autj A q ). Considerando H q = A q = 1 esta representação conserva as mesmas funcionalidades do Modelo Bayesiano. Observe que H q e A q podem ser utilizados como parâmetros de entrada durante a especificação da consulta, possibilitando ao usuário manifestar sua preferência por hub ou autoridade. Além disso, a métrica definida para possibilitar a representação do Modelo Bayesiano na Estrutura Funcional mede a distância entre dois documentos, o que não ocorre no Modelo Bayesiano. 6. Modelo Vetorial Estendido com Informações de Links Nesta seção definimos um Modelo Vetorial Estendido com informações de links. Representamos este modelo na Estrutura Funcional e mostramos a equivalência entre ele e o Modelo Bayesiano. Esta equivalência é baseada no conceito de isomorfismo da Estrutura Funcional Definição do Modelo Vetorial Estendido com Informações de Links Como referimos na Seção 3.1, no Modelo Vetorial Clássico o conjunto de termos {k i 1 i t}, formam os eixos do espaço vetorial. Os documentos e consultas são representados como vetores neste espaço: d j = (w 1j, w 2j,..., w tj ) e q = (w 1q, w 2q,..., w tq ), respectivamente. As coordenadas do vetor d j são os pesos de cada termo no documento e as coordenadas do vetor q são os pesos de cada termo na consulta (Veja Figura 6.1). k 1 w 1j d j w 2j k 2 Figura 6.1: Representação do documento d j em um espaço 2-dimensional Estamos propondo neste trabalho um modelo que combina informações baseadas em link e conteúdo por meio de uma extensão do Modelo Vetorial Clássico. Para isso, estendemos o espaço vetorial adicionando dois novos eixos. Um eixo representa a informação de hub e o outro eixo representa a informação de autoridade. Seja hub o eixo que representa o grau de hub e aut o eixo que representa o grau de autoridade. Neste espaço vetorial um documento é representado por um vetor de j = (H j, A j, w 1j, w 2j,..., w tj ), onde H j é o valor de hub associado ao documento d j e A j é o valor de autoridade associado ao documento d j. Veja Figura 6.2. Analogamente, definimos a consulta qe = (H q, A q, w 1q, w 2q,...,w tq ). Observe que H q e A q podem ser utilizados como parâmetros de entrada durante a especificação da consulta, possibilitando ao usuário manifestar sua preferência por hub ou autoridade.
11 k 1 w 1j de j H j hub A j aut Figura 6.2: Representação do documento d j em um espaço 3-dimensional considerando os novos eixos hub e aut. Discutimos o cálculo da similaridade neste modelo na próxima seção, já no contexto da Estrutura Funcional Representação do Modelo Vetorial Estendido na Estrutura Funcional Dado um documento d j, os valores de hub e autoridade H j e A j, são coordenadas do vetor de j que representa o documento. Os valores de hub e autoridade podem ser considerados como imagens das funções g' hubj e g' autj, definindo g' hubj = H j e g' autj = A j. Além disso, definimos g' j (k i ) = w ij que representa as coordenadas relativas aos termos. Portanto, podemos extrair as informações de links de forma análoga à que extraímos as informações de conteúdo. O documento funcional que representa o documento de j é definido por: df ej = {g' j, g' hubj, g' autj }. A consulta qe do modelo vetorial estendido é definida de forma análoga no modelo funcional: qf e = {g' q, H q, A q }. O Modelo Vetorial Clássico utiliza o coseno entre dois vetores de documentos para definir a similaridade. Entretanto, podemos utilizar outras funções para calcular a similaridade entre documentos e consulta. Em nosso modelo utilizamos a métrica definida na Seção 5. Temos uma métrica que considera o coseno entre os dois vetores no subespaço dos termos e ainda considera o grau de hub e autoridade de cada documento. Portanto, o modelo funcional ψ e que representa o modelo vetorial estendido com informações de links é definido como: (1) df ej = {g' j, g' hubj, g' autj } (2) qf e = {g' q, H q, A q } (3) e (df ej, qf e ) = (1 R jq ) (1 g' hubj H q ) (1 g' autj A q ). g' j (k i ) = w ij i. Analogamente, g' q (k i ) = w iq i. g' hubj = H j ; g' autj = A j ; são o grau de hub e autoridade, respectivamente, calculados pelo algoritmo de Kleinberg[5], mostrado na Figura 3.1. H q e A q são valores determinados pelo usuário para indicar sua preferência por hub ou autoridade.
12 R jq é o coseno entre os vetores d e q no sub-espaço vetorial formado pelos vetores k i i 6.3. Equivalência entre os Modelos Funcionais que Representam o Modelo Bayesiano e o Modelo Vetorial Estendido com Informações de Links Conforme mostramos, o Modelo Bayesiano e o Modelo Vetorial Estendido com informações de link possuem uma representação na Estrutura Funcional. São representados pelos modelos funcionais ψ r e ψ e. Nesta seção mostramos que há um isomorfismo entre estes dois modelos funcionais. Ou seja, existe uma função bijetora φ :{df r1,...,df rn } {df e1,...,df en } tal que se φ (df ri ) = df ei e φ (df rj ) = df ej então r (df ri, df rj ) = e (df ei, df ej ). Para demonstrar a equivalência, definimos um isomorfismo entre dois documentos funcionais. Neste caso, basta considerar: φ(df rj ) = df ej j. Observe que φ é a função identidade. Na Figura 6.3. temos um mapeamento de df rj em df ej. Ele mostra a função φ tal que φ(df e ) = φ({g j, g hubj, g autj }) = {g' j, g' hubj, g' autj }. g j g' j g hubj g' hubj g autj g' autj df r df e Figura 6.3. Mapeamento dos documentos funcionais dfr e dfe. Para demonstrar que a função identidade é um isomorfismo, devemos provar que r (df ri, df rj ) = e (df ei, df ej ). Esta igualdade é satisfeita devido à definição da métrica no Modelo Bayesiano e no Modelo Vetorial Estendido. Temos que: r (df ri, df rj ) = (1 R jq ) (1 g hubj H q ) (1 g autj A q ) = (1 R jq ) (1 g' hubj H q ) (1 g' autj A q ) = e (df ei, df ej ) Como φ é um isomorfismo, concluímos que os dois modelos são equivalentes. Nesta Seção apresentamos um Modelo Vetorial Estendido com informações de links. Consideramos aqui a informação de link global, ou seja, o grau de hub e autoridade são calculados considerando-se todos os documentos da coleção. Isto significa que estes valores são calculados previamente (pré-processamento). Por isso, o cálculo da similaridade no nosso modelo tem um desempenho computacional e uma facilidade de implementação semelhantes aos do Modelo Vetorial Clássico.
13 7. Exemplos Para ilustrar as idéias discutidas anteriormente apresentamos a seguir uma simulação dos cálculos no modelo proposto. Seja uma amostra com 6 documentos {d 1, d 2, d 3, d 4, d 5 e d 6 }. Suponha uma consulta q e os seguintes valores de R jq : R 1q = 0,64; R 2q = 0,34; R 3q = 0,47; R 4q = 0,53; R 5q = 0,68; R 6q = 0,49. De acordo com o modelo vetorial, teríamos o seguinte ranking de documentos: <d 5, d 1, d 4, d 6, d 3, d 2 >. Isto pode ser simulado no modelo funcional ψ e fazendo A q = H q = 0. Suponhamos que estes documentos possuem os seguintes valores de hub e autoridade: h 1 = 0,22; h 2 = 0,48; h 3 = 0,27; h 4 = 0,34; h 5 = 0,54; h 6 = 0,42; a 1 = 0,31; a 2 = 0,37; a 3 = 0,51; a 4 = 0,45; a 5 = 0,42; a 6 = 0,29. Suponha que na consulta q, o usuário não especifica preferência entre hub e autoridade, ou seja, A q = H q = 1. Este caso é uma simulação do Modelo Bayesiano. Veja o ranking para este caso: Ranking d 5 d 4 d 3 d 1 d 6 d 2 e 0,085 0,170 0,189 0,193 0,210 0, e 0,915 0,830 0,811 0,807 0,790 0,784 Entretanto, em nosso modelo o usuário pode manifestar sua preferência por hubs. Ou seja, suponha que o usuário esteja realizando uma pesquisa sobre um determinado assunto e que ele prefere páginas mais abrangentes, i.e. páginas que apontam para várias outras páginas. Esta preferência pode ser facilmente representada com A q = 0 e H q = 1. O novo ranking para esta consulta seria então: Ranking d 5 d 1 d 6 d 4 d 2 d 3 e 0,147 0,280 0,295 0,310 0,343 0, e 0,853 0,720 0,705 0,690 0,657 0,614 Se o usuário preferir documentos de maior autoridade, a consulta terá A q = 1 e H q = 0. Neste caso o usuário está interessado em páginas que são autoridades em um determinado assunto, ou seja, páginas que são apontadas por várias outras boas páginas. O novo ranking para esta consulta seria: Ranking d 5 d 1 d 4 d 3 d 6 d 2 e 0,185 0,248 0,258 0,259 0,362 0, e 0,815 0,752 0,742 0,741 0,638 0,585 Além disso, o usuário pode estabelecer parâmetros intermediários para hubs e autoridades. Porém, determinar estes valores é uma tarefa difícil para o usuário. Podemos pensar então em armazenar a preferência do usuário no momento em que ele escolhe documentos em diferentes iterações com o sistema. Por exemplo, se em 70% das iterações com o sistema o usuário escolhe documentos com alto valor de hub, podemos pensar em parametrizar automaticamente a consulta com H q = 0,7 e A q = 0,3. Neste caso o ranking seria: Ranking d 5 d 1 d 4 d 6 d 3 d 2 e 0,172 0,278 0,307 0,329 0,364 0, e 0,828 0,722 0,693 0,671 0,636 0,613
14 Os resultados que mostram que a combinação de informações de link (utilizando a análise de link global) com informações de conteúdo melhoram a qualidade do ranking foram apresentados em [3]. Nosso objetivo aqui é mostrar como podemos trabalhar com a linguagem de consulta, ou seja, como o usuário pode manifestar sua preferência por conteúdo, hub ou autoridade. Observamos que d 5 está no topo do ranking em todos os casos. Isto se justifica porque o seu valor para conteúdo, R 5q, é o maior desta amostra, assim como seu valor de hub. Porém, quando o usuário manifesta preferência por autoridades, o documento d 3 é o que possui maior valor de autoridade, no entanto, aparece em quarto lugar no ranking. Isto ocorre porque d 3 é uma autoridade, mas não neste assunto (R 3q é baixo). Neste caso, existem documentos que combinam melhor conteúdo e autoridade. No caso em que o usuário manifesta 70% de preferência por hubs observamos que em relação ao ranking em que ele manifesta 100% de preferência por hubs, na terceira posição, d 4 aparece no lugar de d 6. Isto ocorre porque consideramos 30% de preferência por autoridades e o valor de autoridade de d 4 combinado com seus valores de hub e conteúdo supera os valores de d 6. Por isso, neste caso d 4 aparece primeiro no ranking. 8. Conclusão e Trabalhos Futuros Neste trabalho representamos o Modelo Vetorial Clássico e o Modelo Bayesiano em uma Estrutura Funcional. A representação do Modelo Bayesiano foi realizada com base na definição de uma métrica. Esta métrica permite parametrizar pesos para conteúdo, hub e autoridade em tempo de consulta. Além disso, a métrica permite também o cálculo da similaridade entre dois documentos. Propomos um Modelo Vetorial Estendido com informações de links que combina informações baseadas em link e conteúdo. Além disso, este modelo possui a simplicidade de implementação e o desempenho computacional para obtenção do ranking semelhantes aos do Modelo Vetorial Clássico. Utilizando o conceito de equivalência entre modelos funcionais mostramos que o Modelo Vetorial Estendido é equivalente ao Modelo Bayesiano representado na Estrutura Funcional. Mostramos por meio de exemplos como trabalhar com a linguagem de consulta proposta aqui. Vimos que por meio desta linguagem o usuário pode manifestar sua preferência por hub ou autoridade. Observamos também que mesmo quando ele manifesta preferência por páginas que são hubs, a métrica ordena os documentos considerando o valor de hub e o valor de conteúdo, ou seja, as palavras que o usuário escolheu. Portanto, estarão no topo do ranking os documentos que são bons hubs naquele assunto. Para trabalhos futuros pretendemos avaliar um Modelo Vetorial Estendido, cuja métrica é o coseno e este será calculado considerando-se todo o espaço, inclusive os novos eixos de hub e autoridade. Um outro trabalho é utilizar a métrica entre dois documentos para clusterização. Referências 1. Bharat, K., Henzinger, M.R. Improved algorithms for topic distillation in a hyperlinked environment. In Proc. of the 21st ACM SIGIR Conference on Research and Development in Information Retrieval, Distributed Retrieval, pages , Brin, S., Page, L. The anatomy of a large-scale hypertextual web search engine. In Proc. of the 7th International World Wide Web Conference (WWW7), pages , Brisbane, Australia, 1998.
15 3. Calado, P., Ribeiro-Neto, B., Ziviani, N., Moura, E., Silva, I. Local Versus Global Link Information in the Web. ACM Transactions on Information Systems, Vol. 21, No. 1, pages 1-22, January Chakrabarti, S., Dom, B., Raghavan, P., Rajagopalan, S., Gibson, D., Kleinberg, J. Automatic resource compilation by analyzing hyperlink structure end associated text. In Proc. of the 7th International World Wide Web Conference (WWW7), pages 65-74, Brisbane, Australia, Kleinberg, J. M. Authoritative sources in a hyperlinked environment. In Proc. of the Ninth Annual ACM-SIAM Symposium on Discrete Algorithms, pages , San Francisco, California, Ribeiro-Neto, B., Muntz R. A belief network model for IR. In Proc. of the 19th ACM SIGIR Conference on Research and Development in Information Retrieval, pages , Zurich, Switzerland, Robertson, S. E., Jones, K. S. Relevance weighting of search terms. Journal of the American Society for Information Sciences, 27(3): , Salton, G. Automatic Information Organization and Retrieval. McGraw-Hill, New York, NY, Salton, G., Yang, C., Wong, A. A vector space model for automatic indexing. Communications of the ACM, 18(11), pages , Silva, I., Ribeiro-Neto, B., Calado, P., Moura, E., Ziviani, N. Link-based and contentbased evidential information in a belief network model. In Proc. of 23rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (Athens, Greece), , Best Student paper. 11. Silva, I., Souza, J. A Functional Framework to Model IR. Technical Report, Federal University of Uberlândia, Minas Gerais, Brazil, Tsikrika, T., Lalmas M. Combining Web Document Representations in a Bayesian Inference Network Model Using Link and Content-Based Evidence. In Proc. of 24th BCS-IRSG European Colloquium on IR Research, Glasgow, pages 53-72, March Turtle, H., Croft, W. Evaluation of an inference network-based retrieval model. ACM Transactions on Information Systems, 9(3): , 1991.
Francisco Benjamim Filho. XHITS: Estendendo o Algoritmo HITS para Extração de Tópicos na WWW DISSERTAÇÃO DE MESTRADO
Francisco Benjamim Filho XHITS: Estendendo o Algoritmo HITS para Extração de Tópicos na WWW DISSERTAÇÃO DE MESTRADO DEPARTAMENTO DE INFORMÁTICA Programa de Pós-Graduação em Informática Rio de Janeiro,
Leia maisGSI024 - Organização e Recuperação da
GSI024 - Organização e Recuperação da Informação Ilmério Reis da Silva ilmerio@facom.ufu.br UFU/FACOM/BSI Arquivo 6 - Modelo Vetorial GSI024-ORI Pg:6. 1 Ranking baseado no modelo vetorial Considerações
Leia maisRealimentação de Relevância
Wendel Melo Faculdade de Computação Universidade Federal de Uberlândia Recuperação da Informação Ciclo de realimentação onde uma consulta q recebida do usuário é transformada em uma consulta modificada
Leia maisMineração de Textos na Web
Mineração de Textos na Web Luciano Antonio Digiampietri Escola de Artes Ciências e Humanidades da Universidade de São Paulo digiampietri@usp.br Resumo: Com o crescimento das informações disponíveis na
Leia maisMETA-MODELO FUNCIONAL PARA RECUPERAÇÃO DE INFORMAÇÃO
Universidade Federal de Uberlândia Faculdade de Computação Programa de Pós-Graduação em Ciência da Computação META-MODELO FUNCIONAL PARA RECUPERAÇÃO DE INFORMAÇÃO Luciene Chagas de Oliveira Uberlândia
Leia maisModelo Espaço Vetorial. Mariella Berger
Modelo Espaço Vetorial Mariella Berger Agenda Introdução Atribuição de Pesos Frequência TF-IDF Similaridade Exemplo Vantagens e Desvantagens Modelo Espaço Vetorial Introdução Modelo Espaço Vetorial O modelo
Leia mais4 Recuperação de Informação
4 Recuperação de Informação No presente capítulo são apresentados os fundamentos da área de Recuperação de Informação utilizados em Mineração de Textos, como por exemplo, os modelos de representação de
Leia maisUm estudo sobre diferentes modelos de Recuperação de Informação em documentos semi-estruturados (XML) -
Um estudo sobre diferentes modelos de Recuperação de Informação em documentos semi-estruturados (XML) - Implementação, Análise, Avaliação e Comparação Autor: Mirella Silva Junqueira 1, Orientador: Prof.
Leia maisProfª Ana Lúcia Lima Marreiros Maia Profª Fabiana Cristina Bertoni
Profª Ana Lúcia Lima Marreiros Maia Profª Fabiana Cristina Bertoni Motivação e Objetivos Etapas do Desenvolvimento de um Sistema de Recuperação de Informações (SRI): Pré-processamento; Representação; Extração
Leia mais3 Recuperação de Informações Textuais
3 Recuperação de Informações Textuais Tudo deveria se tornar o mais simples possível, mas não simplificado. Albert Einstein Sistemas tradicionais de indexação costumam utilizar-se de termos-índice, que
Leia maisUm Mecanismo de Detecção de Versões de Páginas Web para Melhoria do Desempenho do Algoritmo de PageRank
Um Mecanismo de Detecção de Versões de Páginas Web para Melhoria do Desempenho do Algoritmo de PageRank Glauber Rodrigues da Silva, Renata de Matos Galante Instituto de Informática Universidade Federal
Leia maisSISTEMA PARA RECUPERAÇÃO DE INFORMAÇÃO DE DOWNLOADS DE SOFTWARES
SISTEMA PARA RECUPERAÇÃO DE INFORMAÇÃO DE DOWNLOADS DE SOFTWARES Elzo Soares Pereira Filho, Matheus Rossi de Oliveira Costa, Vinícius Lobo Silva, Luciene Chagas de Oliveira, UNIUBE Universidade de Uberaba
Leia maisOrganizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU
Organizaçãoe Recuperaçãode Informação GSI521 Prof. Dr. Rodrigo Sanches Miani FACOM/UFU Modelosde RI e o ModeloBooleano Organização e Recuperação de Informação(GSI521) Tópicos Modelagem em RI; Caracterização
Leia maisUNIVERSIDADE METODISTA DE PIRACICABA RECUPERAÇÃO DE DOCUMENTOS TEXTO USANDO UM MODELO PROBABILÍSTICO ESTENDIDO
UNIVERSIDADE METODISTA DE PIRACICABA FACULDADE DE CIÊNCIAS EXATAS E DA NATUREZA MESTRADO EM CIÊNCIA DA COMPUTAÇÃO RECUPERAÇÃO DE DOCUMENTOS TEXTO USANDO UM MODELO PROBABILÍSTICO ESTENDIDO MARCELLO ERICK
Leia maisMétodos de Acesso Métrico
Métodos de Acesso Métrico http://www.icmc.usp.br/img/novafaixa.png Arthur Emanuel de O. Carosia Profa. Dra. Cristina Dutra de Aguiar Ciferri Índice Conceitos Básicos Métodos de Acesso Onion-tree 2 Índice
Leia mais03/07/2017. Modelo de Recuperação de Informação
Modelo de Recuperação de Informação Modelo de Recuperação de Informação Um modelo de recuperação de informação é a especificação formal de três elementos: a representação dos documentos; a representação
Leia maisSistemas de Recomendação Uma abordagem geral
Sistemas de Recomendação Uma abordagem geral Universidade Estadual de Maringá Departamento de Informática Programa de Pós-Graduação Mestrado em Ciência da Computação Disciplina: Seminários II Aluna: Késsia
Leia maisPrimeiro Exercício programa: Como o Google ordena páginas. MAP-2121 para EPUSP
Primeiro Exercício programa: Como o Google ordena páginas MAP-2121 para EPUSP 1 Instruções gerais Os exercícios computacionais pedidos na disciplina Cálculo Numérico têm por objetivo fundamental familiarizar
Leia maisSistema de Reconhecimento de Logotipos
Sistema de Reconhecimento de Logotipos Fellipe Duarte, Saulo T. Oliveira {duartefellipe,sto}@cos.ufrj.br Relatório Técnico, Introdução ao Processamento de Imagens Programa de Engenharia de Sistemas e Computação
Leia maisTeste de % de defeituosos para 1 amostra
DOCUMENTO OFICIAL DO ASSISTENTE DO MINITAB Este documento é de uma série de papéis que explicam a pesquisa conduzida por estatísticos da Minitab para desenvolver os métodos e as verificações de dados usadas
Leia maisPara ajudar a interpretar os resultados, o Cartão de Relatórios do Assistente do teste de % de defeituosos para 1 amostra exibe os seguintes
Este documento é de uma série de papéis que explicam a pesquisa conduzida por estatísticos da Minitab para desenvolver os métodos e as verificações de dados usadas no assistente no software estatístico
Leia maisDescritores de Imagens
Descritores de Imagens André Tavares da Silva PPGCA/UDESC Outubro de 2017 André Tavares da Silva (PPGCA/UDESC) Descritores de Imagens Outubro de 2017 1 / 17 Introdução Excelentes pesquisas sobre descritores
Leia maisModelo Probabilístico
Wendel Melo Faculdade de Computação Universidade Federal de Uberlândia Recuperação da Informação Adaptado do Material da Profª Vanessa Braganholo - IC/UFF Proposto em 1976 por Roberstson e Sparck Jones;
Leia maisGazetteers - Aplicação em RI Geográfica. Ivre Marjorie R. Machado
Gazetteers - Aplicação em RI Geográfica Ivre Marjorie R. Machado Julho de 2009 Sumário Introdução Gazetteer Exemplos Locus Limitações Conclusão Referências 2 Introdução Quem nunca usou uma máquina de busca
Leia maisResolução de sistemas de equações lineares: Método dos Gradientes Conjugados
Resolução de sistemas de equações lineares: Método dos Gradientes Conjugados Marina Andretta/Franklina Toledo ICMC-USP 24 de março de 2015 Baseado no livro Cálculo Numérico, de Neide B. Franco Marina Andretta/Franklina
Leia maisGSI024 - Organização e Recuperação da
GSI024 - Organização e Recuperação da Informação Ilmério Reis da Silva ilmerio@facom.ufu.br UFU/FACOM/BSI Arquivo 5 - Peso de termos GSI024-ORI Pg:5. 1 Busca paramétrica usando atributos Regiões em documentos
Leia maispelo sistema de coordenadas Cartesianas. Podemos utilizar também o sistema de coordenadas
A. Coordenadas Curvilineares. Teorema de Gauss em coordenadas curvilineares Para especificar a posição, utilizamos a base e x, e y, e z e x r = y z pelo sistema de coordenadas Cartesianas. Podemos utilizar
Leia maisÍndice. Classificação de textos para o ensino de português como segunda língua. Índice. technology from seed
Classificação de textos para o ensino de português como segunda língua Pedro Santos Curto Conclusões, Contribuições e Trabalho futuro 1 2 Motivação Aplicações e escala da classificação de textos Motivação
Leia maisRecuperação de Documentos Jurídicos Baseada em um Tesauro
Recuperação de Documentos Jurídicos Baseada em um Tesauro Berthier Ribeiro Neto berthier@dcc.ufmg.br Rodrigo Tôrres Assumpção rota@dcc.ufmg.br Universidade Federal de Minas Gerais 30.123-970 Belo Horizonte-MG,
Leia maisProcessamento de Malhas Poligonais
Processamento de Malhas Poligonais Tópicos Avançados em Computação Visual e Interfaces I Prof.: Marcos Lage www.ic.uff.br/~mlage mlage@ic.uff.br Conteúdo: Notas de Aula Curvas 06/09/2015 Processamento
Leia maisIndexação e Modelos Clássicos
Wendel Melo Faculdade de Computação Universidade Federal de Uberlândia Recuperação da Informação Adaptado do Material da Profª Vanessa Braganholo - IC/UFF Construção de um Sistema de Busca 1ª Etapa: Definir
Leia maisCompressão de Textos. Introdução. Introdução. Introdução. O volume de informação textual disponível on-line é imenso:
Compressão de Textos Estrutura de Dados II Prof. Guilherme Tavares de Assis Universidade Federal de Ouro Preto UFOP Instituto de Ciências Exatas e Biológicas ICEB Departamento de Computação DECOM O volume
Leia maisAvaliação da Recuperação
Wendel Melo Faculdade de Computação Universidade Federal de Uberlândia Recuperação da Informação Adaptado do Material da Profª Vanessa Braganholo - IC/UFF Avaliação de sistemas de busca Podemos avaliar
Leia maisKeyword Search over RDF Graphs. Lucas Peres Gaspar
Keyword Search over RDF Graphs Lucas Peres Gaspar 1 Olá! Petiano emérito no PET Computação UFC; Bolsista no Arida; Graduando em Ciência da Computação; 2 Fonte http://www.dc.fi.udc.es/~roi/publications/cikm2011c.pdf
Leia maisAmbiente de Data Warehouse Para Imagens Médicas Baseado Em Similaridade
Universidade de São Paulo - USP Instituto de Ciências Matemáticas e de Computação - ICMC Programa de Pós-Graduação em Ciências da Computação e Matemática Computacional Ambiente de Data Warehouse Para Imagens
Leia mais5 Implementação da Metodologia
5 Implementação da Metodologia A implementação da metodologia proposta no Capítulo 4 é possível devido ao importante avanço que os métodos numéricos e a capacidade de processamento computacional atuais
Leia maisAlgoritmo CLIQUE (Clustering In QUEst)
Algoritmo CLIQUE (Clustering In QUEst) Marcelo Camacho de Souza Nº USP: 3199616 Roteiro Algoritmo CLIQUE Exemplo Prático Complexidade Computacional Vantagens e Desvantagens Autores (IBM Almaden Research
Leia maisCombinando Fatores de Ponderação para Melhorar a
Computer on the Beach 2014 - Artigos Completos 32 Combinando Fatores de Ponderação para Melhorar a Classificação de Textos Frederico P. de Souza 1, Patrick M. Ciarelli 2, Elias de Oliveira 1 1 Departamento
Leia maisInterpolação polinomial: Diferenças divididas de Newton
Interpolação polinomial: Diferenças divididas de Newton Marina Andretta ICMC-USP 16 de maio de 2012 Baseado no livro Análise Numérica, de R. L. Burden e J. D. Faires. Marina Andretta (ICMC-USP) sme0500
Leia maisInstituto Superior de Engenharia de Lisboa Engenharia Informática e de Computadores
Instituto Superior de Engenharia de Lisboa Engenharia Informática e de Computadores Teoria dos Sinais e dos Sistemas O procedimento de Gram-Schmidt: definição, exemplos e aplicações Artur Ferreira {arturj@isel.pt}
Leia maisTécnicas de recuperação de informação: filtragem, agrupamento
Técnicas de recuperação de informação: filtragem, agrupamento 1 Nome usado para descrever uma variedade de processos envolvendo a entrega de informação para pessoas que precisam dela; Compreende um método
Leia maisRecuperação de Informação
Recuperação de Informação Avaliação de Desempenho de Sistemas de Recuperação de Informação Renato Fernandes Corrêa 1 Para que avaliar? Existem muitos modelos de RI, mas qual é o melhor? Qual a melhor escolha
Leia maisO Teorema de Peano. f : D R n. uma função contínua. Vamos considerar o seguinte problema: Encontrar um intervalo I R e uma função ϕ : I R n tais que
O Teorema de Peano Equações de primeira ordem Seja D um conjunto aberto de R R n, e seja f : D R n (t, x) f(t, x) uma função contínua. Vamos considerar o seguinte problema: Encontrar um intervalo I R e
Leia maisArquivos invertidos 39
Arquivos invertidos 39 Arquivos invertidos É um mecanismo que utiliza palavras para indexar uma coleção de documentos a fim de facilitar a busca e a recuperação Estruturas de um arquivo invertido Vocabulário
Leia maisLista de exercícios 2 Recuperação de Informação Textual
Lista de exercícios 2 Recuperação de Informação Textual 2 de dezembro de 2015 0.1 O que é o modelo bag-of-words? Porque ele é uma simplificação? Dê um exemplo em que ele estaria incorreto. 0.2 O que é
Leia maisOrganizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU
Organizaçãoe Recuperaçãode Informação GSI521 Prof. Dr. Rodrigo Sanches Miani FACOM/UFU Realimentaçãode relevânciae expansão de consultas Organização e Recuperação de Informação(GSI521) Realimentação de
Leia maisMCTB Álgebra Linear Avançada I Claudia Correa Exercícios sobre transformações lineares. Os Exercícios 3 e 4 são os exercícios bônus dessa lista.
MCTB002-13 Álgebra Linear Avançada I Claudia Correa Exercícios sobre transformações lineares Os Exercícios 3 e 4 são os exercícios bônus dessa lista. Definição 1. Dados conjuntos X e Y, uma função ϕ :
Leia maisMedidas de Avaliação
Medidas de Avaliação Medidas de Avaliação Para a maioria dos sistemas computacionais é necessário criar medidas para aferir sua eficácia e eficiência; A medida mais comum é o tempo e o espaço. Quanto menor
Leia mais4.1 Preliminares. No exemplo acima: Dom(R 1 ) = e Im(R 1 ) = Dom(R 2 ) = e Im(R 2 ) = Dom(R 3 ) = e Im(R 3 ) = Diagrama de Venn
4 Relações 4.1 Preliminares Definição 4.1. Sejam A e B conjuntos. Uma relação binária, R, de A em B é um subconjunto de A B. (R A B) Dizemos que a A está relacionado com b B sss (a, b) R. Notação: arb.
Leia maisAlgoritmos de Caminho Mínimo Parte 1
Algoritmos de Caminho Mínimo Parte 1 A journey of a thousand miles starts with a single step and if that step is the right step, it becomes the last step. Index 1. Introduction 2. Applications 3. Tree
Leia maisEQUAÇÕES RELACIONAIS FUZZY E COMO RESOLVÊ-LAS
EQUAÇÕES RELACIONAIS FUZZY E COMO RESOLVÊ-LAS PEDRO ALADAR TONELLI 1. Introdução Nosso objetivo é apresentar de uma forma simples o procedimento para achar soluções de uma equação relacional fuzzy para
Leia mais- FACOM. Memorial de Atividades de Ensino, Pesquisa, Extensão, Gestão Acadêmica e Produção Profissional
- FACOM Memorial de Atividades de Ensino, Pesquisa, Extensão, Gestão Acadêmica e Produção Profissional Ilmério Reis da Silva ilmerio arroba ufu ponto br www.facom.ufu.br/~ilmerio/mmrl OBJETIVO Mostrar
Leia maisRecuperação de Informações por Álgebra Linear Computacional
Recuperação de Informações por Álgebra Linear Computacional MAC499 - Projeto de Iniciação Científica Aluna: Ellen Hidemi Fukuda Orientador: Paulo José da Silva e Silva Departamento de Ciência da Computação
Leia maisDESENVOLVIMENTO DE METODOLOGIA PARA AFERIÇÃO DA QUALIDADE DE UM SCANNER 3D
DESENVOLVIMENTO DE METODOLOGIA PARA AFERIÇÃO DA QUALIDADE DE UM SCANNER 3D Valeria S. PEREIRA 1 ; Marcelo A. dos REIS 2 RESUMO Nesse trabalho, apresentamos os resultados parciais do projeto que visa o
Leia maisUniversidade Federal de Pernambuco
Universidade Federal de Pernambuco Graduação em Ciência da Computação Centro de Informática ESTUDO DE TÉCNICAS DE FILTRAGEM HÍBRIDA EM SISTEMAS DE RECOMENDAÇÃO DE PRODUTOS PROPOSTA DE TRABALHO DE GRADUAÇÃO
Leia maisMETA-MODELO FUNCIONAL PARA RECUPERAÇÃO DE INFORMAÇÃO
Universidade Federal de Uberlândia Faculdade de Computação Programa de Pós-Graduação em Ciência da Computação META-MODELO FUNCIONAL PARA RECUPERAÇÃO DE INFORMAÇÃO BASEADO EM λ-cálculo Daniel Gonzaga dos
Leia maisFernando Hattori. Feedback de Relevância Orientado a Termos - Um Novo Método para Ordenação de Resultados de Motores de Busca
Fernando Hattori Feedback de Relevância Orientado a Termos - Um Novo Método para Ordenação de Resultados de Motores de Busca São Paulo 2016 Fernando Hattori Feedback de Relevância Orientado a Termos -
Leia maisUma nova taxa de convergência para o Método do Gradiente
Proceeding Series of the Brazilian Society of Applied and Computational Mathematics, Vol. 2, N. 1, 2014. Trabalho apresentado no CMAC-Sul, Curitiba-PR, 2014. Uma nova taxa de convergência para o Método
Leia maisAspectos Computacionais do Desenvolvimento de uma Biblioteca para Desenho de Redes Bayesianas
19 a 21 de mar o de 2010 102 Aspectos Computacionais do Desenvolvimento de uma Biblioteca para Desenho de Redes Bayesianas Thales Lange 1, Raimundo C. G. Teive 1 1 Mestrado em Computação Aplicada Universidade
Leia maisAvaliação de Desempenho de SRI
Avaliação de Desempenho de SRI Desempenho espaço x tempo é usual em computação quão preciso é o conjunto resposta (ranking) é usual em SRI Avaliação baseada em coleção de referência = documentos + consultas
Leia maisPreliminares. Profa. Sheila Morais de Almeida. agosto
Preliminares Profa. Sheila Morais de Almeida DAINF-UTFPR-PG agosto - 2016 Algoritmos Definição - Skiena Algoritmo é a ideia por trás dos programas de computador. É aquilo que permanece igual se o programa
Leia mais25/04/2017. Modelo de Recuperação de Informação
Modelo de Recuperação de Informação Modelo de Recuperação de Informação Um modelo de recuperação de informação é a especificação formal de três elementos: a representação dos documentos; a representação
Leia mais6 Conclusões e Trabalhos Futuros
6 Conclusões e Trabalhos Futuros O presente trabalho tem por objetivo analisar o modelo desenvolvido por Jon Kleinberg, o HITS, bem como os seus desdobramentos existentes na literatura e, ainda, desenvolver
Leia maisMODELAGEM DE SISTEMAS. Introdução a Computação e Engenharia de Software. Profa. Cynthia Pinheiro
MODELAGEM DE SISTEMAS Introdução a Computação e Engenharia de Software Profa. Cynthia Pinheiro Introdução Modelagem de Sistemas: A modelagem de um sistema auxilia o analista a entender a funcionalidade
Leia mais2 Núcleos: suas propriedades e classificações
2 Núcleos: suas propriedades e classificações O objetivo desse capítulo é o de apresentar as funções núcleos (7), suas propriedades (10) e suas classificações (3). 2.1 Núcleos no espaço de Hilbert Um espaço
Leia maisCF372 Mecânica Quântica I Os Postulados da Mecânica Quântica
CF372 Mecânica Quântica I Os Postulados da Mecânica Quântica 1 Introdução. Vamos apresentar nestas notas os postulados da mecânica quântica de acordo com o livro texto. Antes iremos fazer um paralelo entre
Leia maisTeoria Elementar dos Conjuntos
Teoria Elementar dos Conjuntos Este capítulo visa oferecer uma breve revisão sobre teoria elementar dos conjuntos. Além de conceitos básicos importantes em matemática, a sua imprtância reside no fato da
Leia maisOs Postulados da Mecânica Quântica
Márcio H. F. Bettega Departamento de Física Universidade Federal do Paraná bettega@fisica.ufpr.br Postulados Introdução Vamos apresentar nestas notas os postulados da mecânica quântica de acordo com o
Leia maisInterpolação polinomial: Diferenças divididas de Newton
Interpolação polinomial: Diferenças divididas de Newton Marina Andretta ICMC-USP 9 de maio de 2013 Baseado no livro Análise Numérica, de R. L. Burden e J. D. Faires. Marina Andretta (ICMC-USP) sme0500
Leia maisAplicação de Sistemas de Partículas e Smoothed Particle Hydrodynamics na Simulação de Regiões Espaço-Tempo Afetadas por Singularidades
Aplicação de Sistemas de Partículas e Smoothed Particle Hydrodynamics na Simulação de Regiões Espaço-Tempo Afetadas por Singularidades Autor: Douglas Farias Cordeiro, Orientadora: Celia A. Zorzo Barcelos
Leia maisFórmula de recorrência para a soma de séries infinitas
This is a reprint of Lecturas Matemáticas Volumen 25 (2004), páginas 5 24 Fórmula de recorrência para a soma de séries infinitas João Luiz Martins & Adilson J.V. Brandão UUniversidade Federal de Ouro Preto,
Leia maisAprendizagem de Máquina
Aprendizagem de Máquina Alessandro L. Koerich Redes Bayesianas Mestrado/Doutorado em Informática Pontifícia Universidade Católica do Paraná (PUCPR) Mestrado/Doutorado em Informática Aprendizagem de Máquina
Leia maisAlgoritmo Array Rápido para Filtragem de Sistemas Lineares Sujeitos a Saltos Markovianos com Variação Estruturada dos Parâmetros no Tempo
Trabalho apresentado no XXXVII CNMAC, SJ dos Campos - SP, 2017 Proceeding Series of the Brazilian Society of Computational and Applied Mathematics Algoritmo Array Rápido para Filtragem de Sistemas Lineares
Leia maisFabrício Jailson Barth. Recuperação de documentos e pessoas em ambientes empresariais através de árvores de decisão
Fabrício Jailson Barth Recuperação de documentos e pessoas em ambientes empresariais através de árvores de decisão São Paulo 2009 Fabrício Jailson Barth Recuperação de documentos e pessoas em ambientes
Leia maisRecuperação de Informação em Bases de Texto
Recuperação de Informação em Bases de Texto Mestrado em Engenharia Informática Universidade de Évora 2010/2011 Paulo Quaresma pq@di.uevora.pt http://www.moodle.uevora.pt 1 Objectivos Programa Avaliação
Leia mais14.5 A Regra da Cadeia. Copyright Cengage Learning. Todos os direitos reservados.
14.5 A Regra da Cadeia Copyright Cengage Learning. Todos os direitos reservados. A Regra da Cadeia Lembremo-nos de que a Regra da Cadeia para uma função de uma única variável nos dava uma regra para derivar
Leia maisUniversidade do Sul de Santa Catarina Ciência da Computação Aula 09 Introdução a Análise de Textos Prof. Max Pereira
Universidade do Sul de Santa Catarina Ciência da Computação Técnicasde InteligênciaArtificial Aula 09 Introdução a Análise de Textos Prof. Max Pereira Processamento de Linguagem Natural Conjunto de técnicas
Leia maisExercícios de matemática - revisão
Exercícios de matemática - revisão Renato Assunção - DCC, UFMG 2015 Esta lista de exercícios visa a uma revisão de fatos básicos de matemática e probabilidade que serão necessários durante a disciplina.
Leia maisCapítulo Coordenadas no Espaço. Seja E o espaço da Geometria Euclidiana tri-dimensional.
Capítulo 9 1. Coordenadas no Espaço Seja E o espaço da Geometria Euclidiana tri-dimensional. Um sistema de eixos ortogonais OXY Z em E consiste de três eixos ortogonais entre si OX, OY e OZ com a mesma
Leia maisÁlgebra Linear Semana 02
Álgebra Linear Semana 2 Diego Marcon 3 de Abril de 27 Conteúdo Vetores Representação matricial para sistemas Lineares 3 2 Combinações lineares de vetores 4 3 Sistemas lineares e combinações lineares das
Leia maisUniversidade Federal de Pernambuco
Universidade Federal de Pernambuco Graduação em Engenharia da Computação Centro de Informática Análise de Comportamento de Sistemas DASH com Teoria de Controle em Redes 3G Aluno: Daniel Bezerra { db@cin.ufpe.br
Leia maisMatemática tica Discreta Módulo Extra (2)
Universidade Federal do Vale do São Francisco Curso de Engenharia da Computação Matemática tica Discreta Módulo Extra (2) Prof. Jorge Cavalcanti jorge.cavalcanti@univasf.edu.br - www.univasf.edu.br/~jorge.cavalcanti
Leia maisMatemática Discreta Parte 11
Universidade Federal do Vale do São Francisco Curso de Engenharia da Computação Matemática Discreta Parte 11 Prof. Jorge Cavalcanti jorge.cavalcanti@univasf.edu.br - www.univasf.edu.br/~jorge.cavalcanti
Leia maisMC102 Aula 26. Instituto de Computação Unicamp. 17 de Novembro de 2016
MC102 Aula 26 Recursão Instituto de Computação Unicamp 17 de Novembro de 2016 Roteiro 1 Recursão Indução 2 Recursão 3 Fatorial 4 O que acontece na memória 5 Recursão Iteração 6 Soma em um Vetor 7 Números
Leia maisIndependência Regra de Bayes Redes Bayesianas
Independência Regra de Bayes Redes Bayesianas Inferência Probabilística Evidência observada: dor. Qual é a probabilidade de cárie dado que foi observado dor? P cárie dor = P(cárie dor) P(dor = 0,6 Independência
Leia maisSeleção e Otimização de Fontes
Seleção e Otimização de Fontes 1. Introdução Muitos dados disponíveis Não há garantia de relevância Muitos acessos (custoso) O Autor propõe uma ideia para otimizar o processamento: A indexação e seleção
Leia mais2, ao medirmos um observável deste estado que possui autovetores 0 e 1, obtemos o resultado 0 com probabilidade α 2, e 1 com probabilidade β 2.
4 Informação Quântica A teoria da Informação Quântica foi basicamente desenvolvida na última década (3, 10, 16). Nosso objetivo neste capítulo é apresentar sua estrutura fundamental, o bit quântico, e
Leia maisUFCG IQuanta DSC. Cheyenne R. G. Isidro Bernardo Lula Júnior
Um Algoritmo para Transformar Autômatos Finitos Não- Determinísticos em Autômatos Finitos Quânticos Preservando o Número de Estados e a Linguagem Reconhecida Cheyenne R. G. Isidro cha@dsc.ufcg.edu.br Bernardo
Leia mais4 Ambiente de Experimentação
4 Ambiente de Experimentação O ambiente de experimentação desenvolvido baseia-se em dois pontos principais, a saber: A implementação de uma ferramenta capaz de calcular as classificações das páginas da
Leia maisDesenvolvimento de um Web Crawler para indexação de documentos científicos
Desenvolvimento de um Web Crawler para indexação de documentos científicos Heitor de Sousa Miranda¹, Rafael Gonçalves Barreira², Edeilson Milhomem da Silva³ Curso de Sistemas de Informação - CEULP/ULBRA
Leia maisRede complexa probabilística baseada em similaridade na classificação de dados com ruídos
Rede complexa probabilística baseada em similaridade na classificação de dados com ruídos Robson C. da Motta, e Alneu de A. Lopes Instituto de Ciências Matemáticas e de Computação - ICMC Universidade de
Leia mais5 Crawler Focado Definição
5 Crawler Focado No presente capítulo são apresentadas e detalhadas as técnicas e heurísticas envolvidas no processo de coleta específica de dados baseado em crawler focado. A pesquisa sobre este assunto
Leia maisAnálise do Algoritmo Amostragem de Gibbs para Cálculo das Probabilidades Marginais em Redes Bayesianas
19 a 21 de mar o de 2010 097 Análise do Algoritmo Amostragem de Gibbs para Cálculo das Probabilidades Marginais em Redes Bayesianas Thales Lange 1, Raimundo C. G. Teive 1 1 Mestrado em Computação Aplicada
Leia maisAnálise de Correspondência em acessos de pimenta
Análise de Correspondência em acessos de pimenta Bruno Caetano Vidigal 1 Paulo Roberto Cecon 2. 1 Introdução A Análise de Correspondência (AC) é uma das diversas técnicas de análise multivariada desenvolvida
Leia maisInterpolação polinomial: Polinômio de Lagrange
Interpolação polinomial: Polinômio de Lagrange Marina Andretta ICMC-USP 09 de maio de 2012 Baseado no livro Análise Numérica, de R. L. Burden e J. D. Faires. Marina Andretta (ICMC-USP) sme0500 - cálculo
Leia maisÁlgebra Linear Teoria de Matrizes
Álgebra Linear Teoria de Matrizes 1. Sistemas Lineares 1.1. Coordenadas em espaços lineares: independência linear, base, dimensão, singularidade, combinação linear 1.2. Espaço imagem (colunas) - Espaço
Leia maisAprendizagem de Máquina
Aprendizagem de Máquina Modelos gráficos probabilísticos Redes bayesianas Modelos gráficos probabilísticos Os modelos gráficos probabilísticos utilizam representações diagramáticas das distribuições de
Leia maisIdentificação de Pontos Perceptualmente Importantes (PIP) em séries temporais de tópicos extraídos de dados textuais
Universidade de São Paulo Biblioteca Digital da Produção Intelectual - BDPI Departamento de Ciências de Computação - ICMC/SCC Comunicações em Eventos - ICMC/SCC 2015 Identificação de Pontos Perceptualmente
Leia maisUNIVERSIDADE FEDERAL DO CEARÁ CENTRO DE TECNOLOGIA PROGRAMA DE EDUCAÇÃO TUTORIAL APOSTILA DE CÁLCULO. Realização:
UNIVERSIDADE FEDERAL DO CEARÁ CENTRO DE TECNOLOGIA PROGRAMA DE EDUCAÇÃO TUTORIAL APOSTILA DE CÁLCULO Realização: Fortaleza, Fevereiro/2010 1. LIMITES 1.1. Definição Geral Se os valores de f(x) puderem
Leia mais