Informação de Links no Modelo Vetorial Usando uma Estrutura Funcional

Tamanho: px
Começar a partir da página:

Download "Informação de Links no Modelo Vetorial Usando uma Estrutura Funcional"

Transcrição

1 Informação de Links no Modelo Vetorial Usando uma Estrutura Funcional Ilmério R. Silva 1, João N. Souza 1, Renata F. Lisboa Moura 1, Berthier Ribeiro-Neto 2 1 Faculdade de Computação Universidade Federal Uberlândia(UFU) Uberlândia MG Brasil 2 Departamento de Ciência da Computação Universidade Federal de Minas Gerais (UFMG) Belo Horizonte MG Brasil [ilmerio, nunes]@facom.ufu.br, renata@comp.ufu.br, berthier@dcc.ufmg.br Abstract The Classical Models of Information Retrieval (IR) only consider the content-based information to retrieve relevant documents. The information is captured by comparing document keywords against the user query terms. Considering the Web, the structure of links among the documents (or pages) is a rich source of information that has not been used by the Classic Models. On the other hands, Bayesian Network models for IR has revealed that link-based combined with content-based information can improve the quality of the retrieved documents. In this work we discuss this combination in the context of the Classic Vector Space Model(VSM). We present three new contributions. We make the combination of link-based with contentbased information close to the IR community, through an extension of the VSM. We define a query language that allows users to state document preferences according to the structure of links. Finally, we propose a metric that allows the comparison among documents using link-based information. 1. Introdução A quantidade de documentos existentes na Web tem crescido muito e a tarefa de recuperar informação relevante obtendo um bom desempenho neste ambiente tem se tornado cada vez mais difícil. Os modelos clássicos de Recuperação de Informação, como o Modelo Vetorial, o Modelo Booleano e o Modelo Probabilístico consideram apenas informações baseadas em conteúdo para recuperar documentos relevantes. Estas informações são extraídas através da busca por palavras-chaves (chamadas termos) nos documentos. Porém, na Web existe uma rica informação que pode ser extraída da estrutura de links entre os documentos (ou páginas) que não é considerada pelos modelos clássicos. Combinar estas informações extraídas de links com informações extraídas de conteúdo pode ser uma boa estratégia para melhorar a qualidade do ranking. Silva et al [10] propõem um modelo, aqui chamado de Modelo Bayesiano, que combina estas informações utilizando Redes Bayesianas. Os experimentos realizados demonstraram que este tipo de combinação melhora a qualidade das respostas sem requerer nenhuma informação extra do usuário em tempo de consulta. Porém, o uso de Redes Bayesianas é pouco difundido entre a comunidade de Recuperação de Informação. Aqui estendemos o Modelo Vetorial Clássico combinando informações baseadas em link com informações baseadas em conteúdo. Definimos uma métrica para o cálculo do ranking e por meio desta métrica é possível parametrizar pesos para conteúdo, hub e autoridade em tempo de consulta. Hub e autoridade são valores extraídos da análise da estrutura de links para cada documento da coleção [5]. Os conceitos sobre hub e autoridade são descritos com mais detalhes na Seção 3.2.

2 Este trabalho está dividido da seguinte forma. Na Seção 2 apresentamos os trabalhos relacionados. Na Seção 3 descrevemos alguns conceitos fundamentais em Recuperação de Informação que são utilizados como base para o nosso trabalho. Na Seção 4 apresentamos os conceitos da Estrutura Funcional utilizada para comparar modelos. Na seção 5 representamos a combinação de evidências do Modelo Bayesiano na Estrutura Funcional. Além disso, definimos uma métrica que combina link e conteúdo. Na Seção 6 definimos um Modelo Vetorial Estendido com informações baseadas em link, permitindo a parametrização de conteúdo, hub e autoridade na elaboração da consulta. Na Seção 7 mostramos alguns exemplos com o Modelo Vetorial Estendido e na Seção 8 apresentamos as conclusões e trabalhos futuros. 2. Trabalhos Relacionados Muitos modelos em Recuperação de Informação, tais como o Modelo Vetorial Clássico[9] e o Modelo Probabilístico[7] utilizam somente informações baseadas no conteúdo dos documentos para recuperar documentos relevantes. Nossa proposta é estender o Modelo Vetorial Clássico combinando outras fontes de informação. Brin e Page [2] propõem um algoritmo que usa a estrutura de links para indicar o quanto um documento é uma autoridade em determinado tópico ou consulta. O grau de autoridade pode ser interpretado como uma medida de popularidade de um documento baseada na estrutura de links em volta dele. Kleinberg [5] propõe outro algoritmo que também analisa a estrutura de links. Este algoritmo procura por páginas, chamadas hubs, que apontam para várias outras páginas e as usa como um componente para determinar o grau de autoridade dos documentos. Documentos que são apontados por vários hubs possuem um alto grau de autoridade. A extensão do Modelo Vetorial Clássico que propomos incorpora estas informações de links. Alguns trabalhos combinam evidências baseadas em conteúdo e link utilizando um único modelo de Recuperação de Informação. O algoritmo de Chakrabarti et al [4] combina análise de link local descrita em [5] com evidência baseada em conteúdo. Eles utilizam o texto próximo aos links como conteúdo para determinar um peso para cada link analisado. Após determinar os pesos de cada link, o ranking é calculado usando uma versão do algoritmo proposto por Kleinberg que considera pesos. A desvantagem desta proposta é o processamento da consulta em duas fases. A primeira calcula o peso dos links e a segunda executa o algoritmo de Kleinberg. Em nosso trabalho, fazemos a combinação de link e conteúdo com velocidade de processamento semelhante à do Modelo Vetorial Clássico. Bharat e Henzinger [1] também utilizam conteúdo para determinar a relevância dos links. Além disso, eles expandem a consulta original usando os termos dos documentos que fazem parte do conjunto resposta local e calculam o peso de cada link baseado na consulta expandida. Este processo de expansão melhora a qualidade das respostas, porém tem um alto custo computacional porque aumenta o número de termos processados. Silva et al [10] propõem explorar o uso das Redes Bayesianas para representar e combinar informações baseadas em links e conteúdo. Aqui discutimos esta combinação no contexto do Modelo Vetorial Clássico. Calado et al [3] fez uma comparação entre a informação de link global e local. A análise global considera todos os documentos da coleção. A análise local é derivada do conjunto de documentos retornados como respostas da consulta corrente. Os resultados da comparação indicam a utilização da análise global devido às facilidades de précomputação do índice, sem perdas significativas na qualidade das respostas. Portanto, neste trabalho utilizamos a análise de link global.

3 Tsikrika e Lalmas [12] introduzem um expressivo modelo de Recuperação de Informação formal baseado em Redes Bayesianas. Este modelo combina múltiplas representações de documentos no Modelo de Inferência. Estas representações são extraídas do conteúdo dos documentos e da análise da estrutura de links na Web. Este trabalho não apresenta experimentos que comprovem ganhos na qualidade das repostas e ele também utiliza Redes Bayesianas, ou seja, utiliza uma abordagem que ainda está distante da comunidade de Recuperação de Informação. Nosso trabalho propõe um Modelo Vetorial Estendido com informações de links. Ele difere dos outros por uma série de fatores. Primeiro, porque discutimos a combinação de link e conteúdo no contexto do Modelo Vetorial. Desta maneira, tornamos o tema mais próximo à comunidade de Recuperação de Informação. Em segundo lugar, esta combinação traz a possibilidade de definirmos uma linguagem de consulta que atribui pesos às informações baseadas em conteúdo e link. Finalmente, a combinação aqui é feita com base em uma métrica, permitindo inclusive utilizá-la para comparar documentos. 3. Conceitos Fundamentais Nesta seção descrevemos os conceitos básicos de Recuperação de Informação (RI). Descrevemos o Modelo Vetorial Clássico e uma abordagem para utilizar informações obtidas da estrutura de links em RI. Mostramos uma estratégia de ranking que combina informações de conteúdo e de links. Esta estratégia foi apresentada na literatura no contexto de Redes Bayesianas Modelo Vetorial No Modelo Vetorial um documento é um registro de dados que inclui uma parte textual. O j-ésimo documento em uma coleção de documentos é denotado por d j. Um termo é uma palavra que semanticamente ajuda a lembrar o tema principal do documento. Um termo é denotado por k i. Geralmente, uma consulta é um conjunto de termos que expressa a necessidade do usuário. Ela é denotada por q. Consultas e documentos são representados como vetores em um espaço t-dimensional, onde t é o número de termos da coleção. Cada dimensão deste espaço é associada com um vetor de termos k i. Estes vetores de termos são ortogonais, ou seja, i j k i k j = 0. Isto implica que termos ocorrem independentemente dentro dos documentos e consultas. Além disso, k i = 1. Documentos e consultas são vetores do tipo d j = (w 1j, w 2j,..., w tj ) e q = (w 1q, w 2q,..., w tq ), onde w ij e w iq são pesos associados aos termos k i no documento d j e na consulta q respectivamente. O Modelo Vetorial atribui pesos positivos aos termos das consultas e documentos. Para calcular estes pesos, uma abordagem comum é balancear a importância dos termos intradocumento com a importância dos termos interdocumentos. O Modelo Vetorial propõe o cálculo do grau de similaridade entre um documento d j e uma consulta q através do coseno entre estes dois vetores. A similaridade entre d j e q mostra a proximidade dos dois vetores: sim v (d j, q) = d j q = t i=1w ij. w iq Eq. (3.1) d j x q t 2 i=1 w ij t 2 i=1 w iq

4 3.2. Evidências Baseadas em Link O conhecimento sobre a estrutura de links é uma das fontes de informação mais ricas em um ambiente de hyperlink, como a Web [5]. Tal conhecimento freqüentemente codifica algum julgamento humano sobre os documentos. Este julgamento pode ter uma grande importância na geração de um bom ranking. Realmente, o fato de um documento indicar outro induz alguma informação relevante. Kleinberg propõe um algoritmo chamado HITS [5] que usa esta informação para medir a importância de um documento (Figura 3.1). Ele se baseia em duas métricas: um grau de autoridade e um grau de hub. Uma boa autoridade é definida como um documento que é referenciado por um grande número de bons hubs. Recursivamente, um bom hub é definido como um documento que possui um grande número de links para boas autoridades. O algoritmo HITS calcula um grau de hub e um grau de autoridade associado a cada documento de uma coleção. Estes cálculos têm como base a análise da estrutura de links entre os documentos mostrada a seguir. Algoritmo Hub-Autoridade (V,E) V : um conjunto de documentos E : um conjunto de arcos direcionados ligando documentos de V Seja N o número de documentos em V Seja X := (X 1, X 2,..., X N ) um vetor, tal que X i é o valor que define a autoridade do documento d i. Inicialmente temos i, X i = 1. Seja Y := (Y 1, Y 2,..., Y N ) um vetor, tal que Y i é o valor que define o hub do documento d i. Inicialmente temos i, Y i = 1. Enquanto os vetores X e Y não convergirem faça Para i := 1 até N faça X i := (Dj, Di) E Y j fim Para i := 1 até N faça Y i := (Di, Dj) E X j fim Normalize os vetores X e Y tal que i X i 2 = i Y i 2 = 1 Fim Retorne X e Y em ordem decrescente. Figura 3.1: Algoritmo para o cálculo dos valores de Hub e Autoridade de cada documento. O algoritmo HITS interpreta uma coleção de documentos como um grafo direcionado G, onde cada documento (página) é representado por um nó e cada link entre dois documentos é representado por um arco direcionado. Um link de um documento D para outro documento D' implica que o autor do documento D recomenda o documento D'. Detalhes sobre a convergência do algoritmo podem ser encontrados em [5].

5 3.3. Combinando Evidências de Link e Conteúdo Utilizando Redes Bayesianas As informações de conteúdo são extraídas com base nos termos dos documentos. O Modelo Vetorial descrito na Seção 3.1 é um exemplo de modelo que fornece o ranking de documentos baseado em conteúdo. Já as informações da estrutura de links são obtidas do algoritmo de Kleinberg apresentado na Seção 3.2. O Modelo de Redes Bayesianas, assim como o Modelo Vetorial, fornece o ranking dos documentos baseando-se em conteúdo. Nos sistemas tradicionais de Recuperação de Informação baseados em conteúdo, documentos e consultas são representados como um conjunto de palavras-chave. No Modelo de Redes Bayesianas, eles são tratados de forma análoga. A Figura 3.2 ilustra uma rede bayesiana que reflete esta simetria. Nesta rede, cada nodo D j modela um documento d j, o nodo Q modela a consulta q do usuário e os nodos k i modelam as palavras-chave da coleção. Q Lado da consulta U k 1 k 2.. k i.. k t Raíz D i D j D n Lado dos documentos Figura 3.2: Rede Bayesiana para uma consulta Q composta dos termos k 1 e k i. Na rede o cálculo do ranking é baseado na similaridade entre um documento d j e uma consulta q. Esta similaridade é dada pela probabilidade P(d j q). A probabilidade P(d j q) é definida pela regra da probabilidade total e as independências modeladas na rede: P(d j q) = η P(d j k) P(q k) P(k) Eq. (3.2) k onde η é uma constante de normalização. Esta é a equação genérica para determinar o ranking de um documento d j em relação a uma consulta q no Modelo de Redes Bayesianas. Detalhes sobre a derivação desta equação podem ser vistos em [10]. A rede bayesiana descrita anteriormente pode ser expandida para combinar fontes de evidências. Silva et al [10] propõem um Modelo Bayesiano que combina as informações de link e conteúdo na rede. Para isso são inseridos à rede original apresentada na Figura 3.2, nós e arcos representando evidências baseadas em links. Na Figura 3.3, o lado esquerdo da rede representa a rede original com as seguintes adaptações: cada documento D j foi renomeado como Dc j, pois o Modelo Vetorial Clássico é utilizado para extrair a informação do conteúdo. O lado direito da rede modela as informações da estrutura de links. O nó Dh j representa o documento D j como hub e Da j representa o documento D j como autoridade. As evidências de C, A e H representam conteúdo, autoridade e hub, respectivamente. No nó D j combina-se estas três evidências por meio de um operador disjuntivo or:

6 P(d j k) = or ((P(dc j k), P(dhj k), P(da j k)) Eq. (3.3) P(d j k) = 1 (1 P(dc j k)) x (1 P(dh j k)) x (1 P(da j k)) Eq. (3.4) Rede Original Lado da consulta Raíz Lado dos documentos Figura 3.3: Rede Bayesiana estendida com evidências baseada em links. De forma análoga a rede da Figura 3.2, para a rede da Figura 3.3, temos que: P(d j q) = η P(d j k) P(q k) P(k) k então, substituindo P(d j k) pela Eq. (3.4) temos: P(d j q) = η [1 (1 P(dc j k))x(1 P(dh j k))x(1 P(da j k))]x P(q k)xp(k) Eq. (3.5) k onde, P(dc j k) = t i=1w ij. w iq = R jq, t i=1 w ij 2 t i=1 w iq 2 é o peso deste documento como conteúdo, calculado pelo Modelo Vetorial de acordo com a Eq. (3.1); P(dh j k) = H jq É o grau de hub deste documento, calculado pelo algoritmo de Kleinberg; P(da j k) = L jq É o grau de autoridade deste documento, calculado pelo algoritmo de Kleinberg; P(q k) = 1 Se ki, g i (q) = g i (k) 0 caso contrário

7 P(k) = 1 Se ki, g i (q) = g i (k) 0 caso contrário Para simplificar, a Eq. (3.5) pode ser rescrita desta forma: P(d j q) = η [1 (1 R jq ) (1 H j ) (1 A j )] Eq. (3.6) Esta equação combina link e conteúdo e é utilizada para o cálculo do ranking no Modelo Bayesiano. Observe que a constante η não influencia no resultado final do ranking. É uma constante que mantém as propriedades da distribuição de probabilidade modelada na rede. Além disso, os valores R jq, H j e A j já estão normalizados. Então a seguinte equação representa o ranking do Modelo Bayesiano: Sim RB (d j,q) = 1 (1 R jq ) (1 H j ) (1 A j ) Eq. (3.7) É importante destacar que esta equação não permite que o usuário, na formulação da consulta, expresse sua preferência por hubs ou autoridades. 4. Estrutura Funcional Nesta seção apresentamos os conceitos da Estrutura Funcional [11]. Esta estrutura é capaz de representar vários modelos de RI. Ela permite também a comparação entre modelos. Neste trabalho, ela é utilizada para representar os modelos de Redes Bayesianas e vetoriais, como também para uma comparação algébrica entre eles. Fundamentos da Estrutura Funcional. Os modelos de recuperação de informação clássicos consideram que cada documento é descrito por um conjunto de palavras chaves denominadas termos. A Estrutura Funcional considera, além disso, as relações entre os termos. Definição 4.1 (Termo Funcional). Um termo funcional é uma função cuja semântica relaciona conjuntos de termos. Definição 4.2 (Função Peso). Seja C = {d 1,..., d z } uma coleção de documentos e K={k 1,..., k t } o conjunto de termos em C. Define-se a função peso g: K x {C {q}} R tal que g(k i, d j ) retorna o peso associado com o par (k i, d j ) e g(k i, q) retorna o peso associado com o par (k i, q). Por conveniência é adotado uma notação simplificada. Seja g j : K R uma função unária que retorna o peso de cada termo no documento d j. Neste caso, g j (k i ) retorna o peso associado com o par (k i, d j ). Analogamente, seja g q : K R uma função unária que retorna o peso na consulta q. Logo, g q (k i ) retorna o peso associado com o par (k i, q). A função peso g j é um termo funcional. Definição 4.3 (Representação de Documentos Funcionais). Um documento funcional df j é representado por um conjunto de termos funcionais. Estas funções relacionam termos em um documento d j. Definição 4.4 (Representação de Consultas Funcionais). Analogamente, uma consulta funcional qf é representada por um conjunto de termos funcionais. Estas funções relacionam termos em uma consulta q. Definição 4.5 (Métrica entre dois Documentos Funcionais). Dada uma coleção C = {df 1,..., df n } de documentos funcionais, uma métrica é uma função distância

8 : C x C R que assinala um número real positivo df j df m para cada par (df j, df m ) C 2, satisfazendo as seguintes propriedades(ou axiomas): (1) df j df m 0 (2) df j df m = df m df j e (3) df j df m + df m df s df j df m Neste caso, (df j, df m ) denota a distância entre os documentos df j e df m. A métrica (df j, qf) é definida de forma análoga. Definição 4.6 (Casamento entre Documentos Funcionais e Consultas). Sejam df j um documento funcional e qf uma consulta funcional. Seja α um número positivo. O documento funcional df j e a consulta funcional qf são casados com precisão α, se df j qf α, onde df j qf é uma métrica na coleção de documentos funcionais. Definição 4.7 (Modelo Funcional). Um modelo funcional é uma coleção de documentos funcionais e uma métrica. Ele é representado por Ψ = {df 1,..., df n, } onde é uma métrica sobre os pares de documentos funcionais da coleção. Definição 4.8 (Equivalência de Modelos Funcionais). Dois modelos funcionais Ψ 1 = {df 1,..., df n, 1 } e Ψ 2 = {ds 1,..., ds n, 2 } são equivalentes se e somente se existe uma função bijetora φ : {df 1,..., df n } {ds 1,..., ds n } tal que se φ(df i ) = ds j e φ(df l ) = ds m então 1 (df i, df l ) = 2 (ds j, ds m ). Neste caso, φ é um isomorfismo entre Ψ 1 e Ψ 2. Definição 4.9 (Sobreposição de Modelos Funcionais). O modelo funcional Ψ 1 = {df 1,..., df n, 1 } é sobreposto pelo modelo funcional Ψ 2 = {ds 1,..., ds n, 2 }, u n, se e somente se existe uma função injetora φ : {df 1,..., df n } {ds 1,..., ds n } tal que se φ(df i ) = ds j e φ(df l ) = ds m então 1 (df i, df l ) = 2 (ds j, ds m ). A comparação entre modelos de Recuperação de Informação é útil para um melhor entendimento do relacionamento entre os modelos comparados. A Estrutura Funcional é uma ferramenta capaz de proporcionar meios para comparar modelos de Recuperação de Informação através da formalização dos conceitos de equivalência e sobreposição Representação do Modelo Vetorial na Estrutura Funcional Para representar um modelo na estrutura funcional é necessário definir um modelo funcional Ψ que o represente. Seja Ψ v = {df v1,..., df vn, v } um modelo funcional. O Modelo Vetorial pode ser representado definindo: df vj = {g j }. Conjunto unário que contém a função peso para o documento d j. A função g j define o peso w ij no modelo vetorial. Portanto, g j (k i )= w ij ; qf v = {g q }. Conjunto unário que contém a função peso da consulta q. No modelo vetorial a função que define o peso de cada termo na consulta é g q. Portanto, g q (k i ) = w iq ; Métrica dada por v (df vj, qf v ) = 1 t i=1g j (k i ). g q (k i ) t i=1 g j (k i ) 2 t i=1 g q (k i ) 2 Note que v é uma função de distância e a função de similaridade sim v do Modelo Vetorial é uma função de proximidade. O ranking do Modelo Vetorial pode ser obtido definindo a similaridade sim v (df vj, qf v ) = 1 v (df vj, qf v ).

9 5. Representação do Modelo Bayesiano na Estrutura Funcional Nesta seção definimos uma representação do Modelo Bayesiano na Estrutura Funcional. O modelo funcional deve ser composto por um conjunto de documentos funcionais e uma métrica. Seja Ψ r = {df r1,..., df rn, r } o modelo funcional que representa o Modelo Bayesiano na Estrutura Funcional. Vamos definir o documento funcional df rj e a métrica r. Um documento funcional é formado por um conjunto de funções. O Modelo Bayesiano pode ser representado utilizando três funções a saber: (1) g j função que define o peso dos termos no documento. (2) g hubj é uma função constante que define o valor de hub do documento definido pelo algoritmo de Kleinberg apresentado na seção 3.2. Então, temos g hubj = H j. (3) g autj é uma função constante que define o valor de autoridade do documento definido pelo algoritmo de Kleinberg (Figura 3.1). Então, temos g autj = A j. Portanto, a definição do documento funcional é dada por df rj = {g j, g hubj, g autj }. Para definirmos a métrica do modelo funcional que representa o Modelo Bayesiano precisamos fazer a seguinte consideração. Ao contrário do Modelo Vetorial, o Modelo Bayesiano não faz referência à similaridade entre dois documentos. De forma análoga à definição da métrica funcional para representar o Modelo Vetorial, definimos a métrica r = (1 R jl ) (1 H jl ) (1 A jl ) para hub e autoridade no modelo funcional Ψ r, onde : R jl = t i=1g j (k i ). g l (k i ) ; H jl = g hubj g hubl ; e A jl = g autj g autl Então temos: t i=1 g j (k i ) 2 t i=1 g l (k i ) 2 df rj df rl = (1 R jl ) (1 g hubj g hubl ) (1 g autj g autl ) Eq. (5.1) df rl df rj = (1 R lj ) (1 g hubl g hubj ) (1 g autl g autj ) Eq. (5.2) Uma consulta qf r pode ser representada de forma análoga ao documento. Definimos g q (k i ) = w iq. Entretanto, como não temos valores de hub e autoridade associados à consulta, definimos os valores constantes H q =1 e A q =1. Então, a representação da consulta será: qf r = {g q, H q, A q } A mesma função de distância utilizada para os documentos pode ser utilizada para um documento e a consulta: df rj qf r = (1 R jq ) (1 H jq ) (1 A jq ) Eq. (5.3) onde R jq = t i=1g j (k i ). g q (k i ) ; H jq = g hubj H q ; e A jq = g autj A q t i=1 g j (k i ) 2 t i=1 g q (k i ) 2 Para representar o Modelo Bayesiano na Estrutura Funcional, definimos: sim RB (df rj, qf r ) = 1 r (df rj, qf r ). De acordo com o exposto anteriormente, o modelo funcional ψ r pode ser definido como se segue:

10 (1) df rj = {g j, g hubj, g autj } (2) qf r = {g q, A q, H q } (3) r (df rj, qf r ) = (1 R jq ) (1 g hubj H q ) (1 g autj A q ). Considerando H q = A q = 1 esta representação conserva as mesmas funcionalidades do Modelo Bayesiano. Observe que H q e A q podem ser utilizados como parâmetros de entrada durante a especificação da consulta, possibilitando ao usuário manifestar sua preferência por hub ou autoridade. Além disso, a métrica definida para possibilitar a representação do Modelo Bayesiano na Estrutura Funcional mede a distância entre dois documentos, o que não ocorre no Modelo Bayesiano. 6. Modelo Vetorial Estendido com Informações de Links Nesta seção definimos um Modelo Vetorial Estendido com informações de links. Representamos este modelo na Estrutura Funcional e mostramos a equivalência entre ele e o Modelo Bayesiano. Esta equivalência é baseada no conceito de isomorfismo da Estrutura Funcional Definição do Modelo Vetorial Estendido com Informações de Links Como referimos na Seção 3.1, no Modelo Vetorial Clássico o conjunto de termos {k i 1 i t}, formam os eixos do espaço vetorial. Os documentos e consultas são representados como vetores neste espaço: d j = (w 1j, w 2j,..., w tj ) e q = (w 1q, w 2q,..., w tq ), respectivamente. As coordenadas do vetor d j são os pesos de cada termo no documento e as coordenadas do vetor q são os pesos de cada termo na consulta (Veja Figura 6.1). k 1 w 1j d j w 2j k 2 Figura 6.1: Representação do documento d j em um espaço 2-dimensional Estamos propondo neste trabalho um modelo que combina informações baseadas em link e conteúdo por meio de uma extensão do Modelo Vetorial Clássico. Para isso, estendemos o espaço vetorial adicionando dois novos eixos. Um eixo representa a informação de hub e o outro eixo representa a informação de autoridade. Seja hub o eixo que representa o grau de hub e aut o eixo que representa o grau de autoridade. Neste espaço vetorial um documento é representado por um vetor de j = (H j, A j, w 1j, w 2j,..., w tj ), onde H j é o valor de hub associado ao documento d j e A j é o valor de autoridade associado ao documento d j. Veja Figura 6.2. Analogamente, definimos a consulta qe = (H q, A q, w 1q, w 2q,...,w tq ). Observe que H q e A q podem ser utilizados como parâmetros de entrada durante a especificação da consulta, possibilitando ao usuário manifestar sua preferência por hub ou autoridade.

11 k 1 w 1j de j H j hub A j aut Figura 6.2: Representação do documento d j em um espaço 3-dimensional considerando os novos eixos hub e aut. Discutimos o cálculo da similaridade neste modelo na próxima seção, já no contexto da Estrutura Funcional Representação do Modelo Vetorial Estendido na Estrutura Funcional Dado um documento d j, os valores de hub e autoridade H j e A j, são coordenadas do vetor de j que representa o documento. Os valores de hub e autoridade podem ser considerados como imagens das funções g' hubj e g' autj, definindo g' hubj = H j e g' autj = A j. Além disso, definimos g' j (k i ) = w ij que representa as coordenadas relativas aos termos. Portanto, podemos extrair as informações de links de forma análoga à que extraímos as informações de conteúdo. O documento funcional que representa o documento de j é definido por: df ej = {g' j, g' hubj, g' autj }. A consulta qe do modelo vetorial estendido é definida de forma análoga no modelo funcional: qf e = {g' q, H q, A q }. O Modelo Vetorial Clássico utiliza o coseno entre dois vetores de documentos para definir a similaridade. Entretanto, podemos utilizar outras funções para calcular a similaridade entre documentos e consulta. Em nosso modelo utilizamos a métrica definida na Seção 5. Temos uma métrica que considera o coseno entre os dois vetores no subespaço dos termos e ainda considera o grau de hub e autoridade de cada documento. Portanto, o modelo funcional ψ e que representa o modelo vetorial estendido com informações de links é definido como: (1) df ej = {g' j, g' hubj, g' autj } (2) qf e = {g' q, H q, A q } (3) e (df ej, qf e ) = (1 R jq ) (1 g' hubj H q ) (1 g' autj A q ). g' j (k i ) = w ij i. Analogamente, g' q (k i ) = w iq i. g' hubj = H j ; g' autj = A j ; são o grau de hub e autoridade, respectivamente, calculados pelo algoritmo de Kleinberg[5], mostrado na Figura 3.1. H q e A q são valores determinados pelo usuário para indicar sua preferência por hub ou autoridade.

12 R jq é o coseno entre os vetores d e q no sub-espaço vetorial formado pelos vetores k i i 6.3. Equivalência entre os Modelos Funcionais que Representam o Modelo Bayesiano e o Modelo Vetorial Estendido com Informações de Links Conforme mostramos, o Modelo Bayesiano e o Modelo Vetorial Estendido com informações de link possuem uma representação na Estrutura Funcional. São representados pelos modelos funcionais ψ r e ψ e. Nesta seção mostramos que há um isomorfismo entre estes dois modelos funcionais. Ou seja, existe uma função bijetora φ :{df r1,...,df rn } {df e1,...,df en } tal que se φ (df ri ) = df ei e φ (df rj ) = df ej então r (df ri, df rj ) = e (df ei, df ej ). Para demonstrar a equivalência, definimos um isomorfismo entre dois documentos funcionais. Neste caso, basta considerar: φ(df rj ) = df ej j. Observe que φ é a função identidade. Na Figura 6.3. temos um mapeamento de df rj em df ej. Ele mostra a função φ tal que φ(df e ) = φ({g j, g hubj, g autj }) = {g' j, g' hubj, g' autj }. g j g' j g hubj g' hubj g autj g' autj df r df e Figura 6.3. Mapeamento dos documentos funcionais dfr e dfe. Para demonstrar que a função identidade é um isomorfismo, devemos provar que r (df ri, df rj ) = e (df ei, df ej ). Esta igualdade é satisfeita devido à definição da métrica no Modelo Bayesiano e no Modelo Vetorial Estendido. Temos que: r (df ri, df rj ) = (1 R jq ) (1 g hubj H q ) (1 g autj A q ) = (1 R jq ) (1 g' hubj H q ) (1 g' autj A q ) = e (df ei, df ej ) Como φ é um isomorfismo, concluímos que os dois modelos são equivalentes. Nesta Seção apresentamos um Modelo Vetorial Estendido com informações de links. Consideramos aqui a informação de link global, ou seja, o grau de hub e autoridade são calculados considerando-se todos os documentos da coleção. Isto significa que estes valores são calculados previamente (pré-processamento). Por isso, o cálculo da similaridade no nosso modelo tem um desempenho computacional e uma facilidade de implementação semelhantes aos do Modelo Vetorial Clássico.

13 7. Exemplos Para ilustrar as idéias discutidas anteriormente apresentamos a seguir uma simulação dos cálculos no modelo proposto. Seja uma amostra com 6 documentos {d 1, d 2, d 3, d 4, d 5 e d 6 }. Suponha uma consulta q e os seguintes valores de R jq : R 1q = 0,64; R 2q = 0,34; R 3q = 0,47; R 4q = 0,53; R 5q = 0,68; R 6q = 0,49. De acordo com o modelo vetorial, teríamos o seguinte ranking de documentos: <d 5, d 1, d 4, d 6, d 3, d 2 >. Isto pode ser simulado no modelo funcional ψ e fazendo A q = H q = 0. Suponhamos que estes documentos possuem os seguintes valores de hub e autoridade: h 1 = 0,22; h 2 = 0,48; h 3 = 0,27; h 4 = 0,34; h 5 = 0,54; h 6 = 0,42; a 1 = 0,31; a 2 = 0,37; a 3 = 0,51; a 4 = 0,45; a 5 = 0,42; a 6 = 0,29. Suponha que na consulta q, o usuário não especifica preferência entre hub e autoridade, ou seja, A q = H q = 1. Este caso é uma simulação do Modelo Bayesiano. Veja o ranking para este caso: Ranking d 5 d 4 d 3 d 1 d 6 d 2 e 0,085 0,170 0,189 0,193 0,210 0, e 0,915 0,830 0,811 0,807 0,790 0,784 Entretanto, em nosso modelo o usuário pode manifestar sua preferência por hubs. Ou seja, suponha que o usuário esteja realizando uma pesquisa sobre um determinado assunto e que ele prefere páginas mais abrangentes, i.e. páginas que apontam para várias outras páginas. Esta preferência pode ser facilmente representada com A q = 0 e H q = 1. O novo ranking para esta consulta seria então: Ranking d 5 d 1 d 6 d 4 d 2 d 3 e 0,147 0,280 0,295 0,310 0,343 0, e 0,853 0,720 0,705 0,690 0,657 0,614 Se o usuário preferir documentos de maior autoridade, a consulta terá A q = 1 e H q = 0. Neste caso o usuário está interessado em páginas que são autoridades em um determinado assunto, ou seja, páginas que são apontadas por várias outras boas páginas. O novo ranking para esta consulta seria: Ranking d 5 d 1 d 4 d 3 d 6 d 2 e 0,185 0,248 0,258 0,259 0,362 0, e 0,815 0,752 0,742 0,741 0,638 0,585 Além disso, o usuário pode estabelecer parâmetros intermediários para hubs e autoridades. Porém, determinar estes valores é uma tarefa difícil para o usuário. Podemos pensar então em armazenar a preferência do usuário no momento em que ele escolhe documentos em diferentes iterações com o sistema. Por exemplo, se em 70% das iterações com o sistema o usuário escolhe documentos com alto valor de hub, podemos pensar em parametrizar automaticamente a consulta com H q = 0,7 e A q = 0,3. Neste caso o ranking seria: Ranking d 5 d 1 d 4 d 6 d 3 d 2 e 0,172 0,278 0,307 0,329 0,364 0, e 0,828 0,722 0,693 0,671 0,636 0,613

14 Os resultados que mostram que a combinação de informações de link (utilizando a análise de link global) com informações de conteúdo melhoram a qualidade do ranking foram apresentados em [3]. Nosso objetivo aqui é mostrar como podemos trabalhar com a linguagem de consulta, ou seja, como o usuário pode manifestar sua preferência por conteúdo, hub ou autoridade. Observamos que d 5 está no topo do ranking em todos os casos. Isto se justifica porque o seu valor para conteúdo, R 5q, é o maior desta amostra, assim como seu valor de hub. Porém, quando o usuário manifesta preferência por autoridades, o documento d 3 é o que possui maior valor de autoridade, no entanto, aparece em quarto lugar no ranking. Isto ocorre porque d 3 é uma autoridade, mas não neste assunto (R 3q é baixo). Neste caso, existem documentos que combinam melhor conteúdo e autoridade. No caso em que o usuário manifesta 70% de preferência por hubs observamos que em relação ao ranking em que ele manifesta 100% de preferência por hubs, na terceira posição, d 4 aparece no lugar de d 6. Isto ocorre porque consideramos 30% de preferência por autoridades e o valor de autoridade de d 4 combinado com seus valores de hub e conteúdo supera os valores de d 6. Por isso, neste caso d 4 aparece primeiro no ranking. 8. Conclusão e Trabalhos Futuros Neste trabalho representamos o Modelo Vetorial Clássico e o Modelo Bayesiano em uma Estrutura Funcional. A representação do Modelo Bayesiano foi realizada com base na definição de uma métrica. Esta métrica permite parametrizar pesos para conteúdo, hub e autoridade em tempo de consulta. Além disso, a métrica permite também o cálculo da similaridade entre dois documentos. Propomos um Modelo Vetorial Estendido com informações de links que combina informações baseadas em link e conteúdo. Além disso, este modelo possui a simplicidade de implementação e o desempenho computacional para obtenção do ranking semelhantes aos do Modelo Vetorial Clássico. Utilizando o conceito de equivalência entre modelos funcionais mostramos que o Modelo Vetorial Estendido é equivalente ao Modelo Bayesiano representado na Estrutura Funcional. Mostramos por meio de exemplos como trabalhar com a linguagem de consulta proposta aqui. Vimos que por meio desta linguagem o usuário pode manifestar sua preferência por hub ou autoridade. Observamos também que mesmo quando ele manifesta preferência por páginas que são hubs, a métrica ordena os documentos considerando o valor de hub e o valor de conteúdo, ou seja, as palavras que o usuário escolheu. Portanto, estarão no topo do ranking os documentos que são bons hubs naquele assunto. Para trabalhos futuros pretendemos avaliar um Modelo Vetorial Estendido, cuja métrica é o coseno e este será calculado considerando-se todo o espaço, inclusive os novos eixos de hub e autoridade. Um outro trabalho é utilizar a métrica entre dois documentos para clusterização. Referências 1. Bharat, K., Henzinger, M.R. Improved algorithms for topic distillation in a hyperlinked environment. In Proc. of the 21st ACM SIGIR Conference on Research and Development in Information Retrieval, Distributed Retrieval, pages , Brin, S., Page, L. The anatomy of a large-scale hypertextual web search engine. In Proc. of the 7th International World Wide Web Conference (WWW7), pages , Brisbane, Australia, 1998.

15 3. Calado, P., Ribeiro-Neto, B., Ziviani, N., Moura, E., Silva, I. Local Versus Global Link Information in the Web. ACM Transactions on Information Systems, Vol. 21, No. 1, pages 1-22, January Chakrabarti, S., Dom, B., Raghavan, P., Rajagopalan, S., Gibson, D., Kleinberg, J. Automatic resource compilation by analyzing hyperlink structure end associated text. In Proc. of the 7th International World Wide Web Conference (WWW7), pages 65-74, Brisbane, Australia, Kleinberg, J. M. Authoritative sources in a hyperlinked environment. In Proc. of the Ninth Annual ACM-SIAM Symposium on Discrete Algorithms, pages , San Francisco, California, Ribeiro-Neto, B., Muntz R. A belief network model for IR. In Proc. of the 19th ACM SIGIR Conference on Research and Development in Information Retrieval, pages , Zurich, Switzerland, Robertson, S. E., Jones, K. S. Relevance weighting of search terms. Journal of the American Society for Information Sciences, 27(3): , Salton, G. Automatic Information Organization and Retrieval. McGraw-Hill, New York, NY, Salton, G., Yang, C., Wong, A. A vector space model for automatic indexing. Communications of the ACM, 18(11), pages , Silva, I., Ribeiro-Neto, B., Calado, P., Moura, E., Ziviani, N. Link-based and contentbased evidential information in a belief network model. In Proc. of 23rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (Athens, Greece), , Best Student paper. 11. Silva, I., Souza, J. A Functional Framework to Model IR. Technical Report, Federal University of Uberlândia, Minas Gerais, Brazil, Tsikrika, T., Lalmas M. Combining Web Document Representations in a Bayesian Inference Network Model Using Link and Content-Based Evidence. In Proc. of 24th BCS-IRSG European Colloquium on IR Research, Glasgow, pages 53-72, March Turtle, H., Croft, W. Evaluation of an inference network-based retrieval model. ACM Transactions on Information Systems, 9(3): , 1991.

Francisco Benjamim Filho. XHITS: Estendendo o Algoritmo HITS para Extração de Tópicos na WWW DISSERTAÇÃO DE MESTRADO

Francisco Benjamim Filho. XHITS: Estendendo o Algoritmo HITS para Extração de Tópicos na WWW DISSERTAÇÃO DE MESTRADO Francisco Benjamim Filho XHITS: Estendendo o Algoritmo HITS para Extração de Tópicos na WWW DISSERTAÇÃO DE MESTRADO DEPARTAMENTO DE INFORMÁTICA Programa de Pós-Graduação em Informática Rio de Janeiro,

Leia mais

GSI024 - Organização e Recuperação da

GSI024 - Organização e Recuperação da GSI024 - Organização e Recuperação da Informação Ilmério Reis da Silva ilmerio@facom.ufu.br UFU/FACOM/BSI Arquivo 6 - Modelo Vetorial GSI024-ORI Pg:6. 1 Ranking baseado no modelo vetorial Considerações

Leia mais

Realimentação de Relevância

Realimentação de Relevância Wendel Melo Faculdade de Computação Universidade Federal de Uberlândia Recuperação da Informação Ciclo de realimentação onde uma consulta q recebida do usuário é transformada em uma consulta modificada

Leia mais

Mineração de Textos na Web

Mineração de Textos na Web Mineração de Textos na Web Luciano Antonio Digiampietri Escola de Artes Ciências e Humanidades da Universidade de São Paulo digiampietri@usp.br Resumo: Com o crescimento das informações disponíveis na

Leia mais

META-MODELO FUNCIONAL PARA RECUPERAÇÃO DE INFORMAÇÃO

META-MODELO FUNCIONAL PARA RECUPERAÇÃO DE INFORMAÇÃO Universidade Federal de Uberlândia Faculdade de Computação Programa de Pós-Graduação em Ciência da Computação META-MODELO FUNCIONAL PARA RECUPERAÇÃO DE INFORMAÇÃO Luciene Chagas de Oliveira Uberlândia

Leia mais

Modelo Espaço Vetorial. Mariella Berger

Modelo Espaço Vetorial. Mariella Berger Modelo Espaço Vetorial Mariella Berger Agenda Introdução Atribuição de Pesos Frequência TF-IDF Similaridade Exemplo Vantagens e Desvantagens Modelo Espaço Vetorial Introdução Modelo Espaço Vetorial O modelo

Leia mais

4 Recuperação de Informação

4 Recuperação de Informação 4 Recuperação de Informação No presente capítulo são apresentados os fundamentos da área de Recuperação de Informação utilizados em Mineração de Textos, como por exemplo, os modelos de representação de

Leia mais

Um estudo sobre diferentes modelos de Recuperação de Informação em documentos semi-estruturados (XML) -

Um estudo sobre diferentes modelos de Recuperação de Informação em documentos semi-estruturados (XML) - Um estudo sobre diferentes modelos de Recuperação de Informação em documentos semi-estruturados (XML) - Implementação, Análise, Avaliação e Comparação Autor: Mirella Silva Junqueira 1, Orientador: Prof.

Leia mais

Profª Ana Lúcia Lima Marreiros Maia Profª Fabiana Cristina Bertoni

Profª Ana Lúcia Lima Marreiros Maia Profª Fabiana Cristina Bertoni Profª Ana Lúcia Lima Marreiros Maia Profª Fabiana Cristina Bertoni Motivação e Objetivos Etapas do Desenvolvimento de um Sistema de Recuperação de Informações (SRI): Pré-processamento; Representação; Extração

Leia mais

3 Recuperação de Informações Textuais

3 Recuperação de Informações Textuais 3 Recuperação de Informações Textuais Tudo deveria se tornar o mais simples possível, mas não simplificado. Albert Einstein Sistemas tradicionais de indexação costumam utilizar-se de termos-índice, que

Leia mais

Um Mecanismo de Detecção de Versões de Páginas Web para Melhoria do Desempenho do Algoritmo de PageRank

Um Mecanismo de Detecção de Versões de Páginas Web para Melhoria do Desempenho do Algoritmo de PageRank Um Mecanismo de Detecção de Versões de Páginas Web para Melhoria do Desempenho do Algoritmo de PageRank Glauber Rodrigues da Silva, Renata de Matos Galante Instituto de Informática Universidade Federal

Leia mais

SISTEMA PARA RECUPERAÇÃO DE INFORMAÇÃO DE DOWNLOADS DE SOFTWARES

SISTEMA PARA RECUPERAÇÃO DE INFORMAÇÃO DE DOWNLOADS DE SOFTWARES SISTEMA PARA RECUPERAÇÃO DE INFORMAÇÃO DE DOWNLOADS DE SOFTWARES Elzo Soares Pereira Filho, Matheus Rossi de Oliveira Costa, Vinícius Lobo Silva, Luciene Chagas de Oliveira, UNIUBE Universidade de Uberaba

Leia mais

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU Organizaçãoe Recuperaçãode Informação GSI521 Prof. Dr. Rodrigo Sanches Miani FACOM/UFU Modelosde RI e o ModeloBooleano Organização e Recuperação de Informação(GSI521) Tópicos Modelagem em RI; Caracterização

Leia mais

UNIVERSIDADE METODISTA DE PIRACICABA RECUPERAÇÃO DE DOCUMENTOS TEXTO USANDO UM MODELO PROBABILÍSTICO ESTENDIDO

UNIVERSIDADE METODISTA DE PIRACICABA RECUPERAÇÃO DE DOCUMENTOS TEXTO USANDO UM MODELO PROBABILÍSTICO ESTENDIDO UNIVERSIDADE METODISTA DE PIRACICABA FACULDADE DE CIÊNCIAS EXATAS E DA NATUREZA MESTRADO EM CIÊNCIA DA COMPUTAÇÃO RECUPERAÇÃO DE DOCUMENTOS TEXTO USANDO UM MODELO PROBABILÍSTICO ESTENDIDO MARCELLO ERICK

Leia mais

Métodos de Acesso Métrico

Métodos de Acesso Métrico Métodos de Acesso Métrico http://www.icmc.usp.br/img/novafaixa.png Arthur Emanuel de O. Carosia Profa. Dra. Cristina Dutra de Aguiar Ciferri Índice Conceitos Básicos Métodos de Acesso Onion-tree 2 Índice

Leia mais

03/07/2017. Modelo de Recuperação de Informação

03/07/2017. Modelo de Recuperação de Informação Modelo de Recuperação de Informação Modelo de Recuperação de Informação Um modelo de recuperação de informação é a especificação formal de três elementos: a representação dos documentos; a representação

Leia mais

Sistemas de Recomendação Uma abordagem geral

Sistemas de Recomendação Uma abordagem geral Sistemas de Recomendação Uma abordagem geral Universidade Estadual de Maringá Departamento de Informática Programa de Pós-Graduação Mestrado em Ciência da Computação Disciplina: Seminários II Aluna: Késsia

Leia mais

Primeiro Exercício programa: Como o Google ordena páginas. MAP-2121 para EPUSP

Primeiro Exercício programa: Como o Google ordena páginas. MAP-2121 para EPUSP Primeiro Exercício programa: Como o Google ordena páginas MAP-2121 para EPUSP 1 Instruções gerais Os exercícios computacionais pedidos na disciplina Cálculo Numérico têm por objetivo fundamental familiarizar

Leia mais

Sistema de Reconhecimento de Logotipos

Sistema de Reconhecimento de Logotipos Sistema de Reconhecimento de Logotipos Fellipe Duarte, Saulo T. Oliveira {duartefellipe,sto}@cos.ufrj.br Relatório Técnico, Introdução ao Processamento de Imagens Programa de Engenharia de Sistemas e Computação

Leia mais

Teste de % de defeituosos para 1 amostra

Teste de % de defeituosos para 1 amostra DOCUMENTO OFICIAL DO ASSISTENTE DO MINITAB Este documento é de uma série de papéis que explicam a pesquisa conduzida por estatísticos da Minitab para desenvolver os métodos e as verificações de dados usadas

Leia mais

Para ajudar a interpretar os resultados, o Cartão de Relatórios do Assistente do teste de % de defeituosos para 1 amostra exibe os seguintes

Para ajudar a interpretar os resultados, o Cartão de Relatórios do Assistente do teste de % de defeituosos para 1 amostra exibe os seguintes Este documento é de uma série de papéis que explicam a pesquisa conduzida por estatísticos da Minitab para desenvolver os métodos e as verificações de dados usadas no assistente no software estatístico

Leia mais

Descritores de Imagens

Descritores de Imagens Descritores de Imagens André Tavares da Silva PPGCA/UDESC Outubro de 2017 André Tavares da Silva (PPGCA/UDESC) Descritores de Imagens Outubro de 2017 1 / 17 Introdução Excelentes pesquisas sobre descritores

Leia mais

Modelo Probabilístico

Modelo Probabilístico Wendel Melo Faculdade de Computação Universidade Federal de Uberlândia Recuperação da Informação Adaptado do Material da Profª Vanessa Braganholo - IC/UFF Proposto em 1976 por Roberstson e Sparck Jones;

Leia mais

Gazetteers - Aplicação em RI Geográfica. Ivre Marjorie R. Machado

Gazetteers - Aplicação em RI Geográfica. Ivre Marjorie R. Machado Gazetteers - Aplicação em RI Geográfica Ivre Marjorie R. Machado Julho de 2009 Sumário Introdução Gazetteer Exemplos Locus Limitações Conclusão Referências 2 Introdução Quem nunca usou uma máquina de busca

Leia mais

Resolução de sistemas de equações lineares: Método dos Gradientes Conjugados

Resolução de sistemas de equações lineares: Método dos Gradientes Conjugados Resolução de sistemas de equações lineares: Método dos Gradientes Conjugados Marina Andretta/Franklina Toledo ICMC-USP 24 de março de 2015 Baseado no livro Cálculo Numérico, de Neide B. Franco Marina Andretta/Franklina

Leia mais

GSI024 - Organização e Recuperação da

GSI024 - Organização e Recuperação da GSI024 - Organização e Recuperação da Informação Ilmério Reis da Silva ilmerio@facom.ufu.br UFU/FACOM/BSI Arquivo 5 - Peso de termos GSI024-ORI Pg:5. 1 Busca paramétrica usando atributos Regiões em documentos

Leia mais

pelo sistema de coordenadas Cartesianas. Podemos utilizar também o sistema de coordenadas

pelo sistema de coordenadas Cartesianas. Podemos utilizar também o sistema de coordenadas A. Coordenadas Curvilineares. Teorema de Gauss em coordenadas curvilineares Para especificar a posição, utilizamos a base e x, e y, e z e x r = y z pelo sistema de coordenadas Cartesianas. Podemos utilizar

Leia mais

Índice. Classificação de textos para o ensino de português como segunda língua. Índice. technology from seed

Índice. Classificação de textos para o ensino de português como segunda língua. Índice. technology from seed Classificação de textos para o ensino de português como segunda língua Pedro Santos Curto Conclusões, Contribuições e Trabalho futuro 1 2 Motivação Aplicações e escala da classificação de textos Motivação

Leia mais

Recuperação de Documentos Jurídicos Baseada em um Tesauro

Recuperação de Documentos Jurídicos Baseada em um Tesauro Recuperação de Documentos Jurídicos Baseada em um Tesauro Berthier Ribeiro Neto berthier@dcc.ufmg.br Rodrigo Tôrres Assumpção rota@dcc.ufmg.br Universidade Federal de Minas Gerais 30.123-970 Belo Horizonte-MG,

Leia mais

Processamento de Malhas Poligonais

Processamento de Malhas Poligonais Processamento de Malhas Poligonais Tópicos Avançados em Computação Visual e Interfaces I Prof.: Marcos Lage www.ic.uff.br/~mlage mlage@ic.uff.br Conteúdo: Notas de Aula Curvas 06/09/2015 Processamento

Leia mais

Indexação e Modelos Clássicos

Indexação e Modelos Clássicos Wendel Melo Faculdade de Computação Universidade Federal de Uberlândia Recuperação da Informação Adaptado do Material da Profª Vanessa Braganholo - IC/UFF Construção de um Sistema de Busca 1ª Etapa: Definir

Leia mais

Compressão de Textos. Introdução. Introdução. Introdução. O volume de informação textual disponível on-line é imenso:

Compressão de Textos. Introdução. Introdução. Introdução. O volume de informação textual disponível on-line é imenso: Compressão de Textos Estrutura de Dados II Prof. Guilherme Tavares de Assis Universidade Federal de Ouro Preto UFOP Instituto de Ciências Exatas e Biológicas ICEB Departamento de Computação DECOM O volume

Leia mais

Avaliação da Recuperação

Avaliação da Recuperação Wendel Melo Faculdade de Computação Universidade Federal de Uberlândia Recuperação da Informação Adaptado do Material da Profª Vanessa Braganholo - IC/UFF Avaliação de sistemas de busca Podemos avaliar

Leia mais

Keyword Search over RDF Graphs. Lucas Peres Gaspar

Keyword Search over RDF Graphs. Lucas Peres Gaspar Keyword Search over RDF Graphs Lucas Peres Gaspar 1 Olá! Petiano emérito no PET Computação UFC; Bolsista no Arida; Graduando em Ciência da Computação; 2 Fonte http://www.dc.fi.udc.es/~roi/publications/cikm2011c.pdf

Leia mais

Ambiente de Data Warehouse Para Imagens Médicas Baseado Em Similaridade

Ambiente de Data Warehouse Para Imagens Médicas Baseado Em Similaridade Universidade de São Paulo - USP Instituto de Ciências Matemáticas e de Computação - ICMC Programa de Pós-Graduação em Ciências da Computação e Matemática Computacional Ambiente de Data Warehouse Para Imagens

Leia mais

5 Implementação da Metodologia

5 Implementação da Metodologia 5 Implementação da Metodologia A implementação da metodologia proposta no Capítulo 4 é possível devido ao importante avanço que os métodos numéricos e a capacidade de processamento computacional atuais

Leia mais

Algoritmo CLIQUE (Clustering In QUEst)

Algoritmo CLIQUE (Clustering In QUEst) Algoritmo CLIQUE (Clustering In QUEst) Marcelo Camacho de Souza Nº USP: 3199616 Roteiro Algoritmo CLIQUE Exemplo Prático Complexidade Computacional Vantagens e Desvantagens Autores (IBM Almaden Research

Leia mais

Combinando Fatores de Ponderação para Melhorar a

Combinando Fatores de Ponderação para Melhorar a Computer on the Beach 2014 - Artigos Completos 32 Combinando Fatores de Ponderação para Melhorar a Classificação de Textos Frederico P. de Souza 1, Patrick M. Ciarelli 2, Elias de Oliveira 1 1 Departamento

Leia mais

Interpolação polinomial: Diferenças divididas de Newton

Interpolação polinomial: Diferenças divididas de Newton Interpolação polinomial: Diferenças divididas de Newton Marina Andretta ICMC-USP 16 de maio de 2012 Baseado no livro Análise Numérica, de R. L. Burden e J. D. Faires. Marina Andretta (ICMC-USP) sme0500

Leia mais

Instituto Superior de Engenharia de Lisboa Engenharia Informática e de Computadores

Instituto Superior de Engenharia de Lisboa Engenharia Informática e de Computadores Instituto Superior de Engenharia de Lisboa Engenharia Informática e de Computadores Teoria dos Sinais e dos Sistemas O procedimento de Gram-Schmidt: definição, exemplos e aplicações Artur Ferreira {arturj@isel.pt}

Leia mais

Técnicas de recuperação de informação: filtragem, agrupamento

Técnicas de recuperação de informação: filtragem, agrupamento Técnicas de recuperação de informação: filtragem, agrupamento 1 Nome usado para descrever uma variedade de processos envolvendo a entrega de informação para pessoas que precisam dela; Compreende um método

Leia mais

Recuperação de Informação

Recuperação de Informação Recuperação de Informação Avaliação de Desempenho de Sistemas de Recuperação de Informação Renato Fernandes Corrêa 1 Para que avaliar? Existem muitos modelos de RI, mas qual é o melhor? Qual a melhor escolha

Leia mais

O Teorema de Peano. f : D R n. uma função contínua. Vamos considerar o seguinte problema: Encontrar um intervalo I R e uma função ϕ : I R n tais que

O Teorema de Peano. f : D R n. uma função contínua. Vamos considerar o seguinte problema: Encontrar um intervalo I R e uma função ϕ : I R n tais que O Teorema de Peano Equações de primeira ordem Seja D um conjunto aberto de R R n, e seja f : D R n (t, x) f(t, x) uma função contínua. Vamos considerar o seguinte problema: Encontrar um intervalo I R e

Leia mais

Arquivos invertidos 39

Arquivos invertidos 39 Arquivos invertidos 39 Arquivos invertidos É um mecanismo que utiliza palavras para indexar uma coleção de documentos a fim de facilitar a busca e a recuperação Estruturas de um arquivo invertido Vocabulário

Leia mais

Lista de exercícios 2 Recuperação de Informação Textual

Lista de exercícios 2 Recuperação de Informação Textual Lista de exercícios 2 Recuperação de Informação Textual 2 de dezembro de 2015 0.1 O que é o modelo bag-of-words? Porque ele é uma simplificação? Dê um exemplo em que ele estaria incorreto. 0.2 O que é

Leia mais

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU Organizaçãoe Recuperaçãode Informação GSI521 Prof. Dr. Rodrigo Sanches Miani FACOM/UFU Realimentaçãode relevânciae expansão de consultas Organização e Recuperação de Informação(GSI521) Realimentação de

Leia mais

MCTB Álgebra Linear Avançada I Claudia Correa Exercícios sobre transformações lineares. Os Exercícios 3 e 4 são os exercícios bônus dessa lista.

MCTB Álgebra Linear Avançada I Claudia Correa Exercícios sobre transformações lineares. Os Exercícios 3 e 4 são os exercícios bônus dessa lista. MCTB002-13 Álgebra Linear Avançada I Claudia Correa Exercícios sobre transformações lineares Os Exercícios 3 e 4 são os exercícios bônus dessa lista. Definição 1. Dados conjuntos X e Y, uma função ϕ :

Leia mais

Medidas de Avaliação

Medidas de Avaliação Medidas de Avaliação Medidas de Avaliação Para a maioria dos sistemas computacionais é necessário criar medidas para aferir sua eficácia e eficiência; A medida mais comum é o tempo e o espaço. Quanto menor

Leia mais

4.1 Preliminares. No exemplo acima: Dom(R 1 ) = e Im(R 1 ) = Dom(R 2 ) = e Im(R 2 ) = Dom(R 3 ) = e Im(R 3 ) = Diagrama de Venn

4.1 Preliminares. No exemplo acima: Dom(R 1 ) = e Im(R 1 ) = Dom(R 2 ) = e Im(R 2 ) = Dom(R 3 ) = e Im(R 3 ) = Diagrama de Venn 4 Relações 4.1 Preliminares Definição 4.1. Sejam A e B conjuntos. Uma relação binária, R, de A em B é um subconjunto de A B. (R A B) Dizemos que a A está relacionado com b B sss (a, b) R. Notação: arb.

Leia mais

Algoritmos de Caminho Mínimo Parte 1

Algoritmos de Caminho Mínimo Parte 1 Algoritmos de Caminho Mínimo Parte 1 A journey of a thousand miles starts with a single step and if that step is the right step, it becomes the last step. Index 1. Introduction 2. Applications 3. Tree

Leia mais

EQUAÇÕES RELACIONAIS FUZZY E COMO RESOLVÊ-LAS

EQUAÇÕES RELACIONAIS FUZZY E COMO RESOLVÊ-LAS EQUAÇÕES RELACIONAIS FUZZY E COMO RESOLVÊ-LAS PEDRO ALADAR TONELLI 1. Introdução Nosso objetivo é apresentar de uma forma simples o procedimento para achar soluções de uma equação relacional fuzzy para

Leia mais

- FACOM. Memorial de Atividades de Ensino, Pesquisa, Extensão, Gestão Acadêmica e Produção Profissional

- FACOM. Memorial de Atividades de Ensino, Pesquisa, Extensão, Gestão Acadêmica e Produção Profissional - FACOM Memorial de Atividades de Ensino, Pesquisa, Extensão, Gestão Acadêmica e Produção Profissional Ilmério Reis da Silva ilmerio arroba ufu ponto br www.facom.ufu.br/~ilmerio/mmrl OBJETIVO Mostrar

Leia mais

Recuperação de Informações por Álgebra Linear Computacional

Recuperação de Informações por Álgebra Linear Computacional Recuperação de Informações por Álgebra Linear Computacional MAC499 - Projeto de Iniciação Científica Aluna: Ellen Hidemi Fukuda Orientador: Paulo José da Silva e Silva Departamento de Ciência da Computação

Leia mais

DESENVOLVIMENTO DE METODOLOGIA PARA AFERIÇÃO DA QUALIDADE DE UM SCANNER 3D

DESENVOLVIMENTO DE METODOLOGIA PARA AFERIÇÃO DA QUALIDADE DE UM SCANNER 3D DESENVOLVIMENTO DE METODOLOGIA PARA AFERIÇÃO DA QUALIDADE DE UM SCANNER 3D Valeria S. PEREIRA 1 ; Marcelo A. dos REIS 2 RESUMO Nesse trabalho, apresentamos os resultados parciais do projeto que visa o

Leia mais

Universidade Federal de Pernambuco

Universidade Federal de Pernambuco Universidade Federal de Pernambuco Graduação em Ciência da Computação Centro de Informática ESTUDO DE TÉCNICAS DE FILTRAGEM HÍBRIDA EM SISTEMAS DE RECOMENDAÇÃO DE PRODUTOS PROPOSTA DE TRABALHO DE GRADUAÇÃO

Leia mais

META-MODELO FUNCIONAL PARA RECUPERAÇÃO DE INFORMAÇÃO

META-MODELO FUNCIONAL PARA RECUPERAÇÃO DE INFORMAÇÃO Universidade Federal de Uberlândia Faculdade de Computação Programa de Pós-Graduação em Ciência da Computação META-MODELO FUNCIONAL PARA RECUPERAÇÃO DE INFORMAÇÃO BASEADO EM λ-cálculo Daniel Gonzaga dos

Leia mais

Fernando Hattori. Feedback de Relevância Orientado a Termos - Um Novo Método para Ordenação de Resultados de Motores de Busca

Fernando Hattori. Feedback de Relevância Orientado a Termos - Um Novo Método para Ordenação de Resultados de Motores de Busca Fernando Hattori Feedback de Relevância Orientado a Termos - Um Novo Método para Ordenação de Resultados de Motores de Busca São Paulo 2016 Fernando Hattori Feedback de Relevância Orientado a Termos -

Leia mais

Uma nova taxa de convergência para o Método do Gradiente

Uma nova taxa de convergência para o Método do Gradiente Proceeding Series of the Brazilian Society of Applied and Computational Mathematics, Vol. 2, N. 1, 2014. Trabalho apresentado no CMAC-Sul, Curitiba-PR, 2014. Uma nova taxa de convergência para o Método

Leia mais

Aspectos Computacionais do Desenvolvimento de uma Biblioteca para Desenho de Redes Bayesianas

Aspectos Computacionais do Desenvolvimento de uma Biblioteca para Desenho de Redes Bayesianas 19 a 21 de mar o de 2010 102 Aspectos Computacionais do Desenvolvimento de uma Biblioteca para Desenho de Redes Bayesianas Thales Lange 1, Raimundo C. G. Teive 1 1 Mestrado em Computação Aplicada Universidade

Leia mais

Avaliação de Desempenho de SRI

Avaliação de Desempenho de SRI Avaliação de Desempenho de SRI Desempenho espaço x tempo é usual em computação quão preciso é o conjunto resposta (ranking) é usual em SRI Avaliação baseada em coleção de referência = documentos + consultas

Leia mais

Preliminares. Profa. Sheila Morais de Almeida. agosto

Preliminares. Profa. Sheila Morais de Almeida. agosto Preliminares Profa. Sheila Morais de Almeida DAINF-UTFPR-PG agosto - 2016 Algoritmos Definição - Skiena Algoritmo é a ideia por trás dos programas de computador. É aquilo que permanece igual se o programa

Leia mais

25/04/2017. Modelo de Recuperação de Informação

25/04/2017. Modelo de Recuperação de Informação Modelo de Recuperação de Informação Modelo de Recuperação de Informação Um modelo de recuperação de informação é a especificação formal de três elementos: a representação dos documentos; a representação

Leia mais

6 Conclusões e Trabalhos Futuros

6 Conclusões e Trabalhos Futuros 6 Conclusões e Trabalhos Futuros O presente trabalho tem por objetivo analisar o modelo desenvolvido por Jon Kleinberg, o HITS, bem como os seus desdobramentos existentes na literatura e, ainda, desenvolver

Leia mais

MODELAGEM DE SISTEMAS. Introdução a Computação e Engenharia de Software. Profa. Cynthia Pinheiro

MODELAGEM DE SISTEMAS. Introdução a Computação e Engenharia de Software. Profa. Cynthia Pinheiro MODELAGEM DE SISTEMAS Introdução a Computação e Engenharia de Software Profa. Cynthia Pinheiro Introdução Modelagem de Sistemas: A modelagem de um sistema auxilia o analista a entender a funcionalidade

Leia mais

2 Núcleos: suas propriedades e classificações

2 Núcleos: suas propriedades e classificações 2 Núcleos: suas propriedades e classificações O objetivo desse capítulo é o de apresentar as funções núcleos (7), suas propriedades (10) e suas classificações (3). 2.1 Núcleos no espaço de Hilbert Um espaço

Leia mais

CF372 Mecânica Quântica I Os Postulados da Mecânica Quântica

CF372 Mecânica Quântica I Os Postulados da Mecânica Quântica CF372 Mecânica Quântica I Os Postulados da Mecânica Quântica 1 Introdução. Vamos apresentar nestas notas os postulados da mecânica quântica de acordo com o livro texto. Antes iremos fazer um paralelo entre

Leia mais

Teoria Elementar dos Conjuntos

Teoria Elementar dos Conjuntos Teoria Elementar dos Conjuntos Este capítulo visa oferecer uma breve revisão sobre teoria elementar dos conjuntos. Além de conceitos básicos importantes em matemática, a sua imprtância reside no fato da

Leia mais

Os Postulados da Mecânica Quântica

Os Postulados da Mecânica Quântica Márcio H. F. Bettega Departamento de Física Universidade Federal do Paraná bettega@fisica.ufpr.br Postulados Introdução Vamos apresentar nestas notas os postulados da mecânica quântica de acordo com o

Leia mais

Interpolação polinomial: Diferenças divididas de Newton

Interpolação polinomial: Diferenças divididas de Newton Interpolação polinomial: Diferenças divididas de Newton Marina Andretta ICMC-USP 9 de maio de 2013 Baseado no livro Análise Numérica, de R. L. Burden e J. D. Faires. Marina Andretta (ICMC-USP) sme0500

Leia mais

Aplicação de Sistemas de Partículas e Smoothed Particle Hydrodynamics na Simulação de Regiões Espaço-Tempo Afetadas por Singularidades

Aplicação de Sistemas de Partículas e Smoothed Particle Hydrodynamics na Simulação de Regiões Espaço-Tempo Afetadas por Singularidades Aplicação de Sistemas de Partículas e Smoothed Particle Hydrodynamics na Simulação de Regiões Espaço-Tempo Afetadas por Singularidades Autor: Douglas Farias Cordeiro, Orientadora: Celia A. Zorzo Barcelos

Leia mais

Fórmula de recorrência para a soma de séries infinitas

Fórmula de recorrência para a soma de séries infinitas This is a reprint of Lecturas Matemáticas Volumen 25 (2004), páginas 5 24 Fórmula de recorrência para a soma de séries infinitas João Luiz Martins & Adilson J.V. Brandão UUniversidade Federal de Ouro Preto,

Leia mais

Aprendizagem de Máquina

Aprendizagem de Máquina Aprendizagem de Máquina Alessandro L. Koerich Redes Bayesianas Mestrado/Doutorado em Informática Pontifícia Universidade Católica do Paraná (PUCPR) Mestrado/Doutorado em Informática Aprendizagem de Máquina

Leia mais

Algoritmo Array Rápido para Filtragem de Sistemas Lineares Sujeitos a Saltos Markovianos com Variação Estruturada dos Parâmetros no Tempo

Algoritmo Array Rápido para Filtragem de Sistemas Lineares Sujeitos a Saltos Markovianos com Variação Estruturada dos Parâmetros no Tempo Trabalho apresentado no XXXVII CNMAC, SJ dos Campos - SP, 2017 Proceeding Series of the Brazilian Society of Computational and Applied Mathematics Algoritmo Array Rápido para Filtragem de Sistemas Lineares

Leia mais

Fabrício Jailson Barth. Recuperação de documentos e pessoas em ambientes empresariais através de árvores de decisão

Fabrício Jailson Barth. Recuperação de documentos e pessoas em ambientes empresariais através de árvores de decisão Fabrício Jailson Barth Recuperação de documentos e pessoas em ambientes empresariais através de árvores de decisão São Paulo 2009 Fabrício Jailson Barth Recuperação de documentos e pessoas em ambientes

Leia mais

Recuperação de Informação em Bases de Texto

Recuperação de Informação em Bases de Texto Recuperação de Informação em Bases de Texto Mestrado em Engenharia Informática Universidade de Évora 2010/2011 Paulo Quaresma pq@di.uevora.pt http://www.moodle.uevora.pt 1 Objectivos Programa Avaliação

Leia mais

14.5 A Regra da Cadeia. Copyright Cengage Learning. Todos os direitos reservados.

14.5 A Regra da Cadeia. Copyright Cengage Learning. Todos os direitos reservados. 14.5 A Regra da Cadeia Copyright Cengage Learning. Todos os direitos reservados. A Regra da Cadeia Lembremo-nos de que a Regra da Cadeia para uma função de uma única variável nos dava uma regra para derivar

Leia mais

Universidade do Sul de Santa Catarina Ciência da Computação Aula 09 Introdução a Análise de Textos Prof. Max Pereira

Universidade do Sul de Santa Catarina Ciência da Computação Aula 09 Introdução a Análise de Textos Prof. Max Pereira Universidade do Sul de Santa Catarina Ciência da Computação Técnicasde InteligênciaArtificial Aula 09 Introdução a Análise de Textos Prof. Max Pereira Processamento de Linguagem Natural Conjunto de técnicas

Leia mais

Exercícios de matemática - revisão

Exercícios de matemática - revisão Exercícios de matemática - revisão Renato Assunção - DCC, UFMG 2015 Esta lista de exercícios visa a uma revisão de fatos básicos de matemática e probabilidade que serão necessários durante a disciplina.

Leia mais

Capítulo Coordenadas no Espaço. Seja E o espaço da Geometria Euclidiana tri-dimensional.

Capítulo Coordenadas no Espaço. Seja E o espaço da Geometria Euclidiana tri-dimensional. Capítulo 9 1. Coordenadas no Espaço Seja E o espaço da Geometria Euclidiana tri-dimensional. Um sistema de eixos ortogonais OXY Z em E consiste de três eixos ortogonais entre si OX, OY e OZ com a mesma

Leia mais

Álgebra Linear Semana 02

Álgebra Linear Semana 02 Álgebra Linear Semana 2 Diego Marcon 3 de Abril de 27 Conteúdo Vetores Representação matricial para sistemas Lineares 3 2 Combinações lineares de vetores 4 3 Sistemas lineares e combinações lineares das

Leia mais

Universidade Federal de Pernambuco

Universidade Federal de Pernambuco Universidade Federal de Pernambuco Graduação em Engenharia da Computação Centro de Informática Análise de Comportamento de Sistemas DASH com Teoria de Controle em Redes 3G Aluno: Daniel Bezerra { db@cin.ufpe.br

Leia mais

Matemática tica Discreta Módulo Extra (2)

Matemática tica Discreta Módulo Extra (2) Universidade Federal do Vale do São Francisco Curso de Engenharia da Computação Matemática tica Discreta Módulo Extra (2) Prof. Jorge Cavalcanti jorge.cavalcanti@univasf.edu.br - www.univasf.edu.br/~jorge.cavalcanti

Leia mais

Matemática Discreta Parte 11

Matemática Discreta Parte 11 Universidade Federal do Vale do São Francisco Curso de Engenharia da Computação Matemática Discreta Parte 11 Prof. Jorge Cavalcanti jorge.cavalcanti@univasf.edu.br - www.univasf.edu.br/~jorge.cavalcanti

Leia mais

MC102 Aula 26. Instituto de Computação Unicamp. 17 de Novembro de 2016

MC102 Aula 26. Instituto de Computação Unicamp. 17 de Novembro de 2016 MC102 Aula 26 Recursão Instituto de Computação Unicamp 17 de Novembro de 2016 Roteiro 1 Recursão Indução 2 Recursão 3 Fatorial 4 O que acontece na memória 5 Recursão Iteração 6 Soma em um Vetor 7 Números

Leia mais

Independência Regra de Bayes Redes Bayesianas

Independência Regra de Bayes Redes Bayesianas Independência Regra de Bayes Redes Bayesianas Inferência Probabilística Evidência observada: dor. Qual é a probabilidade de cárie dado que foi observado dor? P cárie dor = P(cárie dor) P(dor = 0,6 Independência

Leia mais

Seleção e Otimização de Fontes

Seleção e Otimização de Fontes Seleção e Otimização de Fontes 1. Introdução Muitos dados disponíveis Não há garantia de relevância Muitos acessos (custoso) O Autor propõe uma ideia para otimizar o processamento: A indexação e seleção

Leia mais

2, ao medirmos um observável deste estado que possui autovetores 0 e 1, obtemos o resultado 0 com probabilidade α 2, e 1 com probabilidade β 2.

2, ao medirmos um observável deste estado que possui autovetores 0 e 1, obtemos o resultado 0 com probabilidade α 2, e 1 com probabilidade β 2. 4 Informação Quântica A teoria da Informação Quântica foi basicamente desenvolvida na última década (3, 10, 16). Nosso objetivo neste capítulo é apresentar sua estrutura fundamental, o bit quântico, e

Leia mais

UFCG IQuanta DSC. Cheyenne R. G. Isidro Bernardo Lula Júnior

UFCG IQuanta DSC. Cheyenne R. G. Isidro Bernardo Lula Júnior Um Algoritmo para Transformar Autômatos Finitos Não- Determinísticos em Autômatos Finitos Quânticos Preservando o Número de Estados e a Linguagem Reconhecida Cheyenne R. G. Isidro cha@dsc.ufcg.edu.br Bernardo

Leia mais

4 Ambiente de Experimentação

4 Ambiente de Experimentação 4 Ambiente de Experimentação O ambiente de experimentação desenvolvido baseia-se em dois pontos principais, a saber: A implementação de uma ferramenta capaz de calcular as classificações das páginas da

Leia mais

Desenvolvimento de um Web Crawler para indexação de documentos científicos

Desenvolvimento de um Web Crawler para indexação de documentos científicos Desenvolvimento de um Web Crawler para indexação de documentos científicos Heitor de Sousa Miranda¹, Rafael Gonçalves Barreira², Edeilson Milhomem da Silva³ Curso de Sistemas de Informação - CEULP/ULBRA

Leia mais

Rede complexa probabilística baseada em similaridade na classificação de dados com ruídos

Rede complexa probabilística baseada em similaridade na classificação de dados com ruídos Rede complexa probabilística baseada em similaridade na classificação de dados com ruídos Robson C. da Motta, e Alneu de A. Lopes Instituto de Ciências Matemáticas e de Computação - ICMC Universidade de

Leia mais

5 Crawler Focado Definição

5 Crawler Focado Definição 5 Crawler Focado No presente capítulo são apresentadas e detalhadas as técnicas e heurísticas envolvidas no processo de coleta específica de dados baseado em crawler focado. A pesquisa sobre este assunto

Leia mais

Análise do Algoritmo Amostragem de Gibbs para Cálculo das Probabilidades Marginais em Redes Bayesianas

Análise do Algoritmo Amostragem de Gibbs para Cálculo das Probabilidades Marginais em Redes Bayesianas 19 a 21 de mar o de 2010 097 Análise do Algoritmo Amostragem de Gibbs para Cálculo das Probabilidades Marginais em Redes Bayesianas Thales Lange 1, Raimundo C. G. Teive 1 1 Mestrado em Computação Aplicada

Leia mais

Análise de Correspondência em acessos de pimenta

Análise de Correspondência em acessos de pimenta Análise de Correspondência em acessos de pimenta Bruno Caetano Vidigal 1 Paulo Roberto Cecon 2. 1 Introdução A Análise de Correspondência (AC) é uma das diversas técnicas de análise multivariada desenvolvida

Leia mais

Interpolação polinomial: Polinômio de Lagrange

Interpolação polinomial: Polinômio de Lagrange Interpolação polinomial: Polinômio de Lagrange Marina Andretta ICMC-USP 09 de maio de 2012 Baseado no livro Análise Numérica, de R. L. Burden e J. D. Faires. Marina Andretta (ICMC-USP) sme0500 - cálculo

Leia mais

Álgebra Linear Teoria de Matrizes

Álgebra Linear Teoria de Matrizes Álgebra Linear Teoria de Matrizes 1. Sistemas Lineares 1.1. Coordenadas em espaços lineares: independência linear, base, dimensão, singularidade, combinação linear 1.2. Espaço imagem (colunas) - Espaço

Leia mais

Aprendizagem de Máquina

Aprendizagem de Máquina Aprendizagem de Máquina Modelos gráficos probabilísticos Redes bayesianas Modelos gráficos probabilísticos Os modelos gráficos probabilísticos utilizam representações diagramáticas das distribuições de

Leia mais

Identificação de Pontos Perceptualmente Importantes (PIP) em séries temporais de tópicos extraídos de dados textuais

Identificação de Pontos Perceptualmente Importantes (PIP) em séries temporais de tópicos extraídos de dados textuais Universidade de São Paulo Biblioteca Digital da Produção Intelectual - BDPI Departamento de Ciências de Computação - ICMC/SCC Comunicações em Eventos - ICMC/SCC 2015 Identificação de Pontos Perceptualmente

Leia mais

UNIVERSIDADE FEDERAL DO CEARÁ CENTRO DE TECNOLOGIA PROGRAMA DE EDUCAÇÃO TUTORIAL APOSTILA DE CÁLCULO. Realização:

UNIVERSIDADE FEDERAL DO CEARÁ CENTRO DE TECNOLOGIA PROGRAMA DE EDUCAÇÃO TUTORIAL APOSTILA DE CÁLCULO. Realização: UNIVERSIDADE FEDERAL DO CEARÁ CENTRO DE TECNOLOGIA PROGRAMA DE EDUCAÇÃO TUTORIAL APOSTILA DE CÁLCULO Realização: Fortaleza, Fevereiro/2010 1. LIMITES 1.1. Definição Geral Se os valores de f(x) puderem

Leia mais