Modelo Espaço Vetorial. Mariella Berger

Tamanho: px
Começar a partir da página:

Download "Modelo Espaço Vetorial. Mariella Berger"

Transcrição

1 Modelo Espaço Vetorial Mariella Berger

2 Agenda Introdução Atribuição de Pesos Frequência TF-IDF Similaridade Exemplo Vantagens e Desvantagens

3 Modelo Espaço Vetorial Introdução

4 Modelo Espaço Vetorial O modelo espaço-vetorial foi desenvolvido por Gerard Salton.

5 Modelo Espaço Vetorial Documentos e queries são representados por um vetor com n dimensões, onde n é o numero de termos diferentes na coleção de documentos. Achar documentos é comparar o vetor de documentos com o vetor query do usuário

6 Modelo Espaço Vetorial termos doc1 doc2 doc3 query good w tutorial on w 12 w 13 w java sun w 14 0 w 24 0 w 34 w 35 w 4 0 site 0 0 w indica a ausência de um termo w it : Peso que indica a importância do termo

7 Modelo Espaço Vetorial Atribuição de Pesos

8 Atribuição de Peso Os pesos são usados para computar a similaridade O peso de um termo em um documento pode ser calculado de diversas formas: Frequência no documento Balancear características em comum (intradocumentos) e características para fazer a distinção entre documentos (interdocumentos) Salton e Buckey

9 Atribuição de Pesos Frequência

10 Exemplo Documento A A dog and a cat. a 2 dog 1 Documento B A frog. and 1 cat 1 a 1 frog 1

11 Exemplo O vocabulário contém todas as palavras utilizadas a, dog, and, cat, frog O vocabulário necessita ser ordenado a, and, cat, dog, frog

12 Exemplo Documento A: A dog and a cat. a and cat dog 2 1 Vetor: (2,1,1,1,0) Documento B: A frog. Vetor: (1,0,0,0,1) a 1 and 0 1 cat 0 1 dog 0 frog 0 frog 1

13 Exemplo: Queries Queries também podem ser representadas como vetores: Dog = (0,0,0,1,0) Frog = (0,0,0,0,1) Dog and frog = (0,1,0,1,1)

14 Atribuição de Pesos Balanceamento de características (tf-idf)

15 TF-IDF Onde: tf i (frequência do termo) = o número de vezes que o termo i ocorre no documento (reflete a informação local) df i (frequência do documento) = o número de documentos que contém o termo i. D = número total de documentos

16 TF-IDF A fração df i /D é a probabilidade de selecionar um documento que contém o termo i. log(d/df i ) é o Inverse Document Frequency (IDF i ), e reflete a informação global Se o termo aparece pouco nos documentos, então este é mais relevante.

17 Exemplo

18 Uma outra definição TF = freq(k,s) (frequência do termo k no documento/consulta S) IDF = log (N/n k ) (Inverse Document Frequency), onde: N: é o número de termos na coleção N k : é o número de vezes que o termo ocorre na coleção

19 Modelo Espaço Vetorial Similaridades

20 Similaridade Cada elemento do vetor de termos é considerado uma coordenada dimensional. Assim, os documentos podem ser colocados em um espaço euclidiano de n dimensões (onde n é o número de termos) e a posição do documento em cada dimensão é dada pelo seu peso (figura no próximo slide).

21 Similaridade

22 Similaridade Cada dimensão corresponde a um termo, e o valor do documento em cada dimensão varia entre 0 (irrelevante ou não presente) e 1 (totalmente relevante).

23 Similaridade

24 Similaridade As distâncias entre um documento e outro indicam seu grau de similaridade ou seja, documentos que possuem os mesmos termos acabam sendo colocados em uma mesma região do espaço e, em teoria, tratam de assuntos similares.

25 Similaridade - Consulta Os vetores dos documentos podem ser comparados com o vetor da consulta e o grau de similaridade entre cada um deles pode ser identificado. Os documentos mais similares (mais próximos no espaço) à consulta são considerados relevantes para o usuário e retornados como resposta

26 Similaridade - Consulta Uma das formas de calcular a proximidade entre os vetores é testar o ângulo entre estes vetores. No modelo original, é utilizada uma função batizada de cosine vector similarity

27 Coseno entre vetores Para 2 vetores d e d, a similaridade é calculada pelo coseno, ou seja: d d d ' d'

28 Similaridade Depois dos graus de similaridade terem sido calculados, é possível montar uma lista ordenada (ranking) de todos os documentos e seus respectivos graus de relevância à consulta, da maior para a menor relevância.

29 Exemplo Brasil 0.3 Olimpíadas 0.5 Sidney 0.2 d i Sidney d j 0.2 d i Brasil 0.2 Olimpíadas 0.4 Sidney 0.4 d j Brasil Olimpíadas d i = 0.3 Brasil Olimpiadas Sidney d j = 0.2 Brasil Olimpiadas Sidney

30 Exemplo Similaridade: produto interno / produto das normas d i d j Sim= d i d j = = ( ) ½ ( ) ½

31 Modelo Vetorial Exemplos

32 Exemplo 1 Query: "gold silver truck" A coleção possui 3 documentos (D = 3) D1: "Shipment of gold damaged in a fire" D2: "Delivery of silver arrived in a silver truck" D3: "Shipment of gold arrived in a truck"

33

34 Análise da similaridade

35 Análise da similaridade

36 Análise da similaridade

37 Análise da similaridade Resultado obtido: Rank 1: Doc 2 = Rank 2: Doc 3 = Rank 3: Doc 1 =

38 Modelo Vetorial Vantagens e Desvantagens

39 Vantagens Oferecer um framework simples e elegante Atribuir pesos aos termos melhora o desempenho É uma estratégia de encontro parcial (função de similaridade), que é melhor que a exatidão do modelo booleano; Os documentos são ordenados de acordo com seu grau de similaridade com a consulta. Em geral, seu desempenho (precisão e recall) supera todos os outros modelos

40 Desvantagens Ausência de ortogonalidade entre os termos. Isso poderia encontrar relações entre termos que aparentemente não têm nada em comum; É um modelo generalizado; Um documento relevante pode não conter termos da consulta; Documentos muito longos podem dificultar na medida da similaridade;

41 Idéias para melhorá-lo Apontar um conjunto de palavras-chaves nos documentos Eliminar palavras muito comuns (como exemplo artigos) Limitar o vetor espaço em substantivos e poucos verbos ou adjetivos Criar subvetores para documentos muito grandes

Recuperação de Informação

Recuperação de Informação Recuperação de Informação Estrutura de Dados II Mariella Berger 1 Roteiro Tarefas de Recuperação de Informação Modelos de Recuperação de Documentos Modelo Booleano Modelo Espaço Vetorial Recuperação de

Leia mais

Lista de exercícios 2 Recuperação de Informação Textual

Lista de exercícios 2 Recuperação de Informação Textual Lista de exercícios 2 Recuperação de Informação Textual 2 de dezembro de 2015 0.1 O que é o modelo bag-of-words? Porque ele é uma simplificação? Dê um exemplo em que ele estaria incorreto. 0.2 O que é

Leia mais

Profª Ana Lúcia Lima Marreiros Maia Profª Fabiana Cristina Bertoni

Profª Ana Lúcia Lima Marreiros Maia Profª Fabiana Cristina Bertoni Profª Ana Lúcia Lima Marreiros Maia Profª Fabiana Cristina Bertoni Motivação e Objetivos Etapas do Desenvolvimento de um Sistema de Recuperação de Informações (SRI): Pré-processamento; Representação; Extração

Leia mais

Melhorando a Recuperação de Informação

Melhorando a Recuperação de Informação Recuperação de Informação e Web Mining 1 Melhorando a Recuperação de Informação O modelo de espaço vetorial Utiliza pesos para termos Permite o ranqueamento dos resultados Pode reduzir a dimensão do espaço

Leia mais

Máquinas de Busca. Estruturas de Dados II Prof. a Mariella Berger. 1. Objetivo

Máquinas de Busca. Estruturas de Dados II Prof. a Mariella Berger. 1. Objetivo Estruturas de Dados II Prof. a Mariella Berger Máquinas de Busca 1. Objetivo O objetivo deste trabalho é implementar máquinas de buscas baseadas em diferentes modelos clássicos de recuperação de informação.

Leia mais

Mineração de Textos. Mineração de Textos

Mineração de Textos. Mineração de Textos Mineração de Textos Os estudos em Aprendizado de Máquina normalmente trabalham com dados estruturados Entretanto, uma grande quantidade de informação é armazenada em textos, que são dados semi-estruturados

Leia mais

News Clipping. Como calcular ângulos entre notícias pode ajudar na prevenção à lavagem de dinheiro. Willian Gigliotti

News Clipping. Como calcular ângulos entre notícias pode ajudar na prevenção à lavagem de dinheiro. Willian Gigliotti News Clipping Como calcular ângulos entre notícias pode ajudar na prevenção à lavagem de dinheiro Willian Gigliotti wgigliotti@gmail.com Departamento de Ciências da Computação Instituto de Matemática e

Leia mais

GSI024 - Organização e Recuperação da

GSI024 - Organização e Recuperação da GSI024 - Organização e Recuperação da Informação Ilmério Reis da Silva ilmerio@facom.ufu.br UFU/FACOM/BSI Arquivo 6 - Modelo Vetorial GSI024-ORI Pg:6. 1 Ranking baseado no modelo vetorial Considerações

Leia mais

Recuperação de Informações

Recuperação de Informações Recuperação de Informações Ana Carolina Salgado & Fernando Fonseca Comparação (matching) Dados Inferência Modelo Ling Consulta Esp da Consulta Recuperação de Dado X Informação Recuperação de Recuperação

Leia mais

Recuperação de Dado X Informação. Gerenciamento de Dados e Informação. Histórico. Recuperação de Informação. Histórico. Histórico

Recuperação de Dado X Informação. Gerenciamento de Dados e Informação. Histórico. Recuperação de Informação. Histórico. Histórico Recuperação de Dado X Informação Gerenciamento de Dados e Informação Recuperação de Informação Fernando Fonseca Ana Carolina Robson Fidalgo Comparação (matching) Recuperação de Dados Exata Recuperação

Leia mais

Realimentação de Relevância

Realimentação de Relevância Wendel Melo Faculdade de Computação Universidade Federal de Uberlândia Recuperação da Informação Ciclo de realimentação onde uma consulta q recebida do usuário é transformada em uma consulta modificada

Leia mais

3 Recuperação de Informações Textuais

3 Recuperação de Informações Textuais 3 Recuperação de Informações Textuais Tudo deveria se tornar o mais simples possível, mas não simplificado. Albert Einstein Sistemas tradicionais de indexação costumam utilizar-se de termos-índice, que

Leia mais

Universidade do Sul de Santa Catarina Ciência da Computação Aula 09 Introdução a Análise de Textos Prof. Max Pereira

Universidade do Sul de Santa Catarina Ciência da Computação Aula 09 Introdução a Análise de Textos Prof. Max Pereira Universidade do Sul de Santa Catarina Ciência da Computação Técnicasde InteligênciaArtificial Aula 09 Introdução a Análise de Textos Prof. Max Pereira Processamento de Linguagem Natural Conjunto de técnicas

Leia mais

4 Recuperação de Informação

4 Recuperação de Informação 4 Recuperação de Informação No presente capítulo são apresentados os fundamentos da área de Recuperação de Informação utilizados em Mineração de Textos, como por exemplo, os modelos de representação de

Leia mais

GSI024 - Organização e Recuperação da

GSI024 - Organização e Recuperação da GSI024 - Organização e Recuperação da Informação Ilmério Reis da Silva ilmerio@facom.ufu.br UFU/FACOM/BSI Arquivo 5 - Peso de termos GSI024-ORI Pg:5. 1 Busca paramétrica usando atributos Regiões em documentos

Leia mais

O modelo espaço de vetores. vetorial. Marcelo Keese Albertini. Faculdade de Computação - UFU 12/03/2013. O modelo de espaço vetorial 1 / 27

O modelo espaço de vetores. vetorial. Marcelo Keese Albertini. Faculdade de Computação - UFU 12/03/2013. O modelo de espaço vetorial 1 / 27 Recuperação de Informação: O modelo de espaço vetorial Marcelo Keese Albertini Faculdade de Computação - UFU 12/03/2013 O modelo de espaço vetorial 1 / 27 Veremos hoje Modelo de espaço de vetores: representação

Leia mais

O modelo espaço de vetores. vetorial. Marcelo Keese Albertini. Faculdade de Computação - UFU. O modelo de espaço vetorial 1 / 25

O modelo espaço de vetores. vetorial. Marcelo Keese Albertini. Faculdade de Computação - UFU. O modelo de espaço vetorial 1 / 25 Recuperação de Informação: O modelo de espaço vetorial Marcelo Keese Albertini Faculdade de Computação - UFU O modelo de espaço vetorial 1 / 25 Veremos hoje Modelo de espaço de vetores: representação vetorial

Leia mais

Modelo Probabilístico

Modelo Probabilístico Wendel Melo Faculdade de Computação Universidade Federal de Uberlândia Recuperação da Informação Adaptado do Material da Profª Vanessa Braganholo - IC/UFF Proposto em 1976 por Roberstson e Sparck Jones;

Leia mais

03/07/2017. Modelo de Recuperação de Informação

03/07/2017. Modelo de Recuperação de Informação Modelo de Recuperação de Informação Modelo de Recuperação de Informação Um modelo de recuperação de informação é a especificação formal de três elementos: a representação dos documentos; a representação

Leia mais

Arquivos invertidos 39

Arquivos invertidos 39 Arquivos invertidos 39 Arquivos invertidos É um mecanismo que utiliza palavras para indexar uma coleção de documentos a fim de facilitar a busca e a recuperação Estruturas de um arquivo invertido Vocabulário

Leia mais

MINERAÇÃO DE DADOS. Thiago Marzagão MINERAÇÃO DE TEXTOS. marzagao.1@osu.edu. Thiago Marzagão (UnB) MINERAÇÃO DE DADOS 1/2016 1 / 25

MINERAÇÃO DE DADOS. Thiago Marzagão MINERAÇÃO DE TEXTOS. marzagao.1@osu.edu. Thiago Marzagão (UnB) MINERAÇÃO DE DADOS 1/2016 1 / 25 MINERAÇÃO DE DADOS Thiago Marzagão marzagao.1@osu.edu MINERAÇÃO DE TEXTOS Thiago Marzagão (UnB) MINERAÇÃO DE DADOS 1/2016 1 / 25 transformando textos em dados Documento 1: "Não trabalho para ter clientes;

Leia mais

textos documentos semi-estruturado

textos documentos semi-estruturado 1 Mineração de Textos Os estudos em Aprendizado de Máquina normalmente trabalham com dados estruturados Entretanto, uma grande quantidade de informação é armazenada em textos, que são dados semiestruturados

Leia mais

SISTEMA PARA RECUPERAÇÃO DE INFORMAÇÃO DE DOWNLOADS DE SOFTWARES

SISTEMA PARA RECUPERAÇÃO DE INFORMAÇÃO DE DOWNLOADS DE SOFTWARES SISTEMA PARA RECUPERAÇÃO DE INFORMAÇÃO DE DOWNLOADS DE SOFTWARES Elzo Soares Pereira Filho, Matheus Rossi de Oliveira Costa, Vinícius Lobo Silva, Luciene Chagas de Oliveira, UNIUBE Universidade de Uberaba

Leia mais

25/04/2017. Modelo de Recuperação de Informação

25/04/2017. Modelo de Recuperação de Informação Modelo de Recuperação de Informação Modelo de Recuperação de Informação Um modelo de recuperação de informação é a especificação formal de três elementos: a representação dos documentos; a representação

Leia mais

Ponderação de termos

Ponderação de termos Ponderação de termos Wendel Melo Faculdade de Computação Universidade Federal de Uberlândia Recuperação da Informação Adaptado do Material da Profª Vanessa Braganholo - IC/UFF Parte da ideia de que, dentro

Leia mais

Disciplina: Álgebra Linear e Geometria Analítica

Disciplina: Álgebra Linear e Geometria Analítica Disciplina: Álgebra Linear e Geometria Analítica Vigência: a partir de 2002/1 Período letivo: 1 semestre Carga horária Total: 60 h Código: S7221 Ementa: Geometria Analítica: O Ponto, Vetores, A Reta, O

Leia mais

Consultas por Similaridade em Domínios de Dados Complexos

Consultas por Similaridade em Domínios de Dados Complexos Consultas por Similaridade em Domínios de Dados Complexos Guilherme Felipe Zabot Orientador: Profº Dr Caetano Traina Jr Roteiro Objetivo Introdução Dados Complexos Representação de Dados Complexos Extração

Leia mais

Integrando recuperação de informação em banco de dados com Hibernate Search

Integrando recuperação de informação em banco de dados com Hibernate Search Integrando recuperação de informação em banco de dados com Hibernate Search Alunos Gustavo Kendi Tsuji Leonardo Tadashi Kamaura Orientador João Eduardo Ferreira Introdução Introdução Introdução Média de

Leia mais

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU Organizaçãoe Recuperaçãode Informação GSI521 Prof. Dr. Rodrigo Sanches Miani FACOM/UFU Modelosde RI e o ModeloBooleano Organização e Recuperação de Informação(GSI521) Tópicos Modelagem em RI; Caracterização

Leia mais

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU Organizaçãoe Recuperaçãode Informação GSI521 Prof. Dr. Rodrigo Sanches Miani FACOM/UFU Realimentaçãode relevânciae expansão de consultas Organização e Recuperação de Informação(GSI521) Realimentação de

Leia mais

Segundo trabalho de Organização e Recuperação da Informação

Segundo trabalho de Organização e Recuperação da Informação FACOM- UFU Professor: Wendel Melo Segundo trabalho de Organização e Recuperação da Informação 2018-02 Descrição Este trabalho consiste em duas etapas: 1. Implementação de cálculo da ponderação TF-IDF,

Leia mais

Outline. 2 Abordagem probabiĺıstica para ORI. 3 Teoria de probabilidades. 4 Princípio de ranking probabiĺıstico

Outline. 2 Abordagem probabiĺıstica para ORI. 3 Teoria de probabilidades. 4 Princípio de ranking probabiĺıstico Outline 1 Recapitulação 2 Abordagem probabiĺıstica para ORI 3 Teoria de probabilidades 4 Princípio de ranking probabiĺıstico 5 Apreciação&Extensões Modelo probabiĺıstico 1 / 47 Retorno de relevância: ideia

Leia mais

CIC 111 Análise e Projeto de Algoritmos II

CIC 111 Análise e Projeto de Algoritmos II CIC 111 Análise e Projeto de Algoritmos II Prof. Roberto Affonso da Costa Junior Universidade Federal de Itajubá AULA 29 Geometry Complex numbers Points and lines Polygon area Distance functions Geometry

Leia mais

Algoritmos e Estruturas de Dados II. Trabalho Prático 4

Algoritmos e Estruturas de Dados II. Trabalho Prático 4 Algoritmos e Estruturas de Dados II Trabalho Prático 4 Entrega: 23/11/09 Devolução: 10/12/09 (sem possibilidade de entrega com atraso) Trabalho em dupla Prof. Jussara Marques de Almeida Problema 1: Construção

Leia mais

Capítulo 4. Comitê BAS 35

Capítulo 4. Comitê BAS 35 4 Comitê BAS Devido à flexibilidade do algoritmo BAS, que aceita qualquer distribuição inicial para os exemplos, diversas heurísticas podem ser implementadas com o objetivo de criar classificadores de

Leia mais

Visualização de Texto e Documento

Visualização de Texto e Documento Visualização de Texto e Documento SCC5836 Visualização Computacional Prof. Fernando V. Paulovich http://www.icmc.usp.br/~paulovic paulovic@icmc.usp.br Instituto de Ciências Matemáticas e de Computação

Leia mais

ORI: Pontuação e o modelo de espaço vetorial

ORI: Pontuação e o modelo de espaço vetorial 1/1 ORI: Pontuação e o modelo de espaço vetorial Marcelo Keese Albertini Faculdade de Computação Universidade Federal de Uberlândia Índice 2/1 3/1 Veremos hoje Ordenando resultados de busca: importância

Leia mais

Term weighting: outras ideias

Term weighting: outras ideias Term weighting: outras ideias Term Weighting i Diversas são as abordagens. Vamos discutir algumas ideias mais simples, porém conhecidas. i Abordagens 4 Pesos binários (já vimos) 4 Frequência (já vimos)

Leia mais

Experiências em Armazenamento e Recuperação de Informação

Experiências em Armazenamento e Recuperação de Informação Experiências em Armazenamento e Recuperação de Informação Ana Sofia Queimado ci05006 Filipa Ramalho ci05020 Jennifer Gonçalves ci05032 Faculdade de Engenharia da Universidade do Porto Licenciatura em Ciência

Leia mais

Um estudo sobre diferentes modelos de Recuperação de Informação em documentos semi-estruturados (XML) -

Um estudo sobre diferentes modelos de Recuperação de Informação em documentos semi-estruturados (XML) - Um estudo sobre diferentes modelos de Recuperação de Informação em documentos semi-estruturados (XML) - Implementação, Análise, Avaliação e Comparação Autor: Mirella Silva Junqueira 1, Orientador: Prof.

Leia mais

1 Espaços Vectoriais

1 Espaços Vectoriais Nova School of Business and Economics Apontamentos Álgebra Linear 1 Definição Espaço Vectorial Conjunto de elementos que verifica as seguintes propriedades: Existência de elementos: Contém pelo menos um

Leia mais

Keyword Search over RDF Graphs. Lucas Peres Gaspar

Keyword Search over RDF Graphs. Lucas Peres Gaspar Keyword Search over RDF Graphs Lucas Peres Gaspar 1 Olá! Petiano emérito no PET Computação UFC; Bolsista no Arida; Graduando em Ciência da Computação; 2 Fonte http://www.dc.fi.udc.es/~roi/publications/cikm2011c.pdf

Leia mais

DATA MINING & MACHINE LEARNING (I) Thiago Marzagão

DATA MINING & MACHINE LEARNING (I) Thiago Marzagão DATA MINING & MACHINE LEARNING (I) Thiago Marzagão transformando textos em dados Documento 1: Não trabalho para ter clientes; tenho clientes para poder trabalhar. Documento 2: Não se pode forçar a inteligência

Leia mais

GIRS - GENETIC INFORMATION RETRIEVAL SYSTEM - UMA PROPOSTA EVOLUTIVA PARA SISTEMAS DE RECUPERAÇÃO DE INFORMAÇÕES

GIRS - GENETIC INFORMATION RETRIEVAL SYSTEM - UMA PROPOSTA EVOLUTIVA PARA SISTEMAS DE RECUPERAÇÃO DE INFORMAÇÕES GIRS - GENETIC INFORMATION RETRIEVAL SYSTEM - UMA PROPOSTA EVOLUTIVA PARA SISTEMAS DE RECUPERAÇÃO DE INFORMAÇÕES - (-) - A recuperação de informação é uma subárea da ciência da computação que estuda o

Leia mais

Recuperação de Informação

Recuperação de Informação Recuperação de Informação Avaliação de Desempenho de Sistemas de Recuperação de Informação Renato Fernandes Corrêa 1 Para que avaliar? Existem muitos modelos de RI, mas qual é o melhor? Qual a melhor escolha

Leia mais

Seleção e geração de características utilizando regras de associação para o problema de ordenação de resultados de máquinas de buscas

Seleção e geração de características utilizando regras de associação para o problema de ordenação de resultados de máquinas de buscas UNIVERSIDADE FEDERAL DE GOIÁS INSTITUTO DE INFORMÁTICA CARINA CALIXTO RIBEIRO DE ARAUJO Seleção e geração de características utilizando regras de associação para o problema de ordenação de resultados de

Leia mais

Agrupamento de dados. Critério 1: grupos são concentrações de dados k-means Critério 2: grupos são conjuntos de elementos próximos entre si espectral

Agrupamento de dados. Critério 1: grupos são concentrações de dados k-means Critério 2: grupos são conjuntos de elementos próximos entre si espectral Agrupamento de dados Critério 1: grupos são concentrações de dados k-means Critério 2: grupos são conjuntos de elementos próximos entre si espectral Dados e grafos Se temos dados x i, i 0... n, criamos

Leia mais

Gestão e Recuperação de Informação. Avaliação em Sistemas de Recuperação de Informação. José Borbinha DEI/IST

Gestão e Recuperação de Informação. Avaliação em Sistemas de Recuperação de Informação. José Borbinha DEI/IST Gestão e Recuperação de Informação Avaliação em Sistemas de Recuperação de Informação José Borbinha DEI/IST Problema: Como avaliar um sistema de RI? 2 Comecemos, analisando um exemplo... 3 Exemplo... 4

Leia mais

Indexação e Modelos Clássicos

Indexação e Modelos Clássicos Wendel Melo Faculdade de Computação Universidade Federal de Uberlândia Recuperação da Informação Adaptado do Material da Profª Vanessa Braganholo - IC/UFF Construção de um Sistema de Busca 1ª Etapa: Definir

Leia mais

Otimização de Recuperação de Informação usando Algoritmos Genéticos

Otimização de Recuperação de Informação usando Algoritmos Genéticos Otimização de Recuperação de Informação usando Algoritmos Genéticos Neide de Oliveira Gomes, M. Sc., nog@inpi.gov.br Prof. Marco Aurélio C. Pacheco, PhD Programa de Doutorado na área de Métodos de Apoio

Leia mais

GA - Retas no espaço euclidiano tridimensional

GA - Retas no espaço euclidiano tridimensional 1 GA - Retas no espaço euclidiano tridimensional Prof. Fernando Carneiro, IME-UERJ Rio de Janeiro, Março de 014 Conteúdo 1 O que é reta Equação paramétrica de uma reta.1 Exemplos...........................

Leia mais

Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação

Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação Francisco A. Rodrigues Departamento de Matemática Aplicada e Estatística - SME Conceitos básicos Classificação não-supervisionada:

Leia mais

FUNDAMENTOS DE SISTEMAS LINEARES PARTE 1

FUNDAMENTOS DE SISTEMAS LINEARES PARTE 1 FUNDAMENTOS DE SISTEMAS LINEARES PARTE 1 Prof. Iury V. de Bessa Departamento de Eletricidade Faculdade de Tecnologia Universidade Federal do Amazonas Revisão O que é um corpo (campo)? O que é um espaço

Leia mais

Aprendizado de Supervisionado

Aprendizado de Supervisionado Aprendizado de Supervisionado Fabrício Olivetti de França Universidade Federal do ABC Tópicos 1. Padronizando e Normalizando os Atributos 2. Tipos de Atributos 3. Representação Textual 1 Padronizando e

Leia mais

Modelo Booleano Wendel Melo

Modelo Booleano Wendel Melo Wendel Melo Faculdade de Computação Universidade Federal de Uberlândia Recuperação da Informação Adaptado do Material da Profª Vanessa Braganholo - IC/UFF Modelo simples; Baseado em teoria dos conjuntos

Leia mais

Dados Internacionais de Catalogação na Publicação (CIP)

Dados Internacionais de Catalogação na Publicação (CIP) Pontifícia Universidade Católica do Rio Grande do Sul Faculdade de Informática Programa de Pós-Graduação em Ciência da Computação Expansão de Consultas com Realimentação e Pseudo Realimentação de Relevantes

Leia mais

DEPARTAMENTO DE ESTATÍSTICA PLANO DE ENSINO FICHA N.º 1

DEPARTAMENTO DE ESTATÍSTICA PLANO DE ENSINO FICHA N.º 1 DEPARTAMENTO DE ESTATÍSTICA PLANO DE ENSINO FICHA N.º 1 Departamento de Estatística Setor de Ciências Exatas Disciplina: Elementos Básicos para Estatística Código: CE065 Natureza: Semestral Carga Horária:

Leia mais

Aplicação de uma Técnica Tradicional de Expansão de Consulta ao Modelo TR+

Aplicação de uma Técnica Tradicional de Expansão de Consulta ao Modelo TR+ Pontifícia Universidade Católica do Rio Grande do Sul Faculdade de Informática Programa de Pós-Graduação em Ciência da Computação Aplicação de uma Técnica Tradicional de Expansão de Consulta ao Modelo

Leia mais

Rickson Guidolini Orientador: Nivio Ziviani Co-orientador: Adriano Veloso

Rickson Guidolini Orientador: Nivio Ziviani Co-orientador: Adriano Veloso Detecção de Réplicas de Sítios Web em Máquinas de Busca Usando Aprendizado de Máquina Rickson Guidolini Orientador: Nivio Ziviani Co-orientador: Adriano Veloso Universidade Federal de Minas Gerais LATIN

Leia mais

Álgebra Linear I - Aula 8. Roteiro

Álgebra Linear I - Aula 8. Roteiro Álgebra Linear I - Aula 8 1. Distância de um ponto a uma reta. 2. Distância de um ponto a um plano. 3. Distância entre uma reta e um plano. 4. Distância entre dois planos. 5. Distância entre duas retas.

Leia mais

INSTITUTO DE COMPUTAÇÃO. Um Método para Busca de Competências a. Partir de currículos Lattes

INSTITUTO DE COMPUTAÇÃO. Um Método para Busca de Competências a. Partir de currículos Lattes UNIVERSIDADE FEDERAL DO AMAZONAS INSTITUTO DE COMPUTAÇÃO PROGRAMA DE PÓS-GRADUAÇÃO EM INFORMÁTICA Um Método para Busca de Competências a Partir de currículos Lattes AURÉLIO ANDRADE DE MENEZES JÚNIOR Manaus

Leia mais

Classificação: Árvores de Decisão e k-nn. Eduardo Raul Hruschka

Classificação: Árvores de Decisão e k-nn. Eduardo Raul Hruschka Classificação: Árvores de Decisão e k-nn Eduardo Raul Hruschka Agenda: Conceitos de Classificação Técnicas de Classificação One Rule (1R) Naive Bayes (com seleção de atributos) Árvores de Decisão K-Vizinhos

Leia mais

UMA ARQUITETURA PARA UTILIZAÇÃO DE ONTOLOGIAS EM SISTEMAS DE RECUPERAÇÃO DE INFORMAÇÃO

UMA ARQUITETURA PARA UTILIZAÇÃO DE ONTOLOGIAS EM SISTEMAS DE RECUPERAÇÃO DE INFORMAÇÃO UNIVERSIDADE FEDERAL DE SANTA CATARINA PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA DE PRODUÇÃO UMA ARQUITETURA PARA UTILIZAÇÃO DE ONTOLOGIAS EM SISTEMAS DE RECUPERAÇÃO DE INFORMAÇÃO Marlon Candido Guérios

Leia mais

ÁLGEBRA LINEAR AULA 9 ESPAÇOS VETORIAIS EUCLIDIANOS

ÁLGEBRA LINEAR AULA 9 ESPAÇOS VETORIAIS EUCLIDIANOS ÁLGEBRA LINEAR AULA 9 ESPAÇOS VETORIAIS EUCLIDIANOS Luís Felipe Kiesow de Macedo Universidade Federal de Pelotas - UFPel 1 / 11 1 Produto Interno 2 Módulo de um Vetor 3 Ângulo Entre Dois Vetores - Vetores

Leia mais

MCZA Processamento de Linguagem Natural Semântica e similaridade de palavras: Parte I

MCZA Processamento de Linguagem Natural Semântica e similaridade de palavras: Parte I MCZA017-13 Processamento de Linguagem Natural Semântica e similaridade de palavras: Parte I Prof. Jesús P. Mena-Chalco jesus.mena@ufabc.edu.br 1Q-2018 1 Bibliografia Daniel Jurafsky & James H. Martin.

Leia mais

01. Determinar as equações da reta que passa pelo ponto A( 2, 3, 2) e tem a. = 2x. v são: b c

01. Determinar as equações da reta que passa pelo ponto A( 2, 3, 2) e tem a. = 2x. v são: b c 01. Determinar as equações da reta que passa pelo ponto A(, 3, ) e tem a direção do vetor v = 3 i + k. a = 3 As componentes do vetor v são: b = 0. c = Tendo em vista que b = 0, a reta se acha num plano

Leia mais

Pontifícia Universidade Católica do Rio de Janeiro / PUC-Rio Departamento de Engenharia Mecânica. ENG1705 Dinâmica de Corpos Rígidos.

Pontifícia Universidade Católica do Rio de Janeiro / PUC-Rio Departamento de Engenharia Mecânica. ENG1705 Dinâmica de Corpos Rígidos. Pontifícia Universidade Católica do Rio de Janeiro / PUC-Rio Departamento de Engenharia Mecânica ENG1705 Dinâmica de Corpos Rígidos (Período: 2016.1) Notas de Aula Capítulo 1: VETORES Ivan Menezes ivan@puc-rio.br

Leia mais

Tabela Hash: Índice remissivo

Tabela Hash: Índice remissivo Capítulo 3 Tabela Hash: Índice remissivo Um índice remissivo lista os termos e tópicos que são abordados em um documento juntamente com páginas em que aparecem. É bastante comum encontrar tais índices

Leia mais

, a equação. x, y x, y k. u, u, k. x, y 2, 3 k. 1, 2, k. Exemplo: Determina uma equação reduzida da reta que tem declive 3 e ordenada na origem 2.

, a equação. x, y x, y k. u, u, k. x, y 2, 3 k. 1, 2, k. Exemplo: Determina uma equação reduzida da reta que tem declive 3 e ordenada na origem 2. Escola Secundária de lberto Sampaio Ficha Formativa de Matemática Geometria I Inclinação e declive de uma reta no plano; ângulo de duas retas; retas perpendiculares. º no Equação vetorial da reta: Dado

Leia mais

META-MODELO FUNCIONAL PARA RECUPERAÇÃO DE INFORMAÇÃO

META-MODELO FUNCIONAL PARA RECUPERAÇÃO DE INFORMAÇÃO Universidade Federal de Uberlândia Faculdade de Computação Programa de Pós-Graduação em Ciência da Computação META-MODELO FUNCIONAL PARA RECUPERAÇÃO DE INFORMAÇÃO Luciene Chagas de Oliveira Uberlândia

Leia mais

Mineração de Dados. Análise e Seleção de Variáveis

Mineração de Dados. Análise e Seleção de Variáveis Mineração de Dados Análise e Seleção de Variáveis 1 Análise e Seleção de Variáveis Parte da uma área chamada de Redução de Dados Obtenção de uma representação reduzida em volume mas que produz resultados

Leia mais

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU Organizaçãoe Recuperaçãode Informação GSI521 Prof. Dr. Rodrigo Sanches Miani FACOM/UFU Modelo Vetorial Organização e Recuperação de Informação(GSI521) Motivação Discutido nos seguintes trabalhos: K. Spark

Leia mais

Seleção de Informações Usando Text Mining com RI

Seleção de Informações Usando Text Mining com RI Seleção de Informações Usando Text Mining com RI Bruno Blumetti¹, Caique Lemos¹, Luis Carlos¹, Rafael Araújo¹ ¹Departamento de Ciência da Computação Universidade Federal da Bahia (UFBA) Av. Adhemar de

Leia mais

Aprendizagem de Máquina

Aprendizagem de Máquina Aprendizagem de Máquina Alessandro L. Koerich Programa de Pós-Graduação em Informática Pontifícia Universidade Católica do Paraná (PUCPR) Aprendizagem Baseada em Instâncias Plano de Aula Introdução Espaço

Leia mais

Aprendizado de Máquina (Machine Learning)

Aprendizado de Máquina (Machine Learning) Ciência da Computação (Machine Learning) Aula 07 Classificação com o algoritmo knn Max Pereira Classificação com o algoritmo k-nearest Neighbors (knn) Como os filmes são categorizados em gêneros? O que

Leia mais

Informação de Links no Modelo Vetorial Usando uma Estrutura Funcional

Informação de Links no Modelo Vetorial Usando uma Estrutura Funcional Informação de Links no Modelo Vetorial Usando uma Estrutura Funcional Ilmério R. Silva 1, João N. Souza 1, Renata F. Lisboa Moura 1, Berthier Ribeiro-Neto 2 1 Faculdade de Computação Universidade Federal

Leia mais

Fabrício Jailson Barth. Recuperação de documentos e pessoas em ambientes empresariais através de árvores de decisão

Fabrício Jailson Barth. Recuperação de documentos e pessoas em ambientes empresariais através de árvores de decisão Fabrício Jailson Barth Recuperação de documentos e pessoas em ambientes empresariais através de árvores de decisão São Paulo 2009 Fabrício Jailson Barth Recuperação de documentos e pessoas em ambientes

Leia mais

Aprendizagem de Máquina

Aprendizagem de Máquina Aprendizagem de Máquina Aprendizagem Baseada em Instâncias Alessandro L. Koerich Mestrado/Doutorado em Informática (PPGIa) Pontifícia Universidade Católica do Paraná (PUCPR) Mestrado/Doutorado em Informática

Leia mais

Aula 6 Mineração Streams Representação dos Dados. Profa. Elaine Faria UFU

Aula 6 Mineração Streams Representação dos Dados. Profa. Elaine Faria UFU Aula 6 Mineração Streams Representação dos Dados Profa. Elaine Faria UFU - 2017 Agradecimentos Este material é baseado No livro Tan et al, 2006 Nos slides do prof. Andre C. P. L. F. Carvalho Agradecimentos

Leia mais

Classificação: Árvores de Decisão e k-nn. Eduardo Raul Hruschka

Classificação: Árvores de Decisão e k-nn. Eduardo Raul Hruschka Classificação: Árvores de Decisão e k-nn Eduardo Raul Hruschka Árvores de Decisão Métodos para aproximar funções discretas, representadas por meio de uma árvore de decisão; Árvores de decisão podem ser

Leia mais

Relação de ordem em IR. Inequações

Relação de ordem em IR. Inequações Relação de ordem em IR. Inequações Relação de ordem em IR Inequações Reconhecer propriedades da relação de ordem em IR. Definir intervalos de números reais. Operar com valores aproximados de números reais.

Leia mais

Processamento de Imagens CPS755

Processamento de Imagens CPS755 Processamento de Imagens CPS755 aula 01 - geometria projetiva e transformações 2D Antonio Oliveira Ricardo Marroquim 1 / 44 laboratório de processamento de imagens tópicos geometria projetiva transformações

Leia mais

Capítulo Aplicações do produto interno

Capítulo Aplicações do produto interno Cálculo - Capítulo 1.4 - Aplicações do produto interno - versão 0/009 1 Capítulo 1.4 - Aplicações do produto interno 1.4.1 - Ortogonalidade entre vetores 1.3.3 - Ângulo entre vetores 1.4. - Projeção ortogonal

Leia mais

04/03/2013. Gerenciamento de Dados e Informação. Recuperação de Dado X Informação. Histórico

04/03/2013. Gerenciamento de Dados e Informação. Recuperação de Dado X Informação. Histórico Recuperação de Dado X Informação Gerenciamento de Dados e Informação Fernando Fonseca Ana Carolina Robson Fidalgo Comparação (matching) Recuperação de Dados Exata Recuperação de Informação Aproximada Dados

Leia mais

UMA ABORDAGEM BASEADA EM MÉTRICAS DE REDES COMPLEXAS PARA O ESTABELECIMENTO DO GRAU DE INFLUÊNCIA DE TERMOS EM DOCUMENTOS

UMA ABORDAGEM BASEADA EM MÉTRICAS DE REDES COMPLEXAS PARA O ESTABELECIMENTO DO GRAU DE INFLUÊNCIA DE TERMOS EM DOCUMENTOS UMA ABORDAGEM BASEADA EM MÉTRICAS DE REDES COMPLEXAS PARA O ESTABELECIMENTO DO GRAU DE INFLUÊNCIA DE TERMOS EM DOCUMENTOS Wladmir Cardoso Brandão Fernando Silva Parreiras GT8 - INFORMAÇÃO E TECNOLOGIA

Leia mais

Aula 7 Medidas de Distância. Profa. Elaine Faria UFU

Aula 7 Medidas de Distância. Profa. Elaine Faria UFU Aula 7 Medidas de Distância Profa. Elaine Faria UFU - 2017 Agradecimentos Este material é baseado No livro Tan et al, 2006 Nos slides do prof Andre C. P. L. F. Carvalho Agradecimentos Ao professor André

Leia mais

UNIVERSIDADE METODISTA DE PIRACICABA RECUPERAÇÃO DE DOCUMENTOS TEXTO USANDO UM MODELO PROBABILÍSTICO ESTENDIDO

UNIVERSIDADE METODISTA DE PIRACICABA RECUPERAÇÃO DE DOCUMENTOS TEXTO USANDO UM MODELO PROBABILÍSTICO ESTENDIDO UNIVERSIDADE METODISTA DE PIRACICABA FACULDADE DE CIÊNCIAS EXATAS E DA NATUREZA MESTRADO EM CIÊNCIA DA COMPUTAÇÃO RECUPERAÇÃO DE DOCUMENTOS TEXTO USANDO UM MODELO PROBABILÍSTICO ESTENDIDO MARCELLO ERICK

Leia mais

Revisão. Meio ambiente da Recuperação de Informação. Linguagem Analógico x Digital

Revisão. Meio ambiente da Recuperação de Informação. Linguagem Analógico x Digital Revisão Meio ambiente da Recuperação de Informação Linguagem Analógico x Digital 1 Recuperação de Informação Recuperação de informação é o nome dado ao processo ou método pelo qual um potencial usuário

Leia mais

Lista de Exercícios de Cálculo 3 Primeira Semana

Lista de Exercícios de Cálculo 3 Primeira Semana Lista de Exercícios de Cálculo 3 Primeira Semana Parte A 1. Se v é um vetor no plano que está no primeiro quadrante, faz um ângulo de π/3 com o eixo x positivo e tem módulo v = 4, determine suas componentes.

Leia mais

Avaliação de Desempenho de SRI

Avaliação de Desempenho de SRI Avaliação de Desempenho de SRI Desempenho espaço x tempo é usual em computação quão preciso é o conjunto resposta (ranking) é usual em SRI Avaliação baseada em coleção de referência = documentos + consultas

Leia mais

Medidas de Avaliação

Medidas de Avaliação Medidas de Avaliação Medidas de Avaliação Para a maioria dos sistemas computacionais é necessário criar medidas para aferir sua eficácia e eficiência; A medida mais comum é o tempo e o espaço. Quanto menor

Leia mais

Programação Orientada a Objetos

Programação Orientada a Objetos Programação Orientada a Objetos Prof. Kléber de Oliveira Andrade pdjkleber@gmail.com Coleções, Propriedades, Resources e Strings (Parte 2) Coleções É comum usarmos um objeto que armazena vários outros

Leia mais

Pré-processamento dos Dados e Análise Exploratória

Pré-processamento dos Dados e Análise Exploratória Pré-processamento dos Dados e Análise Exploratória Prof. Fabrício Olivetti de França Universidade Federal do ABC Processando os dados Data Sets Conjunto de objetos de dados. Objeto de dados é uma entidade:

Leia mais

Combinando Fatores de Ponderação para Melhorar a

Combinando Fatores de Ponderação para Melhorar a Computer on the Beach 2014 - Artigos Completos 32 Combinando Fatores de Ponderação para Melhorar a Classificação de Textos Frederico P. de Souza 1, Patrick M. Ciarelli 2, Elias de Oliveira 1 1 Departamento

Leia mais

UMA PROPOSTA DE CONSTRUÇÃO DE ÍNDICE INVERTIDO PARA RECUPERAÇÃO DE IMAGENS BASEADA EM CONTEÚDO

UMA PROPOSTA DE CONSTRUÇÃO DE ÍNDICE INVERTIDO PARA RECUPERAÇÃO DE IMAGENS BASEADA EM CONTEÚDO UNIVERSIDADE FEDERAL DE UBERLÂNDIA FACULDADE DE COMPUTAÇÃO PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO UMA PROPOSTA DE CONSTRUÇÃO DE ÍNDICE INVERTIDO PARA RECUPERAÇÃO DE IMAGENS BASEADA EM CONTEÚDO

Leia mais

CLASSIFICAÇÃO AUTOMÁTICA DE PATENTES COM O MODELO VETORIAL DE REPRESENTAÇÃO DE DOCUMENTOS

CLASSIFICAÇÃO AUTOMÁTICA DE PATENTES COM O MODELO VETORIAL DE REPRESENTAÇÃO DE DOCUMENTOS III SBA Simpósio Baiano de Arquivologia 26 a 28 de outubro de 2011 Salvador Bahia Políticas arquivísticas na Bahia e no Brasil CLASSIFICAÇÃO AUTOMÁTICA DE PATENTES COM O MODELO VETORIAL DE REPRESENTAÇÃO

Leia mais

PLANO DE ENSINO E APRENDIZAGEM

PLANO DE ENSINO E APRENDIZAGEM SERVIÇO PÚBLICO FEDERAL UNIVERSIDADE FEDERAL DO PARÁ INSTITUTO DE CIÊNCIAS EXATAS E NATURAIS CURSO DE LICENCIATURA PLENA EM MATEMÁTICA PARFOR PLANO E APRENDIZAGEM I IDENTIFICAÇÃO: PROFESSOR (A) DA DISCIPLINA:

Leia mais

Redução de Dimensionalidade, DCDistance, e CARFRE

Redução de Dimensionalidade, DCDistance, e CARFRE Redução de Dimensionalidade, DCDistance, e CARFRE Fabrício Olivetti de França Universidade Federal do ABC Tópicos 1. Redução de Dimensionalidade 2. Análise de Componentes Principais 3. DCDistance - Document-Class

Leia mais