GSI024 - Organização e Recuperação da

Tamanho: px
Começar a partir da página:

Download "GSI024 - Organização e Recuperação da"

Transcrição

1 GSI024 - Organização e Recuperação da Informação Ilmério Reis da Silva ilmerio@facom.ufu.br UFU/FACOM/BSI Arquivo 6 - Modelo Vetorial GSI024-ORI Pg:6. 1

2 Ranking baseado no modelo vetorial Considerações de desempenho GSI024-ORI Pg:6. 2

3 (Relembrando) Documento como vetor de termos cada documento pode ser visto como um vetor de termos (coluna na matriz termo-documento) cada termo é um eixo no espaço vetorial documentos são vetores nesse espaço o espaço tem milhares de eixos (dimensões) GSI024-ORI Pg:6. 3

4 Aplicações de Vetores de documentos Query by Example: Encontre documentos similares a um dado documento Busca aproximada Encontre documentos próximos a um dado vetor de documento GSI024-ORI Pg:6. 4

5 Intuição GSI024-ORI Pg:6. 5

6 Propriedades essenciais para proximidade no espaço vetorial if d 1 está próximo de d 2 então d 2 está próximo de d 1 (simetria) if d 1 está próximo de d 2 e d 2 está próximo de d 3 então d 1 não está distante de d 3 (transitividade) Nenhum documento está mais próximo de d i do que ele mesmo (reflexividade) GSI024-ORI Pg:6. 6

7 Primeiro corte distância euclidiana: distancia(d 1, d 2 ) = d 1 d 2 porque não é uma boa idéia para busca? tamanho do documento tem grande influência todos os documentos muito pequenos serão similares necessita normalização, por exemplo, observando ângulo e não distância euclidiana GSI024-ORI Pg:6. 7

8 Coseno não satisfaz transitividade GSI024-ORI Pg:6. 8

9 Coseno Normalização de pesos Como tornar todos os vetores com tamanho igual a 1 d j = (w 1,j, w 2,j,, w t,j ), onde t é o número de termos do vocabulário, logo, a dimensão do espaço vetorial Norma de d j : d j = t i w 2 i,j Peso normalizado: W i,j = w i,j d j GSI024-ORI Pg:6. 9

10 Vetor de pesos normalizados Tamanho do vetor normalizado D j = t Wi,j 2 = i t i w i,j t i w2 i,j 2 = 1 Com isso, documentos grandes não levarão vantagem Todos estarão próximos. GSI024-ORI Pg:6. 10

11 Similaridade baseada no coseno coseno do ângulo entre os vetores denominador normaliza os vetores GSI024-ORI Pg:6. 11

12 Similaridade baseada no coseno Para documentos normalizados o coseno é o próprio produto interno GSI024-ORI Pg:6. 12

13 Exemplo GSI024-ORI Pg:6. 13

14 Consultas no espaço vetorial Considere a consulta como um documento no espaço vetorial Seja d q o vetor relativo à consulta q Então: sim(d j, q) = ( t i=1 t i=1 w i,q w i,j ) ( t wi,d 2 i=1 ) wi,j 2 Obs: o vetor d q poucos termos. em geral é esparso, pois normalmente a consulta tem GSI024-ORI Pg:6. 14

15 Características do Modelo Vetorial um espaço algébrico bem formado a consulta pode ser vista como um documento pequeno a consulta também é um vetor no mesmo espaço possibilidade de medir a proximidade de todos os documentos com a consulta score/ranking natural possilidade de várias medidas de similaridade, ver survery em strehl/diss/node52.html GSI024-ORI Pg:6. 15

16 Modelo Vetorial na Web - Problemas indexação baseada em coleção estática a Web é uma coleção dinâmica GSI024-ORI Pg:6. 16

17 Modelo Vetorial e Frases indexar as frases com tf.idf para, por exemplo, tangerine trees há problemas com a dimensão do vocabulário que palavras combinar? uma alternativa são os índices posicionais GSI024-ORI Pg:6. 17

18 Consultas booleanas e Modelo Vetorial concepções diferentes do espaço o modelo booleano observa um retângulo e o vetorial um círculo. GSI024-ORI Pg:6. 18

19 Modelo Booleano Extendido (MIR) q or = k 1 k 2 : o ponto (0, 0) é o alvo a ser evitado sim(d j, q or ) = w 2 1,j + w2 2,j 2 GSI024-ORI Pg:6. 19

20 Modelo Booleano Extendido (MIR) q and = k 1 k 2 : o ponto (1, 1) é o alvo a ser alcançado sim(d j, q and ) = 1 (1 w1,j ) 2 + (1 w 2,j ) 2 2 GSI024-ORI Pg:6. 20

21 Wildcards e Modelo Vetorial transformar consultas em termos associados à wildcard query pesos podem influenciar e descaracterizar a consulta GSI024-ORI Pg:6. 21

22 Linguagem de consulta e score Linguagens: texto livre, frases, wildcard, etc. Miscelânia - considere para consultas texto livre: topo do ranking formado por documentos onde a frase está presente (com ou sem ranking) segundo grupo de documentos com todas as palavras da consulta (com ou sem ranking) terceiro grupo, para casamento parcial, um ranking baseado em tf.idf GSI024-ORI Pg:6. 22

23 Eficiência no cálculo do coseno O problema: encontrar os k topdocs É possível obter os k topdocs sem calcular todos os cosenos? Índices são projetados para obter esse conjunto em consultas pequenas (poucos termos) GSI024-ORI Pg:6. 23

24 Cálculo eficiente do coseno Armazene tf i,j para todo documento d j na lista invertida do termo k i Opcionalmente, armazena-se pesos baseados em tf.idf para obter o so- No processamento da consulta use acumuladores A j matório acumuladores para todo documento que possua pelo menos um termo da consulta pode ser inviável se a consulta possui termos muito frequentes GSI024-ORI Pg:6. 24

25 Lista invertida com freqüencias tf t,j foi adicionado à lista código unário ou γ podem ser usados em geral são valores pequenos GSI024-ORI Pg:6. 25

26 Obtendo os k topdocs Uso de seleção baseada em heap heap: árvore binária onde o nó tem similaridade maior que de seus decendentes GSI024-ORI Pg:6. 26

27 Obtendo os k topdocs Uso de seleção baseada em heap construído em 2n operações (O(n)) seleção do topo é O(1) seleção dos k = log n top em 2 log n para n = 1M e k = 100 custo de construção e seleção 10% do sorting GSI024-ORI Pg:6. 27

28 Gargalo Necessidade de calcular todos os cosenos Considerar apenas documentos com coseno diferente de zero Obter lista de documentos da união das listas dos termos da consulta Tentar inicialmente consulta conjuntiva (intersecção das listas-google) Se intesecção das listas dos x termos da consulta é vazia, tente conjunções de (x 1) termos GSI024-ORI Pg:6. 28

29 Limitando os acumuladores Ecolhendo os melhores Obtenha o topo da lista de cada termo Calcule a união dos topdocs de cada termo Calcule o coseno para os documentos na união Obtenha os topdocs baseado no coseno GSI024-ORI Pg:6. 29

30 Ordenando a lista invertida por tf i,j Idéia: obter documentos com altos valores de wf i,j Ordenar listas invertidas por wf i,j Obter termos por ordem de idf Obter blocos de documentos para cada termo Obter novos blocos até completar o número suficiente de acumuladores Anh et al GSI024-ORI Pg:6. 30

31 Poda por agrupamentos pré-processados. Obtenha aleatoriamente n documentos chamados ĺıderes Para cada documento assinale os documentos mais próximos, chamados seguidores Provavelmente cada ĺıder terá n seguidores Obtenha o ĺıder mais próximo da consulta Obtenha os k topdocs da consulta baeado na similaridade com os seguidores de L GSI024-ORI Pg:6. 31

32 Visualização - Poda por agrupamentos pré-processados. GSI024-ORI Pg:6. 32

33 Variações - Poda por agrupamentos pré-processados. Associe cada seguidor a três ĺıderes Obtenha os quatro ĺıderes mais próximos à consulta GSI024-ORI Pg:6. 33

34 Redução de Dimensionalidade Reduzir dimensões preservando distâncias Melhoraria cálculo do coseno Dois métodos Projeção aleatória Latent Semantic Indexing (LSI) GSI024-ORI Pg:6. 34

35 Projeção aleatória em k << m eixos Escolha aleatoriamente uma dimensão x 1 Para i = 2 to k Escolha aleatoriamente uma dimensão x i ortogonal a x 1,, x i 1 Projete cada vetor de documentos no subespaço formado por {x 1, x 2,, x k } GSI024-ORI Pg:6. 35

36 Reduzindo de 3 para 2 dimensões GSI024-ORI Pg:6. 36

37 Garantias Alta probabilidade de que as distâncias relativas sejam mantidas Teoria nas referências GSI024-ORI Pg:6. 37

38 Calculando uma projeção Projeção de n vetores de m dimensões em k dimensões: inicie com a matriz A m n de termos e documentos obtenha a matriz R k m, uma projeçõ ortogonal de A calcule W = R A a coluna j th da matriz W é o documento d j em k dimensões GSI024-ORI Pg:6. 38

39 Custo computacional Total de k m n multiplicações Existem técnicas de otimização (vide referências) Vantagem: a redução dimensional é pré-processada O cálculo do coseno em k << m dimensões é mais rápido GSI024-ORI Pg:6. 39

40 Redução baseada em LSI Redução dependente dos dados Elimina eixos redundantes Colapsa eixos relacionados, por exemplo, car, automobile Capítulo 18 e/ou seminários GSI024-ORI Pg:6. 40

41 Referências IIR 7; MIR 2.5 e 2.7.2; MG 4 Ranking with Effective Early Termination, Proc. 24th Annual International ACM SIGIR Conference, Anh, V.N. and A. Moffat Pruned query evaluation using precomputed impacts. SIGIR 2006, Random projection theorem, Dasgupta and Gupta. An elementary proof of the Johnson-Lindenstrauss Lemma (1999). Faster random projection - A.M. Frieze, R. Kannan, S. Vempala. Fast Monte-Carlo Algorithms for finding low-rank approximations. Symposium on Foundations of Computer Science, IEEE GSI024-ORI Pg:6. 41

GSI024 - Organização e Recuperação da

GSI024 - Organização e Recuperação da GSI024 - Organização e Recuperação da Informação Ilmério Reis da Silva ilmerio@facom.ufu.br UFU/FACOM/BSI Arquivo 5 - Peso de termos GSI024-ORI Pg:5. 1 Busca paramétrica usando atributos Regiões em documentos

Leia mais

Profª Ana Lúcia Lima Marreiros Maia Profª Fabiana Cristina Bertoni

Profª Ana Lúcia Lima Marreiros Maia Profª Fabiana Cristina Bertoni Profª Ana Lúcia Lima Marreiros Maia Profª Fabiana Cristina Bertoni Motivação e Objetivos Etapas do Desenvolvimento de um Sistema de Recuperação de Informações (SRI): Pré-processamento; Representação; Extração

Leia mais

Universidade do Sul de Santa Catarina Ciência da Computação Aula 09 Introdução a Análise de Textos Prof. Max Pereira

Universidade do Sul de Santa Catarina Ciência da Computação Aula 09 Introdução a Análise de Textos Prof. Max Pereira Universidade do Sul de Santa Catarina Ciência da Computação Técnicasde InteligênciaArtificial Aula 09 Introdução a Análise de Textos Prof. Max Pereira Processamento de Linguagem Natural Conjunto de técnicas

Leia mais

Recuperação de Informações por Álgebra Linear Computacional

Recuperação de Informações por Álgebra Linear Computacional Recuperação de Informações por Álgebra Linear Computacional MAC499 - Projeto de Iniciação Científica Aluna: Ellen Hidemi Fukuda Orientador: Paulo José da Silva e Silva Departamento de Ciência da Computação

Leia mais

Lista de exercícios 2 Recuperação de Informação Textual

Lista de exercícios 2 Recuperação de Informação Textual Lista de exercícios 2 Recuperação de Informação Textual 2 de dezembro de 2015 0.1 O que é o modelo bag-of-words? Porque ele é uma simplificação? Dê um exemplo em que ele estaria incorreto. 0.2 O que é

Leia mais

Term weighting: outras ideias

Term weighting: outras ideias Term weighting: outras ideias Term Weighting i Diversas são as abordagens. Vamos discutir algumas ideias mais simples, porém conhecidas. i Abordagens 4 Pesos binários (já vimos) 4 Frequência (já vimos)

Leia mais

Modelo Espaço Vetorial. Mariella Berger

Modelo Espaço Vetorial. Mariella Berger Modelo Espaço Vetorial Mariella Berger Agenda Introdução Atribuição de Pesos Frequência TF-IDF Similaridade Exemplo Vantagens e Desvantagens Modelo Espaço Vetorial Introdução Modelo Espaço Vetorial O modelo

Leia mais

Arquivos invertidos 39

Arquivos invertidos 39 Arquivos invertidos 39 Arquivos invertidos É um mecanismo que utiliza palavras para indexar uma coleção de documentos a fim de facilitar a busca e a recuperação Estruturas de um arquivo invertido Vocabulário

Leia mais

Recuperação de Dado X Informação. Gerenciamento de Dados e Informação. Histórico. Recuperação de Informação. Histórico. Histórico

Recuperação de Dado X Informação. Gerenciamento de Dados e Informação. Histórico. Recuperação de Informação. Histórico. Histórico Recuperação de Dado X Informação Gerenciamento de Dados e Informação Recuperação de Informação Fernando Fonseca Ana Carolina Robson Fidalgo Comparação (matching) Recuperação de Dados Exata Recuperação

Leia mais

Realimentação de Relevância

Realimentação de Relevância Wendel Melo Faculdade de Computação Universidade Federal de Uberlândia Recuperação da Informação Ciclo de realimentação onde uma consulta q recebida do usuário é transformada em uma consulta modificada

Leia mais

Recuperação de Informações

Recuperação de Informações Recuperação de Informações Ana Carolina Salgado & Fernando Fonseca Comparação (matching) Dados Inferência Modelo Ling Consulta Esp da Consulta Recuperação de Dado X Informação Recuperação de Recuperação

Leia mais

Dados no R n. Dados em altas dimensões 29/03/2017

Dados no R n. Dados em altas dimensões 29/03/2017 Dados no R n Dados em altas dimensões Alguns dados são apresentados como vetores em R n Alguns dados não são apresentados como vetores mas podem ser representados como vetores (e.g. Texto) Texto Dados

Leia mais

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU Organizaçãoe Recuperaçãode Informação GSI521 Prof. Dr. Rodrigo Sanches Miani FACOM/UFU Modelo Vetorial Organização e Recuperação de Informação(GSI521) Motivação Discutido nos seguintes trabalhos: K. Spark

Leia mais

GSI024 - Organização e Recuperação da

GSI024 - Organização e Recuperação da GSI024 - Organização e Recuperação da Informação Ilmério Reis da Silva ilmerio@facom.ufu.br Arquivo 7 - Avaliação GSI024-ORI Pg:7. 1 Sumário de resultados Tornando os resultado úteis ao usuário Como avaliar

Leia mais

Consultas por Similaridade em Domínios de Dados Complexos

Consultas por Similaridade em Domínios de Dados Complexos Consultas por Similaridade em Domínios de Dados Complexos Guilherme Felipe Zabot Orientador: Profº Dr Caetano Traina Jr Roteiro Objetivo Introdução Dados Complexos Representação de Dados Complexos Extração

Leia mais

4 Recuperação de Informação

4 Recuperação de Informação 4 Recuperação de Informação No presente capítulo são apresentados os fundamentos da área de Recuperação de Informação utilizados em Mineração de Textos, como por exemplo, os modelos de representação de

Leia mais

SVD. Single Value Decomposition 18/09/2017. Lema. Toda matriz A, com n linhas e d colunas, admite uma fatoração A= UDV T =

SVD. Single Value Decomposition 18/09/2017. Lema. Toda matriz A, com n linhas e d colunas, admite uma fatoração A= UDV T = SVD Single Value Decomposition Lema. Toda matriz A, com n linhas e d colunas, admite uma fatoração A= UDV T = U é uma matriz com n linhas e r colunas (r rank de A) D é uma matriz diagonal r x r; V é uma

Leia mais

Recuperação de Informação

Recuperação de Informação Recuperação de Informação Estrutura de Dados II Mariella Berger 1 Roteiro Tarefas de Recuperação de Informação Modelos de Recuperação de Documentos Modelo Booleano Modelo Espaço Vetorial Recuperação de

Leia mais

Melhorando a Recuperação de Informação

Melhorando a Recuperação de Informação Recuperação de Informação e Web Mining 1 Melhorando a Recuperação de Informação O modelo de espaço vetorial Utiliza pesos para termos Permite o ranqueamento dos resultados Pode reduzir a dimensão do espaço

Leia mais

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU Organizaçãoe Recuperaçãode Informação GSI521 Prof. Dr. Rodrigo Sanches Miani FACOM/UFU Modelosde RI e o ModeloBooleano Organização e Recuperação de Informação(GSI521) Tópicos Modelagem em RI; Caracterização

Leia mais

Organização e Recuperação da Informação

Organização e Recuperação da Informação GSI024 Organização e Recuperação da Informação Introdução Ilmério Reis da Silva ilmerio@facom.ufu.br www.facom.ufu.br/~ilmerio/ori UFU/FACOM - 2011/1 Arquivo 1a Introdução Porque RI? Problemas da solução

Leia mais

03/07/2017. Modelo de Recuperação de Informação

03/07/2017. Modelo de Recuperação de Informação Modelo de Recuperação de Informação Modelo de Recuperação de Informação Um modelo de recuperação de informação é a especificação formal de três elementos: a representação dos documentos; a representação

Leia mais

Projeções Multi-dimensionais

Projeções Multi-dimensionais Prof. Fernando V. Paulovich http://www.icmc.usp.br/~paulovic paulovic@icmc.usp.br Instituto de Ciências Matemáticas e de Computação (ICMC) Universidade de São Paulo (USP) 23 de setembro de 2010 Introdução

Leia mais

DATA MINING & MACHINE LEARNING (I) Thiago Marzagão

DATA MINING & MACHINE LEARNING (I) Thiago Marzagão DATA MINING & MACHINE LEARNING (I) Thiago Marzagão problema de trabalhar c/ textos: dimensionalidade A quantidade de colunas cresce rapidamente com a quantidade de documentos problema de trabalhar c/ textos:

Leia mais

Compressão de Textos. Introdução. Introdução. Introdução. O volume de informação textual disponível on-line é imenso:

Compressão de Textos. Introdução. Introdução. Introdução. O volume de informação textual disponível on-line é imenso: Compressão de Textos Estrutura de Dados II Prof. Guilherme Tavares de Assis Universidade Federal de Ouro Preto UFOP Instituto de Ciências Exatas e Biológicas ICEB Departamento de Computação DECOM O volume

Leia mais

FUNDAMENTOS DE SISTEMAS LINEARES PARTE 1

FUNDAMENTOS DE SISTEMAS LINEARES PARTE 1 FUNDAMENTOS DE SISTEMAS LINEARES PARTE 1 Prof. Iury V. de Bessa Departamento de Eletricidade Faculdade de Tecnologia Universidade Federal do Amazonas Revisão O que é um corpo (campo)? O que é um espaço

Leia mais

MINERAÇÃO DE DADOS. Thiago Marzagão MINERAÇÃO DE TEXTOS. marzagao.1@osu.edu. Thiago Marzagão (UnB) MINERAÇÃO DE DADOS 1/2016 1 / 25

MINERAÇÃO DE DADOS. Thiago Marzagão MINERAÇÃO DE TEXTOS. marzagao.1@osu.edu. Thiago Marzagão (UnB) MINERAÇÃO DE DADOS 1/2016 1 / 25 MINERAÇÃO DE DADOS Thiago Marzagão marzagao.1@osu.edu MINERAÇÃO DE TEXTOS Thiago Marzagão (UnB) MINERAÇÃO DE DADOS 1/2016 1 / 25 transformando textos em dados Documento 1: "Não trabalho para ter clientes;

Leia mais

3 Recuperação de Informações Textuais

3 Recuperação de Informações Textuais 3 Recuperação de Informações Textuais Tudo deveria se tornar o mais simples possível, mas não simplificado. Albert Einstein Sistemas tradicionais de indexação costumam utilizar-se de termos-índice, que

Leia mais

Thiago Marzagão LSA, LDA

Thiago Marzagão LSA, LDA MINERAÇÃO DE DADOS Thiago Marzagão marzagao.1@osu.edu LSA, LDA Thiago Marzagão (UnB) MINERAÇÃO DE DADOS 1 / 16 problema de trabalhar c/ textos: dimensionalidade A quantidade de colunas cresce rapidamente

Leia mais

SISTEMA PARA RECUPERAÇÃO DE INFORMAÇÃO DE DOWNLOADS DE SOFTWARES

SISTEMA PARA RECUPERAÇÃO DE INFORMAÇÃO DE DOWNLOADS DE SOFTWARES SISTEMA PARA RECUPERAÇÃO DE INFORMAÇÃO DE DOWNLOADS DE SOFTWARES Elzo Soares Pereira Filho, Matheus Rossi de Oliveira Costa, Vinícius Lobo Silva, Luciene Chagas de Oliveira, UNIUBE Universidade de Uberaba

Leia mais

Capítulo 4. Comitê BAS 35

Capítulo 4. Comitê BAS 35 4 Comitê BAS Devido à flexibilidade do algoritmo BAS, que aceita qualquer distribuição inicial para os exemplos, diversas heurísticas podem ser implementadas com o objetivo de criar classificadores de

Leia mais

Hashing: conceitos. Hashing

Hashing: conceitos. Hashing Hashing: conceitos hashing é uma técnica conhecida como espalhamento, mapeamento ou randomização que tenta distribuir dados em posições aleatórias de uma tabela (array) associa cada objeto (de um determinado

Leia mais

O modelo espaço de vetores. vetorial. Marcelo Keese Albertini. Faculdade de Computação - UFU 12/03/2013. O modelo de espaço vetorial 1 / 27

O modelo espaço de vetores. vetorial. Marcelo Keese Albertini. Faculdade de Computação - UFU 12/03/2013. O modelo de espaço vetorial 1 / 27 Recuperação de Informação: O modelo de espaço vetorial Marcelo Keese Albertini Faculdade de Computação - UFU 12/03/2013 O modelo de espaço vetorial 1 / 27 Veremos hoje Modelo de espaço de vetores: representação

Leia mais

textos documentos semi-estruturado

textos documentos semi-estruturado 1 Mineração de Textos Os estudos em Aprendizado de Máquina normalmente trabalham com dados estruturados Entretanto, uma grande quantidade de informação é armazenada em textos, que são dados semiestruturados

Leia mais

O modelo espaço de vetores. vetorial. Marcelo Keese Albertini. Faculdade de Computação - UFU. O modelo de espaço vetorial 1 / 25

O modelo espaço de vetores. vetorial. Marcelo Keese Albertini. Faculdade de Computação - UFU. O modelo de espaço vetorial 1 / 25 Recuperação de Informação: O modelo de espaço vetorial Marcelo Keese Albertini Faculdade de Computação - UFU O modelo de espaço vetorial 1 / 25 Veremos hoje Modelo de espaço de vetores: representação vetorial

Leia mais

Geometria Computacional

Geometria Computacional Geometria Computacional Claudio Esperança Paulo Roma Cavalcanti Estrutura do Curso Aspectos teóricos e práticos Construção e análise de algoritmos e estruturas de dados para a solucionar problemas geométricos

Leia mais

Computação Gráfica. Engenharia de Computação. CEFET/RJ campus Petrópolis. Prof. Luis Retondaro. Aula 3. Transformações Geométricas

Computação Gráfica. Engenharia de Computação. CEFET/RJ campus Petrópolis. Prof. Luis Retondaro. Aula 3. Transformações Geométricas Computação Gráfica Engenharia de Computação CEFET/RJ campus Petrópolis Prof. Luis Retondaro Aula 3 Transformações Geométricas no plano e no espaço Introdução (Geometria) 2 Pontos, Vetores e Matrizes Dado

Leia mais

Um estudo sobre diferentes modelos de Recuperação de Informação em documentos semi-estruturados (XML) -

Um estudo sobre diferentes modelos de Recuperação de Informação em documentos semi-estruturados (XML) - Um estudo sobre diferentes modelos de Recuperação de Informação em documentos semi-estruturados (XML) - Implementação, Análise, Avaliação e Comparação Autor: Mirella Silva Junqueira 1, Orientador: Prof.

Leia mais

Auto-Fusão na Recuperação de Imagens Baseadas em Conteúdo.

Auto-Fusão na Recuperação de Imagens Baseadas em Conteúdo. Auto-Fusão na Recuperação de Imagens Baseadas em Conteúdo. Severino Jr, Osvaldo IMES - FAFICA osvaldo@fafica.br Gonzaga, Adilson Escola de Engenharia de São Carlos - USP adilson@sc.usp.br Resumo Neste

Leia mais

Mineração de Textos. Mineração de Textos

Mineração de Textos. Mineração de Textos Mineração de Textos Os estudos em Aprendizado de Máquina normalmente trabalham com dados estruturados Entretanto, uma grande quantidade de informação é armazenada em textos, que são dados semi-estruturados

Leia mais

GAAL - Exame Especial - 12/julho/2013. Questão 1: Considere os pontos A = (1, 2, 3), B = (2, 3, 1), C = (3, 1, 2) e D = (2, 2, 1).

GAAL - Exame Especial - 12/julho/2013. Questão 1: Considere os pontos A = (1, 2, 3), B = (2, 3, 1), C = (3, 1, 2) e D = (2, 2, 1). GAAL - Exame Especial - /julho/3 SOLUÇÕES Questão : Considere os pontos A = (,, 3), B = (, 3, ), C = (3,, ) e D = (,, ) (a) Chame de α o plano que passa pelos pontos A, B e C e de β o plano que passa pelos

Leia mais

Criptografia Pós-Quântica Corretores de Erros

Criptografia Pós-Quântica Corretores de Erros Universidade de São Paulo Criptografia Pós-Quântica P com Códigos C Corretores de Erros Rafael Misoczki IME/USP misoczki@linux.ime.usp.br Prof. Dr. Paulo S. L. M. Barreto Poli/USP pbarreto@larc.usp.br

Leia mais

Aula 7 Medidas de Distância. Profa. Elaine Faria UFU

Aula 7 Medidas de Distância. Profa. Elaine Faria UFU Aula 7 Medidas de Distância Profa. Elaine Faria UFU - 2017 Agradecimentos Este material é baseado No livro Tan et al, 2006 Nos slides do prof Andre C. P. L. F. Carvalho Agradecimentos Ao professor André

Leia mais

ORI: Pontuação e o modelo de espaço vetorial

ORI: Pontuação e o modelo de espaço vetorial 1/1 ORI: Pontuação e o modelo de espaço vetorial Marcelo Keese Albertini Faculdade de Computação Universidade Federal de Uberlândia Índice 2/1 3/1 Veremos hoje Ordenando resultados de busca: importância

Leia mais

Resolução da Questão 1 Item I (Texto Definitivo)

Resolução da Questão 1 Item I (Texto Definitivo) Questão Considerando que, por meio do cálculo integral, é possível calcular áreas delimitadas por gráficos de curvas, atenda, necessariamente, o que se pede nos itens de I a IV a seguir. I Calcule os pontos

Leia mais

Visualização de Texto e Documento

Visualização de Texto e Documento Visualização de Texto e Documento SCC5836 Visualização Computacional Prof. Fernando V. Paulovich http://www.icmc.usp.br/~paulovic paulovic@icmc.usp.br Instituto de Ciências Matemáticas e de Computação

Leia mais

ESPAÇOS VETORIAIS EUCLIDIANOS

ESPAÇOS VETORIAIS EUCLIDIANOS ESPAÇOS VETORIAIS EUCLIDIANOS Produto interno em espaços vetoriais Estamos interessados em formalizar os conceitos de comprimento de um vetor e ângulos entre dois vetores. Esses conceitos permitirão uma

Leia mais

News Clipping. Como calcular ângulos entre notícias pode ajudar na prevenção à lavagem de dinheiro. Willian Gigliotti

News Clipping. Como calcular ângulos entre notícias pode ajudar na prevenção à lavagem de dinheiro. Willian Gigliotti News Clipping Como calcular ângulos entre notícias pode ajudar na prevenção à lavagem de dinheiro Willian Gigliotti wgigliotti@gmail.com Departamento de Ciências da Computação Instituto de Matemática e

Leia mais

Ângulo e ortogonalidade em espaços com produto interno

Ângulo e ortogonalidade em espaços com produto interno Ângulo e ortogonalidade em espaços com produto interno Juliana Pimentel juliana.pimentel@ufabc.edu.br http://hostel.ufabc.edu.br/ juliana.pimentel Sala 507-2 - Bloco A, Torre 2 Definir a noção de ângulo

Leia mais

Informação de Links no Modelo Vetorial Usando uma Estrutura Funcional

Informação de Links no Modelo Vetorial Usando uma Estrutura Funcional Informação de Links no Modelo Vetorial Usando uma Estrutura Funcional Ilmério R. Silva 1, João N. Souza 1, Renata F. Lisboa Moura 1, Berthier Ribeiro-Neto 2 1 Faculdade de Computação Universidade Federal

Leia mais

AVALIAÇÃO DA QUALIDADE DO USO DE WAVELETS PARA RECUPERAÇÃO, CLASSIFICAÇÃO E AGRUPAMENTO DA INFORMAÇÃO TEXTUAL. Fabrício Raphael Silva Ferreira

AVALIAÇÃO DA QUALIDADE DO USO DE WAVELETS PARA RECUPERAÇÃO, CLASSIFICAÇÃO E AGRUPAMENTO DA INFORMAÇÃO TEXTUAL. Fabrício Raphael Silva Ferreira AVALIAÇÃO DA QUALIDADE DO USO DE WAVELETS PARA RECUPERAÇÃO, CLASSIFICAÇÃO E AGRUPAMENTO DA INFORMAÇÃO TEXTUAL Fabrício Raphael Silva Ferreira Dissertação de Mestrado apresentada ao Programa de Pós-graduação

Leia mais

Reconhecimento de Faces com PCA e Redes Neurais

Reconhecimento de Faces com PCA e Redes Neurais Reconhecimento de Faces com Sandro Santos Andrade Programa de Pós-graduação em Mecatrônica Setembro / 2003 Visão Computacional Computacional Computação Computação Visual Computação Computação Gráfica Introdução

Leia mais

4 Algoritmo de reconstrução de curvas

4 Algoritmo de reconstrução de curvas 4 Algoritmo de reconstrução de curvas Como visto na introdução, o algoritmo proposto neste trabalho é constituído pelas seguintes etapas: 1. Agrupamento espacial dos pontos de amostragem 2. Processamento

Leia mais

Aula 6 Mineração Streams Representação dos Dados. Profa. Elaine Faria UFU

Aula 6 Mineração Streams Representação dos Dados. Profa. Elaine Faria UFU Aula 6 Mineração Streams Representação dos Dados Profa. Elaine Faria UFU - 2017 Agradecimentos Este material é baseado No livro Tan et al, 2006 Nos slides do prof. Andre C. P. L. F. Carvalho Agradecimentos

Leia mais

Sumário. RObust Clustering using links ROCK. Thiago F. Covões. Motivação. Motivação. Links. Market basket analys. Motivação

Sumário. RObust Clustering using links ROCK. Thiago F. Covões. Motivação. Motivação. Links. Market basket analys. Motivação Sumário RObust Clustering using links ROCK Thiago F. Covões Motivação Links Função de qualidade Algoritmo Vantagens/Desvantagens SCC5895Análise de Agrupamento de Dados 1 2 Motivação Atributos categóricos/nominais/discretos

Leia mais

Exame de Ingresso. Física Aplicada Física Computacional. Segundo Semestre de 2014

Exame de Ingresso. Física Aplicada Física Computacional. Segundo Semestre de 2014 Exame de Ingresso Física Aplicada Física Computacional Segundo Semestre de 2014 Código do(a) Candidato(a): 1 2 Mecânica Figura 1: questão 1 Figura 2: questão 2 1. A Fig. 1 exibe a evolução temporal do

Leia mais

Tipos de Índices. Profa. Dra. Cristina Dutra de Aguiar Ciferri

Tipos de Índices. Profa. Dra. Cristina Dutra de Aguiar Ciferri Tipos de Índices Cristina Dutra de Aguiar Ciferri Tipos de Índice Ordenados em um único nível primário agrupamento (cluster) secundário Estruturas de dados de árvores índices multiníveis árvores-b, árvores-b+

Leia mais

Lista de Exercícios de Cálculo 3 Primeira Semana

Lista de Exercícios de Cálculo 3 Primeira Semana Lista de Exercícios de Cálculo 3 Primeira Semana Parte A 1. Se v é um vetor no plano que está no primeiro quadrante, faz um ângulo de π/3 com o eixo x positivo e tem módulo v = 4, determine suas componentes.

Leia mais

SCC0173 Mineração de Dados Biológicos

SCC0173 Mineração de Dados Biológicos SCC0173 Mineração de Dados Biológicos Preparação de Dados: Parte B Prof. Ricardo J. G. B. Campello SCC / ICMC / USP 1 Créditos O material a seguir consiste de adaptações e extensões: dos originais gentilmente

Leia mais

MCZA Processamento de Linguagem Natural Semântica e similaridade de palavras: Parte III

MCZA Processamento de Linguagem Natural Semântica e similaridade de palavras: Parte III MCZA017-13 Processamento de Linguagem Natural Semântica e similaridade de palavras: Parte III Prof. Jesús P. Mena-Chalco jesus.mena@ufabc.edu.br 1Q-2018 1 Bibliografia Daniel Jurafsky & James H. Martin.

Leia mais

Segundo trabalho de Organização e Recuperação da Informação

Segundo trabalho de Organização e Recuperação da Informação FACOM- UFU Professor: Wendel Melo Segundo trabalho de Organização e Recuperação da Informação 2018-02 Descrição Este trabalho consiste em duas etapas: 1. Implementação de cálculo da ponderação TF-IDF,

Leia mais

Indexação e Modelos Clássicos

Indexação e Modelos Clássicos Wendel Melo Faculdade de Computação Universidade Federal de Uberlândia Recuperação da Informação Adaptado do Material da Profª Vanessa Braganholo - IC/UFF Construção de um Sistema de Busca 1ª Etapa: Definir

Leia mais

Algoritmo CLIQUE (Clustering In QUEst)

Algoritmo CLIQUE (Clustering In QUEst) Algoritmo CLIQUE (Clustering In QUEst) Marcelo Camacho de Souza Nº USP: 3199616 Roteiro Algoritmo CLIQUE Exemplo Prático Complexidade Computacional Vantagens e Desvantagens Autores (IBM Almaden Research

Leia mais

Combinando Fatores de Ponderação para Melhorar a

Combinando Fatores de Ponderação para Melhorar a Computer on the Beach 2014 - Artigos Completos 32 Combinando Fatores de Ponderação para Melhorar a Classificação de Textos Frederico P. de Souza 1, Patrick M. Ciarelli 2, Elias de Oliveira 1 1 Departamento

Leia mais

Outline. 2 Abordagem probabiĺıstica para ORI. 3 Teoria de probabilidades. 4 Princípio de ranking probabiĺıstico

Outline. 2 Abordagem probabiĺıstica para ORI. 3 Teoria de probabilidades. 4 Princípio de ranking probabiĺıstico Outline 1 Recapitulação 2 Abordagem probabiĺıstica para ORI 3 Teoria de probabilidades 4 Princípio de ranking probabiĺıstico 5 Apreciação&Extensões Modelo probabiĺıstico 1 / 47 Retorno de relevância: ideia

Leia mais

Aprendizado de Máquina (Machine Learning)

Aprendizado de Máquina (Machine Learning) Ciência da Computação (Machine Learning) Aula 02 Representação dos dados Pré-processamento Max Pereira Tipo de Dados Os atributos usados para descrever objetos de dados podem ser de diferentes tipos: Quantitativos

Leia mais

Códigos de blocos lineares. Outubro de 2017

Códigos de blocos lineares. Outubro de 2017 Códigos de blocos lineares Outubro de 2017 Vamos introduzir alguns conceitos sobre códigos de blocos lineares. Definições: Deve-se assumir que a informação saída da fonte de informação é da forma binária

Leia mais

Ponderação de termos

Ponderação de termos Ponderação de termos Wendel Melo Faculdade de Computação Universidade Federal de Uberlândia Recuperação da Informação Adaptado do Material da Profª Vanessa Braganholo - IC/UFF Parte da ideia de que, dentro

Leia mais

25/04/2017. Modelo de Recuperação de Informação

25/04/2017. Modelo de Recuperação de Informação Modelo de Recuperação de Informação Modelo de Recuperação de Informação Um modelo de recuperação de informação é a especificação formal de três elementos: a representação dos documentos; a representação

Leia mais

Ambiente de Data Warehouse Para Imagens Médicas Baseado Em Similaridade

Ambiente de Data Warehouse Para Imagens Médicas Baseado Em Similaridade Universidade de São Paulo - USP Instituto de Ciências Matemáticas e de Computação - ICMC Programa de Pós-Graduação em Ciências da Computação e Matemática Computacional Ambiente de Data Warehouse Para Imagens

Leia mais

Descritores de Imagens

Descritores de Imagens Descritores de Imagens André Tavares da Silva PPGCA/UDESC Outubro de 2017 André Tavares da Silva (PPGCA/UDESC) Descritores de Imagens Outubro de 2017 1 / 17 Introdução Excelentes pesquisas sobre descritores

Leia mais

RECONHECIMENTO FACIAL UTILIZANDO EIGENFACES

RECONHECIMENTO FACIAL UTILIZANDO EIGENFACES Universidade Federal do Rio de Janeiro Instituto Alberto Luiz Coimbra de Pós-Graduação e Pesquisa de Engenharia Programa de Engenharia de Sistemas e Computação Rio de Janeiro, RJ Brasil RECONHECIMENTO

Leia mais

DATA MINING & MACHINE LEARNING (I) Thiago Marzagão

DATA MINING & MACHINE LEARNING (I) Thiago Marzagão DATA MINING & MACHINE LEARNING (I) Thiago Marzagão transformando textos em dados Documento 1: Não trabalho para ter clientes; tenho clientes para poder trabalhar. Documento 2: Não se pode forçar a inteligência

Leia mais

Reconhecimento de Gestos

Reconhecimento de Gestos Reconhecimento de Gestos Henrique Augusto Richter Tópicos em Visão Computacional Universidade Federal do Paraná Sumário Introdução Utilização Problemas Trabalhos Artigo 1 Artigo 2 Project Soli Introdução

Leia mais

Esquemas de identificação baseados no problema

Esquemas de identificação baseados no problema Esquemas de identificação baseados no problema da decodificação de síndromes André Jucovsky Bianchi ajb@ime.usp.br Departamento de Ciência da Computação Instituto de Matemática e Estatística Universidade

Leia mais

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU Organizaçãoe Recuperaçãode Informação GSI521 Prof. Dr. Rodrigo Sanches Miani FACOM/UFU Índice invertido Organização e Recuperação de Informação(GSI521) Laboratório 1- Pergunta Como os termos foram associados

Leia mais

Visualização Computacional

Visualização Computacional Visualização Computacional Séries Temporais Rafael Umino Nakanishi Universidade de São Paulo Instituto de Ciências Matemáticas e Computação Novembro de 2013 Rafael Umino Nakanishi (USP-ICMC) Visualização

Leia mais

Visualização por Computador: Teoria, Prática e Aplicações

Visualização por Computador: Teoria, Prática e Aplicações Visualização por Computador: Teoria, Prática e Aplicações Noções de Geometria e Álgebra Linear Claudio Esperança Programa de Engenharia de Sistemas e Computação COPPE / UFRJ Master of Information Management,

Leia mais

Resolução da Questão 1 Item I Texto definitivo

Resolução da Questão 1 Item I Texto definitivo Questão As trajetórias dos aviões A e B são representadas em um sistema de coordenadas cartesianas ortogonais xoy. A trajetória do avião A, que voa à velocidade de km/h, está sobre o eixo

Leia mais

Álgebra Linear e Geometria Anaĺıtica. Espaços Vetoriais Reais

Álgebra Linear e Geometria Anaĺıtica. Espaços Vetoriais Reais universidade de aveiro departamento de matemática Álgebra Linear e Geometria Anaĺıtica Agrupamento IV (ECT, EET, EI) Capítulo 4 Espaços Vetoriais Reais Definição de espaço vetorial real [4 01] O conjunto

Leia mais

Image Descriptors: color

Image Descriptors: color Image Descriptors: color Image Processing scc0251 www.icmc.usp.br/ moacir moacir@icmc.usp.br ICMC/USP São Carlos, SP, Brazil 2011 Moacir Ponti Jr. (ICMCUSP) Image Descriptors: color 2011 1 / 29 Agenda

Leia mais

Modelo Booleano Wendel Melo

Modelo Booleano Wendel Melo Wendel Melo Faculdade de Computação Universidade Federal de Uberlândia Recuperação da Informação Adaptado do Material da Profª Vanessa Braganholo - IC/UFF Modelo simples; Baseado em teoria dos conjuntos

Leia mais

Aprendizado de Máquina (Machine Learning)

Aprendizado de Máquina (Machine Learning) Ciência da Computação (Machine Learning) Aula 07 Classificação com o algoritmo knn Max Pereira Classificação com o algoritmo k-nearest Neighbors (knn) Como os filmes são categorizados em gêneros? O que

Leia mais

Resolução da Questão 1 Item I (Texto Definitivo)

Resolução da Questão 1 Item I (Texto Definitivo) Questão Considerando que, por meio do cálculo integral, é possível calcular áreas delimitadas por gráficos de curvas, atenda, necessariamente, o que se pede nos itens de I a IV a seguir. I Calcule os pontos

Leia mais

Redução de Dimensionalidade, DCDistance, e CARFRE

Redução de Dimensionalidade, DCDistance, e CARFRE Redução de Dimensionalidade, DCDistance, e CARFRE Fabrício Olivetti de França Universidade Federal do ABC Tópicos 1. Redução de Dimensionalidade 2. Análise de Componentes Principais 3. DCDistance - Document-Class

Leia mais

Classificação: Árvores de Decisão e k-nn. Eduardo Raul Hruschka

Classificação: Árvores de Decisão e k-nn. Eduardo Raul Hruschka Classificação: Árvores de Decisão e k-nn Eduardo Raul Hruschka Árvores de Decisão Métodos para aproximar funções discretas, representadas por meio de uma árvore de decisão; Árvores de decisão podem ser

Leia mais

Álgebra e cálculo relacional. Andre Noel

Álgebra e cálculo relacional. Andre Noel Álgebra e cálculo relacional Andre Noel Introdução Introdução A SQL é baseada na álgebra e no cálculo relacional Introdução A SQL é baseada na álgebra e no cálculo relacional O modelo de dados precisa

Leia mais

Kanade-Lucas-Tomasi Tracker

Kanade-Lucas-Tomasi Tracker COPPE-UFRJ Kanade-Lucas-Tomasi Tracker Ricardo Marroquim data entrega: pós-graduação: 18/05/2016 graduação: 27/05/2016 1 NOTAÇÕES Uma imagem é definida como uma função f (x, y), x, y Z, onde f (x, y) :

Leia mais

Lista 8 de Álgebra Linear /01 Produto Interno

Lista 8 de Álgebra Linear /01 Produto Interno Lista 8 de Álgebra Linear - / Produto Interno. Sejam u = (x x e v = (y y. Mostre que temos um produto interno em R nos seguintes casos: (a u v = x y + x y. (b u v = x y x y x y + x y.. Sejam u = (x y z

Leia mais

Métodos de Acesso Métrico

Métodos de Acesso Métrico Métodos de Acesso Métrico http://www.icmc.usp.br/img/novafaixa.png Arthur Emanuel de O. Carosia Profa. Dra. Cristina Dutra de Aguiar Ciferri Índice Conceitos Básicos Métodos de Acesso Onion-tree 2 Índice

Leia mais

Econometria. Operações básicas de vetores. Operações básicas de vetores. Operações básicas de vetores. Independência de vetores

Econometria. Operações básicas de vetores. Operações básicas de vetores. Operações básicas de vetores. Independência de vetores Operações básicas de vetores Econometria Adição Suponha dois vetores x e y com n componentes cada: 1. Alguns tópicos importantes de Álgebra Linear Operações básicas de vetores Multiplicação escalar x é

Leia mais

Universidade Federal de Alagoas Instituto de Matemática. Geometria. Prof. Thales Vieira

Universidade Federal de Alagoas Instituto de Matemática. Geometria. Prof. Thales Vieira Universidade Federal de Alagoas Instituto de Matemática Geometria Prof. Thales Vieira 2014 Geometria Euclidiana Espaço R n R n = {(x 1,...,x n ); x i 2 R} Operações entre elementos de R n Soma: (x 1,x

Leia mais

Hashing convencional...

Hashing convencional... Hashing M.C.F. de Oliveira & Cristina Ciferri 2006/2007 Fonte: Folk & Zoelick, File Structures 1 Hashing convencional... Revisão... 2 1 Hashing 0 chave de busca K = LOWELL h(k) endereço 4 1 2 3 4 5...

Leia mais

AGRUPAMENTO DE ESCOLAS ANSELMO DE ANDRADE

AGRUPAMENTO DE ESCOLAS ANSELMO DE ANDRADE AGRUPAMENTO DE ESCOLAS ANSELMO DE ANDRADE DEPARTAMENTO DE MATEMÁTICA E CIÊNCIAS EXPERIMENTAIS Grupo 500 Planificação Anual / Critérios de Avaliação Disciplina: Matemática _ 9.º ano 2016 / 2017 Início Fim

Leia mais

Norma em matrizes e condicionamento de sistemas lineares

Norma em matrizes e condicionamento de sistemas lineares Norma em matrizes e condicionamento de sistemas lineares Laura Goulart UESB 11 de Fevereiro de 2019 Laura Goulart (UESB) Norma em matrizes e condicionamento de sistemas 11 de Fevereiro lineares de 2019

Leia mais

Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação

Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação Francisco A. Rodrigues Departamento de Matemática Aplicada e Estatística - SME Conceitos básicos Classificação não-supervisionada:

Leia mais

Aula 8 - Reconhecimento e Interpretação. Prof. Adilson Gonzaga

Aula 8 - Reconhecimento e Interpretação. Prof. Adilson Gonzaga Aula 8 - Reconhecimento e Interpretação Prof. Adilson Gonzaga Elementos de Visão Computacional: Visão Computacional Processamento de Baio Nível Processamento de Nível Intermediário Processamento de Alto

Leia mais

DEPARTAMENTO DE MATEMÁTICA INFORMÁTICA DISCIPLINA:

DEPARTAMENTO DE MATEMÁTICA INFORMÁTICA DISCIPLINA: ANO LETIVO 2016/2017 DEPARTAMENTO DE MATEMÁTICA INFORMÁTICA DISCIPLINA: Matemática (9º Ano) METAS CURRICULARES/CONTEÚDOS... 1º PERÍODO - (15 de setembro a 16 de dezembro) Metas Curriculares Conteúdos Aulas

Leia mais

Mineração de Dados em Biologia Molecular

Mineração de Dados em Biologia Molecular Mineração de Dados em Biologia Molecular Principais tópicos André C. P. L. F. de Carvalho Monitor: Valéria Carvalho Métodos baseados em distância Aprendizado baseado em instâncias Conceitos básicos KNN

Leia mais