GSI024 - Organização e Recuperação da
|
|
- Carolina Barros Câmara
- 6 Há anos
- Visualizações:
Transcrição
1 GSI024 - Organização e Recuperação da Informação Ilmério Reis da Silva ilmerio@facom.ufu.br UFU/FACOM/BSI Arquivo 6 - Modelo Vetorial GSI024-ORI Pg:6. 1
2 Ranking baseado no modelo vetorial Considerações de desempenho GSI024-ORI Pg:6. 2
3 (Relembrando) Documento como vetor de termos cada documento pode ser visto como um vetor de termos (coluna na matriz termo-documento) cada termo é um eixo no espaço vetorial documentos são vetores nesse espaço o espaço tem milhares de eixos (dimensões) GSI024-ORI Pg:6. 3
4 Aplicações de Vetores de documentos Query by Example: Encontre documentos similares a um dado documento Busca aproximada Encontre documentos próximos a um dado vetor de documento GSI024-ORI Pg:6. 4
5 Intuição GSI024-ORI Pg:6. 5
6 Propriedades essenciais para proximidade no espaço vetorial if d 1 está próximo de d 2 então d 2 está próximo de d 1 (simetria) if d 1 está próximo de d 2 e d 2 está próximo de d 3 então d 1 não está distante de d 3 (transitividade) Nenhum documento está mais próximo de d i do que ele mesmo (reflexividade) GSI024-ORI Pg:6. 6
7 Primeiro corte distância euclidiana: distancia(d 1, d 2 ) = d 1 d 2 porque não é uma boa idéia para busca? tamanho do documento tem grande influência todos os documentos muito pequenos serão similares necessita normalização, por exemplo, observando ângulo e não distância euclidiana GSI024-ORI Pg:6. 7
8 Coseno não satisfaz transitividade GSI024-ORI Pg:6. 8
9 Coseno Normalização de pesos Como tornar todos os vetores com tamanho igual a 1 d j = (w 1,j, w 2,j,, w t,j ), onde t é o número de termos do vocabulário, logo, a dimensão do espaço vetorial Norma de d j : d j = t i w 2 i,j Peso normalizado: W i,j = w i,j d j GSI024-ORI Pg:6. 9
10 Vetor de pesos normalizados Tamanho do vetor normalizado D j = t Wi,j 2 = i t i w i,j t i w2 i,j 2 = 1 Com isso, documentos grandes não levarão vantagem Todos estarão próximos. GSI024-ORI Pg:6. 10
11 Similaridade baseada no coseno coseno do ângulo entre os vetores denominador normaliza os vetores GSI024-ORI Pg:6. 11
12 Similaridade baseada no coseno Para documentos normalizados o coseno é o próprio produto interno GSI024-ORI Pg:6. 12
13 Exemplo GSI024-ORI Pg:6. 13
14 Consultas no espaço vetorial Considere a consulta como um documento no espaço vetorial Seja d q o vetor relativo à consulta q Então: sim(d j, q) = ( t i=1 t i=1 w i,q w i,j ) ( t wi,d 2 i=1 ) wi,j 2 Obs: o vetor d q poucos termos. em geral é esparso, pois normalmente a consulta tem GSI024-ORI Pg:6. 14
15 Características do Modelo Vetorial um espaço algébrico bem formado a consulta pode ser vista como um documento pequeno a consulta também é um vetor no mesmo espaço possibilidade de medir a proximidade de todos os documentos com a consulta score/ranking natural possilidade de várias medidas de similaridade, ver survery em strehl/diss/node52.html GSI024-ORI Pg:6. 15
16 Modelo Vetorial na Web - Problemas indexação baseada em coleção estática a Web é uma coleção dinâmica GSI024-ORI Pg:6. 16
17 Modelo Vetorial e Frases indexar as frases com tf.idf para, por exemplo, tangerine trees há problemas com a dimensão do vocabulário que palavras combinar? uma alternativa são os índices posicionais GSI024-ORI Pg:6. 17
18 Consultas booleanas e Modelo Vetorial concepções diferentes do espaço o modelo booleano observa um retângulo e o vetorial um círculo. GSI024-ORI Pg:6. 18
19 Modelo Booleano Extendido (MIR) q or = k 1 k 2 : o ponto (0, 0) é o alvo a ser evitado sim(d j, q or ) = w 2 1,j + w2 2,j 2 GSI024-ORI Pg:6. 19
20 Modelo Booleano Extendido (MIR) q and = k 1 k 2 : o ponto (1, 1) é o alvo a ser alcançado sim(d j, q and ) = 1 (1 w1,j ) 2 + (1 w 2,j ) 2 2 GSI024-ORI Pg:6. 20
21 Wildcards e Modelo Vetorial transformar consultas em termos associados à wildcard query pesos podem influenciar e descaracterizar a consulta GSI024-ORI Pg:6. 21
22 Linguagem de consulta e score Linguagens: texto livre, frases, wildcard, etc. Miscelânia - considere para consultas texto livre: topo do ranking formado por documentos onde a frase está presente (com ou sem ranking) segundo grupo de documentos com todas as palavras da consulta (com ou sem ranking) terceiro grupo, para casamento parcial, um ranking baseado em tf.idf GSI024-ORI Pg:6. 22
23 Eficiência no cálculo do coseno O problema: encontrar os k topdocs É possível obter os k topdocs sem calcular todos os cosenos? Índices são projetados para obter esse conjunto em consultas pequenas (poucos termos) GSI024-ORI Pg:6. 23
24 Cálculo eficiente do coseno Armazene tf i,j para todo documento d j na lista invertida do termo k i Opcionalmente, armazena-se pesos baseados em tf.idf para obter o so- No processamento da consulta use acumuladores A j matório acumuladores para todo documento que possua pelo menos um termo da consulta pode ser inviável se a consulta possui termos muito frequentes GSI024-ORI Pg:6. 24
25 Lista invertida com freqüencias tf t,j foi adicionado à lista código unário ou γ podem ser usados em geral são valores pequenos GSI024-ORI Pg:6. 25
26 Obtendo os k topdocs Uso de seleção baseada em heap heap: árvore binária onde o nó tem similaridade maior que de seus decendentes GSI024-ORI Pg:6. 26
27 Obtendo os k topdocs Uso de seleção baseada em heap construído em 2n operações (O(n)) seleção do topo é O(1) seleção dos k = log n top em 2 log n para n = 1M e k = 100 custo de construção e seleção 10% do sorting GSI024-ORI Pg:6. 27
28 Gargalo Necessidade de calcular todos os cosenos Considerar apenas documentos com coseno diferente de zero Obter lista de documentos da união das listas dos termos da consulta Tentar inicialmente consulta conjuntiva (intersecção das listas-google) Se intesecção das listas dos x termos da consulta é vazia, tente conjunções de (x 1) termos GSI024-ORI Pg:6. 28
29 Limitando os acumuladores Ecolhendo os melhores Obtenha o topo da lista de cada termo Calcule a união dos topdocs de cada termo Calcule o coseno para os documentos na união Obtenha os topdocs baseado no coseno GSI024-ORI Pg:6. 29
30 Ordenando a lista invertida por tf i,j Idéia: obter documentos com altos valores de wf i,j Ordenar listas invertidas por wf i,j Obter termos por ordem de idf Obter blocos de documentos para cada termo Obter novos blocos até completar o número suficiente de acumuladores Anh et al GSI024-ORI Pg:6. 30
31 Poda por agrupamentos pré-processados. Obtenha aleatoriamente n documentos chamados ĺıderes Para cada documento assinale os documentos mais próximos, chamados seguidores Provavelmente cada ĺıder terá n seguidores Obtenha o ĺıder mais próximo da consulta Obtenha os k topdocs da consulta baeado na similaridade com os seguidores de L GSI024-ORI Pg:6. 31
32 Visualização - Poda por agrupamentos pré-processados. GSI024-ORI Pg:6. 32
33 Variações - Poda por agrupamentos pré-processados. Associe cada seguidor a três ĺıderes Obtenha os quatro ĺıderes mais próximos à consulta GSI024-ORI Pg:6. 33
34 Redução de Dimensionalidade Reduzir dimensões preservando distâncias Melhoraria cálculo do coseno Dois métodos Projeção aleatória Latent Semantic Indexing (LSI) GSI024-ORI Pg:6. 34
35 Projeção aleatória em k << m eixos Escolha aleatoriamente uma dimensão x 1 Para i = 2 to k Escolha aleatoriamente uma dimensão x i ortogonal a x 1,, x i 1 Projete cada vetor de documentos no subespaço formado por {x 1, x 2,, x k } GSI024-ORI Pg:6. 35
36 Reduzindo de 3 para 2 dimensões GSI024-ORI Pg:6. 36
37 Garantias Alta probabilidade de que as distâncias relativas sejam mantidas Teoria nas referências GSI024-ORI Pg:6. 37
38 Calculando uma projeção Projeção de n vetores de m dimensões em k dimensões: inicie com a matriz A m n de termos e documentos obtenha a matriz R k m, uma projeçõ ortogonal de A calcule W = R A a coluna j th da matriz W é o documento d j em k dimensões GSI024-ORI Pg:6. 38
39 Custo computacional Total de k m n multiplicações Existem técnicas de otimização (vide referências) Vantagem: a redução dimensional é pré-processada O cálculo do coseno em k << m dimensões é mais rápido GSI024-ORI Pg:6. 39
40 Redução baseada em LSI Redução dependente dos dados Elimina eixos redundantes Colapsa eixos relacionados, por exemplo, car, automobile Capítulo 18 e/ou seminários GSI024-ORI Pg:6. 40
41 Referências IIR 7; MIR 2.5 e 2.7.2; MG 4 Ranking with Effective Early Termination, Proc. 24th Annual International ACM SIGIR Conference, Anh, V.N. and A. Moffat Pruned query evaluation using precomputed impacts. SIGIR 2006, Random projection theorem, Dasgupta and Gupta. An elementary proof of the Johnson-Lindenstrauss Lemma (1999). Faster random projection - A.M. Frieze, R. Kannan, S. Vempala. Fast Monte-Carlo Algorithms for finding low-rank approximations. Symposium on Foundations of Computer Science, IEEE GSI024-ORI Pg:6. 41
GSI024 - Organização e Recuperação da
GSI024 - Organização e Recuperação da Informação Ilmério Reis da Silva ilmerio@facom.ufu.br UFU/FACOM/BSI Arquivo 5 - Peso de termos GSI024-ORI Pg:5. 1 Busca paramétrica usando atributos Regiões em documentos
Leia maisProfª Ana Lúcia Lima Marreiros Maia Profª Fabiana Cristina Bertoni
Profª Ana Lúcia Lima Marreiros Maia Profª Fabiana Cristina Bertoni Motivação e Objetivos Etapas do Desenvolvimento de um Sistema de Recuperação de Informações (SRI): Pré-processamento; Representação; Extração
Leia maisUniversidade do Sul de Santa Catarina Ciência da Computação Aula 09 Introdução a Análise de Textos Prof. Max Pereira
Universidade do Sul de Santa Catarina Ciência da Computação Técnicasde InteligênciaArtificial Aula 09 Introdução a Análise de Textos Prof. Max Pereira Processamento de Linguagem Natural Conjunto de técnicas
Leia maisRecuperação de Informações por Álgebra Linear Computacional
Recuperação de Informações por Álgebra Linear Computacional MAC499 - Projeto de Iniciação Científica Aluna: Ellen Hidemi Fukuda Orientador: Paulo José da Silva e Silva Departamento de Ciência da Computação
Leia maisLista de exercícios 2 Recuperação de Informação Textual
Lista de exercícios 2 Recuperação de Informação Textual 2 de dezembro de 2015 0.1 O que é o modelo bag-of-words? Porque ele é uma simplificação? Dê um exemplo em que ele estaria incorreto. 0.2 O que é
Leia maisTerm weighting: outras ideias
Term weighting: outras ideias Term Weighting i Diversas são as abordagens. Vamos discutir algumas ideias mais simples, porém conhecidas. i Abordagens 4 Pesos binários (já vimos) 4 Frequência (já vimos)
Leia maisModelo Espaço Vetorial. Mariella Berger
Modelo Espaço Vetorial Mariella Berger Agenda Introdução Atribuição de Pesos Frequência TF-IDF Similaridade Exemplo Vantagens e Desvantagens Modelo Espaço Vetorial Introdução Modelo Espaço Vetorial O modelo
Leia maisArquivos invertidos 39
Arquivos invertidos 39 Arquivos invertidos É um mecanismo que utiliza palavras para indexar uma coleção de documentos a fim de facilitar a busca e a recuperação Estruturas de um arquivo invertido Vocabulário
Leia maisRecuperação de Dado X Informação. Gerenciamento de Dados e Informação. Histórico. Recuperação de Informação. Histórico. Histórico
Recuperação de Dado X Informação Gerenciamento de Dados e Informação Recuperação de Informação Fernando Fonseca Ana Carolina Robson Fidalgo Comparação (matching) Recuperação de Dados Exata Recuperação
Leia maisRealimentação de Relevância
Wendel Melo Faculdade de Computação Universidade Federal de Uberlândia Recuperação da Informação Ciclo de realimentação onde uma consulta q recebida do usuário é transformada em uma consulta modificada
Leia maisRecuperação de Informações
Recuperação de Informações Ana Carolina Salgado & Fernando Fonseca Comparação (matching) Dados Inferência Modelo Ling Consulta Esp da Consulta Recuperação de Dado X Informação Recuperação de Recuperação
Leia maisDados no R n. Dados em altas dimensões 29/03/2017
Dados no R n Dados em altas dimensões Alguns dados são apresentados como vetores em R n Alguns dados não são apresentados como vetores mas podem ser representados como vetores (e.g. Texto) Texto Dados
Leia maisOrganizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU
Organizaçãoe Recuperaçãode Informação GSI521 Prof. Dr. Rodrigo Sanches Miani FACOM/UFU Modelo Vetorial Organização e Recuperação de Informação(GSI521) Motivação Discutido nos seguintes trabalhos: K. Spark
Leia maisGSI024 - Organização e Recuperação da
GSI024 - Organização e Recuperação da Informação Ilmério Reis da Silva ilmerio@facom.ufu.br Arquivo 7 - Avaliação GSI024-ORI Pg:7. 1 Sumário de resultados Tornando os resultado úteis ao usuário Como avaliar
Leia maisConsultas por Similaridade em Domínios de Dados Complexos
Consultas por Similaridade em Domínios de Dados Complexos Guilherme Felipe Zabot Orientador: Profº Dr Caetano Traina Jr Roteiro Objetivo Introdução Dados Complexos Representação de Dados Complexos Extração
Leia mais4 Recuperação de Informação
4 Recuperação de Informação No presente capítulo são apresentados os fundamentos da área de Recuperação de Informação utilizados em Mineração de Textos, como por exemplo, os modelos de representação de
Leia maisSVD. Single Value Decomposition 18/09/2017. Lema. Toda matriz A, com n linhas e d colunas, admite uma fatoração A= UDV T =
SVD Single Value Decomposition Lema. Toda matriz A, com n linhas e d colunas, admite uma fatoração A= UDV T = U é uma matriz com n linhas e r colunas (r rank de A) D é uma matriz diagonal r x r; V é uma
Leia maisRecuperação de Informação
Recuperação de Informação Estrutura de Dados II Mariella Berger 1 Roteiro Tarefas de Recuperação de Informação Modelos de Recuperação de Documentos Modelo Booleano Modelo Espaço Vetorial Recuperação de
Leia maisMelhorando a Recuperação de Informação
Recuperação de Informação e Web Mining 1 Melhorando a Recuperação de Informação O modelo de espaço vetorial Utiliza pesos para termos Permite o ranqueamento dos resultados Pode reduzir a dimensão do espaço
Leia maisOrganizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU
Organizaçãoe Recuperaçãode Informação GSI521 Prof. Dr. Rodrigo Sanches Miani FACOM/UFU Modelosde RI e o ModeloBooleano Organização e Recuperação de Informação(GSI521) Tópicos Modelagem em RI; Caracterização
Leia maisOrganização e Recuperação da Informação
GSI024 Organização e Recuperação da Informação Introdução Ilmério Reis da Silva ilmerio@facom.ufu.br www.facom.ufu.br/~ilmerio/ori UFU/FACOM - 2011/1 Arquivo 1a Introdução Porque RI? Problemas da solução
Leia mais03/07/2017. Modelo de Recuperação de Informação
Modelo de Recuperação de Informação Modelo de Recuperação de Informação Um modelo de recuperação de informação é a especificação formal de três elementos: a representação dos documentos; a representação
Leia maisProjeções Multi-dimensionais
Prof. Fernando V. Paulovich http://www.icmc.usp.br/~paulovic paulovic@icmc.usp.br Instituto de Ciências Matemáticas e de Computação (ICMC) Universidade de São Paulo (USP) 23 de setembro de 2010 Introdução
Leia maisDATA MINING & MACHINE LEARNING (I) Thiago Marzagão
DATA MINING & MACHINE LEARNING (I) Thiago Marzagão problema de trabalhar c/ textos: dimensionalidade A quantidade de colunas cresce rapidamente com a quantidade de documentos problema de trabalhar c/ textos:
Leia maisCompressão de Textos. Introdução. Introdução. Introdução. O volume de informação textual disponível on-line é imenso:
Compressão de Textos Estrutura de Dados II Prof. Guilherme Tavares de Assis Universidade Federal de Ouro Preto UFOP Instituto de Ciências Exatas e Biológicas ICEB Departamento de Computação DECOM O volume
Leia maisFUNDAMENTOS DE SISTEMAS LINEARES PARTE 1
FUNDAMENTOS DE SISTEMAS LINEARES PARTE 1 Prof. Iury V. de Bessa Departamento de Eletricidade Faculdade de Tecnologia Universidade Federal do Amazonas Revisão O que é um corpo (campo)? O que é um espaço
Leia maisMINERAÇÃO DE DADOS. Thiago Marzagão MINERAÇÃO DE TEXTOS. marzagao.1@osu.edu. Thiago Marzagão (UnB) MINERAÇÃO DE DADOS 1/2016 1 / 25
MINERAÇÃO DE DADOS Thiago Marzagão marzagao.1@osu.edu MINERAÇÃO DE TEXTOS Thiago Marzagão (UnB) MINERAÇÃO DE DADOS 1/2016 1 / 25 transformando textos em dados Documento 1: "Não trabalho para ter clientes;
Leia mais3 Recuperação de Informações Textuais
3 Recuperação de Informações Textuais Tudo deveria se tornar o mais simples possível, mas não simplificado. Albert Einstein Sistemas tradicionais de indexação costumam utilizar-se de termos-índice, que
Leia maisThiago Marzagão LSA, LDA
MINERAÇÃO DE DADOS Thiago Marzagão marzagao.1@osu.edu LSA, LDA Thiago Marzagão (UnB) MINERAÇÃO DE DADOS 1 / 16 problema de trabalhar c/ textos: dimensionalidade A quantidade de colunas cresce rapidamente
Leia maisSISTEMA PARA RECUPERAÇÃO DE INFORMAÇÃO DE DOWNLOADS DE SOFTWARES
SISTEMA PARA RECUPERAÇÃO DE INFORMAÇÃO DE DOWNLOADS DE SOFTWARES Elzo Soares Pereira Filho, Matheus Rossi de Oliveira Costa, Vinícius Lobo Silva, Luciene Chagas de Oliveira, UNIUBE Universidade de Uberaba
Leia maisCapítulo 4. Comitê BAS 35
4 Comitê BAS Devido à flexibilidade do algoritmo BAS, que aceita qualquer distribuição inicial para os exemplos, diversas heurísticas podem ser implementadas com o objetivo de criar classificadores de
Leia maisHashing: conceitos. Hashing
Hashing: conceitos hashing é uma técnica conhecida como espalhamento, mapeamento ou randomização que tenta distribuir dados em posições aleatórias de uma tabela (array) associa cada objeto (de um determinado
Leia maisO modelo espaço de vetores. vetorial. Marcelo Keese Albertini. Faculdade de Computação - UFU 12/03/2013. O modelo de espaço vetorial 1 / 27
Recuperação de Informação: O modelo de espaço vetorial Marcelo Keese Albertini Faculdade de Computação - UFU 12/03/2013 O modelo de espaço vetorial 1 / 27 Veremos hoje Modelo de espaço de vetores: representação
Leia maistextos documentos semi-estruturado
1 Mineração de Textos Os estudos em Aprendizado de Máquina normalmente trabalham com dados estruturados Entretanto, uma grande quantidade de informação é armazenada em textos, que são dados semiestruturados
Leia maisO modelo espaço de vetores. vetorial. Marcelo Keese Albertini. Faculdade de Computação - UFU. O modelo de espaço vetorial 1 / 25
Recuperação de Informação: O modelo de espaço vetorial Marcelo Keese Albertini Faculdade de Computação - UFU O modelo de espaço vetorial 1 / 25 Veremos hoje Modelo de espaço de vetores: representação vetorial
Leia maisGeometria Computacional
Geometria Computacional Claudio Esperança Paulo Roma Cavalcanti Estrutura do Curso Aspectos teóricos e práticos Construção e análise de algoritmos e estruturas de dados para a solucionar problemas geométricos
Leia maisComputação Gráfica. Engenharia de Computação. CEFET/RJ campus Petrópolis. Prof. Luis Retondaro. Aula 3. Transformações Geométricas
Computação Gráfica Engenharia de Computação CEFET/RJ campus Petrópolis Prof. Luis Retondaro Aula 3 Transformações Geométricas no plano e no espaço Introdução (Geometria) 2 Pontos, Vetores e Matrizes Dado
Leia maisUm estudo sobre diferentes modelos de Recuperação de Informação em documentos semi-estruturados (XML) -
Um estudo sobre diferentes modelos de Recuperação de Informação em documentos semi-estruturados (XML) - Implementação, Análise, Avaliação e Comparação Autor: Mirella Silva Junqueira 1, Orientador: Prof.
Leia maisAuto-Fusão na Recuperação de Imagens Baseadas em Conteúdo.
Auto-Fusão na Recuperação de Imagens Baseadas em Conteúdo. Severino Jr, Osvaldo IMES - FAFICA osvaldo@fafica.br Gonzaga, Adilson Escola de Engenharia de São Carlos - USP adilson@sc.usp.br Resumo Neste
Leia maisMineração de Textos. Mineração de Textos
Mineração de Textos Os estudos em Aprendizado de Máquina normalmente trabalham com dados estruturados Entretanto, uma grande quantidade de informação é armazenada em textos, que são dados semi-estruturados
Leia maisGAAL - Exame Especial - 12/julho/2013. Questão 1: Considere os pontos A = (1, 2, 3), B = (2, 3, 1), C = (3, 1, 2) e D = (2, 2, 1).
GAAL - Exame Especial - /julho/3 SOLUÇÕES Questão : Considere os pontos A = (,, 3), B = (, 3, ), C = (3,, ) e D = (,, ) (a) Chame de α o plano que passa pelos pontos A, B e C e de β o plano que passa pelos
Leia maisCriptografia Pós-Quântica Corretores de Erros
Universidade de São Paulo Criptografia Pós-Quântica P com Códigos C Corretores de Erros Rafael Misoczki IME/USP misoczki@linux.ime.usp.br Prof. Dr. Paulo S. L. M. Barreto Poli/USP pbarreto@larc.usp.br
Leia maisAula 7 Medidas de Distância. Profa. Elaine Faria UFU
Aula 7 Medidas de Distância Profa. Elaine Faria UFU - 2017 Agradecimentos Este material é baseado No livro Tan et al, 2006 Nos slides do prof Andre C. P. L. F. Carvalho Agradecimentos Ao professor André
Leia maisORI: Pontuação e o modelo de espaço vetorial
1/1 ORI: Pontuação e o modelo de espaço vetorial Marcelo Keese Albertini Faculdade de Computação Universidade Federal de Uberlândia Índice 2/1 3/1 Veremos hoje Ordenando resultados de busca: importância
Leia maisResolução da Questão 1 Item I (Texto Definitivo)
Questão Considerando que, por meio do cálculo integral, é possível calcular áreas delimitadas por gráficos de curvas, atenda, necessariamente, o que se pede nos itens de I a IV a seguir. I Calcule os pontos
Leia maisVisualização de Texto e Documento
Visualização de Texto e Documento SCC5836 Visualização Computacional Prof. Fernando V. Paulovich http://www.icmc.usp.br/~paulovic paulovic@icmc.usp.br Instituto de Ciências Matemáticas e de Computação
Leia maisESPAÇOS VETORIAIS EUCLIDIANOS
ESPAÇOS VETORIAIS EUCLIDIANOS Produto interno em espaços vetoriais Estamos interessados em formalizar os conceitos de comprimento de um vetor e ângulos entre dois vetores. Esses conceitos permitirão uma
Leia maisNews Clipping. Como calcular ângulos entre notícias pode ajudar na prevenção à lavagem de dinheiro. Willian Gigliotti
News Clipping Como calcular ângulos entre notícias pode ajudar na prevenção à lavagem de dinheiro Willian Gigliotti wgigliotti@gmail.com Departamento de Ciências da Computação Instituto de Matemática e
Leia maisÂngulo e ortogonalidade em espaços com produto interno
Ângulo e ortogonalidade em espaços com produto interno Juliana Pimentel juliana.pimentel@ufabc.edu.br http://hostel.ufabc.edu.br/ juliana.pimentel Sala 507-2 - Bloco A, Torre 2 Definir a noção de ângulo
Leia maisInformação de Links no Modelo Vetorial Usando uma Estrutura Funcional
Informação de Links no Modelo Vetorial Usando uma Estrutura Funcional Ilmério R. Silva 1, João N. Souza 1, Renata F. Lisboa Moura 1, Berthier Ribeiro-Neto 2 1 Faculdade de Computação Universidade Federal
Leia maisAVALIAÇÃO DA QUALIDADE DO USO DE WAVELETS PARA RECUPERAÇÃO, CLASSIFICAÇÃO E AGRUPAMENTO DA INFORMAÇÃO TEXTUAL. Fabrício Raphael Silva Ferreira
AVALIAÇÃO DA QUALIDADE DO USO DE WAVELETS PARA RECUPERAÇÃO, CLASSIFICAÇÃO E AGRUPAMENTO DA INFORMAÇÃO TEXTUAL Fabrício Raphael Silva Ferreira Dissertação de Mestrado apresentada ao Programa de Pós-graduação
Leia maisReconhecimento de Faces com PCA e Redes Neurais
Reconhecimento de Faces com Sandro Santos Andrade Programa de Pós-graduação em Mecatrônica Setembro / 2003 Visão Computacional Computacional Computação Computação Visual Computação Computação Gráfica Introdução
Leia mais4 Algoritmo de reconstrução de curvas
4 Algoritmo de reconstrução de curvas Como visto na introdução, o algoritmo proposto neste trabalho é constituído pelas seguintes etapas: 1. Agrupamento espacial dos pontos de amostragem 2. Processamento
Leia maisAula 6 Mineração Streams Representação dos Dados. Profa. Elaine Faria UFU
Aula 6 Mineração Streams Representação dos Dados Profa. Elaine Faria UFU - 2017 Agradecimentos Este material é baseado No livro Tan et al, 2006 Nos slides do prof. Andre C. P. L. F. Carvalho Agradecimentos
Leia maisSumário. RObust Clustering using links ROCK. Thiago F. Covões. Motivação. Motivação. Links. Market basket analys. Motivação
Sumário RObust Clustering using links ROCK Thiago F. Covões Motivação Links Função de qualidade Algoritmo Vantagens/Desvantagens SCC5895Análise de Agrupamento de Dados 1 2 Motivação Atributos categóricos/nominais/discretos
Leia maisExame de Ingresso. Física Aplicada Física Computacional. Segundo Semestre de 2014
Exame de Ingresso Física Aplicada Física Computacional Segundo Semestre de 2014 Código do(a) Candidato(a): 1 2 Mecânica Figura 1: questão 1 Figura 2: questão 2 1. A Fig. 1 exibe a evolução temporal do
Leia maisTipos de Índices. Profa. Dra. Cristina Dutra de Aguiar Ciferri
Tipos de Índices Cristina Dutra de Aguiar Ciferri Tipos de Índice Ordenados em um único nível primário agrupamento (cluster) secundário Estruturas de dados de árvores índices multiníveis árvores-b, árvores-b+
Leia maisLista de Exercícios de Cálculo 3 Primeira Semana
Lista de Exercícios de Cálculo 3 Primeira Semana Parte A 1. Se v é um vetor no plano que está no primeiro quadrante, faz um ângulo de π/3 com o eixo x positivo e tem módulo v = 4, determine suas componentes.
Leia maisSCC0173 Mineração de Dados Biológicos
SCC0173 Mineração de Dados Biológicos Preparação de Dados: Parte B Prof. Ricardo J. G. B. Campello SCC / ICMC / USP 1 Créditos O material a seguir consiste de adaptações e extensões: dos originais gentilmente
Leia maisMCZA Processamento de Linguagem Natural Semântica e similaridade de palavras: Parte III
MCZA017-13 Processamento de Linguagem Natural Semântica e similaridade de palavras: Parte III Prof. Jesús P. Mena-Chalco jesus.mena@ufabc.edu.br 1Q-2018 1 Bibliografia Daniel Jurafsky & James H. Martin.
Leia maisSegundo trabalho de Organização e Recuperação da Informação
FACOM- UFU Professor: Wendel Melo Segundo trabalho de Organização e Recuperação da Informação 2018-02 Descrição Este trabalho consiste em duas etapas: 1. Implementação de cálculo da ponderação TF-IDF,
Leia maisIndexação e Modelos Clássicos
Wendel Melo Faculdade de Computação Universidade Federal de Uberlândia Recuperação da Informação Adaptado do Material da Profª Vanessa Braganholo - IC/UFF Construção de um Sistema de Busca 1ª Etapa: Definir
Leia maisAlgoritmo CLIQUE (Clustering In QUEst)
Algoritmo CLIQUE (Clustering In QUEst) Marcelo Camacho de Souza Nº USP: 3199616 Roteiro Algoritmo CLIQUE Exemplo Prático Complexidade Computacional Vantagens e Desvantagens Autores (IBM Almaden Research
Leia maisCombinando Fatores de Ponderação para Melhorar a
Computer on the Beach 2014 - Artigos Completos 32 Combinando Fatores de Ponderação para Melhorar a Classificação de Textos Frederico P. de Souza 1, Patrick M. Ciarelli 2, Elias de Oliveira 1 1 Departamento
Leia maisOutline. 2 Abordagem probabiĺıstica para ORI. 3 Teoria de probabilidades. 4 Princípio de ranking probabiĺıstico
Outline 1 Recapitulação 2 Abordagem probabiĺıstica para ORI 3 Teoria de probabilidades 4 Princípio de ranking probabiĺıstico 5 Apreciação&Extensões Modelo probabiĺıstico 1 / 47 Retorno de relevância: ideia
Leia maisAprendizado de Máquina (Machine Learning)
Ciência da Computação (Machine Learning) Aula 02 Representação dos dados Pré-processamento Max Pereira Tipo de Dados Os atributos usados para descrever objetos de dados podem ser de diferentes tipos: Quantitativos
Leia maisCódigos de blocos lineares. Outubro de 2017
Códigos de blocos lineares Outubro de 2017 Vamos introduzir alguns conceitos sobre códigos de blocos lineares. Definições: Deve-se assumir que a informação saída da fonte de informação é da forma binária
Leia maisPonderação de termos
Ponderação de termos Wendel Melo Faculdade de Computação Universidade Federal de Uberlândia Recuperação da Informação Adaptado do Material da Profª Vanessa Braganholo - IC/UFF Parte da ideia de que, dentro
Leia mais25/04/2017. Modelo de Recuperação de Informação
Modelo de Recuperação de Informação Modelo de Recuperação de Informação Um modelo de recuperação de informação é a especificação formal de três elementos: a representação dos documentos; a representação
Leia maisAmbiente de Data Warehouse Para Imagens Médicas Baseado Em Similaridade
Universidade de São Paulo - USP Instituto de Ciências Matemáticas e de Computação - ICMC Programa de Pós-Graduação em Ciências da Computação e Matemática Computacional Ambiente de Data Warehouse Para Imagens
Leia maisDescritores de Imagens
Descritores de Imagens André Tavares da Silva PPGCA/UDESC Outubro de 2017 André Tavares da Silva (PPGCA/UDESC) Descritores de Imagens Outubro de 2017 1 / 17 Introdução Excelentes pesquisas sobre descritores
Leia maisRECONHECIMENTO FACIAL UTILIZANDO EIGENFACES
Universidade Federal do Rio de Janeiro Instituto Alberto Luiz Coimbra de Pós-Graduação e Pesquisa de Engenharia Programa de Engenharia de Sistemas e Computação Rio de Janeiro, RJ Brasil RECONHECIMENTO
Leia maisDATA MINING & MACHINE LEARNING (I) Thiago Marzagão
DATA MINING & MACHINE LEARNING (I) Thiago Marzagão transformando textos em dados Documento 1: Não trabalho para ter clientes; tenho clientes para poder trabalhar. Documento 2: Não se pode forçar a inteligência
Leia maisReconhecimento de Gestos
Reconhecimento de Gestos Henrique Augusto Richter Tópicos em Visão Computacional Universidade Federal do Paraná Sumário Introdução Utilização Problemas Trabalhos Artigo 1 Artigo 2 Project Soli Introdução
Leia maisEsquemas de identificação baseados no problema
Esquemas de identificação baseados no problema da decodificação de síndromes André Jucovsky Bianchi ajb@ime.usp.br Departamento de Ciência da Computação Instituto de Matemática e Estatística Universidade
Leia maisOrganizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU
Organizaçãoe Recuperaçãode Informação GSI521 Prof. Dr. Rodrigo Sanches Miani FACOM/UFU Índice invertido Organização e Recuperação de Informação(GSI521) Laboratório 1- Pergunta Como os termos foram associados
Leia maisVisualização Computacional
Visualização Computacional Séries Temporais Rafael Umino Nakanishi Universidade de São Paulo Instituto de Ciências Matemáticas e Computação Novembro de 2013 Rafael Umino Nakanishi (USP-ICMC) Visualização
Leia maisVisualização por Computador: Teoria, Prática e Aplicações
Visualização por Computador: Teoria, Prática e Aplicações Noções de Geometria e Álgebra Linear Claudio Esperança Programa de Engenharia de Sistemas e Computação COPPE / UFRJ Master of Information Management,
Leia maisResolução da Questão 1 Item I Texto definitivo
Questão As trajetórias dos aviões A e B são representadas em um sistema de coordenadas cartesianas ortogonais xoy. A trajetória do avião A, que voa à velocidade de km/h, está sobre o eixo
Leia maisÁlgebra Linear e Geometria Anaĺıtica. Espaços Vetoriais Reais
universidade de aveiro departamento de matemática Álgebra Linear e Geometria Anaĺıtica Agrupamento IV (ECT, EET, EI) Capítulo 4 Espaços Vetoriais Reais Definição de espaço vetorial real [4 01] O conjunto
Leia maisImage Descriptors: color
Image Descriptors: color Image Processing scc0251 www.icmc.usp.br/ moacir moacir@icmc.usp.br ICMC/USP São Carlos, SP, Brazil 2011 Moacir Ponti Jr. (ICMCUSP) Image Descriptors: color 2011 1 / 29 Agenda
Leia maisModelo Booleano Wendel Melo
Wendel Melo Faculdade de Computação Universidade Federal de Uberlândia Recuperação da Informação Adaptado do Material da Profª Vanessa Braganholo - IC/UFF Modelo simples; Baseado em teoria dos conjuntos
Leia maisAprendizado de Máquina (Machine Learning)
Ciência da Computação (Machine Learning) Aula 07 Classificação com o algoritmo knn Max Pereira Classificação com o algoritmo k-nearest Neighbors (knn) Como os filmes são categorizados em gêneros? O que
Leia maisResolução da Questão 1 Item I (Texto Definitivo)
Questão Considerando que, por meio do cálculo integral, é possível calcular áreas delimitadas por gráficos de curvas, atenda, necessariamente, o que se pede nos itens de I a IV a seguir. I Calcule os pontos
Leia maisRedução de Dimensionalidade, DCDistance, e CARFRE
Redução de Dimensionalidade, DCDistance, e CARFRE Fabrício Olivetti de França Universidade Federal do ABC Tópicos 1. Redução de Dimensionalidade 2. Análise de Componentes Principais 3. DCDistance - Document-Class
Leia maisClassificação: Árvores de Decisão e k-nn. Eduardo Raul Hruschka
Classificação: Árvores de Decisão e k-nn Eduardo Raul Hruschka Árvores de Decisão Métodos para aproximar funções discretas, representadas por meio de uma árvore de decisão; Árvores de decisão podem ser
Leia maisÁlgebra e cálculo relacional. Andre Noel
Álgebra e cálculo relacional Andre Noel Introdução Introdução A SQL é baseada na álgebra e no cálculo relacional Introdução A SQL é baseada na álgebra e no cálculo relacional O modelo de dados precisa
Leia maisKanade-Lucas-Tomasi Tracker
COPPE-UFRJ Kanade-Lucas-Tomasi Tracker Ricardo Marroquim data entrega: pós-graduação: 18/05/2016 graduação: 27/05/2016 1 NOTAÇÕES Uma imagem é definida como uma função f (x, y), x, y Z, onde f (x, y) :
Leia maisLista 8 de Álgebra Linear /01 Produto Interno
Lista 8 de Álgebra Linear - / Produto Interno. Sejam u = (x x e v = (y y. Mostre que temos um produto interno em R nos seguintes casos: (a u v = x y + x y. (b u v = x y x y x y + x y.. Sejam u = (x y z
Leia maisMétodos de Acesso Métrico
Métodos de Acesso Métrico http://www.icmc.usp.br/img/novafaixa.png Arthur Emanuel de O. Carosia Profa. Dra. Cristina Dutra de Aguiar Ciferri Índice Conceitos Básicos Métodos de Acesso Onion-tree 2 Índice
Leia maisEconometria. Operações básicas de vetores. Operações básicas de vetores. Operações básicas de vetores. Independência de vetores
Operações básicas de vetores Econometria Adição Suponha dois vetores x e y com n componentes cada: 1. Alguns tópicos importantes de Álgebra Linear Operações básicas de vetores Multiplicação escalar x é
Leia maisUniversidade Federal de Alagoas Instituto de Matemática. Geometria. Prof. Thales Vieira
Universidade Federal de Alagoas Instituto de Matemática Geometria Prof. Thales Vieira 2014 Geometria Euclidiana Espaço R n R n = {(x 1,...,x n ); x i 2 R} Operações entre elementos de R n Soma: (x 1,x
Leia maisHashing convencional...
Hashing M.C.F. de Oliveira & Cristina Ciferri 2006/2007 Fonte: Folk & Zoelick, File Structures 1 Hashing convencional... Revisão... 2 1 Hashing 0 chave de busca K = LOWELL h(k) endereço 4 1 2 3 4 5...
Leia maisAGRUPAMENTO DE ESCOLAS ANSELMO DE ANDRADE
AGRUPAMENTO DE ESCOLAS ANSELMO DE ANDRADE DEPARTAMENTO DE MATEMÁTICA E CIÊNCIAS EXPERIMENTAIS Grupo 500 Planificação Anual / Critérios de Avaliação Disciplina: Matemática _ 9.º ano 2016 / 2017 Início Fim
Leia maisNorma em matrizes e condicionamento de sistemas lineares
Norma em matrizes e condicionamento de sistemas lineares Laura Goulart UESB 11 de Fevereiro de 2019 Laura Goulart (UESB) Norma em matrizes e condicionamento de sistemas 11 de Fevereiro lineares de 2019
Leia maisUniversidade de São Paulo Instituto de Ciências Matemáticas e de Computação
Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação Francisco A. Rodrigues Departamento de Matemática Aplicada e Estatística - SME Conceitos básicos Classificação não-supervisionada:
Leia maisAula 8 - Reconhecimento e Interpretação. Prof. Adilson Gonzaga
Aula 8 - Reconhecimento e Interpretação Prof. Adilson Gonzaga Elementos de Visão Computacional: Visão Computacional Processamento de Baio Nível Processamento de Nível Intermediário Processamento de Alto
Leia maisDEPARTAMENTO DE MATEMÁTICA INFORMÁTICA DISCIPLINA:
ANO LETIVO 2016/2017 DEPARTAMENTO DE MATEMÁTICA INFORMÁTICA DISCIPLINA: Matemática (9º Ano) METAS CURRICULARES/CONTEÚDOS... 1º PERÍODO - (15 de setembro a 16 de dezembro) Metas Curriculares Conteúdos Aulas
Leia maisMineração de Dados em Biologia Molecular
Mineração de Dados em Biologia Molecular Principais tópicos André C. P. L. F. de Carvalho Monitor: Valéria Carvalho Métodos baseados em distância Aprendizado baseado em instâncias Conceitos básicos KNN
Leia mais