Organização e Recuperação da Informação



Documentos relacionados
Organizaçãoe Recuperação de Informação GSI521. Prof. Rodrigo Sanches Miani FACOM/UFU

04/03/2013. Gerenciamento de Dados e Informação. Recuperação de Dado X Informação. Histórico

GBC043 Sistemas de Banco de Dados. Introdução. Ilmério Reis da Silva UFU/FACOM

Disciplina de Banco de Dados Introdução

Roteiro. BCC321 - Banco de Dados I. Conceitos Básicos. Conceitos Básicos. O que é um banco de dados (BD)?

PEER DATA MANAGEMENT SYSTEM

SISTEMA GERENCIADOR DE BANCO DE DADOS

Banco de Dados I. Apresentação (mini-currículo) Conceitos. Disciplina Banco de Dados. Cont... Cont... Edson Thizon

Hoje é inegável que a sobrevivência das organizações depende de dados precisos e atualizados.

Recuperação. Profa. Lillian Alvares Faculdade de Ciência da Informação Universidade de Brasília

Consoles do Adobe Experience Manager

RECUPERAÇÃO DE DOCUMENTOS TEXTO USANDO MODELOS PROBABILISTICOS ESTENDIDOS

Banco de Dados. Aula 1 - Prof. Bruno Moreno 16/08/2011

UNIVERSIDADE FEDERAL DO PARANÁ UFPR Bacharelado em Ciência da Computação

Opala: uma biblioteca de indexação e busca de textos e imagens por conteúdo

Paginas em Branco: O sistema possui a possibilidade de configuração, que remove automaticamente as páginas em branco.

Gerenciamento de Dados e Informação Fernando Castor

ADMINISTRAÇÃO DOS RECURSOS DE DADOS

ADMINISTRAÇÃO DOS RECURSOS DE DADOS

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

OBTENDO CONHECIMENTO A PARTIR DOS TWITTES PESSOAIS. FRANTZ, Miguel Airton 1 ; FROZZA, Angelo Augusto 2 Instituto Federal Catarinense, Camboriú/SC

REPOSITÓRIO DIGITAL UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL. UFRGS Porto Alegre, RS Brasil 2009

MANUAL JOOMLA 2.5 PORTAL INTERNET. Ministério do Esporte

2 Conceitos Gerais de Classificação de Documentos na Web

Manual do Painel Administrativo

Banco de Dados. Conceitos e Arquitetura de Sistemas de Banco de Dados. Profa. Flávia Cristina Bernardini

Resultados Experimentais

LISTA DE EXERCÍCIOS. Mede a capacidade de comunicação de computadores e dispositivos. Operam em diferentes plataformas de hardware

UNIVERSIDADE REGIONAL DE BLUMENAU CENTRO DE CIÊNCIAS EXATAS E NATURAIS CURSO DE CIÊNCIAS DA COMPUTAÇÃO (Bacharelado)

Programação com acesso a BD. Prof.: Clayton Maciel Costa clayton.maciel@ifrn.edu.br

Evolução. Tópicos. Bancos de Dados - Introdução. Melissa Lemos. Evolução dos Sistemas de Informação Esquemas Modelos. Características de SGBDs

Engenharia de Software

Introdução ao GED Simone de Abreu

O Gerenciamento de Documentos Analógico/Digital

XDOC. Solução otimizada para armazenamento e recuperação de documentos

Manual Vivo Sync. Manual do Usuário. Versão Copyright Vivo

O Software Face Match

Manual Backup Online. Manual do Usuário. Versão Copyright Backup Online

Pós-Graduação em Engenharia Elétrica Inteligência Artificial

UNIVERSIDADE FEDERAL DA BAHIA - UFBA

Introdução à Banco de Dados. Definição

Manual TIM PROTECT BACKUP. Manual do Usuário. Versão Copyright TIM PROTECT BACKUP

UTILIZAÇÃO DO AMBIENTE COLABORATIVO TIDIA-AE PELO GRUPO DE GERENCIAMENTO DO VOCABULÁRIO CONTROLADO DO SIBiUSP - BIÊNIO

EMENTAS DAS DISCIPLINAS

BIBLIOTECA DIGITAL DA UFRGS: implementação e perspectivas

Fundamentos dos Sistemas de Informação Organização de Dados e Informações

O que é Grid Computing

1) O QUE NÃO É BANCO DE DADOS?

GERENCIAL SEPLAG CARTILHA AGENDA. Sumário

Grupo de Banco de Dados da UFSC

UM ESTUDO DE CASO SOBRE A INDEXAÇÃO AUTOMÁTICA DE DOCUMENTOS OFICIAIS DA UENP BASEADO EM LAYOUTS

Manual do Usuário Nextel Cloud. Manual do Usuário. Versão Copyright Nextel

SERVICE DESK MANAGER SDM. Manual do Sistema - DPOI

Banco de Dados. Uma coleção de dados relacionados [ELMASRI/NAVATHE]

Dado: Fatos conhecidos que podem ser registrados e têm um significado implícito. Banco de Dados:

Manual Vivo Sync. Manual do Usuário. Versão Copyright Vivo

Introdução e conceitos. Capítulo 1

Engenharia de Software

Semântica para Sharepoint. Busca semântica utilizando ontologias

Proposta Revista MARES DE MINAS

Mesa Redonda Novas agendas de atuação e os perfis profissionais em bibliotecas universitárias

Manual do Usuário Nextel Cloud. Manual do Usuário. Versão Copyright Nextel

ARQUIVOLOGIA - TIPOLOGIAS DOCUMENTAIS E SUPORTES FÍSICOS. Prof. Antonio Victor Botão

Boas Práticas em Sistemas Web muito além do HTML...

Aula 02 Modelagem de Dados. Banco de Dados. Aula 02 Modelagem de Dados. Superior /2011 Redes Computadores - Disciplina: Banco de Dados -

MATRIZ CURRICULAR CURRÍCULO PLENO 1.ª SÉRIE 2.ª SÉRIE CURSO SUPERIOR DE TECNOLOGIA EM DESENVOLVIMENTO DE SOFTWARE (ÁREA: INFORMÁTICA)

AQUISIÇÃO / INVENTÁRIO. Integração dos módulos de aquisição (sugestões/indicações de compra) com o módulo de tratamento da informação

Conceitos básicos. Aplicações de banco de dados. Conceitos básicos (cont.) Dado: Um fato, alguma coisa sobre a qual uma inferência é baseada.

EMENTAS DAS DISCIPLINAS

Os equipamentos multifuncionais devem possuir digitalizador (scanner) com as seguintes características mínimas:

ORGANIZAÇÃO DA INFORMAÇÃO EM REPOSITÓRIOS DIGITAIS. Marisa Bräscher Fernanda de Souza Monteiro

RECUPERANDO INFORMAÇÃO SOBRE TEXTOS PUBLICADOS NO TWITTER

O PaperPort 12 Special Edition (SE) possui uma grande variedade de novos e valiosos recursos que ajudam a gerenciar seus documentos.

Recuperação de Informação na Web. Recuperação de informação na Web

Desenvolvimento de Sistema WEB de Gerenciamento de Conteúdo para a empresa SC PRINT

Anote aqui as informações necessárias:

Redes Sociais. Engajamento do Cliente Porque devo investir um tempo do meu dia em minhas redes sociais. Redes Sociais 2015.

EVOLUÇÃO DE SOFTWARE

Image Enable: conceito

MATERIAL DIDÁTICO: APLICAÇÕES EMPRESARIAIS SISTEMA DE APOIO À DECISÃO (SAD)

O e-docs foi testado e homologado pela Microsoft via certificadora internacional Verisign.

Metadados. 1. Introdução. 2. O que são Metadados? 3. O Valor dos Metadados

Engenharia de Software II

Como acessar O acesso é através do site da Biblioteca: ou diretamente através do endereço

Laboratório de Mídias Sociais

Número de pessoas com acesso à internet passa de 120 milhões

Automação de Locais Distantes

Busca e organização da informação audiovisual na web: Experiência no Laboratório de Tecnologias Intelectuais

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

Autoria Web Apresentação e Visão Geral sobre a Web

BIG DATA INTRODUÇÃO. Humberto Sandmann

OBJETOS DE APRENDIZAGEM

Web Semântica. Web Semântica. uma

Etapas da evolução rumo a tomada de decisão: Aplicações Isoladas: dados duplicados, dados inconsistentes, processos duplicados.

MANUAL USUÁRIO AUDATEX WEB

T U T O R I A I S WEB OF SCIENCE TUTORIAL. Biblioteca da Escola de Engenharia da UFRGS. WEB OF SCIENCE - Tutorial

Processos Técnicos - Aulas 4 e 5

Transcrição:

GSI024 Organização e Recuperação da Informação Introdução Ilmério Reis da Silva ilmerio@facom.ufu.br www.facom.ufu.br/~ilmerio/ori UFU/FACOM - 2011/1 Arquivo 1a Introdução

Porque RI? Problemas da solução clássica BD Recuperação de dados Baseada em dados estruturados Linguagem de consulta bem definida Respostas precisas Premissas Usuário conhece a estrutura do BD Usuário conhece a linguagem de consulta Problemas Consultas restritivas => respostas pequenas ou vazias Consultas genéricas => respostas muito grandes Não trata com dados não estruturados Página:0.2

O Desafio Gerenciar terabytes de dados é fácil, o desafio é maximizar sua utilidade para o maior conjunto de usuários possível David Lindley, CACM 10/2009 Página:0.3

Abordagem de RI Recuperação de informação Dados não estruturados ou semi-estruturados Textos Imagens Vídeos, etc. Busca por similaridade Página:0.4

Definição de RI Def. Recuperação de informação é a subárea da computação que estuda a representação, o armazenamento e acesso a itens de dados (documentos) não estruturados (textos, imagens, vídeos, etc) com o objetivo de facilitar a tarefa do usuário de encontrar informação de seu interesse localizadas em grandes coleções. Página:0.5

Problemas no contexto de RI Baixa precisão grande volume de resultados Baixa revocação resultados sem respostas relevantes Resultados sensíveis ao vocabulário Dificuldades quando a informação está espalhada em vários documentos Página:0.6

(%) Unstructured (text) vs. structured (database) data in 1996 (http://nlp.stanford.edu/ir-book) 160 140 120 100 80 60 Unstructured Structured 40 20 0 Data volume Market Cap Página:0.7

Unstructured (text) vs. structured (database) data in 2006 160 140 120 100 80 60 Unstructured Structured 40 20 0 Data volume Market Cap Página:0.8

Unstructured (text) vs. structured (database) data in 2009 Página:0.9

Problemas de RI na Web It seems that the amount of Web content outpaces technological progress. G. Antoniou and F. van Harmelen, A Semantic Web Primer, 2008 Página:0.10

Um desafio em RI Como usar a Web para encontrar páginas sobre times de basquete que disputaram a liga nacional em 2006 e que são mantidos por universidades ou centros universitários. Página:0.11

Perspectiva Histórica 4000 anos de tentativas de organizar a informação (Sumerian Literacy Catalogue, 2000 B.C.) Século XVIII surge o conceito de índice Década de 60, RI como subárea da computação Nos últimos anos vários limites são quebrados, como: eficiência das estruturas de dados algoritmos para consultas complexas métodos de compressão modelos adaptados Novos contextos e nova terminologia (filtering/routing/pulling) Página:0.12

Gerações de Sistemas de RI automação de fichários busca por palavras-chave interfaces gráficas, bibliotecas digitais e hipertexto Web com browsing e recuperação Recuperação de imagens por conteúdo Página:0.13

RI na Web Caracterização coleta e indexação estrutura de links baixo custo de obter informação (alta disponibilidade) grande audiência liberdade de publicação novos problemas difícil encontrar informação dinâmica, dificultando a indexação usuário quer rapidez excesso de informação irrelevante Página:0.14

Conceitos em RI Documento: um registro de dados armazenados que, em geral, possui um tema e inclui uma parte textual Precisão: a falta de estrutura formal conduz a uma imprecisão inerente à tarefa de recuperar informação Relevância: indica a importância de um documento para uma consulta de acordo com uma métrica de similaridade definida pelo modelo Recuperação e browsing: usuário busca (pulling) Filtragem: sistema envia para usuário(pushing) Representação de documentos: estrutura; conjunto de palavras; parte textual completa; stopwords, stemming; Página:0.15

Subsistemas de um SRI Necessidade de informação Formulação da consulta (perda) Consulta Documentos Indexação (perda) Palavras-chave Processamento da consulta (Ranking) Documentos recuperados (Visualização) Conjunto-resposta ordenado por um grau de relevância do documento em relação à consulta (incerteza) Página:0.16

Modelagem do problema de formulação da consulta Formulação da consulta Palavras chaves Booleanas Frases Imagem exemplo um problema : perda de informação Página:0.17

Modelagem do problema de representação dos documentos Representação dos documentos Vetor de palavras chaves Indicação de contexto das palavras Frases Documentos semi-estruturados Vetor de características de imagens um problema : perda de informação Página:0.18

Modelagem Computacional do casamento consulta-documento Funções de similaridade Operações entre vetores Distância euclidiana Cosseno etc. Funções probabilísticas (redes bayesianas) Algoritmos Genéticos Redes Neurais Conjuntos Difusos (Fuzzy) etc. O problema : não há padrão Página:0.19

Um exemplo Página:0.20

Representação de documentos e consultas Vetor de termos Obs: matriz esparsa Página:0.21

Similaridade Cosseno entre vetores Abordagem probabilística padrão BM25 Página:0.22

Processamento da Consulta Duas abordagens para cálculo do cosseno Baseada em documentos: percorre vetor de termos Baseada em termos: percorre lista invertida Página:0.23

Processamento da Consulta Arquivo invertido A onda a onda anda aonde anda a onda? a onda ainda ainda onda ainda anda aonde? aonde? a onda a onda Manuel Bandeira Página:0.24

Recuperação de Imagem Baseada em Conteúdo Extração de características Cor Textura Forma Vetor de características Funções de similaridade Distância euclidiana Cosseno Etc. Uso de Arquivo Invertido? Página:0.25

Considerações Finais Crescimento do volume dados não estruturados: textos, imagens, vídeos, etc. ==> Relevância do Problema de RI Problemas importantes: abismo semântico entre conceitos de alto nível e representação dos documentos por meio de características de baixo nível, por exemplo, em imagens Indexação de contextos em documentos e consultas, ou perfis de usuários Inserção de semântica nos documentos por meio de anotações (tags) para aumento da precisão Página:0.26

Considerações Finais Tendências: Descoberta de conhecimentos no Twitter e em Redes Sociais Segundo Bernees-Lee as redes sociais são uma armadilha para a WEB => repositórios próprios não compartilhados com outros websites Learning to Ranking Página:0.27

Exercício de aquecimento [ISR, pg 47]: Escreva um programa (em qualquer linguagem) que calcule o número de ocorrências de cada palavra de um texto (ou de um conjunto de textos). Apresente a lista de palavras em ordem decrescente de ocorrências. Considere o tratamento de algumas anomalias no arquivo, por exemplo, pontuação, hífen, letras maiúsculas/minúsculas, etc. Página:0.28

Referências [IIR, Cap 1]: Slides-Introdução [MIR, Cap 1] [ISR, pg 47] ### Página:0.29