GSI024 Organização e Recuperação da Informação Introdução Ilmério Reis da Silva ilmerio@facom.ufu.br www.facom.ufu.br/~ilmerio/ori UFU/FACOM - 2011/1 Arquivo 1a Introdução
Porque RI? Problemas da solução clássica BD Recuperação de dados Baseada em dados estruturados Linguagem de consulta bem definida Respostas precisas Premissas Usuário conhece a estrutura do BD Usuário conhece a linguagem de consulta Problemas Consultas restritivas => respostas pequenas ou vazias Consultas genéricas => respostas muito grandes Não trata com dados não estruturados Página:0.2
O Desafio Gerenciar terabytes de dados é fácil, o desafio é maximizar sua utilidade para o maior conjunto de usuários possível David Lindley, CACM 10/2009 Página:0.3
Abordagem de RI Recuperação de informação Dados não estruturados ou semi-estruturados Textos Imagens Vídeos, etc. Busca por similaridade Página:0.4
Definição de RI Def. Recuperação de informação é a subárea da computação que estuda a representação, o armazenamento e acesso a itens de dados (documentos) não estruturados (textos, imagens, vídeos, etc) com o objetivo de facilitar a tarefa do usuário de encontrar informação de seu interesse localizadas em grandes coleções. Página:0.5
Problemas no contexto de RI Baixa precisão grande volume de resultados Baixa revocação resultados sem respostas relevantes Resultados sensíveis ao vocabulário Dificuldades quando a informação está espalhada em vários documentos Página:0.6
(%) Unstructured (text) vs. structured (database) data in 1996 (http://nlp.stanford.edu/ir-book) 160 140 120 100 80 60 Unstructured Structured 40 20 0 Data volume Market Cap Página:0.7
Unstructured (text) vs. structured (database) data in 2006 160 140 120 100 80 60 Unstructured Structured 40 20 0 Data volume Market Cap Página:0.8
Unstructured (text) vs. structured (database) data in 2009 Página:0.9
Problemas de RI na Web It seems that the amount of Web content outpaces technological progress. G. Antoniou and F. van Harmelen, A Semantic Web Primer, 2008 Página:0.10
Um desafio em RI Como usar a Web para encontrar páginas sobre times de basquete que disputaram a liga nacional em 2006 e que são mantidos por universidades ou centros universitários. Página:0.11
Perspectiva Histórica 4000 anos de tentativas de organizar a informação (Sumerian Literacy Catalogue, 2000 B.C.) Século XVIII surge o conceito de índice Década de 60, RI como subárea da computação Nos últimos anos vários limites são quebrados, como: eficiência das estruturas de dados algoritmos para consultas complexas métodos de compressão modelos adaptados Novos contextos e nova terminologia (filtering/routing/pulling) Página:0.12
Gerações de Sistemas de RI automação de fichários busca por palavras-chave interfaces gráficas, bibliotecas digitais e hipertexto Web com browsing e recuperação Recuperação de imagens por conteúdo Página:0.13
RI na Web Caracterização coleta e indexação estrutura de links baixo custo de obter informação (alta disponibilidade) grande audiência liberdade de publicação novos problemas difícil encontrar informação dinâmica, dificultando a indexação usuário quer rapidez excesso de informação irrelevante Página:0.14
Conceitos em RI Documento: um registro de dados armazenados que, em geral, possui um tema e inclui uma parte textual Precisão: a falta de estrutura formal conduz a uma imprecisão inerente à tarefa de recuperar informação Relevância: indica a importância de um documento para uma consulta de acordo com uma métrica de similaridade definida pelo modelo Recuperação e browsing: usuário busca (pulling) Filtragem: sistema envia para usuário(pushing) Representação de documentos: estrutura; conjunto de palavras; parte textual completa; stopwords, stemming; Página:0.15
Subsistemas de um SRI Necessidade de informação Formulação da consulta (perda) Consulta Documentos Indexação (perda) Palavras-chave Processamento da consulta (Ranking) Documentos recuperados (Visualização) Conjunto-resposta ordenado por um grau de relevância do documento em relação à consulta (incerteza) Página:0.16
Modelagem do problema de formulação da consulta Formulação da consulta Palavras chaves Booleanas Frases Imagem exemplo um problema : perda de informação Página:0.17
Modelagem do problema de representação dos documentos Representação dos documentos Vetor de palavras chaves Indicação de contexto das palavras Frases Documentos semi-estruturados Vetor de características de imagens um problema : perda de informação Página:0.18
Modelagem Computacional do casamento consulta-documento Funções de similaridade Operações entre vetores Distância euclidiana Cosseno etc. Funções probabilísticas (redes bayesianas) Algoritmos Genéticos Redes Neurais Conjuntos Difusos (Fuzzy) etc. O problema : não há padrão Página:0.19
Um exemplo Página:0.20
Representação de documentos e consultas Vetor de termos Obs: matriz esparsa Página:0.21
Similaridade Cosseno entre vetores Abordagem probabilística padrão BM25 Página:0.22
Processamento da Consulta Duas abordagens para cálculo do cosseno Baseada em documentos: percorre vetor de termos Baseada em termos: percorre lista invertida Página:0.23
Processamento da Consulta Arquivo invertido A onda a onda anda aonde anda a onda? a onda ainda ainda onda ainda anda aonde? aonde? a onda a onda Manuel Bandeira Página:0.24
Recuperação de Imagem Baseada em Conteúdo Extração de características Cor Textura Forma Vetor de características Funções de similaridade Distância euclidiana Cosseno Etc. Uso de Arquivo Invertido? Página:0.25
Considerações Finais Crescimento do volume dados não estruturados: textos, imagens, vídeos, etc. ==> Relevância do Problema de RI Problemas importantes: abismo semântico entre conceitos de alto nível e representação dos documentos por meio de características de baixo nível, por exemplo, em imagens Indexação de contextos em documentos e consultas, ou perfis de usuários Inserção de semântica nos documentos por meio de anotações (tags) para aumento da precisão Página:0.26
Considerações Finais Tendências: Descoberta de conhecimentos no Twitter e em Redes Sociais Segundo Bernees-Lee as redes sociais são uma armadilha para a WEB => repositórios próprios não compartilhados com outros websites Learning to Ranking Página:0.27
Exercício de aquecimento [ISR, pg 47]: Escreva um programa (em qualquer linguagem) que calcule o número de ocorrências de cada palavra de um texto (ou de um conjunto de textos). Apresente a lista de palavras em ordem decrescente de ocorrências. Considere o tratamento de algumas anomalias no arquivo, por exemplo, pontuação, hífen, letras maiúsculas/minúsculas, etc. Página:0.28
Referências [IIR, Cap 1]: Slides-Introdução [MIR, Cap 1] [ISR, pg 47] ### Página:0.29