Revisão. Meio ambiente da Recuperação de Informação. Linguagem Analógico x Digital

Documentos relacionados
Recuperação de informação na WEB

Recuperar informação consiste em identificar, no conjunto de documentos de um sistema, quais atendem à necessidade de informação do usuário.

Para onde vamos. Recuperação de Informação na WEB. Medidas de Avaliação. Recuperação de informação na WEB

Representação da Informação Automação de Unidades de Informação

Ontologias na Representação e na Recuperação de Informação. EDBERTO FERNEDA UNESP-Marília

01/08/2018. Recuperação de Informação

04/04/2017. Período 2: Recuperação de Informação. Recuperação de Informação

03/07/2017. Modelo de Recuperação de Informação

Medidas de Avaliação

25/04/2017. Modelo de Recuperação de Informação

A INDEXAÇÃO NO PROCESSO DE DESCRIÇÃO DOCUMENTAL

Linguagens Documentárias. Profa. Lillian Alvares Faculdade de Ciência da Informação, Universidade de Brasília

ORIENTAÇÕES DE RESPOSTA DAS ATIVIDADES FORMATIVAS 1

Medidas de Avaliação. Após a execução de uma busca, pode-se dividir os documentos do corpus nos seguintes conjuntos: Recuperados não recuperados

03/07/2017. Documento e suas representações

COMPUTADORES, DOCUMENTO, AUTENTICIDADE

Indexação. Profa. Lillian Alvares Faculdade de Ciência da Informação Universidade de Brasília

Orientações de resposta ATIVIDADES FORMATIVAS 3

A Interação Humano-Computador

Aplicação de uma Técnica Tradicional de Expansão de Consulta ao Modelo TR+

MANUAL DE PESQUISA E RESERVA NO SISTEMA PERGAMUM CATÁLOGO DAS BIBLIOTECAS DO SISTEMA DE BIBLIOTECAS DA UFS - SIBIUFS

Castro (2008, p.7) define a palavra ontologia de forma mais simplificada:

Indexação e Modelos Clássicos

1.1 META VEM DO PREFIXO GREGO E SIGNIFICA JUNTO A, DEPOIS DE, ENTRE, COM PREFIXO QUE INDICA ALGO QUE SE APLICA A SI MESMO

POLÍTICA DE INDEXAÇÃO PARA BIBLIOTECAS UNIVERSITÁRIAS

Sistemas de Organização do Conhecimento

Realimentação de Relevância

Scopus e Web of Science

4 Recuperação de Informação

05/05/2015. Recuperação de Informação

Arquivos invertidos 39

SUPREMO TRIBUNAL FEDERAL Secretaria de Tecnologia da Informação Coordenadoria de Sistemas BIBLIOTECA DIGITAL. Glossário

EMENTAS BIBLIOTECONOMIA INGRESSANTES 2016/1 E 2016/2

Profª Ana Lúcia Lima Marreiros Maia Profª Fabiana Cristina Bertoni

Recuperação de Dado X Informação. Gerenciamento de Dados e Informação. Histórico. Recuperação de Informação. Histórico. Histórico

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

Planejamento da Elaboração de Índice

Organização da Informação

Recuperação de Informações

Sumário: Tipos de Metadados

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

Padrão para disponibilização de conteúdo

03/07/2017. Introdução. Meio Ambiente da Recuperação da Informação

Terminologia Documental e sua aplicação: circuito do documento, análise documental, acesso e recuperação da informação

GIRS - GENETIC INFORMATION RETRIEVAL SYSTEM - UMA PROPOSTA EVOLUTIVA PARA SISTEMAS DE RECUPERAÇÃO DE INFORMAÇÕES

DESCOBERTA DO CONHECIMENTO COM O USO DE TEXT MINING APLICADA AO SAC TEXT MINING. Aluno José Lino Uber. Orientador Paulo Roberto Dias

Análise Sintática de Frases utilizando Gramáticas Livres de Contexto Probabilísticas

Aula 16. Tópicos Especiais II Banco de Dados. Prof. Dr. Dilermando Piva Jr.

SERVIÇO PÚBLICO FEDERAL UNIVERSIDADE FEDERAL DO RIO GRANDE INSTITUTO DE CIÊNCIAS HUMANAS E DA INFORMAÇÃO - ICHI - INDEXAÇÃO: TEORIA E PRÁTICA

EMENTAS CURSO DE BIBLIOTECONOMIA VERSÃO 2009/1 1º PERÍODO

Metodologia LILACS. Objetivo: Conhecer a metodologia LILACS e seus componentes.

Universidade do Sul de Santa Catarina Ciência da Computação Aula 09 Introdução a Análise de Textos Prof. Max Pereira

Proposta do seminário

Descrever o lugar. Nesta aula, que inicia o segundo módulo do

FUNDAMENTAÇÃO TEÓRICO-METODOLÓGICA

Bancos de Dados Notas de Aula Introdução Prof. Dr. Daniel A. Furtado

Resolução de Problemas de Busca

Denise Gomes Silva Morais Cavalcante. Programa de Pós-graduação em Ciências da Informação/ECA- USP. Orientador: Nair Yumiko Kobashi

Luciana Danielli BIREME: centro latino-americano e do caribe de informação em ciências da saúde. convênio OPAS/MS/MEC 1967

MAPA CONCEITUAL E A MODELAGEM CONCEITUAL DE SISTEMAS DE HIPERTEXTO

ABD Arquivos e Bibliotecas Digitais

Introdução. Qual é a importância dos bancos de dados no nosso dia a dia? Imaginem como seria as grandes empresas sem os bancos de dados?

Leitura de Documentos. Priscila Engiel

A CASA DO SIMULADO DESAFIO QUESTÕES MINISSIMULADO 44/360

Bancos de Dados Orientados a Grafos. Mateus Lana e Thiago Santana

Seleção de fontes de informação científica. Biblioteca da Universidade de Aveiro 2013

Banco de Dados. Introdução. Profa. Flávia Cristina Bernardini

ARQUIVOLOGIA. Legislação Arquivística. Resoluções do CONARQ Parte 6. Prof. Antonio Botão

APERFEIÇOAMENTO E DESENVOLVIMENTO DE FERRAMENTAS DO CONTROLE DA AUTOMATIZAÇÃO DO BACKUP E RECUPERAÇÃO DOS DADOS DE SATÉLITE EM FITA

Indexação automática. CBD/ECA Indexação: teoria e prática

12/07/2017. Período 4: Indexação automática. processamento da linguagem natural. Indexação

AULA 3. Busca em bases de dados e estratégia de busca

Este capítulo aborda os fundamentos principais aplicados neste trabalho.

GESTÃO DE DOCUMENTOS DE ARQUIVO

Tribunal de Contas da União

A QUESTÃO DAS PALAVRAS- CHAVE E A PROPOSTA DO USO DE VOCABULÁRIO CONTROLADO PARA AS REVISTAS CIENTÍFICAS DA UNESP

CONTEÚDOS. 1 O que é a Web of Science? 2 Registo 3 Pesquisa 4 Resultados de pesquisa 5 Personalizar

VISITAS TÉCNICAS EM BIBLIOTECAS UNIVERSITÁRIAS

Revisão e indexação de registros LILACS- Express e Marcação de registros para bases BVS (catalogação cooperativa)

Indexadores: o que são e qual sua importância? UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL. Rejane Raffo Klaes

Interação Humano-Computador Apresentação e Visualização das Informações PROFESSORA CINTIA CAETANO

Introdução. descrever os tipos de interfaces e linguagens oferecidas por um SGBD. mostrar o ambiente de programas dos SGBD s

3 Recuperação de Informações Textuais

Introdução 03/05/2017

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

Introdução a Ciência da Computação Estrutura e Organização das Informações PROFESSORA CINTIA CAETANO

1 Introdução Motivação

Rosane Minghim e Guilherme P. Telles

A BIBLIOTECA DE BABEL

Data Warehouse ETL. Rodrigo Leite Durães.

Desenvolvimento de um Web Crawler para indexação de documentos científicos

Aula 01. Sistemas Analógicos e Digitais

Este guia tem a finalidade de orientar o usuário quanto ao uso do acervo, aos serviços prestados e regulamento da biblioteca.

Tutorial de Pesquisa

CONHECIMENTOS ESPECÍFICOS

MULTIMÍDIA E CARTOGRAFIA

Transcrição:

Revisão Meio ambiente da Recuperação de Informação Linguagem Analógico x Digital 1

Recuperação de Informação Recuperação de informação é o nome dado ao processo ou método pelo qual um potencial usuário de informação é capaz de converter a sua necessidade de informação em uma lista real de citações a documentos em um acervo contendo informações úteis para ele. (CALVIN MOOERS, 1951, p.25) Recuperação de Informação Para Saracevic (1999), a Recuperação de Informação pode ser considerada a vertente tecnológica da Ciência da Informação e é resultado da relação desta com a Ciência da Computação. Ciência da Informação Recuperação de Informação Ciência da Computação 2

Recuperação de Informação Para Saracevic (1999), a Recuperação de Informação pode ser considerada a vertente tecnológica da Ciência da Informação e é resultado da relação desta com a Ciência da Computação. Ciência da Informação Recuperação de Informação Ciência da Computação Recuperação de Informação 3

Documento Buckland (1991): o termo informaçãoé utilizado na maioria das vezes vinculado a um objeto que contém informação: um documento. Assim, o termo informação poderia também designar algo atribuído a um objeto, tal como dado e documento que se referem à informação, porque deles se espera que sejam informativos. Le Coadic (2004, p.5): documento é o termo genérico que designa os objetos portadores de informação. Um documento é todo artefato que representa ou expressa um objeto, uma ideia ou uma informação por meio de signos gráficos e icônicos (palavras, imagens, diagramas, mapas, figuras, símbolos), sonoros e visuais (gravados em suporte de papel ou eletrônicos). Documento Suzanne Briet (2006, p.10): Uma estrela é um documento? Um seixo rolando na torrente de um rio é um documento? Um animal vivo [na natureza] é um documento? Não. Mas as fotografias e os catálogos de estrelas, as pedras em um museu de mineralogia, e os animais que são catalogados e apresentados em um zoológico são documentos. qualquer signo físico ou simbólico, preservado ou registrado, com a intenção de representar, reconstruir ou demonstrar um fenômeno físico ou abstrato 4

Representação de Documentos Representação Descritiva Representação descritiva (ou Catalogação) tem como objetivo propor parâmetros e normas para representar/descrever um item informacional geralmente utilizando metadados. Representação Temática Análise de assunto de um documento e a colocação do resultado desta análise numa expressão linguística; Indexação Por extração O indexador seleciona no texto, palavras que serão utilizados para representar o documento Por atribuição Após a leitura do texto, o indexador escolhe em um vocabulário controlado, os termos mais adequados para representar o documento Indexação A indexação de um documento visa representar o seu conteúdo temático por meio de um conjunto de termos com o objetivo de sintetizar o seu conteúdo, ressaltando o que lhe é essencial. 5

Indexação Automática As dificuldades inerentes à indexação manual e a grande quantidade de documentos publicados e disponibilizados, justificaram estudos que buscavam soluções alternativas para auxiliar o indexador no exercício de sua atividade. As primeiras pesquisas em indexação automática aconteceram no final dos anos de 1950. A popularização da microinformática a partir dos anos de 1980, mas principalmente o surgimento da Web nos anos de 1990 fez com que o nível de interesse nas pesquisas sobre indexação automática permanecesse praticamente constante até os dias de hoje. Indexação Automática Vantagens: baixo custo; facilidade de aplicação a grandes conjuntos de documentos; homogeneidade desse processo quando realizados por algoritmos computacionais. O resultado da indexação realizada por seres humanos pode variar de um indexador para outro, bem como de um mesmo indexador em momentos diferentes. Um sistema computacional irá realizar a indexação de maneira uniforme, utilizando sempre os mesmos critérios para o qual foi programado, independentemente da quantidade de documentos ou de qualquer fator externo (ANDERSON; PEREZ-CARBALLO, 2001): 6

Indexação Automática PROCESSO 1. Identificação das palavras (tokens) do texto; 2. Remoção de palavras muito frequentes que são insuficientemente específicas para representar o conteúdo do documento (stop words); 3. Redução das palavras a uma forma normalizada ou ao seu radical (stemming); 4. Formação de termos compostos como termos de indexação; 5. Atribuição de peso a cada termo de indexação; Recuperação de Informação 7

Usuário Modelos Centrados no Usuário Wilson Kuhlthau Dervin Ellis Usuário Relevance Feedback Processo composto de interações sucessivas com o sistema no qual, após submeter sua expressão de busca e obter um primeiro conjunto de documento, o usuário marca ou sinaliza, aqueles documentos que ele considera relevantes. O processo de RelevanceFeedback pode ser resumido nos seguintes passos: O usuário formula uma consulta (expressão de busca) e submete ao sistema; O sistema retorna um conjunto inicial de documentos; O usuário marca como relevante (ou não-relevante) alguns dos documentos recuperados e submete esses documentos juntamente com sua expressão de busca ao novamente ao sistema; O sistema calcula uma melhor representação da necessidade de informação baseada no feedback do usuário. O sistema apresenta um novo conjunto de documentos presumivelmente com um aumento da precisão dos resultados. 8

Usuário Expansão de Consulta Expansão de consulta é o termo utilizado para referenciar os métodos e processos que visam melhorar a eficiência da recuperação de informação baseados no pressuposto de que as consultas definidas pelos usuários muitas vezes não refletem suas reais necessidades de informação. O objetivo principal é adicionar novos termos à consulta inicialmente formulada pelo usuário a fim de melhorar os resultados obtidos. Usuário Interfaces de Busca 9

10

Como as pessoas buscam informação? modelo linear (clássico) Como as pessoas buscam informação? modelo dinâmico a necessidade de informação varia durante o processo de busca. 11

Recuperação de Informação Modelos de Recuperação de Informação No modelo booleano um documento é representado por um conjunto de termos de indexação que podem ser definidos de forma intelectual (manual) por profissionais especializados ou automaticamente, utilizando algoritmos computacionais. As buscas são formuladas por meio de uma expressão booleana composta por termos ligados por operadores lógicos AND, OR e NOT e apresentam como resultado os documentos cuja representação satisfazem às restrições lógicas da expressão de busca. 12

Modelo Booleano Desmatamento AND Mata Atlântica Desmatamento Mata Atlântica Madeireiras Reflorestamento Desmatamento Amazônia Grilagem de terras Reflorestamento Modelo Booleano Operadores de Proximidade Surgimento dos sistemas de texto completo Operadores Termos adjacentes Desmatamento ADJ Amazônia Desmatamento NEAR/10 Amazônia Sistema STAIRS Desmatamento WITH Amazônia Desmatamento SAME Amazônia Frase Exata (mesmo parágrafo) (mesma frase) Recuperação de Informação ; Desmatamento na Amazônia Composição de Operadores Recuperação de ADJ (informação OR documentos) 13

Modelo Vetorial Desmatamento 0.7 Mata Atlântica 0.6 Madeireiras 0.3 Reflorestamento 0.2,,,,, 0,73 Desmatamento 0.8 Mata Atlântica 0.5 Causa 0.7 causa do desmatamento na mata atlântica Recuperação de Informação 14

Resultados de Busca Resultados de Busca 15

Resultados de busca Agrupamento(Clustering) - Grokker Digital Vaults 16

RECUPERAÇÃO DE INFORMAÇÃO NA WEB Recuperação de informação na WEB Sites de Busca (search engines/buscadores) Permitem ao usuário submeter sua expressão de busca e recuperar uma lista (geralmente ordenada) de endereços de páginas (URLs) que presumivelmente são relevantes para a sua necessidade de informação Em um acervo extremamente grande como é a Web é essencial uma indexação antecipada de seus documentos (páginas). A maioria dos mecanismos de busca da Web gera índices. Pelo caráter dinâmico da Web esses índices devem permanecer em constante processo de atualização 17

Recuperação de informação na WEB Índexação Não Automática O autor fornece dados sobre sua página e associa a ela uma ou mais categorias que descrevem o assunto tratado na página Automática Crowlers (robôs, spiders ou worms) Partindo de uma lista inicial de URLs, rastreiam a estrutura hipertextualda WEB, colhendo informações sobre as páginas que encontram; Indexam cada página utilizando métodos de indexação automática Recuperação de informação na WEB Indexação automática A indexação automática é realizada através de duas etapas: Seleção de endereços (URLs) de páginas; Indexação das páginas, gerando para cada uma um conjunto de termos de indexação. Existem programas que viajam através da Web a fim de selecionar URLs de páginas de potencial interesse para que sejam indexadas. Esses programas são chamados de crawlers. Partindo de uma lista inicial de URLs, esses programas rastreiam a estrutura hipertextual da Web colhendo informação sobre as páginas que encontram. 18

MEDIDAS DE AVALIAÇÃO Medidas de Avaliação Documentos relevantes para atender a necessidade de informação do usuário Documentos não relevantes para o usuário Para qualquer necessidade sempre haverá mais documentos não relevantes (-) do que relevantes (+); O problema está em recuperar o maior número possível de itens relevantes e o menor número possível de itens não relevantes; O quadrado menor representa o resultado de uma busca. 19

Medidas de Avaliação precisão (precision) Expressa o quanto o sistema é capaz de recuperar apenas itens relevantes. Foram recuperados 20 itens, sendo 6 relevantes e 14 não relevantes nº docs relevantes recuperados Precisão nº docs recuperados 6 Precisão = = 20 Precisão = 30% 0,3 Medidas de Avaliação revocação (recall) Expressa o quanto o sistema é capaz de recuperar todos os itens relevantes. Dos 12 documentos relevantes existente no corpus, apenas 6 foram recuperados Revocação nº docs relevantes recuperados nº docs relevantes 6 Revocação = = 12 Revocação = 50% 0,5 20

Medidas de Avaliação revocação x precisão Para melhorar a revocação deve-se fazer uma busca mais genérica, representado pelo quadrado maior. 9 Revocação = = 0,75 = 75% 12 9 Precisão = 0,18 = 18% 49 Revocação Precisão Medidas de Avaliação Revocação x Precisão 21