Revisão. Meio ambiente da Recuperação de Informação. Linguagem Analógico x Digital

Revisão Meio ambiente da Recuperação de Informação Linguagem Analógico x Digital 1

Recuperação de Informação Recuperação de informação é o nome dado ao processo ou método pelo qual um potencial usuário de informação é capaz de converter a sua necessidade de informação em uma lista real de citações a documentos em um acervo contendo informações úteis para ele. (CALVIN MOOERS, 1951, p.25) Recuperação de Informação Para Saracevic (1999), a Recuperação de Informação pode ser considerada a vertente tecnológica da Ciência da Informação e é resultado da relação desta com a Ciência da Computação. Ciência da Informação Recuperação de Informação Ciência da Computação 2

Recuperação de Informação Para Saracevic (1999), a Recuperação de Informação pode ser considerada a vertente tecnológica da Ciência da Informação e é resultado da relação desta com a Ciência da Computação. Ciência da Informação Recuperação de Informação Ciência da Computação Recuperação de Informação 3

Documento Buckland (1991): o termo informaçãoé utilizado na maioria das vezes vinculado a um objeto que contém informação: um documento. Assim, o termo informação poderia também designar algo atribuído a um objeto, tal como dado e documento que se referem à informação, porque deles se espera que sejam informativos. Le Coadic (2004, p.5): documento é o termo genérico que designa os objetos portadores de informação. Um documento é todo artefato que representa ou expressa um objeto, uma ideia ou uma informação por meio de signos gráficos e icônicos (palavras, imagens, diagramas, mapas, figuras, símbolos), sonoros e visuais (gravados em suporte de papel ou eletrônicos). Documento Suzanne Briet (2006, p.10): Uma estrela é um documento? Um seixo rolando na torrente de um rio é um documento? Um animal vivo [na natureza] é um documento? Não. Mas as fotografias e os catálogos de estrelas, as pedras em um museu de mineralogia, e os animais que são catalogados e apresentados em um zoológico são documentos. qualquer signo físico ou simbólico, preservado ou registrado, com a intenção de representar, reconstruir ou demonstrar um fenômeno físico ou abstrato 4

Representação de Documentos Representação Descritiva Representação descritiva (ou Catalogação) tem como objetivo propor parâmetros e normas para representar/descrever um item informacional geralmente utilizando metadados. Representação Temática Análise de assunto de um documento e a colocação do resultado desta análise numa expressão linguística; Indexação Por extração O indexador seleciona no texto, palavras que serão utilizados para representar o documento Por atribuição Após a leitura do texto, o indexador escolhe em um vocabulário controlado, os termos mais adequados para representar o documento Indexação A indexação de um documento visa representar o seu conteúdo temático por meio de um conjunto de termos com o objetivo de sintetizar o seu conteúdo, ressaltando o que lhe é essencial. 5

Indexação Automática As dificuldades inerentes à indexação manual e a grande quantidade de documentos publicados e disponibilizados, justificaram estudos que buscavam soluções alternativas para auxiliar o indexador no exercício de sua atividade. As primeiras pesquisas em indexação automática aconteceram no final dos anos de 1950. A popularização da microinformática a partir dos anos de 1980, mas principalmente o surgimento da Web nos anos de 1990 fez com que o nível de interesse nas pesquisas sobre indexação automática permanecesse praticamente constante até os dias de hoje. Indexação Automática Vantagens: baixo custo; facilidade de aplicação a grandes conjuntos de documentos; homogeneidade desse processo quando realizados por algoritmos computacionais. O resultado da indexação realizada por seres humanos pode variar de um indexador para outro, bem como de um mesmo indexador em momentos diferentes. Um sistema computacional irá realizar a indexação de maneira uniforme, utilizando sempre os mesmos critérios para o qual foi programado, independentemente da quantidade de documentos ou de qualquer fator externo (ANDERSON; PEREZ-CARBALLO, 2001): 6

Indexação Automática PROCESSO 1. Identificação das palavras (tokens) do texto; 2. Remoção de palavras muito frequentes que são insuficientemente específicas para representar o conteúdo do documento (stop words); 3. Redução das palavras a uma forma normalizada ou ao seu radical (stemming); 4. Formação de termos compostos como termos de indexação; 5. Atribuição de peso a cada termo de indexação; Recuperação de Informação 7

Usuário Modelos Centrados no Usuário Wilson Kuhlthau Dervin Ellis Usuário Relevance Feedback Processo composto de interações sucessivas com o sistema no qual, após submeter sua expressão de busca e obter um primeiro conjunto de documento, o usuário marca ou sinaliza, aqueles documentos que ele considera relevantes. O processo de RelevanceFeedback pode ser resumido nos seguintes passos: O usuário formula uma consulta (expressão de busca) e submete ao sistema; O sistema retorna um conjunto inicial de documentos; O usuário marca como relevante (ou não-relevante) alguns dos documentos recuperados e submete esses documentos juntamente com sua expressão de busca ao novamente ao sistema; O sistema calcula uma melhor representação da necessidade de informação baseada no feedback do usuário. O sistema apresenta um novo conjunto de documentos presumivelmente com um aumento da precisão dos resultados. 8

Usuário Expansão de Consulta Expansão de consulta é o termo utilizado para referenciar os métodos e processos que visam melhorar a eficiência da recuperação de informação baseados no pressuposto de que as consultas definidas pelos usuários muitas vezes não refletem suas reais necessidades de informação. O objetivo principal é adicionar novos termos à consulta inicialmente formulada pelo usuário a fim de melhorar os resultados obtidos. Usuário Interfaces de Busca 9

Como as pessoas buscam informação? modelo linear (clássico) Como as pessoas buscam informação? modelo dinâmico a necessidade de informação varia durante o processo de busca. 11

Recuperação de Informação Modelos de Recuperação de Informação No modelo booleano um documento é representado por um conjunto de termos de indexação que podem ser definidos de forma intelectual (manual) por profissionais especializados ou automaticamente, utilizando algoritmos computacionais. As buscas são formuladas por meio de uma expressão booleana composta por termos ligados por operadores lógicos AND, OR e NOT e apresentam como resultado os documentos cuja representação satisfazem às restrições lógicas da expressão de busca. 12

Modelo Booleano Desmatamento AND Mata Atlântica Desmatamento Mata Atlântica Madeireiras Reflorestamento Desmatamento Amazônia Grilagem de terras Reflorestamento Modelo Booleano Operadores de Proximidade Surgimento dos sistemas de texto completo Operadores Termos adjacentes Desmatamento ADJ Amazônia Desmatamento NEAR/10 Amazônia Sistema STAIRS Desmatamento WITH Amazônia Desmatamento SAME Amazônia Frase Exata (mesmo parágrafo) (mesma frase) Recuperação de Informação ; Desmatamento na Amazônia Composição de Operadores Recuperação de ADJ (informação OR documentos) 13

Modelo Vetorial Desmatamento 0.7 Mata Atlântica 0.6 Madeireiras 0.3 Reflorestamento 0.2,,,,, 0,73 Desmatamento 0.8 Mata Atlântica 0.5 Causa 0.7 causa do desmatamento na mata atlântica Recuperação de Informação 14

Resultados de Busca Resultados de Busca 15

Resultados de busca Agrupamento(Clustering) - Grokker Digital Vaults 16

RECUPERAÇÃO DE INFORMAÇÃO NA WEB Recuperação de informação na WEB Sites de Busca (search engines/buscadores) Permitem ao usuário submeter sua expressão de busca e recuperar uma lista (geralmente ordenada) de endereços de páginas (URLs) que presumivelmente são relevantes para a sua necessidade de informação Em um acervo extremamente grande como é a Web é essencial uma indexação antecipada de seus documentos (páginas). A maioria dos mecanismos de busca da Web gera índices. Pelo caráter dinâmico da Web esses índices devem permanecer em constante processo de atualização 17

Recuperação de informação na WEB Índexação Não Automática O autor fornece dados sobre sua página e associa a ela uma ou mais categorias que descrevem o assunto tratado na página Automática Crowlers (robôs, spiders ou worms) Partindo de uma lista inicial de URLs, rastreiam a estrutura hipertextualda WEB, colhendo informações sobre as páginas que encontram; Indexam cada página utilizando métodos de indexação automática Recuperação de informação na WEB Indexação automática A indexação automática é realizada através de duas etapas: Seleção de endereços (URLs) de páginas; Indexação das páginas, gerando para cada uma um conjunto de termos de indexação. Existem programas que viajam através da Web a fim de selecionar URLs de páginas de potencial interesse para que sejam indexadas. Esses programas são chamados de crawlers. Partindo de uma lista inicial de URLs, esses programas rastreiam a estrutura hipertextual da Web colhendo informação sobre as páginas que encontram. 18

MEDIDAS DE AVALIAÇÃO Medidas de Avaliação Documentos relevantes para atender a necessidade de informação do usuário Documentos não relevantes para o usuário Para qualquer necessidade sempre haverá mais documentos não relevantes (-) do que relevantes (+); O problema está em recuperar o maior número possível de itens relevantes e o menor número possível de itens não relevantes; O quadrado menor representa o resultado de uma busca. 19

Medidas de Avaliação precisão (precision) Expressa o quanto o sistema é capaz de recuperar apenas itens relevantes. Foram recuperados 20 itens, sendo 6 relevantes e 14 não relevantes nº docs relevantes recuperados Precisão nº docs recuperados 6 Precisão = = 20 Precisão = 30% 0,3 Medidas de Avaliação revocação (recall) Expressa o quanto o sistema é capaz de recuperar todos os itens relevantes. Dos 12 documentos relevantes existente no corpus, apenas 6 foram recuperados Revocação nº docs relevantes recuperados nº docs relevantes 6 Revocação = = 12 Revocação = 50% 0,5 20

Medidas de Avaliação revocação x precisão Para melhorar a revocação deve-se fazer uma busca mais genérica, representado pelo quadrado maior. 9 Revocação = = 0,75 = 75% 12 9 Precisão = 0,18 = 18% 49 Revocação Precisão Medidas de Avaliação Revocação x Precisão 21