Recuperação de Informação Recuperação de Informação Recuperar informação consiste em identificar, no conjunto de documentos de um sistema, quais atendem à necessidade de informação do usuário. 1
Recuperação de Informação A recuperação de informação envolve: um acervo documental; pessoas que buscam por documentos relevantes para satisfazer suas necessidades de informação. Recuperar informação implica em operar seletivamente um estoque de informação envolve processos cognitivos difíceis de serem formalizados. A utilização de recursos computacionais nessa tarefa parte de inevitáveis simplificações teóricas e de adequações de conceitos subjetivos relevância necessidade de informação informação O processo de recuperação de informação 2
O processo de recuperação de informação Documento 3
Documento Documentos Segundo Buckland (1991): o termo informação é utilizado na maioria das vezes vinculado a um objeto que contém informação: um documento. Assim, o termo informação poderia também designar algo atribuído a um objeto, tal como dado e documento que se referem à informação, porque deles se espera que sejam informativos. Para Le Coadic (2004, p.5): documento é o termo genérico que designa os objetos portadores de informação. Um documento é todo artefato que representa ou expressa um objeto, uma ideia ou uma informação por meio de signos gráficos e icônicos (palavras, imagens, diagramas, mapas, figuras, símbolos), sonoros e visuais (gravados em suporte de papel ou eletrônicos). O processo de recuperação de informação 4
Representação de documentos Representação de documentos A principal característica do processo de representação da informação é a substituição de uma entidade linguística longa e complexa - o texto do documento - por sua descrição abreviada. O uso de tal sumarização não é apenas uma consequência de restrições práticas quanto ao volume de material a ser armazenado e recuperado. Essa sumarização é desejável pois sua função é demonstrar a essência do documento. Ela funciona então como um artifício para enfatizar o que é essencial no documento considerando sua recuperação. Novellino (1996) 5
Representação de documentos Representação Descritiva (catalogação descritiva) Representação Temática (catalogação de assunto) Representação Descritiva (catalogação descritiva) Representa as características específicas do documento, denominada descrição bibliográfica, que permite a individualização do documento. Ela também define e padroniza os pontos de acesso, responsáveis pela busca e recuperação da informação, assim como pela reunião de documentos semelhantes, por exemplo, todas as obras de um determinado autor ou de uma série específica. (MAIMONE; SILVEIRA; TÁLAMO, 2011) 6
Representação Descritiva (catalogação descritiva) É composta pelo conjunto de características próprias ou atribuídas ao documento, que o individualiza em um catálogo, repositório ou outro sistema informacional. É necessário algum modo de padronização, tanto na estrutura de descrição (elementos descritivos ou metadados) como também nos valores que devem ser representados na estrutura de descrição. (ALVES; SANTOS, 2013). Proporcionar a caracterização do recurso, tornando-o único e, ao mesmo tempo, reunindo-o com outros recursos semelhantes. Com a representação é possível garantir: o armazenamento consistente dos dados de um documento; garantir o acesso físico ou digital ao documento; melhorar a busca e recuperação dos recursos que passam a ser identificáveis nos sistemas; etc (ALVES, 2010). Representação Descritiva (catalogação descritiva) Marc 7
Representação Descritiva (catalogação descritiva) Dublin Core Title Creator Subject Description Publisher Contributor Date. Type Format Identifier Source Language Relation Coverage Rights Representação Descritiva (catalogação descritiva) FRBR Functional Requirements for Bibliographic Records (FRBR) (Requisitos Funcionais para Registros Bibliográficos) Utilizada o modelo Entidade-Relacionamento; Não é um código de catalogação, não é um formato, não é uma norma, não é um padrão, não é um princípio de catalogação. Assim, não é adequado dizer coisas como vou catalogar usando o FRBR. Objetivos: prover um quadro definido com clareza e estruturado para relacionar os dados que são registrados em registros de bibliográficos às necessidades dos usuários desses registros; recomendar um nível básico de funcionalidade para registros criados por agências bibliográficas nacionais. (Fabrício Assumpção) 8
Representação Descritiva (catalogação descritiva) FRBR Representação Temática (catalogação de assunto) Resumo Texto breve e coerente que se destina a informar o usuário sobre os conhecimentos essenciais transmitidos por um documento; Extrato Versão abreviada de um documento, feita mediante a extração de frases do próprio documento; Índice Representação do conteúdo temático de um documento por meio da utilização de um conjunto de palavras ou termos (LANCASTER, 2004) 9
Indexação Indexação A indexação de um documento visa representar o seu conteúdo temático por meio de um conjunto de termos. Os termos de indexação servem também como pontos de acesso mediante os quais o documento é localizado e recuperado em um sistema de informação. Lancaster (2004, p.18) distingue dois tipos de indexação: indexação por extração A seleção dos termos fica restrita ao contexto do próprio documento. O indexador, utilizando critérios institucionais e pessoais, seleciona no texto palavras que serão utilizados para representar o documento. indexação por atribuição. Utiliza-se de um elemento externo ao documento, um conjunto de termos previamente definidos e normalizados (léxico) cuja complexidade pode variar deste uma lista de cabeçalhos de assunto até um tesauro ou uma ontologia. Após a leitura do texto, o indexador escolhe os termos mais adequados para representar o conteúdo informacional do documento. 10
Indexação automática Indexação Automática Embora a prática da indexação possa ser regulada por políticas e princípios institucionais, o processo de indexação manual é dependente de critérios subjetivos e pessoais, relacionados à formação e experiência do indexador. O tempo despendido e a qualidade da indexação ficam fortemente atrelados a fatores não controláveis, o que pode afetar o custo desse processo. As dificuldades inerentes à indexação manual e a grande quantidade de documentos publicados e disponibilizados, justificaram estudos que buscavam soluções alternativas para auxiliar o indexador no exercício de sua atividade. As primeiras pesquisas em indexação automática aconteceram no final dos anos de 1950. A popularização da microinformática a partir dos anos de 1980, mas principalmente o surgimento da Web nos anos de 1990 fez com que o nível de interesse nas pesquisas sobre indexação automática permanecesse praticamente constante até os dias de hoje. 11
Indexação Automática Vantagens baixo custo da indexação automática; facilidade de aplicação a grandes conjuntos de documentos homogeneidade desse processo quando realizados por algoritmos computacionais. O resultado da indexação realizada por seres humanos pode variar de um indexador para outro, bem como de um mesmo indexador em momentos diferentes; Um sistema computacional irá realizar a indexação de maneira uniforme, utilizando sempre os mesmos critérios para o qual foi programado, independentemente da quantidade de documentos ou de qualquer fator externo. (ANDERSON; PEREZ-CARBALLO, 2001) Indexação Automática: tipos De forma semelhante à sua classificação da indexação manual, Lancaster (2004, p.285) identifica dois tipos de indexação automática: indexação automática por extração automática realizada geralmente por meio de cálculos matemáticos de frequência das palavras encontradas no texto de um documento. indexação automática por atribuição automática é utilizado um elemento externo aos textos com o objetivo de normalizar os termos de indexação atribuídos aos documentos. 12
O processo de recuperação de informação Usuário Segundo Le Coadic (2004, p.38-40), existem dois tipos de necessidades de informação: a necessidade de informação em função do conhecimento, originária do desejo de saber, e a necessidade de informação em função da ação, derivada de necessidades materiais determinadas pela realização de atividades humanas, profissionais e individuais. Ambas serão representadas pelo usuário quando entram em contato com o ambiente que escolheram para satisfazer a sua necessidade informacional. 13
O processo de recuperação de informação Expressão de Busca Meio que o usuário emprega para comunicar a sua necessidade informacional para o sistema de informação. Podem ser especificada em linguagem natural ou por meio de uma linguagem artificial, dependendo dos recursos oferecidos pelo sistema. Os usuários necessitam ter um mínimo de conhecimento do tema de interesse e do seu vocabulário do domínio. Principal dificuldade: predizer quais os termos que foram usadas para representar os documentos que satisfarão sua necessidade. 14
O processo de recuperação de informação Representação da Expressão de Busca É necessário que a expressão de busca seja representada de forma similar à utilizada na representação dos documentos. Essa homogeneidade permitirá a comparação entre a busca e todos os documentos do corpus do sistema por meio da função de busca. 15
Interfaces de busca Interfaces de busca Bem concebidos, os sistemas eficazes geram sentimentos positivos em seus usuários. Quando um sistema é bem projetado, a interface quase desaparece, permitindo que os usuários se concentrar em seu trabalho, realizando-o de maneira prazerosa. Em Sistemas de Recuperação de Informação, a função da interface de busca é auxiliar o usuário a entender e expressar a sua necessidade de informação 16
Interfaces de Busca 1997 - Protótipo 1999 -Beta out.2013 17
18
O processo de recuperação de informação Modelo de Recuperação de Informação É a especificação formal de três elementos: a representação dos documentos; a representação da necessidade de informação por meio de uma expressão de busca; como estes dois elementos serão comparados: a função de busca. A eficiência de um sistema de recuperação de informação está diretamente ligada ao modelo que ele utiliza, influenciando diretamente em seu modo de operação. 19
Modelo Booleano No modelo booleano um documento é representado por um conjunto de termos de indexação que podem ser definidos de forma intelectual (manual) por profissionais especializados ou automaticamente, utilizando algoritmos computacionais. As buscas são formuladas por meio de uma expressão booleana composta por termos ligados por operadores lógicos AND, OR e NOT e apresentam como resultado os documentos cuja representação satisfazem às restrições lógicas da expressão de busca. Modelo Booleano Uma expressão de busca que utiliza apenas um termo t 1 terá como resultado o conjunto de documentos indexados por t 1 ; 20
Modelo Booleano Desmatamento Mata Atlântica Madeireiras Reflorestamento Desmatamento Amazônia Grilagem de terras Reflorestamento Desmatamento Modelo Booleano Uma expressão conjuntiva de enunciado t 1 AND t 2 recuperará documentos indexados por ambos os termos (t 1 e t 2 ). Esta operação equivale à interseção do conjunto dos documentos indexados pelo termo t 1 com o conjunto dos documentos indexados pelo termo t 2, representado pela área cinza na figura. 21
Modelo Booleano Desmatamento Mata Atlântica Madeireiras Reflorestamento Desmatamento Amazônia Grilagem de terras Reflorestamento Desmatamento AND Mata Atlântica Modelo Booleano Uma expressão disjuntiva t 1 OR t 2 recuperará o conjunto dos documentos indexados pelo termo t 1 ou pelo termo t 2. Essa operação equivale à união entre o conjunto dos documentos indexados pelo termo t 1 e o conjunto dos documentos indexados pelo termo t 2. 22
Modelo Booleano Desmatamento Mata Atlântica Madeireiras Reflorestamento Desmatamento Amazônia Grilagem de terras Reflorestamento Desmatamento OR Mata Atlântica Modelo Booleano A expressão NOT t 1 recuperará os documentos que não são indexados pelo termo t 1, representados pela área cinza da figura. 23
Modelo Booleano Desmatamento Mata Atlântica Madeireiras Reflorestamento Desmatamento Amazônia Grilagem de terras Reflorestamento NOT Desmatamento Modelo Booleano As expressões t 1 NOT t 2 ou t 1 AND NOT t 2 terão o mesmo resultado: o conjunto dos documentos indexados por t 1 e que não são indexados por t 2. Neste caso o operador NOT pode ser visto como um operador da diferença entre conjuntos. 24
Modelo Booleano Desmatamento Mata Atlântica Madeireiras Reflorestamento Desmatamento Amazônia Grilagem de terras Reflorestamento Desmatamento AND NOT Madeireiras Modelo Booleano Termos e operadores booleanos podem ser combinados para especificar buscas mais amplas ou restritivas. Como a ordem de execução das operações lógicas de uma expressão influencia no resultado da busca, muitas vezes é necessário explicitar essa ordem, delimitando partes da expressão por meio de parênteses. 25
Modelo Booleano As áreas cinza da figura representam o resultado de duas expressões de busca que utilizam os mesmos termos e os mesmos operadores, mas diferem na ordem de execução. (Recuperação AND Informação) OR WEB Recuperação AND (Informação OR WEB) Modelo Booleano Desmatamento Mata Atlântica Madeireiras Reflorestamento Desmatamento Amazônia Grilagem de terras Reflorestamento ( Desmatamento AND Reflorestamento ) OR Amazônia 26
Modelo Booleano Desmatamento Mata Atlântica Madeireiras Reflorestamento Desmatamento Amazônia Grilagem de terras Reflorestamento Desmatamento AND ( Reflorestamento OR Amazônia ) Modelo Booleano Operadores de Proximidade Surgimento dos sistemas de texto completo Operadores Termos adjacentes Desmatamento ADJ Amazônia Desmatamento NEAR/10 Amazônia Sistema STAIRS Desmatamento WITH Amazônia Desmatamento SAME Amazônia (mesmo parágrafo) (mesma frase) Frase Exata Recuperação de Informação ; Desmatamento na Amazônia Composição de Operadores Recuperação de ADJ (informação OR documentos) 27
Modelo Vetorial: Um documento é representado por um vetor onde cada elemento representa o peso, ou relevância, do respectivo termo de indexação para o documento. Cada vetor descreve a posição do documento em um espaço multidimensional, onde cada termo de indexação representa uma dimensão ou eixo. Cada elemento do vetor (peso) é normalizado de forma a assumir valores entre zero e um. Os pesos mais próximos de 1 indicam termos com maior importância para a descrição do documento. Modelo Vetorial Desmatamento 0.7 Mata Atlântica 0.6 Madeireiras 0.3 Reflorestamento 0.2 0,7 0,6 0,3 0,2 28
Modelo Vetorial Uma expressão de busca também é representada por um vetor numérico onde cada elemento representa a importância (peso) do respectivo termo na representação da necessidade de informação do usuário, substanciada na expressão de busca. Mata Atlântica 0.5 Desmatamento 0.8 Causas 0.7 Usuário e sua necessidade de informação 0,5 0,8 0,7 Modelo Vetorial: cálculo da similaridade A utilização de uma mesma forma de representação tanto para os documentos como para as expressões de busca permite calcular a similaridade entre uma expressão de busca e cada um dos documentos do corpus, ou ainda entre dois documentos; Em um espaço vetorial contendo N dimensões, a similaridade (sim) entre um documento d j e uma expressão de busca q pode ser calculada utilizando a seguinte fórmula: sim( d, q) = j i N i= 1 N ( w = i j w 1, i, q ) w 2 i, j N i= 1 w 2 i, q onde w i,j é o peso do i-ésimo termo do documento d j e w i,q é o peso do i-ésimo termo da expressão de busca q. 29
O processo de recuperação de informação Resultado da Busca Geralmente é composto por um conjunto de documentos que supostamente serão úteis para o usuário. É apresentado na forma de uma lista ordenada pelo grau de similaridade calculada pela função de busca. Uma busca deve resultar na recuperação de uma quantidade de documentos que possibilite ao usuário a verificação de cada um deles a fim de selecionar os que lhe serão úteis. O fato de um termo utilizado na expressão de busca aparecer na representação de um documento não significa que este documento seja relevante para a necessidade do usuário. 30
Visualização de Resultados de Busca Visualização de Resultados de Busca 31
Visualização de Resultados de Busca A interface utilizada em sistema de recuperação de informação mudou muito pouco desde a década de 1950, apesar de existir muitas interfaces alternativas sendo propostas e desenvolvidas por vários pesquisadores. Os usuários fornecem uma lista de palavras-chave e é apresentada lista de páginas que contêm as palavras-chave; Os usuário se veem diante da tarefa de verificar cada um dos documentos (links) para obter as informações que procuram. Visualização de Resultados de Busca As desvantagens das interfaces (textuais) baseadas em uma lista de (links a) documentos são: O usuário precisa verificar sequencialmente uma longa lista de resultados; O usuário não é informado o motivo pelo qual um determinado documento foi recuperado; Da mesma forma, o usuário não é informado da relação entre um determinado documento com a sua busca; Não é apresentada similaridades entre documentos; São apresentados aos usuários apenas um pequeno fragmento do documento. 32
Visualização de Resultados de busca Grokker Recuperação de Informação na WEB 33
Recuperação de informação na WEB Sites de Busca (search engines/buscadores) Permitem ao usuário submeter sua expressão de busca e recuperar uma lista (geralmente ordenada) de endereços de páginas (URLs) que presumivelmente são relevantes para a sua necessidade de informação Maioria de uso geral Em um acervo extremamente grande como é a Web é essencial uma indexação antecipada de seus documentos (páginas). A maioria dos mecanismos de busca da Web gera índices. Pelo caráter dinâmico da Web esses índices devem permanecer em constante processo de atualização Recuperação de informação na WEB Sites de busca Índexação Não Automática O autor fornece dados sobre sua página e associa a ela uma ou mais categorias que descrevem o assunto tratado na página Automática Spiders (robôs, crawlers ou worms) Partindo de uma lista inicial de URLs, rastreiam a estrutura hipertextual da WEB, colhendo informações sobre as páginas que encontram; Idexam cada página utilizando métodos de indexação automática 34
Recuperação de informação na WEB Indexação não-automática (manual) Indexadores profissionais especificam uma hierarquia de assuntos e indexam as páginas Web utilizando tais categorias. Uma URL submetida pode ser associada a uma categoria de qualquer nível. Por exemplo, ela pode ser ligada a uma categoria principal, Ciência, ou à subcategoria, Ciências Humanas, ou à sub-subcategoria, Biblioteconomia e Ciência da Informação. A URL cadastrada é avaliada por profissionais, que podendo alterar os dados fornecidos pelo usuário. Caso um usuário não consiga encontrar uma categoria apropriada para descrever sua página, ele pode sugerir uma nova categoria. Recuperação de informação na WEB 35
Recuperação de informação na WEB Indexação automática A indexação automática é realizada através de duas etapas: Seleção de endereços (URLs) de páginas; Indexação das páginas, gerando para cada uma um conjunto de termos de indexação. Existem programas que viajam através da Web a fim de selecionar URLs de páginas de potencial interesse para que sejam indexadas. Utilizando a metáfora da Web, esses programas são chamados de spiders (aranhas) ou ainda robôs, crawlers ou worms. Partindo de uma lista inicial de URLs, esses robôs rastreiam a estrutura hipertextual da Web colhendo informação sobre as páginas que encontram. Recuperação de informação na WEB Indexação automática: Estratégias breadth-first - visa maximizar a amplitude da pesquisa descendo apenas poucos níveis de cada site depth-first - visa maximizar a profundidade buscando um maior detalhamento do assunto tratado pelo site. Quando uma nova página é recuperada, o spider extrai todas as URLs dessa página e os adiciona na sua base de dados. 36
Recuperação de informação na WEB Indexação automática Para aumentar a velocidade de cobertura da Web podem ser usados vários spiders trabalhando em paralelo, cada um cobrindo uma região ou um domínio diferente da Web e enviando suas URLs para a base de dados Depois de formado o banco de dados de URLs o robô poderá acessar cada página e indexá-la usando métodos de indexação automática. Recuperação de Informação na WEB Buscas Geralmente dois níveis de busca: básico e avançado Básico: Buscas booleanas utilizando os operadores AND, OR, NOT ou alguma outra forma; Avançado: Buscas por proximidade: NEAR, ADJ Buscas por tipo de mídia ou tipo de arquivo:.jpg,.mpeg,.gif, etc. 37
Recuperação de Informação na WEB Recuperação de Informação na WEB Meta-buscadores Realizam buscas utilizando diversos mecanismos de busca; A expressão de busca é traduzida e enviada para cada um dos mecanismos que o meta-buscador utiliza. Cada buscador retornará uma lista de URLs O meta-buscador agrega as listas em uma única lista, eliminando possíveis duplicações. 38
Recuperação de Informação na WEB Recuperação de Informação na WEB 39
Referências Referências bibliográficas ANDERSON, J.D.; PEREZ-CARBALLO, J. The nature of indexing: how humans and machines analyze messages and texts for retrieval - Part I: Research, and the nature of human indexing. Information Processing and Management, v.37, n.2, 2001. ALVES, R. C. V. Metadados como elementos do processo de catalogação. 2010. 132f. Tese (Doutorado em Ciência da Informação)-Faculdade de Filosofia e Ciências, Universidade Estadual Paulista, Marília, 2010. ALVES, R. C. V.; SANTOS, P. L. V. A. da C. Metadados no domínio bibliográfico. Rio de Janeiro: Intertexto, 2013. BUCKLAND, M.K. Information as thing. Journal of the American Society of Information Science, v.42, n.5, 1991. p.351-360. LE COADIC, Y-F. A Ciência da Informação. 2.ed. Brasília: Briquet de Lemos, 2004. LANCASTER, F.W. Indexação e Resumos: teoria e prática. 2ªed. Brasilia, DF: Briquet de Lemos, 2004, MAIMONE, G. D.; SILVEIRA, N. C.; TÁLAMO, M. de. F. G. M. Reflexões acerca das relações entre representação temática e descritiva. Informação & Sociedade: Estudos, João Pessoa, v. 21, n. 1, p. 27-35, jan./abr. 2011. NOVELLINO, Maria Salet Ferreira. Instrumentos e metodologias de representação da informação. Informação & Informação, Londrina, v.1, n.2, p.37-45, jul./dez. 1996. 40