Recuperar informação consiste em identificar, no conjunto de documentos de um sistema, quais atendem à necessidade de informação do usuário.

Documentos relacionados
Recuperação de informação na WEB

Revisão. Meio ambiente da Recuperação de Informação. Linguagem Analógico x Digital

Para onde vamos. Recuperação de Informação na WEB. Medidas de Avaliação. Recuperação de informação na WEB

03/07/2017. Documento e suas representações

03/07/2017. Modelo de Recuperação de Informação

Ontologias na Representação e na Recuperação de Informação. EDBERTO FERNEDA UNESP-Marília

Representação da Informação Automação de Unidades de Informação

A Interação Humano-Computador

25/04/2017. Modelo de Recuperação de Informação

01/08/2018. Recuperação de Informação

Sistemas de Organização do Conhecimento

04/04/2017. Período 2: Recuperação de Informação. Recuperação de Informação

GESTÃO DE DOCUMENTOS DE ARQUIVO

Interfaces de Resultado de Busca Visualização de Resultados de Busca

Linguagens Documentárias. Profa. Lillian Alvares Faculdade de Ciência da Informação, Universidade de Brasília

1 Formatos de registro

GESTÃO DE DOCUMENTOS DE ARQUIVO

Castro (2008, p.7) define a palavra ontologia de forma mais simplificada:

A INDEXAÇÃO NO PROCESSO DE DESCRIÇÃO DOCUMENTAL

4 Recuperação de Informação

Planejamento da Elaboração de Índice

Proposta do seminário

Universidade Federal da Paraíba CCEN Departamento de Informática Disciplina: Banco de Dados. Aula 1 Introdução a Banco de Dados

Introdução 03/05/2017

Fundação Escola de Sociologia e Política de São Paulo Faculdade de Biblioteconomia e Ciência da Informação PLANO DE ENSINO (2019)

Sumário: Tipos de Metadados

Denise Gomes Silva Morais Cavalcante. Programa de Pós-graduação em Ciências da Informação/ECA- USP. Orientador: Nair Yumiko Kobashi

ABD Arquivos e Bibliotecas Digitais

A Interação Humano-Computador

POLÍTICA DE INDEXAÇÃO PARA BIBLIOTECAS UNIVERSITÁRIAS

Orientações de resposta ATIVIDADES FORMATIVAS 3

Indexação. Profa. Lillian Alvares Faculdade de Ciência da Informação Universidade de Brasília

Conceitos Básicos. Fundação Centro de Análise, Pesquisa e Inovação Tecnológica Instituto de Ensino Superior - FUCAPI. Disciplina: Banco de Dados

Banco de Dados. Introdução. Profa. Flávia Cristina Bernardini

Engenharia de Software

DESCOBERTA DO CONHECIMENTO COM O USO DE TEXT MINING APLICADA AO SAC TEXT MINING. Aluno José Lino Uber. Orientador Paulo Roberto Dias

INSTRUÇÕES. O tempo disponível para a realização das duas provas e o preenchimento da Folha de Respostas é de 5 (cinco) horas no total.

SERVIÇO PÚBLICO FEDERAL UNIVERSIDADE FEDERAL DO RIO GRANDE INSTITUTO DE CIÊNCIAS HUMANAS E DA INFORMAÇÃO - ICHI - INDEXAÇÃO: TEORIA E PRÁTICA

Medidas de Avaliação

Banco de Dados. SGBDs. Professor: Charles Leite

Metodologia LILACS. Objetivo: Conhecer a metodologia LILACS e seus componentes.

Data Warehouse ETL. Rodrigo Leite Durães.

6 Trabalhos Relacionados

Cíntia de Azevedo Lourenço Doutora em Ciência da Informação Universidade Federal de Minas Gerais Contato:

05/05/2015. Recuperação de Informação

Este capítulo aborda os fundamentos principais aplicados neste trabalho.

1.1 META VEM DO PREFIXO GREGO E SIGNIFICA JUNTO A, DEPOIS DE, ENTRE, COM PREFIXO QUE INDICA ALGO QUE SE APLICA A SI MESMO

ara entender os Sistemas Gerenciadores de Banco de Dados é importante conhecer

Introdução. Conceitos Básicos. Conceitos Básicos. Conceitos Básicos

Organização da Informação

A QUESTÃO DAS PALAVRAS- CHAVE E A PROPOSTA DO USO DE VOCABULÁRIO CONTROLADO PARA AS REVISTAS CIENTÍFICAS DA UNESP

ORIENTAÇÕES DE RESPOSTA DAS ATIVIDADES FORMATIVAS 1

Vocabulário controlado e palavras-chave em repositórios digitais: relato de experiência do repositório institucional da FGV

Seleção de fontes de informação científica. Biblioteca da Universidade de Aveiro 2013

METADADOS PARA A REPRESENTAÇÃO DAS IMAGENS DIGITAIS

Indexação automática. CBD/ECA Indexação: teoria e prática

PODCAST: UMA PROPOSTA DE DESCRIÇÃO POR MEIO DE PADRÕES DE METADADOS

Sistemas de PROFA. LILLIAN ALVARES FACULDADE DE CIÊNCIA DA INFORMAÇÃO

Professor Emiliano S. Monteiro

Alimentação de Metadados em Repositórios Institucionais

Representação Temática I Unidade 1. Bacharelado em Biblioteconomia Prof.: Marcus Vinícius Silva

SUPREMO TRIBUNAL FEDERAL Secretaria de Tecnologia da Informação Coordenadoria de Sistemas BIBLIOTECA DIGITAL. Glossário

Terminologia Documental e sua aplicação: circuito do documento, análise documental, acesso e recuperação da informação

6 Conclusão Contribuições da Dissertação

A INFLUÊNCIA DO BIBFRAME PARA VISIBILIDADE DOS DADOS BIBLIOGRÁFICOS

1. INTRODUÇÃO A MODELAGEM DE DADOS

MAPA CONCEITUAL E A MODELAGEM CONCEITUAL DE SISTEMAS DE HIPERTEXTO

Introdução. Conceitos Básicos. Conceitos Básicos. Conceitos Básicos

Introdução Diagrama de Classes Diagrama de Seqüência Diagrama de Atividades. Diagramas UML. Classe, Seqüência e Atividades. Marcio E. F.

Livro texto: Capítulo 1

Introdução a Ciência da Computação Estrutura e Organização das Informações PROFESSORA CINTIA CAETANO

MANUAL PARA DESENVOLVIMENTO DE SOFTWARE TRABALHO DE CONCLUSAO DE CURSO EM SISTEMAS DE INFORMAÇÃO

1 Introdução Motivação

As citações, os índices de citações & outras histórias

Resource Description and Access Fabrício Silva Assumpção Mestrando em Ciência da Informação Bolsista CAPES UNESP, Marília, 11 de maio de 2012

Introdução. descrever os tipos de interfaces e linguagens oferecidas por um SGBD. mostrar o ambiente de programas dos SGBD s

Compressão de Textos. Introdução. Introdução. Introdução. O volume de informação textual disponível on-line é imenso:

AULA 2: Fontes de Informação

Introdução. Qual é a importância dos bancos de dados no nosso dia a dia? Imaginem como seria as grandes empresas sem os bancos de dados?

Leitura de Documentos. Priscila Engiel

5 Usando as Representações de Design Rationale

Figura 16 Niagara - Visão de grupos de notas.

Matéria Introdutória. Banco de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri

Visualizando Padrões: A visualização do Universo de Metadados

Técnicas de recuperação de informação: filtragem, agrupamento

Realimentação de Relevância

Diagrama de Classes Módulo de Treinamento FIGURA 19: DIAGRAMA DE CLASSES DO MÓDULO DE TREINAMENTO

SBC - Sistemas Baseados em Conhecimento

Banco de dados. Objetivo: Reter os dados de forma que possam ser utilizados em outros momentos

Banco de dados. Objetivo: Reter os dados de forma que possam ser utilizados em outros momentos

3 Arquitetura do Sistema

Sistemas de Banco de Dados

Análise Sintática de Frases utilizando Gramáticas Livres de Contexto Probabilísticas

SOFTWARE REQUIREMENTS

Os efeitos do paralelismo e relações de thesaurus em uma ferramenta de busca em bases textuais

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

Transcrição:

Recuperação de Informação Recuperação de Informação Recuperar informação consiste em identificar, no conjunto de documentos de um sistema, quais atendem à necessidade de informação do usuário. 1

Recuperação de Informação A recuperação de informação envolve: um acervo documental; pessoas que buscam por documentos relevantes para satisfazer suas necessidades de informação. Recuperar informação implica em operar seletivamente um estoque de informação envolve processos cognitivos difíceis de serem formalizados. A utilização de recursos computacionais nessa tarefa parte de inevitáveis simplificações teóricas e de adequações de conceitos subjetivos relevância necessidade de informação informação O processo de recuperação de informação 2

O processo de recuperação de informação Documento 3

Documento Documentos Segundo Buckland (1991): o termo informação é utilizado na maioria das vezes vinculado a um objeto que contém informação: um documento. Assim, o termo informação poderia também designar algo atribuído a um objeto, tal como dado e documento que se referem à informação, porque deles se espera que sejam informativos. Para Le Coadic (2004, p.5): documento é o termo genérico que designa os objetos portadores de informação. Um documento é todo artefato que representa ou expressa um objeto, uma ideia ou uma informação por meio de signos gráficos e icônicos (palavras, imagens, diagramas, mapas, figuras, símbolos), sonoros e visuais (gravados em suporte de papel ou eletrônicos). O processo de recuperação de informação 4

Representação de documentos Representação de documentos A principal característica do processo de representação da informação é a substituição de uma entidade linguística longa e complexa - o texto do documento - por sua descrição abreviada. O uso de tal sumarização não é apenas uma consequência de restrições práticas quanto ao volume de material a ser armazenado e recuperado. Essa sumarização é desejável pois sua função é demonstrar a essência do documento. Ela funciona então como um artifício para enfatizar o que é essencial no documento considerando sua recuperação. Novellino (1996) 5

Representação de documentos Representação Descritiva (catalogação descritiva) Representação Temática (catalogação de assunto) Representação Descritiva (catalogação descritiva) Representa as características específicas do documento, denominada descrição bibliográfica, que permite a individualização do documento. Ela também define e padroniza os pontos de acesso, responsáveis pela busca e recuperação da informação, assim como pela reunião de documentos semelhantes, por exemplo, todas as obras de um determinado autor ou de uma série específica. (MAIMONE; SILVEIRA; TÁLAMO, 2011) 6

Representação Descritiva (catalogação descritiva) É composta pelo conjunto de características próprias ou atribuídas ao documento, que o individualiza em um catálogo, repositório ou outro sistema informacional. É necessário algum modo de padronização, tanto na estrutura de descrição (elementos descritivos ou metadados) como também nos valores que devem ser representados na estrutura de descrição. (ALVES; SANTOS, 2013). Proporcionar a caracterização do recurso, tornando-o único e, ao mesmo tempo, reunindo-o com outros recursos semelhantes. Com a representação é possível garantir: o armazenamento consistente dos dados de um documento; garantir o acesso físico ou digital ao documento; melhorar a busca e recuperação dos recursos que passam a ser identificáveis nos sistemas; etc (ALVES, 2010). Representação Descritiva (catalogação descritiva) Marc 7

Representação Descritiva (catalogação descritiva) Dublin Core Title Creator Subject Description Publisher Contributor Date. Type Format Identifier Source Language Relation Coverage Rights Representação Descritiva (catalogação descritiva) FRBR Functional Requirements for Bibliographic Records (FRBR) (Requisitos Funcionais para Registros Bibliográficos) Utilizada o modelo Entidade-Relacionamento; Não é um código de catalogação, não é um formato, não é uma norma, não é um padrão, não é um princípio de catalogação. Assim, não é adequado dizer coisas como vou catalogar usando o FRBR. Objetivos: prover um quadro definido com clareza e estruturado para relacionar os dados que são registrados em registros de bibliográficos às necessidades dos usuários desses registros; recomendar um nível básico de funcionalidade para registros criados por agências bibliográficas nacionais. (Fabrício Assumpção) 8

Representação Descritiva (catalogação descritiva) FRBR Representação Temática (catalogação de assunto) Resumo Texto breve e coerente que se destina a informar o usuário sobre os conhecimentos essenciais transmitidos por um documento; Extrato Versão abreviada de um documento, feita mediante a extração de frases do próprio documento; Índice Representação do conteúdo temático de um documento por meio da utilização de um conjunto de palavras ou termos (LANCASTER, 2004) 9

Indexação Indexação A indexação de um documento visa representar o seu conteúdo temático por meio de um conjunto de termos. Os termos de indexação servem também como pontos de acesso mediante os quais o documento é localizado e recuperado em um sistema de informação. Lancaster (2004, p.18) distingue dois tipos de indexação: indexação por extração A seleção dos termos fica restrita ao contexto do próprio documento. O indexador, utilizando critérios institucionais e pessoais, seleciona no texto palavras que serão utilizados para representar o documento. indexação por atribuição. Utiliza-se de um elemento externo ao documento, um conjunto de termos previamente definidos e normalizados (léxico) cuja complexidade pode variar deste uma lista de cabeçalhos de assunto até um tesauro ou uma ontologia. Após a leitura do texto, o indexador escolhe os termos mais adequados para representar o conteúdo informacional do documento. 10

Indexação automática Indexação Automática Embora a prática da indexação possa ser regulada por políticas e princípios institucionais, o processo de indexação manual é dependente de critérios subjetivos e pessoais, relacionados à formação e experiência do indexador. O tempo despendido e a qualidade da indexação ficam fortemente atrelados a fatores não controláveis, o que pode afetar o custo desse processo. As dificuldades inerentes à indexação manual e a grande quantidade de documentos publicados e disponibilizados, justificaram estudos que buscavam soluções alternativas para auxiliar o indexador no exercício de sua atividade. As primeiras pesquisas em indexação automática aconteceram no final dos anos de 1950. A popularização da microinformática a partir dos anos de 1980, mas principalmente o surgimento da Web nos anos de 1990 fez com que o nível de interesse nas pesquisas sobre indexação automática permanecesse praticamente constante até os dias de hoje. 11

Indexação Automática Vantagens baixo custo da indexação automática; facilidade de aplicação a grandes conjuntos de documentos homogeneidade desse processo quando realizados por algoritmos computacionais. O resultado da indexação realizada por seres humanos pode variar de um indexador para outro, bem como de um mesmo indexador em momentos diferentes; Um sistema computacional irá realizar a indexação de maneira uniforme, utilizando sempre os mesmos critérios para o qual foi programado, independentemente da quantidade de documentos ou de qualquer fator externo. (ANDERSON; PEREZ-CARBALLO, 2001) Indexação Automática: tipos De forma semelhante à sua classificação da indexação manual, Lancaster (2004, p.285) identifica dois tipos de indexação automática: indexação automática por extração automática realizada geralmente por meio de cálculos matemáticos de frequência das palavras encontradas no texto de um documento. indexação automática por atribuição automática é utilizado um elemento externo aos textos com o objetivo de normalizar os termos de indexação atribuídos aos documentos. 12

O processo de recuperação de informação Usuário Segundo Le Coadic (2004, p.38-40), existem dois tipos de necessidades de informação: a necessidade de informação em função do conhecimento, originária do desejo de saber, e a necessidade de informação em função da ação, derivada de necessidades materiais determinadas pela realização de atividades humanas, profissionais e individuais. Ambas serão representadas pelo usuário quando entram em contato com o ambiente que escolheram para satisfazer a sua necessidade informacional. 13

O processo de recuperação de informação Expressão de Busca Meio que o usuário emprega para comunicar a sua necessidade informacional para o sistema de informação. Podem ser especificada em linguagem natural ou por meio de uma linguagem artificial, dependendo dos recursos oferecidos pelo sistema. Os usuários necessitam ter um mínimo de conhecimento do tema de interesse e do seu vocabulário do domínio. Principal dificuldade: predizer quais os termos que foram usadas para representar os documentos que satisfarão sua necessidade. 14

O processo de recuperação de informação Representação da Expressão de Busca É necessário que a expressão de busca seja representada de forma similar à utilizada na representação dos documentos. Essa homogeneidade permitirá a comparação entre a busca e todos os documentos do corpus do sistema por meio da função de busca. 15

Interfaces de busca Interfaces de busca Bem concebidos, os sistemas eficazes geram sentimentos positivos em seus usuários. Quando um sistema é bem projetado, a interface quase desaparece, permitindo que os usuários se concentrar em seu trabalho, realizando-o de maneira prazerosa. Em Sistemas de Recuperação de Informação, a função da interface de busca é auxiliar o usuário a entender e expressar a sua necessidade de informação 16

Interfaces de Busca 1997 - Protótipo 1999 -Beta out.2013 17

18

O processo de recuperação de informação Modelo de Recuperação de Informação É a especificação formal de três elementos: a representação dos documentos; a representação da necessidade de informação por meio de uma expressão de busca; como estes dois elementos serão comparados: a função de busca. A eficiência de um sistema de recuperação de informação está diretamente ligada ao modelo que ele utiliza, influenciando diretamente em seu modo de operação. 19

Modelo Booleano No modelo booleano um documento é representado por um conjunto de termos de indexação que podem ser definidos de forma intelectual (manual) por profissionais especializados ou automaticamente, utilizando algoritmos computacionais. As buscas são formuladas por meio de uma expressão booleana composta por termos ligados por operadores lógicos AND, OR e NOT e apresentam como resultado os documentos cuja representação satisfazem às restrições lógicas da expressão de busca. Modelo Booleano Uma expressão de busca que utiliza apenas um termo t 1 terá como resultado o conjunto de documentos indexados por t 1 ; 20

Modelo Booleano Desmatamento Mata Atlântica Madeireiras Reflorestamento Desmatamento Amazônia Grilagem de terras Reflorestamento Desmatamento Modelo Booleano Uma expressão conjuntiva de enunciado t 1 AND t 2 recuperará documentos indexados por ambos os termos (t 1 e t 2 ). Esta operação equivale à interseção do conjunto dos documentos indexados pelo termo t 1 com o conjunto dos documentos indexados pelo termo t 2, representado pela área cinza na figura. 21

Modelo Booleano Desmatamento Mata Atlântica Madeireiras Reflorestamento Desmatamento Amazônia Grilagem de terras Reflorestamento Desmatamento AND Mata Atlântica Modelo Booleano Uma expressão disjuntiva t 1 OR t 2 recuperará o conjunto dos documentos indexados pelo termo t 1 ou pelo termo t 2. Essa operação equivale à união entre o conjunto dos documentos indexados pelo termo t 1 e o conjunto dos documentos indexados pelo termo t 2. 22

Modelo Booleano Desmatamento Mata Atlântica Madeireiras Reflorestamento Desmatamento Amazônia Grilagem de terras Reflorestamento Desmatamento OR Mata Atlântica Modelo Booleano A expressão NOT t 1 recuperará os documentos que não são indexados pelo termo t 1, representados pela área cinza da figura. 23

Modelo Booleano Desmatamento Mata Atlântica Madeireiras Reflorestamento Desmatamento Amazônia Grilagem de terras Reflorestamento NOT Desmatamento Modelo Booleano As expressões t 1 NOT t 2 ou t 1 AND NOT t 2 terão o mesmo resultado: o conjunto dos documentos indexados por t 1 e que não são indexados por t 2. Neste caso o operador NOT pode ser visto como um operador da diferença entre conjuntos. 24

Modelo Booleano Desmatamento Mata Atlântica Madeireiras Reflorestamento Desmatamento Amazônia Grilagem de terras Reflorestamento Desmatamento AND NOT Madeireiras Modelo Booleano Termos e operadores booleanos podem ser combinados para especificar buscas mais amplas ou restritivas. Como a ordem de execução das operações lógicas de uma expressão influencia no resultado da busca, muitas vezes é necessário explicitar essa ordem, delimitando partes da expressão por meio de parênteses. 25

Modelo Booleano As áreas cinza da figura representam o resultado de duas expressões de busca que utilizam os mesmos termos e os mesmos operadores, mas diferem na ordem de execução. (Recuperação AND Informação) OR WEB Recuperação AND (Informação OR WEB) Modelo Booleano Desmatamento Mata Atlântica Madeireiras Reflorestamento Desmatamento Amazônia Grilagem de terras Reflorestamento ( Desmatamento AND Reflorestamento ) OR Amazônia 26

Modelo Booleano Desmatamento Mata Atlântica Madeireiras Reflorestamento Desmatamento Amazônia Grilagem de terras Reflorestamento Desmatamento AND ( Reflorestamento OR Amazônia ) Modelo Booleano Operadores de Proximidade Surgimento dos sistemas de texto completo Operadores Termos adjacentes Desmatamento ADJ Amazônia Desmatamento NEAR/10 Amazônia Sistema STAIRS Desmatamento WITH Amazônia Desmatamento SAME Amazônia (mesmo parágrafo) (mesma frase) Frase Exata Recuperação de Informação ; Desmatamento na Amazônia Composição de Operadores Recuperação de ADJ (informação OR documentos) 27

Modelo Vetorial: Um documento é representado por um vetor onde cada elemento representa o peso, ou relevância, do respectivo termo de indexação para o documento. Cada vetor descreve a posição do documento em um espaço multidimensional, onde cada termo de indexação representa uma dimensão ou eixo. Cada elemento do vetor (peso) é normalizado de forma a assumir valores entre zero e um. Os pesos mais próximos de 1 indicam termos com maior importância para a descrição do documento. Modelo Vetorial Desmatamento 0.7 Mata Atlântica 0.6 Madeireiras 0.3 Reflorestamento 0.2 0,7 0,6 0,3 0,2 28

Modelo Vetorial Uma expressão de busca também é representada por um vetor numérico onde cada elemento representa a importância (peso) do respectivo termo na representação da necessidade de informação do usuário, substanciada na expressão de busca. Mata Atlântica 0.5 Desmatamento 0.8 Causas 0.7 Usuário e sua necessidade de informação 0,5 0,8 0,7 Modelo Vetorial: cálculo da similaridade A utilização de uma mesma forma de representação tanto para os documentos como para as expressões de busca permite calcular a similaridade entre uma expressão de busca e cada um dos documentos do corpus, ou ainda entre dois documentos; Em um espaço vetorial contendo N dimensões, a similaridade (sim) entre um documento d j e uma expressão de busca q pode ser calculada utilizando a seguinte fórmula: sim( d, q) = j i N i= 1 N ( w = i j w 1, i, q ) w 2 i, j N i= 1 w 2 i, q onde w i,j é o peso do i-ésimo termo do documento d j e w i,q é o peso do i-ésimo termo da expressão de busca q. 29

O processo de recuperação de informação Resultado da Busca Geralmente é composto por um conjunto de documentos que supostamente serão úteis para o usuário. É apresentado na forma de uma lista ordenada pelo grau de similaridade calculada pela função de busca. Uma busca deve resultar na recuperação de uma quantidade de documentos que possibilite ao usuário a verificação de cada um deles a fim de selecionar os que lhe serão úteis. O fato de um termo utilizado na expressão de busca aparecer na representação de um documento não significa que este documento seja relevante para a necessidade do usuário. 30

Visualização de Resultados de Busca Visualização de Resultados de Busca 31

Visualização de Resultados de Busca A interface utilizada em sistema de recuperação de informação mudou muito pouco desde a década de 1950, apesar de existir muitas interfaces alternativas sendo propostas e desenvolvidas por vários pesquisadores. Os usuários fornecem uma lista de palavras-chave e é apresentada lista de páginas que contêm as palavras-chave; Os usuário se veem diante da tarefa de verificar cada um dos documentos (links) para obter as informações que procuram. Visualização de Resultados de Busca As desvantagens das interfaces (textuais) baseadas em uma lista de (links a) documentos são: O usuário precisa verificar sequencialmente uma longa lista de resultados; O usuário não é informado o motivo pelo qual um determinado documento foi recuperado; Da mesma forma, o usuário não é informado da relação entre um determinado documento com a sua busca; Não é apresentada similaridades entre documentos; São apresentados aos usuários apenas um pequeno fragmento do documento. 32

Visualização de Resultados de busca Grokker Recuperação de Informação na WEB 33

Recuperação de informação na WEB Sites de Busca (search engines/buscadores) Permitem ao usuário submeter sua expressão de busca e recuperar uma lista (geralmente ordenada) de endereços de páginas (URLs) que presumivelmente são relevantes para a sua necessidade de informação Maioria de uso geral Em um acervo extremamente grande como é a Web é essencial uma indexação antecipada de seus documentos (páginas). A maioria dos mecanismos de busca da Web gera índices. Pelo caráter dinâmico da Web esses índices devem permanecer em constante processo de atualização Recuperação de informação na WEB Sites de busca Índexação Não Automática O autor fornece dados sobre sua página e associa a ela uma ou mais categorias que descrevem o assunto tratado na página Automática Spiders (robôs, crawlers ou worms) Partindo de uma lista inicial de URLs, rastreiam a estrutura hipertextual da WEB, colhendo informações sobre as páginas que encontram; Idexam cada página utilizando métodos de indexação automática 34

Recuperação de informação na WEB Indexação não-automática (manual) Indexadores profissionais especificam uma hierarquia de assuntos e indexam as páginas Web utilizando tais categorias. Uma URL submetida pode ser associada a uma categoria de qualquer nível. Por exemplo, ela pode ser ligada a uma categoria principal, Ciência, ou à subcategoria, Ciências Humanas, ou à sub-subcategoria, Biblioteconomia e Ciência da Informação. A URL cadastrada é avaliada por profissionais, que podendo alterar os dados fornecidos pelo usuário. Caso um usuário não consiga encontrar uma categoria apropriada para descrever sua página, ele pode sugerir uma nova categoria. Recuperação de informação na WEB 35

Recuperação de informação na WEB Indexação automática A indexação automática é realizada através de duas etapas: Seleção de endereços (URLs) de páginas; Indexação das páginas, gerando para cada uma um conjunto de termos de indexação. Existem programas que viajam através da Web a fim de selecionar URLs de páginas de potencial interesse para que sejam indexadas. Utilizando a metáfora da Web, esses programas são chamados de spiders (aranhas) ou ainda robôs, crawlers ou worms. Partindo de uma lista inicial de URLs, esses robôs rastreiam a estrutura hipertextual da Web colhendo informação sobre as páginas que encontram. Recuperação de informação na WEB Indexação automática: Estratégias breadth-first - visa maximizar a amplitude da pesquisa descendo apenas poucos níveis de cada site depth-first - visa maximizar a profundidade buscando um maior detalhamento do assunto tratado pelo site. Quando uma nova página é recuperada, o spider extrai todas as URLs dessa página e os adiciona na sua base de dados. 36

Recuperação de informação na WEB Indexação automática Para aumentar a velocidade de cobertura da Web podem ser usados vários spiders trabalhando em paralelo, cada um cobrindo uma região ou um domínio diferente da Web e enviando suas URLs para a base de dados Depois de formado o banco de dados de URLs o robô poderá acessar cada página e indexá-la usando métodos de indexação automática. Recuperação de Informação na WEB Buscas Geralmente dois níveis de busca: básico e avançado Básico: Buscas booleanas utilizando os operadores AND, OR, NOT ou alguma outra forma; Avançado: Buscas por proximidade: NEAR, ADJ Buscas por tipo de mídia ou tipo de arquivo:.jpg,.mpeg,.gif, etc. 37

Recuperação de Informação na WEB Recuperação de Informação na WEB Meta-buscadores Realizam buscas utilizando diversos mecanismos de busca; A expressão de busca é traduzida e enviada para cada um dos mecanismos que o meta-buscador utiliza. Cada buscador retornará uma lista de URLs O meta-buscador agrega as listas em uma única lista, eliminando possíveis duplicações. 38

Recuperação de Informação na WEB Recuperação de Informação na WEB 39

Referências Referências bibliográficas ANDERSON, J.D.; PEREZ-CARBALLO, J. The nature of indexing: how humans and machines analyze messages and texts for retrieval - Part I: Research, and the nature of human indexing. Information Processing and Management, v.37, n.2, 2001. ALVES, R. C. V. Metadados como elementos do processo de catalogação. 2010. 132f. Tese (Doutorado em Ciência da Informação)-Faculdade de Filosofia e Ciências, Universidade Estadual Paulista, Marília, 2010. ALVES, R. C. V.; SANTOS, P. L. V. A. da C. Metadados no domínio bibliográfico. Rio de Janeiro: Intertexto, 2013. BUCKLAND, M.K. Information as thing. Journal of the American Society of Information Science, v.42, n.5, 1991. p.351-360. LE COADIC, Y-F. A Ciência da Informação. 2.ed. Brasília: Briquet de Lemos, 2004. LANCASTER, F.W. Indexação e Resumos: teoria e prática. 2ªed. Brasilia, DF: Briquet de Lemos, 2004, MAIMONE, G. D.; SILVEIRA, N. C.; TÁLAMO, M. de. F. G. M. Reflexões acerca das relações entre representação temática e descritiva. Informação & Sociedade: Estudos, João Pessoa, v. 21, n. 1, p. 27-35, jan./abr. 2011. NOVELLINO, Maria Salet Ferreira. Instrumentos e metodologias de representação da informação. Informação & Informação, Londrina, v.1, n.2, p.37-45, jul./dez. 1996. 40