O TRATAMENTO DA INFORMAÇÃO: FACE AOS SISTEMAS AUTOMATIZADOS DE RECUPERAÇÃO
ESQUEMA GERAL Importância do acesso à informação, O crescimento e diversificação dos sistemas de informação Explosão bibliográfica Necessidade do controle de vocabulário Linguagem de indexação Evolução histórica dos sistemas Novas ferramentas de apoio a construção das linguagens de indexação Novos desafios
INFORMAÇÃO Fenômeno humano, que funciona como instrumento social de comunicação do conhecimento produzido. Tem caráter ágil e provisório, na medida em que sistematiza e transcodifica o estado da arte, na produção do conhecimento.
SISTEMA DE INFORMAÇÃO Instituições intermediárias entre o produtor e o consumidor de informação.
PRINCIPAIS PROBLEMAS ENCONTRADOS NO ACESSO À INFORMAÇÃO Rapidez com que as informações sofrem obsolescência, Escassez de tempo nas buscas retrospectivas, Falta de entendimento sobre o funcionamento das rotinas dos sistemas de informação (falta padrão comum), Incompatibilidade entre o vocabulário de abordagem (usuário) vocabulário utilizado no sistema de informação. Morosidade no processo de tratamento de novos documentos
IMPORTÂNCIA DO VOCABULÁRIO A designação de objetos e processos é fundamental para o homem organizar seu pensamento e comunicá-lo. É um modo de conquistar o mundo, entendê-lo e transformá-lo. Em face de um vocabulário, o ser humano dele se apropria, transformando-o segundo as circunstâncias da vida. Quando nos defrontamos com novos processos ou objetos, resgatamo-os, reconhecendo-os pela sua designação. Na ausência desta, necessitamos construí-la, para que a experiência não perca no momento em que é vivida. A designação é portanto, forma de fixação e de comunicação. PASQUARELLI, Maria Luiza R. A informação bibliográfica automatizada na USP: uma política de implantação. Ciência Informação, Brasília, v. 18, n.1, p. 58-61, jan./jun. 1989.
SOLUÇÕES MANUAIS DESENVOLVIDAS COM POUCO OU NENHUM CONTROLE DE VOCABULÁRIO Déc. 50 - Linguagem natural + sistema UNITERM truncamento de palavras truncamento com infixos (especificando o começo e o fim da palavra mas não o meio)
AVALIAÇÃO DO SISTEMA DE RECUPERAÇÃO MANUAL VANTAGENS DESVANTAGENS agilidade na incorporação de novos termos, alto grau de especificidade incorpora termos usuais, pouca dependência do profissional da informação, Diversidade de pontos de acesso Em caso de pesquisa exaustiva, grande revocação ( possibilitando seleção) custo por busca elevado altos índices de revocação, baixos índices de precisão, relações espúrias (falsa associações, relações incorretas entre termos, etc.) Linguagem redundante por falta de controle do vocabulário Necessidade de usuário especializado
NEGOCIANDO SOLUÇÕES POSSÍVEIS Sistemas híbridos (linguagem natural + vocabulário controlado), Vocabulário pós- controlado, Tesauro em crescimento.
Funções das linguagens de indexação a) recuperar documentos com conteúdo semelhante, b) recuperar documentos relevantes sobre um assunto específico, c) recuperar documentos por grandes áreas de assunto, d) possibilitar a conversão dos termos de indexação entre diferentes linguagens e) auxiliar na escolha do termo adequado para a estratégia de busca, f) representar o assunto de maneira consistente, g) permitir a compatibilidade e diálogo entre a linguagem do indexador e a do pesquisador.
Histórico da automação no tratamento da informação Década de 50 Estados Unidos: é marcada pela utilização de sistemas automatizados. Década de 50 Surge a indexação automatizada: idéia desenvolvida por LUHN ( KWIC = Key Word in Context) elaborado a partir de rotação automática de palavras significativas dos títulos. Anos 60 Computadores tornaram-se largamente disponíveis na sociedade industrializadas, marcando o advento da era de sistemas automatizados. 1961 Inicia nos Estados Unidos dois projetos: - Projeto MEDLARS pela Biblioteca Nacional de Medicina - Projeto de Publicações Seriadas pela Universidade de California/San Diego
Histórico da automação no tratamento da informação Década de 60 Surge o sistema MARC (Machine Readable Cataloging = Catalogação legível por computador), visava a conversão de dados catalográficos em forma legível por máquinas, propiciando o formato padrão para intercâmbio de dados catalográficos. 1968 1a experiência de indexação automatizada no Brasil: elaboração de índices bibliográficos publicados pelo Instituto Brasileiro de Bibliografia e Documentação (atual IBICT): edição da Bibliografia Brasileira de Física. 1968 Surge o sistema MARC II: após estudos sobre a experiência do projeto piloto (MARC). É adotado como formato padrão pela American Library Association.
Histórico da automação no tratamento da informação 1972 Projeto CALCO: surge no Brasil tendo o MARC II como base para o desenvolvimento do seu projeto. Foi proposto pelo IBBD (Instituto Brasileiro de Bibliografia e Docuemtação, atual IBICT). 1974 Sistema Precis : É uma linguagem de indexação em cadeia desenvolvido por Derek Austin. 1976 O Formato CALCO passou a ser utilizado, contribuindo para a padronização e unificação do controle bibliográfico e documental. Experiência pioneira da catalogação automatizada no Brasil. 1977 A Biblioteca Nacional publica um manual descritivo intitulado Instruções de preenchimento da folha para a catalogação CALCO e CALCO Autoridades, seguindo de perto a linha da Biblioteca do Congresso Americano
Histórico da automação no tratamento da informação Rede Bibliodata Calco A partir dessas publicações a Biblioteca Central e o Centro de Processamento de Dados da Fundação Getúlio Vargas iniciaram a implementação do Sistema Bibliodata-CALCO. 1980 Foi dado o ínicio à implementação efetiva do módulo de Catalagoção pela Biblioteca Central da Fundação Getúlio Vargas. 1980 Foi dado o ínicio à implementação efetiva do módulo de Catalagoção pela Biblioteca Central da Fundação Getúlio Vargas. 1984 Integração das Bibliotecas da UNI-RIO na Rede Bibliodata. 1988 Integração da Fundação Universidade Regional de Blumenau à Rede Biliodata-CALCO
Histórico da automação no tratamento da informação Década de 90 UFMG: integração das bibliotecas setoriais, exceto Medicina, Música e Educação Física. 1993 A Rede Bibliodata possui mais de 60 membros de diferentes partes do Brasil, de acordo com artigo Cooperative cataloging outside northamerica: status report 1993 de Robert Holley, publicado no periódico Cataloging & Classification Quarterly. O sistema CALCO foi adotado pela Biblioteca Nacional, Fundação Getúlio Vargas e Centro de Informática do Ministério da Educação (CIMEC), atual Secretária da Informática. 1996 Sistema Integrado de Biblioteca da USP, com 38 bibliotecas em 70 cidades tornou-se o primeiro membro da rede OCLC Online Computer Library Center.
Histórico da automação no tratamento da informação ROBREDO descreve em seu livro Documentação de Hoje e de Amanhã outros sistemas independentes: Formato utilizado pela Biblioteca Central da Universidade de Brasília Ministério do Interior (MINTER) Sistema SICON (Sistema de Informação do Congresso Nacional) Projeto TAUPI (Total Automação de Bibliotecas Públicas, São Bernardo do Campo, SP) Formato IBICT Formatos internacionais: Formato padronizado do Manual de Referência do UNISIST
INDEXAÇÃO AUTOMÁTICA Teve início no final da década de 50, por LUHN. Ele desenvolveu a idéia de que o vocabulário existente no documento deveria constituir-se na base para análise de seu conteúdo, sendo a melhor forma de recuperá-lo.
INDEXAÇÃO AUTOMÁTICA A indexação automática se baseia na comparação de cada palavra do texto com uma relação de palavras vazias de significado (stop list), previamente estabelecidas, que conduz, por eliminação, a considerar as palavras restantes do texto com significativas. Este sistema objetiva a eliminação da subjetividade constante aos processos de indexação manual.
INDEXAÇÃO AUTOMÁTICA Na indexação automática a indexação a estratégia de busca é realizada pelos mesmos programas assegurando compatibilidade entre a linguagem de indexação utilizada na indexação e a utilizada na formulação da pergunta. A indexação automática é uma operação que identifica, através de programas de computador, palavras ou expressões significativas dos documentos para descrever de forma condensada o seu conteúdo.
INDEXAÇÃO AUTOMÁTICA As palavras significativas dos documentos selecionadas automaticamente, através de metodologias específicas, adotadas de acordo com as políticas de indexação e recuperação da informação, desenvolvimento de software e capacidade de hardware dos sistemas de informação.
NÍVEIS DE INDEXAÇÃO Categorização - representa o assunto que predomina, superficial - representa os conceitos principais de forma geral, profunda - representa todos os conceitos fundamentais.
METODOLOGIAS EMPREGADAS Método de freqüência ou análise estatística Método de atribuição de peso Método probabilistico Análise de Cluster Método de associação de palavras
SISTEMAS CRIADOS Década de 50/ frequência e análise estatistica KWIC - keyword in context KWOC - Keyword out context Década de 60/70 - Baseada nos princípios da classificação facetada PRECIS- PREserved Context sistem Década de 70 / uso de sinais delimitadores NEPHIS - ( Nested PHrase indexing sistem)
PONTOS CRÍTICOS DA INDEXAÇÃO AUTOMATIZADA Qualidade da indexação, Qualidade da recuperação da informação (sobretudo na área de ciências sociais, onde os termos têm significação subjetiva) Por outro lado a partir desta metodologia cresceram as preocupações com o enriquecimento dos títulos dos documentos tendo em vista a sua recuperação mais ágil.
O QUE SIGNIFICA NESTE CONTEXTO O CONTROLE DE VOCABULÁRIO É a elaboração de instrumentos artificiais (linguagem de indexação) que visam privilegiar o vocabulário de abordagem do usuário e o vocabulário dos autores dos documentos tendo em vista a rápida recuperação e utilização da informação
MAS A MÁQUINA NÃO FAZ TUDO???!! A atividade de controle e criação de linguagens de indexação é uma atividade essencialmente intelectual e enquanto tal necessita da mediação humana no processo. Deste modo Lixo dentro, é igual a lixo fora
MAS O QUE A MÁQUINA PODE FAZER??? A máquina pode ser um instrumento auxiliar na criação de linguagens de indexação e FACILITADOR NA INTERFACE USUÁRIO/SISTEMA no momento da recuperação da informação.
NOVAS FERRAMENTAS : CONSTRUÇÃO DE LINGUAGEM TCS TECER ADMINISTRAÇÃO DE BASES DE DADOS Micro ISIS Bibliodata Calco
NOVOS DESAFIOS COMPATIBILIZAÇÃO DAS POLÍTICAS DE CONTROLE DE VOCABULÁRIO APLICADOS AOS NOVOS FORMATOS: O hipertexto Os arquivos localizados na INTERNET Os materiais não bibliográficos, CD s, vídeo lasers, filmes, vídeos, Controle de textos integrais automatizados