Desafios para os profissionais da informação Alexandra Lourenço
web archive porquê? Processo de recolha e armazenamento de dados disponibilizados na World Wide Web, garantindo a sua preservação e disponibilização para pesquisas futuras. Volatilidade da Web, a maioria da informação deixa de estar disponível passado pouco tempo. Após um ano, apenas 20% dos endereços se mantém válidos. Alexandra Lourenço 2
A abordagem arquivística tradicional aplica-se à organização e descrição do arquivo da web? Alexandra Lourenço 3
Web archive Propósito da recolha: Conservar somente o conteúdo intelectual Garantir a autenticidade e integridade Preservar o valor legal Condiciona políticas e procedimentos Conteúdo Contexto Estrutura Princípio da proveniência Princípio da ordem original Alexandra Lourenço 4
Web Archive UK British Library UK National Archives Alexandra Lourenço 5
Seleção Critérios de seleção por a recolha de web sites:: abordagem global (Internet Archive "Wayback Machine" ) abordagem parcial (Ex.: tipo de mídia (áudio, vídeo ou textual) e domínio (por exemplo,.gov, org, pt). on-demand - programas e serviços comerciais de arquivamento (webcite) Destacar um tema ou evento - necessário julgamento humano (valoração) e/ou seleção manual Envolver especialistas Utilização de web crawlers Envolver a comunidade Amostragem Alexandra Lourenço 6
2014-09-24
Alexandra Lourenço
Aquisição Competência legal para recolha e preservação - Depósito legal Período de embargo / solicitação de autorização / solicitação de exclusão (Ex.: National Library of New Zealand, UK National Archives) Dependentes de: Métodos de aquisição Envio regular ou a pedido de snapshot para entidades de preservação patrimonial Utilização de web crawlers, programas que realizam o processo de recolha automática de acordo com critérios de seleção - escala da recolha - relação entre o arquivo da web e os proprietários do site - natureza do conteúdo web Alexandra Lourenço 15
Aquisição: Limitações da recolha automática: Protocolos de exclusão Acesso à Deep Web Conteúdos dinâmicos (Links, relações entre páginas e sites) Elementos complexos (video, audio, texto) Bases de dados Alexandra Lourenço 17
Aquisição: Propriedade intelectual Período de embargo / solicitação de autorização / solicitação de exclusão Alexandra Lourenço 18
Organização e descrição Por sessão Estrutura hierárquica multinível Abordagem bibliográfica Alexandra Lourenço 19
Alexandra Lourenço
Descrição e metadata Criação de metadata: Geração automática capturada pelos crawlers (timestamp, tamanho em bytes, o URI, o tipo MIME, tags das páginas HTML) Criação manual (apenas para pequena escala) Combinação de captura automática com a manual Alexandra Lourenço 22
Acesso Acessibilidade depende de permissões legais:. Depósito legal - acesso à cópia arquivada de todos os website disponíveis (Ex.: Biblioteca Nacional da Nova Zelândia). Acesso do público às páginas cujos produtores tenham dado permissão (Ex.: Biblioteca do Congresso) Acesso local (Ex.: Biblioteca Nacional da França ) Período de embargo (Ex.: FCCN arquivo.pt) Alexandra Lourenço 24
Acesso Capacidade de pesquisa depende dos metadados extraídos e das ferramentas de pesquisa utilizadas:. Controlo de autoridades (Biblioteca do Congresso ) Pesquisa por URL (Internet Archive) Pesquisa em texto livre (os que utilizam o motor de pesquisa NutchWax ) Alexandra Lourenço 26
Desafios Repetibilidade de experiência de navegação atual Continuidade semântica e ontológica Preservação de web sites autênticos Certificação de autenticidade e integridade Garantia no longo prazo de autenticidade, integridade, usabilidade Alexandra Lourenço 27
Desafios para as entidades produtoras Pensar a preservação na conceção Assegurar a autenticidade no longo prazo Avaliar (Tabelas de seleção para websites) Ver recomendações do NARA http://www.archives.gov/recordsmgmt/pdf/managing-web-records-index.pdf Ver recomendações do arquivo.pt http://sobre.arquivo.pt/colabore/recomendacoes-para-autores-de-sitiosweb/recomendacoes-para-autores-de-sitios-da-web Alexandra Lourenço 28
Desafios Formação dos profissionais da informação Projetos colaborativos Envolver a comunidade Alexandra Lourenço 29