Como publicar conteúdos na Web preserváveis para o futuro

Documentos relacionados
Arquivo.pt. Blogs que ficam para a História Daniel Gomes

Como publicar informação preservável para o futuro

Desafios para os profissionais da informação. Alexandra Lourenço

Arquivo da Web Portuguesa

Novidades e Prémio Daniel Gomes #WDPD2018

SEO. "Otimização para mecanismos de busca"

Avaliação do site feedbackvote.com

Avaliação do site koldi.com.br

Pesquisa no Passado. Miguel Costa Engenheiro, Investigador, Aluno de Doutoramento

#Fundamentos de uma página web

Avaliação do site tujn.tujesusdenazare.com.br

Busca de informação na Internet

Arquivo.pt: Uma infraestrutura para investigação científica. Daniel Gomes

Avaliação do site inbop.com.br

Avaliação do site tm-sprava.ru

Avaliação do site 1-ax.ru

Recuperação de informação na WEB

Avaliação do site google.com

web marketing 2.0 Publicidade e Marketing Aula 2

Avaliação do site evrangunes.esy.es

Ricardo Basílio Curador Digital - Arquivo.pt

O melhor de tudo nessas indicações que todas as Ferramentas SEO que vou indicar são grátis.

Conteúdo 1 Um crawler simples 2 Crawling 2 / 28

Google Hacking Prof. Pedro Filho

Avaliação do site mgcaretaker.com

Conteúdo. Perfeito, o Título contém entre 10 e 70 caracteres.

Avaliação do site umnovtoys116.ru

Avaliação do site alfa-agro.ru

Avaliação do site liveseoaudit.com

Soluções Vencedoras. CONTACTOS Jan Rev.01

Avaliação do site java-setup.ru

Joomla na otimização de sites para buscadores de Internet SEO. Marcio Junior Vieira

Avaliação do site hurghada.sk

Avaliação do site rpg.hk

Composição Web. Laboratório 0: Serviços de Comunicação na Internet. Prof. Lúcio Studer Ferreira

Avaliação do site le-maroc.info

Avaliação do site emprestimopes soalsp.weebly.com

web marketing 2.0 Publicidade e Marketing Aula 5

Arquivar a Web. Daniel Gomes

INSTALAÇÃO DO WORDPRESS EM SERVIDOR GRATUITO BYETHOST. Marco Madruga 2018

Busca de informação na Internet

Manual do painel administrativo. Site Instituto de Oncologia do Vale IOV

Faculdade de Engenharia Departamento de Informática. Composição Web

Marke&ng de Busca SEO

Avaliação do site emprestimofacilerapido.com.br

Para onde vamos. Recuperação de Informação na WEB. Medidas de Avaliação. Recuperação de informação na WEB

Avaliação do site transtransfers.com.br

Redes de Computadores

Arquivo da Web Portuguesa: uma infraestrutura para investigação científica. Daniel Gomes

Biblioteca Escolar. Como pesquisar na internet

Crawling. Marcelo K. Albertini. Faculdade de Computação, Universidade Federal de Uberlândia. Crawling 1 / 26

Arquivo das eleições 2015

Avaliação do site didactum-secur ity.com.websiteoutlook.com

Avaliação do site askgeek.io

Política de Cookies para painéis e inquéritos

PUBLICAÇÃO DE MATERIAIS

Avaliação do site akcpshop.de.websiteoutlook.com

Avaliação do site pre-r.com

Biblioteca Escolar da EB2 Dr. Manuel de Oliveira Perpétua. Como pesquisar na internet

Avaliação do site didactum.com.w3snoop.com

WordPress 3 Básico Stephanie Leary

MANUAL DO ADMINISTRATOR

Dica Kodi: Acabe com os problemas de buffering

Transforme o seu CentOS num servidor Web (LAMP)

Crawling. Marcelo K. Albertini. Faculdade de Computação, Universidade Federal de Uberlândia. Crawling 1 / 26

Avaliação do site cite4me.org

Internet: Conceitos Gerais

Centro de Emprego e Formação Profissional de Faro Curso Profissional de Técnico/a de Multimédia (EFA - NS)

SMART MARKETING WORDPRESS

Avaliação do site monitoring-har dware.com.websiteoutlook.com

Avaliação do site rankingtodayseobookmarking.net

MC561 / ES5461. Digitalização para & Reencaminhamento de Fax

web marketing 2.0 Publicidade e Marketing Aula 11

Arquivo da Web Portuguesa. Daniel Gomes fccn.pt Universidade Lusófona, 14 de Janeiro de 2009

Pesquisar Online. A Era da Informação 13/05/2010. Pesquisar na Web. Que Informação é Esta? Estratégias de pesquisa.

Um estudo sobre o uso de agentes de internet em buscas (Junho 2010)

IFSC/Florianópolis - Programação para a web Prof. Herval Daminelli

Busca de informação na Internet

HTML 5 TAGS BÁSICAS E ESTRUTURAIS. Prof. Rosemary Melo

LAB 7 Cookies e Sessões em PHP

Qual a diferença entre SEO On Page e SEO Off Page

Avaliação do site vulkanrusskiy.ru

Avaliação do site facebook.com

Avaliação do site checksiteworthonline.eu

Avaliação do site akcpsensor.de.ipaddress.com

Como dar visibilidade à memória online das instituições do Ensino Superior: o projecto A FCSH na Web

Avaliação do site anforderungserverraum.de.ipaddress.com

Avaliação do site greenmarkdevelopers.com

Avaliação do site tools.seozona.ru

Avaliação do site.2mstudio.de

Avaliação do site article2seorank.space

web marketing 2.0 Publicidade e Marketing Aula 3

Avaliação do site demaw.by

Construção de Sites. Introdução ao Universo Web. Prof. Nícolas Trigo

Avaliação do site reviewproducts.org

Transcrição:

Como publicar conteúdos na Web preserváveis para o futuro Hugo Viana hugo.viana@fccn.pt Página 1

Sumário Página 2 O que são Motores de Busca Como públicar conteúdos Web preserváveis Protocolo de exclusão de Robôs Como criar um ficheiro Robots.txt

O que são os motores de busca É um software que varre toda a Internet em busca de informação desejada (documentos ou endereços de páginas web). Página 3

Componentes de um motor de busca Web conventional 1. 2. 3. 4. 5. Página 4 Batedor Armazenamento Indexador Ordenador Apresentador

Batedores A partir de um conjunto inicial de URLs (raizes), os batedores do motor de busca iniciam uma recolha da Web, percorrendo todos as ligações criadas dentros dos Web sites. Página 5

Informação é recolhida automaticamente Página 6

Armazenamento Após a recolha ter terminado, toda a informação recolhida da web fica armazenada no repositório para ser indexada. Página 7

Indexador e ordenador O indexador extrai as palavras contidas nas páginas armazenadas e constrói índices que irão permitir efectuar pesquisas rápidas. Página 8

Apresentador O apresentador recebe os termos pesquisados pelos utilizadores, acede à informação dos índices e apresenta os resultados da pesquisa na forma de links para as páginas. Página 9

Apresentador do Google Página 10

Esquema de motor de busca conventional Página 11

Componentes de um arquivo Web com motor de busca 1. 2. 3. 4. 5. 6. Página 12 Batedor Armazenamento Indexador Ordenador Apresentador Reprodução de conteúdo

Armazenamento Após a recolha ter terminado, toda a informação recolhida da web fica armazenada no repositório para ser indexada e reproduzida. Página 13

Reprodução de conteúdo Arquivo.pt (2011) Página 14

Esquema de um motor de busca para arquivos da Web Página 15

Apresentador do Arquivo.pt (pesquisa por URL) Página 16

Apresentador do Arquivo.pt (pesquisa por termos) Página 17

Como públicar conteúdos Web preserváveis? 18

Uma ligação por conteúdo http://arquivo.pt/img/logo-home-pt.png Página 19

Mapa de navegação para utilizadores Página 20

Mapa do sitio https://www.europeia.pt/sitemap.xml Página 21

Data de publicação correctamente identificada 0 2 / 1 1 / 2 1 m e a Recolhid Página 22 14

Manter o mesmo endereço ao longo do tempo PSD2011.com (2011) Página 23

PSD2011.com (2014) Página 24

Outras recomendações: Robots.txt 25

Robots.txt?! Para que serve?! Página 26

Protocolo de exclusão de Robôs: Robots.txt Trata-se de um arquivo que, apesar da imponência do nome, não é robô e, na maioria das vezes, é de uma simplicidade impressionante. Página 27

http://www.dn.pt/ Página 28

http://www.dn.pt arquivada pelo Arquivo.pt Página 29

http://www.dn.pt/robots.txt Página 30

http://www.dn.pt arquivada pelo Internet Archive Página 31

Respeito pelos direitos de autor Página 32

Para que serve Robots.txt Página 33 Páginas protegidas por login; Páginas protegidas por formulários; Conteúdo repetidos; Informação privada.

Protocolo de exclusão de Robôs É importante que os autores autorizem a recolha de conteúdos importantes (para evitar problemas como o do http://www.dn.pt) robots.txt deverá estar na raiz do sítio web (ex. http://arquivo.pt/robots.txt). Página 34

Dicas para criar o seu Robots.txt 35

Permitir o arquivo pelo Arquivo. pt User-agent: Arquivo-web-crawler Disallow: Página 36

Controlar acess0s consecutivos User-agent: * Disallow: Crawl-delay: 100 # exige 100 segundos entre acessos Página 37

Proibir acesso a diretoria usando o robots.txt User-agent: Arquivo-web-crawler Disallow: /calendar/ Página 38

Proibir a recolha e indexação usando a meta tag ROBOTS <meta name="robots" content="noindex, NOFOLLOW" /> <html> <head> <title></title> <META NAME= ROBOTS CONTENT= NOINDEX,NOFOLLOW > </head> Página 39

Cuidado com os Robots.txt dos CMS s Página 40

Robots.txt do Wordpress por omissão User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/ Página 41

Robots.txt do Joomla por omissão User-agent: * Disallow: /administrator/ Disallow: /bin/ Disallow: /cache/ Disallow: /cli/ Disallow: /components/ Disallow: /includes/ Página 42

Como testar o Robots.txt https://www.google.com/webmasters/tools/robotstesting-tool Página 43

com/webmasters/tools/robotstesting-tool Página 44

Exemplos de Robots.txt https://fccn.pt/robots.txt User-agent: * Allow: / https://arquivo.pt/robots.txt User-agent: * Disallow: /nutchwax/search Disallow: /search Disallow: /wayback/ Disallow: /wayback/wayback/ Página 45

Desafío: Verificar o Robots.txt Página 46

Não tenho o Robots.txt, e agora?! 47

O Arquivo.pt recolhe o seu conteúdo. Página 48

Limitações impostas pelo Arquivo.pt tamanho máximo dos conteúdos descarregados da Web número de conteúdos por sítio número de ligações que o batedor percorre desde um endereço inicial até chegar a um conteúdo Página 49

Caso pretenda saber mais: http://sobre.arquivo.pt/colabore/recomendacoespara-autores-de-sitios-web http://sobre.arquivo.pt/colabore/recomendacoespara-autores-de-sitios-web/contacto Página 50

Obrigado! hugo.viana@fccn.pt Página 51