Web Crawling Coleta Automática na Web. Altigran Silva e Edleno Moura Julho de 2002
|
|
- Gabriel Henrique Samuel Barbosa Chaplin
- 8 Há anos
- Visualizações:
Transcrição
1 Web Crawling Coleta Automática na Web Altigran Silva e Edleno Moura Julho de 2002
2 Sumário Algoritmo de coleta Arquitetura Estratégias de escalonamento Aspectos práticos Coleta incremental Páginas duplicadas e Mirrors
3 Coleta de Páginas Objetivo Coleta automática e sistemática de documentos da Web a serem indexados e consultados pela máquina de busca Coletores de Páginas Crawlers = Spiders = Robots Portugues: Navegadores Automáticos (??)
4 Coleta de Páginas Web Início Próxima URL URLs Iniciais URLs a visitar Coletar página URLs visitadas Extrair URLS páginas
5 URL Inicial Exemplo
6 Exemplo Seguindo Links
7 Exemplo
8 Exemplo
9 Exemplo Não serão coletadas!!!
10 Seguindo Links
11 Arquitetura
12 Arquitetura Típica Web Requisições DNS Servidor de Nomes (DNS) Cache de Nomes Requisições HTTP Coletor Coletor Coletor Páginas coletadas Servidor de Armazenamento Base de Páginas URLs extraídas URLs a coletar Escalonador de URLs Iniciais Novas Visitadas
13 Componentes Coletores Responsáveis pela requisição de páginas aos servidores HTTP Extraem os links das páginas recebidas e enviam ao escalonador Requisitam do escalonador uma ou mais URLs a serem coletadas Podem realizar um escalonamento local (short term scheduling)
14 Componentes Servidor de Armazenamento Recebem as páginas ou outros objetos coletados e armazenam em uma base local. Fazem a extração (parsing) de texto Podem tratar vários formatos: Postscript, PDF, Word, Powerpoint, etc.
15 Componentes Servidor de Nomes Atendem requisições DNS dos coletores Mantêm um cache de identificadores DNS (nomes) resolvidos Crucial para evitar que cada coletor faça requisições DNS remotas Potencial ponto de gargalo
16 Componentes Escalonador Responsável por decidir qual a próxima URL a ser coletada Coordena as ações dos coletores Deve garantir protocolo de exclusão Retardo mínimo entre requisições a um mesmo servidor HTTP. Deve garantir que não haverão coletas repetidas Potencial ponto de gargalo
17 Performance Típica Mercator (Maio de 1999) 77.4 M requisições HTTP em 8 dias 112 docs/seg e KB/seg GoogleBot (Abril de 1998) 26 M requisições HTTP em 9 dias 33.5 docs/seg e 200 KB/seg The Internet Archive crawler (Maio de 1997) 4 M HTML docs/dia 46.3 HTML docs/seg and 231 KB/seg
18 Mercator Hardware Digital Ultimate Workstation 533 MHz, Alpha processors, 2 GB de RAM, 118 GB de disco local Conexão de 100 Mbit/sec FDDI Software Escrito Java Procesador Java srcjava otimizado pela Digital.
19 Mercator
20 Escalonamento
21 Escalonamento Motivação A Web é imensa: 10 M de servidores e bilhões de páginas Na prática, é impossível coletar todas as páginas Custo de manutenção e processamento de grandes coleções e índices é muito alto Solução Garantir que somente as melhores páginas serão coletadas
22 Escalonamento Em Profundidade ou LIFO Resultada em uma coleta focada Mais páginas por site Resultados imprevisíveis Pode-se limitar o número de níveis
23 Escalonamento Em Largura ou FIFO Produz uma coleta mais abrangente Visita um maior número de sites Mais usada por ser simples de implementar
24 Escalonamento FIFO com sufixo de URL Exemplo: *.fua.br, *.uol.com.br Escalonamento em dois níveis: sufixo (site) URL Garante cobertura balanceada entre sites Bastante usado
25 Escalonamento Baseadas em ranking de URLs Baseada em conteúdo Simples de avaliar, simples de subverter Baseada em popularidade Difícil de medir (número de acessos) Baseada em conectividade Número de referências (links) Fácil de medir, robusto
26 Prioridade por conectividade Referências (Backlink count) O valor de uma página é proporcional ao número de referências a ela Variações: Todos os links; links internos; links de servidores diferentes Variações recursivas Links de páginas de maior valor tem maior peso Exemplo: PageRank [BP98]
27 Prioridade por conectividade PageRank Um usuário navegando aleatoriamente, seguindo links com probabilidade uniforme d, visitaria uma página p com probabilidade R(p) R( p) PageRank de p R( p) = d T + (1 d) k R( pi) i = 1 C( pi) C( p) p T 1... p k Fan - out de p Páginas que apontam p Número total de páginas d Amortizagem (d ~ 0.14)
28 Comparação de Estratégias Experimento proposto por Cho et. al. Coletar k páginas com vários tipos de escalonamento Randômico, FIFO, backlink e PageRank Critérios de avaliação Freqüência de termos, Backlink, PageRank, tipo de URLs páginas do domínio stanford.edu Resultado: Estratégia baseada em PageRank é a melhor Estratégia baseada em FIFO é boa
29 Comparação de Estratégias Experimento proposto por Najork & Wiener 328 M URLs durante 58 dias usando FIFO Usando somente PageRank como métrica Resultado Estratégia FIFO descobre páginas com alto PageRank primeiro Conclusão Máquinas com ranking baseado em conectividade devem coletar em FIFO
30 Exemplos de Escalonamento AltaVista (versão inicial) Randômico com exclusão por servidor Mercator/Altavista FIFO com exclusão por servidor Alexa Visita alternadamente conjuntos n servidores GoogleBot PageRank
31 Aspectos Práticos
32 Ética Protocolo de exclusão de robôs Recomendação informal para desenvolvedores de robôs para a Web Restrições de acesso robots.txt meta-tags especiais Retardo mínimo entre requisições a um mesmo servidor HTTP.
33 Regras de Exclusão para Sites Robots.txt Descreve regras de restrição para navegação automática em um site Encontra-se sempre na URL raiz de um servidor Deve-se ser requisitado antes de tudo A obediência as regras não é obrigatória Se não forem seguidas, o administrador pode bloquear acesso a todo conteúdo do servidor
34 Regras de Exclusão para Sites Desabilita acesso a partes do site pra qualquer robô User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/ Disallow: /private/ Desabilita acesso a todo o site para um robô específico User-agent: Robocopo Disallow: /
35 Regras de exclusão para páginas Uso de metatags em páginas HTML Não coletar, seguir links <meta name="robots" content="noindex"> Coletar, não seguir links <meta name="robots" content="nofollow"> Não indexar, não seguir links <meta name="robots content="noindex,nofollow">
36 Recomendações Evitar rapid fire Usar retardo mínimo entre requisições a um mesmo servidor HTTP Tipicamente 60 segundos Usar o header User-Agent Prover as informações necessárias para os administradores de site Nome do robô, , responsável, instituição, etc. Evitar coleta maciça em horas de tráfego alto
37 Restrições Práticas Sites Gigantes Limitar o número de páginas coletadas uma vez que alguns sites contém um número excessivamente grande páginas Tipos de páginas Não devem ser coletados objetos que não podem ser indexados:.exe,.jpg,.gif,.ram,.au, Problemas: Nem sempre é fácil detectar o tipo de objeto Novos tipos aparecem todo dia
38 Restrições Práticas Caminhos Relativos e ciclos <A HREF=../../../aula/ >Coleta</A> Frames e Frame Sets Buracos Negros e Spider Traps: Links do tipo próximo ano em calendários Objetos de tamanho muito grande
39 Coleta Incremental
40 Caracterização Coletor periódico Atualiza periodicamente a base de páginas em batch Coletor Incremenal Atualiza a base de páginas de maneira incremental e seletiva Melhora o grau de atualidade das páginas Descobre novas páginas mais facilmente
41 Caracterização Objetivos Atualizar as páginas já coletadas Substituir páginas menos imporantes como novas páginas mais importates. Ideia Fazer estimativas de quão frequente as páginas mudam Revisitar somente as páginas que tem grande probalidade de mudar
42 Caracterização Vantagens Economia de banda Melhora da autualidade da base Incorpora novas páginas com mais rapidez
43 Evolução da Web Experimento descrito em Cho & Garcia-Molina, a 24 de junho sites, 720 K páginas Por domínos com(132) edu(78) net/org(30) gov(30) Examinadas 3 K páginas de cada site diariamente
44 Intervalo médio de mudanças Fração das páginas dia 1d-1s 1s-1m 1m-4m >4m
45 Por domínio 0.6 Fração das páginas com netorg edu gov dia 1d-1s 1w-1m 1m-4m >4m
46 Tempo de vida das páginas 70% vive mais de um mês Fração de mudanças 1s 1s-1m 1m-4m >4m
47 Tempo de vida das páginas Domínios.com são mais voláteis.edu e.gov são mais perenes Fração de mudanças 1s 1s-1m 1m-4m >4m
48 Tempo p/ 50% de mudança Em quanto tempo a Web muda 50%? Média global: 50 dias
49 Tempo p/ 50% de mudança com:11 dias, gov: ~120 dias
50 Como muda a Web? Baseado nos resultados experimentais foi obtido um processo de Poisson f T (t) = λ e -λ t (t > 0)
51 no intevalor Percentua de mundança Como muda a Web? Páginas que mudam a cada 20 dias em média Distribuição de Poisson Intervalo em dias
52 Coleta Periódica X Incremental Períodica Incremental
53 Atualizaçao Shadowing X In-Place Shadowing Consiste em armarmazenar as atualizações em um espaço difrente da coleção corrente Permite a disponibilidade da coleção corrente Mais fácil de implementar A coleção corrente fica obsoleta até o momento da reconciliação In-Place Consideravelmente mais complicada Garante a atualidade da coleção corrente
54 Frequência Fixa X Variável Frequência fixa Adotada na coleta períodica Frequência Variável Adequadata para coleta incremental com atualizações in-place
55 Tratamento de Páginas Duplicadas e Mirrors
56 Problema de Duplicação Boa parte do conteúdo da Web se está duplicado em vários sites Os motivos são vários: Balanceamento de carga, alta disponibilidade Atração de tráfego (ex. Tucows) Backup Estimativas Altavista, 1996 : 30% em 30 M de pags. Google, 1997 : 36% em 26 M de pags.
57 Problema de Duplicação Inconveniente para coleta Esforço de coleta inútil Espaço de armazenamento desnecessário Inconveniente para processamento de consultas Maior demanda de processamento Prejuízo na avaliação de similaridade Inconveniente para os usuários
58 Duplicação de Páginas Dadas duas URLs v u determinar se os documentos referenciados tem o mesmo conteúdo ou conteúdo semelhante Verificação exaustiva é inviável!!!
59 Duplicação Exata Detecção por assinatura Para cada URL u é calculada uma assinatura α(u) que é armazenada Se α(u ) = α(u) então u é uma duplicata de u Message Digest 5 (MD5) (Rivest,92) Gera assinaturas de 128 bits Colisão: 1M entradas/seg. em ~600k anos Geração eficiente
60 Duplicação Aproximada Mais comum: baners, datas, etc. Assinaturas não funcionam! Se u é uma duplicata aproximada de u, α(u ) α(u) Solução aproximada (Broder,98) Tomar amostras aleatórias das páginas Gerar assinaturas das amostras
61 Mirrors Na prática, coleções de páginas são duplicadas De servidores com mais de 100 docs, (9.4%) apresentam algum tipo de duplicação (Bharat & Broder, 1998) Mirrors Sites que mantêm coleções de páginas duplicadas de forma sistemática Uso de assinaturas não reduz o número de requisições feitas pelo coletor
62 Mirrors LDP (Linux Doc. Project) = 25Mb, ~ 180 mirrors
63 Detecção de Mirrors Bottom-Up Cho, Shivakumar & Garcia-Molina, 2000 Detecção a partir do conteúdo das páginas Construção progressiva de clusters Top-Down Bharat,Broder & Dean, 1999 Pré-filtragem baseada somente nas URLs Testar somente os que passam na filtragem
64 Bottom-up Passo 1 Determinar pares de páginas similares com base no conteúdo Rid Pid
65 Bottom-up Passo 2 Estrutura de links Rid Pid Pid Link Pid Rid Pid Group by (R1.Rid, R2.Rid) Ra = R1, Ls = Count(R1.Rid), Ld = Count(R2.Rid), Rb = R2
66 Bottom-Up Passo 3 Construção de clusters S { } Para cada (Ra, Ls, Ld, Rb) Se (Ra = Ls = Ld = Rb) S S U {<Ra, Rb> } Union-Find(S) S contém pares de URLs no mesmo cluster
67 Bottom-up Clusters Triviais (pares) Expansão de Clusters
68 Bottom-up Clusters Máximos
69 Resultados de experimento Rank Site Replicas Tamanho 1 TUCOWS WinSock utilities LDP Linux Doc. Project Apache Web server JAVA API Mars Pathnder
70 Top-Down Pré-Filtragem Não considera conteúdo das páginas Baseada somente na estrutura extraída de um conjunto de URLs Algoritmos de análise de URL Teste final baseado em similaridade de conteúdo
71 Pré-Filtragem Baseada em endereço IP Determina hosts que possuem IP idênticos ou muito similares. Baseada nas strings das URL Determina pares de hosts que tem URL altamente similar. Similaridade baseada no modelo vetorial
72 Pré-Filtragem Baseada na conectividade dos hosts Considera um hosts como um documento único Analisa a estrutura de ligação entre estes pseudo-documentos. Dois hosts são considerados mirrors se eles apontam para conjuntos similares de hosts
73 Pré-Filtragem Baseada nas strings da URL + conectividade Dois hosts são considerados mirrors se eles possuem caminhos similares e documentos na mesma posição possuem links similares
74 Experimentos Entrada: 140 M URLs em hosts com >100 URLs Informação de conectividade Para cada algoritmo de pré-filtragem Determinar uma raking de pares de host Testar cada par sugerido usando conteúdo
75 Experimentos Avaliação Precisão: quais pares sugeridos são mirrors Revocação relativa: quais pares são sugeridos considerando todos os métodos foram encontrados por um método em particular
76 Experimentos Resultados Melhores métodos quanto a precisão são os baseados em IP e prefixo de URL Métodos individuais são limitados quanto a revocação Métodos combinados: Precisão: 0.57% Revocação: 0.86%
77 Artigos The Evolution of the Web and Implications for an Incremental Crawler, Junghoo Cho Hector Garcia- Molina Eficient Crawling Through URL Ordering, Junghoo Cho and Hector Garcia-Molina and Lawrence Page Breadth-First Search Crawling Yields High-Quality Pages, Marc Najork Janet L. Wiener Um Retrato da Web Brasileira, Veloso e outros
Apresentação do Artigo
Apresentação do Artigo Web Search for a Planet: The Google Cluster Architecture Publicado em IEEE Micro Março 2003, pg.22-28 Luiz A.Barroso, Jeffrey Dean, Urs Hölze Frank Juergen Knaesel fknaesel@inf.ufsc.br
Leia mais4. Qual seria o impacto da escolha de uma chave que possua letras repetidas em uma cifra de transposição?
Prova de 2011-02 1. Descreva duas maneiras de estabelecer uma conexão entre processos na camada de transporte sem o conhecimento da porta (TSAP) ao qual o servidor remoto esteja associado. 2. Estabelecer
Leia mais2 Atualidade de uma base de dados
2 Atualidade de uma base de dados Manter a atualidade de uma base de dados é um problema que pode ser abordado de diferentes maneiras. Cho e Garcia-Molina [CHO] definem esse problema da seguinte forma:
Leia maisOrganizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU
Organizaçãoe Recuperaçãode Informação GSI521 Prof. Dr. Rodrigo Sanches Miani FACOM/UFU Análisede links Page Rank Prof. Dr. Rodrigo Sanches Miani FACOM/UFU Motivação Suponha que um modelo clássico, como
Leia maishttp://aurelio.net/vim/vim-basico.txt Entrar neste site/arquivo e estudar esse aplicativo Prof. Ricardo César de Carvalho
vi http://aurelio.net/vim/vim-basico.txt Entrar neste site/arquivo e estudar esse aplicativo Administração de Redes de Computadores Resumo de Serviços em Rede Linux Controlador de Domínio Servidor DNS
Leia maisEntendendo como funciona o NAT
Entendendo como funciona o NAT Vamos inicialmente entender exatamente qual a função do NAT e em que situações ele é indicado. O NAT surgiu como uma alternativa real para o problema de falta de endereços
Leia maisBRAlarmExpert. Software para Gerenciamento de Alarmes. BENEFÍCIOS obtidos com a utilização do BRAlarmExpert:
BRAlarmExpert Software para Gerenciamento de Alarmes A TriSolutions conta com um produto diferenciado para gerenciamento de alarmes que é totalmente flexível e amigável. O software BRAlarmExpert é uma
Leia maisQuarta-feira, 09 de janeiro de 2008
Quarta-feira, 09 de janeiro de 2008 ÍNDICE 3 4 RECOMENDAÇÕES DE HARDWARE PARA O TRACEGP TRACEMONITOR - ATUALIZAÇÃO E VALIDAÇÃO DE LICENÇAS 2 1. Recomendações de Hardware para Instalação do TraceGP Este
Leia maisFIREWALL. Prof. Fabio de Jesus Souza. fabiojsouza@gmail.com. Professor Fabio Souza
FIREWALL Prof. Fabio de Jesus Souza fabiojsouza@gmail.com Professor Fabio Souza O que são Firewalls? Os firewalls são sistemas de segurança que podem ser baseados em: um único elemento de hardware; um
Leia maisEdital 012/PROAD/SGP/2012
Edital 012/PROAD/SGP/2012 Nome do Candidato Número de Inscrição - Assinatura do Candidato Secretaria de Articulação e Relações Institucionais Gerência de Exames e Concursos I N S T R U Ç Õ E S LEIA COM
Leia maisRedes de Computadores
Redes de Computadores Redes de Computadores Redes de Computadores 2 1 Máquinas e processos podem ser identificados por endereços (hierárquicos ou não) conforme visto, como IP, IP+NroPorta, No uso por usuários
Leia mais3. Explique o motivo pelo qual os protocolos UDP e TCP acrescentam a informação das portas (TSAP) de origem e de destino em seu cabeçalho.
Entregue três questões de cada prova. Prova de 2011-02 1. Descreva duas maneiras de estabelecer uma conexão entre processos na camada de transporte sem o conhecimento da porta (TSAP) ao qual o servidor
Leia maisMASSACHUSETTS INSTITUTE OF TECHNOLOGY Sloan School of Management
MASSACHUSETTS INSTITUTE OF TECHNOLOGY Sloan School of Management 15.565 INTEGRAÇÃO DE SISTEMAS DE INFORMAÇÃO: FATORES TECNOLÓGICOS, ESTRATÉGICOS E ORGANIZACIONAIS Panorama Funcional CP0 -- INTRODUÇÃO AO
Leia maisIP significa Internet Protocol. A Internet é uma rede, e assim como ocorre em qualquer tipo de rede, os seus nós (computadores, impressoras, etc.
Endereços IP Endereços IP IP significa Internet Protocol. A Internet é uma rede, e assim como ocorre em qualquer tipo de rede, os seus nós (computadores, impressoras, etc.) precisam ter endereços. Graças
Leia maisO Googlebot não consegue aceder a ficheiros CSS e JS em seu blog
O Googlebot não consegue aceder a ficheiros CSS e JS em seu blog O Googlebot não consegue aceder a ficheiros CSS e JS em seu blog? Aprenda agora como resolver essa mensagem. Recentemente muitos blogueiros
Leia maisFirewall. Alunos: Hélio Cândido Andersson Sales
Firewall Alunos: Hélio Cândido Andersson Sales O que é Firewall? Firewall pode ser definido como uma barreira de proteção, que controla o tráfego de dados entre seu computador e a Internet (ou entre a
Leia maisSistemas Distribuídos Capítulos 3 e 4 - Aula 4
Sistemas Distribuídos Capítulos 3 e 4 - Aula 4 Aula passada Threads Threads em SDs Processos Clientes Processos Servidores Aula de hoje Clusters de Servidores Migração de Código Comunicação (Cap. 4) Fundamentos
Leia maisUtilizando ferramentas de software livre para estudar a Web Brasileira
Utilizando ferramentas de software livre para estudar a Web Brasileira Agenda 1. O projeto 2. As Etapas 3. Ferramentas Utilizadas: Wire, Analise internet 4. Desafios Utilizando ferramentas de software
Leia maisRede de Computadores
Escola de Ciências e Tecnologia UFRN Rede de Computadores Prof. Aquiles Burlamaqui Nélio Cacho Luiz Eduardo Eduardo Aranha ECT1103 INFORMÁTICA FUNDAMENTAL Manter o telefone celular sempre desligado/silencioso
Leia maisIntranets. FERNANDO ALBUQUERQUE Departamento de Ciência da Computação Universidade de Brasília 1.INTRODUÇÃO
Intranets FERNANDO ALBUQUERQUE Departamento de Ciência da Computação Universidade de Brasília 1.INTRODUÇÃO As intranets são redes internas às organizações que usam as tecnologias utilizadas na rede mundial
Leia maisNettion Security & Net View. Mais que um software, gestão em Internet.
Nettion Security & Net View Mais que um software, gestão em Internet. Net View & Nettion Security Mais que um software, gestão em Internet. A Net View e a Nettion Security Software se uniram para suprir
Leia maisProf. Luiz Fernando Bittencourt MC714. Sistemas Distribuídos 2 semestre, 2013
MC714 Sistemas Distribuídos 2 semestre, 2013 Virtualização - motivação Consolidação de servidores. Consolidação de aplicações. Sandboxing. Múltiplos ambientes de execução. Hardware virtual. Executar múltiplos
Leia maisComponentes de um sistema de firewall - II. Segurança de redes
Componentes de um sistema de firewall - II Segurança de redes O que são Bastion Hosts? Bastion host é o nome dado a um tipo especial de computador que tem funções críticas de segurança dentro da rede e
Leia maisManual AGENDA DE BACKUP
Gemelo Backup Online DESKTOP Manual AGENDA DE BACKUP Realiza seus backups de maneira automática. Você só programa os dias e horas em que serão efetuados. A única coisa que você deve fazer é manter seu
Leia maisExistem 109 questões nesta pesquisa
FASE 2: ANÁLISE DO WEBSITE INSTRUÇÕES Leia atentamente todas as questões Explore o website em avaliação, procurando pelas questões propostas Depois, responda cada questão Algumas questões precisam de informações
Leia maisTRANSMISSÃO DE DADOS Prof. Ricardo Rodrigues Barcelar http://www.ricardobarcelar.com
- Aula 5-1. A CAMADA DE TRANSPORTE Parte 1 Responsável pela movimentação de dados, de forma eficiente e confiável, entre processos em execução nos equipamentos conectados a uma rede de computadores, independentemente
Leia maisManual AGENDA DE BACKUP
Gemelo Backup Online DESKTOP Manual AGENDA DE BACKUP Realiza seus backups de maneira automática. Você só programa os dias e horas em que serão efetuados. A única coisa que você deve fazer é manter seu
Leia maisMarke&ng de Busca SEO
Marke&ng de Busca SEO O que é SEO? O significado de SEO é Search Engine Op.miza.on. Em português ele é conhecido como O;mização de Sites, MOB e O;mização para Buscas. O SEO nada mais é do que a o;mização
Leia maisArquitetura TCP/IP. Parte III Endereçamento IP e roteamento. Fabrízzio Alphonsus A. M. N. Soares
Arquitetura TCP/IP Parte III Endereçamento IP e roteamento Fabrízzio Alphonsus A. M. N. Soares Tópicos Formato do endereço Classes de endereços Endereços especiais Sub-rede e máscara VLSM (Variable Length
Leia maisGuia de Conectividade Worldspan Go Res! A V A N Ç A D O
Guia de Conectividade Worldspan Go Res! A V A N Ç A D O Í n d i c e Considerações Iniciais...2 Rede TCP/IP...3 Produtos para conectividade...5 Diagnosticando problemas na Rede...8 Firewall...10 Proxy...12
Leia maisO Impacto dos Aceleradores Expand no Consumo de Banda do Citrix Metraframe
O Impacto dos Aceleradores Expand no Consumo de Banda do Citrix Metraframe Teste de Desempenho Expand Networks, abril de 24 O líder atual de mercado em sistemas de computação baseados em servidores é a
Leia maisCONCEITOS INICIAIS. Agenda A diferença entre páginas Web, Home Page e apresentação Web;
CONCEITOS INICIAIS Agenda A diferença entre páginas Web, Home Page e apresentação Web; O que é necessário para se criar páginas para a Web; Navegadores; O que é site, Host, Provedor e Servidor Web; Protocolos.
Leia maisWeb Crawlers Open Source. Heitor de Souza Ganzeli Analista de Projetos do nic.br
Web Open Source Heitor de Souza Ganzeli Analista de Projetos do nic.br O Comitê Gestor da Internet no Brasil (CGI.br) foi criado pela Portaria Interministerial nº 147, de 31 de maio de 1995, alterada pelo
Leia maisDell Infrastructure Consulting Services
Proposta de Serviços Profissionais Implementação do Dell OpenManage 1. Apresentação da proposta Esta proposta foi elaborada pela Dell com o objetivo de fornecer os serviços profissionais de implementação
Leia maisServidor, Proxy e Firewall. Professor Victor Sotero
Servidor, Proxy e Firewall Professor Victor Sotero 1 Servidor: Conceito Um servidor é um sistema de computação centralizada que fornece serviços a uma rede de computadores; Os computadores que acessam
Leia maiswww.f2b.com.br 18/04/2006 Micropagamento F2b Web Services Web rev 00
www.f2b.com.br 18/04/2006 Micropagamento F2b Web Services Web rev 00 Controle de Revisões Micropagamento F2b Web Services/Web 18/04/2006 Revisão Data Descrição 00 17/04/2006 Emissão inicial. www.f2b.com.br
Leia maisProgramação para Internet I. 10. Motores de busca. Nuno Miguel Gil Fonseca nuno.fonseca@estgoh.ipc.pt
Programação para Internet I 10. Motores de busca Nuno Miguel Gil Fonseca nuno.fonseca@estgoh.ipc.pt A Internet assume-se como a maior fonte de informação de todos os tempos No entanto, a informação encontra-se
Leia maisGUIA DE CURSO. Tecnologia em Sistemas de Informação. Tecnologia em Desenvolvimento Web. Tecnologia em Análise e Desenvolvimento de Sistemas
PIM PROGRAMA DE INTEGRAÇÃO COM O MERCADO GUIA DE CURSO Tecnologia em Sistemas de Informação Tecnologia em Desenvolvimento Web Tecnologia em Análise e Desenvolvimento de Sistemas Tecnologia em Sistemas
Leia maisSistemas Distribuídos. Professora: Ana Paula Couto DCC 064
Sistemas Distribuídos Professora: Ana Paula Couto DCC 064 Sistemas Distribuídos Basedos na Web Capítulo 12 Agenda Arquitetura Processos Comunicação Nomeação Sincronização Consistência e Replicação Introdução
Leia maisCurso de Aprendizado Industrial Desenvolvedor WEB
Curso de Aprendizado Industrial Desenvolvedor WEB Disciplina: Programação Orientada a Objetos II Professor: Cheli dos S. Mendes da Costa Modelo Cliente- Servidor Modelo de Aplicação Cliente-servidor Os
Leia maisCapítulo 5 Métodos de Defesa
Capítulo 5 Métodos de Defesa Ricardo Antunes Vieira 29/05/2012 Neste trabalho serão apresentadas técnicas que podem proporcionar uma maior segurança em redes Wi-Fi. O concentrador se trata de um ponto
Leia maisSISTEMAS DISTRIBUÍDOS
SISTEMAS DISTRIBUÍDOS Cluster, Grid e computação em nuvem Slide 8 Nielsen C. Damasceno Introdução Inicialmente, os ambientes distribuídos eram formados através de um cluster. Com o avanço das tecnologias
Leia maisWeb Design Aula 11: Site na Web
Web Design Aula 11: Site na Web Professora: Priscilla Suene priscilla.silverio@ifrn.edu.br Motivação Criar o site em HTML é interessante Do que adianta se até agora só eu posso vê-lo? Hora de publicar
Leia maisPerguntas Frequentes. Distribuidores
Perguntas Frequentes Distribuidores O que é o site Compre Lista Escolar? É um site que possui um sistema desenvolvido, exclusivamente, para que distribuidores possam realizar vendas de livros escolares
Leia mais10/07/2013. Camadas. Principais Aplicações da Internet. Camada de Aplicação. World Wide Web. World Wide Web NOÇÕES DE REDE: CAMADA DE APLICAÇÃO
2 Camadas NOÇÕES DE REDE: CAMADA DE APLICAÇÃO Introdução à Microinformática Prof. João Paulo Lima Universidade Federal Rural de Pernambuco Departamento de Estatística e Informática Aplicação Transporte
Leia maisPrograma de Atualização de Pontos do Lince GPS
Esse programa atualiza os pontos do software Lince GSP em aparelhos portáteis, como navegadores e celulares. A Robotron mantém um serviço de fornecimento de pontos de controle de velocidade aos aparelhos
Leia maisOnline Help StruxureWare Data Center Expert
Online Help StruxureWare Data Center Expert Version 7.2.7 Appliance virtual do StruxureWare Data Center Expert O servidor do StruxureWare Data Center Expert 7.2 está agora disponível como um appliance
Leia maisUm estudo sobre o uso de agentes de internet em buscas (Junho 2010)
IA009 INTRODUÇÃO À TEORIA DE AGENTES 1 Um estudo sobre o uso de agentes de internet em buscas (Junho 2010) Alexandre Fatayer Canova, RA 107214, UNICAMP Agentes de internet são parte integrante da web na
Leia maisROTEIRO DE IMPLANTAÇÃO
Implantação Framework Essential ROTEIRO DE IMPLANTAÇÃO Detalhes Imprescindíveis nessa Implantação: Importação Após criar as planilhas seguir a ordem de importação abaixo: 1) Departamentos; 2) Produtos;
Leia maisHashing Letícia Rodrigues Bueno
Hashing Letícia Rodrigues Bueno UFABC hash: Hashing (Tabelas de Dispersão): Introdução hash: Hashing (Tabelas de Dispersão): Introdução Hashing (Tabelas de Dispersão): Introdução hash: 1. fazer picadinho
Leia maisESTUDOS REALIZADOS. Camada Física. Redes de Computadores AULA 13 CAMADA DE REDE. Camada Física Camada de Enlace Subcamada de Acesso ao Meio AGORA:
Redes de Computadores AULA 13 CAMADA DE REDE Profº Alexsandro M. Carneiro Outubro - 2005 ESTUDOS REALIZADOS Camada Física Camada de Enlace Subcamada de Acesso ao Meio AGORA: Camada de Rede Camada Física
Leia maisIntrodução ao Active Directory AD
Introdução ao Active Directory AD Curso Técnico em Redes de Computadores SENAC - DF Professor Airton Ribeiro O Active Directory, ou simplesmente AD como é usualmente conhecido, é um serviço de diretórios
Leia maisPré-Requisitos do Software Themis Pré-Requisitos do Software Themis
Pré-Requisitos do Software Themis Pré-Requisitos do Software Themis 1. Pré-requisitos para Servidores - até 2 licenças: 1.1 Plano Básico: Processador: 3.0 GHz ou superior. Recomenda-se 3.2 GHz Dual-Core.
Leia maisSMTP, POP, IMAP, DHCP e SNMP. Professor Leonardo Larback
SMTP, POP, IMAP, DHCP e SNMP Professor Leonardo Larback Protocolo SMTP O SMTP (Simple Mail Transfer Protocol) é utilizado no sistema de correio eletrônico da Internet. Utiliza o protocolo TCP na camada
Leia maisVia Prática Firewall Box Gateway O acesso à Internet
FIREWALL BOX Via Prática Firewall Box Gateway O acesso à Internet Via Prática Firewall Box Gateway pode tornar sua rede mais confiável, otimizar sua largura de banda e ajudar você a controlar o que está
Leia maisNa Figura a seguir apresento um exemplo de uma "mini-tabela" de roteamento:
Tutorial de TCP/IP - Parte 6 - Tabelas de Roteamento Por Júlio Cesar Fabris Battisti Introdução Esta é a sexta parte do Tutorial de TCP/IP. Na Parte 1 tratei dos aspectos básicos do protocolo TCP/IP. Na
Leia maisManual de implantação
Manual de implantação O BioPass ID é um serviço online baseado em nuvem que fornece uma poderosa tecnologia multibiométrica (reconhecimento de impressões digitais e face) para os desenvolvedores de qualquer
Leia maisProfs. Deja e Andrei
Disciplina Sistemas Distribuídos e de Tempo Real Profs. Deja e Andrei Sistemas Distribuídos 1 Conceitos e Projetos de Sistemas Distribuídos Objetivos: Apresentar uma visão geral de processamento distribuído,
Leia maisAranda INVENTORY. Benefícios Estratégicos para sua Organização. (Standard & Plus Edition) Beneficios. Características V.2.0907
Uma ferramenta de inventario que automatiza o cadastro de ativos informáticos em detalhe e reporta qualquer troca de hardware ou software mediante a geração de alarmes. Beneficios Informação atualizada
Leia maisTabela de roteamento
Existem duas atividades que são básicas a um roteador. São elas: A determinação das melhores rotas Determinar a melhor rota é definir por qual enlace uma determinada mensagem deve ser enviada para chegar
Leia maisSenha Admin. Nessa tela, você poderá trocar a senha do administrador para obter acesso ao NSControl. Inicialização
Manual do Nscontrol Principal Senha Admin Nessa tela, você poderá trocar a senha do administrador para obter acesso ao NSControl. Inicialização Aqui, você poderá selecionar quais programas você quer que
Leia maisVersão 1.0 09/10. Xerox ColorQube 9301/9302/9303 Serviços de Internet
Versão 1.0 09/10 Xerox 2010 Xerox Corporation. Todos os direitos reservados. Direitos reservados de não publicação sob as leis de direitos autorais dos Estados Unidos. O conteúdo desta publicação não pode
Leia maisWinGate - Passo a passo
WinGate - Passo a passo Configurando os Computadores de sua rede Nesta etapa, mostraremos como preparar os computadores de sua rede para a instalação do WinGate. 1ª Parte É necessário que os computadores
Leia maisAnexo I Formulário para Proposta
PLATAFORMA CGI.br Solicitação de Propostas SP Anexo I Formulário para Proposta Data: 05/07/2013 Versão: 1.1 Plataforma CGI.br Solicitação de Propostas - SP Anexo I Formulário para Proposta 1. Estrutura
Leia maisSegurança na Rede Local Redes de Computadores
Ciência da Computação Segurança na Rede Local Redes de Computadores Disciplina de Desenvolvimento de Sotware para Web Professor: Danilo Vido Leonardo Siqueira 20130474 São Paulo 2011 Sumário 1.Introdução...3
Leia maisWinconnection 6. Internet Gateway
Winconnection 6 Internet Gateway Descrição Geral O Winconnection 6 é um gateway de acesso à internet desenvolvido dentro da filosofia UTM (Unified Threat Management). Assim centraliza as configurações
Leia maisAdministração de Sistemas Operacionais
Diretoria de Educação e Tecnologia da Informação Análise e Desenvolvimento de Sistemas INSTITUTO FEDERAL RIO GRANDE DO NORTE Administração de Sistemas Operacionais Serviço Proxy - SQUID Prof. Bruno Pereira
Leia maisPrograma de Instalação do Lince GPS
Esse programa instala o software Lince GSP em aparelhos portáteis que tenham GPS, como navegadores e celulares. O software Lince GPS é um programa destinado a alertar sobre a aproximação a pontos previamente
Leia maisA barra de menu a direita possibilita efetuar login/logout do sistema e também voltar para a página principal.
MANUAL DO SISCOOP Sumário 1 Menu de Navegação... 3 2 Gerenciar País... 5 3- Gerenciamento de Registro... 8 3.1 Adicionar um registro... 8 3.2 Editar um registro... 10 3.3 Excluir um registro... 11 3.4
Leia maisADDRESS RESOLUTION PROTOCOL. Thiago de Almeida Correia
ADDRESS RESOLUTION PROTOCOL Thiago de Almeida Correia São Paulo 2011 1. Visão Geral Em uma rede de computadores local, os hosts se enxergam através de dois endereços, sendo um deles o endereço Internet
Leia maisProva de pré-requisito
Prova de pré-requisito Curso Python e Django 1. Ao se acessar o site www.google.com qual comando e parâmetros são enviados para o servidor pelo navegador? a. GET / b. GET www.google.com c. PAGE index.html
Leia maisSISTEMAS DISTRIBUÍDOS
SISTEMAS DISTRIBUÍDOS Comunicação coletiva Modelo Peer-to-Peer Slide 6 Nielsen C. Damasceno Introdução Os modelos anteriores eram realizado entre duas partes: Cliente e Servidor. Com RPC e RMI não é possível
Leia maisEndereço de Rede. Comumente conhecido como endereço IP Composto de 32 bits comumente divididos em 4 bytes e exibidos em formato decimal
IP e DNS O protocolo IP Definir um endereço de rede e um formato de pacote Transferir dados entre a camada de rede e a camada de enlace Identificar a rota entre hosts remotos Não garante entrega confiável
Leia maisTecnologia de Redes de Computadores - aula 5
Tecnologia de Redes de Computadores - aula 5 Prof. Celso Rabelo Centro Universitário da Cidade 1 Objetivo 2 3 4 IGPxEGP Vetor de Distância Estado de Enlace Objetivo Objetivo Apresentar o conceito de. Conceito
Leia maisRESPOSTA QUESTIONAMENTOS
RESPOSTA QUESTIONAMENTOS REF.: PREGÃO ELETRÔNICO Nº. 02-2015 CONSULT JPC GERENCIAMENTO E TREINAMENTO LTDA ME, já devidamente qualificada nos autos do pregão acima, vem com o devido acatamento apresentar
Leia maisRede de Computadores (REC)
Rede de Computadores (REC) Aula 04 Camada de Aplicação Prof. Jackson Mallmann dcc2jm@joinville.udesc.br Exemplos de requisição via telnet. iniciar / executar / cmd (Windows) telnet endereço telnet 192.168.1.3
Leia maisEstá na hora de adequar seu site para mobile!
WHITEPAPER iprospect Está na hora de adequar seu site para mobile! Introdução Desde a última atualização no algoritmo de busca do Google que priorizava os sites preparados para as telas de smartphones
Leia maisTecnologia em Gestão Pública Desenvolvimento de Projetos - Aula 9 Prof. Rafael Roesler
Tecnologia em Gestão Pública Desenvolvimento de Projetos - Aula 9 Prof. Rafael Roesler Introdução Objetivos da Gestão dos Custos Processos da Gerência de Custos Planejamento dos recursos Estimativa dos
Leia maisMANUAL DO USUÁRIO SORE Sistema Online de Reservas de Equipamento. Toledo PR. Versão 2.0 - Atualização 26/01/2009 Depto de TI - FASUL Página 1
MANUAL DO USUÁRIO SORE Sistema Online de Reservas de Equipamento Toledo PR Página 1 INDICE 1. O QUE É O SORE...3 2. COMO ACESSAR O SORE... 4 2.1. Obtendo um Usuário e Senha... 4 2.2. Acessando o SORE pelo
Leia maisSatélite. Manual de instalação e configuração. CENPECT Informática www.cenpect.com.br cenpect@cenpect.com.br
Satélite Manual de instalação e configuração CENPECT Informática www.cenpect.com.br cenpect@cenpect.com.br Índice Índice 1.Informações gerais 1.1.Sobre este manual 1.2.Visão geral do sistema 1.3.História
Leia maisSERVIÇO DE NOMES. Sistemas Distribuídos. Vinícius Pádua
SERVIÇO DE NOMES Sistemas Distribuídos Serviço de Nomes Nomes facilitam a comunicação e compartilhamento de recursos Nomes são vinculados a objetos Nomes devem ser resolvidos antes de de invocar os objetos
Leia maisWireshark. Captura de Protocolos da camada de aplicação. Maicon de Vargas Pereira
Wireshark Captura de Protocolos da camada de aplicação Maicon de Vargas Pereira Camada de Aplicação Introdução HTTP (Hypertext Transfer Protocol) 2 Introdução Camada de Aplicação Suporta os protocolos
Leia maisMONITORAMENTO DO AMBIENTE TECNOLÓGICO FoccoMONITOR
MONITORAMENTO DO AMBIENTE TECNOLÓGICO FoccoMONITOR Fevereiro/2012 Índice APRESENTAÇÃO... 3 O QUE É ESSE SERVIÇO?... 3 POR QUE MONITORAR?... 3 QUAL A ABRANGÊNCIA?... 4 MÉTRICAS... 4 PERÍODO DO MONITORAMENTO...
Leia maisPré-requisitos para Instalação Física e Lógica do SISLOC
Pré-requisitos para Instalação Física e Lógica do SISLOC Sumário Pré-Requisitos de Instalação Física e Lógica do SISLOC...3 Servidores de Dados...3 Servidores de Aplicação (Terminal Service)...3 Estações
Leia maisSegurança em Sistemas de Informação. Agenda. Conceitos Iniciais
Segurança em Sistemas de Informação Agenda 1. Conceitos Iniciais; 2. Terminologia; 3. Como funcionam; 4. : 1. Cache; 2. Proxy reverso; 5. Exemplos de Ferramentas; 6. Hands on; 7. Referências; 2 Conceitos
Leia maisGERENCIAMENTO DO CONTEÚDO INFORMATIVO Utilizando O Sistema Web Contábil IDEAL. Atendimento: Tel : (11) 3857-9007 - e-mail: suporte@webcontabil.
GERENCIAMENTO DO CONTEÚDO INFORMATIVO Utilizando O Sistema Web Contábil 2010 IDEAL Última Atualização: 01/2010 Atendimento: Tel : (11) 3857-9007 - e-mail: suporte@webcontabil.com Módulo Calendário.:. Aba
Leia maisOrganizaçãoe Recuperação de Informação GSI521. Prof. Rodrigo Sanches Miani FACOM/UFU
Organizaçãoe Recuperação de Informação GSI521 Prof. Rodrigo Sanches Miani FACOM/UFU Introdução Organização e Recuperação de Informação(GSI521) Tópicos Recuperação de informação (RI); Breve histórico; O
Leia mais2 Diagrama de Caso de Uso
Unified Modeling Language (UML) Universidade Federal do Maranhão UFMA Pós Graduação de Engenharia de Eletricidade Grupo de Computação Assunto: Diagrama de Caso de Uso (Use Case) Autoria:Aristófanes Corrêa
Leia maisProtocolos de Redes Revisão para AV I
Protocolos de Redes Revisão para AV I 01 Aula Fundamentos de Protocolos Conceituar protocolo de rede; Objetivos Compreender a necessidade de um protocolo de rede em uma arquitetura de transmissão entre
Leia maisDWEB. Design para Web. Fundamentos Web I. Curso Superior de Tecnologia em Design Gráfico
DWEB Design para Web Curso Superior de Tecnologia em Design Gráfico Fundamentos Web I E não vos conformeis com este século, mas transformai-vos pela renovação da vossa mente, para que experimenteis qual
Leia maisAnalisador de Sites Automático. Palestrante: Heitor de Souza Ganzeli
Analisador de Sites Automático Palestrante: Heitor de Souza Ganzeli O que é o ASA? Monitor de sites http://vpereiro.files.wordpress.com/2010/05/dominio.jpg Realiza a verificação automática e periódica
Leia maisRedes de Computadores II INF-3A
Redes de Computadores II INF-3A 1 ROTEAMENTO 2 Papel do roteador em uma rede de computadores O Roteador é o responsável por encontrar um caminho entre a rede onde está o computador que enviou os dados
Leia maisLICENCIAMENTO V14 USANDO REPRISE LICENSE MANAGER
LICENCIAMENTO V14 USANDO REPRISE LICENSE MANAGER V14 de BricsCAD vem com um novo sistema de licenciamento, com base na tecnologia de licenciamento de Reprise Software. Este novo sistema oferece um ambiente
Leia maisRelatorio do trabalho pratico 2
UNIVERSIDADE FEDERAL DE SANTA CATARINA INE5414 REDES I Aluno: Ramon Dutra Miranda Matricula: 07232120 Relatorio do trabalho pratico 2 O protocolo SNMP (do inglês Simple Network Management Protocol - Protocolo
Leia mais1 http://www.google.com
1 Introdução A computação em grade se caracteriza pelo uso de recursos computacionais distribuídos em várias redes. Os diversos nós contribuem com capacidade de processamento, armazenamento de dados ou
Leia maisCaracterísticas de Firewalls
Firewall Firewall é um sistema de proteção de redes internas contra acessos não autorizados originados de uma rede não confiável (Internet), ao mesmo tempo que permite o acesso controlado da rede interna
Leia mais