Apresentação do Artigo



Documentos relacionados
XDOC. Solução otimizada para armazenamento e recuperação de documentos

Faculdades Santa Cruz - Inove. Plano de Aula Base: Livro - Distributed Systems Professor: Jean Louis de Oliveira.

05/08/2013. Sistemas Distribuídos Cluster. Sistemas Distribuídos Cluster. Agenda. Introdução

1

Sistemas Distribuídos. Professora: Ana Paula Couto DCC 064

Sistemas Distribuídos

SISTEMAS DISTRIBUÍDOS

Wireshark. Captura de Protocolos da camada de aplicação. Maicon de Vargas Pereira

Desempenho de Web Servers

EAGLE TECNOLOGIA E DESIGN CRIAÇÃO DE SERVIDOR CLONE APCEF/RS

1.1 Porque um nível de aplicação proxy?

Quarta-feira, 09 de janeiro de 2008

Prof. Luiz Fernando Bittencourt MC714. Sistemas Distribuídos 2 semestre, 2013

Servidor, Proxy e Firewall. Professor Victor Sotero

MÓDULO 8 ARQUITETURA DOS SISTEMAS DE BANCO DE DADOS

SOLUÇÕES PARA CONTINUIDADE DO NEGÓCIO

Curso de Aprendizado Industrial Desenvolvedor WEB

Projetos I Resumo de TCC. Luiz Rogério Batista De Pieri Mat:

Aranda INVENTORY. Benefícios Estratégicos para sua Organização. (Standard & Plus Edition) Beneficios. Características V

FIREWALL. Prof. Fabio de Jesus Souza. Professor Fabio Souza

Intranets. FERNANDO ALBUQUERQUE Departamento de Ciência da Computação Universidade de Brasília 1.INTRODUÇÃO

Minicurso Computação em Nuvem Prática: Openstack

Estudo e implementação de redundância em serviços da rede do IME

MODELO CLIENTE SERVIDOR

FACULDADE TECNOLOGIA SENAC GOIÁS

Alan Menk Santos Redes de Computadores e Telecomunicações. Camada de Aplicação. Camada de Aplicação

Entrar neste site/arquivo e estudar esse aplicativo Prof. Ricardo César de Carvalho

O que é Grid Computing

GESTÃO DE SISTEMAS OPERACIONAIS II

Sistemas Distribuídos. Professora: Ana Paula Couto DCC 064

Tópicos Especiais em Redes de Telecomunicações

Informação é o seu bem mais precioso e você não pode correr riscos de perder dados importantes. Por isso, oferecemos um serviço de qualidade e

ARQUITECTURA DE UM MOTOR DE BUSCA: EXEMPLO DO GOOGLE

Hardware (Nível 0) Organização. Interface de Máquina (IM) Interface Interna de Microprogramação (IIMP)

Disponibilizar uma ferramenta de gestão integrada e on-line, para Oficinas.

O que é o Virto ERP? Onde sua empresa quer chegar? Apresentação. Modelo de funcionamento

SISTEMAS DISTRIBUÍDOS

IMPORTANTE: O PNM4R2 não entra em estado funcional enquanto o Windows não

Proxy. Krishna Tateneni Tradução: Lisiane Sztoltz Tradução: Marcus Gama

Sistemas Distribuídos. Professora: Ana Paula Couto DCC 064

GERENCIAMENTO CENTRALIZADO DELL POWERVAULT DL 2000 BASEADO EM TECNOLOGIA SYMANTEC

Registro.br Updates - GTER33/GTS Registro.br Updates Equipe de Sistemas

SEGURANÇA DE REDE DE COMPUTADORES E SEGURANÇA E AUDITORIA DE SISTEMAS

Curso Tecnológico de Redes de Computadores 5º período Disciplina: Tecnologia WEB Professor: José Maurício S. Pinheiro V

Práticas de Desenvolvimento de Software

Profs. Deja e Andrei

Instituto Superior de Engenharia do Porto Administração de Sistemas Informáticos I Clusters

Armazenamento em nuvem é feito em serviços que poderão ser acessados de diferentes lugares, a qualquer momento e utilizando diferentes dispositivos,

SISTEMAS OPERACIONAIS DE REDE

Computação em Nuvem. Alunos: Allan e Clayton

Varnish-Cache: Velocidade e disponibilidade para aplicações WEB

Paralelismo. Computadores de alto-desempenho são utilizados em diversas áreas:

Online Help StruxureWare Data Center Expert

João Víctor Rocon Maia Engenharia de Computação - UFES

Aula 02 Conceitos básicos elipse. INFORMÁTICA INDUSTRIAL II ENG1023 Profª. Letícia Chaves Fonseca

Metas de um Sistema Distribuído

Uma poderosa ferramenta de monitoramento. Madson Santos - madson@pop-pi.rnp.br Técnico de Operação e Manutenção do PoP-PI/RNP

Cap 03 - Camada de Aplicação Internet (Kurose)

Definição São sistemas distribuídos compostos de nós interconectados, aptos a se auto-organizar em topologias de rede, com o intuito de compartilhar

Computação em cluster

Sistemas Distribuídos

A consolidação de servidores traz uma séria de vantagens, como por exemplo:

MCITP: ENTERPRISE ADMINISTRATOR

MRS. Monitoramento de Redes e Sistemas

UM ESTUDO SOBRE TIPOS DE ALGORITMOS DE DISPATCHER PARA WEB CLUSTERS

UNIVERSIDADE FEDERAL DE SANTA CATARINA UFSC DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA INE BACHARELADO EM CIÊNCIAS DA COMPUTAÇÃO.

Redes de Computadores Aula 3

Professor: Macêdo Firmino Disciplina: Sistemas Operacionais de Rede

Servidor Proxy armazenamento em cache.

Gerenciamento de Problemas

Introdução às Redes de Computadores. Por José Luís Carneiro

Disponibilizar uma ferramenta integrada e on-line, para gestão de imóveis.

ServerAdmin - Se o sistema detectar algo de anômalo, um mail será enviado a bazar@projeointegador.

Analista de Sistemas Ambiente GRID para física experimental de altas energias

Virtualização de Sistemas Operacionais

Introdução ao Modelos de Duas Camadas Cliente Servidor

XDR. Solução para Big Data.

World Wide Web e Aplicações

UNIVERSIDADE REGIONAL DE BLUMENAU CENTRO DE CIÊNCIAS EXATAS E NATURAIS CURSO DE CIÊNCIAS DA COMPUTAÇÃO (Bacharelado)

Balanceamento de carga em GNU/Linux

Segurança em Sistemas de Informação. Agenda. Conceitos Iniciais

Projeto OBAA. Relatório Técnico RT-OBAA-07 Grupo Agentes e Ontologias. Proposta de Federação de Repositórios de Objetos Educacionais.

Sistema TrackMaker de Rastreamento e Logística de Transportes. Solução de Despacho Integrada. Manual do Usuário

Tópicos. Atualizações e segurança do sistema. Manutenção Preventiva e Corretiva de Software (utilizando o MS Windows XP)

Prof.: Roberto Franciscatto. Capítulo 1.2 Aspectos Gerais

Backup.

LINEAR EQUIPAMENTOS RUA SÃO JORGE, TELEFONE: SÃO CAETANO DO SUL - SP - CEP

Comunicando através da rede

Sistemas Distribuídos. Introdução. Edeyson Andrade Gomes.

Redes de Computadores

BACKUP ONLINE LINHA OFFICE

DNS - Domain Name System

Módulo Contact Solution

PEER DATA MANAGEMENT SYSTEM

Transcrição:

Apresentação do Artigo Web Search for a Planet: The Google Cluster Architecture Publicado em IEEE Micro Março 2003, pg.22-28 Luiz A.Barroso, Jeffrey Dean, Urs Hölze Frank Juergen Knaesel fknaesel@inf.ufsc.br

Introdução/Motivação Poucos web services necessitam tanto poder computacional quanto um sistema de busca Em média, cada query realizada no Google lê centenas de Mbytes e consome dezenas de bilhões de ciclos de CPU Para atender a esta demanda, é necessária uma infraestrutura comparada à das instalações dos maiores supercomputadores do planeta

Web Search for Planet Introdução/Motivação Combinando mais de 15000 COTS (Commercial Off-The-Shelf) com tolerância a falhas implementada no nível do software, foi criada uma solução que possui custobenefício mais atraente do que as soluções feitas com poucos computadores de alto custo/desempenho.

Objetivo Apresentar como a fragmentação/replicação (paralelização) de um BD (Banco de Dados) pode proporcionar alta disponibilidade e alto desempenho nas aplicações que fazem uso deste.

Overview da Arquitetura Google A arquitetura Google fornece confiabilidade em software, ao invés de hardware: Desta forma podem ser utilizados COTS, que custam muito mais barato do que as soluções de confiabilidade baseadas em hardware Os índices de busca são particionados: As queries podem rodar em múltiplos processadores. Assim, não é necessário ter performance máxima em um único processador.

Overview da Arquitetura Google A confiabilidade/alta disponibilidade dos web services do Google foi feita no nível de software, efetuando a replicação dos serviços em máquinas diferentes, detectando e manipulando falhas de forma automática.

Servindo uma Query Quando um usuário entra com uma query, o browser do usuário faz primeiro uma busca DNS para resolver o domínio para um endereço IP em particular. Para fornecer capacidade suficiente para manipular o tráfego de queries, existem vários clusters distribuídos geograficamente. Cada cluster possui mais de 1000 máquinas e a configuração geográfica distribuída provê proteção contra falhas catastróficas do data center (terremotos, longos períodos sem energia, etc...).

Servindo uma Query Um sistema de balanceamento de carga baseado em DNS seleciona um cluster pela proximidade geográfica do usuário com o cluster físico. Além disso, o sistema de balanceamento de carga considera a capacidade disponível nos clusters para minimizar o tempo de resposta. Depois disto o browser do usuário envia uma requisição HTTP para um destes clusters e a query é processada localmente.

Servindo uma Query No cluster local, um segundo sistema balanceador de carga monitora o conjunto disponível de GWS (Google Web Servers) para servir a query. Depois de receber uma query, o GWS coordena a execução da query e formada os resultados em uma resposta para o browser do usuário.

Servindo uma Query

Parte 1 Primeiramente, os servidores de índice (que são particionados para diminuição da carga e paralelização da query) consultam um índice invertido que mapeia cada palavra para uma lista de documentos selecionados (hit list). Os servidores então fazem a intersecção das hit lists encontradas para determinar um conjunto de documentos relevantes para a query e calculam uma pontuação que será utlizada para ordenar os resultados.

Parte 1 Desafio: Os documentos originais compreendem algumas dezenas de TBytes, enquanto os índices invertidos também é da ordem de alguns TBytes Felizmente, a pesquisa é altamente paralelizada dividindo os índices em pedaços, cada um deles contendo um subconjunto randômico do índice global. Para cada pedaço do índice, existe um conjunto de máquinas destinadas a serví-lo.

Parte 1 Cada requisição escolhe uma máquina dentro do conjunto utilizando um sistema balanceador de carga intermediário. Se uma destas máquinas "cai", o balanceador de carga redireciona automaticamente a requisição para outra máquina (interrupção do nodo e redução da capacidade).

Parte 1 De qualquer sorte, o sistema permanece ininterrupto e todas as partes do índice continuam disponíveis, porque cada uma destas partes do índice estão replicadas em vários outros servidores. O resultado final da primeira parte da execução da query é uma lista ordenada de identificadores de documentos

Parte 2 A segunda parte da execução da query envolve o processo de pegar esta lista ordenada de identificadores e obter a partir dela, o título e a url destes documentos (doc servers). Os "doc servers" devem ter acesso online a uma cópia de baixa latência de toda a Web. De fato, devido a replicação necessária para performance e alta disponibilidade dos serviços, o Google armazena dezenas de cópias da Web em seus clusters.

Parte 2 Assim como na fase de busca aos índices dos documentos (index servers), a estratégia e particionar o processamento deste processo pela: distribuição randômica dos documentos em pedaços menores (paralelização) possuir múltiplas réplicas para manipulação e alta disponibilidade de cada pedaço roteamento de requisições através de um sistema de balanceamento de carga

Outras Tarefas Complementando a fase de busca aos index servers e aos doc servers, o GWS também efetua: verificação e sugestão ortográfica sistema de anúncios relevantes à query Depois de concluídas cada uma das fases, o GWS gera a página HTML e a devolve ao usuário.

Replicação Alta Disponibilidade/Tolerância a Falhas O acesso aos índices e outras estruturas de dados é feita somente para leitura. Atualização não ocorrem com freqüência Execução de atualizações através do desvio das queries Particionamento dos índices x fusão barata Speed-up linear