Paradigma. Ponto-a-Ponto. Compartilhamento de serviços e recursos computacionais diretamente entre sistemas. Integração de Dados e Warehousing

Documentos relacionados
Paradigma. Ponto-a-Ponto. Compartilhamento de serviços e recursos computacionais diretamente entre sistemas. Integração de Dados e Warehousing

Redes P2P. Apresentadora: Luciana Pereira Oliveira. Duração: 40 minutos Data: 20/07/

características compartilhamento de recursos sem necessidade de um elemento centralizador ciclos de CPU, armazenamento, banda...

Redes P2P Gnutella e Simuladores

Programação de Sistemas Distribuídos e Concorrência

Arquiteturas. Capítulo 2

PEER DATA MANAGEMENT SYSTEM

o que é p2p? sistemas onde todos os nós são equivalentes em funcionalidade e no papel desempenhado ...

Um Sistema P2P de Gerenciamento de Dados com Conectividade Baseada em Semântica

Um Repositório Chave-Valor com Garantia de Localidade de Dados. Patrick A. Bungama Wendel M. de Oliveira Flávio R. C. Sousa Carmem S.

Características de Sistemas Distribuídos

Matéria Introdutória. Banco de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri

Sistemas Distribuídos

Definição. São sistemas distribuídos compostos de nós interconectados, aptos a se auto-organizar em topologias de rede, com o intuito de compartilhar

Sistemas Distribuídos. Ricardo Ribeiro dos Santos

Características de Sistemas Distribuídos

Arquitetura de sistemas distribuídos

APLICAÇÕES EM SISTEMAS DISTRIBUÍDOS Prof. Ricardo Rodrigues Barcelar

SISTEMAS DISTRIBUÍDOS

Conceitos de Sistemas Distribuídos

Sistemas Distribuídos Capítulo 2 - Aula 2

Programação Distribuída. Arquiteturas

Sistemas Distribuídos

Rede de computadores Cliente- servidor. Professor Carlos Muniz

Arquiteturas para SGBD. Laboratório de Bases de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri

SIDs: ARQUITETURA DE SISTEMAS DISTRIBUÍDOS

Quando Distribuir é bom

Conteúdo. Integração de Dados, Web e Warehousing. Introdução. Introdução. BD Heterogêneos. Introdução. Introdução

Sistemas Distribuídos

Universidade Federal do Maranhão

Quando Distribuir é bom

Sistemas Distribuídos

Sistemas Distribuídos. Plano de Curso. Plano de Curso 04/03/12 ! EMENTA:

Caracterização de Sistemas Distribuídos

Sistemas Distribuídos

Arquiteturas. capítulo

STD29006 Sistemas Distribuídos

Introdução 12 que inuenciam a execução do sistema. As informações necessárias para o diagnóstico de tais problemas podem ser obtidas através da instru

Redes de Computadores

Bancos de Dados Distribuídos. Lucas Henrique Samuel Queiroz

Sistemas Distribuídos

Sistemas de Arquivos Distribuídos. Bruno M. Carvalho Sala: 3F2 Horário: 35M34

Gerenciamento de Redes

Desenvolvimento de Aplicações Distribuídas

Características de Sistemas de Arquivos Distribuídos Serviços de nomes e diretórios

Sistema de arquivos Distribuidos

Bancos de Dados Distribuídos. Bancos de Dados Distribuídos. Conteúdo. Motivação. Motivação. Introdução aos BDs Distribuídos.

Sistemas Distribuídos

Sistemas Distribuídos

05 Redes Peer-2-Peer RDC/ISEL-DEETC-SRT 1

Sistemas Distribuídos

Replicação em sistemas web

Bruno Antunes da Silva UFSCar - Sorocaba

Nível de Rede. Modelo de Referência OSI GCAR

3 Sistemas distribuídos em arquiteturas P2P

Programação Distribuída. Metas de um Sistema Distribuído

Computação Distribuída

Capítulo. 2. Conceitos Básicos. 2.1 Sistemas de Banco de Dados

Vídeo Par a Par. Pedro Silveira Pisa Redes de Computadores I Professor: Otto Carlos Muniz Bandeira Duarte

FUNDAMENTOS DE REDES DE COMPUTADORES AULA 2: MODELO OSI. Professor: LUIZ LEÃO

Sistema de Software Distribuído

ÍNDICE. Redes de Computadores - 1º Período de Cap 12 - Fls. 1

Redes de Computadores. Prof. MSc André Y. Kusumoto

VCubeDHT - Uma DHT de Salto Único Baseada em um Hipercubo Virtual com Replicação Alexandre Barreiro Neto

Introdução (hardware) INTRODUÇÃO Hardware. Introdução (hardware) Introdução (hardware) Introdução (hardware) Introdução (hardware)

Replicação em sistemas web

Introdução aos Sistemas Operacionais

Prof. Samuel Henrique Bucke Brito

Guia de estudos 08. Aluno: Data: Curso: Sistemas de Informação. Adm de redes

Estilos Arquiteturais

1- Confiabilidade ( 2 ) Proteção contra perdas e estragos. 2- Integridade ( 3 ) Proteção contra interferência de cortes de funcionamento

Redes de Computadores

Aula 4 TECNOLOGIA EM JOGOS DIGITAIS JOGOS MASSIVOS DISTRIBUÍDOS. Marcelo Henrique dos Santos

Funcionalidade e Protocolos da Camada de Aplicação

PROPOSTA DE UMA ARQUITETURA PAR-A-PAR ORGANIZADA POR ÍNDICES. Gabriel Epsztejn

UNIVERSIDADE ESTADUAL DE PONTA GROSSA SETOR DE CIÊNCIAS AGRÁRIAS E DE TECNOLOGIA DEPARTAMENTO DE INFORMÁTICA

Nível de Rede. Funções do nível de rede GCAR

Sistemas de arquivos distribuídos. ECO036 - Sistemas Paralelos e Distribuídos

Aula 02. Evandro Deliberal

Banco de Dados e Aplicações em Negócios: Introdução.

Sistemas Distribuídos Capítulo 5 - Aula 8

Redes de Computadores. Prof. André Y. Kusumoto

Avanços e Perspectivas do Projeto Integrade na UFMA

Sistemas entre Pares e Redes Sobrepostas

Sistemas entre Pares e Redes Sobrepostas

Redes de Computadores

Arquitetura Cliente-Servidor Generalizada com identificação de tiers. Arquitetura Cliente-Servidor Generalizada com identificação de tiers

Engenharia de software distribuído. Artur Sampaio Lívia Castro Degrossi

Sistemas Operacionais Distribuídos

Capítulo 11: Implementação de Sistemas de Arquivos. Operating System Concepts 8th Edition

PROCESSAMENTO DE CONSULTAS SOBRE BASES XML DISTRIBUÍDAS EM UM AMBIENTE PEER-TO-PEER. Clarissa Netto Vilela

Projeto de Sistemas Distribuídos. Considerações

Backup e Restauração Banco de Dados. Evandro Deliberal

Todos os computadores são ligados em um um cabo contínuo (barramento).

Sistemas da Informação. Banco de Dados I. Edson Thizon

Transcrição:

Classificação dos Computacionais Computacionais Integração de Dados e Warehousing Introdução a PDMS Centralizados Distribuídos Fernando Fonseca Ana Carolina Cliente-Servidor -a- 2 Cenário -a- Paradigma -a- database.pdf database.pdf 0 arquivos encontrados database.pdf Auto-organização Ausência de controle centralizado Comportamento dinâmico Dados não-estruturados Busca por palavra-chave Compartilhamento de serviços e recursos computacionais diretamente entre sistemas 3 4 Cenário PDMS (Peer Data Management System) Histórico do Paciente Compartilhamento de dados estruturados Dados representados por meio de esquemas Mapeamentos entre esquemas Heterogeneidade de esquemas Paradigma -a- 5 6 1

Terminologia Terminologia Peer Nó Componente de uma rede P2P Pode assumir o papel de cliente e servidor Cluster Agrupamento de pontos com interesses específicos Exemplo: cluster semântico Topologia de rede e localização dos dados Estruturada Não-estruturada 7 Serviço Funcionalidades oferecidas pelos pontos Transferência de conteúdo Disponibilização de status Motivação para agrupamento de pontos em uma rede P2P Anúncio Forma de comunicar a disponibilidade de um recurso por um ponto 8 Terminologia Rede overlay Rede virtual criada sobre uma rede já existente Não é exatamente igual à rede física enlace virtual enlace físico Rede Overlay Paradigma -a- (P2P) Consiste de uma ampla rede de pontos computacionais (ou nós de informação) interconectados que cooperam uns com os outros, trocando serviços e informações Cada ponto compartilha recursos com os outros pontos e se beneficia dos recursos dos demais Recursos computacionais Espaço em disco Processamento Recursos de rede Conteúdo Rede Física 9 10 Paradigma -a- (P2P) P2P s possuem relativamente as mesmas características e funções s trocam mensagens por meio dos seus links lógicos sem a interferência de um coordenador (ponto servidor) s são organizados em uma rede lógica (Overlay Network) no nível da aplicação Paradigma -a- (P2P) Principais características Sem coordenação central Sem repositório central Sem local único de falha ou gargalo Nenhum ponto tem visão global do sistema Todos os dados e serviços são acessíveis de qualquer ponto s são autônomos s e conexões não são confiáveis 11 12 2

-a- (P2P) Tipos de Não Estruturados Sem restrição de localização dos dados Principal aplicação: compartilhamento de arquivos Busca por palavra-chave Alta disponibilidade de arquivos (réplicas nos pontos) -a- (P2P) Tipos de (Cont.) Estruturados Referenciados como Distributed Hash Tables (DHT) Alta escalabilidade Boa cobertura e alta precisão Dois aspectos importantes Busca aos dados Acesso aos dados camada virtual de rede (overlay network) 13 14 Paradigma -a- (P2P) Vantagens Poder computacional (recursos dos demais pontos) s com diferentes papéis (cliente ou servidor) Compartilhamento de recursos Melhor desempenho, tolerância a falhas (replicação) Autonomia dos pontos participantes Ausência de administração Escalabilidade (e.g. KaZaA com ~3-4 milhões de usuários) Paradigma -a- (P2P) Desvantagens Ausência de tratamento semântico na troca de dados Problemas com disponibilidade e consistência Falta de estratégia para distribuição dos dados Pode prejudicar o desempenho de pontos Ausência de administração centralizada Usuários responsáveis por gerenciar seus próprios recursos Segurança 15 16 Topologias de Redes P2P Topologias de Redes -a- Topologia Define a organização lógica dos pontos na rede Tipos Pura Híbrida Super-Peer 17 18 3

Topologias de Redes P2P Topologia Pura Centralizados Computacionais Cliente-Servidor Distribuídos -a- Pura Híbrida Super-Peer 19 Inexistência de um servidor ou repositório centralizado Todos os pontos são iguais e conectados entre si Busca Não-Estruturada Flooding TTL (time-to-live) Estruturada: DHT : Gnutella, Freenet 20 Topologia Pura Responsabilidades do ponto, como cliente Enviar pedidos de serviço a outros pontos Receber as respostas dos pedidos feitos Responsabilidades do ponto, como servidor Receber pedidos de serviço de outros pontos Processar os pedidos e executar um serviço requerido Enviar a resposta com os resultados do serviço requerido Propagar os pedidos de serviço a outros pontos TTL = 10 04 07 02 Q(X) Busca na Topologia Pura Não- Estruturada D? A IP do I G E? B IP do I H C F I Arquivo X 21 22 Topologia Híbrida Existência de um ou mais servidores centrais Informações de controle são armazenadas e fornecidas por um servidor central Gerência facilitada Servidor central representa um ponto único de falha Sistema: Napster Servidor Central 23 Topologia Híbrida Responsabilidades do ponto, como cliente Registrar no servidor seus serviços disponíveis Enviar ao servidor pedidos de busca por serviços e receber respostas contendo listas de pontos com os serviços desejados Enviar a outros pontos pedidos de serviço e receber as respostas destes pedidos Processar e executar os serviços requeridos e enviar repostas a quem fez o pedido Responsabilidades do ponto, como servidor Registrar serviços disponíveis nos pontos Receber pedidos de busca por serviços disponíveis, buscar por esses serviços e enviar respostas com as localizações dos serviços desejados 24 4

Q(X) Busca na Topologia Híbrida A Upload de Nomes de Arquivos IP do B Servidor Tabela Indexada D Topologia Super-Peer Considera Heterogeneidade dos pontos Muitos pontos em conexões de baixa capacidade e alta instabilidade Poucos pontos em conexões de alta capacidade e baixa instabilidade B (Arquivo X) C 25 26 Topologia Super-Peer s heterogenêneos Organização hierárquica Grupos de pontos comunicam-se com outros grupos por meio de super-peers Cada super-peer indexa as informações armazenadas no seu conjunto de pontos : KaZaA, Morpheus Busca na Topologia Super-Peer Q(X) A1 A2 A3 Super-Peer A Super-Peer B Super-Peer C Super Peer B1 B2 B3 C1 C2 C3 (Arquivo x) 27 28 Desafios da Topologia Super-Peer Comparativo entre Topologias Qual a taxa ideal de pontos por super-peer? Como os super-peers devem conectar-se entre si? Topologia estruturada ou não-estruturada? Variação K-redundant K = 2 Arquitetura Segurança (s Maliciosos) Consistência (Dados) Escalabilidade (Entrar e Sair) Confiabilidade ( de Falha) P2P Pura P2P Híbrida Super-Peer 29 30 5

Principais Propriedades dos P2P Propriedades dos P2P Conectividade Auto-organização Descentralização Escalabilidade Roteamento 31 32 Conectividade Ad-hoc e dinâmica Envolve Conexão Desconexão (normal, falha) Conexão de um ponto na rede Feita por meio de outro que já esteja participando Alguns pontos podem atuar como entry points s relacionados devem ficar próximos uns dos outros Auto-Organização Capacidade dos pontos se realocarem na rede após a ocorrência de um evento Conexão Desconexão e/ou Falha Timeout A inexistência de uma administração centralizada faz com que a reorganização de rede P2P fique ao encargo dos próprios pontos 33 34 Descentralização Dados e metadados estão distribuídos entre os pontos Não existe um servidor central responsável por tarefas como Reorganização da rede Armazenamento de metadados Próprios pontos devem ser responsáveis por tais tarefas Inexistência de ponto único de falha Escalabilidade Capacidade da rede P2P crescer sem ficar sobrecarregada Sistema cliente-servidor Administradores podem estender ou rebalancear os recursos computacionais para compensar o crescimento da rede Sistema P2P Soluções devem estar embutidas em cada ponto 35 36 6

Escalabilidade Depende da topologia adotada Híbrida Dificuldade em tratar a escalabilidade s centrais podem necessitar de balanceamento e/ou expansão física do hardware para compensar o crescimento da rede Preocupação com os custos de manutenção dos pontos centrais Contra-exemplo: Napster mostrou-se robusto e eficiente Pura Sobrecarga de troca de mensagens para descoberta de novos pontos e buscas na rede Super-Peer Divisão e/ou fusão (coalesce) de clusters 37 Roteamento Principais mecanismos de roteamento para redes P2P Híbrido Flooding (ou inundação): modelo descentralizado não-estruturado Tabela Hash Distribuída (DHT): modelo descentralizado estruturado Semantic Overlay Network (SON) 38 Roteamento Flooding Problemas Excesso de mensagens Mensagens duplicadas Valor ideal de TTL TTL alto: sobrecarga na rede TTL baixo: nenhum resultado encontrado Variações Busca informada: uso de cache local Busca informada com replicação Aprofundamento iterativo: múltiplos valores crescentes para TTL 39 Roteamento Modelo DHT Tentativa de melhorar os algoritmos de roteamento dos sistemas P2P não-estruturados Itens (arquivos) são distribuídos entre os pontos de acordo com um algoritmo s não escolhem os itens à vontade Uso de replicação para garantir disponibilidade 40 Roteamento Modelo DHT Função hash Mapeia um ponto em um identificador único h( 172.17.166.99 ) 8400 Mapeia um item (arquivo) em um identificador único h( TutorialP2P.ppt ) 8045 Qualquer função aleatória de hash boa é suficiente Padrão SHA-1 (colisão praticamente impossível) Faixa de resultados da função hash é distribuída pela rede Roteamento Modelo DHT Cada ponto é responsável por armazenar itens cujo identificador é igual ou próximo ao identificador do ponto Dado um identificador, um ponto deve ser capaz de encaminhar a consulta para o ponto cujo identificador mais se aproxima 41 42 7

Roteamento Modelo DHT Para cada objeto, o(s) ponto(s) cuja faixa cobre o objeto deve ser alcançável por um caminho curto De qualquer outro ponto Abordagens Chord, CAN, Pastry, Tapestry,... Diferem na escolha do algoritmo de roteamento (determina a geometria da rede) Geometrias Anel: Chord Árvore: Pastry, Tapestry XOR: Kademlia Hipercubo: CAN Híbrida: Pastry (pode trabalhar como anel) 43 Roteamento Modelo DHT Chord 44 Roteamento Roteamento - SON Ineficiência de consultas no modelo de inundação (escalabilidade) Consultas no modelo DHT Escalonável, porém pobre Não permite Consultas por aproximação Consultas por faixa Uma consulta deve ser enviada apenas para os pontos aptos a respondê-la Em geral, é possível representar o conteúdo compartilhado por meio de ontologias Música, filmes, artigos científicos, Semantic Overlay Network Virtual, abstrata, camada independente de pontos selecionado 45 46 Roteamento - SON Vantagens Introduz visões semânticas sobre a rede física Mediação e integração (correspondências, reescrita de consultas) Reduz a quantidade de mensagens na rede Roteamento - SON s agrupados em clusters Overlap de clusters Consultas enviadas apenas para clusters relevantes Clusters irrelevantes são descartados 47 48 8

Roteamento - SON SON associada ao conceito de hierarquia de classificação Exemplos 9 SON para classificação de músicas por estilo 4 SON para classificação de músicas por ton Estilos Música Música SON: Critérios para Definição da Hierarquia Documentos devem ser associados a conceitos para que o ponto seja associado a(s) SON correspondente(s) s devem possuir documentos em um número reduzido de categorias Algoritmo de classificação eficiente Rock Jazz Tons Sub-estilos Soft Dance Pop New Orlean Fusion Bop Warm Exciting Sweet 49 50 SON: Estratégias para Alocação de s Estratégia conservadora Aloque um ponto em SON c, se o mesmo possui algum documento classificado no conceito c Produz muitos links Estratégia menos conservadora Aloque um ponto em SON c, caso o mesmo possua uma quantidade de documentos significativa classificado no conceito c Outras Propriedades de P2P Autonomia Um ponto não deve ter controle sobre os recursos compartilhados por outro ponto Anonimato Capacidade do sistema ocultar a identificação do usuário Descoberta de Recursos Os pontos devem comunicar a disponibilidade de recursos por meio de anúncios Evita que sejam encontrados todos os documentos 51 52 de Gerenciamento de Dados -a- (PDMS) PDMS Peer Data Management System Sistema de Gerenciamento de Dados Com arquitetura descentralizada Facilmente extensível Na qual qualquer usuário pode contribuir com Novos dados Novos esquemas Mapeamentos entre os esquemas dos pontos 53 54 9

de Gerenciamento de Dados -a- (PDMS) São uma evolução natural dos de Integração de Dados Substituindo seu único esquema lógico (mediação) por uma coleção de mapeamentos semânticos entre os esquemas individuais de cada ponto 55 de Gerenciamento de Dados -a- (PDMS) Algumas características Autonomia: controle sobre os dados locais Dinamismo: pontos e recursos podem entrar e sair a qualquer momento Descentralização: cada ponto é independente dos outros Cooperação: compartilhamento de recursos e serviços entre os pontos Esquema local do BD: cada ponto tem seu esquema (ausência de esquema global) Dados: podem estar incompletos, indisponíveis ou inconsistentes 56 Consulta Local Consulta Global Resposta Arquitetura Genérica de um Camada de Acesso aos Dados Interface com o Usuário Camada de Gerenciamento de Dados Cache de Dados Remotos Gerenciador de Consultas Gerenciador de Atualizações Gerenciador de Cache Mapeamentos Semânticos Wrapper Fonte de Dados Local Camada de Rede P2P Rede P2P [Sung et al. 2005] 57 de Gerenciamento de Dados -a- (PDMS) Gerenciamento de dados distribuídos Compartilhamento de dados em larga escala Solução depende fortemente da topologia adotada Impraticável a existência de esquema de mediação único 58 Problemas de um Esquema de Mediação Único Conflito com as propriedades dos sistemas P2P Dinamismo Atualização do esquema de mediação a cada conexão e/ou desconexão Autonomia Nem todos os pontos querem compartilhar todos os dados 59 Problemas de um Esquema de Mediação Único Conflito com as propriedades dos sistemas P2P (Cont.) Escalabilidade Onde armazenar um esquema de mediação único? Centralizado único de falha Investimento em hardware e conectividade Distribuído Técnicas para garantir uma visão integrada do esquema de mediação Esquema replicado: problemas de armazenamento e consistência 60 10

s Positivos dos PDMS Não existe esquema global Manutenção Mapeamentos definidos da forma mais conveniente (pontos próximos ) Consultas são elaboradas de acordo com o esquema do ponto Resultados vêm de qualquer lugar do sistema PDMS x Compartilhamento de Arquivos Dados possuem semântica mais rica Não são tão dinâmicos (conexão/desconexão) 61 11