falhas em sistemas distribuídos
|
|
|
- Natan Clementino Fraga
- 7 Há anos
- Visualizações:
Transcrição
1 Tolerância a Falhas
2 falhas em sistemas distribuídos Lamport: A distributed system is a system where I can t get any work done if a machine I ve never heard of crashes. sistemas distribuídos e falhas parciais tolerância a falhas
3 Erros, falhas, etc problemas inevitáveis: falhas (faults) máquinas quebradas, desconexões, erros no software erros (failures) -> consequências dessas falhas nomenclaturas variam mas temos que manter consistente a idéia de tolerância a falhas tolerância a falhas: evitar que falhas se transformem em erros classificação de falhas
4 Tipos de falhas modelos baseados em comportamento de servidores omissão temporização falhas arbitrárias ou bizantinas
5 falhas de omissão fail-stop processo cai e isso é detectável por parceiros crash processo cai e parceiros podem não detectar omissão relação com tempo de comunicação processo envia mensagem mas ela não é recebida do outro lado
6 falhas de temporização relacionadas com restrições temporais: relógio físico tem desvio superior ao permitido transmissão de mensagem demora tempo demais... relação com modelos síncronos
7 falhas arbitrárias respostas podem ocorrer ou não conteúdo pode ser correto ou não difícil detecção! também chamadas de falhas bizantinas
8 Tolerância a falhas & dependabilidade uso de tolerância a falhas por vezes considerado enganador dependabilidade: idéia de que se pode confiar no sistema (apesar de possíveis erros)
9 Dependabilidade - atributos Confiabilidade (reliability) capacidade de atender a especificação, dentro de condições definidas, durante certo período de funcionamento e condicionado a estar operacional no início do período Disponibilidade (availability) probabilidade do sistema estar operacional num instante de tempo determinado; alternância de períodos de funcionamento e reparo Segurança (safety) probabilidade do sistema ou estar operacional e executar sua função corretamente ou descontinuar suas funções de forma a não provocar dano a outros sistema ou pessoas que dele dependam Segurança (security) proteção contra falhas maliciosas, visando privacidade, autenticidade, integridade e irrepudiabilidade dos dados
10 confiabilidade e disponibilidade garantia de funcionamento a partir de certas condições confiabilidade intervalos para reparo - disponibilidade medidas relacionadas: MTTR tempo médio de reparo MTBF tempo médio entre falhas
11 Técnicas de Dependabilidade detecção da falha..., localização, confinamento reconfiguração recuperação de erro ou mascaramento
12 recuperação passa o sistema para um estado correto forward recovery backward recovery relação com logging e checkpoints
13 recuperação de falhas com checkpoints processos gravam infos de estado de tempos em tempos para poderem recuperar estado X gravação em log estável ou em réplicas mensagens enviadas ou recebidas globais em alguns casos pilha completa
14 checkpoints distribuídos os checkpoints dos diversos processos em uma aplicação distribuída não podem ocorrer de forma independente cortes consistentes e checkpoints coordenados
15 mascaramento técnica básica é a redundância classes de redundância: redundância de informação códigos como Hamming redundância temporal operações repetidas (por exemplo, em transações) redundância física processos, dados ou hardware
16 Replicação tolerância a falhas correção e disponibilidade desempenho... é ou não um caso de distribuição instrínsica?
17 modelo de sistema falhas do tipo crash partições na rede não ocorrem sistema composto por gerentes de réplicas (ou servidores) cada gerente de réplica sabe fazer recuperações conjunto de réplicas pode ser estático ou dinâmico
18 replicação RM C FE RM transparência consistência C FE RM
19 processamento de requisições 1. envio da msg pelo front-end para uma réplica ou para todas 2. coordenação gerentes se coordenam para fazer a entrega 3. execução réplicas executam a requisição 4. acordo consenso sobre o efeito da requisição 5. resposta uma ou mais réplicas respondem ao front-end
20 Grupos de processos serviços de envio envio atômico envios ordenados: fifo, causal e total serviços de controle de participantes servidor de grupo ou membership server saídas do grupo também podem ocorrer por falhas gerentes de réplicas responsáveis por implementação de filas de entrega, etc
21 ordenação com falhas X multicast confiável multicast atômico: confiável + ordem total
22 ordenação causal ou total como visto antes
23 grupos estáticos e dinâmicos para tolerância a falhas, é importante levar em consideração a possibilidade de entradas e saídas
24 serviços de gerência de grupos interface de acesso: criação e destruição de grupos retirada e adesão de processos a grupos serviço de detecção de falhas notificação: serviço avisa membros do grupos sobre entradas e saídas (programadas ou não) falamos em visões do grupo view-synchronous group communication
25 controle de grupo avisos sobre nova visão do grupo X novo processo necessidade de manter as visões consistentes com outras atividades
26 consenso em sistemas distribuídos em várias situações, os processos de um grupo têm que chegar a um valor comum ordenação total coordenação de atividades valor a ser respondido em uma consulta... em sistemas com falhas bizantinas algoritmos de consenso pelo menos 2/3 dos processos devem estar corretos
27 problema dos generais bizantinos T recuar atacar A atacar recuar B
28 replicação ativa e passiva ativa: gerentes de réplica são máquinas de estado com papéis equivalentes passiva: a cada momento uma única cópia primária e uma ou mais cópias secundárias
29 replicação ativa RM C FE RM FE C RM
30 replicação passiva Primary C FE RM RM Backup C FE RM Backup
31 abordagens híbridas c1 c3 s1 s2 c2 s3 s4 c4 consultas em qualquer cópia atualizações apenas na cópia primária Backup
Sistemas Distribuídos
Introdução: Comunicação, e Coordenação março de 2015 Comunicação entre Processos troca de mensagens é sempre a primitiva básica sobre essa primitiva podemos construir outras visões da comunicação Mensagens
Sistemas Distribuídos Capítulo 8 - Aula 15
Sistemas Distribuídos Capítulo 8 - Aula 15 Aula de hoje Aula Passada Comunicação Confiável Cliente-Servidor Comunicação Confiável de Grupo Comunicação Confiável de Grupo Multicast Atômico Sincronia Virtual
Sistemas Distribuídos Capítulo 8 - Aula 13
Sistemas Distribuídos Capítulo 8 - Aula 13 Aula de hoje Aula Passada Exclusão Mútua Algoritmos de Eleição Tolerância a Falhas Conceitos básicos Modelos de falha Redundância Resiliência de Processo 1 Tolerância
Sistemas Distribuídos
Sistemas Distribuídos Tolerância a faltas Prof. Emerson Ribeiro de Mello Instituto Federal de Santa Catarina IFSC campus São José [email protected] http://docente.ifsc.edu.br/mello 3 de dezembro de 2015
Sistemas Distribuídos. Professora: Ana Paula Couto DCC 064
Sistemas Distribuídos Professora: Ana Paula Couto DCC 064 Consistência Causal(3) Neste exemplo temos uma sequência de eventos permitida quando o depósito é consistente por causalidade, mas proibida quando
APLICAÇÕES EM SISTEMAS DISTRIBUÍDOS Prof. Ricardo Rodrigues Barcelar
- Aula 3-1. REVISÃO SOBRE CONCEITOS FUNDAMENTAIS DE SISTEMAS DISTRIBUÍDOS Na segunda parte abordamos o tema tolerância a falhas, assunto este muito relacionado a redes de computadores, mas que nos mostra
Sistemas Distribuídos Capítulo 8 - Aula 14
Sistemas Distribuídos Capítulo 8 - Aula 14 Aula Passada Tolerância a Falhas Conceitos básicos Modelos de falha Redundância Resiliência de Processo Aula de hoje Comunicação Confiável Cliente-Servidor Comunicação
Sistemas Distribuídos. Professora: Ana Paula Couto DCC 064
Sistemas Distribuídos Professora: Ana Paula Couto DCC 064 Consistência e Replicação Capítulo 7 Agenda Distribuição de Conteúdo Estado versus operações Protocolos de recuperação de atualizações versus protocolos
Fiabilidade de Sistema Informáticos
From: Fiabilidade de Sistema Informáticos Engenharia Informática Ramo Sistemas de Informação 4ª ano / 2ª semestre - Basic Concepts and Taxonomy of Dependable and Secure Computing, A. Avizienis, J.C. Laprie
Consistência. ncia. Sistemas Distribuídos e Tolerância a Falhas. Trabalho realizado por:
Sistemas Distribuídos e Tolerâ a Falhas Consistê Trabalho realizado por: Gonçalo Dias, Nº. 14638 João Tavares, Nº 14888 Rui Brás, Nº 14820 Consistê Índice Consistent Global States; Distributed Consensus;
Desenvolvimento de Aplicações Distribuídas
Desafios e Características Pontifícia Universidade Católica de Minas Gerais Instituto de Ciências Exatas e Informática DAD (2019/01) Tópicos Apresentação da disciplina Introdução Desafios e características
Engenharia de Confiança. Helena Macedo Reis Luis Fernando de Souza Moro
Engenharia de Confiança Helena Macedo Reis Luis Fernando de Souza Moro 1 Engenharia de Confiança Preocupada com técnicas que aumentam a confiança e diminui os riscos de falhas Falha pode causar perda de
Meios para obter e validar a dependabilidade
Meios para obter e validar a dependabilidade Tolerância a defeitos / falhas Prevenção de defeitos / falhas Previsão de defeitos / falhas Bibliografia J-C Laprie, Dependability: Basic Concepts and Terminology,
Sistemas Distribuídos Estados globais. Vinícius Fernandes Soares Mota
Sistemas Distribuídos Estados globais Vinícius Fernandes Soares Mota 1 2 Tópicos Tempo e relógio lógicos (revisão curta) Relógios vetoriais Estados Globais Snapshot distribuído 3 Antes... Por que a sincronização
Sistemas Distribuídos
Sistemas Distribuídos Motivação Aplicações Motivam Possibilita Engenharia Motivação! Aplicações cada vez mais complexas! Qual a técnica mais comum para redução de complexidade? " Modularização Dividir
Sistema de arquivos Distribuidos
Sistema de arquivos Distribuidos Luiz Carlos, Rafael Tavares, Aline Universidade Estacio de Sá 4 de novembro de 2013 (Universidade Estacio de Sá) Arquitetura de Sistemas 4 de novembro de 2013 1 / 16 Introdução
Tempos e Estados Globais. ECO036 - Sistemas Paralelos e Distribuídos
Tempos e Estados Globais ECO036 - Sistemas Paralelos e Distribuídos Tópicos Abordados - Tempo - Relógios e Ordenação de eventos. - Relação Happened- Before - Relógios Lógicos - Vetor de Relógios - Relógios
Sincronização em Sistemas Distribuídos
Sincronização em Sistemas Distribuídos Universidade Federal do ABC Turma: Ciência da Computação Prof. Dr. Francisco Isidro Massetto Sincronização Como as regiões críticas são implementadas em um SD? Como
Sistemas Distribuídos: Conceitos e Projeto Resiliência de Processos
Sistemas Distribuídos: Conceitos e Projeto Resiliência de Processos Francisco José da Silva e Silva Laboratório de Sistemas Distribuídos (LSD) Departamento de Informática / UFMA http://www.lsd.ufma.br
1. TOLERÂNCIA A FALHAS EM SISTEMAS DISTRIBUÍDOS
13 1. TOLERÂNCIA A FALHAS EM SISTEMAS DISTRIBUÍDOS Na busca de sistemas mais confiáveis, alguns meios foram desenvolvidos para oferecer mais confiança aos sistemas, entre eles está a tolerância a falhas.
Sistemas Distribuídos
Sistemas Distribuídos Definição Sistema Distribuído é aquele onde os componentes de software e hardware localizados em redes de computadores comunicam-se e coordenam suas ações apenas por passagem de mensagens.
Sistemas Distribuídos
Faculdades SENAC Análise e Desenvolvimento de Sistemas 23 de fevereiro de 2011 Histórico Anos 50 - Sistemas Operacionais tipo Lote Aumentar a capacidade de processamento de programas Usuário ia ao computador
Sistemas Distribuídos Aspectos de Projeto de SD. Aspectos de Projeto em SD. Transparência 14/03/12. ! Transparência; ! Abertura; !
Sistemas Distribuídos Aspectos de Projeto de SD Prof. Msc. André Luiz Nasserala Pires [email protected] Aspectos de Projeto em SD! Transparência;! Abertura;! ;! Heterogeneidade;! Segurança;! Tratamento
Sistemas Distribuídos
Caracterização de Faculdades SENAC Análise e Desenvolvimento de Sistemas 24 de fevereiro de 2010 Caracterização de Histórico Anos 50 - Sistemas Operacionais tipo Lote Aumentar a capacidade de processamento
Sistema Distribuído. Sistema Distribuído. Aplicações Distribuídas. Conceitos Básicos
Sistema Distribuído Conjunto de máquinas (CPU + memória) interligadas em rede. Sistema Distribuído Sistema operacional distribuído trata este conjunto como um único sistema computacional. Estação 1 Estação
Projeto de Sistemas Distribuídos. Considerações
Projeto de Sistemas Distribuídos Considerações Projeto de TI em Camadas Infraestrutura Gestão Integração Colaboração Hardware Software: sistemas operacionais, SGBDs, middleware (serviços), middleware (integração
Sincronização em Sistemas Distribuídos
Sincronização em Sistemas Distribuídos problemas clássicos ordenação de mensagens exclusão mútua distribuída eleição de líder... transações ordenação de acontecimentos relógio físico dificuldades relógio
Sistemas Distribuídos
Sistemas Distribuídos Comunicação em Grupo maio de 2017 Grupos em Aplicações Distribuídas grupos fortemente acoplados: replicação de serviços confiabilidade tempo de resposta clientes com estado compartilhado
Designing Data Intensive Applications
Designing Data Intensive Applications Capítulo 1 Carmem Hara Aplicações Atuais Dados Processamento Problemas Volume Complexidade Velocidade de atualização Tecnologias SGBD: armazenamento Cache: resultados
Segurança e Controle em Sistemas de Informação. Profa. Ellen Francine ICMC-USP
Segurança e Controle em Sistemas de Informação Profa. Ellen Francine ICMC-USP 11/09: nem tudo está sob controle Com o ataque contra o World Trade Center e Pentágono, todo transporte aéreo e terrestre foi
Sistema de Software Distribuído
Sistema de Software Distribuído É composto por uma sequência de instruções, que é interpretada e executada por um processador É composto por instruções concorrentes ou paralelas, que são interpretadas
Sistemas Distribuídos. Capítulo 7 - Aula 16
Sistemas Distribuídos Aula Passada Capítulo 7 - Aula 16 Comunicação Confiável de Grupo Multicast Atômico Sincronia Virtual Ordenação de Mensagens Recuperação Aula de hoje Modelos de Consistência Protocolos
Segurança e Auditoria de Sistemas. Prof. Alessandra Bussador
Segurança e Auditoria de Sistemas Prof. Alessandra Bussador Objetivos Segurança da informação Garantir a continuidade do negócio; Minimizar as perdas do negócio pela prevenção e redução do impacto de incidentes
Sumário. Recuperação de Falhas
Sumário 1 Introdução ao Processamento de Consultas 2 Otimização de Consultas 3 Plano de Execução de Consultas 4 Introdução a Transações 5 Recuperação de Falhas 6 Controle de Concorrência 7 Fundamentos
Sistemas Distribuídos. Professora: Ana Paula Couto DCC 064
Sistemas Distribuídos Professora: Ana Paula Couto DCC 064 Comunicação Confiável de Grupo Capítulo 8 Comunicação Confiável de Grupo Camadas de Transporte oferecem comunicação ponto-a-ponto confiável (TCP)
5 Fidedignidade Disponibilidade Confiabilidade Segurança Proteção Privacidade Integridade
99 5 Fidedignidade O objetivo desta seção é apresentar a terminologia comumente utilizada na literatura de tolerância a faltas. Esta introdução é importante para auxiliar na identificação dos aspectos
SISTEMAS DISTRIBUÍDOS
SISTEMAS DISTRIBUÍDOS Sincronização Slide 7 Nielsen C. Damasceno Introdução Utilizando Sistemas Distribuídos, uma grande dificuldade que temos é como garantir o acesso exclusivo a um recurso compartilhado,
Introdução aos Sistemas Distribuídos
Introdução aos Sistemas Distribuídos Prof. Leonardo Barreto Campos http://sites.google.com/sitew/leonardobcampos 1/29 Sumário Ementa; Bibliografia Calendário Site Introdução Características http://sites.google.com/sitew/leonardobcampos
Bancos de Dados Distribuídos. Gabriel Resende Gonçalves 4 de fevereiro de 2014
Bancos de Dados Distribuídos Gabriel Resende Gonçalves 4 de fevereiro de 2014 Sumário Introdução; Vantagens e Desvantagens; Regras Básicas; Tipos de BDDs; Processamento de Transações; Recuperação de Falhas;
Formação de DBAs SQL Server 2008
Formação de DBAs SQL Server 2008 Parte 8: Banco de Dados Distribuído Computação Distribuída Um grupo de elementos autônomos de processamento (não necessariamente homogêneos) que estão interconectados por
Sistemas Distribuídos. 7 Coordenação e Acordo. Coordenação e Acordo. Prof a Ana Cristina B. Kochem Vendramin DAINF / UTFPR
Sistemas Distribuídos 7 Coordenação e Acordo n Coordenação e Acordo Prof a Ana Cristina B. Kochem Vendramin DAINF / UTFPR Exclusão Mútua Evitar interferência entre um conjunto de processos e garantir a
Relógios Lógicos. Sumário. November 27, Relação Happened-Before. Relógios de Lamport. Relógios Vectoriais
Relógios Lógicos November 27, 29 Sumário Relação Happened-Before Relógios de Lamport Relógios Vectoriais Eventos Nem sempre é necessário ter relógios sincronizados: Muitas vezes, é suficiente estabelecer
Sincronização. Tempo e Relógios. Sincronização de Relógios - Algoritmo de Cristian - Algoritmo de Berkeley - Network Time Protocol
Sincronização Tempo e Relógios Sincronização de Relógios - Algoritmo de Cristian - Algoritmo de Berkeley - Network Time Protocol 1 Caso mais simples: Sincronização interna entre dois processos num sistema
Falha benigna. Sistema. Sistema Próprio. Interrompido. Restauração. Falha catastrófica. Falha catastrófica. Sistema. Impróprio
INE 5418 Segurança de Funcionamento Tipos de s Detecção de s Recuperação de s Segurança de Funcionamento Representa a confiança depositada em um determinado sistema em relação ao seu correto funcionamento
Nível de Enlace. Nível de Enlace. Serviços. Serviços oferecidos os nível de rede
Nível de Enlace Enlace: caminho lógico entre estações. Permite comunicação eficiente e confiável entre dois computadores. Funções: fornecer uma interface de serviço à camada de rede; determinar como os
Arquitetura de sistemas distribuídos
Arquitetura de sistemas distribuídos 2. Introdução aos Sistemas Distribuídos 2.1.Características de sistemas distribuídos 2.2 Aplicações distribuídas e TI Verde 2.3 Tratamento de Falhas 2.4 Classificação
Dados em programas são estruturados, enquanto que mensagens carregam informação seqüencial: Linearização x Restauração de dados Requisição
6LVWHPDV'LVWULEXtGV 0GHO&OLHQWH6HUYLGU &PXQLFDom 6XPiUL Introdução Elementos Básicos de Comunicação Comunicação Cliente-Servidor Comunicação em Grupo Chamada emota de Procedimento (PC) Prof a. Cristina
Sistemas Distribuídos. Capítulo 6 - Aula 10
Sistemas Distribuídos Aula Passada Capítulo 6 - Aula 10 Nomeação estruturada Implementação de um espaço de nomes Implementação de resolução de nomes Nomeação baseada em atributo Introdução ao problema
