Alta Disponibilidade. Evandro Deliberal

Documentos relacionados
Alta Disponibilidade. Evandro Deliberal

Alta Disponibilidade. Evandro Deliberal

Conceitos e terminologia de segurança quanto à disponibilidade

Evandro Deliberal Aula 04

Conceitos de Segurança Física e Segurança Lógica. Segurança Computacional Redes de Computadores. Professor: Airton Ribeiro Fevereiro de

Backup e Restauração Banco de Dados. Evandro Deliberal

Semana de Tecnologia FATEC Mauá

Administração de Sistemas (ASIST)

SSC546 -Avaliação de Desempenho Parte 1 Sarita Mazzini Bruschi

Designing Data Intensive Applications

Backup e Restauração Banco de Dados. Evandro Deliberal

Introdução à Ciência da Computação

Sistemas Críticos. Centro de Informática - Universidade Federal de Pernambuco Engenharia da Computação Kiev Gama

Computadores. HW e SW

Qualidade de software. Prof. Emiliano Monteiro

Arquitetura de sistemas distribuídos

Sis i te t mas a O perac a i c o i nai a s um p ouco c d a a h is i tó t ria i. a... SO His i t s ó t r ó ic i o

Evandro Deliberal Aula 06

Gestão de Segurança da Informação

SISTEMAS OPERACIONAIS

falhas em sistemas distribuídos

Fiabilidade de Sistema Informáticos

Evandro Deliberal Aula 08

Meios para obter e validar a dependabilidade

Infra Estrutura Hardware e Software

Evandro Deliberal Aula 06

SSC643 -Avaliação de Desempenho de Sistemas Computacionais -

Introdução a Computação em Nuvem

Tolerância a falha. Edy Hayashida

Computação Distribuída

Confiabilidade de software. Qualidade de Software. Confiança: Funcionalidade. Falhas provocam custos

ELT030. 2º Semestre-2016

NOÇÕES MATEMÁTICAS. Cálculo da disponibilidade e mantenabilidade do sistema ou equipamento na manutenção.

ANEXO XI-B ACORDO DE NÍVEL DE SERVIÇO ANS

Um estudo sobre a relação entre processos de engenharia de software com a dependabilidade e previsão de falhas em sistemas

Gestão de Projeto. CARGA HORÁRIA 16 horas PROGRAMA

Processo de gerenciamento da disponibilidade

Avaliação de Desempenho

Segurança e Controle em Sistemas de Informação. Profa. Ellen Francine ICMC-USP

PROJETO DE REDES

Componente de aplicação. Figura 1 - Elementos funcionais de uma aplicação sendo executados de forma distribuída

Projeto de Sistemas Distribuídos. Considerações

Sistemas Operacionais: O quê? Por quê? Quando?

Agenda. Componentes genéricos de uma fábrica de. Implantar ou melhorar uma fábrica, é um. Outras novidades que merecem atenção

Introdução a Computação em Nuvem

COMPUTADORES NAS EMPRESAS Cloud Computing Prof. Reginaldo Brito

Data Centers ESTRUTURA E TOPOLOGIA DATACENTER INTEGRAÇÃO. Arquitetura Elétrica Ar Condicionado Telecomunicações Gestão Manutenção

Segurança Física Redes de Computadores

Hardware para Virtualização Construindo uma solução física para uma infraestrutura virtualizada

Sistemas Distribuídos. Plano de Curso. Plano de Curso 04/03/12 ! EMENTA:

Com relação à gestão de tecnologia da informação (TI) do ITIL, Versão 2, julgue os itens seguintes.

Características de Sistemas Distribuídos

VIRTUALIZAÇÃO DE SERVIDORES - HYPER-V E SYSTEM CENTER

AN INTRODUCTION TO SOFTWARE ENGINEERING

Sistemas Distribuídos

Computação em nuvem (Cloud Computing)

Servidor. Servidor rack. Servidor de blade

Gerência de Projetos de TI

Sistemas Distribuídos

Sistemas Computacionais. Desempenho Confiabilidade Avaliação de sistemas

GESTÃO DA TECNOLOGIA DA INFORMAÇÃO

Características de Sistemas Distribuídos

Engenharia de Confiança. Helena Macedo Reis Luis Fernando de Souza Moro

Sistema Distribuído. Sistema Distribuído. Aplicações Distribuídas. Conceitos Básicos

Sistemas Distribuídos

TESTES DE SOFTWARE. Unidade 5 Teste de Software em Sistema em Produção. Luiz Leão

SIMULADO 01 Governança de TI

COMPUTADORES NAS EMPRESAS Cloud Computing Prof. Reginaldo Brito

Aula 2. Prof: Carlos Eduardo de Carvalho Dantas

b) choosing either numerical analysis or simulation as the evaluation method;

UNIVERSIDADE FEDERAL DE GOIÁS INSTITUTO DE INFORMÁTICA. Sistemas Distribuídos

SUPORTE ATLASSIAN 2017 SUPORTE ATLASSIAN

Introdução aos Sistemas Operacionais

PCS 2039 Modelagem e Simulação de Sistemas Computacionais

Uma conversa que não pára: o Pinguim, o Morcego e o Elefante

Análise e Modelagem de Desempenho de Sistemas de Computação. Profa. Jussara M. Almeida 1 o Semestre de 2014

Silvio Fernando Vieira Correia Filho Paulo Henrique dos Santos

SSC0640 Sistemas Operacionais I

Modernização Empresarial, Modernização na Nuvem e Migração

Programação Concorrente

Introdução à Programação Aula 01. Prof. Max Santana Rolemberg Farias Colegiado de Engenharia de Computação

CURSO DE SISTEMAS DE INFORMAÇÕES

Qual a diferença entre sistemas abertos e fechados? Descreva uma empresa do ponto de vista sistêmico.

Administração de Serviços de Redes. Introdução a Clusters. Prof. Dayvidson Bezerra Contato:

Arquitetura Cliente-Servidor Generalizada com identificação de tiers. Arquitetura Cliente-Servidor Generalizada com identificação de tiers

1- Confiabilidade ( 2 ) Proteção contra perdas e estragos. 2- Integridade ( 3 ) Proteção contra interferência de cortes de funcionamento

Curso: Redes de Computadores

Evandro Deliberal Aula 03

COMPUTAÇÃO EM NUVEM E PROCESSAMENTO MASSIVO DE DADOS Conceitos, tecnologias e aplicações

SUMÁRIO. 1.3 CONCEITOS DE SISTEMA OPERACIONAL Processos Arquivos O shell 42

ARQUITETURA DE SISTEMAS DISTRIBUÍDOS. Aula 1- Introdução aos Sistemas Distribuídos

Aula 7 TECNOLOGIA EM JOGOS DIGITAIS JOGOS MULTI PLAYER. Marcelo Henrique dos Santos

falhas em sistemas distribuídos

MBA em Tecnologia da Informação Empresarial (MTIE)

Disponibilidade Operacional como Indicador da Qualidade de Serviços em Sistemas Metroviários

Tolerância a Faltas. Terminologia básica. Tolerância a Faltas. Page 1. Departamento de Engenharia Informática. Departamento de Engenharia Informática

Transcrição:

Alta Disponibilidade Evandro Deliberal evandro@deljoe.com.br https://www.linkedin.com/in/evandrodeliberal

Geral 9 Aulas (Trimestre) 19h às 20h40-20h55 às 22h35 Tolerância de 15 Minutos ED Entrega: 31/05/2016 / Formato: Digital, PDF (50% da nota) Grupo (no máximo 4 pessoas) Tema (Pesquisa) Aplicações e exemplo de arquiteturas tolerantes a falhas Projetando um sistemas de alta disponibilidade Estrutura: Introdução, Objetivo, Desenvolvimento e conclusão Apresentação (50% Nota) U1 (24/05/2016) Segunda parte da aula U2 (28/06/2016) 19:45 Bons modos é fundamental Respeito Planejamento (Regra)

Planejamento 1. Conceitos e terminologia de segurança quanto a disponibilidade 2. Avaliação de Segurança 3. Mecanismos de Controle de falhas 4. Aplicações e exemplo de arquiteturas tolerantes a falhas 5. Projetando um sistemas de alta disponibilidade 6. Clusters de alta disponibilidade 7. Grids computacionais 8. Virtualização 9. Tolerância a falhas em rede de computadores

Planejamento 19:00 19:45 Revisão sobre calculo de Confiabilidade e Disponibilidade 19:45 Exercicio de ficção 19:55 20:40 - Aplicações e exemplo de arquiteturas tolerantes a falhas 20:55 21:45 - Projetando um sistemas de alta disponibilidade 21:45 22:35 Trabalho em sala de aula

Curva da Banheira

Confiabilidade TEMPO MÉDIO PARA FALHAR (Mean Time to Failure MTTF) TEMPO MÉDIO ENTRE FALHAS (Mean Time Between Failure MTBF) = é obtido pela dos tempos de operação de todas as unidades, incluindo as que não falharam e dividindo pela somatória de falhas das unidades. O tempo de operação é a somatória de horas que as unidades estavam em uso, ou seja, não estavam desligadas. Quanto maior (MTTF e MTBF), menor a probabilidade da unidade falhar para uma dada missão de tempo e maior a confiabilidade. Um decréscimo na taxa de falha resulta em um aumento da MTTF e MTBF e consequentemente, um aumento da confiabilidade Confiabilidade MTBF = (Tempo Total de operação / (Numero de Falhas + 1))

Confiabilidade MTTF = (Dt 1 + Dt 2 + Dt 3 )/nº defeitos MTTF = 46,5/3 = 15,5 h Taxa de defeitos ( ) = 1/MTTF = 0,064 def/h

Confiabilidade MTTR Mean time to repair (Tempo médio de reparação) = Tempo médio da parada do processo a até a recuperaçã como um todo MTBI Mean time Between Interruption (Tempo médio de Interrupção) = Tempo médio entre interrupções OEE - Overall Equipament Effectiveness (Eficiência Geral de Equipamento)

Disponibilidade Disponibilidade é a probabilidade que uma unidade estará pronta para uso num instante de tempo determinado, ou sobre um período de tempo determinado, baseados em aspectos combinados de confiabilidade e mantenabilidade. Em outras palavras, a disponibilidade é uma função de sua taxa de falha (confiabilidade) e o tempo requerido para restaurar a unidade após uma falha (mantenabilidade). Disponibilidade = MTBF ( MTBF + MTTR )

Disponibilidade e Confiabilidade Disponibilidade e Confiabilidade são os atributos mais conhecidos e usados, muitas vezes aparecem como sinônimos de Dependabilidade (Dependability)

Formula MTBF = (Tempo Total de operação / (Numero de Falhas + 1)) MTTR = Soma(Total de horas utilizado para reparo) / nr. de vezes Disponibilidade = MTBF ( MTBF + MTTR )

Equipamento Trabalhou 8640 Horas Durante um ano Falho 17 Vezes Tempo médio de reparo foi de 2 Horas (MTTR) Confiabilidade = 8640 / (17 + 1) = 480 (MTBF) Calculo MTBF Disponibilidade = = (MTBF + MTTR) 480 (480 + 2) = 0,9958 ou 99,58%

Exercicio Equipamento Trabalhou 14 Horas por dia Durante 360 dias Falho 2 Vezes Total de tempo para realizar o reparo das 2 falhas foram de 3 horas

Equipamento Trabalhou 14 Horas por dia Durante 360 dias Falho 2 Vezes Tempo médio de reparo foi de 1,5 Horas (MTTR) Confiabilidade = 5040/ (2 + 1) = 1680 (MTBF) Exercicio MTBF Disponibilidade = = (MTBF + MTTR) 1680 (1680 + 1,5) = 0,9991 ou 99,91%

Exercicio Equipamento Trabalhou 6 Horas e 30 Minutos por dia Durante 360 dias Falho 5 Vezes Total de tempo para realizar o reparo das 5 falhas foram de 4 horas

Exercicio Equipamento Trabalhou 170 Horas Durante 360 dias Falho 2 Vezes Total de tempo para realizar o reparo das 2 falhas foram de 12 horas

Equipamento Trabalhou 24 Horas Durante 360 dias Falho 4 Vezes A média de reparo foi de 15 minutos Exercicio Qual foi o tempo total de reparo

Equipamento Trabalhou 24 Horas Durante 360 dias Falho 4 Vezes A média de reparo foi de 15 minutos Exercicio Qual foi o índice de confiabilidade / Tempo médio de funcionamento? MTBF = (Tempo Total de operação / (Numero de Falhas + 1))

Utilizando resultado Availability % Downtime per year Downtime per month* Downtime per week 90% 36.5 days 72 hours 16.8 hours 95% 18.25 days 36 hours 8.4 hours 98% 7.30 days 14.4 hours 3.36 hours 99% 3.65 days 7.20 hours 1.68 hours 99.5% 1.83 days 3.60 hours 50.4 min 99.8% 17.52 hours 86.23 min 20.16 min 99.9% ("three nines") 8.76 hours 43.2 min 10.1 min 99.95% 4.38 hours 21.56 min 5.04 min 99.99% ("four nines") 52.6 min 4.32 min 1.01 min 99.999% ("five nines") 5.26 min 25.9 s 6.05 s 99.9999% ("six nines") 31.5 s 2.59 s 0.605 s

Aplicações e exemplos de arquiteturas tolerantes a falhas

Agenda I) Computação de propósitos gerais II) Sistemas de alta disponibilidade III) Sistemas de vida longa IV) Computação crítica

Sistema Teoria Geral de Sistemas Um conjunto de elementos inter-relacionados com um objetivo comum Todo sistema é um sub-sistema de um sistema maior Homeostase Capacidade do organismode apresentar uma situação físico-quimica característica e constante, dentro de determinados limites, mesmo diante de alterações impostas pelo meio ambiente.

Atributos Interface Ponto de vista Nivel de abordagem (Detalhe) Hierarquia (divisão) Caracteristicas Elemento Ambiente Objetivo Comum Relação entre elementos Cumprir uma Função Sistema

Computação de propósitos Gerais

Computação de propósitos Gerais GPOS General Purpose Operating System Realização de atividades comum Não precisa de um algo especifico Generalista Sistemas Gerais - São aqueles em que falhas e interrupções curtas de serviço são toleráveis desde que o sistema volte a funcionar posteriormente.

Sistemas de alta disponibilidade Sistemas que buscam-se manter ativos no maior tempo possível Utilização Redundância Segurança Contigência Normas Gestão Cluster Preciso de sincronização (Processamento e dados)

Rede Dados Banco de Dados Serviço Banco Cartão de Crédito Segurança publica Energia Telecomunicações Sistemas de alta disponibilidade

Sistemas de alta disponibilidade

Sistemas de vida longa A confiabilidade é prioridade máxima e normalmente é impossível realizar manutenção não-planejada. Baixa utilização de energia, leves e finos Resiliência = Capacidade de superar, de recuperar de adversidades. Exemplos: Satélites Controladores de Vôo (Espacial, doméstico e demais) Sondas (espacial, maritima, terrestre) Sistemas de Saude Sistemas de monitoramento Geográfico (Mar, Vulcão e outros)

Computação Critica Missão critica em ti = é quando um processo, equipamento ou aplicação, ao falharem ou ficarem indisponíveis, afetam a operação de uma empresa ou causam grandes perdas e transtornos União entre investigação técnica, desenvolvimento e Teoria Critica Advanced Identity Representation (AIR) Caracteristicas Alta Disponibilidade e Disponibilidade Continua Redundância

Computação Critica Possui grande contribuição para as areas: Social Humana Cultural Exemplo: Criação de avatar dinamico Second Life Rede Social

Computação Critica Exemplos Sistema de controle de coleta de dados de um projeto em Física Experimental para criação de estado de plasma Um núcleo de negociação para o mercado financeiro, tratando milhões de operações/dia, envolvendo mensageria em banco de dados, cache distribuído, gerenciamento de recursos em memória, etc., com requisitos rígidos de baixa latência, também é um exemplo de missão crítica Um sistema SaaS Software as a Service sobre algum provedor em nuvem, para uma solução multi-inquilino com interfaces Web, responsável pelo núcleo de faturamento da empresa Jogos Complexidade e montagem de cenários dinamicamente Sistema de uma aeronave Sistemas militares

Resultado Availability % Downtime per year Downtime per month* Downtime per week 90% 36.5 days 72 hours 16.8 hours 95% 18.25 days 36 hours 8.4 hours 98% 7.30 days 14.4 hours 3.36 hours 99% 3.65 days 7.20 hours 1.68 hours 99.5% 1.83 days 3.60 hours 50.4 min 99.8% 17.52 hours 86.23 min 20.16 min 99.9% ("three nines") 8.76 hours 43.2 min 10.1 min 99.95% 4.38 hours 21.56 min 5.04 min 99.99% ("four nines") 52.6 min 4.32 min 1.01 min 99.999% ("five nines") 5.26 min 25.9 s 6.05 s 99.9999% ("six nines") 31.5 s 2.59 s 0.605 s

Revisão Curva da Banheira Confiabilidade Disponibilidade Métricas MTTR, MTBR, MTTF, MTBI Revisão Aplicações e Exemplos de arq. Tolerante a falhas Sistema (Teoria Geral) Atributos e Caracteristicas Computação de propósitos Gerais Sistemas de alta disponibilidade Contingência X Redundância Sistemas de vida longa Computação Critica

Duvidas?

Obrigado Evandro Deliberal evandro@deljoe.com.br

Projetando um sistema de alta disponibilidade

Agenda I) Introdução II) Implementando a arquitetura III) Pontos críticos de falha IV) Eliminando SPOF

O que eu preciso? Availability of typical systems classes. Today s best systems are in the high-availability range. The best of the general-purpose systems are in the fault-tolerant range as of 1990. Unavailability Availability System Type (min/year) Availability Class unmanaged 50,000 90.% 1 managed 5,000 99.% 2 well-managed 500 99.9% 3 fault-tolerant 50 99.99% 4 high-availability 5 99.999% 5 very-high-availability.5 99.9999% 6 ultra-availability.05 99.99999% 7

O que eu preciso? Segurança Disponbilidade Performance Custo

Projetando Requisitos Objetivo Ambiente Tempo Custo Quem? Metologia de apoio / suporte PMBOK, SCRUM, PRINCE2 (Gestão do Projeto) CMMI, RUP, XP, UML (Desenv Soft) ISO 27000 e 20000 (Infra Estrutura) SOA (Serviço) Cobit (Gestão de TI) ITIL (Gestão do Serviços) Introdução

Planejamento Estratégico Visão compartilhada - Futuro Objetivos de negócio - Melhorias Processos de Negócio Cronograma de alteração Criação de processo de negócios orientado a serviços Mudança na concepção do usuario Implementação de infra-estrutura Recursos de rede Computadores pessoais de trabalhadores de conhecimento Operações de servidor consolidadas Serviços de autenticação Proteção contra intrusos Serviços de aplicações Implementando a arquitetura

Implementando a arquitetura Gerenciamento de infra-estrutura Investimento Unificação Propriedade Conhecimento interno e externo Evolução Controle de alterações Definição de Objetivos de integração de aplicações Gerenciamento do desenvolvimento de aplicações Definição de padrões Gerenciamento de mudanças Consolidação de gerenciamento de Sistemas de informação Analise de fatores importantes para o sucesso

Ja sei o que preciso Segurança Disponbilidade Performance Custo

Pontos criticos de falha (SPOF) Single points of Failure (Pontos unicos de Falha) Compromete toda a disponibilidade Compromete todo o processo / Sistema Pode surgir por: Uma falha de projeto ou concepção Execução falha Monitoramento indevido

Pontos criticos de falha (SPOF) Como reduzir riscos? Plano de resposta

Pontos criticos de falha (SPOF) Fase de implementação Hardware Estar atento a todo e qualquer componente Saber da capacidade dos mesmos Realizar testes de stress Buscar referências Software Buscar informações detalhadas Alinhar requisitos e escopo Simular, testar, ensaiar Processamento Armazenamento

Eliminando SPOF Rede Controle de disco Controle de endereço IP por meio de aliases de IP Controle de endereço IP por meio de substituição de IP (com ou sem controle endereço de hardware) Aplicativo Controlador de aplicativo Controle de cluster Monitores de aplicativo Ferramenta de análise de disponibilidade de aplicativo Notificação de erro

Projetando um Sistema HA Projeto Metodologia Implementação da arquitetura Pontos Criticos de Falha (SPOF) Eliminando SPOF Revisão

Duvidas?

Obrigado Evandro Deliberal evandro@deljoe.com.br