Plano de Recuperação de Desastre em TI Edgar T. Monteiro The LatAm Healthcare IT Summit - 2014
>> AGENDA Blue Solutions na Saúde Ameaças para a TI em HeathCare Disaster Recovery
>> Blue Solutions 10 anos de trabalho em HealthCare 200 projetos de datacenter local em HealthCare
>> Blue Solutions Soluções para Datacenter
>> Blue Solutions Produtos Oracle
>> Blue Solutions Produtos GE Healthcare
>> Ameaças para a TI Quais as reais ameaças TI
>> Ameaças para a TI em HealthCare Quais as reais ameaças... Apoio financeiro Mão-de-obra qualificada de TI Plano estratégico alinhado ao negócio TI Dificuldade de entrega de soluções dos fornecedores Apoio da alta direção Interoperabilidade entre os sistemas Comprovação de ROI ou Valor Usuários reativos
Valor agregado >> Ameaças para a TI em HealthCare Credibilidade da TI Incerteza Portfólio Orçamentos Operações Pessoal Percepção Resposta Confiabilidade Ceticismo Portfólio Comunicação Consistência Confiabilidade Desempenho Recrutamento Percepção Informação Gestão de problemas Políticas Percepção Aceitação do papel da TI Confiável na Empresa Portfólio Serviços Capital Intelectual Gestão de projetos Outsourcing Contingências Percepção Competência Experiência nos negócios Nível de Serviço SLA Prioridades Custo Portfólio Serviços compartilhados Arquitetura Escritório de projetos Gerenciamento de recursos Desenho de processos Competências Estratégica Culturas Métricas Percepção Liderança Gestão do relacionamento Capacidade Preço dos serviços Respeito Portfólio Governança de TI Modelos de investimentos Gestão de Portfólio Coordenação Gestão financeira Plano de carreira Gestão de Programas Local de inovação Recursos estratégicos Sucessão Percepção Alianças Parcerias Consultoria Inovação Mal necessário Visibilidade na Empresa Fonte: Gartner Group
>> Como se preparar para um desastre? Corre quando acontece?
>> Conceituando O que é Desastre em TI? Desastre pode ser entendido como qualquer situação que afete os processos críticos do negócio de uma organização. Logo desastres para uma determinada empresa, pode não caracterizar desastre para outra empresa Em site de e-commerce Em Hospital Segunda-feira às 07hs Domingo às 03hs Entre os dias 1 a 5 do mês Entre os dias 10 a 15 do mês Emissão de NFe Sistema HIS Sistema de RH Referência: The Disaster Recovery Handbook
>> Como se preparar para um desastre? Elaborando um plano contra o desastre Plano de Administração de Crises Plano de Continuidade Operacional Plano de Contingência Plano de Continuidade dos Negócios Plano de Recuperação de Desastres O PRD é uma pequena parte de um PCN TI é apenas um dos itens considerados em um PRD Todos os departamentos da empresa devem estar envolvidos A alta direção deve participar da elaboração e aprovação do PRD Referência: ISO/IEC 15999
>> Por que implementar um PRD? Para atender leis e regulamentações, por vontade dos acionistas e proprietários, mas a grande razão é: Garantir continuidade dos Negócios Isso é importante para dar segurança de lucratividade para os acionistas e proprietários, porém mais importante ainda para dar segurança de emprego para os funcionários, e em alguns casos dar segurança de bons serviços para os clientes, muito crítico por exemplo em Hospitais.
>> Como determinar os itens para um PRD? Seguindo metodologias de análise Considerando que TI é apenas uma parte do PRD, é importante determinar exatamente quais ativos de TI devem ser envolvidos. O problema é o tempo e custo para aplicar essas ferramentas, sem que toda a empresa esteja comprometida com o PRD e com o PCN. Para isso, são usadas as seguintes ferramentas: Análise de Riscos Análise de Impacto nos Negócios Referência: ISO/IEC 27001
>> Quais os itens mais comuns? Quais as principais falhas consideradas em um PRD? Simplificando o processo, podemos classificar os possíveis desastres de TI nas seguintes categorias: Falhas Humanas Falhas de Software Falhas de Componentes de Hardware Falhas generalizadas de Hardware Falhas do Datacenter Referência: NIST Handbook 800-12
>> Como se precaver Falha humana Falha humana pode ser intencional ou não intencional, envolve todos os possíveis problemas que um usuário ou técnico pode causar, como apagar arquivos, desconectar cabos, derrubar equipamentos ou até danificar os mesmos. Algumas Formas de recuperar deste desastre Backup dos dados Em fita, disco, nuvem ou qualquer outro meio de armazenamento Software de Lixeira Mantém os últimos dados apagados em uma área fácil de recuperar Snapshots Em diversos níveis, para recuperar um ponto no tempo antes do problema
Técnico Inst.SO >> Forma de recuperação - Backup Pontos críticos em um projeto de backup tradicional RPO = 6h RTO = 11h 00hs 03hs 09hs 10hs 14hs 15hs 20hs 24hs Janela de backup Trabalho CRASH Conserto do Hardware SLA = 5h Restaurar os Dados
>> Como se precaver Falha de software Falha de software se refere a todo problema gerado pelos softwares instalados, como vírus, arquivos corrompidos, erros de programação. Em desastre, normalmente está ligado a perda de informações ou quebra na integridade. Algumas Formas de recuperar deste desastre Backup dos dados Em fita, disco, nuvem ou qualquer outro meio de armazenamento Software de Lixeira Mantém os últimos dados apagados em uma área fácil de recuperar Snapshots Em diversos níveis, para recuperar um ponto no tempo antes do problema
>> Como se precaver Falha de componente de hardware Falha de componente está ligada à falha de um único componente dentro do sistema, como um HD, uma fonte, um cabo de rede. Algumas Formas de recuperar deste desastre Backup dos dados Em fita, disco, nuvem ou qualquer outro meio de armazenamento Contingência de componente ou Redundância Tendo outro para reposição manual ou entrada automática em operação
>> Redundância de HDs 1 2 3 4 1 2 3 4 5 6 5 6
>> Redundância de HDs Hot-Swap 1 2 3 4 1 2 3 4 5 5 6 6
>> Forma de recuperação Redundâncias Energia Elétrica Equipamentos Críticos Componentes de equipamentos críticos Conectividade No-breaks e PDUs Switches HDs Conexões LAN Geradores Storages Fontes Links de Internet e de filiais Roteadores Placa de rede Firewall Ar condicionado)
>> Como se precaver Falha de servidor Falha de servidor é quando um determinado componente não pode ter outro igual pronto para substituir, como uma placa mãe, ou controladoras de um storage. Algumas Formas de recuperar deste desastre Backup dos dados Em fita, disco, nuvem ou qualquer outro meio de armazenamento Servidor Standby Outro servidor desligado pronto para entrar em ação Servidor Replicado Que recebe as informações do servidor principal on-line Servidores em Cluster Dois ou mais servidores desempenhando a mesma função
>> Forma de recuperação - Servidor Standby RPO = 6h RTO = 7h
>> Forma de recuperação - Servidor Replicado RPO = 10min RTO = 2h
>> Cluster de Alta Disponibilidade (HA) Storage Servidores Switches
>> Como se precaver Falha de datacenter Falha de datacenter é o evento mais grave que pode acontecer em TI, e pode ter origem em diversos fatores, como furto, perda da comunicação, falha de energia elétrica, até desastres naturais como incêndio, inundação ou furacão. Algumas Formas de recuperar deste desastre Backup dos dados e Datacenter Cold Sites Dados para serem restaurados em novo ambiente Datacenter Warm Sites Espaço e equipamentos para restaurar sistemas críticos Datacenter Hot Site Ambiente 100% funcional com dados replicado
>> Site de Backup - Hot Site ou Warm Site Site Produção Switches Storages Servidores Tape Nobreaks
>> Site de Backup - Hot Site ou Warm Site Site Produção Site Backup
>> Site de Backup - Hot Site ou Warm Site Site Produção Site Backup
>> Distância entre Sites Backup 50m
>> Distância entre Sites Backup 50KM Acidente nuclear na Usina de Fukushima
>> Distância entre Sites Backup 5400Km 300Km/ms =18ms * 2 =36ms de delay
>> Como se precaver Formas comuns de recuperação Formas de recuperação Backup dos dados Lixeira Snapshot Contingência de componente Servidor Standby Servidor Replicado Servidores em Cluster Datacenter Hot Site
>> Como se precaver Interligação entre falha e recuperação Formas de recuperação Backup dos dados Lixeira Snapshot Contingência de componente Servidor Standby Servidor Replicado Servidores em Cluster Datacenter Hot Site
>> Qual nível ideal? Backup Hot Site Warm Site Cluster Replicado Standby Contingência Snapshots Lixeira
>> Ampla gama de soluções
>> Datacenter para Recuperação de Desastres Fatores a considerar Regulamentação do setor Aplicações críticas a serem replicadas Fatores que irão determinar a tecnologia Distância física x Latência Infraestrutura local de Links Budget disponível Maturidade da TI
>> Qual Escolher Maturidade da TI Caótico Reativo Proativo Serviço Valor Sem documentação Sem previsibilidade Mínima operação de TI Ad hoc Ferramenta de Produtividade Apaga incêndios Controla inventário Gestão básica de chamados Gestão de alertas e eventos Controle de disponibilidade do ambiente Análise de tendências Define parâmetros de serviços Previne problemas Mede disponibilidade de aplicação Busca automação Processos de mudanças 2000 a 2010 2010 em diante Suporte ao processo operacional TI como provedor de serviços Define classes de serviços e preços Entende os custos Garante os SLAs Mede disponibilidade de serviços Integra processos Faz gestão de capacidade Suporte a entrega de Serviços Serviços e suporte ao negócio TI como parceiro de negócio Métricas de TI e Negócio interrelacionadas Processos de negócios melhorados com colaboração da TI Infraestrutura flexível e escalável Planejamento de negócios Gestão como negócio Fonte: Eduardo Mayer Fagundes
>> Mudando da TI Como começar e terminar Mostre o Valor e Impacto da TI Não pare nunca de buscar a excelência Ganhe o Apoio da Alta Direção Faça um projeto de TI para os próximos 5 anos Plano de Recuperação de Desastres Monte um Plano Estratégico da TI alinhado ao negócio Faça aliança com Fornecedores confiáveis Consiga o Apoio financeiro
OBRIGADO Edgar T. Monteiro E-mail: edgar@bluesolutions.com.br Site: www.bluesolutions.com.br Telefone: +55 (19) 3551-3898