De que forma os sistemas de monitorização reduzem a falha humana nas salas de servidores e nos armários de cablagem



Documentos relacionados
Axis ThinWizard. Artigo. uma ferramenta de software que permite um rápido diagnóstico remoto dos problemas da impressora

Copyright 2008 GrupoPIE Portugal, S.A.

Painel de Incêndio Convencional Série 500 Tão fácil como aprender o alfabeto

Acronis Servidor de Licença. Manual do Utilizador

Conteúdo do pacote. Lista de terminologia. Powerline Adapter

IBM Managed Security Services for Agent Redeployment and Reactivation

Acordo de alojamento de servidor

Múltiplos Estágios processo com três estágios Inquérito de Satisfação Fase II

Gestão dos Níveis de Serviço

Soluções de Gestão de Clientes e Impressão Universal

DATA LOGGERS USB PARA REGISTO DE TEMPERATURA E HUMIDADE

A VISTA BACKSTAGE PRINCIPAIS OPÇÕES NO ECRÃ DE ACESSO

Aplicações de Escritório Electrónico

GUIA PARA O PREENCHIMENTO DOS FORMULÁRIOS ENTIDADE GESTORA ERP PORTUGAL

A falha em alguns destes pontos pode resultar num excessivo e desnecessário investimento/despesa

Manual do utilizador. Aplicação de agente

Serviço de instalação e arranque HP para o HP Insight Control

sistema Com esta pode-se criar um sistema ajustado às necessidades dos clientes bem como aos seus estilos de vida.

Serviço a Pedido ( On Demand ) da CA - Termos e Política de Manutenção Em vigor a partir de 1 de Setembro de 2010

HP Hardware Support Exchange Service HP Customer Support Contractual Services

Software de Gestão Central GEONAUT

Índice. Como aceder ao serviço de Certificação PME? Como efectuar uma operação de renovação da certificação?

Conteúdo do pacote. Lista de terminologia. Powerline Adapter

POLÍTICA DE PRIVACIDADE

UNIVERSIDADE FEDERAL DE PELOTAS

Variações dinâmicas do consumo de corrente em centros de dados e salas de servidores

Sistema inteligente de gestão de chaves e objectos de valor

TECNOLOGIAS DA INFORMAÇÃO E COMUNICAÇÃO. SISTEMAS DE GESTÃO DE BASE DE DADOS Microsoft Access TECNOLOGIAS DA INFORMAÇÃO E COMUNICAÇÃO

VM Card. Referência das Definições Web das Funções Avançadas. Manuais do Utilizador

EM4590R1 Repetidor Sem Fios WPS

04/2014. Mod: MICRON-48/B. Production code: UPD80 Black

Aplicação da Qualidade. Manual do Utilizador. Versão

F-Secure Anti-Virus for Mac 2015

Restituição de cauções aos consumidores de electricidade e de gás natural Outubro de 2007

Acordo de alojamento de servidor

Servidores Virtuais. Um servidor à medida da sua empresa, sem investimento nem custos de manutenção.

Redes de Computadores. Trabalho de Laboratório Nº2

Modelo Cascata ou Clássico

Suporte Técnico de Software HP

Prognos SMART OPTIMIZATION

Sistema de chamadas e de alarme por voz Plena da Bosch O caminho mais rápido para a segurança

Java Mail Server. Manual do Utilizador

Ler este manual antes da instalação OHMLINE 2009 DOMUS. Motor de correr. Página 1

Manual de Instalação... 2 RECURSOS DESTE RELÓGIO REGISTRANDO O ACESSO Acesso através de cartão de código de barras:...

Vodafone ADSL Station Manual de Utilizador. Viva o momento

Gestor de ligações Manual do Utilizador

O Manual do ssc. Peter H. Grasch

Todos os dados de medição. Sempre disponíveis. Em qualquer dispositivo.

EBS ETAP Central Battery Systems

MANUAL DO USUÁRIO SORE Sistema Online de Reservas de Equipamento. Toledo PR. Versão Atualização 26/01/2009 Depto de TI - FASUL Página 1

Novo Order Manager para o Software NobelProcera

Solução de Dashboard. Monitorização e Alarmistica IT (Networking e Sistemas) ALL IN ONE SOLUTION SCALABILITY TECHNICAL SUPPORT

2005 José Miquel Cabeças

TELEDIAGNÓSTICO DO CASINO ONLINE UNIBET

Seu manual do usuário EPSON LQ-630

Administração de Redes

Windows 7. Professor: Jeferson Machado Cordini

QNAP Surveillance Client para MAC

GIAE VERSÃO JUNHO DE 2011 MUITO IMPORTANTE

SUMÁRIO Acesso ao sistema... 2 Atendente... 3

Relatório SHST

Enunciados dos Trabalhos de Laboratório. Instituto Superior Técnico / Introdução. 2 Configuração de Redes

Nova Versão 3.0 do Software de Gestão de Equipamentos da Katun KDFM!

Guia de Definições de Wi-Fi

Capítulo 1: Introdução...3

Guia rápido do utilizador

MANUAL DO UTILIZADOR TABLET PARA O SETOR DA RESTAURAÇÃO

Detectores de incêndio Apollo

Configuração do Servidor DHCP no Windows Server 2003

Entendendo como funciona o NAT

FERRAMENTAS E SOLUÇÕES DE APOIO À GESTÃO E MANUTENÇÃO DE ATIVOS

PHC dteamcontrol Externo

Guia de Instalação do Software

Gerenciamento de software como ativo de automação industrial

9. MANUTENÇÃO DE TRANSFORMADORES:

Comm5 Tecnologia Manual de utilização da família MI. Manual de Utilização. Família MI

LW056 SWEEX WIRELESS LAN PC CARD 54 MBPS. O Windows detectará automaticamente o aparelho e aparecerá a seguinte janela.

Arquitetura de Rede de Computadores

2 Diagrama de Caso de Uso

ESCOLA SECU DÁRIA DA CIDADELA. Regulamento e Normas de utilização/funcionamento das salas com Equipamento Informático

IBM FD Shelter Data Center

UNIVERSIDADE CATÓLICA PORTUGUESA DSI

PLANO DE EMERGÊNCIA: FASES DE ELABORAÇÃO

GARANTIA LIMITADA DO FABRICANTE NOKIA PARA NOKIA COM WINDOWS PHONE

Alta Disponibilidade na IPBRICK

Funcionalidades. Conteúdo da Caixa POR

1) MANUAL DO INTEGRADOR Este documento, destinado aos instaladores do sistema, com informações de configuração.

Solução de Telecontagem. Gestão de Contratos. Esta solução é indicada para sistemas de contagem de caudal usando um mínimo de recursos.

bit Tecnologia ao Serviço do Mundo Rural

Canon Self-Service. Guia de Introdução. Um manual que o ajuda a registar-se e a começar a utilizar o portal online Self-Service da Canon

Referencial do Módulo B

Transcrição:

De que forma os sistemas de monitorização reduzem a falha humana nas salas de servidores e nos armários de cablagem White Paper 103 Revisão 0 Por Dennis Bouley > Sumário Executivo Os incidentes inesperados de período de inactividade nas salas de servidores e armários de cablagem remotos provocam noites sem dormir para muitos gestores de TI. Muitos deles relatam histórias sobre de que forma o azar, a falha humana ou apenas a simples incompetência fez com que as suas salas de servidores fossem abaixo. Esta aplicação técnica analisa vários destes incidentes e apresenta recomendações sobre de que forma um sistema básico de monitorização pode ajudar a reduzir a ocorrência destes eventos inesperados. Conteúdo Clique numa secção para aceder directamente Introdução 2 Simples ou complexo? 2 A natureza do período de inactividade resultante de falha humana Contos do inesperado 5 Componentes do sistema de monitorização Outros relatos 11 4 6 Conclusão 13 Recursos 14 by Schneider Electric. Os white papers da APC agora fazem parte da boblioteca de white papers da Schneider Electric, produzidos pelo Data Center Science Center DCSC@Schneider-Electric.com

Introdução Muitos gestores de TI relatam histórias de eventos inesperados de período de inactividade que ocorreram nas suas salas de servidores distribuídas e armários de cablagem remotos. Ao analisarmos estes eventos, surge um denominador comum: falta de informação. Esta falta de informação conduz a falha humana que, por sua vez, provoca o período de inactividade. Os níveis de stress são elevados porque os operadores e administradores não têm à sua disposição dados em tempo real e, por isso, não podem impedir que ocorra falha humana. Considere as seguintes duas estatísticas: De acordo com as estimativas, existem 2,9 milhões de salas de servidores e armários de cablagem só nos Estados Unidos 1 Mais de 70% das falhas nos centros de dados reportadas são directamente atribuídas a falha humana 2 Este documento descreve incidentes de período de inactividade comuns em salas de servidores distribuídas e armários de cablagem remotos. Mais adiante são propostas recomendações sobre de que forma o software de monitorização e automatização integrado com videovigilância e sensores pode reduzir a ocorrência de problemas de período de inactividade relacionados com falha humana nestes ambientes pequenos e distribuídos (consulte Diagrama 1). Circuito Fechado Contacto Seco Sensor de Humidade Sensor de Temperatura Câmara Diagrama 1 A diminuição da falha humana pode ser conseguida através da monitorização inteligente a diversos níveis Detector de Fluídos Câmara Câmara Controlo de Acessos Aplicação de Gestão UPS Sensor de Partículas Consola De Gestão Remota Gestão da aplicação Simples ou complexo? Sempre que são propostos sistemas de monitorização para ambientes informáticos pequenos e remotos, tal como armários de cablagem e salas de servidores, apresentam-se 1 IDC, Building, Planning, and Operating the Next-Generation Data Center, Michelle Bailey, 2008 2 Uptime Institute, Data Center Site Infrastructure Tier Standard: Operational Sustainability, 2010 Schneider Electric Data Center Science Center White Paper 103 Rev 0 2

dois problemas. O primeiro problema diz respeito à instalação. Quão complexo é instalar um sistema de monitorização? Ou seja, quanto tempo demora a recolher informações sobre as características dos dispositivos a monitorizar e quanto tempo demora a efectuar a introdução de dados destas informações (considere centenas de dispositivos num cenário com diversas instalações)? De que forma é que o sistema sabe que dispositivos são câmaras, unidades de ar condicionado, UPS, sensores de calor etc. e de que forma são gerados endereços IP para que os dispositivos possam comunicar o seu estado? O segundo problema diz respeito à quantidade desconhecida de trabalho envolvido sempre que são realizadas alterações ao equipamento de alimentação, arrefecimento e monitorização ambiental situado em instalações remotas. Por exemplo, de que forma é efectuada uma nova actualização do firmware e de que modo é modificado um limite de temperatura? Nos últimos anos, os pacotes de software de monitorização evoluíram ao ponto de os utilizadores poderem agora escolher instalar eles próprios ou recorrer a um serviço externo para assistência na instalação. O serviço externo consegue ter o utilizador totalmente operacional em 1-2 dias. Os pacotes de software de monitorização podem ser entregues como código distribuível/ transferível ou como um servidor montado em bastidor com software pré-carregado. O sistema pode ser instalado remotamente ou num centro de dados central (se, por exemplo, precisarem de ser geridas dezenas ou centenas de armários de cablagem). Assim que o servidor de gestão estiver ligado, o cliente pode ser transferido para um portátil para que o operador possa iniciar o processo de identificação da alimentação, arrefecimento e equipamento ambiental e a actividade humana que precisa de ser monitorizada. A maioria das UPSs, sistemas de arrefecimento e câmaras de segurança modernos vêm equipados de fábrica com as placas de interface de rede (NIC) necessárias para a comunicação. O operador define um endereço IP ou intervalo de endereços IP a ser utilizado pelos dispositivos a monitorizar. Na Diagrama 2 é apresentado um exemplo disto. Alguns sistemas podem então procurar automaticamente a rede e localizar todos os dispositivos de alimentação, arrefecimento e segurança a monitorizar. Esta capacidade de auto-descobrir dispositivos, simplifica bastante o desafio da instalação e o arranque do sistema. Uma vez descobertos o sistema começa a monitorizar os dispositivos remotos. Diagrama 2 Configurar os endereços IP para vários dispositivos pode ser tão fácil como digitar um intervalo de números (ecrã exemplo extraído da aplicação InfraStruxure Central da Schneider Electric) Schneider Electric Data Center Science Center White Paper 103 Rev 0 3

Alguns sistemas de monitorização e automatização permitem também que os dispositivos sejam agrupados por localização, por fila numa localização ou por tipo de dispositivo (por exemplo, agrupar todos os dispositivos de arrefecimento, todas as PDUs, todos os indicadores, todas as câmaras etc.). Este exercício de agrupamento permite ao utilizador configurar políticas e limites para esse grupo. Os parâmetros limite comuns podem incluir temperatura, humidade e designação de um estado aberto ou fechado (por exemplo, portas de bastidores). Os limites, quando excedidos, devem despoletar um alarme que é comunicado ao administrador do sistema por e-mail ou mensagem de texto. Deve ter-se especial atenção para que apenas as principais alterações ao ambiente remoto despoletem um alarme. Caso contrário, o administrador deparar-se-ia com a possibilidade de diversos alarmes várias vezes por hora. Neste caso, o administrador pode tornar-se indiferente aos alarmes e ignorá-los. Por isso, é necessário manter um equilíbrio para que qualquer alarme que passe para o administrador do sistema seja considerado verdadeiro ou importante. As actualizações para a sala de servidores ou armário de cablagem, tal como uma actualização do firmware, são também simplificadas quando está instalado um sistema de monitorização moderno. O gestor de centro de dados já não precisa de enviar pessoal para localizações remotas para instalar actualizações do firmware. Muitos sistemas de monitorização são capazes de realizar configurações em massa, que permitem enviar alterações pela rede a partir de uma localização central. In each of these three UPS system configurations any combination of transformers may be present from none to all. For the single mains configuration, there are 8 possible transformer arrangements; for dual mains there are 16 arrangements, and for single mains without bypass there are 8 arrangements, for a total of 32 possible arrangements. Furthermore, the mains transformers and output transformers can be located either locally or remotely from the UPS, which affects the grounding system. This adds an additional 60 variations, for a total of 92 ways transformers can be installed with a single UPS. Virtually all of the 92 transformer installation variations have been used in real installations. However, not all transformer arrangements are logical, and there are a few that offer a superior combination of performance, economy, and efficiency. To understand when the use of a transformer is required or why various transformer locations exist for the three UPS configurations, we first must consider the effect of transformers on the neutral and ground wiring. A natureza do período de inactividade resultante de falha humana As salas de servidores e os armários de cablagem remotos não conseguem ter o mesmo investimento e atenção que os grandes centros de dados críticos. As instalações centrais, de grandes dimensões, são ocupadas por especialistas e estão muitas vezes equipadas com a tecnologia de segurança mais recente e uma grande quantidade de redundâncias incorporadas. Por outro lado, as salas de servidores distribuídas e os armários de cablagem remotos são preenchidos por indivíduos com várias responsabilidades, uma das quais pode ser vigiar o armário de cablagem ou a sala de servidores. Estes espaços possuem, muitas vezes, poucas medidas de segurança e estão sujeitos a falhas mais indesejáveis do que os espaços maiores e mais sofisticados. Independentemente da forma como uma sala de servidores ou armário de cablagem é planeado, o risco de período de inactividade inesperado está sempre presente. Alguns gestores de TI pensam que previram todos os problemas. Têm orgulho no design da sua sala de servidores. E depois aparece um técnico ou gestor não informado de ar inofensivo que destrói todo o plano em menos de cinco segundos. Schneider Electric Data Center Science Center White Paper 103 Rev 0 4

Energia Desperdício de Energia Diagrama 3 A expressão bomba-relógio adequa-se a salas de servidores pequenas e remotas Contaminante s do Ar Pessoas Fumo Temperatura & Humidade Vazamentos A lista de incidentes descritos abaixo ilustra como a ausência de um simples sistema de monitorização e automatização pode levar a período de inactividade em armários de cablagem e salas de servidores. Nestes ambientes, não há ninguém no local ou a pessoa que se encontra no local nem sempre é capaz de alertar os administradores do sistema sobre uma avaria. Uma hora de atraso na descoberta de uma falha no arrefecimento pode fazer a diferença para evitar um corte de energia total. Os alertas rápidos e em tempo real permitem aos administradores supervisionar uma comutação que pode evitar perda do serviço. Contos do inesperado Considere o seguinte resumo de eventos relacionados com falha humana: Um administrador de sistemas responsável por uma sala de servidores remota de uma sucursal entrou na mesma para descobrir por que razão os servidores da sala foram abaixo. Descobriu que os empreiteiros da remodelação durante as renovações tinham embrulhado bastidores com película aderente para impedir a entrada de pó nos servidores. Os empreiteiros não informaram o pessoal de TI que iriam fazê-lo, por isso, todos os servidores estavam ligados quando os embrulharam. Os servidores sobreaqueceram e foram abaixo. Um director comercial sénior com problemas em aceder à Internet decidiu resolver ele mesmo o problema. Foi até à sala de servidores, tirou os cabos do router e ligou o seu portátil directamente à Internet, contornando todos os serviços de firewall e encriptação e expondo todo o sistema a vírus externos e a outro software mal intencionado. Como parte de uma reparação, um canalizador fez um furo no tecto directamente sobre um servidor Exchange. Depois, não reparou correctamente uma união de um tubo em que estava a trabalhar. A meio da noite, começou a pingar água do tubo. A natureza tomou o seu curso e a água fluiu para o furo no tecto e entrou no servidor Exchange, provocando danos irreparáveis no servidor. Foi enviada uma equipa de limpeza à sala de servidores. A equipa reparou que havia pó em redor dos bastidores de servidores, mas também dentro deles e as portas dos bastidores estavam parcialmente abertas. A equipa de limpeza fez o que costuma fazer: limpou o pó dentro dos bastidores e dentro dos servidores com limpa-vidros. Ninguém lhe deu instruções precisas relativamente ao protocolo de limpeza. Um fornecedor estava a trabalhar numa área protegida contra halon. Acendeu um maçarico a gás propano sem notificar ninguém e sem desligar o sistema halon. Um fornecedor desligou uma PDU para que pudesse colocar-lhe um disjuntor. A PDU estava a alimentar um servidor de uma sucursal importante. Muitos visitantes da sala de servidores podem não saber o que isto pode ou não fazer nesse local em particular. Schneider Electric Data Center Science Center White Paper 103 Rev 0 5

Componentes do sistema de monitorização Ao conceber um sistema de monitorização, cuja função principal é limitar a ocorrência de falha humana em salas de servidores remotas, têm de ser considerados quatro componentes principais: videovigilância, sensores, tomadas inteligentes de bastidores e software de monitorização e automatização. A Tabela 1 fornece um resumo das soluções descritas nesta secção. Videovigilância e sensores O que pode ajudar quando acontecem estas situações? Estão disponíveis no mercado sistemas de monitorização e automatização expansíveis que são capazes de recolher, organizar e distribuir alertas críticos e vídeos de vigilância. Na Diagrama 4 é apresentado um exemplo disto. Ao monitorizarem a alimentação, o arrefecimento e as partes frontais e posteriores dos bastidores e o ambiente, estes sistemas podem gerar notificações instantâneas de avarias, permitir uma avaliação rápida da situação e fornecer a resolução de eventos críticos de infra-estrutura que podem afectar adversamente a disponibilidade do sistema de TI. No caso dos exemplos de falha de comunicação humana apresentados acima, considere de que forma um sistema de monitorização e automatização poderia ter ajudado: Um sistema de monitorização e automatização da infra-estrutura física, complementado por um sistema de segurança com câmaras de vídeo que permitisse monitorizar a actividade humana nas filas, teria gravado sempre que os detectores de movimento fossem activados. Assim, embora não estivesse nenhum funcionário de TI no local, a actividade dos empreiteiros a embrulharem os servidores, por exemplo, teria sido gravada e teria sido enviado um alerta ao administrador autorizado. Depois de testemunhar o que se estava a passar, o administrador poderia ter emitido uma ordem de cessar e desistir e o período de inactividade poderia ter sido evitado. Diagrama 4 Exemplo de como a monitorização por vídeo despoletada pela detecção de movimento pode ajudar a limitar as situações de falha humana (ecrã exemplo extraído da aplicação InfraStruxure Central da APC by Schneider Electric) Um sistema de monitorização e automatização poderia também ligar ou desligar dispositivos utilizando comutadores de saída de contacto a seco de baixa corrente. Esta abordagem pode ser utilizada para controlar as fechaduras nos bastidores (consulte Figura 5). As acções do relé de saída podem ser efectuadas manualmente ou podem Schneider Electric Data Center Science Center White Paper 103 Rev 0 6

ser configuradas como acções de alerta automático em resposta a um evento limite ou outros alarmes. No caso da equipa de limpeza, sabendo que vão limpar depois do expediente, o sistema poderia estar programado para trancar todos os bastidores após as 18 horas. Poderiam ser abertos manual ou remotamente por um indivíduo autorizado, mas ficariam trancados para qualquer outra pessoa até à manhã seguinte. Os sistemas de câmara fazem sentido especialmente se a sala de servidores estiver a suportar aplicações para transacções com cartão de crédito. A conformidade com a Indústria de Cartões de Pagamento (PCI) está a tornar-se uma questão importante. Algumas administrações do Estado estão a solicitar que as empresas notifiquem os seus clientes sempre que ocorrer uma violação de dados. Ao longo do tempo, a definição de que dados são considerados informação pessoal irá expandir-se para incluir números de cartões de crédito. Assim que as informações de cartões de crédito forem classificadas como informações pessoais, serão impostas medidas punitivas sobre as empresas com práticas de segurança negligentes/inexistentes. No futuro, podem ser concedidos incentivos financeiros directos às empresas com níveis de segurança evoluídos, que são reconhecidos como estando em conformidade com a PCI. A videovigilância é um dos requisitos necessários à conformidade com a PCI. Um sistema de gestão através de câmaras permite tipicamente a localização de pessoal, fornecedores, pessoal da segurança, gestores e outros visitantes das instalações que entrem na sala de servidores ou no armário de cablagem remoto. O sistema pode determinar quem esteve na sala e a que horas, e pode detectar se o visitante desligou algum equipamento existente ou ligou um novo equipamento. Um sistema de gestão através de câmaras poderia ser programado para gravar os dados ao detectar movimento. Por outro lado, um administrador pode querer ligar-se remotamente ao sistema, activar a câmara que está mais próxima do visitante e observar as suas acções. De facto, alguns destes sistemas podem ser equipados com altifalantes para que o administrador possa projectar a sua voz a partir do microfone do portátil e fornecer instruções ou transmitir avisos ao visitante (por exemplo, Independentemente do que fizer, não carregue nesse botão vermelho! ). Diagrama 5 A segurança do bastidor pode ser controlada remotamente para evitar acessos indesejados Schneider Electric Data Center Science Center White Paper 103 Rev 0 7

Tomadas inteligentes de bastidor Tomadas inteligentes de bastidor são barras de tomadas eléctricas longas e finas montadas na parte posterior de um bastidor, do lado de dentro (consulte Tabela 1). Também conhecidos como PDUs para montagem em bastidor, estes dispositivos podem ser geridos permitindo aos utilizadores reciclarem remotamente a energia para equipamento bloqueado. Isto minimiza o período de inactividade uma vez que reinicia rapidamente o equipamento e o tempo de deslocação às instalações remotas para reinicialização é evitado. Estes dispositivos permitem também aos utilizadores configurarem a sequência através da qual a alimentação é ligada ou desligada para cada tomada. Esta sequência permite aos utilizadores a pré-determinação de que equipamento é ligado primeiro para que o restante equipamento dependente dessa unidade funcione correctamente. Nas situações de arranque, a distribuição de energia inteligente no bastidor ajuda a evitar o aparecimento súbito de uma sobrecarga de energia inicial que pode dar origem a circuitos sobrecarregados e a perdas de carga adicionais. No caso dos circuitos sobrecarregados, o sistema de monitorização evita sobrecargas através da projecção de visualizações gráficas sobre a utilização média e máxima de energia eléctrica e da medição do consumo real através de PDUs com bastidor, com medidor (tomadas inteligentes de bastidor). Deste modo, o administrador dos sistemas tem noção da utilização da energia eléctrica de cada bastidor e pode tomar uma decisão inteligente sobre onde colocar o equipamento adicional que precisa de ser instalado. Software de monitorização e automatização Um sistema de gestão e automatização fornece ao administrador um grande conjunto de dados que irão permitir a redução dos períodos de inactividade relacionados com falha humana. Na lista abaixo encontram-se alguns exemplos de algumas das funcionalidades do sistema de gestão de monitorização e automatização disponíveis no mercado para salas de servidores e armários de cablagem remotos: Schneider Electric Data Center Science Center White Paper 103 Rev 0 8

Tabela 1 Resumo de soluções Componente da solução Monitorização e automatização Função Benefício Ilustrações exemplo Alarmes Estado do equipamento Comunicação de relatórios Configuração Controlo Os limites definidos pelo utilizador geram alarmes através de mensagens de texto, e-mails ou publicações do sistema quando condições como a temperatura e a humidade aumentam para além dos níveis aceitáveis Gera vários níveis de relatórios de dados históricos de modo a identificar antecipadamente tendências problemáticas Capacidade para configurar em massa características semelhantes do sistema (por exemplo, fechaduras de bastidores, limites de temperatura) em dispositivos semelhantes de uma só vez Capacidade para reiniciar equipamento bloqueado a partir de um portátil remoto Equipamento de videovigilância Observar a actividade humana Gravação de vídeo despoletada por movimento ou alerta Detecta e regista movimento, permitindo que um registo visual seja associado a um alerta de acesso ou ambiental, que acelera a análise da causa-raiz A gravação de erros ou de dados de detecção de violação da segurança previne ocorrências subsequentes Tomadas inteligentes de bastidor Arranque e paragem remotos dos servidores Medição do consumo de corrente Assegura que a integridade dos dados é mantida durante uma falha de energia prolongada Gere remotamente as tomadas para que os utilizadores possam desligar as tomadas que não estão a ser utilizadas (prevenindo sobrecargas) ou reciclem energia para equipamento bloqueado (minimizando períodos de inactividade dispendiosos e evitando o tempo de deslocação até ao equipamento) Permite aos utilizadores configurar a sequência através da qual a alimentação é ligada ou desligada para cada tomada isto ajuda a evitar ligações súbitas no arranque, que podem dar origem a circuitos sobrecarregados e perdas de carga Sensores Fechaduras das portas, fechaduras dos bastidores, detecção de líquidos, monitorização da temperatura, monitorização da qualidade do ar Detectam o acesso de pessoal não autorizado através do comutador da porta Detectam a presença de água ou humidade elevada Detectam fumo e partículas Monitorizam a temperatura em locais chave Schneider Electric Data Center Science Center White Paper 103 Rev 0 9

Alarmes e notificação Os alarmes configurados num sistema servem como despoletador. Se, por exemplo, um limite de temperatura estiver definido para 62 F (16 C) para a parte inferior de um bastidor e esse limite for excedido, gera um alarme. Esse alarme, por sua vez, envia alertas de várias formas definidas pelo utilizador. Um alerta pode surgir sob a forma de um e-mail, mensagem de texto, publicação num website ou toque num telefone. Estes alertas podem ser tão sofisticados como um e-mail para um Blackberry contendo um gráfico das últimas quatro horas de temperatura na sala de servidores. Ou o alerta pode ser tão simples como um e-mail que indica que uma porta de bastidor específica, que não deveria estar aberta, está aberta há mais de dois minutos. Estado do sistema Uma configuração básica do sistema de monitorização consiste em software e num servidor físico dedicado. O servidor actua como um repositório central que regista informações sobre todos os equipamentos configurados na sala de servidores. As informações de sensores e câmaras são reunidas e catalogadas, assim como todos os perfis e limites do sistema. O nível de monitorização pode ser bastante detalhado. Por exemplo, cada bastidor pode conter três sensores de temperatura, um para a parte inferior, um para o meio e um para o topo do bastidor, uma vez que estas temperaturas são frequentemente bastante diferentes umas das outras. Os alertas de estado são também úteis para monitorizar baterias. A falha de uma única bateria pode resultar na perda da carga crucial. Baterias avariadas devem ser substituídas o mais rapidamente possível, mas muitas vezes ninguém toma nota da duração das baterias UPS em instalações remotas. O custo de substituir uma ou duas baterias é mínimo comparado com a ocorrência de uma avaria que faça com que o armário ou o servidor vá abaixo. A monitorização básica pode evitar estas situações. O administrador pode assim identificar imediatamente que UPSs estão a suportar cargas ilegais e pode emitir uma ordem cessar e desistir antes de quaisquer sistemas POS comerciais irem abaixo. Análise de relatórios Os dados recolhidos por um sistema de monitorização podem ser convertidos em relatórios personalizados para o administrador de TI analisar. No passado, de modo a determinar as temperaturas em horas extraordinárias nas salas de servidores remotas, os administradores contavam com o pessoal de segurança ou outras pessoas externas para lerem e registarem manualmente as informações dos termómetros nas paredes. Actualmente, o administrador pode observar os dados históricos e aperceber-se que a temperatura tem oscilado em redor dos 10 F (12 C) à noite. Ao analisar os relatórios de 48 horas, os relatórios de 1 semana ou os relatórios de intervalos mais longos, o administrador consegue reconhecer o problema e expor o caso ao departamento das instalações respectivas para que o problema seja resolvido (se o sistema de conforto do edifício estiver a ser usado para arrefecer total ou parcialmente a sala de servidores). Os dados recolhidos pelo sistema de monitorização da sala de TI podem documentar que existe um problema e que pode ser sintomático de um problema maior. Do ponto de vista da segurança, os relatórios gerados por um sistema podem também ajudar o administrador de TI a determinar rapidamente quem esteve nesse bastidor em particular e durante quanto tempo. No caso das estações POS comerciais, por exemplo, um sistema de monitorização pode examinar as UPSs no terreno e produzir um relatório com indicação da quantidade de carga que está a ser utilizada em cada UPS. Se o administrador de TI considerar que todas as UPSs devem estar a 50% de carga, então, as que excedem esse limite são facilmente identificadas. O administrador pode assim identificar imediatamente que UPSs estão a suportar cargas ilegais e pode emitir uma ordem cessar e desistir antes de quaisquer sistemas POS comerciais irem abaixo. Configuração em massa Após a instalação inicial, todos os dispositivos associados ao sistema de monitorização e automatização central estão ligados e possuem perfil no sistema. Isto permite que o administrador configure ou inicie uma alteração em massa (uma alteração que afecte vários dispositivos) mais tarde. Considere o exemplo das fechaduras das portas nos bastidores da sala de servidores. Não tem de configurar individualmente cada fechadura da porta do bastidor. Apenas uma única configuração de segurança tem de ser efectuada Schneider Electric Data Center Science Center White Paper 103 Rev 0 10

para todas as 50 portas de bastidores (frontais e posteriores), se for essa a decisão do administrador. Controlo Os administradores sentem-se sob muito menos pressão ao terem acesso a dados detalhados do sistema de monitorização e automatização. Por exemplo, um sistema pode mapear o caminho da corrente e as relações e dependências do sistema físico. Quando ocorre um problema, isto ajuda a evitar o caos para descobrir qual a origem do problema. Alguns sistemas podem também recomendar a melhor localização para colocar novo equipamento com base na alimentação e portas de rede disponíveis. Isto evita o problema de ocorrência de corte de energia inesperado num bastidor em particular. Um sistema pode também ilustrar a consequência da avaria do dispositivo em equipamento baseado em bastidores para identificação instantânea de impactos cruciais da aplicação na empresa. Isto permite ao administrador formular um plano antecipadamente caso ocorra um problema, de modo a minimizar a ocorrência de um período de inactividade. Mais controlo sobre o ambiente, mais alertas e mais dados históricos podem ajudar a manter um ambiente com menos stress. Se já estiver a ser realizado um investimento em videovigilância e monitorização e automatização centralizadas, a adição do controlo da temperatura, controlo da humidade, dados de ponto de condensação e outros alarmes ambientais representa um custo adicional reduzido. A avaliação das tendências ambientais e a análise dos dados de videovigilância ajudam o administrador a acabar com os problemas logo de início, para que a falha humana seja mantida num nível mínimo. Outros relatos Os sistemas de alimentação e arrefecimento são particularmente vulneráveis a falha humana devido a uma falta de conhecimento relativamente a estes sistemas. Os incidentes abaixo descrevem alguns dos riscos envolvidos. Num incidente, a UPS sobreaqueceu porque havia uma pilha de pacotes de papel higiénico sobre a unidade, obstruindo a circulação do ar. Uma pequena sala de servidores para um projecto temporário foi configurada numa área do piso de cima de um edifício de escritórios. A equipa que configurou a sala certificou-se de que tudo o que foi instalado foi barato, mas de acordo com as especificações. Utilizou uma das suas unidades domésticas de ar condicionado para o arrefecimento, uma vez que tinha a classificação térmica correcta para coincidir com a dissipação de calor necessária para o equipamento existente na sala. Não demorou muito até que tivesse de ser realizada uma chamada de assistência devido a avaria no hardware. Foi enviado um engenheiro que descobriu que a temperatura na sala de informática rondava os 110 F (43 C). Infelizmente, a equipa de instalação tinha instalado a entrada de ar e a saída de ar do ar condicionado na mesma sala minúscula. Uma tomada auxiliar por utilizar é como um íman para qualquer pessoa que entre numa sala de servidores ou armário de cablagem. Muitas salas de servidores já foram abaixo devido a problemas com a ligação de equipamento não autorizado nas tomadas auxiliares. Aspiradores e berbequins são exemplos perfeitos do que NÃO deve ser ligado a uma tomada que recebe energia da UPS. Num dos casos, ocorreu um curtocircuito no berbequim que fez com que um disjuntor perdesse a ligação à terra, o que fez com que uma parte significativa da sala de servidores fosse abaixo. Um grande revendedor não tinha ninguém na loja que soubesse como a sala de servidores ou o armário de cablagem funcionavam. Os operadores de caixa foram trabalhar e descobriram que as caixas registadoras não funcionavam. A sede aconselhou-os a contornarem a UPS e a executarem os seus sistemas através da corrente da rua até que pudesse ser enviada uma bateria. Assim que a bateria chegou, teve de ser enviada uma pessoa qualificada para instalar a bateria. Perderam-se milhares de dólares em transacções nesse dia com potencial para muito mais se tivesse ocorrido um corte de energia. Schneider Electric Data Center Science Center White Paper 103 Rev 0 11

Outra operação de venda a retalho estava a ter problemas em manter o período de actividade nas estações de ponto de venda (POS). Isto tornou-se um grande problema, porque sempre que os sistemas iam abaixo, as balanças usadas para pesar as mercadorias a enviar tinham de ser recalibradas, o que prolongava significativamente o período de inactividade. Depois da investigação, o gestor de TI descobriu que os funcionários das instalações de retalho estavam a ligar ilegalmente dispositivos como aquecedores e ventoinhas às UPS que estavam a suportar o POS. Dado que os sistemas só foram concebidos para suportar cargas eléctricas normais das estações POS, as sobrecargas provocadas pelas cargas adicionais inesperadas estavam a fazer com que os sistemas fossem abaixo. Perdeu-se um bastidor de servidores porque um administrador de TI sobrecarregou acidentalmente uma ficha de alimentação já no máximo. É muito provável que, qualquer pessoa que tenha passado algum tempo a gerir salas de servidores remotas possa adicionar histórias de falha humana à lista apresentada neste documento. Felizmente, estão disponíveis algumas ferramentas de monitorização que podem ajudar a suavizar as preocupações dos operadores que se preocupam com períodos de inactividade imprevistos nestes ambientes remotos. Schneider Electric Data Center Science Center White Paper 103 Rev 0 12

Conclusão As salas de servidores e os armários pequenos e remotos são prolíficos e muitas vezes sujeitos a período de inactividade causado por falha humana. A gestão destes centros de dados mais pequenos é morosa e problemática. Muitas destas instalações são salas de TI sem ninguém e com supervisão mínima. Uma abordagem com quatro componentes composta por um sistema de software de monitorização e automatização, tecnologia de vídeo, tomadas inteligentes de bastidor e tecnologia de sensor pode reduzir bastante os incidentes de falha humana nestes pequenos ambientes. Estes sistemas colocam dados cruciais nas mãos de administradores com conhecimentos necessários que possam gerir e identificar os problemas remotamente antes de resultarem em período de inactividade. Sobre o autor Dennis Bouley is a Senior Research Analyst at Schneider Electric's Data Center Science Center. He holds bachelor s degrees in journalism and French from the University of Rhode Island and holds the Certificat Annuel from the Sorbonne in Paris, France. He has published multiple articles in global journals focused on data center IT and physical infra-structure environments and has authored several white papers for The Green Grid. Schneider Electric Data Center Science Center White Paper 103 Rev 0 13

Recursos Clique no ícon para visualizar a fonte Procurar todas as aplicações técnicas whitepapers.apc.com Procurar todas as aplicações TradeOff Tools tools.apc.com Contacte-nos Para feedback e comentários sobre o conteúdo desta aplicação técnica: Data Center Science Center DCSC@Schneider-Electric.com Se for um cliente e tiver dúvidas específicas do seu projecto de centro de dados: Contacte o representante da Schneider Electric www.apc.com/support/contact/index.cfm Schneider Electric Data Center Science Center White Paper 103 Rev 0 14