HP Service Health Analyzer: Decodificando o DNA dos problemas de desempenho de TI



Documentos relacionados
ISO/IEC 12207: Gerência de Configuração

Gerenciador de Mudanças automatizadas

Introdução a listas - Windows SharePoint Services - Microsoft Office Online

Curso: Redes II (Heterogênea e Convergente) Tema da Aula: Características Roteamento

Aumente sua velocidade e flexibilidade com a implantação da nuvem gerenciada de software da SAP

Forneça a próxima onda de inovações empresariais com o Open Network Environment

PRIMAVERA RISK ANALYSIS

QUALIDADE DE SOFTWARE. Ian Sommerville 2006 Engenharia de Software, 8ª. edição. Capítulo 27 Slide 1

Fábrica de Software 29/04/2015

Gerenciador de portas de Switch (es)

Gerenciamento de Problemas

1 Inicie um novo. Guia de Referência Rápida de Gerenciamento de Projeto para o Project projeto

CONCURSO PÚBLICO ANALISTA DE SISTEMA ÊNFASE GOVERNANÇA DE TI ANALISTA DE GESTÃO RESPOSTAS ESPERADAS PRELIMINARES

Soluções de Gerenciamento de Clientes e de Impressão Universal

CA Mainframe Chorus for Storage Management Versão 2.0

SE Incident Gestão de Incidentes e Não Conformidades Visão Geral Incidentes de TI Não conformidade da Qualidade

OCOMON PRIMEIROS PASSOS

Pós-Graduação em Gerenciamento de Projetos práticas do PMI

CPD Informática otimiza gestão de serviços de TI com soluções CA Technologies

Roteiro para a escrita do documento de Especificação de Requisitos de Software (ERS)

CONCORRÊNCIA AA Nº 05/2009 BNDES ANEXO X PROJETO BÁSICO: DESCRIÇÃO DOS PROCESSOS DE TI

As principais características da abordagem de um banco de dados versus a abordagem de processamento de arquivos são as seguintes:

CA Nimsoft Monitor Snap

ARCO - Associação Recreativa dos Correios. Sistema para Gerenciamento de Associações Recreativas Plano de Desenvolvimento de Software Versão <1.

Gerencie a força de trabalho móvel, sem a complexidade e o custo de uma instalação on-premise

Referências internas são os artefatos usados para ajudar na elaboração do PT tais como:

Glossário Apresenta a definição dos termos, siglas e abreviações utilizadas no contexto do projeto Citsmart.

Comparativo de desempenho do Pervasive PSQL v11

UTILIZAÇÃO DA COMPETÊNCIA DE TI ATRAVÉS DE UM ABRANGENTE PLANEJAMENTO DE CAPACIDADE E MODELAGEM DE CARGAS DE TRABALHO

CHECK - LIST - ISO 9001:2000

IBM Software Demos Tivoli Business Service Management

Gerenciamento de Projetos Modulo II Ciclo de Vida e Organização do Projeto

invgate Service Desk

RESUMO DA SOLUÇÃO Aperfeiçoando o planejamento de capacidade com o uso do gerenciamento de desempenho de aplicativos

Profa. Gislaine Stachissini. Unidade III GOVERNANÇA DE TI

Metodologias de Desenvolvimento de Sistemas. Analise de Sistemas I UNIPAC Rodrigo Videschi

Dashboards dinâmicos para executivos

gerenciando o desempenho de serviços em uma empresa conectada na nuvem CA Business Service Insight Julho de 2011

Service Desk. IT Management Software. Certified Partner

3 SCS: Sistema de Componentes de Software

Semântica para Sharepoint. Busca semântica utilizando ontologias

A partir do XMon é possível:

Gerenciamento de Incidentes - ITIL. Prof. Rafael Marciano

Projeto de Sistemas I

Suporte Técnico de Software HP

Transformando os processos e a cultura de TI para assegurar a qualidade do serviço e aprimorar a eficiência operacional de TI

MONITORAMENTO DO AMBIENTE TECNOLÓGICO FoccoMONITOR

Capítulo 2. Processos de Software Pearson Prentice Hall. Todos os direitos reservados. slide 1

Soluções baseadas no SAP Business One BX MRO BX MRO. Brochura. Gestão de Manutenção, Reparo e Revisão de Equipamentos

Tecnologia em Gestão Pública Desenvolvimento de Projetos - Aula 9 Prof. Rafael Roesler

ITIL v3 - Operação de Serviço - Parte 1

CONSULTORIA E SERVIÇOS DE INFORMÁTICA

Guia de início rápido do Powersuite

Gerenciamento de Incidentes

CA Mainframe Chorus for DB2 Database Management Version 2.0

RESPOSTA AO QUESTIONAMENTO FORMULADO POR EMPRESA INTERESSADA NO CERTAME.

10 DICAS DE TECNOLOGIA PARA AUMENTAR SUA PRODUTIVIDADE NO TRABALHO

Engenharia de Software e Gerência de Projetos Prof. Esp. André Luís Belini Bacharel em Sistemas de Informações MBA em Gestão Estratégica de Negócios

Solitaire Interglobal

SAM GERENCIAMENTO DE ATIVOS DE SOFTWARE

CA Clarity PPM. Visão geral. Benefícios. agility made possible

Introdução ao Tableau Server 7.0

PMONow! Serviço de Implantação de um Escritório de Projetos

ADM041 / EPR806 Sistemas de Informação

Conteúdo. Disciplina: INF Engenharia de Software. Monalessa Perini Barcellos. Centro Tecnológico. Universidade Federal do Espírito Santo

FANESE Faculdade de Administração e Negócios de Sergipe

CA Network Automation

Bem-vindo ao tópico sobre administração de listas de preços.

Gerenciamento de Níveis de Serviço

agility made possible

Histórico da Revisão. Versão Descrição Autor. 1.0 Versão Inicial

Ferramentas unificadas de SOA alinham negócios e TI IDG Research aponta grandes ganhos potenciais a partir de uma solução integrada

Engenharia de Software III

VERIFIQUE SE SEUS SITES ESTÃO PRONTOS PARA O BLACK FRIDAY 11 MANEIRAS DE ACABAR COM OS PROBLEMAS DE DESEMPENHO

ADMINISTRAÇÃO DE ATIVOS DE TI GERENCIAMENTO DE LIBERAÇÃO

Especificação técnica de Videodetecção ECD/DAI

Planejamento - 7. Planejamento do Gerenciamento do Risco Identificação dos riscos. Mauricio Lyra, PMP

Identificação rápida de gargalos Uma forma mais eficiente de realizar testes de carga. Um artigo técnico da Oracle Junho de 2009

SUMÁRIO 1. AULA 6 ENDEREÇAMENTO IP:... 2

Manual de criação de envios no BTG360

Universidade Federal de Goiás UFG Campus Catalão CAC Departamento de Engenharia de Produção. Sistemas ERP. PCP 3 - Professor Muris Lage Junior

Tabela de Símbolos. Análise Semântica A Tabela de Símbolos. Principais Operações. Estrutura da Tabela de Símbolos. Declarações 11/6/2008

ArpPrintServer. Sistema de Gerenciamento de Impressão By Netsource Rev: 02

Engenharia de Software

Gerenciamento de Serviços de TI ITIL v2 Módulo 1 Conceitos básicos

Manual Operacional SIGA

Gerência de Redes. Introdução.

INSTITUTO FEDERAL DO ESPÍRITO SANTO TECNOLOGIA EM REDES DE COMPUTADORES

SME de São Paulo melhora serviços às escolas com soluções da CA Technologies

ERP. Enterprise Resource Planning. Planejamento de recursos empresariais

Fundamentos de Teste de Software

Gerenciamento de Riscos do Projeto Eventos Adversos

Gestão da Qualidade Políticas. Elementos chaves da Qualidade 19/04/2009

Transcrição:

HP Service Health Analyzer: Decodificando o DNA dos problemas de desempenho de TI Boletim técnico Índice Introdução... 2 Abordagem exclusiva da HP HP SHA orientado pelo HP Run-time Service Model... 2 HP SHA análises de previsão de tempo de execução... 5 Recursos de produtos... 6 Comece com configuração zero e manutenção zero... 7 Retorno do investimento... 12 Conclusão... 12

Introdução Ter a certeza de que você tem visibilidade completa quanto à integridade dos seus serviços de negócios, de que você pode se adaptar e até mesmo sobreviver no ambiente de TI virtualizado e de nuvem atual não é apenas desejável. É obrigatório. Gerenciar uma infraestrutura dinâmica e aplicativos exigirá mais do que somente reagir a problemas de serviços de negócios quando eles ocorrerem ou atualizar manualmente os limites estáticos que são difíceis de definir com precisão e problemáticos de serem mantidos. No mundo de hoje, é preciso ter notificação avançada de problemas, para que você possa resolvê-losantes que os negócios sejam afetados. É preciso ter uma visibilidade melhor de como os seus aplicativos e serviços comerciais estão correlacionados à sua infraestrutura dinâmica, para que você possa acompanhar as anomalias em toda a cadeia de TI, incluindo rede, servidores, middleware, aplicativos e processos de negócios. É preciso ter uma forma mais fácil de determinar os limites aceitáveis como a base para identificar eventos que possam afetar os negócios. Você precisa de automação para aproveitar o conhecimento de eventos passados que possam ser aplicados para se administrar eventos novos de modo mais eficiente e possam também ser usados para eliminar eventos estranhos, permitindo que a TI enfoque apenas aqueles que afetam os negócios. Embora as organizações de TI tenham os métodos para coletar grandes quantidades de dados, o que faz falta é o conjunto de ferramentas analíticas e a inteligência automatizada para correlacionar essas métricas dispersas a partir da perspectiva de aplicativo e de topologia, para ajudar essas organizações a anteciparem ou preverem problemas potenciais no horizonte. Os gerentes de TI estão em busca do mundo das análises de previsão, uma das grandes tendências de inteligência de negócios, para ajudá-los a aumentar o tempo de operação e o desempenho dos serviços, aumentando assim a receita gerada pelos negócios e diminuindo os custos de manutenção e suporte. HP Service Health Analyzer (SHA) é uma ferramenta de análises de previsão criada com base em um modelo de serviço dinâmico em tempo real para que você possa entender o relacionamento das anormalidades de métrica com o aplicativo e sua infraestrutura subjacente. Abordagem exclusiva da HP HP SHA orientado pelo HP Run-time Service Model Os sistemas de monitoramento fornecem medições e eventos de todas as camadas da cadeia de TI hardware, sistema operacional de rede, middleware, aplicativo, serviços de negócios e processos. Os bancos de dados de gerenciamento de configuração (CMDBs) fornecem o modelo que vincula todos os diferentes componentes. Mas, dada a natureza em constante mudança dos sistemas de TI, os CMDBs precisam ser atualizados constantemente, como no caso do HP Run-time Service Model (RtSM). A combinação dos monitoramentos e do CMDB em tempo real fornece todos os dados necessários para vencer os desafios descritos acima. Entretanto, todos os dados precisam ser transformados para que sejam fornecidas informações de ação. HP SHA usa algoritmos avançados que combinam várias disciplinas, topologia, análises de dados, teoria gráfica e estatísticas no mecanismo de detecção de anomalia de tempo de execução (RAD). A solução da HP para o modelo de serviços desatualizado é RtSM. O RtSM é sincronizado com o HP UCMDB para aproveitar a modelagem de serviço no Universal Configuration Management Database (UCMDB) externo. O RtSM utiliza os coletores de dados do portfólio HP Business Service Management (Business Service Management) que estão monitorando o desempenho, a disponibilidade, as falhas e a topologia para compartilhar a topologia "em tempo real" de forma que o RtSM tenha os dados mais atuais da topologia e dos relacionamentos. O RtSM é a base principal para o SHA. Para obter mais informações sobre como o RtSM funciona com o UCMDB, consulte o Guia de práticas recomendadas RtSM 2

Figura 1. Modelo de solução A Figura 1 descreve os componentes do SHA definidos como obrigatórios para que se tenha uma solução precisa que identifique os problemas de desempenho de TI. Nós agora descrevemos os componentes e seus requisitos. Redefinição da linha de base é o primeiro componente, que utiliza todas as métricas coletadas pelos sistemas de monitoramento e aprende seu comportamento normal. Os desvios do comportamento normal com base nas métricas servem como a primeira etapa para detectar, prever e identificar os problemas de desempenho. Contudo, o aprendizado preciso do comportamento normal das métricas é uma tarefa desafiadora. Fatores como comportamento sazonal, tendências e desafios devido a um sistema de TI em constante evolução requerem que o algoritmo de aprendizado que estima a linha de base esteja por dentro desses fatores e se adapte a eles. A Figura 2 mostra a distribuição do período de mais de 17.000 métricas de desempenho coletadas a partir de um sistema de TI real. Elas são uma combinação de monitoramentos de sistema, aplicativo e usuários. Como é possível ver, mais de dois terços das métricas mostram algum comportamento sazonal e elas representam vários períodos, não apenas a sazonalidade diária ou semanal típica. Um algoritmo de linha de base deve primeiro estimar que o período seja preciso por exemplo, se uma métrica tiver um comportamento sazonal de cinco horas, e um algoritmo de linha de base ignorar o período ou usar um período predeterminado incorreto (por exemplo, 24 horas), será produzida uma linha de base insuficiente. A linha de base será muito sensível, produzindo muitos desvios falsos do normal, que são na verdade normais, ou será muito indistinta e não detectará desvios do comportamento normal quando eles existirem. 3

Figura 2. Distribuição de comportamento sazonal de mais de 17.000 métricas coletadas de um ambiente de TI Da mesma forma, estimar tendências e se adaptar a mudanças é importante para estimar uma boa linha de base. Embora o entendimento do comportamento normal de métricas individuais seja importante, ele não é suficiente para detectar e prever problemas reais. Por definição, alguns dos desvios da linha de base não estarão relacionados a nenhum problema (uma pequena fração); em um ambiente de TI amplo com milhões de métricas, mesmo essa pequena fração poderá levar a muitos alertas falsos, se tratadas individualmente como um problema. Além disso, os problemas normalmente não se manifestam em uma única métrica no ambiente. Análise temporal: É uma das abordagens mais usadas para combinar métricas em uma única anomalia. Métodos de análises temporais incluem correlações métrica-para-métrica, em que as métricas são agrupadas com base na similaridade de suas medições de séries de tempo ou análise/previsão temporal multivariada que combina várias métricas por meio de um modelo matemático multivariado geralmente linear, como modelos de regressão multivariada, neurais e bayesianos. Esses métodos são poderosos, mas têm suas limitações. Primeiro, eles são mal dimensionados com o número de métricas. Segundo, dada sua natureza estatística, eles poderão encontrar correlações enganosas caso recebam um número muito grande de métricas que não tenham relacionamento real entre elas; a probabilidade de encontrar essas correlações incorretas aumenta com o número de métricas. Análise de topologia: O que ajuda os métodos temporais a superar suas limitações é o contexto relacionado ao domínio. Em particular, em ambientes de TI, o conjunto de métricas sendo analisado deve estar limitado a um conjunto lógico de métricas relacionadas. Se as CPUs de dois servidores completamente não-relacionados ficarem altas ao mesmo tempo, elas não deverão ser consideradas correlacionadas, mesmo se estatisticamente elas aparentarem estar. Esse contexto é fornecido na topologia de sistemas de TI, por meio de CMDBs. O CMDB é essencialmente um gráfico, que modela os relacionamentos entre todos os componentes que compõem os sistemas de TI as camadas físicas, de middleware, de software, de aplicativo, de serviços de negócios e de processos. Por esse motivo, a análise de topologia, na forma de algoritmos de gráficos avançados, é necessária para a extração das informações contextuais no CMDB e para ajudar a detectar problemas reais e correlações entre métricas, enquanto filtra ruídos. 4

Por isso, a detecção de um problema real requer a detecção de padrões de desvios do estado normal de várias métricas que envolvem tempo e são filtradas por topologia. Isso leva a métodos de aprendizado estatísticos que analisam dados temporais e topológicos. Análise do histórico: Além da detecção e da previsão de um problema, a topologia permite criar o escopo do problema e separar a causa principal dos sintomas; ambas são importantes para rapidamente resolver os problemas. Com um problema detectado e analisado, seu padrão de DNA é finalmente decodificado e pode ser armazenado em uma base de conhecimento. Para utilizar a base de conhecimento, os algoritmos que realizam a análise do histórico são necessários. Eles incluem algoritmos para fazer a correspondência e a comparação de diferentes padrões de DNA de problema, agrupá-los e classificar as técnicas. Com o uso da base de conhecimento e dos algoritmos, os problemas passados podem ser usados para rápida e automaticamente ajudar a encontrar a causa principal e as soluções para novos problemas. Mecanismo de RAD: Ele é definido por esse conjunto completo de algoritmos. Os algoritmos no mecanismo de RAD são responsáveis por 10 aplicativos de patentes separados. A saída do mecanismo de RAD é um indicador-chave de desempenho (KPI) crítico no painel HP BSM e envia um evento ao subsistema de evento BSM, HP Operations Manager i (OMi). O evento de SHA possui um conjunto de informações contextuais coletadas pelo mecanismo de RAD, incluindo as suspeitas principais, as informações de local, de impacto nos negócios, uma lista de itens de configuração (CIs) envolvidos na anomalia e quaisquer informações de anomalias similares. Essas informações ajudarão os clientes a isolar e resolver o evento rapidamente, antes que os negócios sintam o impacto. HP SHA análises de previsão de tempo de execução No SHA, desenvolvemos algoritmos de aprendizado estatísticos junto com algoritmos de gráfico, para analisar o espectro completo de dados coletados por sistemas BSM: Dados de monitoramento (sintéticos e do usuário reais) Eventos Mudanças Topologia do RtSM Esses algoritmos detectam anomalias precisamente, decodificam sua estrutura de DNA, seu impacto nos negócios e fazem a sua correspondência com anomalias decodificadas anteriormente, coletadas na base de dados de conhecimento de DNA de anomalias. O SHA pode ser descrito nas seguintes etapas: Aprendizado de comportamento métrico O aprendizado do comportamento normal, também conhecido como redefinição da linha de base, das métricas coletadas de todos os níveis do serviço (sistema, middleware, aplicativo e outros) é uma primeira etapa necessária. Ele elimina a necessidade definir os limites estáticos e permite a detecção antecipada de desvios do estado normal. Os principais pontos fortes de nossos algoritmos são: Aprendizado automático do comportamento sazonal das métricas e sua tendência Adaptação às mudanças de comportamento com o tempo uma obrigação em ambientes virtualizados Ausência de configuração não é necessário nenhum esforço administrativo para definir ou manter limites Tecnologia de DNA de anomalias detecção À medida que um problema holístico evolui em um serviço de TI, várias métricas e componentes relacionados a esse serviço começam a enfrentar desvios a partir do comportamento normal. Entretanto, há desvios momentâneos constantes a partir do estado normal causados por vários componentes que não representam nenhum problema significativo. Selecionar os problemas significativos e descobrir o DNA de problemas reais é o desafio de qualquer sistema de detecção de anomalia. Nosso algoritmo de detecção de DNA de anomalias faz isso usando um algoritmo estatístico exclusivo, que combina três tipos de informações necessárias para se conseguir a detecção precisa: Topologia: links lógicos entre monitoramentos e os componentes que eles monitoram Informações temporais: a duração e a correlação temporal dos monitoramentos que estão em um estado anormal Informações de confiança estatísticas: a probabilidade de o monitoramento estar realmente em um estado anormal, conforme detectado pela linha de base com o tempo 5

Os principais pontos fortes de nosso algoritmo de detecção de anomalias são: Redução de excessos: Fornece um método automático às métricas de grupo que violaram sua linha de base, usando as informações temporais e topológicas. Isso, por sua vez, reduz o número de eventos de violações de linha de base que um operador precisará observar, sem precisar definir nenhuma regra. Redução de evento: Os algoritmos de SHA combinam várias métricas anormais em um único evento, reduzindo o número total de eventos apresentados ao operador. O ponto de entrada desse tipo de evento é composto por várias métricas que violam seus limites dinâmicos. Em seguida, SHA correlaciona essas métricas de acordo com o tempo e a topologia para gerar um único evento, permitindo que o operador enfoque o problema real. Redução de alarmes falsos: Reduz o número de alertas falsos ao computar o significado de uma anomalia no sistema usando um algoritmo estatístico. Além disso, as anomalias conhecidas que foram marcadas como ruído no passado serão usadas para correspondência com as anomalias atuais e supressão do evento de anomalia. Tecnologia de DNA de anomalias decodificação A próxima etapa após a detecção da anomalia e sua estrutura é a decodificação de seu DNA. A decodificação do DNA de anomalias é feita pela sua análise e classificação com base na topologia (CIs e sua estrutura topológica), nas métricas e nas informações adicionais. Em particular, a decodificação realiza: Separação de suspeitas, fornecendo assim informações de ação. Identificação de impacto, usando informações relacionadas aos negócios: volume do usuário, acordos de nível de serviço (SLAs) e regiões geográficas afetadas, permitindo a priorização da anomalia de acordo com o impacto Identificação de alterações relacionadas que podem ter sido afetadas pelo comportamento do sistema Tecnologia de DNA de anomalias correspondência Com a estrutura do DNA de anomalias decodificada, a correspondência da anomalia atual com as anomalias passadas é feita. A correspondência é feita com um algoritmo de similaridade de gráfico exclusivo, que compara estruturas de anomalias, permitindo a correspondência entre anomalias que foram detectadas em serviços diferentes com uma arquitetura similar. As vantagens de nossa correspondência são: Reutilização de soluções descobertas de eventos passados. Correlação com anomalias de problemas conhecidos que ainda precisam ser resolvidos, reduzindo a necessidade de reinvestigação Redução de alarmes falsos quando a anomalia similar passada foi classificada como estruturas de DNA com ruídos, por exemplo, uma anomalia causada por ações de manutenção normais no serviço Base de conhecimento de DNA de anomalias À medida que a base de conhecimento de anomalias passadas e suas resoluções são coletadas, o uso de métodos de mineração de dados avançados analisa e gera o relacionamento entre todas as anomalias, criando um mapa de toda a base de conhecimento de DNA de anomalias. Nosso algoritmo de correspondência de DNA de anomalias define o espaço de métrica necessário para métodos de mineração de dados, como armazenamento em cluster e classificação. Eles são aplicados para proporcionar os seguintes benefícios: Solução de problemas proativa identificação de problemas recorrentes por meio de classificação de DNA de anomalias para tipos de problema e resolução, reduzindo o tempo para diagnosticar e resolver esses tipos de ocorrências no futuro Aproveitamento do conhecimento adquirido com vários serviços que mostram comportamento similar Recursos de produtos Criado com base em HP RtSM, HP SHA analisa as normas e tendências históricas tanto dos aplicativos quanto da infraestrutura e compara os dados com métricas de desempenho em tempo real. Aproveitar um modelo de serviço de tempo de execução existente é crucial para o seu ambiente dinâmico, para que você possa: Correlacionar anomalias com alterações de topologia e problemas passados Compreender o impacto nos negócios de cada problema e priorizar a resolução Identificar as suspeitas do problema e usar esse conhecimento para impedir problemas similares no futuro 6

O SHA automaticamente aprende os limites dinâmicos no seu ambiente, para que você não precise investir em mão-deobra para definir e manter os limites estáticos. O SHA funciona em métricas das seguintes fontes de dados de BSM: HP Business Process Monitor HP Diagnostics HP Network Node Manager i HP Operations Manager, Performance Agent HP Real User Monitor HP SiteScope O SHA identifica anomalias com base no comportamento métrico anormal relacionado ao RtSM, define um KPI e gera um evento com contexto para ajudar a identificar a prioridade de negócios desse problema. Além disso, o SHA usa a tecnologia de DNA de anomalias, para analisar as características estruturais de uma anomalia e comparar com o DNA conhecido de outras anomalias. As correspondências oferecem ações de resolução conhecidas sem mais investigações, e as correspondências que você marcar como ruído são suprimidas. Se houver anomalias relacionadas a um serviço específico, você poderá ver os contratos de nível de serviço e saber o impacto que a anomalia poderá causar. Por fim, o SHA incorpora recursos de resolução da solução HP Closed Loop Incident Process (CLIP) e fornece orquestração direta com HP Operations Orchestration. Por exemplo, você pode fundir análise e automação juntas para resolver problemas rapidamente. Quando SHA envia um evento para OMi, um operador pode executar a ação antes de o serviço ser afetado pelo processo CLIP. Essa solução de resolução rápida simplifica as complexidades dos ambientes de virtualização e computação em nuvem. Comece com configuração zero e manutenção zero Após instalar o produto, selecione os aplicativos que deseja monitorar, e o SHA começa a coletar os dados e a aprender os comportamentos do sistema. O SHA coleta dados do aplicativo, da infraestrutura, do banco de dados, da rede e do middleware, bem como informações de topologia do RtSM, e aprende a linha de base. A linha de base define o comportamento normal de uma métrica individual com o tempo, incluindo as características sazonais. Por exemplo, o comportamento normal de uma métrica pode incluir uma segunda-feira de manhã muito movimentada e uma sexta-feira de tarde bem tranquila. 7

Figura 3. Exemplo de uma representação de linha de base dinâmica em faixa cinza com dados de métrica reais em roxo. Após o estabelecimento das linhas de base dinâmicas para todas as métricas do aplicativo, o mecanismo SHA RAD começa a procurar anomalias no comportamento do aplicativo. O ponto de entrada do mecanismo RAD é uma violação de linha de base indicando que uma métrica está mostrando comportamento anormal. Para definir uma anomalia, o mecanismo RAD utiliza as informações da métrica anormal coletadas de todas as métricas monitoradas e as cruza com as informações de topologia do RtSM para determinar se há várias violações, de métricas diferentes, afetando o mesmo serviço. Se uma anomalia for detectada, um evento será gerado e enviado ao subsistema de evento. Além disso, quando uma anomalia é detectada, o SHA captura automaticamente a topologia atual dos CIs envolvidos no evento. O valor disso é compreender a topologia do jeito como ela estava no momento da anomalia, o que é uma informação particularmente valiosa ao se examinar as anomalias que ocorreram durante a noite ou quando não havia pessoal de TI disponível para cuidar dos problemas. O SHA também coleta e apresenta as mudanças descobertas para os CIs relevantes, de forma que as informações possam ser usadas como parte da análise da causa principal. Essa correlação significa solução de problemas mais rápida e tempo médio de reparo (MTTR) reduzido. Quando o SHA descobrir uma anomalia no comportamento do aplicativo, ele mudará o status do KPI de integridade de previsão e disparará um evento, que será enviado ao navegador de eventos de BSM. A partir desse ponto, você pode começar a análise, isolar o problema e entender seu impacto nos negócios. O SHA fornece uma página com destaques de anomalia que contém tudo o que você precisa saber sobre o problema e seu impacto nos negócios, bem como recursos de isolamento avançados caso precise analisá-lo e investigá-lo posteriormente. 8

Figura 4. Uma página de destaques de anomalia No topo da Figura 4 Uma página de destaques de anomalia, você poderá encontrar a lista de suspeitas. As suspeitas são CIs (aplicativos, transações, elementos de infraestrutura) que foram encontradas pelo SHA como a causa possível da anomalia. As suspeitas podem ser CIs cujas métricas violaram a linha de base, os padrões de anomalia que foram anteriormente identificados pelo usuário como anormais e CIs que não foram aprovados nas verificações com a ferramenta de verificação fornecida pelo usuário. A página de destaques também apresenta o impacto da anomalia nos negócios, apresentando quais acordos de nível de serviço foram violados devido à anomalia, os serviços e os aplicativos afetados e um detalhamento dos locais impactados. 9

O SHA também executa relatórios relevantes para analisar e ter uma visão melhor do problema. A seção de anomalias similares é gerada com o uso da tecnologia de DNA de anomalias e oferece mais confiança sobre a ocorrência do problema mostrando uma lista de padrões similares e informações adicionais sobre como eles são tratados. O SHA fornece uma ferramenta de investigação e isolamento de problemas para analisar a anomalia e isolar uma possível causa principal do problema com o Subject Matter Expert User Interface (SME UI). A ferramenta de investigação permite viajar no tempo na anomalia e ter uma visão detalhada do número de eventos que causam o problema à medida que ele se reflete na topologia do aplicativo. A figura abaixo mostra um exemplo de uma anomalia e seu número de eventos com o tempo. Figura 5. SME UI mostrando topologia de anomalia A parte inferior da tela mostra os eventos no sistema da forma como eles ocorreram e foram capturados pelo SHA com o tempo antes da anomalia e durante a ocorrência dela. Às 06h15, o SHA registrou uma alteração descoberta no sistema. Às 06h30, o SHA disparou uma anomalia. Isso significa que ele detectou algumas métricas anormais que violaram sua linha de base antes de SiteScope e OM, que estavam monitorando o sistema que descobriu a anormalidade. Neste ponto do tempo, o SHA já disparou um evento que foi enviado ao pessoal de operações. Entre 08h e 08h20, SiteScope e OM dispararam eventos sobre alto uso da CPU. O motivo de SiteScope e OM terem descoberto o problema depois de SHA é que seus limites foram definidos mais altos do que a linha de base dinâmica de SHA para reduzir os ruídos e os alertas da falso positivo. Às 8h30, o primeiro usuário real enfrentou o problema de desempenho e abriu um incidente. Como é possível ver, o SHA descobriu o problema e alertou sobre ele com duas horas de antecedência e antes de qualquer usuário reclamar, ao mesmo tempo em que avisou antecipadamente o pessoal de operações para que o problema fosse tratado e resolvido. O SHA oferece uma ferramenta poderosa para correlacionar e descobrir qual das métricas pode ser a causa principal possível do problema no sistema. 10

Na figura abaixo, você pode ver a exibição de métrica do SHA que faz parte do SME UI. Figura 6. SME UI na exibição de métrica A exibição de métrica permite visualizar as métricas do seu aplicativo à medida que elas são capturadas durante o período da anomalia no "envelope" de sua linha de base. Ela permite também descobrir qual das métricas foi a causa principal do problema, correlacionando-a às outras métricas relacionadas ao mesmo serviço que usa algoritmos estatísticos sofisticados. Neste exemplo, o usuário decidiu correlacionar a métrica Real User Monitor (RUM) a todas as outras. O motivo de seleção dessa métrica é que ela representa melhor o tempo de resposta real que os usuários reais estão tendo ao usar o aplicativo. As métricas restantes são de componentes de infraestrutura e middleware, e a exibição de métrica fornece um mecanismo de apontar e clicar para apresentar uma correlação entre elas para o tempo de resposta ruim. A métrica que obteve o valor de correlação mais alto (81%) foi Sitescope_paging File Usage, que indica que a causa principal mais provável é alocação de memória insuficiente. 11

Retorno do investimento O SHA calcula o retorno do investimento (ROI) usando as informações coletadas do ambiente de implantação. A seção de gerenciamento de métrica observa o ROI a partir da redução do trabalho administrativo de definir e manter limites com os limites dinâmicos memorizados automaticamente que o SHA fornece. A seção de eventos e anomalia observa o ROI de uma perspectiva de redução de eventos, comparando o fluxo de evento OMi com os eventos de anomalia gerados a partir do SHA. São reunidas as informações sobre eficiência geral. Figura 7. Exibição do ROI do SHA Conclusão O SHA é uma solução de análises de previsão de tempo de execução de próxima geração que pode antecipar os problemas de TI antes que eles ocorram, analisando o comportamento anormal do serviço e alertando os gerentes de TI sobre a degradação real do serviço antes que esse problema afete os negócios. O SHA proporciona estreita integração com as soluções HP BSM para resolução de eventos para reduzir o MTTR. Além disso, o SHA é simples de usar, requer configurações e definições mínimas e tem uma curva de aprendizado pequena. Com o SHA, você não precisa mais manter os limites de monitoramento, visto que ele constantemente aprende o comportamento de seus aplicativos e os ajusta. Ele reduz o MTTR do seu aplicativo à medida que há menos eventos no sistema, cada um deles representa um problema real, e o foco é a causa principal. E por ser equipado com o HP RtSM dinâmico, o SHA pode ajudar as operações de TI a identificar os problemas potenciais na topologia e nos serviços e resolvê-los antes que o problema afete os usuários finais. 12

HP SHA é a nova era das análises em TI. Para obter mais informações, acesse www.hp.com/go/sha. Copyright 2011 Hewlett-Packard Development Company, L.P. As informações contidas neste documento estão sujeitas a alterações sem aviso. As únicas garantias para produtos e serviços da HP são as estabelecidas nas declarações de garantia expressa que acompanham tais produtos e serviços. Nenhuma parte deste documento deve ser interpretada como garantia adicional. A HP não será responsável por erros ou omissões técnicas ou editoriais contidos neste documento. 4AA3-8672PTL, criado em dezembro de 2011