Desmistificando a desduplicação de dados para backup com o Dell DR4000



Documentos relacionados
GERENCIAMENTO CENTRALIZADO DELL POWERVAULT DL 2000 BASEADO EM TECNOLOGIA SYMANTEC

Multiplexador. Permitem que vários equipamentos compartilhem um único canal de comunicação

Roteamento e Comutação

Backup. Permitir a recuperação de sistemas de arquivo inteiros de uma só vez. Backup é somente uma cópia idêntica de todos os dados do computador?

Conceitos Básicos de Rede. Um manual para empresas com até 75 computadores

Como usar a nuvem para continuidade dos negócios e recuperação de desastres

DELL POWERVAULT SÉRIE MD ARMAZENAMENTO DE DADOS MODULAR ARMAZENAMENTO DE DADOS DELL POWERVAULT SÉRIE MD

Infraestrutura: devo usar a nuvem? Prof. Artur Clayton Jovanelli

Dados de exibição rápida. Versão R9. Português

Admistração de Redes de Computadores (ARC)

Proteção de ambientes Citrix XenServer com Arcserve

arcserve Unified Data Protection Resumo da solução de virtualização

Forneça a próxima onda de inovações empresariais com o Open Network Environment

29/06/ :30 Leite Júnior QUESTÕES CESPE BACKUP

Rivolta Cloud Backup

10 DICAS DE TECNOLOGIA PARA AUMENTAR SUA PRODUTIVIDADE NO TRABALHO

Como montar o quebra-cabeças do backup? Ricardo Costa e Bruno Lobo Backup, Recovery & Archiving Solutions

Clique. Microsoft. Simples.

O que é RAID? Tipos de RAID:

Backup.

Symantec NetBackup for VMware

Database Cloud Service Database Backup para Oracle Cloud

Cultura Inglesa São Paulo automatiza backup diário em 18 unidades com arcserve

Manual AGENDA DE BACKUP

XDOC. Solução otimizada para armazenamento e recuperação de documentos

SERVIÇO DE ANÁLISE DE REDES DE TELECOMUNICAÇÕES APLICABILIDADE PARA CALL-CENTERS VISÃO DA EMPRESA

Manual AGENDA DE BACKUP

Sou o professor Danilo Augusto, do TIParaConcursos.net, e lá costumo trabalhar temas relacionados a Redes de Computadores e Sistemas Operacionais.

Aumente sua velocidade e flexibilidade com a implantação da nuvem gerenciada de software da SAP

Servidores Virtuais. Um servidor à medida da sua empresa, sem investimento nem custos de manutenção.

Symantec Backup Exec 2012

MANUAL TÉCNICO ISPBACKUP

Guia de início rápido do Powersuite

Consolidação inteligente de servidores com o System Center

Dez fatos inteligentes que você deve saber sobre storage

PROPOSTA COMERCIAL CLOUD SERVER

FileMaker Pro 13. Utilização de uma Conexão de Área de Trabalho Remota com o FileMaker Pro 13

Symantec Backup Exec.cloud

Executando o Modo Windows XP com Windows Virtual PC

Gerenciamento de software como ativo de automação industrial

Gerencie a força de trabalho móvel, sem a complexidade e o custo de uma instalação on-premise

ADMINISTRAÇÃO DE ATIVOS DE TI GERENCIAMENTO DE LIBERAÇÃO

Hardware (Nível 0) Organização. Interface de Máquina (IM) Interface Interna de Microprogramação (IIMP)

FileMaker Pro 14. Utilização de uma Conexão de Área de Trabalho Remota com o FileMaker Pro 14

Gestão de Armazenamento

Unidade 7: Panes no Excel

Desduplicação na proteção de dados Definições e Aplicações. Marcelo Cariello e José Mota Consultor Técnico

Online Help StruxureWare Data Center Expert

Curso: Redes II (Heterogênea e Convergente) Tema da Aula: Características Roteamento

TRABALHO COM GRANDES MONTAGENS

Cláusula 1.º Objecto. Cláusula 2.º Especificação da prestação

Sistemas Operacionais Gerência de Dispositivos

FACULDADE PITÁGORAS DISCIPLINA: ARQUITETURA DE COMPUTADORES

BC Sistemas Operacionais Sistema de Arquivos (aula 10 Parte 2) Prof. Marcelo Z. do Nascimento

Análise de custo projetado da plataforma SAP HANA

BlackBerry Mobile Voice System

Computação em Nuvem. Alunos: Allan e Clayton

Resumo da solução de virtualização

IBM Managed Security Services for Agent Redeployment and Reactivation

Curso Tecnológico de Redes de Computadores 5º período Disciplina: Tecnologia WEB Professor: José Maurício S. Pinheiro V

Proteção de ambientes Microsoft Hyper-V 3.0 com Arcserve

Symantec Backup Exec 2014 V-Ray Edition

Tecnologia de armazenamento Intel (Intel RST) RAID 0, 1, 5, 10, Matrix RAID, RAID -Pronto

Administração de Sistemas GNU/Linux

Comparativo de desempenho do Pervasive PSQL v11

Documento técnico de negócios

WINDOWS SERVER 2003 BACKUP I

CONSULTORIA E SERVIÇOS DE INFORMÁTICA

Para a escolha de uma unidade para o backup de dados, deve-se levar em conta :

Leroy Merlin leva backup a toda sua rede de lojas com soluções CA ARCserve

Symantec NetBackup 7 O que há de novo e tabela de comparação de versões

Um servidor: a potência necessária para suas vendas. A tecnologia Intel ajuda sua empresa a crescer.

Programador/a de Informática

Soluções de Gerenciamento de Clientes e de Impressão Universal

Solitaire Interglobal

A consolidação de servidores traz uma séria de vantagens, como por exemplo:

Estratégia da VMware: O modelo corporativo definido por software e o desafio de simplificar a TI. Anderson Ferreira Bruno Amaral 22 Ago 2014

EAGLE TECNOLOGIA E DESIGN CRIAÇÃO DE SERVIDOR CLONE APCEF/RS

BlackBerry Mobile Voice System

Um artigo técnico da Oracle Fevereiro de Reduzindo os custos de armazenamento com a unidade de fita mais rápida do mundo

Resumo da solução SAP SAP Technology SAP Afaria. Gestão da mobilidade empresarial como vantagem competitiva

Detecção e investigação de ameaças avançadas. INFRAESTRUTURA

Otimização do Gerenciamento de Datacenters com o Microsoft System Center

Suporte de alto nível, equipe atualizada e a qualidade dos equipamentos HP.

Requisitos técnicos dos produtos Thema

Especificações da oferta Gerenciamento de dispositivos distribuídos: Gerenciamento de ativos

Qual servidor é o mais adequado para você?

Arcserve Backup: Como proteger ambientes NAS heterogêneos com NDMP

5 motivos pelos quais as empresas estão mudando suas WANs para Banda Larga

Escolha seu serviço Cloud O melhor do Cloud

Cisco UCS Mini: solução avançada com recursos corporativos

Manual Sistema MLBC. Manual do Sistema do Módulo Administrativo

Transcrição:

Desmistificando a desduplicação de dados para backup com o Dell DR4000 Este informe oficial técnico da Dell explica como a desduplicação de dados com o DR4000 pode ajudar a sua organização a economizar tempo, espaço e recursos financeiros. John Bassett Marketing de pequenas e médias empresas

Este documento serve apenas para fins informativos e pode conter erros tipográficos e imprecisões técnicas. O conteúdo é fornecido da forma em que se encontra, sem garantias expressas ou implícitas de qualquer tipo. 2012 Dell Inc. Todos os direitos reservados. A Dell e suas afiliadas não se responsabilizam por omissões nem por erros tipográficos ou fotográficos. Dell, o logotipo Dell e PowerEdge são marcas comerciais da Dell Inc. Intel e Xeon são marcas registradas da Intel Corporation nos EUA e em outros países. Microsoft, Windows e Windows Server são marcas comerciais ou marcas registradas da Microsoft Corporation nos Estados Unidos e/ou em outros países. Outras marcas e nomes comerciais podem ser usados neste documento para se referir a entidades que reivindicam as marcas e nomes, ou a seus produtos. A Dell isenta-se do interesse na propriedade de marcas e nomes de terceiros. Janeiro de 2012 Rev 1.0 ii

Conteúdo Resumo executivo... 4 Introdução... 4 O que é desduplicação de dados?... 5 Organização em blocos: um conceito essencial... 6 Metodologias de blocos para desduplicação de dados... 7 Janela fixa/bloco fixo... 7 Janela deslizante/bloco variável... 8 Desduplicação em sequência versus desduplicação pós-processo... 9 Desduplicação baseada em destino versos desduplicação baseada em origem... 10 Soluções de equipamentos de software versus hardware... 11 Cálculo das taxas de desduplicação... 13 Resumo/Por que escolher o Dell DR4000 para desduplicação de backup?... 15 Tabelas Tabela 1. Como as taxas de desduplicação podem melhorar com o tempo.... 14 Figuras Figura 1. Desduplicação reduz o volume de dados armazenados.... 6 Figura 2. A desduplicação usa os blocos para classificar os dados armazenados.... 7 Figura 3. Como o método janela fixa/bloco fixo agrupa os dados em blocos.... 8 Figura 4. Como o método janela deslizante/bloco variável agrupa os dados em blocos... 8 Figura 5. As quatro abordagens à desduplicação de dados.... 10 Figura 6. Como os silos de dados usam mais storage.... 12 Figura 7. A desduplicação de software exige mais hardware.... 12 Figura 8. O Dell DR4000 reduz a necessidade de vários servidores de backup.... 13 iii

Resumo executivo Neste documento, examinaremos a nova tecnologia de desduplicação de dados. A desduplicação pode gerar grandes economias, o que torna o backup de disco para disco mais viável. No entanto, nem todas estas tecnologias são iguais. Mostraremos diferentes abordagens da desduplicação, assim como seus custos e benefícios. Neste contexto, apresentaremos a tecnologia Ocarina Deduplication da Dell e demonstraremos porque é a melhor escolha para lidar com a desduplicação de dados. Introdução De acordo com a Gartner, o crescimento de dados apresenta o maior desafio para a infraestrutura de hardware de um data center. 1 Conforme os dados continuam crescendo a uma taxa de 50% ao ano, 2 as organizações de TI lutam para encontrar uma solução de backup para acompanhar o crescimento de seus ambientes de armazenamento. Além do volume total de dados, existem outras pressões na infraestrutura de armazenamento. O acesso aos dados atuais é fundamental para a administração de qualquer empresa. Uma interrupção na disponibilidade dos dados pode prejudicar a continuidade dos negócios. Qualquer boa análise de impacto nos negócios precisa considerar a rapidez com que o acesso aos dados deve ser restaurado (o objetivo de tempo de recuperação ou RTO) e a data em que os dados foram criados (o objetivo de ponto de recuperação ou RPO). O backup em fita não é mais uma solução eficiente para todos os cenários de proteção de dados. Muitas organizações estão recorrendo às soluções de backup baseadas em disco para auxiliar na ampliação ou, em alguns casos, substituir suas soluções de backup existentes. No entanto, esse método de backup apresenta seu próprio desafio. A necessidade por uma maior retenção de dados gera um apetite enorme e dispendioso de armazenamento. A desduplicação de dados é tão importante porque praticamente 75% de todos os dados armazenados em uma organização comum são cópias. 3 O envio de um anexo de e-mail para vários destinatários cria uma cópia dessa anexo para cada destinatário. A clonagem de máquinas virtuais cria várias cópias de imagens idênticas de sistemas operacionais. Muitos outros processos fundamentais criam cópias idênticas de dados. É por isso que a tecnologia de desduplicação pode ser tão importante: em resumo, ela elimina as cópias. Por motivos óbvios, a gravação de uma cópia única no disco, em vez de 100, pode economizar muito espaço. A desduplicação dos dados faz com que pareça que o usuário ou aplicativo tem sua própria cópia. Isso é essencial, já que faz com que as economias de espaço sejam totalmente transparentes. Todos os processos existentes continuam funcionando sem modificações, mas usam consideravelmente menos espaço no armazenamento. A remoção de dados redundantes oferece muitos benefícios. Por exemplo, com a desduplicação, o backup de dados de locais remotos exige bem menos dados para serem transmitidos em uma WAN. Desduplicando os dados, reduz-se os requisitos de largura de banda e as organizações obtêm flexibilidade para projetar seus planos de backup e recuperação. Isso possibilita maior automação e replicação mais frequente, o backup de dados de escritórios remotos para um local central se torna 1 Análise de pesquisa do usuário: principais tendências que moldam o futuro da infraestrutura do data center em 2011 Gartner. 2 A década do universo digital Você está pronto? IDC. 3 Ibid. 4

mais eficiente e as operações de recuperação de dados se tornam mais confiáveis e exigem menos supervisão do que antes. Assim como na virtualização, a desduplicação tem potencial para ser uma tecnologia transformadora no data center. Antes da virtualização, a configuração de um sistema com uma finalidade especial era dispendiosa e exigia muito trabalho. A adição de memória a processadores para um servidor costumava exigir acesso físico à caixa, mas agora exige apenas alguns cliques do mouse. Em muitos casos, os usuários podem reconfigurar suas MVs sem nem precisar envolver a TI. Como a desduplicação reduz significativamente o armazenamento necessário para backup, ela pode reduzir os custos de hardware de forma considerável. Os benefícios da desduplicação não param nos custos de hardware. Esta teconologia também pode significar backups e recuperação de desastres mais frequentes e direcionados que sejam projetados para necessidades específicas da organização, sem restrição da infraestrutura de data center. Da mesma maneira que a virtualização recebe mais trabalho do mesmo hardware, a desduplicação faz com que você obtenha uma recuperação melhor do mesmo armazenamento. O que é desduplicação de dados? A desduplicação reduz o volume de dados armazenados com a remoção de cópias redundantes. Ela substitui os dados originais por um indicador, agora armazenado uma vez, que fica em seu lugar. Este é um conceito conhecido, já que a URL é um tipo de indicador; quando alguém compartilha um vídeo no YouTube, eles enviam a URL do vídeo em vez do próprio vídeo. Há apenas uma cópia do vídeo, mas ele está disponível para todos. A desduplicação usa este princípio de uma forma mais sofisticada e automatizada. Os dados são desduplicados da forma como são gravados, e a redução de espaço é muito maior do que no exemplo acima. A desduplicação pode ser aplicada a dados em armazenamentos principais, armazenamentos de backup, armazenamentos de cloud computing ou dados em movimento para replicação, como transferências de LAN e WAN. A desduplicação tem o potencial para diminuir os requisitos de capacidade em disco e largura de banda em até 98%. 5

Figure 1. Desduplicação reduz o volume de dados armazenados. Ao considerar soluções de desduplicação, uma variável importante a ser pensada é o efeito na taxa de incorporação (a taxa em que o servidor pode aceitar e armazenar dados sem perder o ritmo). Qualquer processo adicionado ao pipeline de armazenamento tem potencial para diminuir a taxa de incorporação e, com isso, reduzir a performance do servidor. Organização em blocos: um conceito essencial A desduplicação simples funciona em blocos de tamanho fixo. Métodos mais avançados de desduplicação funcionam organizando dados em blocos. Um bloco tem limitações de tamanho. Ele pode ter 4 KB, 32 KB, ou qualquer outro tamanho adequado para os dados em questão. O uso da palavra bloco é parecido com a psicologia; as pessoas aprendem a processar informações de forma mais eficiente agrupando-as em blocos maiores. O Dell DR4000 usa algoritmos sofisticados com correspondência a padrões para verificar a próxima seção do fluxo de dados. Esse processo determina o tamanho ideal do bloco para os dados de entrada e atribui um valor único ao bloco, chamado de identidade. O Dell DR4000 usa técnicas padrão do setor para garantir que uma determinada identidade seja atribuída a um conjunto único e exclusivo de bits. Em seguida, o Dell DR4000 verifica a identidade em seu dicionário. Se ela corresponder aos dados existentes no dicionário, o Dell DR4000 cria um indicador e adiciona um à contagem de referências. Se a identidade não corresponder aos dados existentes no dicionário, eles são armazenados e a identidade é adicionada a ele. Depois de processar o bloco, o Dell DR4000 continua processando o fluxo de dados. 6

Figure 2. A desduplicação usa os blocos para classificar os dados armazenados. Metodologias de blocos para desduplicação de dados A maioria dos mecanismos de desduplicação funciona dividindo os dados em blocos. No entanto, as maneiras com que produtos diferentes dividem os dados variam bastante. Como em quase tudo na vida, há compensações. Métodos mais avançados podem obter taxas de redução muito melhores, mas também podem exigir mais CPU, disco ou recursos de memória. Existem dois métodos essenciais de existência dos blocos: janela fixa/bloco fixo e janela deslizante/bloco variável. Cada método tem suas vantagens e desvantagens. Janela fixa/bloco fixo 7

O método mais simples da organização em blocos é janela fixa/bloco fixo. Neste método, o tamanho do bloco é sempre o mesmo. Embora dispositivos diferentes possam usar tamanhos de bloco diferentes, o tamanho do bloco de um determinado dispositivo que use este método permanece constante. O dispositivo sempre calcula uma identidade em um bloco físico para descobrir se há compatibilidade. Após o processamento de um bloco, a janela aumenta na proporção do tamanho de um bloco e o processo se repete. Embora esse método exija um mínimo de sobrecarga de CPU, já que não considera alternações nos dados, ele é menos eficaz do que métodos mais avançados. Figure 3. Como o método janela fixa/bloco fixo agrupa os dados em blocos. Janela deslizante/bloco variável O método de bloco variável oferece todas as vantagens do método de bloco fixo, devido à sua capacidade de aumentar o tamanho de bloco permitido no processo de desduplicação para encontrar seções muito maiores do que um bloco. Como explicado na seção Organização em blocos: um conceito essencial, o Dell DR4000 determina automaticamente o tamanho ideal do bloco. O Dell DR4000 usa informações semânticas e a estrutura do conteúdo no fluxo de backup para descobrir os limites naturais dos dados. Isso faz com que o Dell DR4000 compense por alternações nos dados e ainda descubra os blocos ideais de forma repetitiva. Esse método obtém reduções melhores do que os outros dois, mas exige maior sobrecarga de CPU. Figure 4. Como o método janela deslizante/bloco variável agrupa os dados em blocos. A Dell desenvolveu o DR4000 para utilizar o método janela deslizante/bloco variável porque ele oferece as melhores taxas de desduplicação. Considere uma apresentação do PowerPoint que seja um pouco alterada entre os backup, por exemplo, com a adição de um slide. Isso alterna os dados no fluxo de backup e pode prejudicar os métodos de bloco fixo. No entanto, como explicado acima, o Dell DR 4000 pode usar o conteúdo e a estrutura dos dados para descobrir limites naturais e, dessa maneira, obter a melhor desduplicação pelos backups. 8

Como o DR4000 é um equipamento de hardware, pode oferecer estas reduções sem carregar os recursos de CPU dos servidores no data center. A Dell otimizou especificamente o hardware subjacente no DR4000 para este método de agrupamento de blocos e o desenvolveu para taxas máximas de entrada de dados. Desduplicação em sequência versus desduplicação pós-processo Por definição, a desduplicação exige o processamento de dados para determinar e reduzir suas cópias. Os dados podem ser processados em três pontos: antes de serem gravados em disco (desduplicação em sequência), depois de serem gravados em disco (desduplicação pós-processo) ou ambos antes e depois de serem gravados em disco. É importante que você compreenda as vantagens e desvantagens desses pontos, já que o método escolhido afeta a velocidade de entrada e a área de ocupação do data center. A desduplicação em sequência processa os dados antes que eles sejam gravados em disco. Isso significa que apenas os dados excluídos serão gravados no disco, o que oferece uma performance mais previsível e facilita o dimensionamento adequado de uma solução. No entanto, o processamento em sequência comanda a velocidade de entrada. Devido às demandas do processamento de dados em tempo real, manter a performance em níveis aceitáveis pode exigir muito da capacidade de computação. A desduplicação pós-processo analisa os dados depois que eles são gravados em disco. Depois que os dados são gravados, o processo de desduplicação é iniciado e retoma o espaço em disco. Como os dados não precisam ser processados em tempo real, as demandas de computação não são tão pesadas. No entanto, o pós-processo apresenta as seguintes desvantagens: Requisitos de maior espaço: ocorre um período intermediário em que você precisa de armazenamento disponível suficiente para conter os dados originais e os dados desduplicados. No mínimo, isso leva a cálculos de dimensionamento mais complicados, mais requisitos de armazenamento e mais configuração. Na pior das hipóteses, é possível ficar sem espaço com o uso desse método, principalmente se o processo de desduplicação do backup anterior não tiver sido concluído. Requisitos de maior largura de banda: para executar o pós-processo nos dados, primeiro você precisa gravar os dados desduplicados e lê-los novamente para desduplicar e, em seguida, gravá-los e armazená-los mais uma vez. Isso aumenta consideravelmente os requisitos de E/S do backup. Requisitos de mais tempo: como o backup é formado por dois processos sequenciais diferentes, a quantidade de tempo necessária para o backup aumenta. Isso pode limitar as oportunidades de execução de backup sem influenciar a eficiência operacional. Um terceiro método é desduplicar a sequência de dados e, em seguida, aplicar a etapa de pósprocesso. Isso permite um dimensionamento previsível e até maiores economias de espaço. Com a desduplicação em sequência, a replicação pode ser executada durante a entrada de dados, o que economiza bastante tempo no método de pós-processo de duas fases. Também tem a vantagem de oferecer restaurações mais rápidas do backup mais recente. O Dell DR4000 ainda fez mais otimizações e pode realmente desduplicar e compactar dados como parte do mesmo processo sequencial. Isso oferece os benefícios da compactação sem exigir que o espaço seja dedicado à preparação de dados não compactados. 9

Figure 5. As quatro abordagens à desduplicação de dados. Desduplicação baseada em destino versos desduplicação baseada em origem Agora que você decidiu como desduplicar os dados da sua organização, o próximo ponto é onde fazer isso. Você pode desduplicar na origem, antes que eles entrem na rede, ou quando eles chegam ao armazenamento de destino. A seleção do método correto para a sua organização é essencial para o êxito da implantação. A desduplicação baseada no destino exige que o servidor de backup e/ou equipamento de desduplicação no destino lide com todo o processo. Isso significa que não há sobrecarga no cliente nem no servidor que estiver passando pelo backup. Esta solução é transparente para os fluxos de trabalho existentes, portanto, gera interrupções mínimas. No entanto, ela exige mais recursos de rede porque os dados originais, com toda sua redundância, precisam entrar na rede. As soluções baseadas em destino podem ser fornecidas por software ou um equipamento de hardware dedicado, como o Dell DR4000. A desduplicação baseada na origem processa os dados antes que eles entrem na rede. Isso reduz o volume de dados que precisa ser transmitido, o que pode ser importante em ambientes com largura de banda restrita. Esse método normalmente é usado em situações em que escritórios remotos precisam fazer o backup de dados para o data center principal. Nesse caso, a desduplicação se torna responsabilidade do servidor do cliente. A Dell acredita que a replicação com o uso de soluções de desduplicação baseada no destino tanto na instalação principal quanto no escritório remoto é a melhor opção, que oferece a maior flexibilidade, a performance mais previsível e o RTO mais curto. Implantando sistemas nos dois locais, os dados de backup são desduplicados no dispositivo de backup de destino no escritório remoto. Após a conclusão do backup remoto, os dados desduplicados podem ser replicados para o data center principal. Com essa arquitetura, você pode restaurar todos os dados de forma local tanto no datacenter principal quanto no escritório remoto, diminuindo significativamente o RTO (objetivo de tempo de recuperação) para situações de recuperação do escritório, já que os dados ficam disponíveis localmente. 10

Soluções de equipamentos de software versus hardware A desduplicação pode ser implementada em hardware ou software. Como este processo exige mais dos recursos de CPU, RAM e armazenamento, ela pode afetar significativamente a performance de entrada. É importante compreender as compensações e tomar uma decisão consciente. Alguns fornecedores integraram a funcionalidade de desduplicação em suas ofertas de software de backup. A vantagem óbvia nesse cenário é a obtenção da desduplicação dos dados com pouquíssimo esforço, já que ela já está integrada ao software de backup. No entanto, isso tem seu custo; estes custos podem ser diretos ou na forma de mais requisitos de hardware. Os custos diretos da desduplicação de software se apresentam na forma de licenças e taxas. Os ISVs de software oferecem capacidade de desduplicação em vários modelos de preços diferentes. Por exemplo, alguns cobram uma taxa fixa única para licenciar a capacidade como um suplemento. Já outros oferecem um modelo baseado em uso em que o custo tem base no número de terabytes de dados desduplicados. Alguns fornecem a funcionalidade gratuitamente. Um data center existente provavelmente não mudará seu software de backup com base unicamente na desduplicação, mas saber como o ISV cobra este processo é um dos fatores de custo a ser considerado. Quanto aos requisitos de hardware adicionais, é importante lembrar que no modelo de solução de software, a desduplicação é responsabilidade do servidor de mídia/backup. Isso significa que o servidor não apenas precisa executar as funções tradicionais do software de backup, como também terá o trabalho adicional de desduplicar dados. Para reduzir a sobrecarga no servidor de backup, os algoritmos de desduplicação do ISV normalmente usam um algoritmo básico de janela fixa/bloco fixo. Embora isso não reduza as demandas no servidor, também não produz a melhor compactação, como observado acima. Portanto, os dados desduplicados resultantes podem ser maiores do que seriam com uma solução mais sofisticada. Até mesmo quando a desduplicação de software usa algoritmos mais simples, a concentração da sobrecarga em um único servidor limita a performance de entrada. Quando a performance de entrada fica muito restrita, vários servidores de mídia precisam ser implantados para fornecer a performance necessária para manter as janelas de backup. Como cada servidor de mídia tem seu próprio armazenamento dedicado, isso aumenta a proliferação de hardware. A execução de várias cópias do aplicativo de desduplicação pode levar a silos deste processo. Nessa situação, cada fluxo de desduplicação é excluído, mas as duplicações nos silos não são consideradas. Isso piora ainda mais o processo dos algoritmos de janela fixa/bloco fixo. Com várias instâncias de produtos de desduplicação, impactos de 20% a 50%, ou mais, podem ser esperados. 4 Como explicado acima, o Dell DR4000 aproveita isso adicionando a compactação sequencial para obter economias de armazenamento ainda maiores. 4 Maximização da eficiência de dados: benefícios do grupo de produtos de armazenamento avançados da desduplicação global 11

Figure 6. Como os silos de dados usam mais armazenamento. Já uma solução de hardware como o DR4000 é dedicada a apenas um trabalho: a desduplicação de dados. Ela descarrega o processo de desduplicação com uso intenso de CPU, reduzindo os requisitos do servidor de backup, até o ponto em que pode não exigir mais um servidor dedicado e possa ser virtualizada. A centralização da desduplicação para o DR4000 elimina hardwares desnecessários. Você não precisa mais de servidores de mídia extra, ou de mais pools de armazenamento que eles exigiriam. Além das economias de hardware, uma solução de desduplicação baseada em hardware como o DR4000 gera taxas de desduplicação maiores do que os pools de armazenamento individual porque mais dados são comparados no mesmo dicionário. Figure 7. A desduplicação de software exige mais hardware. 12

Figure 8. O Dell DR4000 reduz a necessidade de vários servidores de backup. O Dell DR4000 é um equipamento de desduplicação baseado no destino desenvolvido especificamente para lidar com as cargas de trabalho de backup de transmissão. A Dell testa e certifica a performance de entrada com validação de terceiros. É claro que a performance superior não será boa se os dados não estiverem protegidos. O DR4000 inclui um número de recursos de software e hardware desenvolvidos para proteger a integridade dos dados. Por exemplo, o DR4000 utiliza RAID 6 como base da proteção de hardware. O RAID 6 é melhor do que RAID 5 porque usa dois blocos de paridade com distribuição no nível de bloco em todos os discos de membros. Ele também usa NVRAM para proteger os dados em caso de perda de energia. Estes recursos de proteção de dados fazem deste o equipamento avançado adequado para proteção de dados empresariais. Cálculo das taxas de desduplicação Na arena de backup em disco, as taxas de desduplicação são debatidas calorosamente e muito controvérsias. A taxa de desduplicação é a análise da eficiência deste processo. Ela é calculada dividindo a quantidade de armazenamento lógico cumulativo pelo armazenamento físico cumulativo. Por exemplo, se o processo de desduplicação permitir que 400 GB de dados sejam armazenados em 200 GB de armazenamento físico, a taxa de desduplicação é 2x. Se o processo armazenar 400 GB de dados em 100 GB de armazenamento físico, a taxa é 4x. Parece que cada novo fornecedor de hardware de desduplicação diz oferecer taxas mais altas do que o anterior. Na verdade, como muitas variáveis determinam a taxa de desduplicação de um determinado conjunto de dados, não há garantia de que os data centers apresentarão as mesmas taxas. Ao comparar reivindicações de fornecedores, é importante compreender o que elas significam. A Dell estima uma taxa de 15x, que indica uma redução de aproximadamente 93%. A Dell escolheu uma média de 15x com 13

base em um período de retenção de 12 semanas. A maioria dos fornecedores reivindicam uma redução entre 10x e 30x, o que representa 90 a 97%. As variáveis que influenciam a taxa de desduplicação de uma determinada carga de trabalho incluem: O algoritmo do tipo de desduplicação. Como mostrado acima, os algoritmos de janela deslizante/bloco variável normalmente fornecem melhores taxas do que os algoritmos de janela fixa/bloco fixo. Os tipos de dados que passarão por backup. Nem todos os conjuntos de dados têm a mesma quantidade de dados duplicados ou capacidade de compactação. A frequência dos backups. Backups mais frequentes criarão o dicionário de desduplicação mais rapidamente. O período de retenção para trabalhos de backup. Retenção mais longa gera taxas mais altas. Considere o efeito do backup de dados ao longo do tempo. No primeiro backup completo, a taxa de desduplicação é limitada à quantidade de redundância nesse único backup. Na maioria das vezes, uma pouca compatibilidade será encontrada no conjunto de dados, e as taxas de 2x a 4x de desduplicação são típicas. Conforme os trabalhos de backup adicionais são executados, a desduplicação é baseada no conjunto de dados em questão e um dicionário é criado sobre todos os trabalhos de backup anteriores. Portanto, quanto mais backups completos forem armazenados, maior será a taxa de desduplicação. A maioria das organizações retêm dados de backup em disco por 30 a 90 dias. Quando um dispositivo de desduplicação é usado com esse tipo de política de retenção, uma taxa de de 15x é típica. As organizações que retêm dados por mais tempo deveriam ter taxas mais altas do que organizações que armazenam dados apenas por um curto período. Se você continuasse armazenando os dados de backup por um ano, encontraria taxas de desduplicação muito mais altas. Table 1. Como as taxas de desduplicação podem melhorar com o tempo. Tempo Primeira completa Dados de backup Armazenamento lógico cumulativo Redução estimada 1 5 TB 5 TB 2x 2,5 TB Semana 1 5,2 TB 10,2 TB 4x 2,7 TB Semana 2 5,4 TB 15,6 TB 6x 2,9 TB Semana 3 5,4 TB 21 TB 7x 3,1 TB Mês 1 5,4 TB 26,4 TB 8x 3,3 TB Mês 2 22,6 TB 49 TB 12x 4,1 TB Armazenamento físico cumulativo 14

Mês 3 24 TB 73 TB 15x 4,8 TB Mês 4 25 TB 98 TB 18x 5,4 TB Mês 5 26 TB 124 TB 21x 5,9 TB Mês 6 27 TB 151 TB 23x 6,5 TB TOTAL 151 TB 23x 6,5 TB 1 A economia varia com base nos dados. Resumo/Por que escolher o Dell DR4000 para desduplicação de backup? Neste documento, explicamos a desduplicação de dados e como ela tem o potencial de revolucionar o data center. Discutimos os conceitos básicos, como organização em blocos, assim como as diferentes estratégias para implementá-la. Também falamos sobre os impactos das diferentes estratégias de desduplicação nas economias de armazenamento e taxa de entrada, e as estratégias que a Dell escolheu implementar ao desenvolver o equipamento DR4000. Utilizando a desduplicação sequencial baseada no destino com o método de organização em blocos de janela deslizante/bloco variável, o Dell DR4000 é a melhor solução para suas necessidades de desduplicar dados. 15