Recuperação de desastre (RD), ou Recuperação de Sistemas (português de Portugal), do inglês disaster recovery (DR), envolve um conjunto de políticas e procedimentos para permitir a recuperação ou continuação da infraestrutura de tecnologia e sistemas vitais na sequência de um desastre natural ou provocado pelo homem.[1] A recuperação de desastre foca na TI ou sistemas de tecnologia que suportam funções de negócio,[2] em oposição à continuidade do negócio, que envolve manter todos os aspectos essenciais de um negócio em funcionamento apesar de eventos disruptivos significantes. A recuperação de desastre é, portanto, um subconjunto da continuidade do negócio.[3]
O plano de recuperação de desastres é composto, por cenários e procedimentos, que deverão ser aplicados sempre que ocorrer uma falha devido a alguma inconsistência provocada em virtude de ameaças como incêndios, inundações, vandalismo, sabotagem ou falhas de tecnologia.
É conhecido como DRP - disaster recovery plan[4], os planos normalmente são desenvolvidos pelos gestores de ativos, muitas vezes por exigências de regulamentações internacionais como a lei Sarbanes-Oxley, Bacen 3380, ISO 27000, ou devido a exigências de acionistas ou do próprio negócio.
Geralmente é composto de três fases
- Programa de Administração de Crise
- Plano desenvolvido em conjunto, com definição de atividade, pessoas, dados lógicos e físicos
- Plano de Continuidade Operacional
- Possui diretivas do que fazer em cada operação em caso de desastres
- Plano de Recuperação de Desastres
- É a aplicação na prática do plano de continuidade operacional
Estratégias
Antes de selecionar uma estratégia de recuperação de desastres, um planejador de recuperação de desastre primeiro refere-se ao plano de continuidade de negócios da sua organização, que deverá indicar as principais métricas de objetivo de ponto de recuperação (RPO) e objetivo de tempo de recuperação (RTO) para vários processos de negócios (como o processo de execução de folha de pagamento, geração de uma ordem, etc.). As métricas especificadas para os processos de negócios são então mapeadas para os sistemas de TI subjacentes e infraestrutura que suportam esses processos.[5]
RTOs e RPOs incompletos podem rapidamente desviar-se de um plano de recuperação de desastres. Cada item no plano de RD requer um ponto de recuperação definido e um objetivo de tempo, uma vez que a incapacidade de criá-los pode levar a problemas significativos que podem estender o impacto do desastre.[6] Uma vez que as métricas de RTO e RPO foram mapeadas para infraestrutura de TI, o planejador da RD pode determinar a estratégia de recuperação mais adequado para cada sistema. A organização, em última análise define o orçamento de TI e, portanto, as métricas de RTO e RPO precisam se encaixar com o orçamento disponível. Enquanto a maioria dos chefes das unidades de negócios gostaria de zero perda de dados e perda de tempo zero, o custo associado a esse nível de proteção pode fazer as soluções de alta disponibilidade desejadas impraticável. Uma análise custo-benefício muitas vezes dita que sejam implementadas medidas de recuperação de desastres.
Algumas das estratégias mais comuns para a proteção de dados incluem:
- backups feitos em fita e enviados off-site em intervalos regulares
- backups feitos para o disco on-site e automaticamente copiados para o disco off-site, ou feito diretamente no disco off-site
- replicação de dados para um local off-site, o que supera a necessidade de restaurar os dados (apenas os sistemas em seguida, precisam ser restaurados ou sincronizados), muitas vezes fazendo uso de tecnologia de rede de área de armazenamento (SAN)
- soluções de Nuvem Privada que replicam os dados de gestão (VMs, modelos e discos) para os domínios de armazenamento, que são parte da configuração de nuvem privada. Estes dados de gerenciamento são configurados como uma representação XML chamada OVF (Open Virtualization Format), e podem ser restaurados a partir da base de dados em caso de ocorrência de um desastre.
Por exemplo, recuperação de desastres com oVirt.[7]
- soluções de Nuvens Híbridas que replicam tanto on-site e off-site dos centros de dados. Estas soluções fornecem a capacidade de fail-over instantaneamente para hardware on-site local, mas no caso de um desastre físico, os servidores podem ser criados em centros de dados de nuvem também. Exemplos incluem Quorom,[8] rCloud da Persistent Systems[9] ou EverSafe.[10][11]
- a utilização de sistemas de alta disponibilidade que mantêm ambos os dados e sistema replicados off-site, permitindo o acesso contínuo a sistemas e dados, mesmo depois de um desastre (muitas vezes associado com armazenamento em nuvem)[12]
Em muitos casos, uma organização pode optar por usar um provedor de recuperação de desastres terceirizado para fornecer um site e sistemas de stand-by em vez de utilizar as suas próprias instalações remotas, cada vez mais através de computação em nuvem.
Além de preparar-se para a necessidade de recuperar os sistemas, as organizações também implementam medidas cautelares com o objetivo de prevenir um desastre, em primeiro lugar. Estas podem incluir:
- espelhos locais de sistemas e/ou dados e uso de tecnologia de proteção de disco como RAID
- protetores contra surtos - para minimizar o efeito de picos de energia em equipamentos eletrônicos sensíveis
- uso de uma fonte de alimentação ininterrupta (UPS) e/ou gerador de backup para manter os sistemas funcionando em caso de uma falha de energia
- sistemas de prevenção/mitigação de incêndio, tais como alarmes e extintores de incêndio
- software antivírus e outras medidas de segurança
Referências