数据中心灾难恢复检查清单(下)

日期: 2011-07-04 作者:Paul Kirvan翻译:Michael Zhang 来源:TechTarget中国 英文

数据中心检查清单:响应概要    在遇到数据中心宕机的初始阶段,我们可以参考如下的清单来判断我们需要做什么。具体需要根据发生的事情的情况来决定选择哪些步骤以及其顺序是怎样的。比如说,掉电故障应对的步骤和火灾应对的步骤就不太相同。在制定灾备计划的时候,请考虑到如下的方面。

    场景 1: 电源故障 步骤 采取措施 备注 1 了解电源故障的程度,查看是否有备用电力系统 拨打相关人员手机,检查电力供应,在检查的时候使用可充电的手电筒照明 2 检查确保是否需要人员疏散 尽快与核心IT管理人员协商以判断 3 评估电源故障对公司的潜在损害;确……

我们一直都在努力坚持原创.......请不要一声不吭,就悄悄拿走。

我原创,你原创,我们的内容世界才会更加精彩!

【所有原创内容版权均属TechTarget,欢迎大家转发分享。但未经授权,严禁任何媒体(平面媒体、网络媒体、自媒体等)以及微信公众号复制、转载、摘编或以其他方式进行使用。】

微信公众号

TechTarget微信公众号二维码

TechTarget

官方微博

TechTarget中国官方微博二维码

TechTarget中国

电子邮件地址不会被公开。 必填项已用*标注

敬请读者发表评论,本站保留删除与本文无关和不雅评论的权力。

数据中心检查清单:响应概要

    在遇到数据中心宕机的初始阶段,我们可以参考如下的清单来判断我们需要做什么。具体需要根据发生的事情的情况来决定选择哪些步骤以及其顺序是怎样的。比如说,掉电故障应对的步骤和火灾应对的步骤就不太相同。在制定灾备计划的时候,请考虑到如下的方面。

    场景 1: 电源故障

步骤

采取措施

备注

1

了解电源故障的程度,查看是否有备用电力系统

拨打相关人员手机,检查电力供应,在检查的时候使用可充电的手电筒照明

2

检查确保是否需要人员疏散

尽快与核心IT管理人员协商以判断

3

评估电源故障对公司的潜在损害;确保核心数据有备份并得到了妥善的管理

尽快与核心IT管理人员协商以判断

4

联系高层管理人员

告知高层管理人员最新情况

5

联系公用事业公司

如果电话不能使用的话就使用手机联系,并安排紧急抢修

6

判定电源故障的原因,并采取补救措施

配合公用事业公司、电力技师以及相关人员的工作

7

预估何时数据中心能重新恢复运行

与核心IT管理人员、公用事业公司及相关人员协商

8

再次联系高层管理人员并及时告知最新进展

告知响应及补救措施并汇报掉电后的进展情况

    场景2:服务器故障

步骤

采取措施

备注

1

了解服务器故障程度,数据丢失情况以及其他的潜在风险

拨打相关负责人的手机并坚持出故障的服务器

2

开展补救措施,比如检查电源供给,尝试服务器重启,运行诊断程序

根据需要联系相应的设备提供商

3

评估服务器宕机对公司的影响,确保核心应用和运行在该服务器上的数据都有备份并得到了妥善的保管

尽快与核心IT管理人员协商以判断

4

判断服务器宕机的原因,并采取补救措施

配合相关负责人和厂商的工作

5

预估何时服务器能恢复正常运行

与核心IT技术人员及厂商协商以判定

6

联系高层管理人员并及时告知最新进展

告知响应及补救措施并汇报服务器宕机后的进展情况

    场景3:数据中心火灾

步骤

采取措施

备注

1

评估火情以及相关损失程度

拨打相关负责人员的手机

2

使用现有灭火措施比如洒水装置以及手提式灭火器

如果火势难以控制,需要尽快封锁相关区域以免人员伤亡

3

拨打119并告知相关情况

 

4

疏散建筑物里的人员

尽快与核心IT人员在指定集合地汇合

5

如果有可能激活数据备份方案以保护当前数据

如果远程站点的存储设备可用,马上使用它们

6

一旦火情结束,开始预估火情

与IT负责人、建筑物负责人以及设施管理负责人协商判定

7

联系高层管理人员并及时告知最新进展

告知响应及补救措施并汇报火灾后的进展情况

    大规模灾难的响应清单

如上所描述的响应顺序多半是应对典型的数据中心灾难。不同的企业组织遇到不同情况的时候需要采取的响应步骤也不尽相同。因此在采取响应措施的时候需要灵活处理,根据遇到问题的特点和严重程度来修改响应步骤。

在应对较大规模数据中心灾难的时候可以参考如下的数据中心清单。在做这些步骤之前,需要根据具体的问题参看之前建议的步骤,并确保这些步骤也在灾备计划中。

响应清单:建筑物损毁

步骤

采取措施

备注

1

联系受影响的业务部门,建议他们准备搬到另一地点(或者在灾难恢复计划中指明的方案)

按照灾难恢复方案,向主要的内部和外部工作人员/组织做出建议

2

联系外部组织(比如,厂商、供应商、快递公司和存储公司)来安排紧急服务安排

按照灾难恢复方案,向主要的内部和外部工作人员/组织做出建议

3

如果硬件系统被损坏或摧毁,激活恢复硬件的程序

按照灾难恢复方案,向主要的内部和外部工作人员/组织做出建议

4

如果软件(比如,操作系统、应用)已经被损坏或摧毁,激活恢复损坏软件的程序

按照灾难恢复方案,向主要的内部和外部工作人员/组织做出建议

5

如果通信系统和网络服务受到损坏或影响,激活恢复它们的程序

按照灾难恢复方案,向主要的内部和外部工作人员/组织做出建议

6

如果邮件/黑莓服务被损坏或摧毁,激活恢复这些操作的程序

按照灾难恢复方案,向主要的内部和外部工作人员/组织做出建议,在邮件/黑莓服务被损坏时,业务部门可能需要使用其他的通信方式,比如,短消息、社交网络等

7

如果关键数据被损坏或摧毁,激活数据恢复程序

按照灾难恢复方案,向主要的内部和外部工作人员/组织做出建议

8

如果文件或文档被损坏或摧毁,激活恢复损坏文档的程序

按照灾难恢复方案,向主要的内部和外部工作人员/组织做出建议,如果通过备份重新恢复数据的方式,在一天内无法解决这个问题的话,请与员工或其他股东讨论如何管理现有的操作

9

如果文件或文档被损坏或摧毁,激活恢复损坏文档的程序

按照灾难恢复方案,向主要的内部和外部工作人员/组织做出建议,如果通过备份重新恢复数据的方式,在一天内无法解决这个问题的话,请与员工或其他股东讨论如何管理现有的操作

10

与管理层确认是否数据中心工作人员需要搬到新的位置

与主要的IT员工,公司管理层或其他人会面

11

与公司工作人员和其他内部或外部的工作组一起开始讨论新数据中心的选址,比如临时服务托管安排,以及在新数据中心建好之前租赁一个临时的数据中心供使用

灾备计划应该包含这部分内容,因此主数据中心和辅数据中心都应该被安排好

12

开始并协调各方面资源为搬迁到新的数据中心做准备

灾备规划中应该已经包含了这部分内容

13

定期给公司管理层汇报最新进展

灾备规划中应该已经包含了这部分内容

14

组织并定期开展恢复团队会议

灾备规划中应该已经包含了这部分内容

以上步骤的前提是相关的方案已经被制定出来,用于针对列出来的各种场景,比如邮件系统恢复,硬件和软件系统恢复、数据恢复、文档恢复和搬到另一个数据中心。

灾难后的评估

一旦情况得到了缓和,恢复过程可以开始之后,就应该评估这个事件,确认发生了什么,采取了什么行动,还有什么没有做。要经常地组织和开展实用性的会议以帮助汇总一些重要的数据,因为有些可能在后面的保险索赔甚至法律诉讼上需要用到。

    补充的数据中心灾难恢复规划资源

根据需要制定的详细程度不同,数据中心灾难响应的过程可以非常复杂。一个让过程变得更容易的方式是看看现有的标准以及数据中心操作流程。下面将列举三条有用的准则:

在规划一个数据中心灾难恢复计划的时候,需要注意下面的几点:

1.需要得到高层管理的支持,这样计划就会有资金上的扶持,有文件证明并且能被有规律的执行。

2.认真的执行数据中心灾难恢复过程:计划不需要很长,但需要包含现在准确的信息。

3.在流程中考虑使用曾经使用过的标准。

4.在收集并整理了足够的正确信息后,尽可能的让流程简洁明了。

5.制定好流程后和其他核心部门再共同审阅一次,以确保对环境的估计准确无误。

数据中心受损将可以严重的影响到业务的正常运行。当有些公司决定通过再建一个新的机房或者从第三方机构租赁一个机房作为灾备方案的时候,我们建议详细评估数据中心的运用情况以及潜在风险,这对灾备过程的开始是有着重要意义的。当我们有着一份做足准备的灾难恢复计划在手,尤其是包含有详细的复原和恢复的步骤,这对让数据中心受损程度最小化是有很大帮助的。

相关推荐

  • 数据中心灾难恢复规划模板与指南

    阅读本篇有关数据中心灾难恢复规划指南,然后免费下载我们提供的模板,评估数据中心设施及其基础架构在灾难期间的表现。

  • 揭开灾备真相——行业现状及趋势

    笔者在上一篇文章《揭开灾备真相——那些年我们见过的灾备术语》里介绍了灾备领域常见的一些专业术语,本文将站在行业角度,介绍灾备市场的现状及未来趋势。

  • 揭开灾备真相——那些年我们见过的灾备术语

    作为数据保护的最后一道屏障,灾备系统的重要性不言而喻。IT圈好像一夜之间都在说灾备,那么到底什么是灾备?为什么灾备如此重要?未来发展趋势如何?本系列文章带你认清灾备真相。

  • 存储经理人2017年11月刊:如何选择正确的DRaaS供应商

    《存储经理人》2017年11月刊重点介绍如何选择正确的DRaaS提供商:DRaaS供应商应当具备四项关键技能,以能够全方位应对所有潜在灾害。本期杂志还介绍了下一代线性磁带开放标准LTO-8,云中数据存储的注意事项以及驱动企业采用云存储的主要因素,同时阐述了冷存储需求不断高涨以及二级存储的现代化转型等现状,提醒大家在文件同步和共享时应确保数据安全,以及如何为未来的闪存做好准备。