数据中心灾难恢复规划模板与指南

CIO之家的朋友 CIO之家的朋友们

在制定数据中心灾难恢复规划和业务连续性计划时，请记住，你正在保护对信息技术与通信设施所做的重大投资。根据中断事故程度的不同，数据中心的整体完整性有可能完全不受影响，又或者会被彻底破坏。

灾难恢复（DR）规划需要灵活性和扩展性，解决各种可能出现的中断情况。业务连续性（BC）计划亦是如此。两者还需要定期测试，以确保技术、流程和人员在灾难发生时能够彼此协同，尽可能减少业务中断。

本数据中心灾难恢复规划指南重点介绍了制定灾难恢复规划的最佳实践。我们从成功的数据中心灾难恢复规划中，找到最关键的因素，即应当参与流程规划的人员以及从何处着手开始。

业务连续性计划和灾难恢复规划有何区别？

业务连续性计划确保人们在原来的工作环境无法使用时，能有另一处场所可供选择。业务连续性计划需要列出基本的业务职能，明确指出必须不中断地运作的系统和流程，同时说明如何维护这些系统和流程。它应该充分考虑到任何可能会出现的业务中断。

灾难恢复规划则是一个广义的术语，描述企业和组织内中断的IT系统、网络和其它关键资产恢复的过程。在规划任何灾难的恢复时，拥有灾难恢复站点是极为重要的因素。

公司可以建立自己的内部站点，自行管理，亦可以通过云托管服务提供商建立外部站点。需要快速恢复数据的企业往往会选择内部的站点，这通常是另一个可以快速恢复业务运营的数据中心。不过，云端灾难恢复方案不断改进，响应时间日益缩短，已经可以满足间隔更短恢复时间的目标。

外部容灾站点的使用可以有各种不同的程度。热的容灾站点可以在主数据中心遭遇灾害事件后，作为功能齐全的数据中心独立运行使用。较热的站点是指配置了设备，但缺乏数据的站点。当灾难发生后，企业需要添加客户数据（通常包含了软硬件层面）。相对的，冷站点只有IT基础架构，但是在灾难发生前不配置任何设备。冷站点适用于可以等待较长时间才恢复运行的企业和组织，或者只针对特定的工作负载。

一个企业或组织可能会使用到多种不同类型的站点，将其最关键的应用程序和数据放在热站点上，不重要的系统置于较热或冷站点。

相比而言，数据中心灾难恢复规划侧重于特定的数据中心设施及其基础架构，包括位置、建筑、安全性、电源与环境系统。

第一步：操作风险评估

准备数据中心灾难恢复规划的一项关键活动就是对建筑物或设施进行操作风险评估，分析关键的运营项目，如建筑物位置，包括进出线路；与燃料储存位置的距离；与公路、铁路线和机场的距离；发电设施，包括商业电力和备用电力系统；电源保护，包括接地和联结、避雷器、线路调节器、浪涌抑制器；HVAC（供热、通风与空调）；关键系统，包括服务器、VoIP系统；网络基础架构，包括电缆、连接器、路由器、同轴电缆与光纤电路；安全性，包括物理访问与信息安全；工作区域，包括办公室、会议室、隔间、家具、照明；消防，包括火警探测器、烟雾探测器、灭火器、FM-200灭火系统；建筑地板和墙体，包括防火墙、活动地板；以及公共设施，包括水、电力、排水与通讯。

在规划数据中心运营风险评估的过程中，假如公司采取租赁模式，需要与IT和楼宇管理部门协调；如果自己拥有该建筑物，协调等部门则变为设施管理部门。在开始之前，请与这些组织检查评估的目标。

如果你有风险评估清单的话，与IT管理、楼宇管理及设施管理团队一同加以回顾，确保其涵盖了所有的基础内容。可能的话，询问IT和设施团队是否有做过任何评估，或存有任何文档，这或许会为你节省不少时间，当然前提是数据的时效性在一年之内。

在评估中遵循下列操作：

1. 数据中心灾难恢复规划的开发小组应与内部技术团队、应用团队与网络管理成员等各种IT团队会面沟通，从而确保所有定期使用的数据中心设施的成员都将其纳入容灾规划流程当中。

2. 列出内部和外部数据中心资产、第三方供应商与资源，以及所有的利益相关方。

3. 收集所有相关的基础架构文件，例如建筑平面图、楼层图、系统架构图，网络拓扑图以及设备的配置。

4. 如果已有，那么先获取到一份现有数据中心灾难恢复规划的副本。假如没有的话，请遵循以下步骤：

a. 与管理层合作，找出数据中心面临的最严重的威胁，如火灾、人为错误、断电、系统故障，或是安全漏洞。

b. 与管理层合作，找出数据中心内最严重的漏洞，例如过时的备份电源系统。

c. 回顾历史上数据中心发生过的宕机和中断事件，以及我们是如何加以处置的。

d. 明确在数据中心无法使用时，管理层可接受的最长中断时间。

e. 确定当前应对数据中心中断的流程。

f. 确定上述流程的最后一次测试是在什么时候。

g. 明确数据中心内的应急小组，了解他们在应对紧急情况下的受训水平。

h. 辨识数据中心供应商的应急响应能力，特别是那些在过去有合作历史的，查看他们是否仍然可以提供服务、服务的成本以及当前的服务合同状态。

将数据中心运营评估的结果编制成差距分析报告，确定目前已经完成的工作和需要加以改善的部分，并就如何达到目标水平及预期投资提出建议。

作为分析过程的一部分，检查数据中心业务中断的影响。假如数据中心的运营发生中断，关键的业务流程将会产生怎样的影响？数据中心发生中断后，对公司的形象、声誉以及竞争地位会有哪些影响？

除了辨识出对业务的影响之外，从评估中还可以找到有待改进之处，发现这些可能受到中断影响的情况（例如，需要更换的陈旧柴油发电机组），有助于灾难恢复规划的制定。

制定数据中心的灾难恢复规划

一旦完成了数据中心分析，明确出潜在的运营风险，就要按照严重性、潜在的损害和发生的可能性排列风险情景的优先顺序，从而将规划的响应活动作有针对性的排序。

使用国家标准与技术研究所SP 800-34标准“信息技术系统应急计划指南”中提到的结构，我们可以将这些活动扩展至下列结构化顺序的活动：

1. 数据中心规划的开发团队应当和内部的技术团队、设施部门、公用事业服务提供商以及相关的供应商会面，确定活动的范围，包括内部和外部的威胁、内部和外部的资产、第三方资源和如何联系其他办事处/客户/供应商。务必向高级管理层汇报这些会议，让他们得到及时通知。

2. 收集所有相关的基础架构文件，例如建筑楼层图、建筑工地图、公共设施布置图、HVAC图、网络架构图以及设备配置。

3. 获取现有IT灾难恢复规划的副本。假如没有的话，请依次执行以下步骤：

a. 与管理层合作确定数据中心基础架构所面临的最严重的威胁，例如火灾、人为错误、电力损失、洪水泛滥、系统故障、恶劣天气等。

b. 确定管理层认为是数据中心最严重的漏洞，例如缺乏备份能力、有所欠缺的建筑安全性，又或者是数据中心靠近经常泛水患的平原。

c. 回顾历史上数据中心发生过的宕机和中断事件，以及我们是如何加以处置的。

d. 确定管理层视为最重要的数据中心资产，例如服务器集群、存储系统、网络基础架构、人员配置。

e. 当出现数据中心资产不可用时，管理层可以接受的最长中断时间。

f. 确定当前用于响应关键数据中心故障的操作流程。

g. 确定这些流程最后一次进行测试的时间以验证其相关性。

h. 找到所有关键数据中心中断的应急响应小组。确定他们的受训水平，尤其是在紧急的情况下。

i. 确定供应商的应急响应能力：是否曾经有合作过；如果是的话，是否还能提供相应服务；公司要为这些服务支付的金额；数据中心维护合同的状态；如果有的话，服务水平协议是怎样的。

4. 将所有评估结果编制成差距分析报告，确定目前的工作与有待改善的部分，并就如何达到所需的数据中心准备水平以及投资计划提出建议。

5. 管理层审查报告并就提议的行动达成一致。

6. 准备数据中心灾难恢复规划，解决所需的关键设施（包括硬件和软件、数据存储、网络）。

7. 测试规划与系统恢复设施，验证其正常运作。

8. 更新数据中心灾难恢复规划文档，记录更改项目。

9. 安排数据中心灾难恢复功能的下一次检查/审核。

重要的数据中心灾难恢复规划提醒

在构建数据中心灾难恢复规划时，请牢记以下准则：

1. 得到高级管理人员的支持，以便你的计划得到资助。

2.重视数据中心灾难恢复规划的过程：规划并不一定要长达数十页；但是要包含正确、最新且精准的信息。

3.考虑在流程中引入行业标准，包括NIST SP 800-34、ISO / IEC 24762：2008和BS 25777：2008。这些标准为你的规划提供了有用的结构化模板，以及有待解决问题的指导。假如计划需要经过审计，这点会显得尤为重要。

4.收集和组织精准的信息，保持规划过程的简单性。

5.与IT和设施等关键部门共同审查结果，从而确保假设的正确性。

数据中心容灾规划有助于保护大多数企业和组织的重大投资。虽然有些公司通过建设第二个数据中心或在第三方环境中租用特定空间来解决数据中心的恢复问题，但对数据中心运营和风险的细致评估仍是灾难恢复规划的一个重要起点。

CIO之家 www.ciozj.com 公众号:imciow

关联的文档

也许您喜欢