灾难恢复计划所不可或缺的要素
网友 网络收集

本月早些时候,非洲的肯尼亚发生了一场长达3个小时的全国性的大规模停电事故,而原因竟然是一只猴子爬进发电厂后困在变压器中所致。数以百万计的家庭和企业都遭到了不同程度的影响。这就说明,“并非所有的灾难都是由那些叫得上名号的大风暴所引起的。”Atlantis Computing公司的首席营销官鲍勃·维斯表示说。

“电气火灾、水管破裂、空调机组运行故障(以及莫名其妙闯入的猴子)都可能引发同等破坏程度的灾难。”他说。尽管“某些企业的负责人可能会认为,他们企业所处的地理位置是安全的。”但务必要重点记住的是:“一些日常性的安全威胁也同样可以摧毁数据,并甚至毁掉一家企业。”这就是为什么说所有的企业组织机构都需要制定一套详备的灾难恢复(DR)计划是至关重要的原因所在了。

但是,并非所有灾难恢复计划的创建都是一样的。为了使得您企业的系统、数据和人员得到充分的保护,并确保您的企业可以在发生实际的紧急情况或灾害的情况下继续保持操作运行,我们建议您的企业不妨参考如下的相关指导方针,以创建一套完备的灾难计划,这将有助于您企业业务的迅速恢复。

1、库存硬件和软件

您企业组织的灾难恢复计划应该包括“一套以优先级顺序所列出的完整的硬件和应用程序库存清单。”Arcserve公司的产品副总裁Oussama El-Hilali表示说。“每款应用程序和硬件设备都应该标明供应商的技术支持合同信息和联系电话。”这样才能确保您企业可以得到快速的备份和运行。

2、定义您企业对于停机时间和数据丢失的耐受性

“这应该成为您企业组织制定备灾规划的起点。”来自Strive Technology Consulting公司的总裁Tim Singleton表示说。“如果您是一名水管工,您也许可以在不涉及任何服务器或技术的环境下照常工作开展业务。但是,如果您的企业是像易趣网这样的电子商务网站,那么,您企业所能够承受的停机中断不能超过数秒钟。找出您企业在这方面的耐受性将决定您企业需要何种类型的解决方案,以便从一个灾难中恢复。”

“为您企业组织的每一款应用程序评估可接受的恢复点目标(RPO)和恢复时间目标(RTO)。”NaviSite公司的首席技术官大卫·格兰姆斯建议说。 “在理想的情况下,每款应用程序都将有仅仅几毫秒的RPO和RTO,但是,无论从技术上还是经济上这往往都是不可行的。通过正确识别这两项衡量指标,企业可以优先考虑需要些什么,以便能够成功度过灾难,确保一套成本效益水平的灾难恢复,并降低对于他们自身能够在灾难发生时恢复的错误估计所带来的潜在风险。”

“当您企业以书面形式编写灾难恢复计划时,请将您的应用程序分为三个层次。”Sungard Availability Services公司测试与危机管理部门的高级主管Robert DiLossi表示说。 “第1层应该包括您企业需要立即用到的应用程序。这些都是您企业的业务运行所不可或缺的关键任务的应用程序。第2层则包括了那些您企业在8至10小时内,甚至长达24小时所需要用到的应用程序。他们是必不可少的,但您的业务并不需要立即用到这些应用程序。第3层的应用程序可以是那些在几天之内轻松恢复的。”他解释说。

“定义哪些应用程序是最为重要的,将有助于推动灾难恢复的速度和灾难恢复的成功。但最重要的是至少每年两次对您企业所制定的灾难恢复计划进行测试。”他说。“可以基于测试的结果,对相应的层次进行改变,其可以有助于在发生真正的灾难之前揭示未知的差距,并进行有针对性的填补。”

3、实施明确的责任制——确定负责备份的人员

“所有的灾难恢复计划都应该明确界定关键职位角色、职责和涉及到灾难恢复事件中的各方当事人。”Computer Design & Integration公司的云服务主管Will Chin表示。 “在这些相关的责任都必须明确界定,已确定灾难的发生。有明确的角色责任制会有助于企业员工对于需要完成什么任务,以及谁应该对什么任务负责形成普遍的理解。当企业组织在与第三方供应商或服务供应商合作时,这一点尤为重要。所有牵扯到灾难恢复事件中的各方当事人都需要了解彼此的责任,以尽可能地确保灾难恢复过程的高效。”

“为您企业的全体工作人员制定计划,上至CXO级别的管理人员下至一般普通员工,并确保他们理解的这一过程,以及企业希望他们能够做些什么。”Matrix公司的总裁尼利。罗林表示。Matrix公司主要负责提供了基于云的解决方案,包括灾难作为一种服务。 “这可以让大家都能够更快的恢复正常工作。”

“一套灾难恢复的计划草案必须包括:谁应该以怎样的方式和顺序联系上的DR团队的最为合适的责任人,以便尽快让系统恢复正常运行。”Thru公司的营运副总裁Kevin Westenkirchner补充说。 “关键是要就DR团队的相关人员的具体职位、责任和紧急联系信息制定详细信息的清单。”

“最后一个需要考虑的是:有一套适当的继任计划,针对相关的岗位培训训练有素的后备员工,以防主要工作人员正在假期中或在别的地方。”Digium公司的产品营销经理布赖恩。弗格森表示说。

4、创建一套沟通计划

“也许,关于一套灾难恢复计划最被忽视的组成部分之一便是缺乏一套良好的沟通计划。”Computer Design & Integration公司的解决方案架构师Mike Genardi如是说。 “在发生灾难事件时,您打算如何与企业员工进行沟通?在一次灾难恢复事件期间,您企业的员工是否知道如何访问他们所需要的系统,以履行他们的工作职责?”

“很多时候,主要的通信平台(电话和电子邮件)可能会受到影响,届时,您企业组织将需要采用替代的方法来联络您的员工。”他解释说。 “一套良好的沟通计划将在一个灾难发生最初起到很好的通报作用,并进行持续的更新,使得企业的工作人员都能够了解整个灾难恢复事件的进度。”

“当对任何突发事件、危机事件或灾难做出响应,并从中恢复时,有效的沟通是极其关键的。”ModusLink公司的首席商务官斯科特。D.史密斯表示说。因此,制定“一套明确的沟通策略是必不可少的。采取有效和可靠的方法与企业内部员工、服务商、供应商和客户进行及时的沟通是非常必要的。制定一个书面的流程,以确保在发生灾难后能够采取有效的行动后,方便企业组织,员工和合作伙伴之间进行调整。”

“灾难恢复计划也应该包括一份当发生紧急的情况时,可以发表在您公司的网站和社会化媒体平台的声明。”一家数据保护平台Datto公司的首席技术官罗伯特。吉本斯补充说。并准备好“为您企业的客户就您企业的业务何时有望恢复及时提供状态更新通知。如果您的客户知道了您企业已经发生了什么的情况,而您也做好了充分准备,并在努力尽快恢复时,他们的感觉就会好很多。”

5、让您企业的员工知道当发生紧急情况时应该去哪里,并有一个备份的地方

    “许多公司认为灾难恢复计划只是针对他们的技术系统的,但他们没有认识到针对人的因素(即企业员工),也同样需要制定一个计划。”Simplegrid Technology公司的总裁Ahsun Saleem表示说。请务必记住:“有一个备用站点,以防您企业的主要办公室将不可用。确保您企业的员工知道一旦发生突发事件应该去哪里,坐在哪里,以及如何从备用站点访问系统。为员工们提供到达备用站点的地图,并确保您企业的员工们在该备用站点有足够的工位。”

    “在发生灾难的情况下,您的团队将需要一个可操作的工作场所,具备合适的设备,空间和沟通。”DiLossi说。 “这可能意味着远程办公和其他需要设计的替代战略,以防区域型灾害所导致的更大地区的停电事故。一定要注意合规性要求和合同专用的办公空间,以便让工作人员和数据可以保持私密性。如果您企业真的需要200个工位才能真正满足您的恢复需求的话,切莫只安排联系50个。”

6、确保您企业的服务水平协议(SLA)包括了灾害/紧急情况

“如果您企业已经将技术工作外包给了外包IT公司,或者您企业已经将系统存储在了一家数据中心/托管场所,确保您企业与他们签订了一个有约束力的协议,以定义在发生灾难的情况下,他们的服务水平。”Saleem说。 “这将有助于确保他们能够在指定的时间内开始解决您的问题。有些协议甚至可以讨论获得系统备份时间的期限。”

7、应包括如何处理敏感信息

“定义业务和技术程序,以确保对于企业敏感数据信息的保护是一套灾难恢复计划的重要组成部分。”Sunera公司的合作伙伴埃里克。迪特里希说。 “这些程序应解决当灾难恢复计划已经启动时,敏感的数据信息程度将如何维护和访问的问题。”

 8、定期测试您企业的灾难恢复计划

“如果您不对企业的灾难恢复计划进行测试的话,那么也就等于您企业没有制定该计划。”Singleton表示说。 “您的备份硬件可能已经出现故障失败,您的供应链可能依靠的是某个根本无法应对灾难的人员,您企业的网络连接可能会因网速太慢而无法在预期的时间内恢复您所期望恢复的数据量,关键的灾难员工的手机号码可能已经换了。诸如此类,太多太多的东西可能会破坏一套原本完美的计划。找出这些问题漏洞的唯一方法就是定期测试您企业的灾难恢复计划。”

 “您企业的计划必须包括您的灾难恢复环境如何进行测试的细节,其中包括测试的方法和频率。”基于云的IT灾难恢复和连续性解决方案提供商Unitrends公司的产品营销副总裁戴夫。勒克莱尔表示说。“最近,我们针对大约900名IT管理员所进行的调查发现,不到40%的公司每年针对他们的灾难恢复计划测试的频率超过了一次,而36%的企业根本没有测试。”

“不经常进行测试可能会导致真正发生灾难期间,灾难恢复环境不按要求执行。”他解释说。 “您的计划应该为每项工作负载确定恢复时间目标(RTO)和恢复点目标(RPO),并验证他们是否可以满足。幸运的是,现在的恢复保证技术能够在不中断生产系统的情况下,自动化灾难恢复测试,并能够验证RTO和RPO目标是否百分百的满足,即使是在复杂的n层应用程序。”

也请记住,“当涉及到灾难恢复时,您企业只能是与您的最后一次测试一样好。”罗林说。 “测试计划时间表是任何灾难恢复计划的一个最重要的组成部分。将测试的结果与您定义的RTO和RPO指标进行比较,以确定您的计划的有效性。测试越是全面,一家企业在发生真正的灾难并进行恢复的成功率也就越高。”他说。 “我们每周都测试我们的发电机,以确保其功能正常。一定要记住,测试失败并不是一件坏事。能够在早期发现问题,要比在发生灾难危机时才发现要好得多。确定需要修改和测试的东西,直到您成功为止。”

 而且不要忘了测试您企业的员工。 “相关所涉及的企业员工需要对于灾难恢复计划非常精通,并能执行他们被分配到的每一项工作任务而不出现任何问题。”弗格森说。“运行模拟灾害和演习有助于确保您企业的工作人员在实际的灾难事件发生时,可以执行该计划。”


CIO之家 www.ciozj.com 公众号:imciow
关联的文档
也许您喜欢