企业信息系统应急恢复技术应用研究
姚刚 网络
计算机系统在为企业各类应用系统提供强大支撑的同时,无时无刻不面临着系统崩溃的危险。计算机硬件故障、病毒侵害、人为误操作、自然灾难等情况的发生都会让系统变得极其脆弱,一旦系统瘫痪,通常的解决办法只能是购置设备(配件)、重装系统、安装应用软件、完成配置操作等等繁琐的工作,可见系统在短时间内是无法恢复正常使用的。但作为一个企业的生产系统.必须保证生产业务不中断、不受影响,因此适合的应急恢复技术是保证系统稳定运行的关键。中国石油油气生产信息系统是油田生产业务重要的信息系统之一。为保证系统的稳定运行,采用了目前计算机系统恢复技术中较为先进的冗灾恢复技术和方法。本文通过对中国石油油气生产信息系统是如何实现对生产系统的快速恢复和异地冗灾的阐述,论述应急恢复技术在企业信息系统中的应用。

1 信息系统现状与需求

中国石油油气生产信息系统是管理油气田勘探与生产过程的重要信息系统之一,系统建设范围覆盖了中国石油总部和各油气田分公司,是集数据采集、存储、传输、处理、分析、发布和服务于一体的现代化勘探开发信息管理系统。系统自建设完成,保证7×24h不间断运行,全面服务于油气田油气生产。

油气生产信息系统前端应用层服务器使用windows2003操作系统,之上安装有TWs、LPM、CDMT、Dss等多种油气生产管理专业软件,后台使用0racle9i数据库,同时,系统挂接有磁盘存储系统和带库系统等共同组成完整的架构体系。系统稳定运行离不开完备的应用程序架构和软件产品,同时建立合理、完善的备份与应急恢复机制是确保系统安全、稳定运行必不可少的前提条件。各类灾害以及人为误操作导致计算机系统崩溃、数据丢失的情况屡见不鲜,面对灾难和故障做好系统和生产数据的快速恢复工作就显得尤为重要。为增强油气生产信息系统应对各种风险的恢复能力,对该系统部署实施了应急恢复子系统,应急恢复子系统的建成保证了油气生产信息系统的安全、稳定、高效,同时为中国石油打造了一个坚实的油气生产信息平台。

2 应急恢复技术实现

2.1应急恢复系统方案设计原则

应急恢复系统方案设计必须遵守以下原则:高可用性的原则;运维简捷,容易操作,可管理性高的原则;以不牺牲原系统的强壮性原则;保证生产系统正常运行原则;系统层、应用层具有高强容错能力设计的原则。同时,需要保证生产系统生产数据任何情况下不丢失,本地备份与异地灾备相结合的原则。当灾难发生时应急恢复系统恢复正常工作时间<10min,在线恢复回写系统和数据时间<4h,灾难发生时系统管理员能远程控制切换操作,快速恢复系统正常工作。

2.2应急恢复系统方案设计

根据信息系统现状与需求,结合当前灾备恢复技术进行分析论证,系统采用集中灾备模式。由于信息系统的前端应用层和后台数据库层在运行方式、备份需求与内容上有很大的不同,为了做到有针对性的灾备与恢复.我们对应用层系统采用“网络盘存储镜像”备份技术,对数据库层系统采用“远程数据库准同步”备份技术。

整个应急恢复系统架构设计实现本地系统数据保护和异地冗灾接管的功能。系统总体设计框架如图1所示。

“网络盘存储镜像”(注:硬件设备+软件系统)技术主要是将windows操作系统及其上的应用软件、数据库等在系统运行正常时保存在“网络盘存储镜像”中,并可多版本快照保存。当灾难发生时,服务器可以抛开本地(内置)硬盘不用,直接从“网络盘存储镜像”启动操作系统、应用软件和数据库系统,这种启动方式所挂的“网络盘存储镜像”盘是可读写的,也就是说它完全可代替原应用服务器工作,快速恢复生产应用。然后再利用生产空闲时间将当前版本写回主应用服务器系统,使主服务器恢复正常工作。“网络盘存储镜像”的另一优势还可多版本存储Windows操作系统,可根据实际需求回滚到之前存储过的任何一个windows版本。

对应用层windows系统,在每个油田部署一个(组)“网络盘存储镜像”系统,各油田的应用服务系统都备份在“网络盘存储镜像”中,并可多版本快照保存。然后在北京总部再部署一组“网络盘存储镜像”系统,在油田“网络盘存储镜像”系统与总部“网络盘存储镜像”系统之问做一个实时增量数据同步,从而做到各个油田的应用系统实时备份到总部。当油田系统出现故障不能从当地启动时,可以由总部服务器从总部备份系统启动代替各油田的服务器应用系统。

对0racle数据库系统,利用部署好的“网络盘存储镜像”系统,使用远程数据库准同步方案,所有备份数据都直接放在总部,利用数据复制同步软件技术实现总部数据与各油田数据准实时同步。

2.2.1应用层服务器系统恢复

利用“网络盘存储镜像”技术将windows操作系统及其上的应用软件、系统服务等在系统正常运行时实时的保存到“网络盘存储镜像”设备中,并可进行多版本快照保存。但是过多的快照会影响系统L/O读写性能,占用一定量的系统资源,根据各油田使用油气生产信息系统的使用频度和使用峰值时段,每6h定制一个快照,共4个快照即可满足业务需求,同时备份体保存64d(256/4)。“网络盘存储镜像”的一个优势是可多版本存储,可根据实际需要回滚到任何一个“干净”版本,理论上它能防止任何操作系统故障、应用软件故障、数据库故障以及人为的误操作等引起的系统或者软件故障。

当故障引起的系统崩溃在短时间(4h)内无法修复生产系统时,服务器可以抛开本地硬盘不用,直接从“网络盘存储镜像”启动操作系统、应用软件,从而快速恢复生产系统。整个恢复过程根据流程进行恢复、接管硬盘及软件系统故障:应用服务器因病毒、操作系统、应用软件、硬盘发生故障时,只需从本地网络重启服务器就会接替原应用服务器系统工作。然后再利用生产空闲时间将当前版本写回主应用服务器系统,使主服务器恢复正常工作。其他硬件故障如:服务器主板、网卡等非硬盘故障时,由后备服务器从网络盘存储镜像设备网络启动,接替原服务器工作。主服务器修理后,根据硬盘数据情况再决定是否采用回写方式恢复系统。

由于北京总部和各油田应急恢复系统是进行实时增量同步的,所以当油田出现故障不能从油田本地启动,或是油田系统在长时问(4h以上)无法恢复,如:机房整体搬迁、机房停用、地震、地质灾害等均可启用异地冗灾接管,即启动总部的备份来接管故障油田应用。

2.2.2生产数据恢复

生产数据使用远程数据库准同步方案,利用数据复制同步纯软件技术进行准实时同步,各油田所有生产数据复制到北京总部,时间差应在180s以内。生产数据数据库采用软件方式,需要在各个油田的数据库服务器上安装同步软件,在总部需要建立相应存储,并安装同步软件,实现数据同步。

当生产数据服务器发生故障时,因这种方式是将生产数据写入远程的总部数据系统中,这样无论是主服务器的硬件、操作系统、数据库系统出现故障,还是存储硬件、软件出现故障,总部数据库备份系统均能很快接替它,使其快速恢复生产数据应用。

2.3应急恢复系统特点

冗灾系统的建设具有技术复杂、需求依赖性高的特点,各类技术方案不仅要实现冗灾复制,还要按照业务需求实现各类灾难的快速恢复,同时还要对现有的生产系统和网络环境具有适应性,不产生负面的后果。

系统采用虚拟化技术在信息整合、信息复制、信息备份等多个方面的独特能力,为各种应用系统提供有效的数据保护,实现“实时备份+多版本快照+瞬间恢复+远程灾备”,具体表现在以下方面:

1)实现生产数据远程复制和本地时问点保护,使系统在本地快速恢复和远程冗灾接管有机结合,实现既具有冗灾能力又提供本地快速恢复能力的冗灾系统。

2)256个在线多版本自动快照供选择。256个快照相当于256个全备份,利用快照.一旦发生任何一类故障,管理员都可以找到最近或特定的快照版本,进行立即恢复,从快照中恢复数据只是几分钟的事情。多版本快照支持应用系统的系统盘和数据盘的全面地实时保护,从而实现操作系统和应用数据的同步保护。

3)“块增量+压缩+加密”的网络传输特性,支持基于块增量的远程数据复制功能,节省用于远程复制的网络带宽,加密的远程网络传输功能,保证数据体传输的快捷与安全。

4)利用网络盘启动操作系统和回滚启动功能,可瞬间恢复系统。

5)支持指定目录和指定文件的选择性恢复。根据需要,利用实时镜像和多点快照,在任意时间恢复任意目录和文件。

6)集成多点自动快照技术的冗灾系统,实现了由人为误操作类“灾难”的防范及纠错功能。

7)全面保护数据库系统和windows操作系彩应用系统。传统的备份系统主要针对数据系统提供保护,而该系统是一体化快速恢复系统和灾备系统,对Windows操作系统、生产业务应用系统和数据库系统提供实时的数据保护和一键式快速恢复机制。

3 结论

通过应急恢复技术在中国石油油气生产信息系统的应用研究实例可以看出.采用“网络盘存储镜像”技术的灾备系统可以为企业信息系统提供一个开放的、易于扩展的存储平台,他不仅帮助我们构建了一个高效的远程异地冗灾系统,同时也为我们提供了本地实时备份系统和快速恢复系统,构建了一个可以应对各种系统故障和灾难恢复的安全体系,为企业生产打造一个安全稳定的系统平台。

CIO之家 www.ciozj.com 公众号:imciow
关联的文档
也许您喜欢