基于SAN存储模式的异地容灾系统
桑萍 网络
容灾是指系统具有在严重灾难发生后的恢复能力。容灾是通过在相当距离的异地,建设一套功能和处理能力与正常生产系统相当的备份系统,以确保当主系统发生意外灾难或有计划的长时间停机的情况下,备份系统能够在短时间内接替、延续主系统的生产任务。容灾系统对以下情况具有恢复能力:

  ①自然灾害及其它不可抗力的灾难;长时间无法修复性停电等机房外设的损坏;

  ②主机升级、检修等计划性宕机等长时间机房设备无法正常工作;

  ③主机系统、数据信息被严重破坏等人为失误造成的灾害。

  容灾系统的设计和实现主要有两种方式,一是基于应用软件的容灾备份方式,是根据应用系统本身的特点,选择将主系统处理过程中收集或使用的与备份系统不同的信息(即增量和变化信息),通过网络传输到备份系统。其特点是:对应用程序须要作一定的改造,将主、备同步机制嵌入到应用程序中去,使主系统能将同步数据生成并传输到备份系统,而备份系统能根据收到的同步数据进行处理,从而产生与主系统相同的处理结果,达到主、备系统的一致性。应用软件级容灾的优点是所需网络带宽较小,对主、备系统距离没有限制,但其缺点是对于软件系统的改造和维护工作量较大。另一种是基于共享磁盘的硬件级同步,是将主系统在共享磁盘上执行底层“写”操作,然后通过网络发送到备份系统跟从执行,从而达到主、备系统的数据一致性。其特点是:对应用程序基本透明,无须对应用软件作较大的改造,便可以实现容灾。但是它对于网络带宽的要求也较高,对于主、备系统的距离也有一定限制,这是因为当两地距离超过一定长度后,网络由于信号中断引起的延时会对主系统的性能造成较大的冲击。

1 硬件级容灾方案设计

  硬件级容灾方式是利用存储服务器的远程数据复制软件来实现主数据中心和备份中心的操作系统、文件系统、数据库的实时拷贝复制。主、备份中心磁盘阵列本身就可以通过阵列上的微处理器完成数据的实时同步,不需要主机干涉。即实现远程容灾方案。无须对数据库配置和应用系统进行任何改动,可以做到灾难发生的同时实现应用处理过程的恢复,远程备份系统的重新启动可以做到像一般电源故障后的重新启动那么简单。

  将主机服务器的操作系统、数据库及应用程序安装在独立的具有备份功能的磁盘阵列上,并将磁盘阵列上的数据进行远程镜像,同样可以实现主机操作系统的远程容灾。当在生产系统上对操作系统参数、数据库配置文件和应用程序参数进行修改时,同时也复制到备份中心,无需系统管理员在备份系统的操作系统磁盘上手工重复这些配置参数的修改,一旦生产中心发生突发性故障,备份中心使用备份阵列上的外挂操作系统盘镜像,与主中心相同的系统配置参数迅速引导主机,恢复业务系统的运行。

2 存储区域网络

  2.1 网络存储技术

  随着光纤通道技术的出现和网络技术的发展,存储的底层技术逐渐向网络存储方向发展。网络存储可以实现数据的安全存储管理,实现不同平台之间的数据共享,为用户提供不问断的数据访问。

  存储区域网络是网络存储技术发展的主流方向,它是以Gb带宽实现计算机和存储器之间的通讯,结合了I/O通道技术、局域网模型、大容量存储器的技术优点。它消除了服务器传输处理的瓶颈。适合大数据量传输、实时数据处理。独立于服务器网络系统之外,几乎拥有无限存储能力的高速存储网络,这种网络采用高速的光纤通道作为传输媒体。存储区域网络SAN(Storage Area Network,SAN)可使服务器与存储设备之间进行“any to any”的连接通信,实现多服务器独立地共享一个阵列子系统、共享—个自动库,实现数据的共享和集中的管理,进而完成快速、大容量和安全可靠的数据存储。

  2.2 SAN的拓扑结构

  SAN的组成包含了存储介质(磁盘阵列、磁带库等)、存储连接器件(光纤交换机、适配器等)、SAN管理服务器(见图1)。网络连接包含SAN网络连接和以太网局域网连接两部分。

采用SAN架构时,如果采用l台光纤交换机和多台使用SAN的应用服务器相连,光纤交换机就成了系统中的单点故障隐患点。为了提高存储系统的安全性和冗余性,在实际应用中采用2台光纤交换机。所有需要接人SAN存储子系统的应用服务器都配置两块光纤卡,每台服务器和两台光纤交换机之间都有物理连接,整个存储子系统形成了一个全冗余的架构。当有某块光纤卡或某台光纤交换机发生故障现象时,整个存储子系统不会瘫痪。
 
3 容灾系统的结构和实现

  基于SAN的硬件级异地容灾系统包括生产数据中心(主)和备份数据中心(备)两部分组成(见图2),分别位于不同的地理位置(同城异地)。两个数据中心的数据存储都是基于SAN的,通过光纤通道交换机将本地磁盘阵列和异地容灾磁盘阵列组成SAN网络存储。整个系统中的网络环境包括两部分:

  ①是公网部分(见图2上半部分所示),主要承担服务器与服务器之间、服务器与客户机之间的网络通讯;

  ②是SAN管理网段,主要承担SAN网络存储中光纤交换机与设备之间、异地交换机之间的网络通讯。

 

主数据中心采用高可靠性集群解决方案设计,通过安装高可靠性管理软件组成多机高可靠性环境。数据存储在主数据中心的磁盘阵列中,磁带库作为日常备份使用。主数据中心还要配置一台备份管理服务器,直接连接到存储磁盘阵列和磁带库,用来管理和控制系统的日常数据的备份。类似主数据中心,在异地备份数据中心配置相同结构的存储环境。两个数据中心之间采用高性能骨干网,为两个数据中心提供高带宽、高可靠的连接通道。通过使用容灾软件自动实现主数据中心存储数据与备份数据中心数据的实时完全备份。在本地数据及整个应用系统出现灾难时,系统至少在异地保存有一份可用的关键业务的镜像数据,该数据是本地生产数据的完全实时拷贝。

  在方案实现上,主要分为以下几个步骤:

  ①在备份数据中心,采购和生产数据中心一致的光纤交换机和存储设备,构成SAN环境;

  ②生产数据中心和备份数据中心之间通过裸光纤连接起来;

  ③在每个需要容灾的应用服务器主机上,部署容灾软件;

  ④通过容灾软件提供的跨阵列磁盘镜像技术,实现同城异地间的数据容灾。

4 容灾系统的灾难处理

  一个完备的容灾系统,除了在数据灾难发生时完成容灾备份的使命,还要考虑系统本身的可维护性和可操作性,以及对系统尽可能快的恢复。

  当生产中心的磁盘系统发生故障(灾难),导致应用服务器无法访问本地数据,容灾系统会自动隔离生产中心的磁盘,让应用服务器直接对备份数据中心的数据进行访问。应用和数据库不会因为生产中心的磁盘系统故障而停止;更重要的是,避免了发生数据库损坏(数据一致性风险)的可能。当备份数据中心或生产数据中心到备份数据中心的光纤链路发生故障,导致了镜像的破坏,容灾系统将自动只与状态健康的磁盘阵列继续工作,与生产数据中心发生故障时的处理是相同的。这样,即使在无人值守的情况下,也能够确保业务系统全天候的正常运行。

  磁盘系统故障修复之后,要尽可能快的将远程镜像系统恢复起来,实现镜像的重新同步,以确保容灾的功能继续得以实现,这也是容灾方案是否成功的关键因素。目前镜像同步的技术大多是基于日志功能的,当因故导致镜像被破坏时,灾难恢复软件会通过日志记录此后发生变化的业务数据;一旦故障被修复,会根据日志记录的情况,将更新的业务数据(变化量)增量同步到灾难端,从而实现镜像的完全同步。在镜像快速同步的过程中,用户的应用始终可以正常工作。整个同步过程的发起,管理员只需要执行简单命令即刻完成。

5 结束语

  本系统适用于备份数据中心和主数据中心的近距离容灾(距离小于100公里),容灾级别相对较低。但投资规模较小,日常维护费用少,并且可以将已有的投资与长期的存储解决方案结合起来。当主、备机房的距离更远(位于不同城市)时,光纤连接则需要加上光纤延伸器。储存上则需要专用的存储服务器,如IBM TotalStorage系列产品,容灾费用大,仅适用于大型企业。

  在企业将来有更高的容灾需求时,只需对现有系统结构进行部分扩充,就可以实现。扩充的内容主要包括网络、应用及数据库服务器、IP等资源,以及各资源之间的良好协调。这样,在备份数据中心建立一套完整的与生产数据中心相当的备份应用系统,从而实现更高级别的应用级容灾。

CIO之家 www.ciozj.com 公众号:imciow
关联的文档
也许您喜欢