大型数据中心数据备份管理的方法与实践
王韶坤 网络
为了确保系统持续稳定运行,并满足金融监管部门等对历史数据的查询需要,数据备份管理面临更高的要求。数据中心作为银行信息系统的核心,有效的数据备份管理尤为重要。因其数据具有来源复杂、数据量大的特点,要做好大型数据中心的备份管理,需关注以下几个问题。

(1)数据备份策略制定的合理性。数据备份策略是指数据备份的基本规则和约定,合理的备份策略应符合以下要求:一是满足数据有效恢复的需要;二是尽量降低备份的成本和时间。

(2)数据备份策略部署的合规性。由于数量庞大,备份策略需部署到备份工具中,由其自动调度执行。策略部署的合规性是指,备份策略各个要素在工具中的部署正确无误。

(3)数据备份策略执行的准确性。受系统资源、网络环境等影响,备份策略可能出现执行错误,错误类型主要有未执行、执行失败和执行超出时间窗口等。策略执行的准确性要求应尽量避免问题发生,并在问题发生后能及时处理。

(4)数据备份管理工作的可控性。可控性是指,一方面通过一定的工具和手段确保备份管理工作符合上述三点要求;另一方面建立相应的指标,对备份情况进行统计度量。对于大型数据中心,一般需要采用自动化的工具实现。

一、数据备份策略的制定

1. 备份策略的要素及分类

数据备份策略应包括备份内容、备份频率、备份方式、保存期限、备份时间窗口、备份介质、介质存放地点等要素。为了易于执行、维护,各个要素的内容应精确、可操作。

2. 影响因素分析

制定备份策略需要综合考虑一些因素,详见表1。

 

3. 策略制定的原则及规范

制定合理的备份策略,需要遵循两个原则:一是满足业务数据查询或系统恢复的需要,包括恢复内容要求、恢复时间点要求、恢复效率要求等;二是在满足恢复需求的前提下,尽量减少备份冗余,以节约成本、降低耗时。比如通过降低备份频率,可以降低系统和网络的使用率,同时减少存储介质消耗。

为了实现对海量备份需求的统一管理,可根据以上原则编制《备份策略制定规范》,以明确对于给定的备份需求,如何确定各项备份要素。比如,对于数据库的备份,可编制如表2所示规范。

 

二、数据备份策略的部署

备份策略制定完成后,需部署到备份管理软件中,由其集中调度,实现自动备份。本文以目前主流的Veritas NetBackup(NBU)软件为例加以说明。

1. 策略部署存在的问题

根据合规性要求,备份策略的各项要素均需正确部署。然而,对于大型数据中心而言,由于策略数量庞大且涉及的系统、网络及设备等环节较多,部署过程中难免出现操作失误;同时,若备份策略没有随应用版本升级等环境变化及时调整,也可能导致部署错误。常见的部署错误类型见表3。

 

表3 备份策略部署问题类型
 
表4 备份策略执行问题类型

2. 解决措施

为了规避上述问题发生,可对备份策略的部署情况进行检查,并及时整改发现的问题。一般来说,可采用定期检查、非定期检查结合的方式;如果技术条件成熟,可采用实时检查的方式。

定期检查主要针对因环境变化导致的部署错误。检查周期根据环境变化的速度而定,一般可采用较长周期内全面检查、期间进行抽样检查的方式。非定期检查主要针对策略部署过程中的操作失误,一般在备份策略变更后进行。实时检查采用自动化检查工具,对策略的部署情况实时监控。该方式可第一时间发现问题,确保策略部署的合规性。

三、数据备份策略的执行

部署在NBU中的备份策略,一般可由NBU调度自动执行;但受系统资源、网络环境等影响,备份策略可能出现执行错误。以下简单介绍主要的错误类型及处理措施。

1. 策略执行存在的问题

备份策略在执行可能发生如表4 所示问题。

2. 解决措施

要解决策略执行错误的问题,降低因此带来的负面影响,主要应采取以下两方面的措施:①及时处理。NBU软件可以提供备份策略执行的日志,根据表4中的判断依据对日志进行分析,即可发现执行错误问题,进而及时进行手工补备。②根源分析及隐患整改。通过对执行出错问题的统计、根源分析,定位问题的根本原因,并采取措施避免类似问题的再度发生。

四、备份管理工作的自动化及度量指标

通过上述分析可见,仅采用备份工具NBU尚不能保障备份工作的可控性,因此需引入自动化工具,加强对策略的部署、执行等环节的控制,并通过一定的指标进行度量。

1. 策略的维护及发布

功能介绍:将制定的备份策略表导入工具,并提供编辑(增删改)、查询、筛选及导出等功能;同时可作为官方工具,将备份策略在数据中心范围内发布。该功能将便于管理人员从整体上把握备份策略,同时为后续的功能提供基础数据。

2. 策略部署情况自动检查

功能介绍:自动检查备份策略在NBU中的部署是否正确,并列出部署错误的策略。检查项目包括是否已部署、服务器IP、备份内容、备份时间窗口、备份频率及保存周期等。

实现方法:通过自定义脚本,定期(如每日)导出NBU中的策略部署信息,与备份策略表进行比对。需要指出的是,两组数据格式上可能有差异,在比对时需要先进行转换。比如备份策略表中的备份周期是“每日备份”,则NBU中部署为“每月1日、每月2日...每月31日”。

3. 策略执行出错分析

功能介绍:自动生成执行出错策略清单,并提供接口供操作人员录入后续处理信息。

实现方法:通过自定义脚本,定期(如每小时)导出NBU 中的策略执行日志,并根据本文前面介绍的方法进行分析。

4. 策略执行情况统计

功能介绍:汇总所有备份策略的执行情况(包括执行时间、备份数据量、执行出错信息等),以便进行统计分析,发现问题隐患。

实现方法:通过对NBU 策略执行日志的分析,记录返回码、数据量、执行时间等要素,按照表5 格式生成报表。

 

表5 备份策略执行情况报表设计

5. 备份情况指标设计

(1)备份策略执行准确率。该指标用于评价备份策略执行的准确性,其基础数据来自备份策略执行情况报表,计算方法为:备份策略执行准确率=(计划执行的备份策略总数-执行出错的备份策略数)/计划执行的备份策略总数。

备份策略执行准确率越高,需要后续人工处理的工作量就越小,备份工作的自动化程度也就越高。要提高该指标,一方面需要确保备份策略部署的合规性;另一方面需要通过对历史出错情况的深入分析,对系统、网络等环境进行优化。

(2)备份数据恢复准确率。该指标用于评价已备份数据在后续使用(即数据恢复)时的有效性,其基础数据来自于备份数据的恢复验证结果,计算方法为:备份数据使用正确率=(数据恢复总次数-无法正常恢复的次数)/数据恢复总次数。

备份数据恢复正确率从事后验证的角度综合反映了备份管理的工作水平,它不仅体现了备份策略的执行结果,也与备份介质的保管情况密切相关。但由于是抽样指标,其可靠程度依赖于样本总容量(即数据恢复总次数)的大小。

CIO之家 www.ciozj.com 公众号:imciow
关联的文档
也许您喜欢