根据统计显示,超过30天的数据的使用率只有不到5%,80%的硬盘数据是不经常被访问的,但这些80%的数据却占据了宝贵而且昂贵的磁盘空间,但这些数据仍然很重要,必须完好的保存,如何来处理这些过往数据及合理利用存储空间,确保以最低的存储成本来实现数据的最佳存储?对管理大量数据信息的档案部门来说,这是一个很重要的问题。而分级存储策略的提出可以解决此问题,可以实现存储成本和数据利用之间的平衡,实现电子文件存储管理的高效化,简约化,保证电子文件数据的存储安全。
一、什么是分级存储
任何一种数字文献资源都具有生命周期,不同的时期有其存在的不同意义。在数据刚生成的数日内,访问频率最高,为读者带来的使用价值也最高:随着时间的推移,访问频率降低,数据的价值也随之下降,低访问频率的数据量远远超过高访问频率的数据量。不同生命周期的数据是提供给不同使用对象的,这就为以最低的成本获得最高的使用价值提供了可能。
分级存储就是以信息生命周期管理理论为依据,根据数据所能提供的使用价值来决定存储成本、存储设备。文件由分级存储系统依据用户设定的策略(如根据数据类型,重要性、使用频率和时限)有选择地对某些数据进行迁移。直接将其拷贝到分级存储介质(数据迁移),当文件被正确拷贝后。一个与原文件有相同名字的标志文件被创建。但它只占用比原文件小得多的磁盘空间。当用户访问这个标志文件时,分级存储系统会自动介入进来并将原始文件从正确的分级存储介质上恢复过来并覆盖标志文件{数据回迁)。
数据分级存储之所以重要,是因为它既能最大限度地满足用户需求,又可使存储成本最小化。数据分级存储的优点具体表现在以下4个方面:
·减少总体存储成本:不经常访问的数据驻留在较低成本的存储器中,可综合发挥磁盘驱动器的性能优势与磁带的成本优势。
·性能优化:分级存储可使不同性价比和不同时期的存储设备发挥最大的综合效力。
·改善数据可用性:分级存储把很少使用的历史数据迁移到辅助存储器中,或归档到离线存储池中,这样就无需反复保存,减少了存储的时间;同时提高了在线数据的可用性,使磁盘的可用空间维持在系统要求的水平上。
·数据迁移对应用透明:进行分级存储后,数据移动到另外的存储器时,应用程序不需要改变,使数据迁移对应用透明。
二、分级存储应遵循的要求
2.1 数据的安全性
分级存储应保证数据的安全性,宜采取在线、近线、离线备份的多层次备份方式,周期性保存数据的历史,以便数据发生损坏时,使用备份数据恢复到错误发生之前的状态,以确保数据的正常访问。并建立严格的备份策略、流程等一系列手段确保利用数据、备份数据的安全。
2.2 数据的高可用性
分级存储应保证数据有较高的访问速度,特别是在线数据的实时获取。此外,分级存储还必须考虑存储设备的灾备性能,保证数据的真实性、完整性和长期可读性,保证数据的安全可用。
2.3 容量可扩展性
近年来数据量爆炸性增长,数据总量呈指数上升,档案部门也面临着数据量的不断增长。所以分级存储必须考虑各种存储设备的容量扩展性,以保证在一定的时期内有足够的容量以适应不断增长的数据量。
2.4 设备的兼容性
分级存储最主要的两种处理为数据迁移和数据回迁,即根据数据类型、重要性,使用频率和时限实现数据在各级存储设备间的迁移。因此,分级存储必须保证各种存储设备间的兼容性、存储设备与存储管理软件的兼容性、以及各种存储设备对不同存储格式的支持。
2.5 管理的高效性
分级存储应遵循分布式存储,集中管理的原则,对各级存储设备和数据进行集中统一管理,并对数据资源、存储设备和空间的使用权限和日志进行严格完备的定义,简化存储管理过程。以实现自动化的高效管理。
2.6 经济效益性
不经常访问的数据可存储在较低成本的存储设备中,而访问频率较高的数据可存储在性能较高的存储设备中,分级存储应采用多种存储方式、多种存储介质相结合的方式,综合发挥各种存储设备的性能优势或成本优势,在降低单位存储成本的同时,保证并提高数据的安全性和利用率。
三、分级存储成本分析
图1显示,存储介质的性能与成本呈正比关系:性能越好、存取速度越快,单位存储成本越高,反之亦然。然而,存储介质的容量和成本是呈反比关系:容量越大,单位存储成本越低.存取速度也就越慢。性能、容量、成本不能同时实现,只能找一个平衡点。
图1:存储介质性能,容量,成本比例图
根据信息生命周期管理理论,分级存储应该根据数据的使用价值来决定存储成本、存储设备。在线存储中存储的数据访问频度较高、访问量多,其使用价值比较大,对访问速度的要求比较高,因此应该选用“高性能—昂贵”的存储设备。近线存储中存储的是不经常利用的,或者说数据的访问量并不大的数据,其要求大容量,有一定寻址速度和传输率的设备,因此离线存储宜选用“低速—大容量”的存储设备。离线存储的主要用于数据的备份和恢复,在大多数的情况下,存储设备上数据会尽量少的进行访问操作,因此,离线存储的要求是实现海量存储,并且成本低,它对性能的要求不高。因此,离线存储应该选用“大容量—便宜”的存储设备。
四、存储方式
4.1 在线存储
访问频繁、瞬时数据量大、同时访问量多的数据应采用在线存储的方式。(如用于在线查询和利用的数据。)
4.2 离线存储
访问的频率很低,访问速度要求不高,存放的时间较长的数据宜采用离线的方式进行存储。(如备份数据或者法律要求或政府规定等要保留多年的数据等。)
4.3 近线存储
需要定期但访问频率和访问速度要求不高的数据应当以近线方式进行存储。
五、各级存储之间的转换
通过相应的分级存储管理软件,根据定义的策略或规则,分级存储可以实现数据在各级存储之间的动态转换,实现存储的动态管理,如图2所示。分级存储之间的转换只有两种操作处理,即“数据迁移”和“数据回迁”。
图2:分级存储之间的转换图
5.1 数据迁移
在线、近线、离线存储通常也称为一级、二级、三级存储。数据迁移是指,将上一级存储设备中不常用的数据,按照指定的策略或规则(如按照各级存储定义的数据标准)自动迁移到下一级存储设备上。
迁移条件:
·数据已经不符合所在存储级别的数据标准(如在线存储要求的数据访问频率为5次/天,但是数据的实际平均访问频率低于此标准)
·存储设备上存储空间已满或者将满,数据被迫要求迁移(如定义存储设备的预留空间必须为20%,当达到这一条件时,将对本级存储中的数据进行检测,将部分不常用的数据进行迁移。)
迁移路径:在线到近线、近线到离线
迁移的实现:由档案管理软件或由专门的分级存储管理软件实现
迁移效果:现把大量不经常访问的数据放置在离线或近线设备,提高存储资源利用率。大大降低设备和管理成本。
5.2 数据回迁
数据回迁是指,将下一级存储设备中的数据,按照指定的策略或规则(如按照各级存储定义的数据标准)自动调回上一级存储设备中。数据回迁是数据迁移的一个反向操作过程。
回迁条件:
·基于用户对该数据的访问请求而激活
·一段时间内数据已经超过了所在存储级别的数据标准(如近线存储要求的数据访问频率为5次/月,但是数据的实际平均访问频率高于此标准)
回迁路径:从离线到近线,从近线到在线。
回迁的实现:由档案管理软件或由专门的分级存储管理软件实现。
回迁效果:满足了用户的利用需求,提高数据的访问速度和利用率。
分级存储中有专门的日志来记录每一次的迁移和回迁过程。
CIO之家 www.ciozj.com 公众号:imciow