0 引言
绿色存储是技术、实践和策略的一种结合,它涉及从存储硬件架构到数据存储策略的方方面面,目的是通过技术和管理手段实现低耗高效的能源使用方法,在保证数据的可靠性、持续性的前提下实现存储空间、能耗、性能的最佳配比。通过实现绿色存储企业不仅可以提高存储效率,降低IT和能源成本的支出,而且还间接地为环保做出了贡献,这也是一种企业社会责任感的良好体现。
1 当前存储系统面临的主要问题
1.1存储空间利用率不高
随着存储需求的迅速增长,企业的存储设备也随之成倍增长。由于很多存储设备是被固定连结存某个主机服务器上,它的多余空间无法被其他主机利用,形成了很多存储系统的孤岛。一方面存储空间得不到有效利用;另一方面企业却不得不为日益增长的数据而增加存储设备。据统计一般企业的磁盘存储系统平均利用率仅有35%~50%,大量的重复数据也给存储和备份带来很大的压力,比如发送10M的文件同时给50个用户就会占用服务器500M的存储空间,在数据备份时也会占用同样的磁带空间,这些都导致了资源的浪费和存储的总体成本高居不下。
1.2管理成本高
存储设备的大量增加也使得管理变得越来越难,容易造成数据的丢失和中断,从而影响系统的运行,在这个角度上,存储管理人员需要更好的存储架构和工具来管理大量异构的存储设备和数据,提高工作效率,降低运维成本。
1.3数据持续性
随着信息化程度的深入,企业的日常业务对应用系统的持续运行有着越来越高的要求,关键业务都要求7×24 h不问断运行。由于存储扩容或者改变配置而造成的计划内或计划外的停机,将越来越无法接受,存储系统应该能为上层应用提供可靠透明的服务。
1.4能耗高
数据中心的能耗问题直接与磁盘相关,不断增加的存储设备在消耗大量电能的同时产生了大量的热量,进一步造成机房冷却系统的工作负荷,相应的电力成本、制冷成本、空间成本都随之增加,同时间接地影响了环保。
2 绿色存储的主要技术
实现绿色存储可以从存储层管理和数据层管理两方面人手,存储层管理的对象是从存储架构着手,通过存储空间的统一管理和分配、存储空间在线动态扩展和调整等实现企业数据架构的改变与优化,目的是为了向主机及其应用提供稳定、可靠、高效的统一存储空间,主要方式是存储虚拟化。在统一存储的基础上通过业务分析实现数据分类,通过分级存储、重复数据删除等技术,根据数据生命周期的规律和策略实现数据的高效低耗存储,从而使存储系统整体实现绿色化。
2.1存储虚拟化
根据SNIA(国际存储网络工业协会)的定义,虚拟化是通过将1个(或多个)日标服务或功能与其他附加的功能集合统一提供有用的全面功能服务。简单地说存储虚拟化是物理存储的逻辑表示方法,通过在服务器与存储之间设置一个抽象层,服务器被绑定到逻辑抽象层上,当改动底层所连接的物理存储设备如阵列的替换、分级存储时,面向服务器的逻辑接口保持不变,从而保证上层应用对实际存储的透明访问,同时存储虚拟化还能提供存储空间统一管理、分配以及数据迁移等功能。存储虚拟化根据虚拟点的不同在实现上主要有以下几种方式。
2.1.1 基于主机的虚拟化
基于主机的虚拟化是在主机服务器上安装存储虚拟化驱动软件,通过底层实际存储设备的抽象主机服务器就可以实现跨越多个异构的磁盘阵列的数据存储。这种类型的虚拟化通常是由主机操作系统下的逻辑卷管理软件来实现,卷和文件系统可以在服务器在线的情况下动态扩展或缩小。基于主机进行虚拟化的优点是其稳定性,以及对异构存储系统的开放性,缺点是它要求整个存储资源预先在多个服务器上分区,虚拟化只能在预先分配的存储空间上执行,这影响了卷相对于服务器的独立性。
2.1.2基于存储设备的虚拟化
当有多个主机服务器需要访问同一个磁盘阵列的时候,可以采用基于阵列控制器的虚拟化技术。通过阵列控制器将一个阵列上的存储容量划分成多个存储空间,并创建虚拟卷供不同的主机系统访问。配合使用不同的存储系统,这种基于存储设备的虚拟化模式可以实现性能的优化。这种虚拟化方法不依赖于某个特定主机,能够支持异构的主机系统,缺点是通常只能连接单一类型的存储系统,不能够跨越各个存储设备问的限制,缺少灵活性。
2.1.3基于存储网络的虚拟化
存储虚拟化的关键要求之一就是实现统一的存储资源池,存储网络虚拟化可确保存储技术能够跨不同厂商的设备工作,而以上描述的两种虚拟化方法的优点都可以在存储网络虚拟化上同时体现,它支持数据中心级的存储管理以及异构的主机系统和存储系统。目前存储网络虚拟化一般可采用两种形式来实现(见图1) ):(1)对称法(In—Band),虚拟化引擎直接位于主机服务器和存储设备的数据通道中间;(2)非对称法(Out—of—Band):虚拟化引擎位于数据通道之外,仅仅向主机服务器传送一些控制信息来完成物理设备和逻辑卷之间的地址映射。对称虚拟化方法通常要求虚拟设备安装在主机和存储资源的数据通路之间,其实现不需要对主机进行改动,主要缺点在于因为所有的数据访问都会通过这个引擎,容易造成性能瓶颈,从而限制存储系统的性能和可扩展性。而非对称方法中的虚拟化引擎物理上不位于主机和存储系统的数据通道中间,而是通过其他的网络连接方式与主机系统通信,通过在每个主机服务器上安装驱动软件或特殊的主机适配卡驱动实现存储逻辑地址到实际地址之问的转换。存储的配置和控制信息由虚拟化引擎负责提供,这种方式通过让多个存储子系统与多个服务器并行工作,整体性能得以提高,这样的架构具有对称虚拟化的灵活性,同时又不会影响性能,而且还避免了高昂的硬件成本;缺点是实施难度大于对称法,且每个主机都必须安装驱动软件。 2.2精简自动配置
通常启动一个新的应用系统时都会事先分配一定的存储空间,但这些存储空间却不一定能得到充分的利用,自动精简配置通过创建虚拟存储池自动分配和利用存储资源,现在许多存储系统供应商们将精简自动配置看作是按需分配系统物理存储空间的最佳解决办法,通过分配应用程序所期望的驱动器逻辑容量,同时又给应用程序分配实际需要的物理容量达到按需分配的目的,这就减少了实际的磁盘需求量,从而达到节约成本和能耗的目的。
图1 基于存储网络的虚拟化
2.3分层存储
分层存储是信息生命周期管理(ILM)的一种体现,其主要原理是根据数据在其生命周期不同阶段的价值和特性采用不同的存储策略,分层存储一般可以分为在线、近线和离线存储,如图2所示。在线存储是把数据存放在高性能的存储设备中,适用与数据使用初期高频率的访问,随着访问频率的降低,数据可以被迁移到近线存储,如廉价的大容量SATA硬盘,这样可以节省高端存储设备的使用空间,最后当数据很少需要访问时可以迁移到离线存储设备如磁带,作为数据归档和历史查询所用。可以看出分级存储通过存储设备的分级,实现了减少总体存储成本,同时高访问频率的数据不会受到大量低频率访问的干扰,能提升系统性能,同时数据分布更清晰,改善了数据可用性。
2.4重复数据删除
重复数据删除也被称为智能数据压缩或单一实例存储,是一种可以减小数据存储量的技术。重复数据删除的处理过程是通过确保实际上只有第一个单一实例数据被存储,而被删除的重复数据将由一个指向元数据的指针所代替。重复数据删除可以对文件、块或者位进行操作。在基于文件的重复删除中,如果2个文件完全相同,那么其中1个将作为备份文件被保存,而随后重复的文件将获取指向保存文件的指针;缺点是如果2个文件只是1个字节的差别也会被作为另外1个不同的文件全部保存下来。基于块和位的重复删除比较粒度比文件级更细,软件通过对文件进行比较,只保存每一块的单一重复部分。如果文件更新,那么只有被更改的数据才会被保存,所以基于块和位的重复删除要比文件级的重复删除有效率的多,块和位重复删除所能达到的压缩比一般从10:1到50:1。
2.5其他节能技术
为了进一步节省存储设备的能耗,厂商也提供了一些其他技术,如MAID(Massive Arrays of IdleDisks)大规模非活动磁盘阵列存储,MAID的技术原理是只有需要时才将一部分磁盘开机运转,而其他磁盘通常处于断电状态,也就是说MAID中所有的磁盘并不是每时每刻都是活动的,其子系统中大部分磁盘处于睡眠(断电)状态,直到系统发出请求,这就能节省大量的电力。另外有些厂商将温度传感器建立在存储阵列中,并依靠其他硬件将冷却技术用到最需要的地方,例如HP的Dynamic SmartCooling System可以为数据中心节省20%~40%的能源消耗;其他还有一些如集中化的基于直流电源的分配系统,为服务器和存储设备提供直流电源等。 3 实现策略
3.1做好虚拟化评估
存储虚拟化是一项复杂的工作,在决定虚拟化之前管理人员应该对虚拟化前后面临的问题有一个全面的评估,主要关注点有:
(1)性能和可靠性。存储虚拟化通过增加虚拟层实现了存储统一管理,但网络带宽和虚拟设备的性能也可能成为系统性能的瓶颈,同时磁盘的共享也可能引起不同应用的I/O争用,从而影响应用性能和服务质量。随着存储设备的逐渐集中,可靠性也显得越发重要,考虑采用高可用性架构如链路聚合和设备冗余、故障转移等确保系统的高可靠性。
(2)容量规划和风险评估。对系统当前和未来一段时间的存储要求有一个清晰的计划,诸如精简自动配置等技术需要管理人员对存储容量有一个谨慎的考虑,防止存储需求突增时造成容量的短缺,从而影响系统运行。同时要考虑虚拟化环境中的硬件故障、操作错误、安全漏洞等所带来的风险,做好防范措施。
(3)获得支持。支持分为技术支持和用户支持。虚拟化不仅仅是IT部门的工作,由于涉及数据的重新分布和空间共享,有些用户可能出于安全的考虑不愿意与其他应用共享空间,IT人员事先需要做好需求分析,得到用户的支持;另一方面虚拟化在资源集中的同时也造成了风险集中,IT部门应该保证有足够的技术支持能力来应对虚拟化后带来的新问题。
(4)数据备份和兼容性。大量的数据备份可能造成备份窗口的显著增加,数据分级存储也会对备份策略产生影响,管理人员需要在备份时间和恢复时间之间做好平衡,同时应用数据在虚拟环境下的兼容性也必须有所考虑。
3.2选择适用的虚拟化技术
不同的虚拟化方案和技术都有其适应的应用环境,存储管理人员应该在之前评估的基础上选择适合自身的虚拟化方案,可以根据企业目前的情况先采用简单的方案,然后考虑扩展性,避免一步到位的思想,虚拟化技术中有很多并不成熟,过早过高的设备投入不仅造成资金浪费也造成设备能力的浪费,在实施时采用分步走的办法,逐步虚拟化,既可以分散风险,又可以根据运行情况随时调整系统的性能,有利于系统的平稳过渡。
3.3做好数据分类
存储虚拟化实现了存储资源的统一管理,但这只是实现绿色存储中的一方面;另一方面就要在存储的数据上下工夫,存储管理人员必须对数据的生命周期和服务级别有一个全面的评估,以此为基础进行数据分类,数据分类规划是非常重要的,是实现存储优化策略的基础,数据访问、数据可用性、数据安全、数据响应时间、数据保护等服务级别都可以作为数据分类的依据,有了这些,存储管理人员就可以实现数据在其生命周期中的自动迁移,节约成本,简化管理。数据分类策略必须得到业务人员甚至公司的认可才可以付诸实施。
实现绿色存储是一个循序渐进的过程,与任何持续流程一样,当启用一个新的平台时,一定要密切关注虚拟设备的运行情况,这是至关重要的。同时应当建立性能和使用方面的一些准则及阈值,实时监控,定期评估这些衡量标准,并进行调整及改进,必要时还要考虑调整硬件配置,改善网络架构。
4 结语
绿色存储是多种技术和管理方法的有机结合,其中很多技术还不是很完善,也有各自的利弊,如数据生命周期管理就一直处在不断探索的阶段。存储虚拟化技术虽然有很多优点,但缺点也很明显,它需要专门的元数据管理和资源管理设备,这些设备需要通过冗余保证其可用性,这会增加系统的复杂性,存储虚拟化的标准也有待完善,所以全面实现绿色存储还有很长的路要走,存储管理人员需要结合实际,以实用、适用为主的原则充分利用现有资源,找到最适合企业的绿色存储之路才是最为重要的。
CIO之家 www.ciozj.com 公众号:imciow