云存储技术及其应用
周可 王桦 李春花 万方数据 |
近年来,随着云计算和软件即服务(SaaS)的兴起,云存储成为信息存储领域的一个研究热点。与传统的存储设备相比,云存储不仅仅是一个硬件,而是一个网络设备、存储设备、服务器、应用软件、公用访问接口、接入网和客户端程序等多个部分组成的系统。
    云存储提供的是存储服务,存储服务通过网络将本地数据存放在存储服务提供商(SSP)提供的在线存储空间。需要存储服务的用户不再需要建立自己的数据中心,只需向SSP申请存储服务,从而避免了存储平台的重复建设,节约了昂贵的软硬件基础设施投资。
    云存储这个概念一经提出,就得到了众多厂商的支持和关注。Amazon公司推出弹性块存储(EBS)技术支持数据持久性存储;Google推出在线存储服务GDrive;内容分发网络服务提供商CDNetworks和云存储平台服务商Nirvanix结成战略伙伴关系,提供云存储和内容传送服务集成平台;EMC公司收购Berkeley Data Systems,取得该公司的Mozy在线服务软件,并开展SaaS业务;Microsoft公司推出Windows Azure,并在美国各地建立庞大的数据中心;IBM也将云计算标准作为全球备份中心扩展方案的一部分。
    2009年12月,因特网数据中心(IDC)发布的2010年IT和电信行业十大预测中指出:云计算将扩张并走向成熟,会诞生许多新的公共云热点、私有云服务、云应用以及将公共云与私有云联系起来的服务。

1 云存储技术

    云存储系统与传统存储系统相比,具有如下不同:第一,从功能需求来看,云存储系统面向多种类型的网络在线存储服务,而传统存储系统则面向如高性能计算、事务处理等应用;第二,从性能需求来看,云存储服务首先需要考虑的是数据的安全、可靠、效率等指标,而且由于用户规模大、服务范围广、网络环境复杂多变等特点,实现高质量的云存储服务必将面临更大的技术挑战;第三,从数据管理来看,云存储系统不仅要提供类似于POSIX的传统文件访问,还要能够支持海量数据管理并提供公共服务支撑功能,以方便云存储系统后台数据的维护。

    基于上述特点,云存储平台整体架构可划分为4个层次,自底向上依次是:数据存储层、数据管理层、数据服务层以及用户访问层。云存储平台整体架构如图1所示。

 

 
(1)数据存储层

    云存储系统对外提供多种不同的存储服务,各种服务的数据统一存放在云存储系统中,形成一个海量数据池。从大多数网络服务后台数据组织方式来看,传统基于单服务器的数据组织难以满足广域网多用户条件下的吞吐性能和存储容量需求[7];基于P2P架构的数据组织需要庞大的节点数量和复杂编码算法保证数据可靠性[8]。相比而言,基于多存储服务器的数据组织方法能够更好满足在线存储服务的应用需求[9],在用户规模较大时,构建分布式数据中心能够为不同地理区域的用户提供更好的服务质量[10]。

    云存储的数据存储层将不同类型的存储设备互连起来,实现海量数据的统一管理,同时实现对存储设备的集中管理、状态监控以及容量的动态扩展,实质是一种面向服务的分布式存储系统。

    (2)数据管理层

    云存储系统架构中的数据管理层为上层提供不同服务间公共管理的统一视图。通过设计统一的用户管理、安全管理、副本管理及策略管理等公共数据管理功能,将底层存储及上层应用无缝衔接起来,实现多存储设备之间的协同工作,以更好的性能对外提供多种服务。

    (3)数据服务层

    数据服务层是云存储平台中可以灵活扩展的、直接面向用户的部分。根据用户需求,可以开发出不同的应用接口,提供相应的服务。比如数据存储服务、空间租赁服务、公共资源服务、多用户数据共享服务、数据备份服务等。

    (4)用户访问层

    通过用户访问层,任何一个授权用户都可以在任何地方,使用一台联网的终端设备,按照标准的公用应用接口来登录云存储平台,享受云存储服务。
与传统的购买存储设备和部署存储软件相比,云存储方式存在以下优点:

    (1)成本低、见效快

    传统的购买存储设备或软件定制方式下,企业根据信息化管理的需求,一次性投入大量资金购置硬件设备、搭建平台。软件开发则经过漫长的可行性分析、需求调研、软件设计、编码、测试这一过程。往往在软件开发完成以后,业务需求发生变化,不得不对软件进行返工,不仅影响质量,提高成本,更是延误了企业信息化进程,同时造成了企业之间的低水平重复投资以及企业内部周期性、高成本的技术升级。在云存储方式下,企业除了配置必要的终端设备接收存储服务外,不需要投入额外的资金来搭建平台。企业只需按用户数分期租用服务,规避了一次性投资的风险,降低了使用成本,而且对于选定的服务,可以立即投入使用,既方便又快捷。

    (2)易于管理

    传统方式下,企业需要配备专业的IT人员进行系统的维护,由此带来技术和资金成本。云存储模式下,维护工作以及系统的更新升级都由云存储服务提供商完成,企业能够以最低的成本享受到最新最专业的服务。

    (3)方式灵活

    传统的购买和定制模式下,一旦完成资金的一次性投入,系统无法在后续使用中动态调整。随着设备的更新换代,落后的硬件平台难以处置;随着业务需求的不断变化,软件需要不断地更新升级甚至重构来与之相适应,导致维护成本高昂,很容易发展到不可控的程度。而云存储方式一般按照客户数、使用时间、服务项目进行收费。企业可以根据业务需求变化、人员增减、资金承受能力,随时调整其租用服务方式,真正做到“按需使用”。

2 云备份应用

    云存储可以支持多种应用方式,如云备份、云数据共享、云资源服务等,也可以提供标准化的接口给其他网络服务使用。下面以我们自行研制的B-Cloud云备份为例,简单介绍云存储应用的具体技术细节。B-Cloud的部署结构如图2所示。云备份系统包括3个层次的备份云:

 

 
   图2 B-Cloud 部署结构

    最上层为广域云,也称公共云,覆盖范围为所有备份客户可以通过广域网访问的区域。广域云的服务器包括广域管理器、广域云存储节点等。

    中间层为区域云,通常按照地理区域(如省、地区等)来划分。相应地,服务节点包括区域云管理器、区域云存储节点。

    最下层为本地云,也称私有云。本地云既可以按小的地理区域划分,也可以按照特定实体划分,如企业、组织或校园。本地云可运行于广域网或局域网,用户限于区域内的人员,服务节点包括本地管理器、私有云存储节点。

    区域云、私有云同广域云一样,具有多个本地的存储节点,共同服务于多个备份客户端。

    B-Cloud云备份系统的拓扑结构可描述为:以广域云为根节点,区域云和本地云为分支节点,构成的一颗备份云的树状结构。每个节点都具有自己的备份管理器与存储节点,分别完成本区域内的备份任务调度与备份数据的存取。物理相连的广域云、区域云、本地云之间,相邻两层的关系为父子关系,其中子节点可看作是父节点的一个特殊客户。该结构具有良好的扩展性,当前定义了3个层次,随着用户规模的增长、服务区域的拓展,可根据需要对某级节点进行裂变,增加新的节点层次。

    新用户注册时,首先访问系统的注册服务器(负责全局用户管理)。由注册服务器按照预先定义的分配策略,匹配用户的特征信息,如客户端IP地址所属的网段或区域、Email地址所属的组织、用户所属的地理区域等,将用户分配到相应的备份云节点。由备份云的管理服务器进行用户信息的维护。完成注册后,备份客户端每次请求服务时,只需登录系统,在指定的备份云节点下,与相应的备份管理器、存储节点进行三方通信,接受备份及恢复服务。

    按照访问就近原则,地理位置越近,实体之间数据传输的效率越高、成本越低。通过这种分层拓扑结构,使得备份服务系统中的多调度服务器和多存储服务器建立一种有序的层次关系,能够更好地服务于不同区域的多备份客户端。


 云备份服务的应用特点决定了应用需求,需求驱动了云备份需要研究的3项关键技术的发展。B-Cloud云备份系统的研究涵盖了服务架构的几个方面,他们相互之间的关系如图3所示

 

图3 应用需求与研究内容之间的关系

    云备份服务与传统的备份软件相比,不同点主要体现在3个方面:

    (1)用户规模

    备份软件通常应用于局域网或目标群体固定的广域网范围内。由于用户规模较小,出于易于部署维护、成本低廉等考虑,通常存储服务器较少,用户对存储服务器的访问路径是固定的,无须根据各种影响因素动态指定或调整。

    云备份服务的对象则是广域网范围内的大规模用户,而且随着服务推出时间的延长,用户数量会持续增长。为此,系统必须设置多台存储服务器,以满足系统扩展性方面的要求。在此基础上,系统必须能够很好地响应大量用户的并发访问,并通过高效的并行调度策略来为用户指定合适的目标存储服务器,使得存储服务器总体负载均衡,且达到较高的存储利用率。同时,该过程必须对用户完全透明。

    (2)数据量

    云备份服务与备份软件在用户规模上的区别将直接导致两者所处理的数据量区别极大。广域网范围内的大规模用户所产生的备份数据很容易达到TB甚至PB级,如何通过研究数据组织方法和压缩算法,来提高海量数据的传输和存储效率,进而提高系统性能、降低硬件成本、实现存储节能,具有重要的现实意义。

    (3)服务安全

    云备份服务要满足多方面的需求:既要兼容客户端的异构数据平台,又要满足数据在块级、文件级及应用级的完整性;既要适应于复杂多变的广域网环境,又要保证数据的安全性。

    要统筹兼顾的问题越多,意味着存储系统的功能越复杂,也就越容易产生各种异常。另一方面,云备份服务系统比一般的备份软件对可信性的要求更高。

    当前备份服务的概念在中国刚刚兴起,阻碍其发展的一个重要原因是用户的消费习惯。人们在潜意识里总是感觉将关键数据备份在可视范围内的身边设备上比较安全。而一旦要求用户把私密数据备份到异地的数据中心,则会担心数据安全性能否得到充分保障。客观上云备份服务容易产生各类异常,主观上用户对备份服务更高的安全需求,都造成了对云备份服务的安全性研究刻不容缓。

    以上讨论的云备份的应用特点对应了如下云备份研究的几个主要方面:

    (1)命令流

    B-Cloud包括三大部分:备份客户端、管理器和存储服务器。管理器是整个服务系统的管理中心,负责任务调度、作业管理及服务过程中的状态监控。备份或恢复操作开始之前,从备份客户端提出服务请求,到系统开始提供服务这段时间,3个部分除了执行双向安全认证之外,还有一项很重要的任务就是由管理器完成作业调度,建立备份客户端与存储服务器之间的联系。

    (2)数据流

    备份或恢复数据流的传输在备份客户端与存储服务器之间直接完成,不需要经过管理器。这种数据不经过中间环节直接在数据源和目的地之间的传输,不仅提高了效率,而且对系统整体负载平衡起到了较好的效果。备份数据组织与压缩是数据传输与存储的关键所在。

    (3)服务的安全性

    云备份的安全涉及到服务平台的安全性、各个模块的安全性及模块之间协调和通信的安全性。这个问题需要专门的论述才能阐述清楚,本文不做过多讨论。

3 结束语

    本文介绍了云存储技术,并以云备份为例,讨论了云存储应用实现当中需要注意的几个问题。以服务的方式满足应用需求,已经成为信息领域技术发展的一种趋势,但如何实现云存储,并使其广泛应用,还需要更多的研究和努力。

CIO之家 www.ciozj.com 公众号:imciow
关联的文档
也许您喜欢