大数据是指社会生产生活和管理服务过程中形成的,依托现代信息技术采集、传输、汇总的,超过传统数据系统处理能力的数据,具有数据量大、数据类型多、处理速度要求快等特点,通过整合共享、交叉复用、提取分析可获取新知识,创造新价值。科学界一般将大数据视为“海量数据+复杂的数据类型”。
21世纪是数据信息大发展的时代,移动互联、社交网络、电子商务等极大拓展了互联网的边界和应用范围,各种数据正在迅速膨胀并变大。2015年的统计数据显示中国大数据IT应用投资规模,其中金融领域(8.9%)排名第三(如图1)。金融业中又以银行业大数据应用投入最大。银行业具有信息化程度高,数据质量好,数据维度全,数据场景多等特点,因此大数据应用的成熟度较高,也取得了较好的成绩。
纵观近几年国内外银行业发展趋势,利用大数据技术预测客户行为并据此优化业务模式,成为大型银行转型的共同趋势,一些领先银行已经借此取得了较大竞争优势。例如花旗银行亚太地区,近年来有25%的利润来自于数据挖掘;汇丰银行通过数据挖掘开展交叉销售,使客户贷款产品响应率提高了5倍。总的来看,银行大数据应用目前主要集中在客户画像、精准营销、风险管控和运营优化等领域。在“十二五”规划中,大数据已不再只是专有名词,大数据已然上升为国家战略。
一般情况下在数据量低于20TB,用户数量低于50万时,传统的数据仓库和分析工具可以满足数据分析需要。如果需要处理的数据超过这个范围,传统数据平台的投资会高达几千万,未来维护成本也很高。这种情况下银行业需要利用大数据平台来处理。在这个量级以上大数据平台处理效率比传统的数据仓库要高很多,总的投资费用和维护费用也要更低。大数据平台普遍要求高效性,并发数据处理能力强,能在短时间内分析处理海量的数据。一般采用分布式处理、分布式数据库及分布式存储,把数据分散在多个节点上进行高效处理。高扩展性,可以灵活地从几十台扩展到几千台不等的各种规模,能够处理PB级数据;高容错性,自动保存数据的多个副本,自动将失败的任务重新分配;读多写少,更强调查询性能,适合各种纬度的数据挖掘分析。
随着我国经济的发展和直接融资规模不断扩大,银行业仍有不错的前景。银行业由于追求效率、优化结构和控制风险的需要,未来越来越依赖大数据技术的支持。贵阳大数据交易所预测,我国金融大数据市场规模预计2020年将达到450亿元。总的来看,大数据在银行业的应用深度和广度还有很大的扩展空间。银行业的大数据应用依然有很多的障碍需要克服,比如银行企业内各业务的数据孤岛问题严重、大数据人才相对缺乏以及缺乏银行之外的外部数据整合等问题。可喜的是,银行业尤其是银行的中高层对大数据渴望和重视度非常高,相信在未来的几年内,在互联网和移动互联网的驱动下,银行业的大数据应用将迎来突破性发展。
随着银行业大数据应用的蓬勃发展,需要存储的数据量呈爆发式增长,配套的服务器设备、网络设备大量增加,对数据中心存储系统、网络系统、数据备份、机房等基础设施提出了巨大挑战。提前做好基础设施的规划对于银行业大数据应用的可持续发展至关重要。
1.大数据与存储方式规划
当前面临数据爆炸的问题,一是数据量的爆炸性剧增。最近2年所产生的数据量等同于2010年以前整个人类文明产生的数据量总和;二是数据来源的极大丰富,形成了多源异构的数据形态。其中非结构化数据(包括语音、视频、图像等)所占比例逐年增大。2006 年才刚刚迈进TB时代,全球共新产生了约180EB的数据,在2011 年这个数字就达到了1.8ZB。而有市场研究机构预测:到2020 年,整个世界的数据总量将会达到35.2ZB(1ZB=10 亿TB),如图2。
根据波士顿咨询公司发布的《互联网金融生态系统2020系列报告之大数据篇》,该报告显示,银行业的数据强度高于其他行业,每创收100万美元,平均就会产生820GB的数据,而在电信行业产生的数据量为460GB,快速消费品行业这一数字仅为180GB。由此可见,银行业的数据量更大,对存储系统的要求更高。
大数据的存储成本非常昂贵。“2000年左右,某国有商业银行建设数据仓库,一期投资是1亿元”。尽管数据储存成本已经从每GB单位10万元降低到每TB单位10万元,但是银行业的大数据量已经快速地从TB级增加到了PB级。以存储10PB的数据来计算,存储成本高达10亿元。参考互联网行业的大数据,2012年百度的大数据存储量就已经超过100PB,阿里巴巴的存储量也超过60PB,腾讯的TDW存储容量在2014年达到100TB,Yahoo 2012年的存储量更是超过350PB。银行业的大数据预计在未来几年将突破1000PB,达到EB级。
银行应该如何选择大数据的存储呢?为了降低数据存储成本,采用高端的SAN和IP SAN存储,甚至NAS存储都是不可行的。银行的大数据存储可以采用廉价的大容量X86服务器,普通的X86服务器设备已经可以达到43.2T/台。同样储存10PB数据,采购230台X86服务器,存储成本可以降低到2300万元,在提供存储空间的同时,还获得了强大的计算能力,可谓“一举两得”。由于X86服务器处理能力已经大大提高,完全可以满足一般的大数据处理性能需求。同时,建议按照大数据访问频繁程度分层,按“温度”放在不同档次的存储上,对于大数据应用对读写性能要求较高的场景,可以配置SAS硬盘,未来还可以考虑使用SSD固态硬盘。对于读写性能要求不高的应用,例如历史归档数据,可以使用更廉价的SATA硬盘,单台设备容量已经可以达到136TB,进一步降低大数据储存成本,可以参考的服务器配置如表1。
2.大数据与网络架构规划
大数据规模从几TB到几PB数据量不等,要求高性能系统实时地或者接近实时地处理大量数据。适用于大数据的技术包括大规模并行处理(MPP)数据库、数据挖掘网格计算、Apache Hadoop框架、分布式文件系统、分布式数据库、Map Reduce算法、云计算平台、互联网和归档存储系统。大数据一般采用庞大的计算集群和先进技术及算法来减少数据集,并控制数据如何进出服务器,需要以非常高速和高性能的方式连接计算机的最新网络架构。
目前,各家网络厂商正在以支持大型计算集群的新网络架构配置来应对这些需求。传统网络分为核心层、汇聚层和接入层,对于担负以往工作负载的数据中心是适用的。当通信方式以南北方向(换句话说,就是进出数据中心的通信)占主导地位时,传统数据中心三层架构还是具有优势的(如图3)。
但是当银行业大数据应用的通信以东西方向占主导地位时(如计算集群或虚拟化计算),传统的三层网络架构就不再适用,需要使用分布式核心架构。例如一台服务器需要与不在同一网段上的服务器进行通信时,必须通过接入层—汇聚层—核心层—汇聚层—接入层的路径。这种方式在面对成千上万台服务器相互通信的大数据业务时就不是一种有效的方式,不但系统带宽会被大量消耗,还会造成不可预测的延时,从而形成网络阻塞。因此近年来全球大型互联网数据中心越来越多地采用便于横向数据传输(东西向)的叶脊两层(Leaf-Spine)网络结构。
分布式核心架构也称为“Leaf-Spine架构”(如图4),它包括两种类型节点: 一种节点连接服务器和架顶设备(leaf节点);第二种节点连接交换机(spine节点),Leaf-Spine系统架构内的任意两个端口之间提供延迟非常低的无阻塞性能。其最大的特点就是每一个叶交换节点都与每一个脊交换节点相连,从而大大提高了不同服务器间的通信效率并且降低了延时。此外,采用脊叶两层网络结构可以不必采购价格昂贵的核心层交换设备,并且更便于根据业务需要逐渐增加交换机和网络设备进行扩容,有效节省初期投资。
根据实践经验来看, 分布式核心架构可以很好地适应目前银行业的GreenPlum和Hadoop大数据集群,根据大数据对网络带宽的需求,建议优先采用10GB网络接入。随着用户对数据中心网络带宽需求的逐年提高,数据中心主干网络已经逐渐由10G向40G演进,今后还将会升级到100G。这种网络结构不但可以支持40G网络,还可以平滑地升级到未来的100G网络,有效解决了用户对未来系统升级的困扰。
3.大数据与数据备份方式规划
大数据非实时数据,数据量巨大,如何进行数据备份,防止数据丢失。按照单个大数据集群10PB的数据量,如果采用传统数据备份方式,有两个问题难以解决:一是备份时间过长,每次的备份时间将达到数十小时,甚至数天。例如备份100TB的数据需要约10小时,备份10PB的数据则需要1000小时。二是备份目标消耗的存储资源过多,如果保存多份全量数据,无论是磁带备份,还是磁盘备份,都无法满足大数据备份的海量需求。
由于大数据应用通常并不会被定位为关键业务系统,不会用于处理运营数据,虽然它们也支持销售和营销决策,但是并不会显著影响一些核心运营业务,如客户管理、订单、库存和配送等。遇到大数据时该怎么办?大多数公司认为大数据的备份与恢复并不重要。其中包括以下原因。
一是故障发生后对可选数据(账户、订单等)的恢复有着更高的优先级。二是大数据解决方案并不运行关键业务。此外,由于分析是在一个大范围的时间序列上进行的,所以大数据恢复并不需要做到完全最新。三是大数据真的很大,因此备份大量数据所需要的存储介质成本是难以承受的。四是对于处理数据和必要的数据通道容量来说,存储和加载到大数据表是非常昂贵而又耗时的,事实上,它可能会需要几天或几星期的时间才能完整恢复整个数据存储。
银行业大数据备份采用那种方式呢?根据实践经验来看,银行业大数据由于数据量大,不适合采用传统的磁带库等数据备份方式,建议可以采用数据复制的方式。通过采用廉价的大容量服务器进行数据备份,保存多份数据的方式,结合全量备份和增量备份。例如Hadoop的HDFS就内置了数据复制方式,可以灵活设置数据复制的份数,GreenPlum也有类似的机制。在一次全量备份的基础上,后续采用增量备份。另外,还建议结合数据压缩和重复数据删除技术。大数据不能采用传统磁带库备份或虚拟带库方式,更不适合采用本地与远程副本方式,复制远程副本必然大量消耗网络带宽,需要额外增加网络线路的成本。采用数据复制的主要优点:一是降低成本;二是提高读写速率,读取数据更加方便。当然,这种方案的缺点是显著增加了X86服务器的数量。以10PB大数据量为例,储存一份数据需要230台服务器,如果再保留一份数据副本则需要增加到460台服务器,服务器的增加对机房规划提出了新的挑战。
4.大数据与机房规划
目前大数据普遍采用X86服务器物理机构建集群的方式,例如阿里巴巴2012年的Hadoop集群规模已经高达5000台;腾讯2012年的Hadoop集群总数超过5000台,最大单集群约为2000台;百度2012年的集群数近10个,单集群超过2800台,Hadoop总数超过万台。2017年的最新数据表明,腾讯最大集群约8800台,阿里巴巴最大集群接近1万台,百度最大集群也接近1万台,华为最大集群约3000台。银行业大数据应用也采用大量廉价X86服务器,例如农业银行2015年建成的Gbase国产大数据集群采用了236节点X86服务器。某国有银行单个Hadoop大数据最大集群已经接近580台,GreenPlum最大集群也接近200台,这样的集群累计有数十个,所有大数据服务器已经达到约3000台。
结合大数据行业趋势,根据目前的增长情况判断,未来银行业大数据服务器的规模还将快速增加,几年内将很快突破5000台,甚至超过10000台。如此大规模的服务器,必然对数据中心的机房、电力、网络都提出挑战。结合实践经验来看,银行业大数据应用的机房规划需要重点考虑如下因素。
单独的大数据机房空间。由于大数据网络架构的特殊性,建议规划单独的大数据机房空间,避免网络流量互相影响。
机房空间的扩展性。由于大数据应用采用集群方式,集群内的节点之间有大量的内容如网络通信流量,对带宽和延时要求极高。因此,同一大数据集群内的节点扩容通常需要部署在同一Spine架构下,这种扩容方式可以把网络流量限制在小范围内,避免影响到网络的汇聚和网络的核心。跨机房楼部署会遇到问题,阿里巴巴在大数据单个集群规模达到5000台时遇到了跨机房问题,建议在大数据应用部署时,预留未来扩容相邻的机房空间。
提高机房的供电密度。为了适应大量部署X86物理机,节省机房空间资源,需要提高机房内单机柜的部署能力,例如42U的机柜至少可以部署12台,甚至16台2U的服务器,按照每台服务器的实际功耗440W计算,16台的总功耗超过了7KW。有些数据中心已经在尝试采用50U以上的机柜,每机柜部署超过20台2U服务器,功耗将高达8.8KW。建议开辟专门的大数据机房,并提高机房供电密度。
本文研究了银行业的大数据应用发展现状,随着大数据应用的快速发展,对数据中心的基础设施规划提出了挑战。本文查阅了大量文献资料,经过理论研究,并结合生产实践,探讨了银行业大数据基础设施规划相关的解决方案:大数据存储可以采用大容量X86服务器,按照数据访问频繁程度分层存储;使用分布式核心架构“Leaf-Spine”网络架构满足大带宽,低延时的网络需求;数据备份可以采用内置数据复制,复制多份数据,并结合增量备份、压缩、重复数据删除等技术;提前规划机房空间,提高机房供电密度,更好地满足大数据业务发展。
CIO之家 www.ciozj.com 公众号:imciow