关于大数据这个东西,谈论这个东西我一直非常感慨。N多N多千年前人类也在进行大数据。那时候如果有一个人在那个年代有一篇甲骨文记录一下重要的信息,我相信在那个年代对他来讲就是大数据。
实际上大数据演变到今天,我们已经进入到一个大数据时代。我们有新的数据我们才讲大数据。没有新的数据大数据是一个伪命题。有蛮多的企业没有想这个问题。实际上我们整个IT系统很显然在过去几十年里面,从主机开始到PC到客户服务器系统到今天这个年代,我们基本上都是由人来产生这些对于一个公司或者对于一个实体可以见到或者可以管理。这样数据产生方式还是很原始的,虽然相对甲骨文年代已经好了太多了,但是它的数据量是少的,产生的数据是慢的。
今天为什么我们讨论大数据?是因为有新数据产生。有两点非常重要。
移动设备的产生。移动设备这两年是忽如一夜春风来、千树万树梨花开。比如说拍一张照片在新浪微博上分享。但是更有用的信息来源是物联网传感网络,这些传感器是由机器产生的数据,它产生数据的速度和量级比移动设备大得太多了。
因为有这样的一些新的数据,所以今天我们开始发生数据产生的速度和规模以若干数量级的方式在发生,从我们从一个甲骨文年代代入今天我们可以讨论大数据的年代。但是怎么样去思考大数据给我们带来的变化。两条主线。
1.信息多对我是否有用?
我搞大数据搞的我已经变得病态了。我看见一个人我觉得他是若干个数据。确实是这样的,每个人基因信息是非常非常多的,他不仅仅是DNA的信息,他还有RNA的信息,据说一个人刚出生的时候携带的都是DNA的信息,但是你的每一个行为、后天的习惯都编码成RNA的信息存在你的身上。兄弟你想想,你细胞里蕴藏了海量的信息。我看到某一个建筑物都是信息。大量的信息,有空间的属性有时间的属性。请问这些对你有用吗?没用。
这个提出来的问题是什么?我们怎么样把海量信息以我们可以支付的方式快速、便宜地把它转化成我们的知识,这个是非常重要的。而且在这个基础上我们要让他帮我们赚钱。弟兄们,今天干什么不赚钱,趁早洗洗睡吧。不赚钱,这个事儿不靠谱。它跟一个商业模式有关系,它跟一个企业界定海量的信息,获得一些知识之后,如果将这样的知识转化成商业价值有关系。所以这是第一条主线。
2.这些海量的信息为什么便宜又快速进行分析?假如我们那个年代信息都不能或许。我们说做了,为什么到今天我们开始吵吵,可以大数据了。如果分析一点数据那么昂贵,能行吗?我们看我们也洗洗回去睡了。是什么让这件事发生了?是软件、硬件、以及数据处理的算法的巨大进步,使得大数据正在走向商品化,正在走向寻常百姓家这样的一个路途。所以,第二条主线是什么?哪些技术让这件事情可以又快又便宜发生。这条路线是需要去学习、理解和思考大数据的核心。
接下来我讲一点点说一下IBM做大数据若干年里面一些有趣的看法。
谈看法之前,我想先讲第一条主线。如何让大数据服务于商业转型,大家可以赚到你想要的钱?这件事情我们花了很多的努力跟全球数以万计的企业和学者进行沟通。做完这个研究以后我们发现了非常有趣的现象,现象总结起来就是“大数据还在它的婴幼儿时期”。为什么是这样呢?数据见证,只有6%的人真正干大数据项目,有22%还在尝试。换言之,1/3的人处在一个尝试启示阶段。将近一半的企业处在琢磨这件事情的阶段。当然,还有一小部分落后的份子正在学习啥叫大数据。所以诸位看起来都是早飞的鸟,都开始在这里做研究。这个非常重要。它表明什么?表明大数据还有很多很多的学问需要我们去掌握。有很多很多的规律需要我们去摸索,不要轻易地相信一个市场性的宣传,认为不干大数据就来不及了,现在还没那么高级。
可是透过这样的一个全局性的实践,我们看到若干个非常重要的点,从业务层面上来讲。
(一)绝大多数大数据分析所带来业务价值和要点存在于一个企业客户行为的分析。这件事情是一个老掉牙的事情,一点都不新鲜。在原来DI时代,我们一直在讲“客户精分”。为什么今天我们谈大数据了,业务还在这里?是因为我们有新的数据源。新的信息不是交易信息,过去交易系统被清洗,今天移动设备带来新的信息。如果我是一个嚼舌头的人,我在微博上说点什么话,他们再在信用卡上买点什么信息,他们对我的定位就很准确。比如说毛先生到大连住这个酒店,你也可以住。是不是?这些东西表明什么?崭新数据来临带来崭新分析的机会和崭新的知识。这些知识以一个人为中心,不仅仅了解群体统治性的行为也了解个性化的行为,并且随时随地捕捉这样的一个商机来帮助他、优化他的业务流程、获得更多的商业机会,这就是价值。这个例子说明什么?说明我们很多老的商业问题有了崭新的解法,可以上升到一个新的台阶,谁先做这件事情谁就掌握了新的商机。
同时我也感到很悲哀。为什么?大数据带来的从愿景上来讲将会是一个信息无处不在、知识自由流动的一个全新、智能化的社会。在这个社会里面,所有的物体都是智能的,不仅仅是人。因为是这个样子,所以所有的商业流程都是智能的,提供给你服务品质是比今天高N多倍的。我们所有运作的流程不仅仅是人的过程,而且一个建筑物一个桥梁一些机械,包括一个城市、一个电网、一个大坝,所有这些东西它的运作都是智慧的、都是智能的、都是可以节省成本并带来新的商业机会的。可是我们今天还停留在(IBM调查)客户积分这样的一个老掉牙商业问题上。说明什么?大数据在商业化的应用和创新支持方面还处在一个起点。所以这个给了你们崭新创新空间跟机会。各位努力吧!
(二)谈的是规模。我们有这么崭新的数据,肯定比过去大几个重量级。可是问题来了,大了几个数量级数据时时、快速、便宜分析方法需要你们去掌握。
(三)知识才是真正的目的,大数据不是我们的目的。今天很可惜,我们发现非常多的人在谈论大数据,大数据自身当成了目的了。别忘了,我们要的不是大数据,我们要的是大数据背后的知识,要给我们商业创新和联系这件事情有可能性。
然后我们讲分析的算法。分析的算法不是唾手可得。每一个领域都具有它非常独特的要素,这些要素需要相应的数学来解决。我们现在有很多有趣的数学的方法,尤其在统计方面,很可惜这些统计方法全部都是非常通用的算法。这些通用的算法,要么在面对大型数据的时候,它的参数是非常不收敛的。意思是说条变好了或者是变坏了是正当的,它不收到一个稳定的底。很多人,包括刚才我们苗总,因为数据的量以及分布特性不同,所以你的写法会很不一样,它的性质会很颠簸。比较牛在于,无论拿到什么数据我都可以让它高效、稳定地运行。稳定,现在是一个艺术还没有到科学,更重要是工程。
最近我们给某电网公司(相当相当大)跟他们一起看我怎么样利用大数据分析办法,将一个电网在一秒钟之内产生上千上万倍这样规模的数据,也就是一千个T以上的数据在一秒钟之内分析,了解电网下一个十秒十五秒的状态是什么?如果我们针对这个电网私加一个什么动作,对电网的状态带来的是什么?这个我们发现相当相当困难,这个算法我们不得不跟数学家合作。很抱歉,你们要搞这个必须有足够的数学知识储备。
最后一点,所有商业企业在利用大数据的时候,都特别注重我投一分钱到大数据里面,我能获得多少分钱这一个回馈。这件事情在中国企业里面比较少,尤其是在政府大数据行列。我在这里很想呼吁,任何一件事情都是一个商业行为,我们要考虑投入和产出。
OK。接下来稍微谈一点技术的事情。我们今天谈不深,时间很短。
第一,大数据跟Hadoop有关系,但是关系是那么一点点。很可惜,现在有一个非常普遍错误的观点认为,大数据就是Hadoop。有时候有一些话是不能说的。我作为一个技术人员,我需要在这里非常慎重地向大家提醒,Hadoop只是进行大数据分析的一个很小的分支,如果大家有兴趣我特别建议大家去看一下MIT的MESOS。MESOS有一个观点,这是我所认同的观点。大数据分析是非常多样化的领域,每一个领域自身数学模型和数学属性,这些模型和属性需要你开发领域相关的算法,然后将这个算法映射到一个可以进行大规模分布的机制上,这个机制往往要利用云计算基础设施达成,这是它的一个基本含义。比如说HPC,现在它也是一种大数据分析模式。这种模式是没办法用Produce来做的,如果用produce来做非常差。每一个领域都有独特的算法。所以我们怎么探索大规模数据相应的算法进行大规模的分布,这个是我们针对要去做的。这是空间上的做法。
还有时间上的做法,我数据大规模时时进来我怎么以留世的看法去处理它。这里面我罗列了几个IBM做的技术作为例子。
我们看到对一个大数据数据分析是有自己的一个闭环的,在这个喜欢里面你发现先有一个数据源,不管是结构化还是非结构化的,来自于移动设备、来自于互联网、来自于机器产生的过去产生传统的交易系统。这些数据源以时时或者是非时时的方式来进行数据的加载和移动。最后我们需要一个大规模对于各种各样、多领域分析算法进行并行化IBM,Hadoop是其中一个元素,我们还包括其他元素,可以覆盖比较多的领域,包括学习、高性能技术等等。同时要进行分析和预测,分析的看过去,预测是看未来。所以把这两个做结合。有的时候我们还加优化。因为你分析出来,在分析结构上产生参数,用优化模型做优化,这个才好玩。你可能出一些报表或者提供一些API,你把这些应用到流程当中去。
从这里面我们看到,它牵扯到非常多专业,如果你要做大数据的话。首先你要处理数据源的问题。数据源我们有一个提法:物联网。“物”包括人、移动设备、虚拟的事情、机器等等。这是感知的部分。接下来有处理的部分,也就是人的脑筋。感知像人神经末梢一样,接下来就是人处理的大脑。分析、预测、优化是人脑筋的部分。接下来分析的结果时时或者是非时时分析,在业务流程引用起来或者在报表上引用起来,我们更多强调以时时方式业务流程引用起来,它把价值从一个战略性的报表层面带到一个运营时时的层面,它的价值会更高。所以这个我们讲的是,怎么样跟原来SOV,跟你的业务流程做一个整合。这样的话我们可以用三个I代表。一个是大脑系统。Inter Service数据汇集起来。Ieter knowledge就是知识。
互联网发展到今天,原来只是应用等等方面层面,我们逐渐进入到Inter knowledge。此时我们发现信息资源流动无处不在,那时候是知识的时代。大数据给我们一个非常好的梦想。怎么样做这一点,技术上我们认为还有很长很长的路要走。
第二我要澄清的一个点是,我们非常非常多同事和朋友一谈起大数据,觉得过去的东西都gone。不对的,一个人没有历史还是人吗?一个民族没有历史还是民族吗?IT的历史是连续的不是断裂的。一个企业对信息的搜集、处理和运营也是连续的。
过去我们IT系统侧重点是交易,无论是主机还是到canService还是到growService都是看交易。今天我们已经转移到以人的交互以用户体验为中心的一个action的年代。大家想想看,你拿到这个东西最强调的是什么?用户体验。今天你上网强调的是什么?也是用户体验。
这样带来两种不同类型的数据以及数据处理应用的方式。左边我们看到很多很多以交易为中心的系统产生很多交易类的数据。这些数据其实都与核心系统有关系。右边我们看到都是跟客户相关的或者是物理设施相关的,这些数据有99%都是噪音数据,是你可以抛弃的数据。这两个世界的数据完全不一样。请问你为什么一定要用同样的方式存储它?请问你为什么要用方式去处理它?没有道理的。我告诉你,Hadoop对数据是没安全保护的。你真的敢忍心把系统核心数据扔到那里面去?银行把你的转帐记录和你跟银行的记录放到那里面,你不担心吗?我想想我肚子都疼,不放心不可以的,而且也没必要。
什么样的数据用什么样的技术去处理?我今天说的简单一点,BI是必要的,不应该有了今天大数据的分析BI就随风而去了,我们还需要BI,我们需要充分利用好BI,并且将BI和大数据的东西和我们今天谈的大数据新的东西做一个很好结合和融合。这是我们需要做的事情。
第三,大数据的目的是要提供数据服务不是强调我们谈的所有技术细节,只有大数据最终转化成服务,给你提供knowledge,我们真正把大数据做成了。这里面我举几个例子,我们听一听为什么有这样的逻辑。
一个例子是所谓的Global Aerospace Manufacturer,他们是元器件提供商,他们产品很昂贵,所以客户满意度是非常重要的。怎么提升客户满意度,减少元器件故障发生率和客服投入,这是最重要的东西。他们意识到大数据可以帮助他们。他们抓住一个点,怎么样去预防性预测航空元器件发生故障的种类和时间,然后进行预防性客户调查和相应的拜访。这件事情怎么去做?他需要把所有的厂家,买了他们器材的厂家相关的信息、使用的情况都搜集过来。以前他们不做这件事情,现在他们开始做这件事情,然后跟他们CIM系统接起来,而且跟他们制造系统相关数据结合起来,在所有数据都连成一片的时候,也就是说我制造是一个源头,我客服过程中处理这些问题的一些经验数据,加上现在这些航空器材被使用的一些情况,把这些结合起来,以这个航空器材本身可能发生故障这样的一个数学模型为基础,来分析所有的数据,就可以预测这些航空器材会发生什么问题,然后预防性客户的拜访和维护。这样他们降低了70%发生这样问题的概率。大家想想看,少发生70%所提升客户的满意度和对他自身成本的降低带来了多么可观的一个结果。客户满意度的提升就会提升他的销售。所以增加了他的利润又减少了他的成本,对吗?这是一个很好的例子。这是一个非常朴素商业的点。但是他们做了什么?他增加了数据源,他把新的数据拿过来,第二点他们采用了新的数据分析的工具。这是一个非常好的例子。
接下来的一个例子是消费产品的制造商,他们目的是达成什么?大家知道我们今天制造业根据渠道定单要求,春季开一个会,秋季开一个会,确定一年生产任务,但是经常导致产品提供不足。当你面向消费者的产品按定单生产又做不到。怎么能根据最终市场消费者购买需求的波动,做一个很好的预测呢?以它为基础推动每一周每一天每一个月的生产计划,以及一个运输计划?这件事情是相当难的。怎么做这件事情,他们以最终消费者这个地方作为一个突破点。怎么样利用移动设备,并且跟他所有的渠道,包括终端销售商、零售商做一个衔接,把所有的数据搜集起来,这是他过去不做的,现在他开始做。他做了这件事情他就理解到最终消费者对他产品的反馈,他就理解到是谁在买他的产品,地区卖产品情况如何,他能时时搜集这些数据的情况下结合他的决策模型来进行他生产计划的生成和物流计划的生成。所以这也是一个很好的例子。同样它是一个朴素商业性的诉求。他做的事情是增加了新的数据来源,利用了新的数据模型和数据分析能力。
最后是政府相关模型项目,他们搜集各种各样的安防数据。但是他们做的有趣的是用牛氏的计算,把过去需要一个小时分析数据的速度降到四分又一秒。
作为一个总结我想讲的是,大家思考大数据的时候,需要紧紧抓住两根主线。主线之一就是你的商业诉求是什么,为什么这个商业诉求是一个所谓大数据的问题,数据从哪里来,什么是新数据源,为什么你可以又快又便宜拿到那样一个商业诉求所需要的知识。
这是一个CSO需要考虑的问题。进一步使你数据科学家去考虑的问题。另外一条主线是技术问题。我们虚实对技术有一个清楚而又清醒地认识,不要把大数据分析就看成是一个Hadoop或者是斩新的动物,跟过去的EDI一点关系没有。不是的,我们应该联接历史和未来,是一个多样化领域相关的数据模型。重要的是它的核心主旨是我怎么样将一个商业问题所对应的大型数学数据分析问题转化成可以在云平台上大规模运行,这是大数据的食指,它的解法有很多种,Hadoop是其中一种。我们同时将这种方法跟过去的DI做紧密结合,并且和你已有的模式做结合,只有这样你才能达成一个智能体。我们有物联网加上移动设备等等,加上你过去的数据源以及一些必要的数据集成工作。有了数据源以后,通过办法获得了知识,通过数据系统把这些知识传递到做各个业务活动的各个环节,从而使得你业务流程变得很智慧,从而使你的企业变得很智慧,让你团队和相应的地区和城市变得很智慧。这里有无数的创业和创新的空间。怎么样获得新的数据干,怎么获得新的数据,怎么利用数据能力在起点,技术也在起点。无论你在价值链哪个环节都有巨大的发展空间。
CIO之家 www.ciozj.com 公众号:imciow