无论是IBM、CISCO这样的老牌IT公司、还是在Hadoop生态圈中的专注于大数据的IT新秀,都在短短的几年之内抢占了大数据产业链的各大环节。未来谁能够引领大数据技术,中国制造商能否在大数据爆发性增长来到时抢占到一席之地?未来制约大数据发展和应用的瓶颈又会是什么?
毋庸置疑,大数据对我们时代的改变将越来越深刻。无论是IBM、CISCO这样的老牌IT公司、还是在Hadoop生态圈中的专注于大数据的IT新秀,都在短短的几年之内抢占了大数据产业链的各大环节。未来谁能够引领大数据技术,中国制造商能否在大数据爆发性增长来到时抢占到一席之地?未来制约大数据发展和应用的瓶颈又会是什么?
谁将引领大数据
通过对比分析目前IT企业在大数据领域的发展情况,以及对大数据行业专家的访谈,我们绘制了大数据发展的企业占位图。
大数据按照信息处理环节可以分为数据采集、数据清理、数据存储及管理、数据分析、数据显化,以及产业应用等六个环节。而在各个环节中,已经有不同的公司开始在这里占位。
1、数据采集:Google、CISCO这些传统的IT公司早已经开始部署数据收集的工作。在中国,淘宝、腾讯、百度等公司已经收集并存储大量的用户习惯及用户消费行为数据。德勤预计,在未来,会有更为专业的数据收集公司针对各行业的特定需求,专门设计行业数据收集系统。
2、数据清理:当大量庞杂无序的数据收集之后,如何将有用的数据筛选出来,完成数据的清理工作并传递到下一环节,这是随着大数据产业分工的不断细化而需求越来越高的环节。除了Intel等老牌IT企业,Teradata、Informatica等专业的数据处理公司呈现了更大的活力。在中国,华傲数据等类似厂商也开始不断涌现。德勤预计,在未来,将会有大量的公司专注于数据清理。
3、数据存储及管理:数据的存储、管理是数据处理的两个细分环节。这两个细分环节之间的关系极为紧密。数据管理的方式决定了数据的存储格式,而数据如何存储又限制了数据分析的深度和广度。由于相关性极高,通常由一个厂商统筹设计这两个细分环节将为更为有效。从厂商占位角度来分析,IBM、Oracle等老牌的数据存储提供商有明显的既有优势,他们在原有的存储业务之上进行相应的深度拓展,轻松占据了较大的市场份额。而ApacheSoftwareFoundation等新生公司,以开源的战略汇集了行业专精的智慧,成为大数据发展的领军企业。
4、数据分析:传统的数据处理公司SAS及SPSS在数
据分析方面有明显的优势。然而,基于开源软件基础构架Hadoop的数据分析公司最近几年呈现爆发性增长。例如,成立于2008年的Cloudera公司,帮助企业管理和分析基于开源Hadoop产品的数据。由于能够帮助客户完成定制化的数据分析需求,Cloudera拥有了如Expedia、摩根大通等大批的知名企业用户,仅仅五年时间,其市值估值已达到7亿美元。
5、数据的解读:将大数据的分析结果还原为具体的行业问题。SAP、SAS等数据分析公司在其已有的业务之上加入行业知识成为此环节竞争的佼佼者。同时,因大数据的发展而应运而生的wibidata等专业的数据还原公司也开始蓬勃发展。
6、数据的显化:这一环节中,大数据真正开始帮助管理实践。通过对数据的分析和具象化,将大数据能够推导出的结论量化计算、同时应用到行业中去。这一环节需要行业专精人员,通过大数据给出的推论,结合行业的具体实践制定出真正能够改变行业现状的计划。
突破未来发展瓶颈
通过对大数据产业链的分析,我们可以看到,在大数据产业链的各个生产环节中,各大公司都已开占位,随着高性能计算机、海量数据的存储和管理的流程的不断优化,技术能够解决的问题终将不会成为问题。我们认为,真正会制约或者成为大数据发展和应用瓶颈的有三个环节:
第一、数据收集和提取的合法性,数据隐私的保护和数据隐私应用之间的权衡。
任何企业或机构从人群中提取私人数据,用户都有知情权,将用户的隐私数据用于商业行为时,都需要得到用户的认可。然而,目前,中国乃至全世界对于用户隐私应当如何保护、商业规则应当如何制定、触犯用户的隐私权应当如何惩治、法律规范应当如何制定等等一系列管理问题都大大滞后于大数据的发展速度。
德勤认为,未来很多大数据业务在最初发展阶段将会游走在灰色地带,当商业运作初具规模并开始对大批消费者和公司都产生影响之后,相关的法律法规以及市场规范才会被迫加速制定出来。可以预计的是,尽管大数据技术层面的应用可以无限广阔,但是由于受到数据采集的限制,能够用于商业应用、服务于人们的数据要远远小于理论上大数据能够采集和处理的数据。数据源头的采集受限将大大限制大数据的商业应用。
第二、大数据发挥协同效应需要产业链各个环节的企业达成竞争与合作的平衡。
大数据对基于其生态圈中的企业提出了更多的合作要求。如果没有对整体产业链的宏观把握,单个企业仅仅基于自己掌握的独立数据,无法了解产业链各个环节数据之间的关系,对消费者做出的判断和影响也十分有限。
在一些信息不对称比较明显的行业,例如银行业以及保险业,企业之间数据共享的需求更为迫切。例如,银行业和保险业通常都需要建立一个行业共享的数据库,让其成员能够了解到单个用户的信用记录,消除担保方和消费者之间的信息不对称,让交易进行的更为顺利。然而,在很多情况下,这些需要共享信息的企业之间竞争和合作的关系同时存在,企业在共享数据之前,需要权衡利弊、避免在共享数据的同时丧失了其竞争优势。此外,当很多商家合作起来,很容易形成卖家同盟而导致消费者利益受到损失,影响到竞争的公平性。
大数据最具有想象力的发展方向是将不同的行业的数据整合起来,提供全方位立体的数据绘图,力图从系统的角度了解并重塑用户需求。然而,交叉行业数据共享需要平衡太多企业的利益关系,如果没有中立的第三方机构出面,协调所有参与企业之间的关系、制定数据共性及应用的规则,将大大限制大数据的用武之地。权威第三方中立机构的缺乏将制约大数据发挥出其最大的潜力。
第三、大数据结论的解读和应用。
大数据可以从数据分析的层面上揭示各个变量之间可能的关联,但是数据层面上的关联如何具象到行业实践中?如何制定可执行方案应用大数据的结论?这些问题要求执行者不但能够解读大数据,同时还需深谙行业发展各个要素之间的关联。这一环节基于大数据技术的发展但又涉及到管理和执行等各方面因素。
在这一环节中,人的因素成为制胜关键。从技术角度,执行人需要理解大数据技术,能够解读大数据分析的结论;从行业角度,执行人要非常了解行业各个生产环节的流程的关系、各要素之间的可能关联,并且将大数据得到的结论和行业的具体执行环节一一对应起来;从管理的角度,执行人需要制定出可执行的解决问题的方案,并且确保这一方案和管理流程没有冲突,在解决问题的同时,没有制造出新的问题。这些需求,不但要求执行人深谙技术,同时应当是一个卓越的管理者,有系统论的思维,能够从复杂系统的角度关联地看待大数据与行业的关系。此类人才的稀缺性将制约大数据的发展。
CIO之家 www.ciozj.com 公众号:imciow