在过去的一段时间里,我们实地探访了三家正在实际部署大数据应用的企业。它们分别是京东(JD.com)、人人游戏和PPTV聚力。这三家互联网企业正在用业界前沿的数据管理思维,展开大数据技术的早期实践。同时,在它们身上也折射出全球互联网企业利用大数据的实际趋势。
京东:PB级数据价值发现
京东副总裁 李曦
拥有一亿用户、营业规模达数百亿元的大型网络零售企业京东(JD.com),在大数据应用领域实现了分布式架构与传统BI工具的有机融合。
成立于2004年的京东商城(以下简称为京东)在2012年的交易金额突破600亿元,相当于每秒就会产生2000元的交易额。在网络零售市场深耕近十年之后,京东也正式迈入了PB级数据管理的新时代。对企业而言,PB级(1PB=1024TB)的数据管理算得上是衡量其数据规模和管理能力的一个重要标尺。目前,全球PB级数据管理俱乐部已经拥有Facebook、淘宝等重要成员,能够跻身其中对京东而言是荣誉,也意味着挑战。
“针对业务数据快速增长的情况,我们在2012年正式启动了大数据平台的搭建。这个自主开发的平台基于分布式的技术,支持异构数据集市,同时也很好地利用了传统BI的展现层技术。”京东副总裁李曦说。目前,李曦正带领着300人的技术团队不断地改进和完善京东从数据的获取、平台搭建、分析到应用的电商全流程业务数据管理工作。在2012年加入京东之前,李曦在美国硅谷工作多年,相继服务于Siebel、甲骨文、谷歌等公司。
全流程大数据管理
在数据获取方面,京东对各个购物频道的交易数据、出入货数据、逆向物流、用户浏览日志等数据进行了全面的收集,同时也会从互联网上抓取一些商品价格等业务相关信息。这些数据会被汇总和存储在京东自主研发的大数据平台之上。这个平台支持不同的数据集市,例如分布式的数据集市,或者是甲骨文、MySQL、微软SQL Server等关系型数据集市。平台底层的数据存储和离线批量数据运算由Hadoop实现,流式计算方面则采用的是开源实时数据处理框架Storm。
在承载汇总、存储和查询任务的大数据平台之上是大数据分析层,这一层级主要涉及到一些建模的工作。例如针对用户、商品、商家、促销、反作弊、风险控制、精准营销、运营优化的数据建模等。而这些数据模型最终的分析结果会在应用层得以展现。目前,京东已经能够向内部和外部用户提供BI(商业智能)服务。
其中,内部BI系统向从业务员到高级管理者的不同层级数据消费者提供各种门类的业务报表和历史报表。而对于在京东售卖货品的商家,京东数据罗盘则可以向他们展现店铺流量、订单数量、实时客流等关键业务指标,以及节日促销指数、价格弹性、用户喜好等分析功能。
谈到传统BI技术在大数据时代所扮演的角色,李曦表示,传统BI手段在大数据应用环境中仍然有其价值,尤其是在呈现能力方面。他说:“京东早期的数据分析建立在传统BI之上,它所采用的中央集中式模式会在主机应用层面造成瓶颈,但传统BI数据集中的理念并没有过时,特别是其功能强大的呈现工具同样适用于互联网行业。”目前,京东在大数据处理的展现层仍在使用甲骨文BIEE等传统BI工具。
“作为一家电商企业,京东的零售业务数据基本上是结构化的,而用户访问行为数据又是非结构化的,因此京东全流程数据汇总实际上是把结构化、半结构化和非结构化数据融合起来的过程。”李曦说。他表示,这样的数据组成结构实际影响了京东的大数据技术选择。在数据仓库层面,京东选择了可扩展性强的分布式架构,而在应用层将相对发达的BI工具加以有效利用,实现了传统与创新的融合。
大数据价值就在身边
京东对大数据的利用不仅体现在内部管理和服务商家方面,如果你是一位顾客,只要访问JD.com就能感受到大数据技术为您营造出的购物体验。在这里,商品的搜索、推荐都是基于京东大数据平台的实时汇总和结果推送。比方说搜索的排序就可以基于用户的点击习惯、用户好评度等指标进行个性化定制。站内广告和联盟广告的推送也可以根据相关的指标进行定向发布。
李曦表示,经过近三年的探索,大数据技术的价值正在京东业务运营的不同领域得到逐步的体现。基于大数据的汇总与分析,京东正在不断完善包含电子邮件、短信、广告等在内的精准营销体系。站在业务运营优化角度,大数据技术能够切实提升工作效率,为京东带来直接的成本节约,并营造出更优的客户体验。
人人游戏运营平台总监、数据中心负责人 王坤
人人游戏:360°客户视图很重要
作为国内最大的网页游戏和智能手机游戏的研发、运营和发行商之一,人人游戏的大数据价值发现从结构化数据集起步,逐步向非结构化数据集延伸。
在骄阳似火的七月,人人游戏的“词云”应用火热上线了。所谓“词云”,就是先对人人游戏玩家的在线聊天记录进行分词,汇总之后对玩家行为进行分析和展现。目前,“词云”已经在人人游戏的四款重点游戏中安家落户,随后有关玩家情绪的分析功能(通过关键词对应玩家的情绪指数)也将上线。人人游戏运营平台总监、数据中心负责人王坤表示,“词云”应用的上线是人人游戏对大数据的利用从结构化数据集向非结构化数据集延展的重要一步。
成立于2006年的人人游戏正在努力转型为一家跨PC、平板电脑和手机终端的多平台游戏研发、运营和发行商。从2007年推出第一款网页游戏《猫游记》至今,人人游戏一步步向着这一目标靠近。在此过程中,人人游戏坚持在“跨屏”技术创新领域的研发投入,同时也积极利用大数据技术优化整体业务运营。
目前,王坤所领导的30余人的技术团队正致力于从包括游戏日志、玩家行为数据、日常经营数据等在内的大数据集中寻找更好的数据利用和展现途经,同时他们还是大数据应用在企业内部营销推广的主力军。“我们要做每个员工的大数据分析,而不仅仅是数据中心的大数据分析。要做好游戏行业的大数据分析,构建360°的用户视图非常重要。”她说。
从0°到360°
2009年,人人游戏对于业务数据的利用还停留在汇总游戏日志数据,仅用于简单分析的阶段。而在2013年,人人游戏已经基本上完成了基于IBM Cognos的BI系统整体建设。同时,其基于Greenplum社区版的分布式数据仓库也已初具规模。对人人游戏而言,这些都是获得360°用户视图的必要工作。而360°用户视图为其业务运营和决策所带来的价值则是实实在在的。
“BI系统主要是管理结构化的大数据,我们搭建了报表、行动和洞察三位一体的闭环系统,而不仅仅是一个报表系统。”王坤说。新的BI系统将人人游戏的业务模型更加清晰地呈现出来,对游戏业务覆盖用户获取、客户存留、客户付费的核心流程进行了优化,能够更准确地为业务决策提供参考。在报表设计方面,王坤所带领的技术团队坚持遵循MECE(mutually-exclusive and collectively exhaustive,即相互排斥而又集体穷尽)的分析原则,确保每张报表都有清楚的存在意义。同时,BI系统上线后,企业在开发和运维方面的投入也有所降低。
“从结构化大数据到非结构化大数据,数据分析范围和深度的扩展,让我们能够更准确地把握玩家的行为和需求。”王坤说。以“词云”应用为例,“炸金矿”是人人游戏旗下“乱世天下”这款游戏中玩家参与度很高的一个玩法,玩家需要邀请一定数量的友人帮忙炸矿来赢取金币。但在节假日期间,这款游戏的参与度通常都会下降。“通过‘词云’分析后发现,节假日期间‘求炸’成为玩家的聊天热词。我们也因此得知,并不是玩家不爱玩这个游戏,而是玩家在节假日邀请不到足够数量的友人帮忙炸矿。基于这样的分析,我们可以在节假日期间对游戏规则进行调整。”王坤说。
大数据的行业价值
“每个行业都会有自己的大数据故事。在游戏行业,大数据分析可能不会直接带来电商网站那样真金白银的收入,但其价值同样会体现在精准营销、客户体验优化等多个层面。”王坤说。她指出,全面的大数据分析能够有效提升玩家的留存率和转化指标,并且为游戏产品的研发提供指引。而个性化的精准营销同样与大数据分析紧密相关,像是针对不同性别、不同年龄、不同地域人群的广告精准投放,背后都要依靠基于360°用户视图的玩家特征分析。
王坤坦言,对人人游戏乃至整个游戏行业来说,大数据的管理与分析仍然是一件“体力活”。“大数据团队所面临的最大挑战是数据的整合,把多来源的结构化、半结构化和非结构化数据整合在一起,很多企业还没有做到。另外,在企业内部和外部找到大数据的消费者,向他们营销大数据技术,同样是一件艰苦的工作。”她说。
PPTV聚力:看得见的大数据
在全球拥有超3亿活跃用户群体的网络电视技术平台提供商PPTV聚力,正在使用Hadoop、HBase、Hive、Storm等大数据技术打造个性化视频推荐体验,优化视频播放体验,实现在线广告的精准投放。
2012年,根据有关统计显示,在线视频已经超越社区交友和搜索服务跃升为互联网第一大应用。PPTV聚力目前全平台月度活跃用户达3.4亿,每天的活跃用户超5000万。这一在线视频平台目前每天会产生数10TB包含用户行为数据、访问体验数据等在内的业务数据,针对在线视频业务运营的实际需要,这些大数据每天会被采集、汇总到一个分布式的技术平台上,再被应用到不同的业务领域之中。
目前,PPTV聚力已经建成的数百台服务器规模的Hadoop集群是其大数据技术平台的核心。在其上运行着Hive开源数据仓库,基于Storm的分布式实时数据处理框架也已经开始部署。“我们每天会从PPTV聚力数亿个客户端和分散在各地几百个机房的服务器端采集日志数据,汇总到大数据平台开展数据分析。”PPTV聚力技术部总经理金昀说。
金昀所领导的技术部中目前有一个20余人的团队,专门负责开放式大数据平台的开发和运维,而PPTV聚力全公司的数百名技术人员、产品人员、运营人员、数据分析师都可以从不同的业务角度利用这个开放平台,做业务数据分析,以及各种数据密集性的计算任务。毕业于清华大学的金昀曾经参与永新视博(数字电视领域创业企业)的创立,留美后在美国微软公司服务7年,回国后曾服务于阿里云,2011年加入PPTV聚力。
大数据优化观看体验
对PPTV聚力来说,大数据的来源主要包括用户行为数据、工程技术数据,以及后端的业务运营数据。用户行为数据主要来自从客户端和服务器端采集的日志数据。例如哪个访问者看了哪个视频、拖动次数等;工程技术数据指的是不同地域用户观看视频的启动时间、卡顿次数、卡顿等待时长等;后端业务运营数据则包含广告投放的相关数据信息等。
“这些数据组成了PPTV聚力丰富的大数据来源,而大数据的分析结果能直接应用于商业运营的调优。比如,我们购买了一部影视剧后,可以精确、实时地了解它在不同地区和时间段被观看的次数,以此优化后端的运营策略。另外,通过从不同的客户端所获取的访问连接数据,我们可以根据不同地区、不同时段的网络连接状况,用最低的成本向用户交付流畅的观看体验。”金昀说。
像美国同行Netflix一样,PPTV聚力也在深入研究个性化的视频推荐算法。PPTV聚力视频页面中的“猜你喜欢”栏目就是后台大数据分析的成果。“视频网站的用户通常不会提供详细准确的注册信息,而且用户登录率低,我们无法由此直接获取用户特征。因此,我们完全要从用户的历史访问行为进行分析和判断,对其习惯、喜好进行分类和标记,最终实现个性化的视频推荐。”金昀说。除了页面内的相关视频推荐,PPTV聚力还计划基于大数据技术开发全界面的用户访问个性化定制系统。金昀强调,视频与电商、社交等网络服务不同,其客户行为的分析与预测具有独特的复杂性。“用户观看行为的头部效应明显,长尾效应不足,视频总数对比用户数较低,品类多样性也低,而消费成本却很高,这些都对视频自动推荐的效果产生了很大的挑战。"金昀说。同时他认为,移动端视频和OTT的高速发展,将会是个性化视频推荐的一个重大发展机遇,只有吃透大数据的企业才能真正跟上移动视频发展的浪潮。
满足广告主的“奇怪”需求
“一段广告,要求让某一地域的动作片用户至少观看三次,但又不能超过5次,否则就不付钱。还有的广告有三个版本,用户在观看的时候不能重复,要递进推送。这样严苛的要求在传统的电视广告平台上是不可能实现的。”金昀说。不过,对于广告主而言,这些无疑是一种精准营销的合理设计,大数据分析为PPTV聚力所带来的另一面商业价值也体现于此。
由于无法直接获取准确用户的特征信息,PPTV聚力的技术团队通过对用户历史访问行为的分析,自动为其添加特征标签,并对具体广告的承接能力进行预测,以满足不同广告主的个性化需求。金昀表示,基于大数据技术平台,PPTV聚力已经在广告的定向投放、频次控制等方面建立了相对成熟的策略和流程,并且注重在广告精准投放的同时,确保用户的观看体验。
PPTV聚力技术部总经理 金昀
大数据打开大视野
从数据世界迈向大数据世界,技术的继承与创新将会并存。当Hadoop、MapReduce成为技术创新的明星,有人或许会问:“大数据会终结BI吗?”的确,新一代的分布式数据处理技术为用户带来了新的洞察力,但它们目前仍不能完全解决传统BI(商业智能)所能够解决的问题。我们看到,传统的BI工具仍被京东这样的大型互联网企业所使用,其成熟的展现层技术仍然能在满足企业大数据分析需求时发挥作用。
PPTV聚力技术部总经理金昀认为,大数据分析可以理解为BI在数据量大规模爆发后的演进成果。传统的技术手段的确很难应付数据量的爆炸式增长,但无论是“小数据”时代还是“大数据”时代,企业所面临的数据管理问题都是相同的,即发掘数据之间的内在联系,催生新的商业价值。
“未来或许会有大数据时代的BI。BI的技术思维仍会存在,虽然数据的采集、存储和分析方法全都改变了。与传统BI相比,大数据时代的BI数据集成的范围会更广,像用户行为数据、销售数据、地理位置信息、团购信息、天气信息等,都可以被集成到一起,通过新的分析与展现方法产生新的价值。它会带来更广、更深邃的洞察力。”金昀说。
企业用户数据视野的拓展同样有赖于IT与业务之间紧密协作。从想象力的激荡,到构想在现实环境的落地,注定是一段IT与业务携手而行的旅程。
CIO之家 www.ciozj.com 公众号:imciow