记者:能否简要介绍一下LinkedIn?
李玥:LinkedIn是一家面向商业客户的社交服务网站,2003年正式开通启动,距今已经10年的历史。2011年5月份,LinkedIn在美国纳斯达克上市。目前市值接近200亿美元。
LinkedIn基本上有三个比较主流的商业模式:第一个渠道是人才招聘解决方案,最主要是解决公司招聘和人员求职的供需关系,这部分业务贡献 了超过50%的收入;第二是,广告业务,企业可以在LinkedIn网站上瞄准不同人进行广告的精准投放;第三是,高级付费订阅服务,LinkedIn会 提供更高级的产品,用户在付费订阅之后,可以利用高级数据提高工作效率。
记者:LinkedIn中国现状是怎样的?
李玥:关于中国的策略,我能说的非常非常有限,因为LinkedIn还没有正式进入中国市场。现在我们在中 国有超过300万注册用户。LinkedIn非常了解,中国是一个非常非常有潜力的市场。我们在探索到底应该是以怎样的方式进入中国,但是现在没有定论。 我们最终的目的是让中国的职业人员能够在职场上更成功,这一点准则不会有任何变化。
记者:LinkedIn的数据分析团队的工作是什么?
李玥:这个团队在LinkedIn上市前一年(2010年)开始创建,两年之内团队已经达到50人。这是在 LinkedIn里面成长最最快速度的团队,现在我们还在不断的成长当中。我们的责任范围最大的一部分就是支持所有与LinkedIn运营盈利相关的服 务。现在LinkedIn有近4000名员工,70%的人是通过我们来提供服务的。
我们的团队组成是:一个数据采集的专门团队,一个专门做数据挖掘的团队,在这之上我们还有分析的团队和每个商业渠道挂钩起来,这样会更接近他们的业务。
我们跟LinkedIn所有相关的职能部门一起合作,包括销售部门、市场营销部门、产品部门、工程部门,还有运营部门。我们所有的数据挖掘全部是通过一个技术平台做出来的,但是在这之上,会对不同的商业应用、商业需求单独去做处理。
记者:每次商业分析需要处理多大的数据?
李玥:一般的数据处理起来,至少要到TB(1TB=1024GB)的水平。比如说,我们做一个预测的模型, 基本上要准备的数据达到几个TB,然后再做数据挖掘,最后做出最后的预测。最后的预测可能看起来很简单,比如说是Yes或者是No,但是后台数据采集、数 据处理,创建模型是要花费很多很多时间。
记者:LinkedIn如何获取这么多的数据,这些数据都是免费的吗?
李玥:很多的数据实际上是LinkedIn本身的数据。我们有自己的用户,他们每天会在上面发布不同的信息,会更改自己的数据。我们也会花钱获取其他数据。根据商业需求不同,我们会跟业界比较知名的数据服务商来合作,比如Gartner。
记者:LinkedIn大数据解决方案采用哪种基础架构?
李玥:LinkedIn整个数据分析解决方案里主要有三个非常重要的组成部分,一个是Teradata数据 仓库解决方案,它支持很多报表系统,可靠性高;第二个是Teradata Aster,Aster有很多已经设置好的函数,可以让分析更简单、更快速,而且让我们做大量分析时,变得更有效率;第三部分就是Hadoop,应用于真 正特别巨大的数据处理和存储。我们将这三种产品和平台作为一个整体,在此基础上做出集中的数据结构架构。Teradata为客户提供是企业级解决方案,有 专门为大公司设计定制功能,而且在这个系统里起着非常重要的作用。
记者:能否举一个简单的大数据挖掘案例?
李玥:在做分析和预测的时候,怎么样的一个过程才能做出对将来最好的预测?我举一个例子。比如说,市场营销 过程中你想去给特定的人群发一些消息,说我给可以给你们你一些优惠,让你们去购买某些产品。但你怎么知道有哪些人会更倾向于去接受你的信息,或者说接受你 的介绍?那我们就会看,以前发生的事情。
了解以前发生的事情,了解为什么这些事情会发生,以及它背后的原因,然后再用这些去解释将来会发生的事情。总体上就是这样一个大的方法。
记者:LinkedIn在做大数据挖掘时会重点参考的变量是什么?
李玥:一般性我们看三大块。一块是,所有用户相关的属性。比如说你是男性还是女性,年龄是多少,或者说工作方式是什么,在哪家公司,在哪个行业,在哪个地点。这些数据就是相关信息。这些信息基本上属于一种比较静态的东西,也是所有行业到现在为止,可能最成型的一种数据变量。这一块我们看得最多。
然后是用户的行为数据。很多公司逐渐看到这部分数据,但以前并没有太重视。比如说,我决定去买一个投影仪,我可能之前会做很多很多的事情,最后才会决定买它。如果只是看我买它的一条记录,那么它只是一条数据记录,但是之前为什么决定买这个东西,可能会有几千条、几万条不同的信息记录下来。
这里边就有很多不同的东西,包括你是不是某一种一系列的行为,才导致最后的购买决定。这一块数据量上要大很多,从分析量上来讲,难度也高很多。但根据我们的经验,这个对你的预测的准确性贡献,其实也增加了很多很多,所以这一块是非常非常重要的。
第三块是,与社交网络相关的信息。它对你的预测也会造成非常非常大的影响。举个例子,你在LinkedIn 上或者Facebook、微博上,跟你相似的人往往会做出与你接近的决定。一个最原始的理论,物以类聚,人以群分。跟你相连接的这些人,往往他们喜欢的东 西,或者他们做过的事情,是你以后可能会去做的。
根据以往的经验,你连接的人当中,已经做过这些事情,如果我告诉你他们做过这些事情的话,你会更加的可能也会做这些事情。
记者:还有其他变量么?
李玥:这三大变量基本组成了我们看的最多的数据。当然每一个分类里面,又会有很多很多的数据。其实我们会花很多的精力去采集这些数据,然后不断地扩充我们的变量仓库。因为随着数据的增加,预测的准确度也会越来越高。
此外,时间序列也是非常重要的。很多时候你做的这件事情离现在有多久,会对你的预测产生很大影响。比如说, 我在网站上看了一个投影仪相关的描述。如果你第二天就跟我说,我会给你50%的折扣,那我买下的可能性是很大的,因为我有很大的兴趣。如果一个月之后,您 再来问我,我可能就没有很大的兴趣了。这只是一个方面,但在整个时间序列里面,多久之前发生这件事情很重要。
另外,在整个时间序列当中,行为的变化也很重要。比如说,我看这个投影仪的介绍,如果我以前是一个月看一次,但我最近变成一个礼拜看一次,或者说变成一天看一次,整个时间序列就能告诉你,我的关注点是不断增加的。所以时间序列里的这种模式也非常重要。
CIO之家 www.ciozj.com 公众号:imciow