从LinkedIn看大数据挖掘应重视的四个变量

网友网络

记者：能否简要介绍一下LinkedIn？

李玥：LinkedIn是一家面向商业客户的社交服务网站，2003年正式开通启动，距今已经10年的历史。2011年5月份，LinkedIn在美国纳斯达克上市。目前市值接近200亿美元。

LinkedIn基本上有三个比较主流的商业模式：第一个渠道是人才招聘解决方案，最主要是解决公司招聘和人员求职的供需关系，这部分业务贡献了超过50%的收入；第二是，广告业务，企业可以在LinkedIn网站上瞄准不同人进行广告的精准投放；第三是，高级付费订阅服务，LinkedIn会提供更高级的产品，用户在付费订阅之后，可以利用高级数据提高工作效率。

记者：LinkedIn中国现状是怎样的？

李玥：关于中国的策略，我能说的非常非常有限，因为LinkedIn还没有正式进入中国市场。现在我们在中国有超过300万注册用户。LinkedIn非常了解，中国是一个非常非常有潜力的市场。我们在探索到底应该是以怎样的方式进入中国，但是现在没有定论。我们最终的目的是让中国的职业人员能够在职场上更成功，这一点准则不会有任何变化。

记者：LinkedIn的数据分析团队的工作是什么？

李玥：这个团队在LinkedIn上市前一年(2010年)开始创建，两年之内团队已经达到50人。这是在 LinkedIn里面成长最最快速度的团队，现在我们还在不断的成长当中。我们的责任范围最大的一部分就是支持所有与LinkedIn运营盈利相关的服务。现在LinkedIn有近4000名员工，70%的人是通过我们来提供服务的。

我们的团队组成是：一个数据采集的专门团队，一个专门做数据挖掘的团队，在这之上我们还有分析的团队和每个商业渠道挂钩起来，这样会更接近他们的业务。

我们跟LinkedIn所有相关的职能部门一起合作，包括销售部门、市场营销部门、产品部门、工程部门，还有运营部门。我们所有的数据挖掘全部是通过一个技术平台做出来的，但是在这之上，会对不同的商业应用、商业需求单独去做处理。

记者：每次商业分析需要处理多大的数据？

李玥：一般的数据处理起来，至少要到TB(1TB=1024GB)的水平。比如说，我们做一个预测的模型，基本上要准备的数据达到几个TB，然后再做数据挖掘，最后做出最后的预测。最后的预测可能看起来很简单，比如说是Yes或者是No，但是后台数据采集、数据处理，创建模型是要花费很多很多时间。

记者：LinkedIn如何获取这么多的数据，这些数据都是免费的吗？

李玥：很多的数据实际上是LinkedIn本身的数据。我们有自己的用户，他们每天会在上面发布不同的信息，会更改自己的数据。我们也会花钱获取其他数据。根据商业需求不同，我们会跟业界比较知名的数据服务商来合作，比如Gartner。

记者：LinkedIn大数据解决方案采用哪种基础架构？

李玥：LinkedIn整个数据分析解决方案里主要有三个非常重要的组成部分，一个是Teradata数据仓库解决方案，它支持很多报表系统，可靠性高；第二个是Teradata Aster，Aster有很多已经设置好的函数，可以让分析更简单、更快速，而且让我们做大量分析时，变得更有效率；第三部分就是Hadoop，应用于真正特别巨大的数据处理和存储。我们将这三种产品和平台作为一个整体，在此基础上做出集中的数据结构架构。Teradata为客户提供是企业级解决方案，有专门为大公司设计定制功能，而且在这个系统里起着非常重要的作用。

记者：能否举一个简单的大数据挖掘案例？

李玥：在做分析和预测的时候，怎么样的一个过程才能做出对将来最好的预测？我举一个例子。比如说，市场营销过程中你想去给特定的人群发一些消息，说我给可以给你们你一些优惠，让你们去购买某些产品。但你怎么知道有哪些人会更倾向于去接受你的信息，或者说接受你的介绍？那我们就会看，以前发生的事情。

了解以前发生的事情，了解为什么这些事情会发生，以及它背后的原因，然后再用这些去解释将来会发生的事情。总体上就是这样一个大的方法。

记者：LinkedIn在做大数据挖掘时会重点参考的变量是什么？

李玥：一般性我们看三大块。一块是，所有用户相关的属性。比如说你是男性还是女性，年龄是多少，或者说工作方式是什么，在哪家公司，在哪个行业，在哪个地点。这些数据就是相关信息。这些信息基本上属于一种比较静态的东西，也是所有行业到现在为止，可能最成型的一种数据变量。这一块我们看得最多。

然后是用户的行为数据。很多公司逐渐看到这部分数据，但以前并没有太重视。比如说，我决定去买一个投影仪，我可能之前会做很多很多的事情，最后才会决定买它。如果只是看我买它的一条记录，那么它只是一条数据记录，但是之前为什么决定买这个东西，可能会有几千条、几万条不同的信息记录下来。

这里边就有很多不同的东西，包括你是不是某一种一系列的行为，才导致最后的购买决定。这一块数据量上要大很多，从分析量上来讲，难度也高很多。但根据我们的经验，这个对你的预测的准确性贡献，其实也增加了很多很多，所以这一块是非常非常重要的。

第三块是，与社交网络相关的信息。它对你的预测也会造成非常非常大的影响。举个例子，你在LinkedIn 上或者Facebook、微博上，跟你相似的人往往会做出与你接近的决定。一个最原始的理论，物以类聚，人以群分。跟你相连接的这些人，往往他们喜欢的东西，或者他们做过的事情，是你以后可能会去做的。

根据以往的经验，你连接的人当中，已经做过这些事情，如果我告诉你他们做过这些事情的话，你会更加的可能也会做这些事情。

记者：还有其他变量么？

李玥：这三大变量基本组成了我们看的最多的数据。当然每一个分类里面，又会有很多很多的数据。其实我们会花很多的精力去采集这些数据，然后不断地扩充我们的变量仓库。因为随着数据的增加，预测的准确度也会越来越高。

此外，时间序列也是非常重要的。很多时候你做的这件事情离现在有多久，会对你的预测产生很大影响。比如说，我在网站上看了一个投影仪相关的描述。如果你第二天就跟我说，我会给你50%的折扣，那我买下的可能性是很大的，因为我有很大的兴趣。如果一个月之后，您再来问我，我可能就没有很大的兴趣了。这只是一个方面，但在整个时间序列里面，多久之前发生这件事情很重要。

另外，在整个时间序列当中，行为的变化也很重要。比如说，我看这个投影仪的介绍，如果我以前是一个月看一次，但我最近变成一个礼拜看一次，或者说变成一天看一次，整个时间序列就能告诉你，我的关注点是不断增加的。所以时间序列里的这种模式也非常重要。

CIO之家 www.ciozj.com 公众号:imciow

关联的文档

也许您喜欢