面对一堆数据,你能去做什么,而且这个“做什么”是能有效变成真金白银的收益的。
所以,当我看到Mike Rozlog最新于2014/2/3发布的一篇文章中用到这个标题时,引起了我的兴趣。把文中一些主要观点编译概述如下,供朋友们参考,其中也穿插了我的一些理解、注解、举例。
作者首先指出:“数据”在空前增长,人们在提供着信息,情愿地或无心地,通过社交媒体或者其他终端。作者描述了自己在FACEBOOK的情况,他居然不知不觉地、日积月累地在FACEBOOK那里列举出了他自己喜欢的160张音乐专辑,这就是“无心”中在提供数据,不想不知道,一想自己也吓一跳。
其实中国国内的朋友应该也有这个体会,当你在淘宝天猫购物时,有没有注意到在购物车结算价格时,有一个“是否匿名购买”的选项,很多人没有费力去勾选一下,那么也就是愿意实名购买了,那么你便“无心”也是“情愿”地提供了一条关于“何时、您、多少价格、网购了什么物品、怎么支付的、选择的哪种物流方式、联系电话和物流地址”的非常详细的信息。淘宝和天猫这个小细节在于把什么作为“缺省项”,如果把“是否实名购买”作为一个勾选项,把“匿名购买”作为缺省选择,估计也是大多数人“不作为”、不会去勾选,而这种“匿名购买”对淘宝的大数据战略无益,因此,对“是否匿名购买”的勾选项的“不作为”,就日积月累地“作为”了很多事情了。
但这只是日益增长的“数据”。作者认为,“数据”和“信息”是不同的,不同的关键在于“数据之间的连接(links)”。(注:我们这里不翻译为“链接”,以避免读者一下子就想到是网络阅读时去点一下链接的那个“超文本链接”)。这个“连接”强调的是数据之间的“关系”。数据本身是一堆原材料,类似数字、单词、计数、字串、图片、视频、音乐,哪怕他们被存储在“关系数据库”中,他们也天然地彼此之间没有关系,除非人去赋予他们关系。
而这种人为去赋予数据之间的“关系”,就是在建立数据之间的“连接”。如果一组或一连串的“连接”是正确的,那么数据就生成了“信息”,那么就可以基于“信息”做出一些假设/判断,从而去开展行动。如果“连接”错了呢,那么就可能相应地引发错误的行动。
比如下面这个例子,关于美国上个世纪40年代早期对脊髓灰质炎(我们俗称的“小儿麻痹症”)的病因的研究。“原始数据”显示是入夏日天气渐暖时,病例增加。戏谑的是,“原始数据”还显示,当脊髓灰质炎的病例增加时,冰激凌销量也以同比例在增长。1952年美国有将近58000人(很多是孩子)被诊断得上了脊髓灰质炎,一场全国性的大流行病。公共卫生部门的专家于是建议要避免食用冰激凌、糖水和其他高塘食物。今天回头看历史,认为冰激凌是病因的想法当然很可笑,但那时候的确是“病急乱投医”了。
结合我们今天的情况来看,我们怎么把海量的信息转变成能带来行动的有用的信息、做出更好的决策而不是上例呢?我们已经有了一些数据采集的技术,也有了指数级增长的比以前多得多的数据,但我们还是没有生成好信息的那个神秘酱料。例如,当你看到以下常见的两列数据,见图1:
读到本文的朋友对上面的数据列都是非常熟悉的,也许还有更多列更丰富的信息。而关键的问题是,你面对这些数据列,你能问出什么问题呢?肯定读者们能列举出一串经典的问题,但很有可能,漏掉了问那个有关键意义的一个问题。
Mike Rozlog指出说,实际上,应该再问一个“目前的数据尚不能支持的问题”,即“为了回答我真正关心的问题,我还缺哪些数据呢”?这就是“数据增补”的概念(Data Augmentation)。想一想,你可能关心的问题是“什么样的人是我生意的典型客户?”“我的下一个店铺应该选址在哪里?”“应该增加一种新产品系列的销售吗?”我们发现,目前的“客户数据”和“销售数据”无法回答这些,只有当增补了“MAP GIS”(地图地理信息系统)和“Census Data”(人口统计数据)”之后,才能做的更好,见图2。前者包括位置地点、路线、实际位移折线图等,或者包括邮编、平均收入、孩子的个数、种群种族等信息。这时,当你再问“什么样的人是我生意的典型客户?”这个问题时,客户数据、销售数据和人口统计数据建立连接,才能产生有效的“信息”作为答案。当你再问“我的下一个店铺应该选址在哪里?”,客户数据、销售数据和GIS数据建立连接,才能产生有效的“信息”作为答案。当你再问“应该增加一种新产品系列的销售吗?”,目前的数据可能又不够了,但是通过“数据增补”,现在我们找到了一个回答问题的办法,即找到“回答这个问题还需要去连接什么数据”,这又与生意主对“典型客户”的认知有关,你作为生意主,你有关于你“典型客户”的数据吗,如果是,那么就可以把新产品的试销量与典型客户相关数据进行匹配,看是否该新产品会进入典型客户的购物篮子。而在过去,对“什么样的人是我生意的典型客户?”“我的下一个店铺应该选址在哪里?”“应该增加一种新产品系列的销售吗?”所有这些问题的回答,往往靠直觉的猜想。
数据就在那儿,正在被采集、正在被分析、正在被汇总。但是,在数据被真正应用之前,最关键的一个事情,是问出你的现有数据无法回答的问题,即“缺失哪些数据”以及“缺失哪些数据之间的有效连接”。这里无法依靠魔法棒或者一个标准的问题列表,每一组数据当它被采集和呈现时,也就有了他特有的局限,即“还缺少什么”那个需要探索的世界。
回到作者篇头曾列举的问题,他的FACEBOOK上已经有了大量数据,关于他听什么音乐、他去什么音乐会,连他支付的平均票价都可以知道。但他是否会在音乐会上再开销一笔钱买相应音乐主题的T恤衫和帽子呢?不知道,GOOGLE也许知道,这时就需要增补来自GOOGLE的信息,一个人大量无心的在GOOGLE上的关键词检索,已经让GOOGLE可能比这个人自己还了解他自己。GOOGLE的前CEO, Eric Schmidt说,“我们知道你在哪里,我们知道你曾去过哪里,我们多多少少知道你在想什么”。
作者最后抛出几个问题,很耐人思考。如果某个信息来源有着关于你自己的而你自己还不洞察的信息,你会愿意付费吗?这些由数据而生成的信息会产生生意上的产出吗,还是这些信息会导致那个经典的小儿麻痹症案例中“相关关系”与“因果关系”的错判?这些都是我们从“数据”到“信息”到“行动”路上要探索的问题。
我自己编译并穿插注解举例到了这里,也更理解了AMT的伙伴美国安客诚公司AOS系统的关键,不仅仅在于数据本身,而是数据与数据之间的“连接”,以及他们长时间服务于各行业做精准营销的洞察与经验。这些经验沉淀为一个个模型,比如“谁是我的典型客户”,还可以转变为一个个专门的营销行动(campaign),比如“如何打通线上数据库和线下数据库的整合,找到我的高潜力客户(look-like)并有效促使他们下单”,还可以转变为一个个长期例行的职能工作(operation),比如“对于已经成为会员的客户,我们本年度应该如何开展会员营销和个性化服务”,最后,到一个个量化的绩效,“我对这批会员样本开展的营销活动,是否取得了和对比组相比,超出5-8倍的效果(客单价、人均收入、人均带来利润等)”
“数据”、“信息”、“行动”、“效果”,然后再反馈,这样一个动态的过程,看来对于中国企业的大数据管理、营销精准化,正有很多的事情可以去做。
CIO之家 www.ciozj.com 公众号:imciow