把数据转化成可以行动的信息

来源:网络收集 作者:网友

面对一堆数据,你能去做什么,而且这个“做什么”是能有效变成真金白银的收益的

所以,当我看到Mike Rozlog最新于2014/2/3发布的一篇文章中用到这个标题时,引起了我的兴趣。把文中一些主要观点编译概述如下,供朋友们参考,其中也穿插了我的一些理解、注解、举例。

作者首先指出:“数据”在空前增长,人们在提供着信息,情愿地或无心地,通过社交媒体或者其他终端。作者描述了自己在FACEBOOK的情况,他居然不知不觉地、日积月累地在FACEBOOK那里列举出了他自己喜欢的160张音乐专辑,这就是“无心”中在提供数据,不想不知道,一想自己也吓一跳。

其实中国国内的朋友应该也有这个体会,当你在淘宝天猫购物时,有没有注意到在购物车结算价格时,有一个“是否匿名购买”的选项,很多人没有费力去勾选一下,那么也就是愿意实名购买了,那么你便“无心”也是“情愿”地提供了一条关于“何时、您、多少价格、网购了什么物品、怎么支付的、选择的哪种物流方式、联系电话和物流地址”的非常详细的信息。淘宝和天猫这个小细节在于把什么作为“缺省项”,如果把“是否实名购买”作为一个勾选项,把“匿名购买”作为缺省选择,估计也是大多数人“不作为”、不会去勾选,而这种“匿名购买”对淘宝的大数据战略无益,因此,对“是否匿名购买”的勾选项的“不作为”,就日积月累地“作为”了很多事情了。

但这只是日益增长的“数据”。作者认为,“数据”和“信息”是不同的,不同的关键在于“数据之间的连接(links)”。(注:我们这里不翻译为“链接”,以避免读者一下子就想到是网络阅读时去点一下链接的那个“超文本链接”)。这个“连接”强调的是数据之间的“关系”。数据本身是一堆原材料,类似数字、单词、计数、字串、图片、视频、音乐,哪怕他们被存储在“关系数据库”中,他们也天然地彼此之间没有关系,除非人去赋予他们关系。

而这种人为去赋予数据之间的“关系”,就是在建立数据之间的“连接”。如果一组或一连串的“连接”是正确的,那么数据就生成了“信息”,那么就可以基于“信息”做出一些假设/判断,从而去开展行动。如果“连接”错了呢,那么就可能相应地引发错误的行动。

比如下面这个例子,关于美国上个世纪40年代早期对脊髓灰质炎(我们俗称的“小儿麻痹症”)的病因的研究。“原始数据”显示是入夏日天气渐暖时,病例增加。戏谑的是,“原始数据”还显示,当脊髓灰质炎的病例增加时,冰激凌销量也以同比例在增长。1952年美国有将近58000人(很多是孩子)被诊断得上了脊髓灰质炎,一场全国性的大流行病。公共卫生部门的专家于是建议要避免食用冰激凌、糖水和其他高塘食物。今天回头看历史,认为冰激凌是病因的想法当然很可笑,但那时候的确是“病急乱投医”了。

结合我们今天的情况来看,我们怎么把海量的信息转变成能带来行动的有用的信息、做出更好的决策而不是上例呢?我们已经有了一些数据采集的技术,也有了指数级增长的比以前多得多的数据,但我们还是没有生成好信息的那个神秘酱料。例如,当你看到以下常见的两列数据,见图1:

读到本文的朋友对上面的数据列都是非常熟悉的,也许还有更多列更丰富的信息。而关键的问题是,你面对这些数据列,你能问出什么问题呢?肯定读者们能列举出一串经典的问题,但很有可能,漏掉了问那个有关键意义的一个问题。

Mike Rozlog指出说,实际上,应该再问一个“目前的数据尚不能支持的问题”,即“为了回答我真正关心的问题,我还缺哪些数据呢”?这就是“数据增补”的概念(Data Augmentation)。想一想,你可能关心的问题是“什么样的人是我生意的典型客户?”“我的下一个店铺应该选址在哪里?”“应该增加一种新产品系列的销售吗?”我们发现,目前的“客户数据”和“销售数据”无法回答这些,只有当增补了“MAP GIS”(地图地理信息系统)和“Census Data”(人口统计数据)”之后,才能做的更好,见图2。前者包括位置地点、路线、实际位移折线图等,或者包括邮编、平均收入、孩子的个数、种群种族等信息。这时,当你再问“什么样的人是我生意的典型客户?”这个问题时,客户数据、销售数据和人口统计数据建立连接,才能产生有效的“信息”作为答案。当你再问“我的下一个店铺应该选址在哪里?”,客户数据、销售数据和GIS数据建立连接,才能产生有效的“信息”作为答案。当你再问“应该增加一种新产品系列的销售吗?”,目前的数据可能又不够了,但是通过“数据增补”,现在我们找到了一个回答问题的办法,即找到“回答这个问题还需要去连接什么数据”,这又与生意主对“典型客户”的认知有关,你作为生意主,你有关于你“典型客户”的数据吗,如果是,那么就可以把新产品的试销量与典型客户相关数据进行匹配,看是否该新产品会进入典型客户的购物篮子。而在过去,对“什么样的人是我生意的典型客户?”“我的下一个店铺应该选址在哪里?”“应该增加一种新产品系列的销售吗?”所有这些问题的回答,往往靠直觉的猜想。

 

数据就在那儿,正在被采集、正在被分析、正在被汇总。但是,在数据被真正应用之前,最关键的一个事情,是问出你的现有数据无法回答的问题,即“缺失哪些数据”以及“缺失哪些数据之间的有效连接”。这里无法依靠魔法棒或者一个标准的问题列表,每一组数据当它被采集和呈现时,也就有了他特有的局限,即“还缺少什么”那个需要探索的世界。

回到作者篇头曾列举的问题,他的FACEBOOK上已经有了大量数据,关于他听什么音乐、他去什么音乐会,连他支付的平均票价都可以知道。但他是否会在音乐会上再开销一笔钱买相应音乐主题的T恤衫和帽子呢?不知道,GOOGLE也许知道,这时就需要增补来自GOOGLE的信息,一个人大量无心的在GOOGLE上的关键词检索,已经让GOOGLE可能比这个人自己还了解他自己。GOOGLE的前CEO, Eric Schmidt说,“我们知道你在哪里,我们知道你曾去过哪里,我们多多少少知道你在想什么”。

作者最后抛出几个问题,很耐人思考。如果某个信息来源有着关于你自己的而你自己还不洞察的信息,你会愿意付费吗?这些由数据而生成的信息会产生生意上的产出吗,还是这些信息会导致那个经典的小儿麻痹症案例中“相关关系”与“因果关系”的错判?这些都是我们从“数据”到“信息”到“行动”路上要探索的问题。

我自己编译并穿插注解举例到了这里,也更理解了AMT的伙伴美国安客诚公司AOS系统的关键,不仅仅在于数据本身,而是数据与数据之间的“连接”,以及他们长时间服务于各行业做精准营销的洞察与经验。这些经验沉淀为一个个模型,比如“谁是我的典型客户”,还可以转变为一个个专门的营销行动(campaign),比如“如何打通线上数据库和线下数据库的整合,找到我的高潜力客户(look-like)并有效促使他们下单”,还可以转变为一个个长期例行的职能工作(operation),比如“对于已经成为会员的客户,我们本年度应该如何开展会员营销和个性化服务”,最后,到一个个量化的绩效,“我对这批会员样本开展的营销活动,是否取得了和对比组相比,超出5-8倍的效果(客单价、人均收入、人均带来利润等)”

“数据”、“信息”、“行动”、“效果”,然后再反馈,这样一个动态的过程,看来对于中国企业的大数据管理、营销精准化,正有很多的事情可以去做。

相关文档推荐

离散制造破局之道主数据管理平台重构.PDF

1742450737 詹慧超 4.6MB 37页 积分6

Database Copilot在数据库领域的落地.PDF

1741937032 李粒 6.08MB 59页 积分6

AI大模型技术在数据库DevOps的实践.PDF

1741935803 叶正盛 2.67MB 30页 积分6

预训练 3.1 预训练之数据工程.PDF

1741174667 唐天一 3.53MB 45页 积分6

数据中心产业图谱研究报告.PDF

1740031966  1.7MB 37页 积分10

数据中台规划应用实践解决方案.PPTX

1739756939  2.82MB 64页 积分6

基于密态计算的数据要素流通及其能源领域应用探索.PDF

1738973722 闫守孟 16.31MB 19页 积分5

相关文章推荐