大家都知道预测是大数据商业应用的一个核心,大数据预测需要大量的高质量数据加上非常先进的模型,在当前的情况下什么是预测领域新的热点或者一个新的发展方向?怎么样预测才能真正发挥大数据特有的优势?这是我想分享的,在这之前给大家先介绍两条最近媒体报道的新闻,从新闻上大家或许能够看出一些新的发展趋势。这两条新闻都是8月份华尔街日报刊登的。
第一条,苹果和谷歌正在开发在用户想要之前就知道用户想要什么的技术,在你不知道想要什么之前就告诉你想要什么,这两款产品大家也听说过,对苹果来说叫“主动助手”,对谷歌来说这个产品叫“谷歌现代”。这两家公司通过对你未来肯定要做的事情的一个探知反过来推测你最近的将来想干什么。谷歌通过邮件可以知道你今天下午六点有班飞机,下午三点的时候根据你现在的位置,根据北京的交通流量告诉你现在该走了,如果走的话该打什么车,滴滴或者Uber,这是它预测的思路,通过对一些已知的未来的事件的掌握来推测即将发生的未来应该干什么的一个预测。
跟这个看起来没有特别关系,但是有共通之处的另一条新闻,宏观经济指标预测,这家公司名字叫“现测”,创始人是哥伦比亚大学诺贝尔经济学奖得主的博士生,大数据预测宏观经济指标,比如物价指数。为什么叫“现测”?不是预测,而是很快的把刚刚发生的整个美国各种物价变化归纳出来呈现给用户,描述刚刚发生的事件,而不是真正预测未来的物价怎么样。为什么这件事有意义?因为通常政府颁布的指标是一个月或者一个季度以前的,它能做到一分钟之前。
这两条新闻有一个共同的关键词就是“现”,NOW,这是目前对于大数据应用的一个非常重要的趋势,那就是从预测到现测,预测是大数据建模技术的一个核心,但同时也是大数据建模的一个最大的难点,大家都说大数据很厉害,能预测很多东西,你能不能告诉我明天中国的股票是涨100点还是跌50点,没有人可以做到。但是大数据的优势在于很多时候我们真正需要的并不是预测,而是所谓的现测,是对极近过去的描述和极近将来的预测。
什么叫极近?一天以前或者一小时以前?这实际上是取决于我们现在数据量的多少和技术的发展,趋势是这个极越来越短,本来一个月前的经济数据,现在可以知道一分钟之前的,高频交易之前的我们需要知道一秒钟之前的数据。这是我们想到的现测的定义,现是一个动态过程,现测是指我们目前状况之前一点时间和之后一点时间情况的描述或者预测,这实际上是大量的大数据应用所真正用到的预测模型,比如高频交易,实际上已经知道市场的情况,但是在别人反应之前我们就知道了极近的过去发生的。
推荐引擎,这是大数据应用非常重要的,也是百分点最原始的DNA,根据消费者在这个页面上当前的状态,马上给他一个现时的推荐,这个推荐可能只是在一秒甚至半秒之内,实时投放的RTB广告,还有打车软件,大家用过滴滴专车,他们背后的原理是现测的原理,我知道车在什么地方,你在什么地方,交通状况,我就可以推测下一分钟车开到哪儿,知道前一秒车在什么地方。现测刚刚发生的事情,即将发生的事情,背后有一个非常重要的科学原理。自然也好,给了我们一个非常重要的预测手段,万世万物都有一个所谓的惯性,这个惯性效率发生的时候就使得我们预测能够比较准确。一个物体从斜面上往下滑,下一秒这个木块在什么地方可以预测的非常准确,现测为什么有它的准确性,来源于万世万物背后的惯性。
放在社会领域,惯性是由场景驱动的,比如明天我的太太过生日,生日要买生日礼物,有了这个目标,根据惯性原理,预测就变成一个现测。
现测的优势一个是利用所谓的惯性原理,另外利用了时间差,这是大数据的特点,因为大数据往往是实时的数据,海量高频的数据,这张图大家可以看到如果我每十分钟照一个这样的照片,可能就错过这个镜头,如果每一个微秒或者每半秒拍一个照片可能就看到这个镜头,看到这个镜头就有一个惯性的应用,这个女士拿起这个橘子,如果没有时间差,比如5分钟拍一次照这个镜头就错过了,但是如果频率高的话,我们知道她拿这个橘子看一下,虽然孩子拉走了,但她对这个橘子有兴趣,这个情况下我们可以有一些营销手段。
说起来跟预测一样,实际上这是一个描述问题,高频的描述效果跟预测是非常像的,我们并不在预测她到底喜欢苹果还是橘子,只不过我们描述从预测变成了实测,描述非常有优势,这样我们把一个非常艰难的预测问题变成一个描述问题。这是我讲的为什么对大数据来说我们具有现测的优势。
我有一些博士生在做模型的建立和模型的测试,根据现测的概念,我们可以发展出一系列的技术模型,这些模型有一系列商业的应用。一个是协同过滤和时间序列的分析,通常在计算机科学领域,大家都知道协同过滤的算法,如果放在现测的考量中,就像计量经济学的时间序列分析,在高频交易中大量用的是时间序列分析,现在做的把协同过滤和时间序列分析结合起来,大家可以做出一个相应的应用。
第二是用户画像,结合快速迭代的贝叶斯学习,我们知道用户大概是一个什么样的人,什么样的人会做什么样的事情,但是这个惯性趋势放在一个特定的场景中我们可以看以前的需要,到一个修正,这个修正必须在实时中完成,很快的迭代。
第三,百分点开发了一些数据动态可视化和人机互动的产品。人脑的优势在于对一个场景的综合把握能得到一个比计算机更好的预测,但是大数据能快速实时的截取这样的信息,如果我们动态的展现出一些数据来,通过人机互动就可以判断,有超市人员在的条件下,判断这位女士喜欢橘子,让电脑直接判断的话不一定很准确,但是我们通过动态数据可视化使得人对一些全景的预测和电脑对数据的抓取有机的结合。
现在一些学者重点研究的就是基于运筹优化和行为科学的反时序预测,换句话说用未来来预测当下,听上去有点儿悬乎,很多时候我们远处的未来,你可能飞机票买好了明天要飞这是确切的未来,我们有了确切的未来用它来帮助预测当下,比如你在一家百货商店,王府井百货,我起码知道你肯定是要出去的,你不可能一辈子呆在里面,你要出这家百货店就这几条路径,根据这一条就可以通过运筹优化的方法告诉你大约几条选择,每条选择经过哪几个货架,有几个可能的商品推荐,把几个非常难以把握的预测问题变成已知终点反推回来的运筹优化问题,有相当多的应用,这也是百分点以前做和现在做的非常紧密的结合点,百分点的DNA本来就有实时推荐,和现测是不谋而合的理念。
百分点在建模方面做的非常多的就是用户画像和细化场景,仔细推敲,细化场景更往前走一步不光研究用户场景,而是研究用户在这个场景里的目标是什么,在这个会场上我的目标是跟大家交流,任何用户在任何商业环境或者任何场景当中,它实际上都有一个目的所在,到一个饭店的目的是吃饭,到学校的目的是读书,我们把这个目的找到,刚才我讲的技术,通过目的知道未来你想要的东西,反推回来当下想干什么。已知用户画像推他当下的想法行为,目前建立的这套数据体系和场景细分,包括用户画像,为什么在现测的范围里有很多的应用。所以,积累大量的数据,有非常好的前景。
像大数据预测公司一样,很多金融相关的信息及实时经济指数,对过去的描述来预测未来。还有一个跟金融信息相关的领域,个人征信。从现测角度,以前所谓的人口学指标,过去行为的指标,现在有更多的做法,一个人购买大件的商品,买一辆车,这个信息马上反馈到你个人的征信系统,你的现金流水平发生变化,这样一种实时监控的做法,类似的有在做个性化的企业营销。
同样刚才举的例子,个人的金融,信用卡根据你实时消费情况的变化可以计算出你这个月大概还能用多少钱,每个月开销钱的总数,银行存款多少,根据这个反推回来,反推你买什么东西,否则你推荐的用户可能没有财力消费。
第三个应用,旅游出行管理。你的航班,比如我知道明天天气要变化,可以通过这个反推回来知道你在北京要开会,明天天气不好,可以实时提醒你是不是把机票换成火车票,这是现测的概念,知道未来的一些确定性反过来帮助你解决不确定性。
个人健康管理,目标三个月减重五斤,根据这个可以反推回来每天该减多少,吃多少,实时调整你的健康管理计划。
最后把一些东西放在一起,就可以打造所谓的数字生活的助理,把你整个生活各个方面管理起来,给你提供最佳的体验。
为什么刚才反复强调现测的重要性,而且大数据应用有极大的优势,以前大数据经常提到这一点,所谓的三个V或者四个V,但是通常大家对大数据的探讨,这个V往往是Velocity,能够很快的把海量的数据进行处理,当你知道刚刚过去的事情和即将到来的未来。另外,大数据的相对优势,对短尺度的应用性具有特别的优势,但是对长尺度的应用性反而不具有明显的优势。
在长尺度上我可以说我也不需要大数据,用小数据就能获得成功。但是短尺度的预测,我说不出来今天晚上大家晚饭吃什么,大数据往往知道这一点,因为它知道你中午吃了什么,是哪里人,爱吃什么,现在在什么位置,周围有什么饭店,往往通过这个能推出来你要吃什么,而且通过你什么时候吃的中饭,身高体重,推出你什么时候一定饿得不行了,我们可以反推回来做一系列的介绍。这是大数据非常大的优势,在商业中应该特别重视这一点。通过大数据用户画像和细化场景建模发掘和利用行为惯性。这就是大数据价值提升和扬长避短的一个新的发展趋势,希望大家多多指正和交流。谢谢!
CIO之家 www.ciozj.com 公众号:imciow