大数据作为当今热门的话题,但直至今日,很多人还是会提出这样的疑问,大数据到底是什么,能够给我们带来怎样的价值呢?其实基于特定场景,结合海量的运行信息,最终结果就是大数据。尽管运行记录不是大数据的全部,但却是大数据的重要组成部分。目前我们看到的金融、电信、航空、电商、零售渠道等领域中的大数据,多数也都是运行记录信息。
大数据具有未知的采集过程价值、全面、即时、系统性并发的记录方式以及主受体统一的特征,这些特征决定了发挥大数据价值的方式与形式。
数据本身被记录下来,并非全部是为了长远的利益所用。很多记录其实发挥的作用是一种操作的基础环境,脱离了记录,后续的操作将难以进行。这点与人类的大脑的作用有点相似。我们每个人在做一个即时操作的同时,大脑都会加以记录。然后依据这些记录快速决定下一步怎么做,即时的这些记录仅仅是一种情景辅助的作用。
举个栗子
比如我们进行量化交易时,我们制定交易策略模型就会利用往日的海量数据进行回测,检验模型在实际的运行过程中产生的问题,并加以调整其中的参数。如果没有往日被记录下来的海量数据,我们将无法校验我们的模型准确性。
数据记录也是对以前操作过程的一个备份形式,记录了多方不同的操作过程动作及次序,乃至不同环节的具体操作内容。这样一种作用可以看作是记录本身最被认可的初始价值。记录让操作进行时的当时情景有了复原的可能性,哪怕只是一种具有针对性非完整的复原。但这种复原除了纪念意义外,还有一个重要价值就是事后的责任划分与追究,是奖惩的基础。这样一作用看似很微小,但却是人类社会运作的基础。尤其是在互联网时代的今天,不同主体之间的越来越多的不同形式的交互不断加剧,情景复原会让每个主体对自己的操作更为负责,让各种有效的互联成为一种可能。随着互联网与线下实际经济行为的日益融合,一次click有可能代表着重大的利益转移,结合网络协议的操作记录成为了大家网上操作时承担对应责任的依据。(比如炒股的都会记得8·16光大证券乌龙指事件)
又举个栗子
淘宝网鼓励买家与商家在旺旺上聊天时将聊天记录保存下来。在具体的申诉环节,上传聊天记录可以作为一种证据去为自己辩护。其中内容包含但不限于中间买方下单,支付款项,卖家发货,快递公司名称、运单号,甚至包括该单在快递过程中的状态,流转时间,甚至有些公司将具体快递员的姓名、电话也记录在内,签收方式也被详细的记录下来。所有这些记录发挥了一种情景复原以及事后追究责任的作用,从而确保了相关人的权益被保障,交易得以正常进行。
一个系统在运行过程中,有些时候也会出现一些跟平常不一样的数据波动。当这种数据波动所代表的数据通过阈值、平均值等各种方式体现出来的时候,系统本身的原有平衡可能会被打破,内部各方面的环节或资源就有可能跟不上。这个时候适当的外力参与很有必要,以免出现系统运转问题。
再举个栗子
比如情景指引中,最著名的就是丰田的精益化生产理念。拿流程型行业和离散型行业来说,流程型行业比如化工、医药、金属等一般偏好设备管理如TPM,因为在流程型行业需要运用到一系列的特定设备,这些设备的状况极大的影响着产品的质量;而离散型行业比如机械,电子等,生产线的排布以及工序都是影响生产效率和质量的重要因素,因此离散型行业注重标准化,JIT,看板以及零库存。
一个企业的产供销系统,一个城市的交通系统,甚至一个国家的人口政策,资源利用等都可以通过这样一种方式来进行微调,从而确保系统的良性运行,降低成本提高利润率。基于各种数据及需求的不断变化,适当地进行策略调整已经变成一种必须。但具体怎样调整,则需要根据数据来说话。
对未来的预测功能是目前业界对大数据最看重的价值之一。(敲黑板!)基于之前记录下来的各种数据的深入研究,发现其中的规律特征,从而进行系统优化迭代。如果前面说到的引导只是一些相对较小的策略调整优化,那么基于预测的情景研究和系统优化,则是相对较大的战略变动。这种基于预测的价值实现对系统(包括个人、企业机构,也包括各种App)的长远运行来说价值重大,其决定了一个系统是否具有长期的成长性和进化能力。
一个主体(系统)不但要考虑即时的运行,以及下一步的正确操作,更需要考虑长远的运行可能。就如阿尔法狗,进行对弈时计算的不仅仅是当前的三步棋,可能要考虑到361个位置的每一个可能。尤其是在竞争激烈的今天,各种企业、机构之间的竞争非常残酷。如何基于以往的运行数据,对未来的运行模式进行预测,从而提前进行准备或者加以利用、调整,对很多企业机构其实是一种生死存亡的问题。这样一种情况同样适用于国家级别。正因为这一点,目前无论是在企业还是国家都开始研究、部署大数据。
最后举个栗子
不说什么预测人类因为天灾人祸灭绝的时间或者精准天气预报,咱们就说说电商。现在在京东、易迅、亚马逊等看到的主流推荐算法,一般都是基于物品自身相似性(不过分依赖于用户数据,没有冷启动的问题)、基于用户浏览、喜欢、购买等数据的协同过滤推荐(用户纬度和商品纬度)。「对推荐算法感兴趣的,可以具体看看这个亚马逊的基于物品的协同过滤算法的论文,我就简单说两句。 http://webpages.uncc.edu/sakella/courses/cloud09/papers/AmazonLindenSmithYork.pdf 」
通过对大数据的深入挖掘,我们将会了解企业(系统)的不同环节、不同参与主体是如何相互协调运作的,同样也可以通过对他们的了解去控制、预测参与主体的下一个动作,甚至长远的维护和优化。基于大数据,个体之间相互连接有了基础,相互的交互过程得到了简化,各种交易的成本减少很多。厂家等服务提供方可以基于大数据研发出更符合消费者需求的服务,机构内部的管理也更为细致。
CIO之家 www.ciozj.com 公众号:imciow