正如舍恩伯格所说,大数据将开启一次重大的时代转型。
当前,大到国家,中到企业,小到个人,都掀起了一股认识大数据、理解大数据、利用大数据的热潮。国家,把大数据上升为国家战略,尝试用大数据来进行社会管理和经济治理;企业,也把大数据作为战略,尝试用大数据进行企业管理和商业模式的创新,甚至企业的升级和转型;大数据对于个人的生活改变,那就更不用细说了。
然而,关于大数据的价值远远还没有人能够全部认识和挖掘全面。下面我尝试从三个层次来描述大数据的价值。
第一层:大数据之工具变革。
第二层:大数据之思维变革。
第三层:大数据之文化变革。
第二层:大数据之思维变革
从宏观层面来看,大数据是一种思维和认知论的革命。
科学研究的变革(第四范式)
在2007年,图灵奖得主、关系数据库的鼻祖Jim Gray,在他的最后一次演讲中提到科学研究的第四范式:数据密集型科学发现,这成为了大数据时代来临的预言。
在科学发展史上,人类经历过几个重要的范式变革。
在18世纪,科学研究的核心特征是对有限的客观对象进行观察、总结,用归纳法找出其中的科学规律,比如伽利略的物理学定律。
归纳法,俗称“马后炮”,对发生的事件进行总结,形成科学的认识。但归纳法,只用于已有规律的认识,是不会产生新知识的。
从19世纪一直到20世纪中期,科学研究进入理论研究阶段,以演绎法为主。这一阶段,凭借科学家的智慧构建科学理论,并依据理论来解释自然世界。比如相对论、麦克斯韦方程组、量子理论、概率论等等。
与归纳法不同,演绎法除了用于解释已有事物之外,甚至是可以创造新知识的。
自20世纪中期以来,由于客观事物的发展太过于复杂,用归纳法和演绎法都难以满足科学研究的需要,我们开始借用计算机的高级运算能力来帮助进行科学计算。
这个阶段,主要使用计算机来对复杂事物建模,将大量复杂的单个条件输入计算机,以模拟在多种因素的综合影响下,事物将会发生怎样的变化,比如模拟天气、地震、核试验等等。
然而,随着IT技术的兴起,人类收集了海量的数据,传统的计算科学已经越来越难以处理海量的数据。为了适应数据量的飞速膨胀,我们需要一种新的研究工具才能更有效地进行科学计算,因此,以处理海量数据为核心的“第四范式”------数据密集型科研应运而生。
大数据技术,包括海量数据获取技术,海量数据存储技术,海量数据的计算技术,海量数据的分析技术和数据可视化,成为当前第四范式的主要工具。
管理决策的变革
传统的事物研究,主要依靠有限的调研,再加上经验,然后实现业务决策的判断。然而,随着快速的技术革新,社会也在快速发展,但是,人类对一个事物的发展经验却需要一个相对长的时间,这导致我们的经验往往跟不上事物的发展变化。
也就是说,当你形成一个有用的经验时,此时事物已经发生变化了,这些经验已经不适用了。“刻舟求剑”,剑在那,但舟已行。
所以,不管是企业决策,还是市场营销决策,都不能再依靠经验,我们需要一种新的科学工具,来帮助我们快速更新我们的经验,以便辅助我们科学决策,而这种工具就是大数据。
大数据,可以全方位地呈现事物的发展轨迹,并能实时动态的呈现事物的发展变化,甚至可以呈现事物各种因素之间的相关关系,找到影响事物的关键因素,进而控制事物的未来发展趋势,作出最正确的业务判断和业务决策。
因此,随着大数据时代的来临,人类的思维方式必然会产生革命性的变革
有人说,世界的本质就是数据。
人类有三大方面的知识,分别是自然科学、社会科学、人文艺术。
自然科学,是研究物理世界的科学,大到星球,小到尘埃,其运动都是可以用数据表示出来的。自然科学强调的是精确,要求数据准确,所以自然科学大多数是可以定量描述的。
社会科学,研究的是人和社会的关系。由于其复杂性,以往的分析和研究都没有办法精确化,也就是我们常说的“测不准”,只能根据有限的经验和判断来对社会进行定性描述。但是,随着大数据的产生,大量的人和社会的数据得以采集和分析,相信在不久的将来,社会发展的规律和变化,人和社会之间的关系,都将可视化的呈现在我们的面前。
大数据,为社会科学的定量分析提供了依据,将成为观察人类自身社会行为的显微镜。相信在不久的未来,人文艺术也许会有不同程度的数据化,用数据来实现艺术创作、艺术鉴赏、艺术评估。
探索未知的变革
因果关系,一直是人类探索世界的一种思维方式。探究事物的根本原因,弄明白为什么会发生,这就是因果思维。
比如,医疗研究,就是典型的因果思维。医生研究病理学,临床实验,弄明白癌症发生的病理机制,才能准确寻找到治疗癌症的药物。然而,因果思维看起来可以找到解决事物的根本办法,但却是极其复杂的一种方法。也许有的事物根本就没有因果关系,或者因果关系极其复杂,穷其一生也无法找到。
但大数据,却提供了另一种思维方法。与其去寻找为什么(因果关系),还不如寻找是什么(相关关系)。
也许为什么会患癌症,我们也许永远弄不明白,但哪些因素会对治疗癌症有好处,却可以通过相关性研究得到结论。当大量的医疗数据被收集后,饮食、生活习惯、药物激素等等对于癌症的相关影响,都能够用数据来得到验证。
同时,相关关系也可以作为因果关系的基础。存在因果关系的事物,一定会存在相关关系,通过找到相关的事物,我们可以在此基础上进一步去研究因果关系,这样可以缩小因果关系研究的范围,减少因果关系研究的验证成本,从而更快速的发现因果关系。
以往,在研究的事物数量巨大的时候,由于计算量的过大,往往会采用随机抽样的方式进行研究,这在过去是切实可行的方法。
但是,随机抽样也存在着两个很难解决的问题:抽样科学性和信息丢失问题。
对于抽样小数据,由于数据量小,所以要求减少错误和保证数据质量,这样才能确保获取信息的准确性。因此,抽样的数据确实要具有代表性,也就要求抽样的科学性要保证,但现实是当前没有人能够从原理上证明各种抽样方法的科学性。另外,由于数据量少,这对数据分析算法的要求也要很高,算法的设计是关键因素,否则会影响最终分析的结果。
由于抽样,只会选择所谓的“有代表性”的数据,会丢弃大量的“多余”的数据,得到的分析结果也只是局部数据的信息,而那些“多余的”数据中蕴含的全局信息也会被丢失。
所以,抽样只适合于验证已知的结论,对于全局的未知的信息是没法获取的,特别是在社会科学研究中,各种社会模式都是未知的,数据的丢弃导致全局的信息无法获取。
而大数据时代,当把所有的数据作为分析对象时,相对来说,数据中的所有的信息都可以得到。而且,由于数据量大,算法的要求也会相应降低。
正如《大数据时代》所说,大数据的简单计算比小数据的复杂计算更有效。
所以,大数据,不仅仅是一种探索世界的工具,更是从思维上进行了变革。
CIO之家 www.ciozj.com 公众号:imciow