首先大数据我们知道这个时代正在来临,这里有一个调查,随着全球移动互联网和工业和生活数字化的进程,数据现在成为一个比较加速爆炸式增长。我们看这个调查报告,这个数据已经非常夸张,我们看这个数据增长趋势是一个逐渐上升和加速发展的一个趋势。
大数据主要特征,我这里用Granter2012年定义,大数据具有4V特征,包括高速变化、多样数据性和海量数据规模,能产生巨大价值。这个定义我认为是目前来说比较全面而又比较行而上的描述。说为数据高速变化,像谷歌2秒钟完成新闻网页搜索上线,数据量非常大,每天谷歌处理超过950TB的数据,数据类型也是非常多样。
在我们理解大数据在这方面有几个主要的元素,一个是数据,一个是技术,还有一个就是应用。其实简而言之用一个炒菜的例子来解释,整个大数据的词听起来现在是好象各种解释都有,实际上我们认为大数据就是像做菜,数据本身是原料,通过技术这些工具锅碗瓢盆什么的,通过对这些菜用整个工具进行处理,可以做成最后大家非常美味的食品,这个就是大数据的应用。大数据整个的价值的发挥应该是本身数据是没有价值,本身技术也没有价值,通过技术去处理这些数据,得到一些大数据的应用得到非常大的价值,从这几个方面大概来讲一讲大数据时代对我们的一些变革和创新。
首先从技术来说,处理数据IT系统来说,传统的IT系统实际上传统数据仓库的结构,主要处理是结构化和关系型的数据,IT架构是集中式的共享存储,数据是向计算靠近。他原来这种处理结构强调是一种集中式,就是强调单机或者是单节点的Scale-out性能的发展。大规模扩展性比较受限,随着数据量不断增大,从数据从成千倍发展,数据IT处理架构,处理的数据是结构化、非结构化混合。IT系统采用分布式、本地存储,计算向数据靠近这么一种架构,强调的是基于通用X86架构一种Scale-out线性扩展,可以扩展几百上千的节点。
大数据处理相关技术,首先我们说数据处理分两部分,一方面是分析及批处理技术,OLAP。另一种处理就是在线交易和查询应用,这里涉及大数据的处理技术,包括像Hadoop,MPP、NoSQL、内存数据库、流计算等等。这些技术是一个什么样的关系呢?用两张图简单解释一下,对于这种分析和批处理型的应用,原来传统的像我们知道的像传统的数据处理架构,对新的大数据处理架构,像结构化数据处理的MPP的数据库,这些都是商用产品。非结构化处理的分布式批处理的有一个Hadoop,在Hadoop的基础上基于内存式的处理就出现了像Spark。流计算的处理框架,包括Storm和SparkStreaming,快速数据流进行快速的实时统计和处理。大数据环境下主要就是IT系统和数据处理这种分析和批处理的应用,主要是这样一些架构。
对于数据查询和交易类的应用,对于传统的数据库大家知道有像Oracle,随着大数据数据量逐步增大,出现新型的分布式的数据库架构,包括两个分支,一个是分布式关系型数据库,像MySQL集群,还有OceanBase,还有非关系型数据库,HBase,Cassandra。这是从软件的分布式架构来说,随着硬件驱动发展,逐渐出现内存数据库,是采用一种全新由于硬件技术发展,对软件架构有一个本身设计有一个本身的变化,能取得更高一些性能。我们在这方面也是对这些技术开展一些研究,我们觉得现在我们国家在这些新技术的研发和应用方面可能还需要有一些更加强,更长的路要走。
刚才是介绍了一下三个要素里面技术方面。我们再简单讲一下数据方面,从运营商来说,运营商我是拥有大量数据的,这些数据包括以中国移动为例,包括网络数据、业务数据、用户数据。类似网络信令、报警、网管、网络的群数据,业务方面的业务信息、运营数据、客户服务数据,用户数据包括用户信息、业务订购、划单,业务使用记录等等。有一些系统集中化收集一些,包括地域用户和业务域数据,每天新增话单数据量18T。O域网管、信令每天新增是400T。互联网的数据很多是内容、文本,中国移动数据可能都是这种结构化的关系、表格型的数据。这些数据现在中国移动其实可能更多是作为一些用户的详单查询或者是网络一些问题的查询。现在真正把他进行处理和应用这种,我们还正在探索的过程中。
对于数据的价值分析是这样,我们也对运营商的数据和互联网的数据,其实我们认为是各有特点或者是各有应用价值。互联网数据来说更多是云端的数据,用户去在自己的终端或者应用上去使用互联网内容或者是互联网服务的行为,这个是互联网上的数据。运营商更多是一种管道,从这个角度来说,互联网的数据更多是一种比较分散的,因为互联网上面服务跟运营非常多,每个应用可能对用户访问自己应用的数据是非常清晰,用户行为非常清晰,非常分散。运营商是对整个用户访问情况有一个从管道里面进行汇聚,有这方面一些信息。互联网数据更多是一些用户内容数据,UGC,用户自己发微信、微博或者是进行一些搜索。运营商拥有数据更多是用户行为数据,用户通信行为、信息消费行为还有用户位置移动这些轨迹等等。我们从这些特点分析,互联网数据涉及大量用户产生内容数据,用户产生数据能更清晰描述用户特征,开展用户个性化服务。移动网络运营商数据更多涉及用户行为、通信行为和信息消费和用户位置轨迹等,结构化程度比较高,在社交网络区域相关和群体趋势分析和决策支持中具有更大的价值。
基于这些数据运营商,我们也在不断思考运营商在大数据方面可以有哪些具体的应用。包括网络监控,包括一些业务运营的优化还有对于一些公司内部,包括一些社会治理、政府部门一些决策支持,以及一些数据服务方面都可以发挥一些比较大的价值。
这是TMF国际标准化组织里面去总结的一些运营商在大数据方面的一些应用的价值,包括市场营销、产品分析、客户体验方面、网络优化方面都总结了一些具体的应用点和应用案例。这里不详细说,这里大概举一个例子,我们这也是一个省公司真实做的一个基于移动网络数据的一个案例。这个过程是这样的,这是一个数据应用移动数据进行数据一个服务。比如说一个商家他要来找到移动说我们要来扩展这个芯片,希望了解客源的信息,通过芯片规划对决策的支持。我们省公司是通过网络和用户数据一些分析就可以获取到商家访问到访用户,原来他有一个店到访用户群体位置分布、消费人群密度、活动时间和人群特征等。得到信息位置在这,平时访问是这个区域的人比较多,离的比较近。到周末的时候发现可能另外一个区域到访店的用户也很多,都是通过用户在移动网络里面切换的轨迹和位置分析可以得到群体的分析。根据这些信息,消费人群的地域分布和周末的时候,哪些区域有百分之多少的人会来访问这个店,目标这个人群的数量还有活动的时间,时段还有人群特征,这些人是属于25-35岁之间分布占80%以上等等。这个我们不会针对某一个人去做这个定位,但是我们可以对这个群体去做分析。
这个商家拿到这个数据可以非常准确去确定哪些区域人到我这里来访问,来买东西的意愿是比较强烈。我在那里开一个新店,根据客流量规划面积、库存等等这是对商家比较大的帮助。后面结合一些中国移动一个活动,结合中国移动市场营销,这个和数据分析无关,这是推广渠道,返话费什么的,完成整个店的规划和开张营销提供信息服务。这是移动比较典型的一个案例,我们省公司确实一个真实开展的一个案例。
实际上这只是举了一个很小的例子,我个人思考在这个方面我们完全可以移动数据可以发挥更大的价值。你比如说原来百度发布过节假日的人流流向的报告。比如说有百分之多少人从哪个城市流到哪个城市,移动在这方面完全可以做到更精准的分析。人群怎么流动,包括流动的时间,流动方式是坐火车过去还是坐飞机过去这些都可以获取。很简单,火车位置一个位置接一个位置连续,飞机用户是你上飞机之前得关机,下飞机开机,这时候对整个人流流向,流动时间还有流动这种交通工具方式中做一个非常详细的分析。提供给交通部门或者提供给一些其他的国家社会治理部门,能够发挥非常大的一些价值。因为我们目前正在研究这些,可以在国家一些反恐活动中发挥价值。比如我们分析出来某一个经常联系的群体,从某一个比较敏感的省份到了一个认为比较重要的一个城市,而他又符合某一种特征的时候,我们从这方面启动一些预案,进行一些管理。这些我认为是运营商数据独有的优势。刚才也是跟大家主要从数据、技术和应用方面大概分享一下我们的思考和实践。
最后我们认为大数据的本质到底是什么样子,我们认为大数据的本质,现在说到数据分析是大数据,其实大数据这个词并不是说有数据分析都是大数据。大数据不是以量变引起质变,我们原来对部分采样数据进行分析或者是具体数据进行分析,大数据的一个特征就是对全量的数据进行分析。正因为对全量的数据进行分析,我们更多追求是统计的全面性而不是一个原来数据绝对的精确性。另外一个重要的结论就是大数据实际上追求的是一种相关的关系,而不是因果关系。相关关系主要是数据和数据之间相关,数据和事实之间的相关关系,而不是追求事实本身的因果性。通俗一点来说,当我们发现某一种数据特征出现的时候,由于历史上通过大数据的统计发现这种规律可能会对应某一个事实,我们就可以得到一个结论,可能这个事实就以很大概率重现。比如说地震,我们无法解释地震之前可能会各种数据,各种地质或者数据发生异常。这些异常跟地震之间有什么样的直接因果关系,我们现在还无法特别准确的解释。但是只要这些数据出现了这些异常,那么可能就会对应地震事件发生,这是大数据分析一个典型案例。整个大数据本质就是结构、统计、规律、预测。先对数据进行结构化,然后通过统计,寻找其中洞察这些数据之间相关关系,就是规律,最后通过数据进行预测。
这里举个例子,这也是省公司做的真实案例,我们收到一个需求,管理部门需要对高速公路进行实时拥堵状况监测,我们通常在这个方面移动可以采用的方法就是高速路上车辆手机终端在移动网络上的切换,手机不断移动过程当中不断切换小区。移动网络切换轨迹,确定车辆在高速公路的实施状况,得到交通的实时状况。这里我用这个例子解释一下刚才大数据的统计方法跟原来的不同。原来传统分析方法我们需要建立一个模型,这是移动覆盖示意图,小区切换点和道路位置精准映射关系,如果一个汽车从这个点到这个点之间切换点多长,距离有多长,算出测速,根据这个进行计算。有一个问题就是小区切换点位置难度和精确性有关系。切换点是随着信号的强度会有不同的衰减,很可能会有很不精确或者很大的差别。我们想一个办法,用大数据的分析方法,不再去追求切换点的精确位置。根据历史数据分析,去计算切换点之间的统计距离,不同时段早晚之间道路畅通和拥堵时候的切换点的统计距离。早上8点从某一个切换点到下一个切换点可能需要5分钟,晚上十点的时候需要2分钟或者1分钟,都是可以通过历史统计出来的。
另一个我们可以通过小区用户数量变化这种数据模式,去预测拥堵时间。我们小区通过大量历史统计,其中各个段都可以统计,这段现在小区里面用户数是20人,他的入流量是每分钟进入10个,出流量每分钟出去10个,对应车速是畅通状态。当发生一些逆行时候,小区50人,进入流量是每分钟20,出的是5个,这时候判断是拥堵。我们分析数据和事实之间相关关系的规律统计出来,我们就可以直接去预测道路的拥堵。坐在办公室通过网络数据分析就可以把这个事办了,不用再很清楚做一些实际道路一些传统方式需要做的事情。这个就是大数据分析的一个制定的一个方式。
我们最后再来回顾一下大数据的要素,大家看这个图,里面有菜,有工具,有原料,我们最后做出一盘菜来,这是其中几个要素。大家觉得是不是少了一些,最重要就是这个厨师,是人,在大数据资料发挥价值的时候,最重要就是我们认为有一个角色叫做数据工程师或者数据科学家,我们需要培养这样一些人每天观察这些数据,洞察这些数据有没有规律,找到一些非常有价值的应用,才能让这些大数据能够发挥更大的价值。中国移动研究院我们现在是大数据与I技术研究所,我们现在很多也是有这方面非常多的专家来做这方面事情。根据我们网络数据,用户数据做一些数据洞察和数据处理,希望这些数据今后能够包括我们公司内部以及为整个国家包括社会治理和一些其他的决策支持方面发挥更大的作用。
CIO之家 www.ciozj.com 公众号:imciow