目前下列公司和机构通常拥有大数据:
大型实体商业公司或电子商务公司,如大型连锁商店Walmart,Sears等,或Amazon,阿里巴巴。这类公司大都拥有大量的客户数量、长期的客户购卖记录、客户的支付历史等。这类公司最感兴趣的是客户购物的消费偏好和消费习惯。目前这类公司的大数据应用包括推荐关联产品和推出其它新的产品、 新的服务上。
大型服务公司,如银行、电信服务等公司。这类公司也拥有客户的某个方面历史消费记录,比如银行可能拥有客户的金融账户收入支出信息,电信公司拥有客户的电话或网络使用历史。这类公司通常对本行业内推出新的产品和服务,以及寻找潜在客户,降低业务风险较感兴趣,比如热门的推荐系统等。
大型制造企业,如福特汽车公司等。这类公司因为其大量的客户基础,往往可以在推出新产品服务上使用大数据技术和应用。
大型网络服务公司,如Google,百度,Yahoo 等。这类公司由于在其服务行业的垄断性,积累有海量的用户在网络虚拟世界的行为信息。这类公司通过归纳和机器学习等,可以挖掘出非常多有价值的应用产品和服务。目前使用大数据最好的公司是Google。Google广告系统AdSense就是利用大数据技术来实现的。另外,Google公司还可以利用大数据做出一些预测,如流感的爆发,政治性事件的预测等。Google公司还进一步推出如自动驾驶等大数据应用,及Google眼镜等结合大数据收集与应用于一身的产品应用。
大型社交网站,如Facebook,Twitter,及其它社交网站如LinkedIn和其它活跃论坛等。 全世界用户每天都在社交网站上产生大量的内容。仅Facebook每天需要处理的社交信息就达到了500TB之多。 目前这些数据正在被大量的个人开发者和技术公司使用,用来做各种商业服务推荐或新的产品。
政府部门和科研机构的公开数据,如有关天气、交通状态、道路、地质、环境 以及科学研究的进展等部分。美国联邦政府特别提出,将联邦政府各部门的数据开放给公众,这些数据的应用包括自动驾驶、智能交通监测系统等。
除了上述商业机构的大数据之外,国家机构还拥有大量有关国家安全的敏感信息。本文只讨论商业应用,故不讨论这部分大数据的应用和交互。
一位曾在Teradata公司工作的数据专家说过,很多商业公司大约只存储15%的有关他们业务的数据,其余85%数据都存储在其它外部公司或网站上。大数据时代的技术,使得企业内部的大数据和外部数据的整合、交互变得更加重要。
目前一些商业机构对大数据的应用,不止局限于对自身拥有的大数据进行分析,还需要用到其它方面的大数据。
例子1:某些金融企业如银行希望和利用获得其用户的社交信息,以便和该金融企业拥有的客户信息整合起来,推出更多的新产品和更好的客户体验。
例子2:一位医疗保险公司的客户要去某国外城市旅行,在微博上发表了这一信息,医疗保险公司因为事先得到客户的许可,可以从社交媒体(微博)上获得这一信息,根据这位客户的个人特殊身体情况,医疗保险公司马上给该客户发去避免某些当地食物的短信。
例子3:一家经营连锁旅馆的企业,除了自己网站、各地客房入住等情况外,希望能够获得其它旅游方面的大数据,例如景区旅游人数、租车公司的客户数量、租的汽车的档次等变化等,这些对旅馆的房价定价,经营预期等有着很强的辅助作用。
例子4:一家初创公司,利用城市交通情况的公开信息(政府信息),结合其用户群上传的即时的城市交通状况(互联终端产生的用户自创信息或社交信息),对交通路线、预测到达时间等进行预测,从而为城市里的驾车人群车流进行更好的服务。
商业公司对外部大数据的整合和交互是未来的大趋势,国外有很多公司已经开始着手这方面的技术和服务,如Alteryx、QlikView、Tableau、Factual等。
对于政府或科研部门公开的大数据信息,商业公司业可以进行整合和分析,比如人口调查、GDP统计、房产信息(美国是公开的)交通情况等。众多大数据技术公司也已经在这方面发力,如Factual、InfoChimps、Socrata等公司。
据Gartner预测,到2017年,约三分之二的大数据整合项目,将是企业防火墙之外(外部数据)的整合。
商业公司之间的大数据交互至少有下列几种:
方式一:两家或两家以上的商业公司,他们从事的服务行业不同,拥有客户的不同方面的信息,他们的服务行业有的具较有强的相关性,整合、交互信息对其中一方或参与各方都能增加新的价值。
方式二:商业公司对社交网站的客户个人信息数据整合,期望带来新的业务增长点或实行更好的客户服务。
方式三:商业公司对政府部门的公开信息,进行大数据级别的整合和交互,产生新的商业模式、新业务、或改进客户服务。
方式四:未来,还会有新的外部大数据的整合方式会产生价值,比如某商业公司进行大量的对外部弱相关的数据的整合,当总量达到一定规模之后,仍然会产生对商业公司自身业务具有巨大价值的信息。
商业公司间的大数据种类众多,几乎大多数的情况下,两个公司之间数据的整合只对其中一方的业务有帮助,或者对双方的业务帮助价值不对等,比如社交媒体的信息对于大众商品销售公司等。因此,购买大数据的可能性远大于简单数据交换或数据互通。如何引导,规范大数据的交易,以及提供交易方式、工具等, 成为有关部门和大数据技术公司研究的重要课题。
我们认为,要开展大数据的交易,需要解决一系列的问题,例如:
如何引导更多企业开放大数据? 大数据的应用需要更多的企业开发各自行业、领域的数据,市场的参与者越多,市场的交易选择和能找到的价值就越大。我国政府应该鼓励更多企业开放他们的大数据。企业间的大数据通过更多的交互和交易,才能最大的价值化。
如何保护大数据的属有权和隐私权?大数据往往是个人信息的集成, 我国对于个人信息隐私的保护有明确法规和引导,大型企业都特别注意对用户的隐私保护。企业间用来交易的大数据,必须遵守国家有关法律,保护个人隐私和重要信息。因此,市场能提供的大数据应该更多是经过处理,隐去个人敏感信息,或者直接就是按照区域、人口年龄、收入情况等进行分类集成后的信息。相关部门可以制定关于大数据交易的法规,引导市场参与者在提供大数据的同时,对于国家安全信息、个人隐私、商业机密等方面进行特别保护和处理。
如何更好地开放政府部门信息?各国政府都在开放更多的公开信息,建立公开的大数据平台,更好的利用大数据为社会服务和产生价值。我国政府在这方面也大有可为。
如何找到有价值的外部数据?商业公司只对自身业务有关的外部数据感兴趣,如何找到强相关或弱相关的外部数据,成为重要的课题。大数据创业公司可以在提供工具,建立开放的API等方向有所作为。各类云计算平台也可以提供大数据的API。我们认为,政府或大数据技术公司等业界,应该创造一些基本的数据处理、归类、分析工具。 为商业公司寻找外部大数据的整合和应用,提供服务和方便。
如何衡量大数据的量和质?一般说来,一个大数据包,如果包含某一方面的大数据年限越久,覆盖人群或服务方向越多,其价值就越高。但是同样的大数据,对于不同的潜在买家,可能具有的价值不同。例如某电子商务网站的客户消费记录,对于一个大型综合类销售公司,和对某一小型单一产品销售公司的价值,差别巨大。如何对大数据产品进行量和质进行价值上的分类,是进行大数据交易必须解决的问题。
如何规范大数据商品的可重复使用性?一个大数据包,可能会对不同的外部企业都具有价值,有时而且没有利益冲突。理论上一个大数据商品,可能可以出卖多次。对大数据交易,是否产生使用权,属有权的改变?是否能够再次出售,能否转卖?能否卖给某位买家的竞争对手?等问题,都应该进行明确和规定。
如何建立大数据商品交互技术平台、开放API、统一API?由于大数据的量大,规格众多等特性,大部分时候,大数据的直接转移非常困难或不现实,买家往往需要通过API来使用大数据商品,如何建立统一的API,建立大数据交互的技术平台,也是一个巨大的挑战。
另外,大数据商品,更接近于原始的商品,市场参与者各自带上自己的货物,到一个市场进行交易, 类似于摆摊。由于上述的大数据商品的特性,更加需要建立规范的、方便的交易场所。
大数据商品的交易可能会包含下列过程:
卖家对自己的大数据进行预处理,保证用于交易的大数据商品遵守国家相关的法律和规定;
卖家描述自己的大数据包,并描述以往的交易历史,包括历史买家的行业描述等;
买家在大数据交易平台上寻找对自己业务有帮助的大数据商品;
买卖双方就数据的使用权,数据的转移,数据是否可以再次出售(时间上,竞争对手限制等),是否委托第三方技术公司进行数据分析等等, 达成协议;
买方支付交易金额,同时大数据商品转移到买方;
买方将对大数据商品进行分析或应用,实现大数据商品的价值。
我们认为,由于大数据商品的特殊性,建立大数据交易所,可以对大数据的交易做出权威性的规范,保证交易安全,同时为市场参与者提供工具和帮助。
大数据交易所的重大作用:
大数据交易所可以深化国家有关法律对大数据商品的规范,特别是确保大数据交易的买卖双方遵守国家有关隐私,国家安全,商业机密等方面的法律,保护消费者的信息安全和其它权益;
大数据交易所可以引导对大数据商品的规范,对大数据进行定量,定价方面进行引导;
大数据交易所应该建立认证系统,确保大数据商品的真实性和价值;
大数据交易所应该为市场参与者提供技术上的帮助,帮助市场参与者寻找适合自己的交易方;
大数据交易所应该且可以对大数据的转移和使用提供法律上的保障;
大数据交易所应该且可以对大数据的转移和使用提供数据安全上的技术保障;
大数据交易所,应该确保资金的转移和安全;
大数据交易所,还可以开放大数据期货,即对未来某时间段将要产生的大数据,进行交易。
由于市场参与者大都为商业公司,大数据的交易更像是实体商品交易而不同于股票交易。随着交易的进行和市场参与者的增多,大数据商品的种类会逐渐丰富,从而吸引更多的市场参与者。
大数据交易的参与者至少包含下列几类:
初端卖家,即提供某方面信息的大数据商品卖家,该类用户可能通过从事的行业服务,积累某个方面的数据;
终端买家,对相关行业服务信息由需求的商业服务公司,买来大数据提升自己的服务或产品;
大数据投资者,这类参与者发现或认可某大数据商品的价值,可以先买入,再买给有需求的大数据终端买家;
加工商,由于大数据商品的高技术含量,大数据技术公司可能先买入原始数据,经过处理,集成后,再卖给终端买家。
市场参与者可能具有多重交易身份,既是大数据的提供者,也是大数据的消费者。各类市场参与者的交易,能使大数据交易市场更加活跃,增加市场的流动性,引来更多的大数据商品的加入和交易。
综上所述,建立大数据交易所,虽然在技术上、法律上、流程上尚有一系列需要解决的问题,但我们认为,这是一个可以逐步进行,逐步解决的过程。 我们认为,建立大数据交易所有非常大的必要性和可行性,建立大数据交易所是势在必行的市场需求。
CIO之家 www.ciozj.com 公众号:imciow