1、引言
当前,全球大数据产业日趋活跃,技术演进和应用创新加速发展,各国政府战略布局和行动不断推进。我国已形成了一定的应用、技术和产业基础,面临难得的发展机遇,但也存在数据、技术、法律环境等一系列问题。如何抓住机遇,将我国拥有的数据资源转化为经济发展动力,是当前的紧迫课题。应把握大数据发展的基本规律,加强顶层设计,统筹谋划大数据应用、关键技术研发和扩散、产业培育、数据开放与数据保护、市场监管、法律法规等关键布局,系统推进我国大数据发展。
2、国外大数据发展状况趋势
(1)大数据产业发展极度活跃
大数据在资本市场大受追捧,成为产业兴起的风向标。一方面产业巨头积极通过研发+ 并购的策略加紧布局大数据产业,仅IBM 一家就收购了30多家大数据公司,未来3 年还计划再投入145 亿美元。微软、SAP 、EMC、Oracle、Yahoo、Twitter 、沃尔玛等也都频频出手,通过并购增强大数据能力。另一方面,VC也很踊跃,据GP Bullhound、CB Insights 等机构粗略统计,全球2013年大数据融资案数量和额度都比2012年翻了两番。
●从产业规模看,大数据还处于发展早期阶段
一般认为,大数据产业包含硬件、软件和服务3 个部分。据Wikibon公司2014年年初发布的报告,2013年全球大数据相关硬件、软件和服务市场规模为181亿美元,同比增幅长了61% ,增速是同期IT 产业的6倍。预计2017年市场规模将达到470 亿美元,年度复合增长率将维持在30%以上。
●从产业构成看,大数据的硬件定制化和软件服务化成为明显趋势
硬件和服务成为大数据产业中产值的主角,各占约40% ,大数据软件只占20% 。在硬件方面,由于大数据往往要追求软、硬件联合优化,硬件定制化程度要求很高,以定制化ODM模式生产的服务器占2012年大数据服务器总产值的57% ,2013预计将更高。此外,公共云计算逐步成为企业大数据处理的优先选择,亚马逊的弹性MapReduce、谷歌的BigQuery 和微软的HDI -nsight 等基于云计算的大数据分析服务陆续推出,推动大数据软件从发展之初就走上了服务化道路。
(2)互联网公司引领大数据技术前沿突飞猛进全球来看,大数据技术创新水平极不均衡,少数互联网公司遥遥领先,技术创新呈3 个阶梯。
●第一梯队以谷歌为代表,在大数据技术上处于绝对领先地位
谷歌公司凭借其强大的基础设施、丰富的数据资源和小步快跑的迭代开发,继2003—2006年推出GFS 、BigTable 和MapReduce 后,2012—2013年又相继推出新的“三驾马车”,即Caffeine、Pregel、Dremel 。谷歌累计发表大数据领域的学术论文2000多篇,为业界输出了大量原创技术。
●第二梯队是Yahoo、Facebook 、Twitter 等一大批互联网企业
他们积极利用开源社区,能够迅速将原创技术与自身的工程实践相结合,开发了Hadoop等大量开源软件,极大降低了整个业界进入大数据领域的技术门槛。
●第三梯队是IBM 、Oracle 等传统IT 厂商
他们能够在开源技术基础上进行改进,与行业应用系统紧密结合,快速形成一般企业可直接使用的商用产品。这种技术创新的不均衡状况在各国普遍存在,特别是在医疗、教育和科研等公共领域的大数据技术相对滞后。
(3)大数据应用逐渐落地,加速向传统产业延伸
●互联网是大数据应用最深入的领域
目前,已经产生了搜索、精准广告、智能推荐等一批成熟的大数据应用模式。搜索引擎自2000年左右诞生时就是典型的大数据应用,其核心要对全球上千亿网页按照权重进行排序,需要强大的底层存储和计算能力才能支撑,直接催生了MapReduce 等一系列分布式技术。广告是互联网当前最主要的商业模式,2010年以来兴起的实时竞价广告能够根据大数据将用户特征与广告精确匹配,提供广告精准程度。利用大数据分析结果开展精准营销也已经成为电商平台的标准配置,通过分析用户数据后向用户推荐商品,亚马逊等40% 以上交易是靠个性推荐转化的。2013年,互联金融爆发式发展,成为互联网大数据拥有者向传统行业延伸的急先锋。据报道,阿里小额贷款不良贷款率为1.02%,是银行1/5,成本不到银行的1/400。
●互联网之外,电信业有望成为大数据应用最先落地的领域
国外主要的电信运营商,如Verizon、Telefonica、NTT Docomo、法国电信和Orange 、Vodafone 和德国电信等都在2012年启动了大数据相关项目。目前来看,电信运营商运用大数据有对内和对外两种模式。对内主要是为智能管道提供支持,包括基于用户、业务及流量分级的多维管控机制,以及精准的客户分析及自有业务的营销。对外应用,一方面是面向公共服务的大数据应用,如利用位置和轨迹信息服务社会,为智慧城市提供海量数据预测服务,包括人口流量模型、城市人口流量等。但电信运营商发展大数据应用,还面临着技术水平、组织架构、管理体制等因素制约。
●此外,大数据与其他传统行业结合的案例也越来越多
零售巨头沃尔玛2014年年初表示,他们在大数据上已尝到了甜头,例如通过数据分析及时指导库存调整,将一些店面的业绩提升了40% 。制造业也在积极拥抱大数据。GE公司2013年在全球推广工业互联网(Industrial Internet),提出要用“传感器+ 大数据”构造重塑工业系统,通过数据分析进一步挖掘工业生产降耗增效的潜力。GE预测,到2030年工业互联网将为中国经济带来累计3 万亿美元的GDP增量。相对来说,政府和公共部分虽然已经积累了大量数据,但大数据应用还未找到有效模式。
3、各国推动大数据的政策取向和举措
美、英、日、澳等国家政府高度重视大数据产业发展,自2012年来密集出台多项专门政策予以支持。从国外政府的举措来看,政策着力点主要在于开放数据、研发投入和公共部门应用。
美国政府最为迅速和积极,在上述3 方面大力推进。美国要求联邦政府数据必须实现开放且要采取标准格式供计算机自动读取,目前已开放近40万个数据集和上千个工具。在美国倡导下八国集团也在2013年发表数据开放宪章,共同推动政府高价值数据开放。目前,全球已有60多个国家加入到数据开放行列。2012年,美国还率先推出大数据行动计划,全面部署大数据关键技术研发,支持研发的重点方向是大数据基础关键技术,以及医疗卫生、交通、科研和国土安全等领域的大数据应用技术。此外,美国政府也是大数据的积极使用者,2013年曝光的棱镜门事件,揭示了美国国家安全部门大数据应用范围之广、水平之高、规模之大都远远超过人们的想象。NSA、FBI 及CIA 等近两年大量采购亚马逊和IBM 的云服务,主要也是用来支撑其大数据应用。
英国、日本、澳大利亚等国也在积极推动大数据发展。英国将大数据列为战略性技术,2013年1 月拨款1.89亿用于大数据研发,是拨款最多的领域。英国也在积极促进政府和共用领域的大数据应用,2013年5月与李嘉诚基金会宣布联合投资设立全球首个运用大数据技术的医药卫生科研机构。日本政府认为大数据是提升日本竞争力的关键,2013年6 月安倍内阁的新IT 战略——“创建最尖端IT 国家宣言”中阐述了2013—2020年期间以发展开放公共数据和大数据为核心的日本新IT 国家战略。2013年8 月初,澳大利亚出台公共服务大数据政策,提出了大数据分析的实践指南、会碰到的主要障碍以及对数据的登录和使用等,希望通过大数据分析系统提升公共服务质量,增加服务种类,为公共服务提供更好的政策指导。
4、我国大数据产业发展情况
我国大数据发展已进入实际操作阶段。互联网企业方面,百度、阿里、腾讯三大互联网公司的大数据处理集群达到5000台左右,数据存储规模达到200~1000PB,规模达到世界先进水平;目前,正在打通内部数据系统,构建统一的企业数据仓库,积极应用大数据改善既有服务,并利用大数据资源和技术开展互联网金融等跨界融合业务。电信运营企业方面,中国电信提出构建数据共享服务体系,开展深度数据挖掘,最终将数据分析结果引入到应用开发支撑业务发展;中国移动计划利用其拥有的海量大数据资源,建立数据分析平台,从而实现营销服务向“大数据、超细分、微营销”转型;中国联通以移动用户上网记录查询和分析系统为核心整合内部资源,发展定向流量包等创新应用。
地方政府积极推动大数据发展,2013年以来陆续出台了推进计划。上海计划3 年内选取医疗卫生、食品安全、终身教育、智慧交通、公共安全、科技服务6 个有基础的领域,建设大数据公共服务平台。天津拟打造国家数据聚集区,将建设1 个占地2.5 万平方米的大数据产业基地和3 个产业园区,与北京、河北联合建“京津冀大数据走廊”。 重庆计划将大数据培育成重要战略性新兴产业,加快建设两江云计算产业园100 万台服务器运算能力的数据中心集群,并结合城市特点开展大数据示范应用。广东省在刚刚结束的2014年两会上分别决定设立省、市两级的大数据局,专门负责推进政府部门的信息采集、整理、共享和应用,消除信息孤岛,在体制创新上开创国内先河。此外,陕西西咸新区、湖北武汉光谷、贵州贵安新区等地也都纷纷提出要建设国家级大数据基地。但应该注意,在地方积极推动大数据发展的同时,也要警惕将大数据简单等同于“大数据中心”,大干快上大数据园区的错误倾向,避免重蹈“云地产”泡沫覆辙。
5、我国大数据产业发展存在的主要问题
(1)我国数据资源储备不够丰富,数据开放流通程度较低
丰富的数据源是大数据产业发展的前提,而我国信息化发展水平仍落后于发达国家,数据资源总量远低于美欧,每年新增数据量仅为美国的 7% ,欧洲的12% 。与此同时,已有数据资源标准化程度低、数据质量不高、利用价值也大打折扣。此外,在传统信息化系统建设模式下,由于对数据的重视程度不高,数据互通标准缺失,形成众多“信息孤岛”,开放程度低,资源活性差,又进一步抑制了数据价值的发挥。如何建立良性发展的数据资源储备和共享流通的生态系统,是我国大数据发展的首要问题。
(2)我国大数据技术存在水平不高,技术扩散不畅
我国互联网企业快速将国际上先进的开源大数据技术整合到自身系统中,并构建了较大的系统,在国内保持领先。但总体上仍缺乏平台级的原创技术,对国际主流开源社区的贡献程度也不高,国内产业界在大数据技术路线发展中的话语权微弱。如果这种局面不改变,长远看我国产业界将在大数据技术发展中越来越被动。
(3)大数据对个人信息保护提出挑战,相关的法律法规有待进一步完善
大数据时代的个人隐私保护在全球各国都是一个棘手问题。各国现行法律框架对个人隐私的保护,重点是可识别个人身份的信息(PII,Personal Identifiable Information ),包括姓名、出生日期、身份证件号码、住址、电话号码、账号和密码等能够单独或者与其他信息结合识别用户的信息。只要保护好这些个人信息(PII)就能很好保护隐私,为此法律通常规定收集个人信息遵循知情同意原则。但大数据的应用很难在收集环节将后续利用一一告知用户。但如果按现行法律框架,将制约个人数据价值的发挥,立法司法面临进退两难局面。大数据产业的发展,必须解决好个人隐私保护,还要保护好数据安全、知识产权,这就要求有一套完善健全的法律法规体系,我国这方面还有很多工作要做。
6、推动我国大数据产业发展的政策思考
结合国际经验与我国面临的实际问题,我国政府推动大数据的发展,需要首先明确我国大数据发展的战略目标和战略重点,统筹谋划大数据应用、关键技术研发和扩散、产业培育、数据开放与数据保护、市场监管、法律法规等关键布局,从大数据应用效果显著的社会公共服务和互联网商业应用入手开展大数据试点,引导地方大数据发展方向,避免再次形成“数据中心”的虚热。
(1)在技术创新上,建议改革支持方式,加快大数据共性和前瞻技术研发
首先,要加强大数据技术创新支持方向的前瞻性和系统性,近期重点支持深度学习与人工智能、实时大数据处理、海量数据存储管理、交互式数据可视化和应用相关的分析技术,探索由国内产业力量打造自主开源大数据平台软件的可行性。同时,还要顺应互联网创新特点,创新科研项目支持方式,把握大数据技术开放创新的特点,在科研与产业化项目中将开源和开放标准作为考核指标,通过直接补助或后补助方式激励企业和科研机构参与开源发展,促进大数据技术扩散。
(2)在政府数据开放上,建议完善配套制度,分类分批推动政府数据开放
首先,要推进政府和公用事业领域数据资源的普查工作,界定数据权属,理顺利益机制。同时,按照相关法规制定政府和公共数据开放中的安全和隐私保护检查表,对可能涉及国家安全和公民隐私的风险点进行严格控制。在此基础上,按敏感性对政府和公共数据进行分类,确定开放优先级,制定分步骤的数据开放路线图。
(3)在个人数据保护上,建议结合国际立法理念的演变趋势,对我国相关制度的调整进行前期研究。同时,为了解决当前数据保护的紧迫需求,可行的途径是通过行业组织,及时总结业界的最佳实践,逐步形成行业共识,在试点成熟后上升为标准或法律法规,并通过行业自律和政府引导相结合的机制进行推广。
CIO之家 www.ciozj.com 公众号:imciow