大数据安全浅析

网友网络收集

一、大数据安全概述

“数据”是网络的“血液”，是企业得以发展的核心。云计算和物联网技术的快速发展，引发了数据规模的爆炸式增长和数据模式的高度复杂化，如何对这些大量又复杂的数据进行有效管理和合理分析成为各大企业亟待解决的问题，同时该问题也受到了各国政府的高度重视。

1、大数据的定义

麦肯锡（美国首屈一指的咨询公司）是研究大数据的先驱，它将大数据定义为“大小超出常规数据库工具获取、存储、管理和分析能力的数据集”；但它同时强调，并不是说一定要超过特定TB 值的数据集才能算是大数据。国际数据公司（IDC）从大数据的4个特征来定义大数据，即海量的数据规模（Volume）、快速的数据流转和动态的数据体系（Velocity）、多样的数据类型（Variety）、巨大的数据价值（Value）。维基百科给出的定义是：大数据（Big Data），或称巨量资料，指的是所涉及的资料量规模巨大到无法通过目前主流软件工具，在合理时间内通过截取、管理、处理、整理等形成能帮助企业经营决策的信息。

以上几个定义，无一例外地都突出了“大”字。“大”是大数据的一个重要特征，但远远不是全部。总结以上各种大数据定义的共同点，可以这样认为：大数据是“在多样的或者大量数据中，迅速获取信息的能力”。

2、大数据的特点

业界通常用4V来概括大数据的特点，即Volum（体量浩大）、Variety（模态繁多）、Velocity （生成快速）和Value（价值巨大但密度很低）。

（1）Volume：现代互联网信息的爆炸式增长使数据集合的规模不断扩大，已从GB到TB再到PB级，甚至开始以EB和ZB来计数。IDC 的研究报告称，未来10年全球数据量将增加50倍，管理数据仓库的服务器数量将增加10倍。

（2）Variety：大数据类型繁多，包括结构化数据、半结构化数据和非结构化数据。现代互联网应用呈现出非结构化数据大幅增长的特点，非结构化数据占有比例将达到整个数据量的75%以上。同时，由于数据显性或隐性的网络化存在，使数据之间的复杂关联无所不在。

（3）Velocity：大数据往往以数据流的形式动态、快速地产生，具有很强的时效性，用户只有把握好对数据流的掌控才能有效利用这些数据。数据自身的状态与价值也往往随时空变化而发生演变。

（4）Value：虽然大数据的价值巨大，但是基于传统思维与技术，人们在实际环境中往往面临信息泛滥而知识匮乏的窘态，造成大数据的价值利用密度低。

大数据以浅显易懂的概念、广泛潜在的应用需求和可展望的巨大经济效益，成为继移动互联网、云计算、物联网之后信息技术领域的又一热点，但大数据的发展仍然面临着许多问题，安全与隐私问题是人们公认的关键问题之一。正如Gartner咨询公司所说：“大数据安全是一场必要的斗争”。大数据所含信息量较高，虽然相对价值密度较低，但是对它里面所蕴藏的潜在信息，随着快速处理和分析提取技术的发展，可以快速捕捉到有价值的信息以提供参考决策。因此，大数据在掀起新一轮生产率提高和消费者盈余浪潮的同时，面临着信息安全的挑战。当前很多组织都认识到大数据的安全问题，并积极行动起来关注大数据安全。许多传统的信息安全技术可用于大数据安全防护，但由于大数据的产生使数据分析与应用更加复杂，数据类型及数据量的增多使数据安全和隐私保护问题更加突出，现有的安全防护策略难以满足大数据安全的需求。

二、大数据安全面临的问题及挑战

当前，大数据安全面临着许多挑战，需要通过研究关键技术、制定安全管理策略来应对这些挑战。具体来说，大数据安全面临的挑战有以下几点。

1、大数据面临许多安全问题

当前，大数据的应用和发展面临着许多安全问题，具体来说有以下几个方面。

（1）大数据成为网络攻击的显著目标

在网络空间中，大数据是更容易被“发现”的大目标，承载着越来越多的关注度。一方面，大数据不仅意味着海量的数据，也意味着更复杂、更敏感的数据，这些数据会吸引更多的潜在攻击者，成为更具吸引力的目标；另一方面，数据的大量聚集，使黑客一次成功的攻击能够获得更多的数据，无形中降低了黑客的进攻成本，增加了“收益率”。

（2）大数据加大隐私泄露风险

从基础技术角度看，Hadoop对数据的聚合增加了数据泄露的风险。作为一个分布式系统架构，Hadoop可以用来应对PB甚至ZB级的海量数据存储；作为一个云化的平台，Hadoop自身存在云计算面临的安全风险，企业需要实施安全访问机制和数据保护机制。同样，大数据依托的基础技术——NoSQL（非关系型数据库）与当前广泛应用的SQL（关系型数据库）技术不同，没有经过长期改进和完善，在维护数据安全方面也未设置严格的访问控制和隐私管理机制。NoSQL技术还因大数据中数据来源和承载方式的多样性，使企业很难定位和保护其中的机密信息，这是NoSQL内在安全机制的不完善，即缺乏机密性和完整性。另外，NoSQL对来自不同系统、不同应用程序及不同活动的数据进行关联，也加大了隐私泄露的风险。此外，NoSQL还允许不断对数据记录添加属性，这也对数据库管理员的安全性预见能力提出了更高的要求。从核心价值角度看，大数据的技术关键在于数据分析和利用，但数据分析技术的发展，势必对用户隐私产生极大威胁。

（3）大数据技术被应用到攻击手段中

在企业用数据挖掘和数据分析等大数据技术获取商业价值的同时，黑客也正在利用这些大数据技术向企业发起攻击。黑客最大限度地收集更多有用信息，如社交网络、邮件、微博、电子商务、电话和家庭住址等，为发起攻击做准备，大数据分析让黑客的攻击更精准。此外，大数据为黑客发起攻击提供了更多机会。黑客利用大数据发起僵尸网络攻击，可能会同时控制上百万台傀儡机并发起攻击，这个数量级是传统单点攻击不具备的。

（4）大数据成为高级可持续攻击（APT）的载体

黑客利用大数据将攻击很好地隐藏起来，传统的防护策略难以检测出来。传统的检测是基于单个时间点进行的基于威胁特征的实时匹配检测，而高级可持续攻击（APT）是一个实施过程，并不具备能够被实时检测出来的明显特征，无法被实时检测。同时，APT攻击代码隐藏在大量数据中，让其很难被发现。此外，大数据的价值低密度性，让安全分析工具很难聚焦在价值点上，黑客可以将攻击隐藏在大数据中，给安全服务提供商的分析制造了很大困难。黑客发起的任何一个会误导安全厂商目标信息提取和检索的攻击，都会导致安全监测偏离应有的方向。

2、现有的存储系统架构和安全防护面临挑战

大数据环境下，数据量大、数据类型多样、数据构成复杂，这使现有的存储系统架构和安全防护面临挑战。

（1）对数据隔离的要求更高

数据大集中的后果是复杂多样的数据存储在一起，如开发数据、客户资料和经营数据存储在一起，可能会出现违规地将某些生产数据放在经营数据存储位置的情况，造成企业安全管理不合规。

（2）存储系统的安全防护存在漏洞

随着结构化数据和非结构化数据量的持续增长以及分析数据来源的多样化，以往的存储系统已经无法满足大数据应用的需要。对于占数据总量80%以上的非结构化数据，通常采用NoSQL存储技术完成对大数据的抓取、管理和处理，虽然NoSQL数据存储具有可扩展性和可用性等优点，利于挖掘分析，为大数据存储提供了初步解决方案，但是NoSQL数据存储仍存在以下问题：一是相对于严格访问控制和隐私管理的SQL技术，目前NoSQL还无法沿用SQL的模式，而且适应NoSQL的存储模式并不成熟；二是虽然NoSQL软件从传统数据存储中取得经验，但NoSQL仍然存在各种漏洞，毕竟它使用的是新代码；三是由于NoSQL服务器软件没有内置足够的安全保护，所以，客户端应用程序需要内建安全因素，这又反过来导致诸如身份验证、授权过程和输入验证等大量安全问题的产生。而结构化数据的安全防护也存在漏洞，例如，物理故障、人为误操作、软件问题、病毒、木马和黑客攻击等因素都可能严重威胁数据的安全性。

3、现有的安全防护产品面临挑战

“数据量大”是大数据最突出的特征，在大数据环境下，数据的生命周期也有所变化，这都使现有的安全防护产品面临挑战。

（1）对于海量数据，常规的安全扫描手段需要耗费过多的时间，已经无法满足安全需求；此外，安全防护产品的更新升级速度无法跟上数据量非线性增长的速度，大数据安全防护存在漏洞。

（2）传统数据安全往往是围绕数据生命周期部署的，即数据的产生、存储、使用和销毁。随着大数据应用越来越多，数据的拥有者和管理者相分离，原来的数据生命周期逐渐转变成数据的产生、传输、存储和使用。由于大数据的规模没有上限，且许多数据的生命周期极为短暂，因此，传统安全产品要想继续发挥作用，就需要及时解决大数据存储和处理的动态化、并行化特征，动态跟踪数据边界，管理对数据的操作行为。

4、实施访问控制面临挑战

访问控制是实现数据受控共享的有效手段，由于大数据可能被用于多种不同场景，其访问控制需求十分突出。在大数据环境中，实施访问控制面临挑战，主要体现在3个方面。

（1）难以预设角色，难以实现角色划分

由于大数据应用范围广泛，它通常要被来自不同组织或部门、不同身份与目的的用户所访问，实施访问控制是基本需求。然而，在大数据场景下，有大量的用户需要实施权限管理，且用户具体的权限要求未知。面临未知的大量数据和用户，预先设置角色十分困难。

（2）难以预知每个角色的实际权限

由于大数据场景中包含海量数据，安全管理员可能缺乏足够的专业知识，无法准确地为用户指定其可以访问的数据范围，且从效率角度讲，定义用户所有授权规则也不是理想的方式。以医疗领域应用为例，医生为了完成工作可能需要访问大量信息，但对于数据能否访问应该由医生来决定，不应该需要管理员对每个医生做特别的配置；但同时又应该提供对医生访问行为的检测与控制，限制医生对病患数据的过度访问。

（3）不同类型的大数据中可能存在多样化的访问控制需求

在Web 2.0个人用户数据中，存在基于历史记录的访问控制；在地理地图数据中，存在基于尺度以及数据精度的访问控制需求；在流数据处理中，存在数据时间区间的访问控制需求等。如何统一描述与表达访问控制需求是一个挑战性问题。

三、大数据安全技术现状

在大数据场景下，数据在生命周期的各个阶段都面临着安全风险，因此，大数据安全防护策略需着眼于数据的全生命周期来进行安全管控，保障数据在存储、传输、使用、销毁等各个环节的安全。目前，大数据安全防护技术依赖于传统的安全防护技术，虽然能够取得一定的效果，但还存在许多不足；和大数据安全相关的一些关键技术也在研究当中，已经取得了一定的进展。

1、数据加密技术

数据加密是用某种特殊的算法改变原有的信息数据使其不可读或无意义，使未授权用户获得加密后的信息，因不知解密的方法仍无法了解信息的内容。加密建立在对信息进行数学编码和解码的基础上，是保障数据机密性最常用也是最有效的一种方法。

在大数据环境中，数据具有多源、异构的特点，数据量大且类型众多，若对所有数据制定同样的加密策略，则会大大降低数据的机密性和可用性。因此，在大数据环境下，需要先进行数据资产安全分类分级，然后对不同类型和安全等级的数据指定不同的加密要求和加密强度。尤其是大数据资产中非结构化数据涉及文档、图像和声音等多种类型，其加密等级和加密实现技术不尽相同，因此，需要针对不同的数据类型提供快速加解密技术。

2、身份认证技术

在虚拟的互联网世界中，要想保证通信的可信和可靠，必须正确识别通信双方的身份，这就要依赖于身份认证技术，目的在于识别用户的合法性，从而阻止非法用户访问系统。身份认证技术是确认操作者身份的过程，基本思想是通过验证被认证对象的属性来确认被认证对象是否真实有效。

用户身份认证的方法有很多，主要分为三类：一是基于被验证者所知道的信息，即知识证明，如使用口令、密码等进行认证；二是基于被验证者所拥有的东西，即持有证明，如使用智能卡、USB Key等进行证明；三是基于被验证者的生物特征，即属性证明，如使用指纹、笔迹、虹膜等进行认证。当然也可以综合利用这3种方式来鉴别，一般情况下，鉴别因子越多，鉴别真伪的可靠性越大，当然也要综合考虑鉴别的方便性和性能等因素。

在大数据环境中，用户数量众多、类型多样，必然面临着海量的访问认证请求和复杂的用户权限管理的问题，而传统的基于单一凭证的身份认证技术不足以来解决上述问题。

3、访问控制技术

访问控制指对用户进行身份认证后，需要按用户身份及用户所归属的某预定义组来限制用户对某些信息项的访问，或限制用户对某些控制功能的使用。访问控制技术可以可靠地支持对多用户的不同级别或类别的信息进行有效隔离和完整性保护。包含在授权数据库中的访问控制策略用来指出什么类型的访问在什么情况下被谁允许，访问控制策略一般分为自主访问控制（DAC）、强制访问控制（MAC）和基于角色的访问控制（RBAC）这3种。以上3种策略并不是相互排斥的，一种访问控制机制可以使用2种甚至3种策略来处理不同类别的系统资源。

在大数据场景下，采用角色挖掘技术可根据用户的访问记录自动生成角色，高效地为海量用户提供个性化数据服务，同时也可用于及时发现用户偏离日常行为所隐藏的潜在危险。但当前角色挖掘技术大都基于精确、封闭的数据集，在应用于大数据场景时，还需要解决数据集动态变更以及质量不高等特殊问题。

4、安全审计技术

安全审计是指在信息系统的运行过程中，对正常流程、异常状态和安全事件等进行记录和监管的安全控制手段，防止违反信息安全策略的情况发生，也可用于责任认定、性能调优和安全评估等目的。安全审计的载体和对象一般是系统中各类组件产生的日志，格式多样化的日志数据经规范化、清洗和分析后形成有意义的审计信息，辅助管理者形成对系统运行情况的有效认知。

按照审计对象的不同，安全审计分为系统级审计、应用级审计、用户级审计及物理访问审计四类。

在大数据环境中，设备类型众多，网络环境复杂，审计信息海量，传统的安全审计技术和已有的安全审计产品难以快速准确地进行审计信息的收集、处理和分析，难以全方位地对大数据环境中的各个设备、用户操作、系统性能进行实时动态监视及实时报警。

5、跟踪与取证技术

早在大数据概念出现之前，数据溯源（Data Provenance）技术就在数据库领域得到广泛研究。其基本出发点是帮助人们确定数据仓库中各项数据的来源，例如，了解它们是由哪些表中的哪些数据项运算而成，据此可以方便地验算结果的正确性，或者以极小的代价进行数据更新。除数据库以外，还包括XML数据、流数据与不确定数据的溯源技术。数据溯源技术也可用于文件的溯源与恢复，例如，研究者通过扩展Linux内核与文件系统，创建一个数据起源存储系统原型系统，可以自动搜集起源数据。此外，也有在云存储场景中的应用。

未来数据溯源技术将在网络安全领域发挥重要作用。在2009年呈报美国国土安全部的“国家网络空间安全”的报告中，将其列为未来确保国家关键基础设施安全的3项关键技术之一。然而，数据溯源技术在大数据安全中的应用还面临如下挑战。

（1）数据溯源与隐私保护之间的平衡：一方面，基于数据溯源对大数据进行安全保护首先要通过分析技术获得大数据的来源，然后才能更好地支持安全策略和安全机制的工作；另一方面，数据来源往往本身就是隐私敏感数据，用户不希望这方面的数据被分析者获得。因此，如何平衡这两者的关系是需要研究的问题之一。

（2）数据溯源技术自身的安全性保护：当前数据溯源技术并没有充分考虑安全问题，例如，标记自身是否正确、标记信息与数据内容之间是否安全绑定等。而在大数据环境下，其大规模、高速性、多样性等特点使该问题更加突出。

6、恢复与销毁技术

数据恢复技术就是把遭到破坏，或由硬件缺陷导致的不可访问或不可获得，或由于误操作、突然断电、自然灾害等突发灾难所导致的，或遭到犯罪分子恶意破坏等各种原因导致的原始数据在丢失后进行恢复的功能。数据恢复技术主要包括几类：软恢复、硬恢复、大型数据库系统恢复、异性系统数据恢复和数据覆盖恢复等。

软恢复针对的是存储系统、操作系统或文件系统层次上的数据丢失，这种丢失是多方面的，如系统软硬件故障、死机、病毒破坏、黑客攻击、误操作、阵列数据丢失等。这方面的研究工作起步较早，主要难点是文件碎片的恢复处理、文档修复和密码恢复。

硬恢复针对的是硬件故障所造成的数据丢失，如磁盘电路板损坏、盘体损坏、磁道损坏、磁盘片损坏、硬盘内部系统区严重损坏等，恢复起来难度较大，如果是内部盘片数据区严重划伤，会造成数据彻底丢失而无法恢复数据。

大型数据库系统中存储相当重要的数据，数据库恢复技术是数据库技术中的一项重要技术，其设计代码占到数据库设计代码的10%，常用的方法有冗余备份、日志记录文件、带有检查点的日志记录文件、镜像数据库等。

异型操作系统的数据恢复指的是不常用、比较少见的操作系统下的数据恢复，如MAC、OS2、嵌入式系统、手持系统、实时系统等。

数据被覆盖后再要恢复的话，难度非常大，这与其他四类数据恢复有本质的区别。目前，只有硬盘厂商及少数几个国家的特殊部门能够做到，它的应用一般都与国家安全有关。

从管理角度来讲，对于敏感程度高的数据，对接触到它的人员可分为数据使用者和数据保管者。数据使用者在使用完敏感数据后就应该将其销毁，在使用过程中，应有专人监督，另设专人负责销毁。对于敏感程度低的数据，由于它散落在各个角落，不可能对其进行非常彻底的清除，所以，只能要求人员自行销毁，并定期对其进行提醒。

从技术角度来讲，对于不同敏感程度的数据，可采用不同成本的销毁方法，例如，日常工作中，将自身数据的敏感程度分为 4个层次——较低、一般、较高、最高。对于军队来说，相当多的数据应该属于最高。对于敏感度较低的数据可采用覆写软件对其进行覆写，覆写算法可选得较为简单，覆写遍数可以只设为一遍。对于敏感度一般的数据可采用更复杂的覆写算法和更多的覆写遍数，这样增加了安全性，但同时加大了时间成本；对于较高敏感度的数据，覆写软件不够安全，可以采用消磁法进行销毁；对于敏感度最高的数据，可能还要配合焚毁或物理破损等手段，当然，需要通过这种方式销毁的数据很少，可委托专门机构进行销毁。另外，对于一般的基层单位，对返修和报废的设备通常都有较为成熟的管理流程，只要在已有的流程中增加数据销毁一环，即可极大地提高整体的网络安全程度。

CIO之家 www.ciozj.com 公众号:imciow

关联的文档

也许您喜欢

苏宁基于Spark Streaming的实时日志分析系统实践
InforQ 网友
用Maven构建Hadoop项目
火龙果张丹
大数据究竟是什么？
CIOZJ 鑫炫
大数据思维与价值核心：数据驱动和业务场景化
网络收集吕品
数据中台：从0-1，数据服务平台(DMP)实践
简书数据干饭人
大数据知人心
网络网友