大数据环境下的数据安全研究
网友 网络

引言


   随着互联网、物联网、云计算等技术的快速发展,以及智能终端、网络社会、数字地球等信息体的普及和建设,全球数据量出现爆炸式增长,仅在2011年就达到1.8万亿GB。IDC(IntemetData Center,互联网络数据中心)预计,到2020年全球数据量将增加50倍。毋庸置疑,大数据时代已经到来。一方面,云计算为这些海量的、多样化的数据提供存储和运算平台,同时数据挖掘和人工智能从大数据中发现知识、规律和趋势,为决策提供信息参考。大数据的发展将进一步扩大信息的开放程度,随之而来的隐私数据或敏感信息的泄露事件时有发生。面对大数据发展的新特点、新挑战,如何保障数据安全是我们需要研究的课题。


1 大数据的特征
   大数据通常被认为是一种数据量很大、数据形式多样化的非结构化数据。随着对大数据研究的进一步深入,大数据不仅指数据本身的规模,也包括数据采集工具、数据存储平台、数据分析系统和数据衍生价值等要素。其主要特点有以下几点:
    1.1数据量大
   大数据时代,各种传感器、移动设备、智能终端和网络社会等无时无刻不在产生数据,数量级别已经突破TB,发展至PB乃至ZB,统计数据量呈千倍级别上升。据估计,2012年全球产生的数据量将达到2.7ZB,2015年将超过8ZB。
    1.2类型多样
   当前大数据不仅仅是数据量的井喷性增长,而且还包含数据类型的多样化发展。以往数据大都以二维结构呈现,但随着互联网、多媒体等技术的快速发展和普及,视频、音频、图片、邮件、HTML,RFID,GPS和传感器等产生的非结构化数据,每年都以60%速度增长。预计,非结构化数据将占数据总量的80%以上。
   1.3运算高效
   基于云计算的Hadoop大数据框架,利用集群的威力高速运算和存储,实现了一个分布式运行系统,以流的形式提供高传输率来访问数据,适应了大数据的应用程序。而且,数据挖掘、语义引擎、可视化分析等技术的发展,可从海量的数据中深度解析,提取信息,掌控数据增值的“加速器”。
   1.4产生价值
   价值是大数据的终极目的。大数据本身是一个“金矿”,可以从大数据的融合中获得意想不到的有价值的信息。特别是激烈竞争的商业领域,数据正成为企业的新型资产,企业都在追求数据最大价值化。同时,大数据价值也存在密度低的特性,需要对海量的数据进行挖掘分析才能得到真正有用的信息,形成用户价值。以监控视频为例,连续播放的画面中,可以产生价值信息的数据可能仅仅是一两秒。


2 大数据面临的安全挑战
   正如Gartner所说:“大数据安全是一场必要的斗争。在大数据时代,无处不在的智能终端、互动频繁的社交网络和超大容量的数字化存储,不得不承认大数据已经渗透到各个行业领域,逐渐成为一种生产要素发挥着重要作用,成为未来竞争的至高点。大数据所含信息量较高,虽然相对价值密度较低,但是对它里面所蕴藏的潜在信息,随着快速处理和分析提取技术的发展,可以快速捕捉到有价值的信息以提供参考决策。然而,大数据掀起新一轮生产率提高和消费者盈余浪潮的同时,随之而来的是信息安全的挑战。
   2.1网络化社会使大数据易成为攻击目标
   网络化社会的形成,为大数据在各个行业领域实现资源共享和数据互通搭建平台和通道。基于云计算的网络化社会为大数据提供了一个开放的环境,分布在不同地区的资源可以快速整合,动态配置,实现数据集合的共建共享。而且,网络访问便捷化和数据流的形成,为实现资源的快速弹性推送和个性化服务提供基础。正因为平台的暴露,使得蕴含着海量数据和潜在价值的大数据更容易吸引黑客的攻击。也就是说,在开放的网络化社会,大数据的数据量大且相互关联,对于攻击者而言,相对低的成本可以获得“滚雪球”的收益。近年来在互联网上发生的用户账号的信息失窃等连锁反应可以看出,大数据更容易吸引黑客,而且一旦遭受攻击,失窃的数据量也是巨大的。
   2.2非结构化数据对大数据存储提出新要求
   在大数据之前,我们通常将数据存储分为关系型数据库和文件服务器两种。而当前大数据汹涌而来,数据类型的千姿百态也使我们措手不及。对于将占数据总量80%以上的非结构化数据,虽然NoSQL数据存储具有可扩展性和可用性等优点,利于趋势分析,为大数据存储提供了初步解决方案,但是NoSQL数据存储仍存在以下问题:一是相对于严格访问控制和隐私管理的SQL技术,目前NoSQL还无法沿用SQL的模式,而且适应NoSQL的存储模式并不成熟;二是虽然NoSQL软件从传统数据存储中取得经验,但NoSQL仍然存在各种漏洞,毕竟它使用的是新代码;三是由于NoSQL服务器软件没有内置足够的安全,所以客户端应用程序需要内建安全因素,这又反过来导致产生了诸如身份验证、授权过程和输入验证等大量的安全问题。
   2.3技术发展增加了安全风险
   随着计算机网络技术和人工智能的发展,服务器、防火墙、无线路由等网络设备和数据挖掘应用系统等技术越来越广泛,为大数据自动收集效率以及智能动态分析性提供方便。但是,技术发展也增加了大数据的安全风险。一方面,大数据本身的安全防护存在漏洞。虽然云计算对大数据提供了便利,但对大数据的安全控制力度仍然不够,API(Application Programming Interface,应用程序编程接口)访问权限控制以及密钥生成、存储和管理方面的不足都可能造成数据泄漏。而且大数据本身可以成为一个可持续攻击的载体,被隐藏在大数据中的恶意软件和病毒代码很难被发现,从而达到长久攻击的目的。另一方面,攻击的技术提高了。在用数据挖掘和数据分析等大数据技术获取价值信息的同时,攻击者也在利用这些大数据技术进行攻击。

3 大数据安全的应对策略
   当然,大数据也为数据安全的发展提供了新机遇。大数据正在为安全分析提供新的可能性,对海量数据的分析有助于更好地跟踪网络异常行为,对实时安全和应用数据结合在一起的数据进行预防性分析,可防止诈骗和黑客人侵。网络攻击行为总会留下蛛丝马迹,这些痕迹都以数据的形式隐藏在大数据中,从大数据的存储、应用和管理等方面层层把关,可以有针对性地应对数据安全威胁。
   3.1大数据存储安全策略
   基于云计算架构的大数据,数据的存储和操作都是以服务的形式提供。目前,大数据的安全存储采用虚拟化海量存储技术来存储数据资源,涉及数据传输、隔离、恢复等问题。解决大数据的安全存储,一是数据加密。在大数据安全服务的设计中,大数据可以按照数据安全存储的需求,被存储在数据集的任何存储空间,通过SSL(Secure Sockets Layer,安全套接层协议层)加密,实现数据集的节点和应用程序之间移动保护大数据。在大数据的传输服务过程中,加密为数据流的上传与下载提供有效的保护。应用隐私保护和外包数据计算,屏蔽网络攻击。目前,PGP和TrueCrypt等程序都提供了强大的加密功能。二是分离密钥和加密数据。使用加密把数据使用与数据保管分离,把密钥与要保护的数据隔离开。同时,定义产生、存储、备份、恢复等密钥管理生命周期。三是使用过滤器。通过过滤器的监控,一旦发现数据离开了用户的网络,就自动阻止数据的再次传输。四是数据备份。通过系统容灾、敏感信息集中管控和数据管理等产品,实现端对端的数据保护,确保大数据损坏情况下有备无患和安全管控。
   3.2大数据应用安全策略
   随着大数据应用所需的技术和工具快速发展,大数据应用安全策略主要从以下几方面着手:一是防止APT(Advanced Persistent Threat,高级持续性威胁)攻击。借助大数据处理技术,针对APT安全攻击隐蔽能力强、长期潜伏、攻击路径和渠道不确定等特征,设计具备实时检测能力与事后回溯能力的全流量审计方案,提醒隐藏有病毒的应用程序。二是用户访问控制。大数据的跨平台传输应用在一定程度上会带来内在风险,可以根据大数据的密级程度和用户需求的不同,将大数据和用户设定不同的权限等级,并严格控制访问权限。而且,通过单点登录的统一身份认证与权限控制技术,对用户访问进行严格的控制,有效地保证大数据应用安全。三是整合工具和流程。通过整合工具和流程,确保大数据应用安全处于大数据系统的顶端。整合点平行于现有的连接的同时,减少通过连接企业或业务线的SIEM工具的输出到大数据安全仓库,以防止这些被预处理的数据被暴露算法和溢出加工后的数据集。同时,通过设计一个标准化的数据格式简化整合过程,同时也可以改善分析算法的持续验证。四是数据实时分析引擎。数据实时分析引擎融合了云计算、机器学习、语义分析、统计学等多个领域,通过数据实时分析引擎,从大数据中第一时间挖掘出黑客攻击、非法操作、潜在威胁等各类安全事件,第一时间发出警告响应。
   3.3大数据管理安全策略
   云计算专家李志霄博士说:“数据安全三分靠技术,七分靠管理。”阎通过技术来保护大数据的安全必然重要,但管理也很关键。大数据的管理安全策略主要有:一是规范建设。大数据建设是一项有序的、动态的、可持续发展的系统工程,一套规范的运行机制、建设标准和共享平台建设至关重要。规范化建设可以促进大数据管理过程的正规有序,实现各级各类信息系统的网络互连、数据集成、资源共享,在统一的安全规范框架下运行。二是建立以数据为中心的安全系统。基于云计算的大数据存储在云共享环境中,为了大数据的所有者可以对大数据使用进行控制,可以通过建设一个基于异构数据为中心的安全方法,从系统管理上保证大数据的安全。三是融合创新。大数据是在云计算的基础上提出的新概念,大数据时代应以智慧创新理念融合大数据与云计算,以智能管道与聚合平台为基础,提升数据流量规模、层次及内涵,在大数据流中提升知识价值洞察力。积极创造大数据公司技术融合平台,寻找数据洪流大潮中新的立足点,特别是在数据挖掘、人工智能、机器学习等新技术的创新应用融合创新。


4 结束语
   大数据是信息化时代的“石油”。大数据转化为信息和知识的速度与能力将成为这个时代的核心竞争力之一,而大数据面临的安全挑战却不容忽视。只有大数据技术和大数据安全“两条腿”走路时,大数据才可以真正成为这个时代的驱动力量。

CIO之家 www.ciozj.com 公众号:imciow
关联的文档
也许您喜欢