透过隐私合规，看数据安全技术发展趋势

CIO之家的朋友 CIO之家的朋友们

一、监管不断强化的国内外隐私法规

2018年 5月25日,欧盟正式实施《通用数据保护条例》(General Data Protection Regulation,GDPR),取代了1995年起施行的《数据保护指令》。GDPR不仅保护欧盟境内的个人数据,以及境外的欧盟公民的个人数据(域外管辖权)。GDPR赋予数据主体(用户)更多的数据控制权:不仅包括原有法规的知情权、访问权、修改权等,同时增加“被遗忘权”和“可携带权”两项“特权”。被遗忘权,在一些注销账户或者超过时间期限等场景中,用户可以行使该项权利——数据控制者(企业)收到权利请求后,允许删除与自己相关的个人数据,同时需要通知合作的第三方也删除相关的个人数据;可携带权,用户可以便携地将其个人数据从一个数据控制者处转移至另一个数据控制者处,数据控制者需要配合完成该过程。同时,GDPR规定企业保护数据需采取假名化、加密以及其他技术措施,数据泄露采取快速响应机制等。此外,违法的代价非常高昂——最高罚款额度为2000万欧元或公司全球营业额的4%。从2018年执法到现在,多数成员国已经陆续开出多张罚单。非常具有代表性的一家大型国际互联网公司——Google在隐私保护方面已经做了不少工作,然而Google却陆续被欧盟的两个国家罚款:2019年1月份被法国处罚5000万欧元,原因是执法方认为Google产品的隐私条款未充分体现GDPR公开透明和清晰原则;2020年3月被瑞典处罚700万欧元,原因是Google未能充分履行GDPR赋予用户的数据“遗忘权”。

受GDPR立法的影响,全球其他国家也陆续推出了相关的隐私法规。具有代表性的是美国2018年6月通过的《加州消费者隐私法案》(California Consumer Privacy Act,CCPA),由于影响涉及大部分知名IT科技公司,如惠普、Oracle、Apple、Google和Facebook等,该方案从立法到颁布备受各界人士的关注。该法规同样赋予了消费者多种数据权利,同时对企业提出更严的标准与要求。另外,巴西于2019年7月通过《通用数据保护法》(LGPD)的最终版本;印度在2018年12月公布修改后的《2019年个人数据保护法(草案)》(Personal Data Protection Bill, 2019);泰国于2020年5月正式实施《个人数据保护法》(Personal Data Protection Act)等。

2021年8月20日,我国《个人信息保护法》在人大网正式发布。作为一部全面保护个人信息安全的综合性法律,具有重要的意义。该法律保护我国境内公民的各项个人信息权益,同时赋予个人信息主体各项数据权利,包括知情权、决定权、查询权、更正权、删除权等;同时明确了个人信息处理者(企业)的合规管理和保障个人信息安全等义务,并指出保障个人信息安全采取分级分类、加密、去标识化等措施。此外,对违法的行为提出更高的处罚力度,违反法规最高面临5000万元人民币或一年度营业额5%的巨额罚款,同时可以责令暂停相关业务、停业整顿、吊销营业许可或营业执照等严厉的行政处罚。这些处罚给企业的个人信息违规违法行为形成强大的威慑力。

从对企业的影响来看,下面对欧盟GDPR和国内《个人信息保护法》的一些合规性热点进行解读:

(1)个人数据/个人信息的识别与分类

GDPR保护的数据对象是“个人数据”。其定义是“关于一个已识别或者可能识别的自然人(即数据主体)的任何信息”,“个人数据”范畴边界十分宽泛,涵盖信息十分丰富,不仅包括传统意义的姓名、年龄、性别等基本个人信息,一些特殊的数据也被归并为“个人数据”,比如生物识别数据——指纹、虹膜、DNA数据等;再比如IP地址码,、MAC地址码、Cookie信息等。这些信息以往被认为是网络设备信息或网络行为信息,GDPR将其归类到“个人数据”。《个人信息保护法》的“个人信息”虽然与GDPR的“个人数据”叫法不同,但实际上概念趋向一致,界定标准也几乎完全类似—— “个人信息是以电子或者其他方式记录的与已识别或者可识别的自然人有关的各种信息”,同样以“识别说”为基础,拓宽了个人信息的范畴。企业为了满足合规要求,必须拥有强大的敏感数据识别能力,能发现各种个人相关的信息及敏感数据子类别,也要具有分类能力,比如对个人信息主体按照国家归属地进行分类,按照不同儿童和成年人的年龄范围进行分类,以及敏感度分类等。

(2)个人数据/个人信息保护的技术措施

GDPR明确指出保护过程可采取加密或假名化两种措施:加密可保障数据存储和传输过程的安全性,降低数据被非法窃取和泄露的风险;而假名化是GDPR推荐一种“无损的”数据脱敏方式,它通过哈希等手段重新命名个人数据的标识符信息(比如姓名、身份证号),同时将真实的标识符——“重命名”映射表与假名化后的个人数据分开存储,以降低隐私泄露风险,同时保证个人数据的完整性。《个人信息保护法》明确指出可应用加密或去标识化安全技术措施,其中去标识化相比GDPR假名化更为宽泛,去标识化在企业通常称为“数据脱敏”,不仅包括假名化、还包括数据屏蔽、数据泛化、量化、置换等处理方式。这意味着企业在存储、处理这些个人数据时,需采取数据层面的保护措施进行安全防护。

(3)数据权利请求与响应机制

GDPR赋予用户个人数据的知情权、访问权、修改权、遗忘权等各项数据权利,相应地,企业必须响应用户的数据权利请求,比如用户行使“遗忘权”时,企业必须提供删除数据的界面与入口,并执行相关处理操作与流程,并对用户输出响应报告。且GDPR明确规定企业处理一般请求的响应时间是一个月,复杂请求的响应时间可延长至两个月。《个人信息保护法》首次全面赋予个人信息主体各项数据权利,包括知情权、决定权、查询权、更正权、删除权等,同时明确指出企业应当建立个人行使权力的申请受理和处理机制。对于响应时间,该法律未明确指出,但《个人信息安全规范》(GB/T 35273-2020)提出响应的时间是30天内(差不多1个月)。这些促使企业必须建立个人信息请求运营机制,并需要使用流程自动化处理方式。

二、合规驱动下的数据安全技术盘点

2020年7月,Gartner将数据安全(Data Security)与隐私(Privacy)作为安全的两个细分领域,分别发布了2020年数据安全成熟度曲线、2020年隐私成熟度曲线,后者与隐私合规性紧密相关。实际上,隐私包含数据安全领域大部分的技术栈,同时也包含新型技术,如主体权利请求(Subject Rights Request, SRR)、同意与偏好管理(Consent and Preference Management, CPM)等(一般地,国内习惯将隐私并入到数据安全的范畴,将相关技术都统称数据安全技术,本文沿用这种叫法)。

如图1、图2所示,Gartner发布的2020两条技术成熟度曲线,涵盖了35种数据安全技术以及一些法律(比如加拿大、印度、欧盟和美国等的隐私法律实施进程),种类丰富且繁杂,分别处在创新触发期、期望顶峰期、幻想破灭期、稳步爬升期和生产成熟期五个阶段。其中超过70%的技术处在稳步爬升期之前,说明该领域创新技术活跃,有巨大的发展空间。

从作用和应用场景角度看,我们认为35种数据安全技术可分为五大类:

(1)数据安全治理相关

包含多种数据技术组合,以及融合非技术的组织管理措施,如数据安全治理(Data Security Governance ,DSG)、隐私影响评估(Privacy Impact Assessment, PIA)、数据泄露响应、数字道德、隐私设计(Privacy by design, PBD)和IT风险管理方案。

(2)敏感数据全生命周期的安全防护

包括数据分类、文件分析(针对非结构化敏感数据的识别)、动态脱敏(DDM)、保留格式加密(FPE)和数据销毁(Data Sanitization)。

(3)用户隐私权响应与评估合规

包括主体权利请求(SRR)、同意与偏好管理(CPM),可以自动化处理和响应用户提出的数据访问权和删除权等各项权利,以及隐私设计(Privacy by design, PBD),用于在产品设计时考虑隐私合规与可用性问题等。

(4)隐私增强计算类技术

包括差分隐私(DP)、安全多方计算(SMPC)、同态加密(HE)、零知识证明和机密计算(包括TEE)等技术。

(5)其他

包括重点领域的数据安全技术,如移动终端威胁防御、云环境、5G、区块链的敏感数据保护。

三、合规视角下的数据安全发展趋势观察

在隐私法规的强有力推动下,国内外数据安全相关技术和产品得到快速发展,逐步形成以“合规遵循”为主的安全细分领域。据2019年11月Gartner的一份预测报告指出,2023年之前,全球80%以上的企业将面临至少一项以隐私为重点的数据安全保护规定,并且在合规上的投入将突破80亿美元。由此可见,数据安全合规未来仍然有广阔的市场应用前景。下面对前文提到的数据技术的发展趋势分别进行分析。

观察1:欧美GDPR /CCPA驱动,用户数据权利响应自动化等相关技术发展迅速

全球一些隐私法规赋予数据主体(用户)自由访问、修改和删除个人数据等权利,相应地,要求企业必须在规定的时间内对用户提出的请求进行处理和响应,比如GDPR要求的时间一般为1个月,而CCPA是45天。快速响应数据主体权利请求(Subject Rights Request, SRR)对多数企业是一项极大的挑战。据调查,约有三分之二的组织需要两周以上的时间人工处理单个SRR,且平均消耗成本高达1400美元。因此,在合法时间内依靠传统手工操作响应高并发的SRR是一项困难任务。RSAC 2020创新沙盒比赛中,Securiti.ai一举夺得冠军,它主推自动化的SRR、CPM等用户数据权利响应类产品;另外RSAC2018创新沙盒的冠军——BigID同样聚焦在该类隐私合规产品中;另一家非常著名的创业公司OneTrust有一块很大的业务也是隐私合规性产品,与Securiti.ai几乎重合。这三家初创安全公司融资累计规模超过6000万美元。以上案例可以侧面反映出,用户数据权利响应产品在国外十分火热,已经发展成为一块稳定的安全市场。

这些产品主要使用了流程自动化及多种人工智能技术:其中流程自动化可帮助企业的数据安全运营团队从繁琐重复的手工处理“请求—响应”升级为程序的自动化处理,一方面可降低运营成本,另一方面降低由于响应时间延误带来的违规风险;而在人工智能技术方面,使用自然语言处理技术(NLP)可识别非结构化的敏感数据,使用知识图谱技术可关联数据主体所有相关信息,同时使用对话机器人技术方便自动化处理一些提问需求。

我国《个人信息保护法》赋予个人知情权、决定权、查询权、更正权、删除权等多项权利,同时指出“个人信息处理者应当建立个人行使权利的申请受理和处理机制”,但尚未规定具体的时间,而国标《个人信息安全规范》(GB/T 35273-2020)提出响应的时间是30天内。随着法规的完善,可预计国内SRR、CPM隐私合规技术与市场正逐步形成。

代表公司:Securiti.ai、BigID、OneTrust

观察2:合规基础产品——敏感数据识别、数据脱敏市场日趋成熟

无论是欧盟GDPR、美国CCPA,还是我国的《个人信息保护法》,均明确表示保护的数据对象是个人数据(或称为个人信息),企业必须履行该类数据的安全保护义务。为了遵循合规要求,企业第一步是需要识别出存储和流动的各类敏感数据,不仅包括个人基本信息,如用户姓名、身份证号、手机号等,还包括一些个人敏感数据,如医疗隐私、金融隐私和网络行为的隐私(比如Cookie信息)等。这些敏感数据第一步需要识别。目前已经发展多种敏感数据识别方法:① 基于正则的识别;② 基于关键词库的识别;③ 基于数据相似度的识别;④ 基于机器学习的识别。目前前两种方式在工业界发展较为成熟,一般建立相对全面的规则库或字典。后两种方式通常应用前两种无法解决的敏感数据场景,如很难直接定义规则或关键词。第③方法首先从参考数据提取一些特征,然后将其他数据使用同样处理方法后,进行相似度比较,超过一定阈值则当作同一类数据;第④方法利用机器学习的强大学习与预测能力,收集足够的样本并进行类别标注,进行模型训练,完成后部署模型自动化识别新数据的类别。识别完成后,为降低敏感数据在二次使用和流通过程中(非生产环境,如数据分析、测试等)的法规风险,大量的数据脱敏需求应运而生。数据脱敏按处理结果是否可还原,可分为可逆脱敏和不可逆脱敏技术。可逆脱敏可以理解为企业通过建立一些敏感词的映射表替换为其他非敏感数据,通过反向映射表可将脱敏数据恢复为原始数据。不可逆脱敏技术包含的策略丰富灵活,包括取整、量化、泛化、屏蔽、截断、散列和加噪等。按照使用场景,可将脱敏分为静态脱敏 (Static Data Masking, SDM)、动态脱敏 (Dynamic Data Masking, DDM)。静态脱敏一般用于非生产环境中(测试、统计分析等),动态脱敏一般用于生产环境中。目前静态脱敏技术的发展较为成熟,而动态脱敏近年来也有相关产品落地。

作为两类基础性的合规产品——敏感数据识别和数据脱敏,国内外市场日趋成熟。国内外多家安全厂商在此有所布局,如大型IT公司Microsoft、IBM推出了敏感数据识别和数据脱敏产品,初创公司Securiti.ai、BigID推出了大规模敏感数据的识别产品,并通过AI驱动实现半自动化或自动化扫描和发现。国内绿盟科技推出了IDR产品,可应用在传统数据库和大数据平台的敏感数据发现与分类分级场景中,绿盟科技推出数据库脱敏相关产品,可应用结构化数据的脱敏应用中。

代表公司:Microsoft、IBM、Securiti.ai、BigID

观察3:合规与数据利用业务场景紧密结合,隐私增强计算技术与应用不断涌现

大数据时代,敏感数据高频使用和流通,数据既要安全也要求业务利用,这给传统以加密为核心的数据安全技术带来了巨大的挑战。为了满足合规和数据利用的双重需求,促进一批与业务场景紧密结合的新型数据安全技术的产生和发展,包括同态加密、安全多方计算、联邦学习、差分隐私等。由于这些技术不仅可保证原始数据不被泄露(不可见),而且可在具体某些业务场景中(如聚合、集合运算以及AI建模)保证数据的可用性,工业界习惯将它们形象称为“可用不可见”技术。Gartner将这些技术统称为隐私增强计算(Privacy Enhanced Computation)技术,并将其与随处运营、人工智能工程化等看作2021年六大重要战略科技趋势。国内外均在此领域有布局:Google的联邦学习及在Android端应用;Apple在iPhone手机的数据采集中使用了本地化差分隐私技术;RSAC 2018创新沙盒亚军——Duality公司,在定制服务器实现商业化的同态加密方案;阿里主打安全多方计算技术以及平台;百度、腾讯和微众银行等分别推出联邦学习框架并应用在了隐私数据联合建模场景。

代表公司:Google、Apple、Duality、阿里、腾讯、百度、微众银行

观察4:数据安全治理框架与技术方案百家争鸣

传统的一两种数据安全技术和措施,无法解决应对内部和外部数据安全威胁,以及合规性和业务带来的挑战。为了应对挑战,Gartner在2017数据安全与风险管理峰会上提出安全治理(DSG)的概念与方法论。数据安全治理——以“数据安全”为核心的综合治理体系,它涉及法规、场景、技术、产品、组织管理以及各类标准流程、策略配置等。微软也提出了针对隐私、保密和合规性的数据治理框架 (Data Governance for Privacy Confidentiality and Compliance, DGPC),分别从人员、流程和技术这三个角度出发。IBM提出的数据安全和隐私解决方案采用敏感数据发现与分类、评估漏洞、监控与审计等分层方法实现数据安全性。在国内,多家企业提出各自的数据安全治理方法论或数据安全解决方案,例如阿里提出了DSMM模型,它以数据为中心,以数据生命周期为主线,针对数据生命周期各阶段建立全面的数据保护,并对能力成熟度进行定级;绿盟科技在Gartner数据治理框架基础上,结合客户的数据安全防护需求,对实际情况进行研究和实践,也建立一套完整科学的方法体系——数据安全解决方案。该体系分为五个基本治理步骤——“知”、“识”、“控”、“察”、“行”,五个步骤分别采用不同的数据安全技术与管理措施。

代表公司:Microsoft、IBM、阿里、绿盟科技

四、小结

在全球相关法规的推动下,如欧盟GDPR,美国CCPA,以及我国最近通过的《个人信息保护法》,隐私合规逐步成为企业数据安全建设与治理重要驱动力。在法规监管不断强化的背景下,企业必须主动进行合规性建设,结合自身业务场景与风险,实施体系化的数据治理与建设,结合安全需求,在数据的全生命周期实施一项或者多项技术与措施以应对数据安全风险。在一些新的数据安全场景中,尤其是敏感数据的安全共享计算场景,该领域创新技术不断,包括安全多方计算、联邦学习、差分隐私等,唯有通过跟踪和探索这些新技术的发展,才能更好的应对新场景中带来的新的数据安全问题、新的安全风险以及合规性挑战。

CIO之家 www.ciozj.com 公众号:imciow

关联的文档

也许您喜欢