数据分类分级实践难点

数据分类分级是开展数据全生命周期管理的基础,企业做好数据分类分级才能更好地去落实合规义务以及进行数据安全管控。今天,我们从数据分类分级落地实践的角度,来阐述企业在开展数据分类分级过程中的难点以及如何“破局”。

1、万事开头难,企业数据分类分级工作如何启动和推进?

       难点:对于企业而言,数据分类分级是一项复杂且长期的工作,牵涉部门多、涉及业务广,横跨业务、数据、安全等多领域,需要对应部门协同开展工作,如何协调多部门资源来启动和推进数据分类分级工作,是企业面临的首要难题。

       解决方案:建立组织保障,明确数据数据分类分级工作的组织架构、职责分工,为数据分类分级的协同开展提供支撑。在实际工作中,一般由数据安全或数据治理部门来牵头数据分类分级工作的开展,但各个行业的不同企业之间,以及不同业务体量的企业之间,也会存在一定的差异性。
以大型互联网金融平台企业为例,下图为某头部互联网金融平台的数据分类分级工作组织架构:

image.png

董事会和数据标准化治理委员会负责标准、制度、流程的制定,数据安全及分类分级执行团队负责数据分类分级项目的整体管理、推进和执行工作,其中具体对接执行工作需要数据安全部门、数据治理部门、业务部门以及合规部门协同配合,并由内控内审部门进行项目的审计工作。
以某中大型证券公司为例,在职责划分方面,明确由数据安全部门牵头数据分类分级工作的开展,制定相关制度流程,并由数据治理部门、IT部门进行数据分类分级工作的配合,对数据分类分级工作结果进行复核。
       以某Top新零售企业为例,数据分类分级工作主要由数据治理部门进行统一管理和推进,合规部门负责制度体系的建设,业务部门进行相关配合工作。

2、分类分级制度如何建,企业如何建立行之有效的分类分级制度标准?

       难点:企业梳理数据分类分级制度时,需要有法条解读、数据治理、安全管控等复合知识背景的团队作为支撑,对于企业来说这样的人才储备往往不足,且数据分类分级需要匹配对应的业务场景要求,在标准制定过程中,如何既充分体现数据分类分级特征又满足业务属性,对分类分级制度的梳理工作提出了更高的要求。

       解决方案:智能化的法条解读工具可帮助企业梳理法律法规以及数据分类分级相关标准要求,好的法条解读工具需要收录数据和对应场景相关的法律法规、政策规范、标准指南等内容,还需要囊括实践案例和详细解读,并在此基础上,能够结合需求录入,智能化进行法律义务和合规要求梳理,形成满足不同场景的分类分级标准依据。与此同时,还需要由专业化且实践经验丰富的团队梳理模板和升降级规则,以满足企业快速梳理出既满足监管要求,又符合实际业务的分类分级标准的需求。

3、监管侧重有差异,企业面向不同监管部门将如何应对?

       难点:不同监管部门针对数据分类分级的要求不同,某个具体字段在面向A监管部门时敏感级别为C2,在面向B监管部门时敏级别为L3,企业依据单个办法或者标准无法满足监管审查要求。

       解决方案:首先可以采取“融合”方案,即通过“从严模式”维护企业的一套分类分级模板,用于监管审查以及企业内部数据安全治理。其次,在面向不同监管时,根据不同的分类分级标准建设不同的分类分级模板,并在数据分类分级平台进行模板的切换扫描,产出不同的数据分类分级结果后报送不同的监管部门。

4、数据资产发现难,企业面对多样的数据源以及海量的数据如何有效进行资产盘点?

       难点:多数企业对数据资产未进行全面梳理,或者一次梳理后,后续维护更新不及时,导致未形成数据资产大盘,或者大盘落后于实际数据资产,且其数据类型多样,如同时有结构化数据/半结构化数据/非结构化数据,数据源系统包括关系型数据库、非关系型数据库、大数据平台、文件系统等,数据呈现碎片化分布特征,同时其数据体量庞大,这为数据资产发现工作带来了挑战。

       解决方案:在数据发现能力上,数据分类分级平台同时支持MySql、Oracle、达梦、Hive、Maxcompute、Hbase、OSS、语雀、Office、泛微等各种不同类型的数据源,针对字段、文本、图片、文档等均能有效发现和识别,且在面对海量数据的扫描识别时,采用随机数据抽样算法,能在保证数据真实分布的同时做到对数据库性能几乎无影响。

5、敏感数据识别准确率低,企业如何保证分类分级结果的准确性?

       难点:当下部分数据分类分级工具根据元数据信息(如表名、字段名、字段描述等)进行敏感数据识别,但企业的数据字典往往不够完善,导致大部分数据无法被有效识别,还有部分数据分类分级工具以数据内容进行识别,但其识别方式主要以正则为主,对于手机号、身份证号、卡号等识别率较高,但是对于其他字段如业务属性识别率较低,大部分在40-50%的水平。

       解决方案:数据分类分级平台结合元数据信息的同时进行数据内容的特征抽取,并使用机器学习算法综合考虑抽取的特征,判断某列数据是否属于某个敏感标识(二分类模型),从而实现更高的准确率和召回率,针对敏感数据识别的准确率达95%+。

6、监管要求/业务需求频变化,企业如何快速响应变化?

       难点:数据分类分级是一项长期持续的工作,在此过程中监管要求或业务需求一直在动态变化,比如某个字段在过去的分类分级中被定义为非敏感字段,不属于数据分类分级模板中的任何标识,但由于业务的变化,在现阶段的业务要求下,该字段被业务团队/合规团队重新定义为敏感字段,需要进行分级打标,此时如需针对此敏感字段建设对应标识往往需要算法/研发同学介入开发,投入资源成本大且上线周期较长。

       解决方案:分类分级平台提供开放模型能力,针对结构化数据/非结构化数据(图片、文档)均提供自定义标识能力,用户仅需上传少量数据样本(最少仅需5条)即可在数秒内生成标识模型,并将新标识自定义配置在数据分类分级模板中,用于数据识别。

7、数据分类难度大,同字段如何自动实现多分类?

       难点:以证劵公司为例,其在实际数据分类分级过程中,往往会遇到这样一个问题,通过敏感数据识别能力,发现诸如“证劵代码”、“姓名”这样的字段大量存在,但其究竟属于哪一类别、哪一级别存在不确定性,如证劵代码可能属于“交易数据-交易管理-成交信息”分类下,也可能属于”交易数据-行情资讯-行情数据-普通行情数据”分类下,而“姓名”字段可能是“交易数据-投资者管理-个人投资者信息-个人投资者基本信息”类别中的“姓名”标识,也可能是“交易数据-投资者管理-机构投资者信息-机构投资者基本信息”类别中的“法人姓名”标识,且在不同的分类下,对应的分级往往不同,显而易见单单敏感数据识别能力已不满足企业实际业务需求。

8、人工运营成本高,企业如何提升运营审核效率?

       难点:企业在数据分类分级的冷启动阶段或本身数据质量不高(存在脏数据)时,部分字段在扫描识别时可能存在识别不准的情况,此时需要人工介入审核,但具有相同内容的字段数量在数据库中往往有几百甚至上千个,逐一进行人工审核显然工作量巨大。

       解决方案:聚类审核能力,使用预设特征和局部敏感哈希,将具有相同特征的审核字段聚成同一组,审核人员可在组内进行一键审核,原有100+字段审核任务变成10+组,极大的提升人工审核效率。

CIO之家 www.ciozj.com 公众号:imciow
关联的文档
也许您喜欢