数据治理的元数据、主数据等概念
小亿 亿信华辰

数据治理涵盖了从前端业务系统、后端业务数据库再到业务终端的数据分析,从源头到终端再回到源头,形成的一个闭环负反馈系统。从目的来讲,数据治理就是要对数据的获取、处理和使用进行监督管理。


01、元数据

元数据是关于数据的数据,是为了描述数据的相关信息而存在的数据。

元数据不仅仅表示数据的类型、名称、值等信息,它可以理解为是一组用来描述数据的信息组/数据组,该信息组/数据组中的一切数据、信息,都描述/反映了某个数据的某方面特征,则该信息组/数据组可称为一个元数据。

image.png

▲技术元数据

例如:元数据可以为数据说明其元素或属性(名称、大小、数据类型等),或其结构(长度、字段、数据列),或其相关数据(位于何处、如何联系、拥有者)。在日常生活中,元数据无所不在。只要有一类事物,就可以定义一套元数据。

image.png

▲业务元数据
除此以外,在数据仓库体系中,元数据代表了一种统计数据从元数据、数据仓库到数据应用的全链路信息,记录了统计数据从产生到展示的全部过程。可以说,有了元数据,开发人员便可以方便地找到统计数据背后的计算逻辑与过程,用于指导开发工作并追踪数据问题,可以极大地提升工作的效率。

02、主数据

在2018年中国信通院牵头编写的《主数据管理实践白皮书(1.0版)》中,主数据定义的概念如下:“指满足跨部门业务协同需要的、反映核心业务实体状态属性的组织机构的基础信息。主数据相对于交易数据而言,属性更加稳定,准确度要求更高,唯一识别。”

企业主数据指企业内一致并共享的业务主体,如图所示,是各个系统(包括操作型系统、事务型应用系统、分析型系统)间一致并共享的数据;是用来描述核心业务的实体,例如员工、组织机构、客户、供应商、会计科目等相关数据。主数据与其他数据的关系如图所示:

image.png

具有以下特点

1.权威性:主数据作为企业最重要的数据资产,它的设计并不面向业务系统,而应该保持相对的独立,它服务于但又高于使用主数据的业务系统;
2.全局性:主数据是超越部门与流程而存在的,以满足跨部门业务协同而建立的,可以认为是所有职能部门业务过程的“最大公约数”;

image.png

3.共享性:主数据是在两个或多个系统之间,需要共享的数据,才能定义为主数据。因此主数据必须应用一种能够被各种异构系统所兼容的技术架构;
4.扩展性:主数据在设计的时候,就需要考虑未来做扩展的可能性。因此主数据数据项定义时应当遵守开闭原则,即对扩展开放对修改关闭, 凡是已经定义的主数据数据项原则上不应当再次修改。

03、数据标准

数据标准是指企业为保障数据的内外部使用和交换的一致性和准确性而制定的规范性约束。而数据标准管理则是一套由管理制度、管控流程、技术工具共同组成的体系,是通过这套体系的推广,应用统一的数据定义、数据分类、记录格式和转换、编码等实现数据的标准化。

数据标准管理的目标是通过统一的数据标准制定和发布,结合制度约束、系统控制等手段,实现数据的完整性、有效性、一致性、规范性、开放性和共享性管理,为数据资产管理提供经管理依据。

image.png

对于大多数企业而言,他们已有各种各样的信息规范,如建模规范,但是这些规范只是为了约束开发工作,更多的时候强调的是数据字典表达的规范。而企业级数据标准的目标却是使企业内部在业务和数据上达成共识,业务共识在先,数据共识在后。从一个IT管理的数据规范变成企业级的数据标准,将是非常大的转变,这个转变的核心是以数据标准提高业务的规范性和业务协同能力,同时约束IT系统建设。

04、数据质量

数据质量是指在业务环境下,数据符合数据消费者的使用目的,数据质量需要满足业务场景具体的需求。数据质量包含两个方面:数据自身的质量和数据的过程质量。

数据自身的质量很好理解,比如数据必须真实准确地反映实际发生的业务,任何业务操作的数据都没有被遗漏,数据存在各种约束条件,这种约束条件不能自相矛盾等等。

image.png

数据的过程质量就是数据的使用过程符合标准规范,比如数据存储:数据是否被安全地存储到了合适的介质上,能够保证数据不受外来因素的破坏。当然数据存储只是数据使用过程的一个环节,除此之外还包括获取、传输、应用和删除等一系列的使用过程,这其实也是数据生命周期的各个阶段。

05、数据指标

根据百度百科的定义,预期中打算达到的指数、规格、标准,一般用数据表示就是指标。

而数据指标有别于传统意义上的统计指标,它是通过对数据进行分析得到的一个汇总结果,是将业务单元精分和量化后的度量值,使得业务目标可描述、可度量、可拆解。但只有对业务有参考价值的可统计的数据才能叫做指标,因为它反映了用户做了哪些行为,给业务带来了怎样的结果指标。

image.png

而数据指标体系是通过技术手段,从不同的“维度”梳理业务过程,将零散的、有关联性的指标,系统化的组织起来,通过数据看板或接口形式,提供给运营、算法等不同的业务方使用。

一个好的数据指标体系能帮助使用者准确快速地下结论,比如定义业务运作的好坏、能满足多场景的归因,即使出现异动,也能快速定位原因,最终提高发现问题、分析问题、解决问题的效率。

06、数据交换

出于各种原因,组织会选择数据交换与共享。例如,内部与内部的数据交换共享,企业与企业之间的数据交换共享,以及政府或企业对个人或服务提供商的数据交换与共享。数据交换共享就是让不同地方使用不同计算机、不同软件的用户能够读取他人数据并进行各种操作运算和分析。

image.png

也就是当数据从一个系统跨授权边界访问或传递到另一个系统时,就需要使用一个或多个协议来指定每个组织的责任、要访问或交换的数据类型和影响界别、如何使用交换数据,以及在交换系统的两端处理、存储或传输数据时如何保证数据安全。

常见的数据交换/共享场景包括但不限于:在授权用户之间共享数据和信息;提供对数据的自定义访问;合作进行联合项目;提供完整的、短暂的、间歇性的、永久的或临时的数据交换共享活动;通过交换共享减少数据收集工作量和成本;提供在线培训;为关键数据和备份文件提供安全存储。

07、数据资产

在理论层面,目前并没有对数据资产的权威定义。我们选取业界较为认可的概念,即:数据资产是指由企业拥有或者控制的,能够为企业带来未来经济利益的,以物理或电子的方式记录的数据资源,如文件资料、电子数据等。但在企业中,并非所有的数据都构成数据资产,数据资产是能够为企业产生价值的数据资源。

数据资产管理是对存量数据进行系统化梳理,与数据标准匹配,推动数据资源转化为数据资产的过程,即指规划、控制和提供数据及信息的一组业务职能,包括开发、执行和监督有关数据的计划、政策、方案、项目、流程、方法和程序,从而控制、保护、交互和提高数据资产的价值。数据资产管理需要充分融合业务、技术和管理,以确保数据资产保值增值。

image.png

在数据治理架构中,数据资产管理位于底层数据和数据管理与应用之间,处于承上启下的重要地位。对上支撑数据安全管理等职能建设以价值发掘为导向的数据应用,对下实现底层数据的梳理、对接数据标准,达成企业内部“统一数据标准”的目标。

08、小结

数据治理就是实现数据价值的过程。这个过程怎么实现?通过采集、传输、储存等一系列标准化流程将原本零散的数据变成格式规范、结构统一的数据,同时对其进行严格规范的综合数据监控,保证数据质量;然后对这些标准化的数据进行进一步的加工分析,形成具有指导意义的业务监控报表、业务监控模型等,来帮助企业进行辅助决策。

CIO之家 www.ciozj.com 公众号:imciow
关联的文档
也许您喜欢