在数据治理中,我们总是会听到元数据和主数据,我们今天就可以来说说什么是元数据,什么是主数据。
1、元数据(metadata)
描述数据的数据,对数据及信息资源的描述性信息
大部分属性字段就是元数据。比如,性别,国籍,出生省份等。这个是最接近自然意义的的数据。
(1)在数据仓库领域中,元数据按用途分成:
业务元数据:提供基于用户的信息,如记录数据项的业务描述信息的元数据能帮助用户使用数据
技术元数据:支持系统对数据的管理和维护,如关于数据项存储方法的元数据能支持系统以最有效的方式访问数据。
(2)具体来说,在数据仓库系统中,元数据机制主要支持以下五类系统管理功能:
描述哪些数据在数据仓库中;
定义要进入数据仓库中的数据和从数据仓库中产生的数据;
记录根据业务事件发生而随之进行的数据抽取工作时间安排;
记录并检测系统数据一致性的要求和执行情况;
衡量数据质量。
(3)基于应用,可以将元数据分成以下的若干种。
数据结构:数据集的名称、关系、字段、约束等;
数据部署:数据集的物理位置;
数据流:数据集之间的流程依赖关系(非参照依赖),包括数据集到另一个数据集的规则;
质量度量:数据集上可以计算的度量;
度量逻辑关系:数据集度量之间的逻辑运算关系;
ETL过程:过程运行的顺序,并行、串行;
数据集快照:一个时间点上,数据在所有数据集上的分布情况;
星型模式元数据:事实表、维度、属性、层次等;
报表语义层:报表指标的规则、过滤条件物理名称和业务名称的对应;
数据访问日志:哪些数据何时被何人访问;
质量稽核日志:何时、何度量被稽核,其结果;
数据装载日志:哪些数据何时被何人装载
(4)元数据的基本管理
元模型管理
通过可视化的用户体验实现:
a.元模型添加、删除、修改、发布等维护功能;
b.了解已有元模型的分类、统计、使用情况、变更追溯
c.每个元模型的生命周期管理等等。
元数据管理
元数据管理实现针对元数据的基本管理功能。
元数据的添加、删除、修改属性等维护功能;
元数据之间关系的建立、删除和跟踪等关系维护功能;
提供元数据发布流程管理,可以更好地管理和跟踪元数据的整个生命周期;
元数据自身质量核查、元数据查询、元数据统计、元数据使用情况分析、元数据变更、元数据版本和生命周期管理等功能。
元数据分析
元数据分析功能主要实现针对元数据的基本分析功能。包括血缘分析(血统分析)、影响分析、实体关联分析、实体影响分析、主机拓扑分析、指标一致性分析等。
2、主数据(Master Data)
主数据(MD Master Data)指系统间的共享数据(例如,客户、供应商、账户和组织部门相关数据)。与记录业务活动,波动较大的交易数据相比,主数据(也称基准数据)变化缓慢。在正规的关系数据模型中,交易记录(例如,订单行项)可通过关键字(例如,订单头或发票编号和产品代码)调出主数据。主数据必须存在并加以正确维护,才能保证交易系统的参照完整性。
从报告或维度建模角度看,主数据指基于其组织或配置指标的维度或层次,而不是实际情况或其自身测量结果。例如,收入、成本和利润是实际情况,而时间、地点、客户和供应商是维度。
主数据和元数据的关系
主数据跟元数据的关系,举个例子的话就想是一本书,主数据就是书里边的正文,实际有用的数据,元数据就是书的目录,是索引,方便你找到主数据的。
好啦!大家明白了什么是主数据和元数据了吗!
CIO之家 www.ciozj.com 公众号:imciow