数据分类模型之“元数据、引用数据、主数据、业务数据...”

来源:知乎专栏 作者:马达Fumer

1、元数据(metadata)

描述数据的数据,对数据及信息资源的描述性信息

大部分属性字段就是元数据。比如,性别,国籍,出生省份等。这个是最接近自然意义的的数据。

(1)在数据仓库领域中,元数据按用途分成:

  • 业务元数据:提供基于用户的信息,如记录数据项的业务描述信息的元数据能帮助用户使用数据

  • 技术元数据:支持系统对数据的管理和维护,如关于数据项存储方法的元数据能支持系统以最有效的方式访问数据。

(2)具体来说,在数据仓库系统中,元数据机制主要支持以下五类系统管理功能:

  • 描述哪些数据在数据仓库中;

  • 定义要进入数据仓库中的数据和从数据仓库中产生的数据;

  • 记录根据业务事件发生而随之进行的数据抽取工作时间安排;

  • 记录并检测系统数据一致性的要求和执行情况;

  • 衡量数据质量。

(3)基于应用,可以将元数据分成以下的若干种。

  • 数据结构:数据集的名称、关系、字段、约束等;

  • 数据部署:数据集的物理位置;

  • 数据流:数据集之间的流程依赖关系(非参照依赖),包括数据集到另一个数据集的规则;

  • 质量度量:数据集上可以计算的度量;

  • 度量逻辑关系:数据集度量之间的逻辑运算关系;

  • ETL过程:过程运行的顺序,并行、串行;

  • 数据集快照:一个时间点上,数据在所有数据集上的分布情况;

  • 星型模式元数据:事实表、维度、属性、层次等;

  • 报表语义层:报表指标的规则、过滤条件物理名称和业务名称的对应;

  • 数据访问日志:哪些数据何时被何人访问;

  • 质量稽核日志:何时、何度量被稽核,其结果;

  • 数据装载日志:哪些数据何时被何人装载


(4)元数据的基本管理

  • 元模型管理

通过可视化的用户体验实现:

a.元模型添加、删除、修改、发布等维护功能;

b.了解已有元模型的分类、统计、使用情况、变更追溯

c.每个元模型的生命周期管理等等。

  • 元数据管理

元数据管理实现针对元数据的基本管理功能。

元数据的添加、删除、修改属性等维护功能;

元数据之间关系的建立、删除和跟踪等关系维护功能;

提供元数据发布流程管理,可以更好地管理和跟踪元数据的整个生命周期;

元数据自身质量核查、元数据查询、元数据统计、元数据使用情况分析、元数据变更、元数据版本和生命周期管理等功能。

  • 元数据分析

元数据分析功能主要实现针对元数据的基本分析功能。包括血缘分析(血统分析)、影响分析、实体关联分析、实体影响分析、主机拓扑分析、指标一致性分析等。


2、引用数据(Reference Data)

元数据的可能取值范围,我们设计表时所说的数据字典往往就是引用数据。比如,性别只能是男和女,男和女就是引用数据;国家的引用数据就是世界上这100多个国家和地区。


3、主数据(Master Data)

主数据(MD Master Data)指系统间的共享数据(例如,客户、供应商、账户和组织部门相关数据)。与记录业务活动,波动较大的交易数据相比,主数据(也称基准数据)变化缓慢。在正规的关系数据模型中,交易记录(例如,订单行项)可通过关键字(例如,订单头或发票编号和产品代码)调出主数据。主数据必须存在并加以正确维护,才能保证交易系统的参照完整性。

从报告或维度建模角度看,主数据指基于其组织或配置指标的维度或层次,而不是实际情况或其自身测量结果。例如,收入、成本和利润是实际情况,而时间、地点、客户和供应商是维度。

在我们数据库设计中最重要的一些实体,是由元数据和引用数据实例的集合。DMReview 专栏作家 Jane Griffin 将主数据定义为“...用于为核心业务实体创建和维护全企业‘记录系统’,以记录业务交易并评定这些实体的业绩所需的信息。”



image.png

4、企业结构数据(Enterprise structure Data)

企业业务中所需的数据实体,可能是多个主数据的集合。不同行业的结构化数据会有很大不同

5、交易活动数据(Transaction Activity Data)

主数据之间活动产生的数据。比如客户购买产品的交易记录就是交易活动数据,工厂生产产品,生产记录也是交易活动数据。

6、交易审计数据(Transaction Audit Data)这六大类数据。

对数据的所有活动都通过交易审计数据进行记录。比如我们对客户信息修改的操作,对交易的增加和删除操作,这些活动在很多关键系统(比如银行)都需要记录,以合符相应法规的要求(如 Basel II、萨班斯—奥克斯利法案)。

image.png




相关文档推荐

DeepSeek模型解读.PDF

1742346148  4.75MB 62页 积分6

DeepSeek R1及类强推理模型开发解读.PDF

1742345949  9.09MB 0页 积分6

SRE Copilot大语言模型智能运维框架.PDF

1741936996 王宁 5.04MB 24页 积分6

大模型赋能DevOps研发全环节提速.PDF

1741936949 唐辉 4.99MB 31页 积分6

AI辅助编程真实测评与企业落地实践.PDF

1741936506 蒋志伟 10.17MB 37页 积分6

人类经验与AI算法的镜像之旅.PDF

1741936152 陈静远 4.23MB 40页 积分6

面向AI研发语言模型训练的可解释性分析与验证.PDF

1741935876 林云 2.7MB 62页 积分8

AI大模型技术在数据库DevOps的实践.PDF

1741935803 叶正盛 2.67MB 30页 积分6

大语言模型时代的软件开发起点.PDF

1741935214 叶子航 1.1MB 21页 积分5

大模型辅助需求代码开发.PDF

1741935139 路宁 1.24MB 15页 积分5

相关文章推荐