从管、存、算、规、治看数据资产管理

1.数据之“管”
数据之“管”指狭义的数据管理,是对不同类别的数据采取不同的数据管理模式。这里我们把数据分为四个层次:元数据、主数据、参考数据、一般数据(交易数据)。通过数据之“管”,来确保数据来源的可靠性、数据内容的准确性、数据安全性及数据粒度的精细性。
不同的数据,根据其特性在数据量、更新频率、数据质量和生命周期上有不同的特点。从数据的作用及管理的方式上来讲,我们把数据分为四个层次:元数据、主数据、参考数据、一般数据(交易数据)。这里提到的数据之“管”,即指管理好这四个层次数据。
元数据(Metadata):通俗地说就是描述数据的数据,比如数据的名称、属性、分类、字段信息、大小、标签等等。要做好数据的管理,元数据起到了举足轻重的作用。
参考数据(Reference Data):是用于将其他数据进行分类或目录整编的数据,它定义了数据可能的取值范围,可以理解为属性值域,也就是数据字典。参考数据一方面有助于在TP(业务处理)侧提升业务流程的准确性,另一方面在AP(数据分析)侧规范数据的准确性,为多系统综合分析提供有利的保障。
主数据(Master Data):指具有高业务价值的,关于关键业务实体的权威的、最准确的数据,被称为“黄金”数据。通常用于建立与交易数据的关联关系来进行多维度的分析。
一般数据:也就是交易数据。相对来说,我们可以认为元数据、参考数据、主数据为静态数据,而一般数据则是动态数据。它一般随着业务的发生而变化,比如资金交易流水。
2.数据之“存”
数据之“存”指数据存储,指通过技术手段将数据存储起来。涉及三个关键词是“数据湖”、“数据仓库”和“数据集市”。数据的有效性、及时性、相关性、一致性、安全性、准确性,其来源的可靠性、粒度的精细性,最终都会体现在“存”之上,具备上述条件的数据组合,帮助数据实现了其“丰富性”。
如果把数据比作是源源不断的水,那么,数据湖可以比作湖泊,数据仓库可以比作水库,数据集便是超市。水在不断的加工制造中,最后成为超市中的瓶装水供人直接食用,就好比原始数据经过加工处理最终成为数据集市中直接可用于分析的数据。
数据湖、数据仓库和数据集形成了数据存储的三个层次,三者层层递进,各自发挥着其不同的作用。数据湖为非结构化数据分析、机器学习、预测分析提供了丰富的数据土壤;数据仓库通过规范化的管理,为企业、组织系统化的规范数据体系提供了支撑;数据集则将数据场景化,让数据触手可得,实现即席分析。
数据湖(Data Lake,DL),是指一个集中化存储海量的、多个来源、多种类型数据,并可以对数据进行快速加工、分析的平台。数据仓库(Data Warehouse,简称DW或DWH),是为支持决策而产生的数据池,它是整个组织中的各级人员可能感兴趣的、当前和历史的所有类型数据的战略集合。
数据集市(Data Mart,DM),是满足特定的部门或者用户的需求,按照多维的方式进行存储,生成面向决策分析需求的数据集合。
3.数据之“算”
数据之“算”,指的是数据预处理之“算”。为了保证数据分析时数据可用、好用而对数据进行的加工。是指对数据的清洗和加工,包括简单的清洗和处理,也包括通过智能手段如借助算法模型对数据的清洗和加工。
原始数据纳入数据湖的管理,通常混杂着各种数据。要防止数据湖变为数据沼泽,就需要将数据碎片分门别类,将不可洞察的数据和无关数据归类为数据噪声,留下可洞察的数据和相关的数据,我们称之为“信息元”。这类数据进一步通过数据加工形成整理后的数据,与可直接洞察的数据共同构成了可分析的数据。
4.数据之“规”
指数据规范,包括对数据规范的制定和数据管理上的规章制度。“规”是确保数据有效性、安全性的基石。
数据的规范,包括两个层面。一方面针对数据本身,即数据标准;另一方面是数据管理上的规范和制度。我们可以通俗的理解为数据分析中的“法”。
数据标准
数据来源的多样化带来了数据的不一致性,多源系统数据整合的关键首先就是建立数据标准。数据标准的定义应遵循一定的原则,包括唯一性、统一性、通用性、稳定性、前瞻性、可行性“六大特性”和系列化、模块化“两化原则”。
数据规范
数据标准的执行,需要依赖制度的规范。无体系、无制度的管理无异于一般散沙。数据规范可以大致分为数据基础规范、数据安全规范、数据质量规范三大类。 5.数据之“治” 数据之“治”指狭义的数据治理,实质上指数据治理相关的一套方法及体系,包括了实践数据之“规”来确保数据质量的过程和方法。它不仅是技术上的治理工作,更是以有效满足组织各层级管理诉求的有效手段,它应该是包括数据、应用、技术和组织的四位一体均衡的治理体系。数据治理,最重要的目标就是保证数据质量,即数据的一致性及准确性。

CIO之家 www.ciozj.com 公众号:imciow
关联的文档
也许您喜欢