企业数据仓库中元数据的应用研究
网友 万方数据
0 引 言

    以数据仓库为核心的商务智能(BI)技术日益受到业界重视,许多BI系统己经投入使用,带来了巨大的效益。但是数据仓库的数据质量问题已经严重影响了商务智能的应用能力,由此引发了人们对元数据管理和应用的研究。

    元数据是“关于数据的数据”或“关于数据的结构化数据”,即关于数据的内容、质量、状况和其他特性的信息。

1 数据仓库的数据质量问题

    基础数据的正确性、真实性直接影响到报表和分析结果的可信度。突出的数据质量问题包括:

    ·数据被错误理解
    ·重要的事实错误传达
    ·不能判断商业变化造成的影响
    ·缺乏工具连贯性
    ·缺乏查帐索引

    数据质量问题主要是由分公司本身录入、业务系统新旧多次切换和升级、业务扩展操作等原因造成。

    从图1数据质量管理体系架构图我们可以看到:元数据是数据质量管理实现的基础,元数据管理支撑功能的实施是数据质量管理系统的核心。
 
图1 数据质量管理体系架构图


    数据质量管理系统的核心是元数据管理支撑功能的实施:

    ·数据质量管理包含元数据管理
    ·元数据管理功能为数据质量管理提供支撑

    元数据是数据质量管理系统实现的基础,是描述和控制BI系统中数据的数据,对上层功能提供信息支撑。

2 应用元数据提高数据质量的应用实例

    可以提高数据质量的主要元数据业务应用包括:元数据浏览、数据时效性探察、指标管理与分析、数据血统分析、影响分析、处理过程分析、表重要程度分析和表无关程度分析等。

    2.1 数据血缘分析

    辅助管理人员对由BI系统提供的报表、指标的数据项进行血缘分析,了解该指标或报表元素由源系统到BI系统,由数据仓库到前端显示或者报表系统的计算过程和处理方法,管理人员可以通过血缘分析结合数据时效性探查来了解提供报表和指标的可信度或对CPIC的相应的指标定义和有关规范进行核查。

    业务人员可以对由BI系统产生的某一个指标或者报表元素进行血源分析,即已知某一数据项,查找到该数据项从源系统到前端展示的若干ETL过程相关的数据项、计算方法、计算公式,形成该报表元素(或指标)的族谱图,从而了解产生该数据项的流程。

    2.2 处理过程分析

    处理过程分析与数据血缘分析类似,但处理过程分析给出的是过程的执行相关信息,数据血缘分析给出的是数据的流动信息。

    2.2.1 影响分析

    影响分析使你可以回答类似下面的一些问题:

    ·我所做的这个改动还会影响到别的什么地方?
    ·这个对象还依赖于别的什么对象?

    图2展示了在金融业务BI应用中用MetaStage进行交叉工具对数据质量影响的分析,我们可以清晰地通过元数据管理工具分析出—个数据对象在数据处理链条上的所有依赖关系。
 

图2 MetaStage交叉工具影响分析示例


    2.3 数据时效性探察

    BI系统中的数据时效性是BI系统中数据质量的重要的组成部分,通过对BI系统元数据的管理,可以分析到某一条或某一些数据的时效性。首先通过元数据浏览和检索功能,检索感兴趣某个数据项相关的元数据信息,探察该数据最后计算的时间;然后,通过元数据ETL分析,找到该元素以及和该元素相关的计算元素的ETL过程(从生产系统到数据仓库,再从数据仓库到前端展示系统)的最终执行时间。对上述时间进行探查分析,以决定该数据的时间有效性和真实性。

    2.4 元数据相关性分析

    在调整BI系统时,经常遇到调整一些系统而影响其他系统的情况。为了保证数据的一致性,需要对整个BI系统中的相关的元数据进行调整。此时,通过元数据相关性分析,找到所有需要进行调整的元数据,可以统一进行修改和调整。

3 结束语

    元数据管理是提高数据仓库数据质量的必由之路,元数据管理的复杂性及元数据管理的很多内容仍然需要依靠管理制度、流程、其它辅助工具以及人工参与来共同完成。
 

CIO之家 www.ciozj.com 公众号:imciow
关联的文档
也许您喜欢