数据分析、数据挖掘等各种数据应用都离不开数据质量,数据质量的重要性不用多表。今天来浅谈如何通过数据治理,来保证数据质量。数据的生命周期往往会有以下4个过程:数据的产生、存储、加工和应用。 数据质量在这四个环节均会产生,所以需要有不同的手段。
1、数据产生阶段
这个阶段是数据质量问题的重灾区,无论是手工录入的数据,还是生产系统产生的数据,都会因为各种原因导致数据质量问题,比如手抖输错、生产系统波动等。对于这个阶段的问题,我们对应的手段是:控制输入
对于手动录入的数据,尽可能的使用非开放式的输入手段,如下拉菜单、单复选框、时间控件、标签(支持自定义学习型)等,必须开放的输入部分,进行必要的及时校验。另外在数据进入系统前,可以设立监控点,出现错误数据可以及时预警(邮件、信息手段进行通知)。
2、数据存储阶段
方法:数据统一及数据清洗
在数据仓库或数据中心建立时,就按照数据标准对关键字段进行统一命名、格式、精度等,排除数据的歧义。
对于已经存储在数仓中的数据,发现质量问题,就得使用数据质量管控工具了,这里推荐亿信睿治数据治理平台中的数据质量模块,可以很方便的检查出数据质量问题,且内置了丰富的清洗组件,不需要使用代码就可以完成对于大多数数据质量问题的便捷清洗。
3、数据加工阶段的质量管控手段
方法:数据质量管理工具
这个阶段的数据会经历很多过程,比如被引用,指标计算,从ODS层到集市层等,通过人力来管理的话,人力成本太高了。在这里还是推荐睿治数据治理平台的数据质量模块(没办法,的确好用),此软件数据质量功能模块支持在数据流向的各个节点进行数据质量监测,不仅可以进行实时数据质量的预警,还可以对已有数据进行数据质量校验,内置了很多种数据质量规则,没有研发经验的也能用得飞起,对技术小白很友好。
4、数据应用阶段的质量管理手段
数据使用阶段还需要质量管理?当然!
无论是在数据分析还是数据挖掘之后,结果自然是要保存下来的,此时的数据仍然要按照标准,进行规范的管理,无论是存储结果的表名,还是字段、格式等。此外,在数据分析、挖掘的时候,也会有新的数据产生,此时依然需要进行标准化之后进行统一管理。有新的数据质量问题产生,仍然需要想应的数据清洗工具进行清洗后再保存。
写在最后,数据质量问题对于很多企业已经是迫在眉睫需要解决的问题了,是时候开展数据治理了。话分两头讲,对于已有数据,通过数据质量管理工具进行校验和清洗,另外建立数据质量管控体系,通过PDCA闭环结构不断地提升数据质量;
另外对于系统原因造成的数据质量问题,我们需要建立数据标准体系,对于可以改造的生产系统,在数据标准的指导下进行改造,对于不能改造的系统,通过一些技术手段进行清洗转换,在数据产生的环节把控数据质量,这样效率必然是最高的。
数据质量的提升并不是一蹴而就的,做一次数据整改就能解决所有数据质量问题。而是需要通过数据标准和数据质量建立起完善的数据质量管控体系,在各个环节进行监控,定期检查数据质量,确定解决方案,并加以改进。数据质量管理的平台工具,笔者在这里推荐一下亿信华辰的睿治数据治理平台,该平台内置了13中数据质量检查规则,可根据实际需求建立完善的质检方案,精准识别和定位数据质量问题,并可直接关联数据质量整改工作流,帮助企业提升数据质量。质量乃数据之根本,没有质量,数据便不可信,在此之上的数据分析、数据挖掘更是一纸空谈,甚至是大谬论。提升数据质量,建立起可信的企业级大数据势在必行。
CIO之家 www.ciozj.com 公众号:imciow