一份完整的数据中台手册
CIO之家的朋友 云徙科技

数据中台定义


数据中台是一种将企业沉睡的数据变成数据资产,持续使用数据、产生智能、为业务服务,从而实现数据价值变现的系统和机制。

通过数据中台提供的方法和运行机制,形成汇聚整合、提纯加工、建模处理、算法学习,并以共享服务的方式将数据提供给业务使用,从而与业务联动。再者,结合业务中台的数据生产能力,最终构建数据生产—消费—再生的闭环。


数据中台价值


数据中台不等于大数据平台,数据中台的核心工作也并不是将企业的数据全部收集起来做汇总就够了。

数据中台的使命是利用大数据技术、通过全局规划来治理好企业的数据资产,让数据使用者能随时随地获取到可靠的数据。因此,数据中台一旦建成并得以持续运营,其价值将随着时间的推移将呈指数级增长。


image.png

2.1 帮助企业建立数据标准


在有数据中台之前,企业基本不会有全局的数据标准,即使有相关的数据标准,由于没有数据中台这个实体形态,数据标准也无从执行。

数据中台的建设天然会帮助企业建设数据标准,包括数据建设规范和数据消费规范。数据建设规范有诸如数据接入规范、数据建模规范、数据存储规范和数据安全规范等,数据消费规范包含数据权限规范、数据调用规范以及数据销毁规范等。

这些标准都是建设数据中台时必须建立起来并依托数据中台去执行和落地的。

2.2 促进中台组织形成

再宏伟的企业战略规划,都离不开一套科学合理的组织去落地执行。

数据中台建设将是企业宏观战略规划的一个重要部分,那么在践行数据中台建设的过程中,摆在企业第一位的问题就是如何搭建起一套能稳定护航数据中台建设及运营的数据中台班子。

数据中台这种体系化工程将横向拉通企业数据相关方,包括中台建设团队、中台运维团队、数据产品经理团队、数据资产管理团队、数据运营团队等,组成标准的企业数据委员会,从而形成企业真正的中台组织。

需要说明的是,中台组织可以是一个横跨各个业务部门的弱矩阵组织,也可以是一个完整的实体组织。这需要因地制宜,因企业不同而异。

2.3 全面赋能业务,促使降本增效

数据中台的终极价值是降本增效,无论是建设数据标准还是形成中台组织,其核心目标都是帮助企业达成战略规划。

通过数据中台,可以更加合理地布局团队;数据从加工生产到使用的整个时间周期将大大缩短;以中台之力拉通整合企业营销、交易、服务、库存、物流等一方数据,结合二方及三方数据,以全局视角,形成强大的数据资产,滋养各业务板块。

同时有目的性地针对场景,设计出赋能场景的数据应用,帮助其从研、产、销等多个方面缩短产品研发周期,生产未来一段时间畅销的产品,精准找到愿意购买公司产品的群体,以至于增强用户对企业产品及服务的友好体验,提高用户对于企业品牌的忠诚度,降低企业运营过程中的损耗,压缩供应链端的周期等。


数据中台VS业务中台


无论是业务中台还是数据中台,都是在企业IT系统架构演进过程中形成的,并从企业自身IT系统规划、建设、运营、运维等多年的经验中提炼出来的共性能力。

业务中台和数据中台作为两个轮子并肩构建了数字中台,支撑前台对会员的从营销推广、转化交易到智能服务业务的闭环,促进企业业务的提升和发展。数字中台对内连接企业的后台系统,诸如ERP、人力资源、协同办公、财务管理等。


image.png

业务中台与数据中台双轮驱动的数字中台支撑前台业务。


业务中台抽象、包装和整合后台资源,转化为便于前台使用的可重用共享的核心能力,实现了后端业务资源到前台易用能力的转化,为前台应用提供了强大的“炮火支援”能力,随叫随到。

业务中台的共享服务中心提供了统一、标准的数据,减少了系统间的交互和团队间的协作成本。

数据中台接入业务中台、后台和其它第三方数据,完成海量数据的存储、清洗、计算、汇总等,构成企业的核心数据能力,为前台基于数据的定制化创新和业务中台基于数据反馈的持续演进提供了强大支撑。

可以认为数据中台为前台战场提供了强大的“雷达监测”能力,实时掌控战场情况,料敌先机。

不过数据中台所提供的数据处理能力和之上建设的数据分析产品,也不局限于服务业务中台。数据中台的能力可以开放给所有业务方使用。

业务中台与数据中台相辅相成,互相支撑。

对于业务方来说,自己产生数据,并同时消费自己的数据,在消费自己的数据时又在继续产生数据,从而形成数据闭环。

数据中台并不是截然独立的,它与业务中台一起组成了支撑业务的两个轮子。 


数据中台功能架构


数据中台建设是一个宏大的工程,涉及整体规划、组织搭建、中台落地与运营等方方面面的工作,本节重点从物理形态上讲述企业的数据中台应该如何搭建。一般来讲,企业的数据中台在物理形态上分为三个大层:工具平台层、数据资产层和数据应用层。

4.1 工具平台层

工具平台层是数据中台的载体,包含大数据处理的基础能力技术,如集数据采集、数据存储、数据计算、数据安全等于一体的大数据平台;还包含建设数据中台的一系列工具,如离线或实时数据研发 工具、数据联通工具、标签计算工具、算法平台工具、数据服务工具及自助分析工具。

以上工具集基本覆盖了数据中台的数据加工过程。

4.2 数据资产层

数据资产层是数据中台的核心层,总体来讲,可以划分为主题域模型区、标签模型区和算法模型区。


image.png

①主题域模型


主题域模型是指面向业务分析,将业务过程或维度进行抽象的集合。业务过程可以概括为一个个不可拆分的行为事件,如订单、合同、营销等。

为了保障整个体系的生命力,主题域即数据域需要抽象提炼,并且长期维护和更新,但是不轻易变动。在划分数据域时,既要涵盖当前所有业务的需求,又要保证新业务能够无影响地被包含进已有的数据域中或者很容易扩展新的数据域.

②标签模型

标签模型的设计与主题域模型方法大同小异,同样需要结合业务过程进行设计,需要充分理解业务过程。

标签一般会涉及企业经营过程中的实体对象,如会员、商品、门店、经销商等。这些主体一般来说都穿插在各个业务流程中,比如会员一般都穿插在关注、注册、浏览、下单、评价、服务等环节。那么在设计标签的时候就需要充分理解这些业务流程,在流程中发现标签的应用点,结合这些应用点来搭建企业的标签体系。标签模型按计算模式一般分为客观标签和主观标签。

设计标签模型时非常关键的要素是标签模型一定要具有可扩展性。毕竟标签这种数据资产是需要持续运营的,也是有生命周期的,在运营的过程中随时可能增加新的标签。

③算法模型

算法模型更加贴近业务场景。在设计算法模型的时候要反复推演算法模型使用的场景,包括模型的冷启动等问题。整个模型搭建过程包含定场景、数据源准备、特征工程、模型设计、模型训练、正式上线、参数调整7个环节。

以新零售企业为例,常用的机器学习算法有决策树、神经网络、关联规则、聚类、贝叶斯、支持向量机等。这些算法已经非常成熟,可以用来实现商品个性化推荐、销量预测、流失预测、商品组货优化等新零售场景的算法模型。

4.3 数据应用层

数据应用层严格来说不属于数据中台的范畴,但数据中台的使命就是为业务赋能,几乎所有企业在建设数据中台的同时都已规划好数据应用。数据应用可按数据使用场景来划分为以下多个使用领域:分析与决策应用、标签应用、智能应用。


数据中台技术架构


随着大数据与人工智能技术的不断迭代以及商业大数据工具产品的推出,数据中台的架构设计大可不必从零开始,可以采购一站式的 研发平台产品,或者基于一些开源产品进行组装。

以开源技术为例,数据中台的技术架构如图所示,总体来看一般包含以下几种功能:


image.png

数据中台构建的三大路径


云徙在服务近200家行业头部客户的实践经验中,通过企业数字化战略决心、数字化现状、组织架构匹配度、业务紧急度等4个维度综合分析,分析出企业建设数据中台总体而言有三大路径:

如果一个企业,数字化战略路径非常清晰,但其业务模式需要多样化扩展,数据赋能业务痛点的比较明显,且对应的中台组织架构已经形成,则建议企业采用双中台一体化,即同时建设业务中台和数据中台。

如果一个企业数据赋能业务的痛点非常明显,即紧迫度很高,业务在线能力比较完善,但其组织架构相对薄弱,数字化现状以及中台战略不是特别清晰,则推荐先行建设领域数据中台。因为领域数据中台的突出特点是快。

而全域数据中台则适用于数字化战略清晰,但业务部门还是在用传统的BI分析来解决问题,数据资产混乱且需要治理的企业。

6.1 建设路径一:双中台一体化

双中台一体化是指同时建设业务中台与数据中台。以下以云徙科技双中台解决方案为参考


image.png

通过低代码开发平台提供的大数据开发、可视化算法开发、标签引擎等支撑业务开发与数据开发。使用开发平台,建设模型层,包括洞察模型和智能模型,并将这些模型组装成智能应用,诸如会员健康诊断、黄金购买、流失挽回、库存健康诊断、智能补货、销量预测等。如此就可以在做营销自动化时将精准营销的数据能力嵌入进去,从而真正把业务与数据融合在一起。


双中台一体化建设的特点是体系化,业务与数据是闭环的,但周期较长。

6.2 建设路径二:领域数据中台

领域数据中台的特点是有明确的领域业务导向。在此以营销领域为例,展示了消费者数据平台即CDP的功能蓝图。


image.png

左边是数据源,只需收集与消费者相关数据,而供应链、财务等数据源都无需纳入建设范围,大大缩减数据治理的压力。


数据处理过程则采用轻量和敏捷的方式,尽量简化模型的建设、简化模型的分层,简化处理过程的校验等。

而上层的应用,则贴近消费者运营业务的数据赋能,便于运营人员使用,通过API或推送的方式,与营销、客服、广告投放等与消费者相关的系统进行连接。

以上就是领域数据中台,以聚焦贴近业务、敏捷、短周期为特点。

6.3 建设路径三:全域数据中台

集约化的建设模式,这也是数据中台一开始面世被大家所熟知和采用的建设路径。


image.png

企业全域数据中台的特点,就是数据全面资产化、进行体系化的布局。 


体系化,既需要有一整套机制来护航数据中台的运营,比如保障已制定的规范的执行落地,又需要体系化的工具,还需要体系化的思考,比如考虑多业务之间的交叉赋能共享等。因此其周期就较长。

正由于周期较长,所以很难一步到位。因此,企业可以设计分阶段实施,比如第一阶段打基础,第二阶段建模型、第三阶段赋能业务。这就需要在企业内部首先达成共识,才能保证系统建设的稳步推进。急功近利是建设不好企业全域的数据中台的。

总结之,以上三种路径,虽然各行其道,但无论是双中台一体化、领域数据中台还是全域数据的治理化,都只不过是建设的范围、先后的步骤不太一样,但最终都需要与业务结合,为业务赋能,发挥数据的价值,是为推进企业的数字化转型服务的。


数据中台构建5步法


系统都是为应用而生的,数据中台也不例外。要构建一套数据中台服务于企业内部和外部运营,需要有成熟的数据中台建设方法论作为指导。企业建设数据中台遵循的方法论就像菜谱,初学者根据菜谱按部就班就可以轻松完成一道道菜肴,高阶玩家根据菜谱可以查漏补缺,使厨艺精进。

数据中台建设方法论可分为高阶规划、系统设计、开发实施、试运行和持续运营5个阶段。


image.png

7.1 高阶规划


数据中台规划阶段可细分为业务架构师主导的业务规划和数据架构师主导的数据规划。

这两部分内容是相辅相成的,由业务规划进行业务输入,由技术规划对数据现状进行探查,判断业务规划蓝图的可行性,最终形成可行的蓝图规划与应用设计。

7.2 系统设计

①总体设计

第一阶段的规划工作完成后,进入总体的架构设计阶段。


image.png

② 数据设计


数据设计包括数据集成、模型设计和服务详设。

image.png

③平台设计


平台设计指的是大数据运行平台在资源规划、技术选型、部署方案等方面的设计,是根据总体架构中的平台架构展开的。平台能力具有通用性、扩展性和前瞻性是数据中台成功建设的基础。

平台设计阶段将以客户现有数据体量及可预测的业务增长情况作为考量因素,对平台建设所需的资源进行预估和规划,产出平台及数据应用部署所需的资源清单、部署方案及相关人员在平台上的账号和权限的设计等。

7.3 开发实施

开发实施阶段可分为环境搭建、数据集成、代码研发三个层面。

①环境搭建

平台层面的环境搭建,包括大数据集群、数据研发平台、智能数据应用产品等相关工具的部署。

平台的搭建按设计阶段输出的资源规划和平台部署方案实施即可。在平台环境、工具组件部署后,需要对平台环境进行测试,同时在产品工具层面,需要对企业进行相关产品的使用培训,并通过企业的验收。

②数据集成

数据集成方案从宏观上设计和规范了数据源级别的数据集成流程和同步策略。在当前阶段,需要对各数据源制定表级别的集成策略,形成数据同步清单,包括上云数据存量、日增量、分区字段、数据更新频率、存储周期、上云时间等相关信息,供具体实施时使用。数据集成工作实施后,还需要逐一对数据源表进行数据监控及验证,以确保集成的数据无问题。

③代码研发

代码研发阶段包括数据研发与验证、应用研发与测试、性能测试三部分。

数据研发与验证主要包括数据模型的业务代码开发、数据监控代码开发、数据准确性验证。

从模型数据开发、数据监控开发到数据验证,再到模型上线,需要一整套开发流程来保障数据的产出。应用研发与测试主要包括数据应用层面的开发和测试工作,如数据服务、数据应用前端开发。性能测试包括数据产出时间、数据接口服务性能、数据应用访问性能等方面的测试。

7.4 试运行

数据中台上线之后,分析专题的指标口径、数据应用效果等多方面的数据准确性都需要通过真实的运行数据去验证。

①中台试运行

为保障生产环境数据的准确性,需要先在测试环境基于企业全量的数据进行一段时间的试运行。主要包含:数据迁移、数据跑批、数据验证、应用验证几个步骤。

②历史数据重跑和测试

在试运行过程中,数据中台的指标或标签可能会因为业务侧的口径变更而进行历史数据的重刷动作。在这种情况下,要保证数据准确且可逆,有几点注意事项:影响评估、数据备份、口径调整、数据验证。

7.5 持续运营 

数据中台不是一锤子买卖,是需要持续经营的。在作为数据中台的建设者,不仅需要定期与数据使用者主动沟通,了解数据使用情况,了解这些数据到底带来了什么价值,还要通过系统查看指标、标签、专题、应用API这些资产的被调用情况,以此来判断是否需要优化等。

①正式上线

割接方案。如果数据中台存在替换现有其他系统的情况,就需要制定详细的割接方案,以保障数据中台能够覆盖旧系统的数据能力。

上线预演。在正式上线前,需进行割接或上线的演练操作,尽可能多地暴露数据、环境、资源等各方面的问题,并逐步进行优化和调整。

② 运营保障

产品侧:收集直接使用方的产品体验状况,根据反馈内容进行优化,提高产品的易用性,增强使用方对产品的黏性。

应用侧:分析应用对象的重点关注模块,并阶段性地形成分析报告。中台建设者可根据报告内容,对接应用相关人员,持续挖掘新的需求内容,持续耕耘以创造更大的价值。

数据侧:通过数据链路跟踪的结果,总结阶段性重点关注的数据内容。结合自上而下和自下而上两种途径,分析整个系统数据层面的缺口,并制定汇聚、扩建的计划,提高中台数据支撑的力度。



CIO之家 www.ciozj.com 公众号:imciow
关联的文档
也许您喜欢