公司如何从0搭建BI系统?

来源:知乎 作者:连诗路 ??

数据产品包含的比较多,有BI系统,有用户画像、推荐系统、数仓、数湖、数据中台、数据平台等等数据产品

先明确数据产品的价值和愿景,后去设计一款数据产品

通过多年的数据产品工作经验总结,并结合5W2H分析法,在做一款数据产品前,笔者总结了下面四个步骤来回答如何做的问题:

第一步,思考数据产品要解决什么问题(Why),为用户或者公司带来什么价值(HowMuch)?产品的开发周期要多久(When)?一款数据产品的核心是要解决某种问题的,那么它到底解决了什么问题,是否给公司或者用户带来了足够的价值。

第二步,要想清楚产品的目标用户是谁(Who),用户在什么场景下使用这款产品(Where),要站在用户的角度和使用场景下来设计数据产品。

第三步,要解决的问题分析思路是什么(How)?由于是一款数据产品,那么必然是要用数据说话,针对解决的问题,我们应该以什么样的思路来分析,需要整理出一套全面的分析框架,并且制定产品的实现路径。

第四步,对于问题需要用到哪些指标来核量(What),可以把指标组合为哪些模块?应该以何种方式展现?这一步主要思考产品具体的展现内容和形式。

接下来让看一下数据产品的具体建设方法。

在企业中,对于数据产品,一般分为:数据管理、数据工具、数据应用三个方向。

  • 通过数据管理,可以解决数据质量产品的问题;

  • 通过数据工具产品,可以提升获取数据的效率;

  • 通过数据应用产品,可以通过数据赋能企业或者用户,充分发挥数据驱动的价值。

BI系统属于数据分析型产品

下面分别介绍针对这三个方向做具体介绍:

关于数据管理

随着业务发展,数据量呈爆炸式增加,数据发挥的价值越来越大,数据质量问题也变得越来越严重,低质量的数据不仅使用不便,还会误导决策,甚至灾难性的结果,数据质量的好坏,决定了数据是否能够真正发挥价值。

如何判断数据质量的高低呢?什么样的数据是高质量的呢?

引用美国著名的质量管理学家朱兰博士(J.M.Juran)的一句话:

If they are fit for their intended in operations, decision making and planning

结合大数据与业务经验,在从定性的角度来看,影响数据质量的因素包括数据完整性、数据正确性、数据一致性、数据的可获取性以及数据的时效性等方面。

  • 其中,数据的完整性是指业务涉及到数据是完整的,能够对业务使用影响很大的数据都要保持一定的完整性;

  • 数据的正确性要满足准确性和精准性两方面,即数据要是准确无误的,数据要在精度上满足业务需求;

  • 数据的一致性要满足同一个指标的口径要一致,数据不要有二义性;

  • 数据的可获取性是指使用数据的时候,数据是被有效组织的,并且能够被高效获取;

  • 数据的时效性指使用的业务数据都是最新的,而不是无效的过期数据。

之所以强调数据质量的重要性,因为它是数据产品的基础,它会影响到数据仓库、商业智能、数据分析平台、数据应用等各个方面。同时,影响数据质量的因素又有很多,包括数据埋点质量、数据传输过程中出现的问题,数据口径是否一致等等。因此,为了保证数据质量,有资源和精力的公司会搭建自己的数据管理系统。

下图

上图为数据管理中心产品架构,主要包含指标体系管理、全局数据管理、元数据管理等。另外,在数据安全性的前提下,还可以通过全局数据接口对外输出高质量的数据。

以数据管理系统为例,它侧重于从时效性和数据一致性这两大质量方向保证数据的可读性。

(1)数据仓库的数据时效性检查

明确每天的每一个层级、每一个数据表的最早和最晚生成时间,发现影响当天数据生成延误的数据表,并能够通过数据管理系统回答以下问题:

当天 MySQL 表和 Hive 表中的核心指标是何时生成的?有哪些表的产出时间比预期时间延迟了?任务延迟的原因是由哪几张表造成的?瓶颈在哪里?优化哪几层?哪几张表可以提高核心指标等的生成时间?

(2)数据仓库的数据一致性检查

通过数据一致性检查,在数据质量视图的展现下,我们可以快速了解存在依赖关系的数据表的分维度数据变化情况。

为了对数据一致性进行检查,大数据管理系统项目需要做的事情主要分为以下几步:

第一步,建立数据依赖引擎,实现依赖图谱。依赖图谱用于构建数据仓库表之间的分层级依赖关系,然后存入MySQL表并能支持可视化展现,如下图所示

第二步,计算数据准备情况。各个表、各个分区的数据准备就绪时间按天、小时级进行汇总。根据Hive仓库的Meta信息可以获取Hive表各个分区的创建时间,根据创建时间确定数据的实效性,用来分析展现每天、每小时的状态和瓶颈。如果需要对MySQL进行验证,则通过SQL语句查询的方式获取对应时间在MySQL中是否存在。

第三步,建立数据计算引擎。根据定义的小时级指标、天级别指标规则,结合数据表各个分区的准备就绪时间,调用Spark SQL计算核心指标。

第四步,数据比较引擎。根据表和表之间核心指标的关系、表和表之间的规则进行比较验证。例如,A = B,A + B = C,B/A < 0.95等逻辑判断。

关于数据工具产品

数据工具产品主要在数据的角度通过工具产品来为公司赋能,为业务提供数据工具平台,提升获取数据的效率和决策速度,通过数据驱动公司精细化运营,主要包含数据分析平台、用户行为分析平台、用户画像工具等工具产品。

让我们先看一下数据分析平台的建设,在这个竞争白热化的大数据时代,每个公司对数据的重视程度都提高到了前所未有的程度,无论是考虑数据的安全性,还是数据的使用效率,拥有为企业自己量身定制的数据分析平台,是实现精细化运营、数据驱动业务增长的利器。因此,掌握大数据分析平台的思路和方法,是数据产品经理必备的一项能力。

如下图所示:

为数据分析平台的产品架构图,数据分析平台一般包括可视化分析模块、数据查询模块、权限及资源管理模块等。其中,数据分析模块还包括可视化模块、自助式分析模块、分析工具、智能分析等模块。

提起数据分析平台,很多人还停留在后端接口查询数据库数据、前端页面展现数据这种传统的定制化报表分析平台上。确实,公司在业务规模不大和人力不足的情况下,可以实现这种原始的报表分析平台,更准确地说应该是指标展现页面。

可是,这种方式太定制化了,没有任何的可拓展性,如果增加一个指标,前端和后端代码修改的成本都比较高。可以毫不夸张地说,前者就像还停留在冷兵器时代的军队,只能招兵买马、堆积人力,辛苦和艰难程度可想而知。

然而,随着业务的增长,报表的需求越来越多,天天深受写业务报表之苦的程序员和数据产品经理决定研制一个更先进的工具,来摆脱这种拼体力的工作。

为了提高数据分析平台的可扩展性,终于找到了QueryAdapter的方式解决问题,具体的方式就是通过前端配置 JSON数据,在API层下添加QueryAdapter层把API的接口翻译成相应的SQL,然后通过SQL查询具体的数据库,进一步提高前端的扩展性和报表的灵活性。

上面的这一过程可以用如下图所示:

的架构实现,就这样,“冷兵器”时代的大数据团队终于有了自己的“大炮”,他们只需更换“子弹”就可以快速解决不同的业务问题。于是,数据分析平台迭代到了V1版本——可拓展的报表分析平台。

人类科技的进步从来都不会止步不前,拥有了“大炮”和“步枪”,能不能再造出“飞机”与“坦克”,进一步提高“作战”效率?

虽然 V1版本解放了研发的生产力,但是随着业务人员的需求的多样性不断增加,数据分析师和产品经理的业务需求应接不暇,而且还有很大的沟通成本。面对上面的痛点,就需要为业务人员实现一个他们自己能够快速、方便搭建报表的平台。

于是,就需要为业务人员提供创建数据源、创建单图以及创建看板功能,让他们自己去创建报表自助分析,也就是所谓的自助分析三步曲,如图5所示,实现了这些功能,也就完成了数据分析平台V2版本——自助式分析平台。

一个完善的大数据分析平台,不仅仅是单纯展现数据的,更不是一些业务常用报表的罗列,还要能够为数据分析师、业务人员提供更多对数据的洞察,让数据更加智能化

例如:可以支持维度下钻数据、单图之间数据联动、对数据异常点进行标注、指标异常检测等功能,可以让使用人员方便、快捷地分析更精细的业务场景,实现从更多维度去了解业务,让数据发挥更立体的价值。实现一个智能的数据分析平台,是大数据分析平台V3版本的迭代目标。

大数据分析平台要更方便地服务于不同的业务场景进行数据分析,整理数据报告是数据分析师必不可少的工作,无论是周报、月报,还是新版本表现的分析报告,都需要在围绕报告目标的基础上,对数据整理、分析并提炼要点,最后形成一份有指导意义、易读且美观的数据报告。

而这些报告,就是每个业务场景都会沉淀下来的一套固定的分析思路和分析架构,这套固定的分析架构可以放在平台上实现,例如可以实现业务大脑、渠道分析、用户留存分析、用户活跃分析及日常的周月报等。

通过更贴近业务场景的数据分析平台,我们可以方便、智能地查看分析数据,提高效率,通过数据驱动业务高效发展,完成了这个阶段,便实现了大数据分析平台V4版本——业务场景分析平台。

总结一下,如果一个公司要自己研发数据分析平台,一般会经过可拓展的报表分析平台,自助式分析平台,智能化分析平台,业务场景分析平台等四个大版本的迭代,演进路线可以用下图:

关于数据应用型产品

数据应用向产品是更贴合业务的一些数据产品和数据变现类项目,会基于业务产生的数据做整合或者加工,输出可以为业务提供指导、对用户产生价值或者对其他公司、商家产生决策支持的数据产品。

对于应用型数据产品,可以是2B的,也可以是2C的,还可以是面向公司各类业务同学的。下面分别以2B数据产品、2C数据产品为例,来看一下数据应用型产品在各领域的情况。

(1)2C数据产品

2C的数据产品主要是面向普通用户提供的数据服务,是直接服务于个人的,它主要为用户提供描述性分析、预测性分析或者指导性分析应用,为用户的决策提供更多的数据支持,用来解决用户的某个“痛点”。

例如:小明想要约女生周末去看电影,可是不知道周末有什么电影上映,也不知道哪个电影好看。这时候,他也可以咨询朋友或者同事,根据他们的建议和观看经历判断明天看什么电影,这相当于由别人提供了咨询服务。

当然,他还可以打开猫眼电影,通过如图7所示的猫眼实时票房功能,查看票房、拍片、上座等数据,发现今天《流浪地球》的实时票房最高,然后综合产品提供的用户评价等数据情况,决定是否去看这部电影。

可见,猫眼电影的实时票房变就是一款2C的数据产品,它把基础数据、数据模型以及分析决策思路尽可能直观的形成一个产品形态,更直观智能的形式展现,充分发挥数据的价值,辅助用户更快地做出更合理的决策。

(2)2B数据产品

2B的数据产品主要为企业级或者商家提供数据服务,为客户决策提供数据洞察和策略支持。它主要是公司利用自己的数据资产,形成针对某个行业或者某个行业客户制定解决方案,形成数据服务,以辅助客户进行决策,拓展业务。

以某汽车资讯网站实现的面向汽车商家的数据产品为例,我们来看一个在欧洲杯期间,Jeep自由光的销售商是如何利用数据产品深挖用户痛点,制定请假攻略的应用案例来营销的。

首先通过该数据产品提供的用户画像功能,来看一下关注Jeep自由光的用户,在欧洲杯期间的关注焦点,如下图所示:

发现用户除了关注球队、球星、赛事、进程等之外,还面临请假、熬夜看球、上班等现实问题。

再结合产品的兴趣图谱功能,看一下Jeep自由光这款车型用户在咨询内容中,感兴趣内容类别的兴趣图谱,如下图所示:

发现用户对足球、家庭等兴趣显著。

另外,通过产品提供的数据了解到Jeep自由光用户中有65%为公司职员,72.9%为已婚人士,并深度剖析了欧洲杯赛事期间的用户行为,发现“请假看球”成为用户最关注的问题之一。

欧洲杯决赛在周一凌晨三点,上班族熬夜看球会影响周一的正常工作,已婚族通宵看球容易影响妻子和孩子的正常休息。对于真球迷来说,他们是请假看球还是忍痛割爱成为世纪难题!

那么,Jeep自由光的销售商是不是可以针对用户的痛点,对这个世纪难题做营销,引起共鸣,提升汽车销量?




一般来说,大数据的实时处理相对较弱,无法实现二阶响应,不适合实时分析产品。

可以刷掉很多产品。

在国内大数据产品中,实时分析能力强,是企业交付大数据的开放平台。Spark作为一种实时分析技术,可以用于实时分析TB级数据,将数据流与数据挖掘算法相结合,抽象成一个可以定义完成采集、分析和训练的自动化过程。

主要从七个方面分析产品分析(1)产品性能A产品有哪些性能B产品最突出的性能是什么C产品对消费者需求的最佳表现是什么D产品有哪些特点不能满足消费者的需求(2)产品质量是高质量的产品消费者对产品质量的满意度如何C产品的质量能继续保持吗产品质量有可能继续提高吗3)产品价格一个产品的价格在同类产品中占什么档次产品的价格和质量有多匹配消费者对产品价格的理解是什么4)产品材料A产品的主要原料是什么产品的材料有什么特别之处吗消费者对产品材料的理解是什么5)生产工艺产品是通过什么样的过程生产的生产过程有什么特别之处吗消费者喜欢这个过程生产的产品吗(6)产品外观和包装产品的外观和包装是否与产品的质量、价格和形象相称产品的外观和包装有缺陷吗c是货架上同类产品中外观和包装引人注目的吗外观和包装对消费者有吸引力吗消费者如何评价产品的外观和包装(7)与同类产品的对比A在性能上有什么优缺点B在质量上有什么优劣C在价格上有什么优缺点D在材料上有什么优缺点E在技术上有什么优缺点F在消费者认知和购买上有什么优缺点 

相关文档推荐

离散制造破局之道主数据管理平台重构.PDF

1742450737 詹慧超 4.6MB 37页 积分6

AI辅助编程真实测评与企业落地实践.PDF

1741936506 蒋志伟 10.17MB 37页 积分6

AI大模型技术在数据库DevOps的实践.PDF

1741935803 叶正盛 2.67MB 30页 积分6

DeepSeek大模型及其企业应用实践.PDF

1741743773 林子雨 9.39MB 144页 积分8

阿里云AI搜索RAG大模型优化实践.PDF

1741175482 欧明栋 0.79MB 28页 积分6

津药达仁堂数字化转型探索与实践.PDF

1741071203 叶辉 5.28MB 25页 积分6

大模型时代的异构计算平台.PDF

1740983483  1.78MB 39页 积分5

DeepSeek 从理论模型训练到实践模型应用.PPTX

1740472320  16.17MB 71页 积分10

DeepSeek行业应用实践报告.PDF

1740471709 李祖希 9.38MB 110页 积分6

飞速AI智能应用开发平台.PDF

1740097509  6.56MB 28页 积分5

相关文章推荐