企业如何做好大数据项目的选型。我们将会从6个方面来进行分享:第一部分是大数据项目的基本概念,第二部分是大数据项目选型的整体框架;第三部分是选型评估的6个要素;第四部分是项目选型的4个核心步骤;第五部分是选型过程中5大风险因素识别;
一、大数据项目的基本概念
1.背景:由信息化迈向数字化
众所周知,经过多年的IT信息化建设,我们已经全面进入了从信息化迈向数字化的时代,过去我们所做的信息化工作是现在数字化的基础,而数字化是信息化的进化。信息化和数字化主要在以下6个方面有所不同:
2.数字化转型成为常态
数字化主要是从数据的角度驱动,即从业务数据化再反过来实现数据业务化,通过数据来驱动整个企业的信息化转型目标。那么落地数字化转型目标上,数字化转型的范围数字化转型的范围可大可小,小到一个项目,大到生态链和供应链。聚焦当下,企业数字化的重点任务主要为项目精细化管理:要素和活动数字化、生产要素管理一体化。和企业管理集约:管理和协作在线化、项目和企业一体化。
3.企业大数据项目的定义
企业大数据项目是指企业利用项目管理的方式,对企业中有意义的数据进行专业化处理,通过提高对数据的“加工能力”,从而实现数据的价值。软件是框架,要经过项目实施才能落地的。
其中大数据是指所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到获取、管理、处理、并整理成为帮助企业经营决策的目的资讯。例如,和以前对比,关系型数据库的处理能力已经达不到现在数据量级的处理了,因此我们就需要通过先进的大数据平台的处理能力对数据进行存储、计算和挖掘,最终通过处理的数据给整个企业经营提供决策支持,在企业中的应用领域有,企业经营管理、智慧城市、智慧交通、智慧医疗等。
4.企业大数据项目选型
企业大数据项目选型指的是企业根据实际业务管理的需要,对硬件、软件及所要用到的技术进行规格选择。
项目方案的选定就是从可供实施的备选方案中选择最佳的方案来满足企业的需求,选择在现实中可行、投入少、收益大的项目方案。项目方案的评价标准主要有:满足需求的程度、时间和成本、实施的可行性、风险的大小等。
5.企业大数据项目选型的异同
企业的大数据项目是多种多样的,从采、存、管、用4个方面来说,每一块都可以做,或者说都可以合到一起来做。我这里简单的以数据治理项目为例,如图所示,不同的切入点,所关注的重点不同,最终项目选型也不同,主要表现在建设策略、实施难点、有点以及客户群体方面不同。
以上介绍了不同数据治理项目的异同,但无论项目大小,我们都要去做项目选型,但如何去做大数据项目的选型呢?就要结合咨询机构常用到的5W2H分析法:
(1)我们要知道企业为什么要进行项目选型;
(2)项目选型具体要做什么事情;
(3)什么时间点开始,中间需要哪些里程碑?最终什么时间结束,比如我什么时间开始做招投标;什么时间点做评标,什么时间点做客户的访谈,最终签合同;
(4)与此同时,这个过程当中最核心是人来参与,比如我作为项目的主导者,我需要哪些核心的人来参与,是公司的高层,还是业务部门的管理人员;
(5)另外一个是要考虑where,就是我们在什么地方进行选型,比如公司是一个跨国型的,还是某个省市区的地方公司,这样就要考虑是否能在当地找到合适的供应商;
(6)最后两点是how to do和how much,对项目来讲,这个项目选型如何去做?这个项目具体去评估要多少成本。
二、企业大数据选型整体框架
1.项目选型整体框架(What)
如图所示为项目选型的整体框架,首先可以从下往上来看,最下面是一个企业,最上面是供应商;从左往右看是一个时间周期。
(1)从企业的角度
我应该考虑自己属于什么样的一个行业,在这个行业里是大型企业、中型企业,还是小型企业,是国企还是私营企业,或者是合资公司等等,要清楚自己的定位。即依据企业规模的不同,投入的成本就不同,实施周期以及项目的复杂程度也会不同。
(2)方法和工具
也就是在做项目选型时是有方法论以及工具的评标方法,关于这块后文中会详细介绍。
(3)流程
①一般企业进行项目选型时,首先要对自己的需求做一个梳理,可以采用PMP的需求收集方法论,也可以采用调研表、访谈、专家或行业的对标,例如优质企业的案例情况可以作为需求输入参考;
②形成一个RFP,即我把需求提出来,并共享给所有初步甄别出来的供应商,并让供应商给我提供解决方案,从图中可以看出,供应商是一个从大到小的模式。即我需要从这个行业的大数据平台厂商里面,按照具体情况把能承接这个事情的供应商筛选出来,然后将需求输出给他,让他提出解决方案,然后他们会将解决方案回馈给我,在这个过程当中可以约一些交流,以及产品演示等,以便增进了解;
③结合我的需求,以及他们提供的方案,综合考虑后形成一个招标文档进行招标,是否采取多种招标形式取决于企业的具体情况,比如可以采用邀标,或者采用公开挂网的方式来对它进行招标。
④招标的时候,就把前面的供应商邀请过来,进行相应的投标,然后针对供应商的报价策略,以及解决方案的响应程度进行甄别;
⑤甄别好了以后再和他进行商务的谈判签合同,最后再履行整个项目。
2.项目成功的目标及范式(Why)
对于项目来说,因为项目要成功,也是要给有准备的企业,那企业如何去准备呢?
(1)企业要梳理好自己的需求,明确出项目的范围,再进行整体的可行性计划研究,并针对每个环节做好计划;
(2)结合选型的依据,找到合适的供应商,包括基础平台,也包括相应的大数据平台,以及数据治理平台等等;
(3)当项目有了准备,有了产品,接下来最核心的就是执行,有效的执行才能保证项目的完成,这里就需要结合各种项目管理的方法论,比如PMP、项目管理工程师,这样就能有效控制整个项目的里程碑。最终能够保证整个项目结合成本、结合质量,在合理的时间范围内保证多大数据项目的成功。
3.需要哪些角色参与,每类角色需要做什么?(Who)
对我这个项目负责人来说,我需要什么样的人来参与大数据项目的一个选型过程中来呢?主要有以下几类:
(1)领导
一般情况下领导可能会说:“我没空,这个事就交给你去办,因为我还有很多其他业务方面的事情,比如生产方面等,关于数字化方面的项目建设,你自己来。”或者说他有一些事情也没法做到及时的参与,那这个时候我们就要及时的回报,及时的拉他进入到整个项目过程中来。
(2)项目
我们要具体的去分析一下这个项目的难度,可操作的难度到底有多大,然后把难度做一个分解,然后如何去操作要有应对的方案。
(3)公司
从企业和公司来讲,由于部门比较多,每个人的想法以及对这个大数据项目的期望值是不一样的。比如财务部门、人力部门、安全部门对大数据项目的期望是不一样的,因此我们就需要积极的说明清楚大数据项目对他们的价值,让大家都提出自己的想法,尤其是在做需求沟通的时候。
(4)供应商
随着信息化的发展,如今各个行业各业务模块都有相应的供应商,尤其像大数据板块,从采、集、存、管、用等方面都有自己擅长或者专精的供应商,这时我们就要搞清楚其到底擅长什么,报价体系是怎样的,以及它来做这个事有什么风险。
(5)项目组
一般情况下是项目组负责整个项目,因此项目组需要考虑项目的风险。
(6)结果
最终我们是期望整个项目能成功,但事实有很多不可预测性。如果项目想要成功,就需要个业务部门的支持。这也是大数据项目与传统IT项目建设的不同,单一的IT建设项目只需要一个部门负责来牵头,比如和信息部门一起来做,但大数据项目是需要各个部门的人员里支持,另外还需要与外部的合作伙伴和供应商一起支持。
4.什么时间、什么地点(When、Where)
这里有一个大数据项目招标的流程图,前面经过我和各个供应商以及内部的梳理以后,我了解到各个供应商的大数据软件产品的功能和技术特点,形成了项目的招标文件;
(1)首先我将招标文件发给各个供应商,安排供应商对我的招标文件进行答疑;其次安排供应商或者投标方来公司来进行参观、访谈和问题的答疑,在这个过程中也可以安排供应商对他们的系统与Demo进行演示,同时提交供应商的标书。
(2)然后就是一个开标时间节点,需要注意的是这里会设置几个环节:一般情况会要求投标人进行讲标,可以由项目经理或者投标公司的业务专家来进行,同时也可以做系统的演示。对企业来说,就需要组织专家来进行一个客观中立的评价,从技术、价格、资质等方面给出相应的综合评分。
(3)最后进行针对价格的商务谈判与磋商,最终谈好以后明确一个中标单位,并明确项目各方面的承诺与保障,以及签订项目,和启动项目。
5.如何选择(How to do)
至于如何去做招投标这个事,主要分成三个部分,第一个就是项目的选型标准是什么;第二个是选型的过程需要分成几个步骤,每个步骤的目的是什么?以及每个步骤做成什么样才能保证成功;第三个是选型的结果具体指哪方面?是咨询服务、软件平台、还是项目计划、项目成员以及选型时,遇到同类型的供应商,价格是不是符合预期。
6.多少预算(How much)
预算方面,不同档次的预算对应的厂商产品是不同的,企业需要基于自己的实际预算情况选择合适的产品和服务。比如企业做大数据项目,一般会遇到三个方面的厂商,比如平台服务商、咨询服务商和软件服务商,由于这些服务商提供的服务各不相同,因此企业需要结合自身的时间情况来决定,是需要一整套从咨询到产品到实施,还是只需要其中某一方面。
比如做个大数据平台项目,里面包括私有云、数据治理、数据可视化、再加上数据中台等,那么这样的项目就是千万级。这个事情你就要考虑自身企业的规模大小。
如果是头部企业,可能没有典型的可借鉴的案例去参考,就需要基于企业的实际情况做超前的预言,这个时候各方面的投入是比较大的。
如果是中型企业,我可能就需要结合我现阶段的预算,来判断是否可以采购整套解决方案。当然还可以分成几个阶段,比如先做咨询,从数据战略的规划,到数据治理的规划,到数据资产的盘点,最后到业务流程的改造,以及组织架构的变革等方面做好咨询;然后再结合咨询结构分一期、二期来进行,比如需要软件产品去落地,需要项目实施人员和二次开发人员来介入等等。
三、选型评估的6个要素
这块具体来讲就是结合产品性能、产品功能、过往的经验、咨询能力以及产品价格来进行:
1.产品性能
产品性能重点考察最大节点数量、吞吐能力、并发能力、运算速度、相应时间、安全性等。系统性能简单归纳为RASIS模型,即可靠性、可用心、可维护行和完整性、安全性这5个方面。
2.产品功能
以数据治理为例,主要分为5个方面:
(1)系统集成能力:是否支持主流的数据源(如关系型数据、非关系型数据、手工上传数据、爬虫数据等);是否支持离线数据和实时数据的对接。企业内有强AIoT需求时,需着重关注对实时数据的处理能力。如汽车主机厂的车联网;家电厂商的智能家电产品等;
(2)系统开发能力:对离线任务和实时任务的支持;开发调度配置等。;
(3)数据资产管理能力:
①数据标准管理:标准维护、标准变更、数据目录、版本管理、标准分布、标准跟踪等;
②元数据管理:元数据采集、元数据维护、元数据分析、元数据查询等;
③数据质量管理:规则管理、监控告警、数据质量报告等;
(4)数据科学能力:数据科学平台是否具备数据上传、数据预处理、特征工程、模型训练、模型评估、模型发布等全套功能;是否支持notebook开发;是否支持TensorFlow、R等主流的算法框架和语言等;
(5)数据应用能力:
①API中心:是否具备API创建、生成、发布、执行、审批、鉴权、限流等全套功能;
②标签中心:是否具备标签开发、标签分类、标签目录管理、业务确权、标签发布、标签下线等基本功能。标签只是工具,如何让标签发挥最大化实用价值应是企业关注的重点。
3.公司规模
方案商公司规模和发展状况直接决定了其能否为企业提供长效服务。
4.咨询能力
方案定制依托于垂直行业的knowhow积累,当数据一团糟、业务需求不明确时,咨询能力突出的方案商能如领航员带领海舰成功抵达港湾。而咨询能力应重点关注:数据治理能力、数据体系搭建能力、业务咨询能力、场景规划能力、项目实施能力等。
5.服务案例
方案商是否具备同行业客户服务经验;服务案例数量;优秀/经典标杆案例等等。
6.市场价格
项目的价格一般包括产品费用、项目实施费用和维护服务费用。企业应在产品与价格之间做好权衡,做到“买对不买贵”。
除此之外,选型的过程中,还应对方案商的企业资质、源代码是否开放、服务支持等其他因素进行综合考量。这里我们举一个例子,如图所示,大家可以详细的看下:
四、项目选型的4个核心步骤
1.在选型前需要先回答3个问题
(1)目前我们是以大数据为业务的组织吗?
回答这个问题的时候,我们需要考虑企业的主营业务是什么?如果是银行、电信、物流、制造等这些非IT行业,其信息化部门可以不用考虑自己从头搭建一个大数据平台。
(2)公司对于大数据投入的预期是多少?
除了平台本身,人力成本也是大数据投入的主要方面。目前大数据人才缺口严重,薪资比较高,一般集中在互联网企业和大型软件公司中,招聘合适的研发人员较为困难。从头搭建一个完整的大数据平台是耗资巨大的。
实际市场对大数据的投入是偏低的,可谓是“雷声大、雨点小”。所以一旦确定了大数据战略,那么应该是持续性的,符合性价比的投入方案,例如在某些特定场景先行应用大数据平台,而不是全面推行。
(3)我们选哪种类型的大数据平台
一旦确定了企业对于大数据的战略、目标和投入预期,接下来就面临如何选择大数据平台产品的问题了。
2.选型的4个核心步骤
(1)数据盘点
企业各个部门都有自己的业务系统,数据量到底有多大,有多少个业务系统,我们都需要进行相应的梳理。体量大者需关注产品性能;结构复杂者需考虑方案定制;数据质量差者需酌量考察团队的数据咨询能力。
(2)需求调研
关注业务场景的需求,对业务需求避而不谈的项目都是不行的。平台是为了业务去服务的,所以你得从各个部门去调研好他们的一个项目的需求情况,然后把它明确到这一期的项目当中,这样的话有平台,有实施的一个项目的计划和这个范围,就可以保证这个项目的实施的一个成功。
(3)规划方向与定调
核心问题在于“选择标准产品还是方案定制”。
①采用标准化的产品,在此基础上做少量的个性化定制。该路径适用于数据结构简单,数据基础优良,业务需求清晰的行业,如电商类鞋服企业、互联网类食品品牌、小家电生产商等;
②完全从零起步,一砖一瓦搭建,做高度定制化的体系。该路径适用于数据结构复杂,数据问题繁多,业务需求混乱的情况,如数据质量不佳的汽车主机厂;数据结构复杂的银行机构;业务需求繁多的地产企业等。
(4)项目选型
应该充分考虑服务商的产品性能、产品功能、过往经验(服务案例)、咨询能力、产品价格等。
3.项目选型参考思路
前面我们说到了具体如何去选,这里我们总结一个典型的可以参考的思路,大概分成5个步骤:
(1)分析需求,明确目标和实施范围
企业进行数字化项目建设,最重要的就是分析企业的实际情况和管理现状,有针对性地提出企业数字化的实施目标和实施范围。
(2)借鉴同行业数字化转型经验
经过近几年的数字化建设,国内大部分行业已经过了摸着石头过河的阶段,大部分行业应用已有相对成熟的应用案例。同行业企业数字化建设的规划、实施经验、阶段成果、项目实施过程中的可能性风险以及必要的防范措施对准备上马的大数据项目的企业来讲,是笔宝贵的财富,值得借鉴。
通过深入考察不仅可以了解其他企业建设的情况,还能够对本企业数字化所要解决的主要问题、要达到的预定目标做适当修正。与此同时,还可以通过考虑验证主要供应商的同行业业绩建设经验,作为选择软件厂商的重要依据之一,避免成为某些软件厂商试验田。
(3)展现软件产品必要的业务流程
企业大数据项目选型如果能够有成熟的行业化方案满足应用,就尽可能不要走“平台化定制开发”的路线,特别是当这家软件厂商没有在同行业实施成功过,风险,就会更大。通过软件产品必要的业务流程展示来验证软件厂商对企业所在行业的理解程度和软件在同行业应用的成熟度,将尽可能地避免企业数字化建设的产品风险和个性化开发风险。
(4)明确实施主体和实施团队
企业在选型时,要关注实施项目的主体。一定要争取公司总部集团级、原厂级的咨询实施服务。比如一定要对软件厂商的实施主体和实施团队进行非常细致的审核,对进入项目组的每个主要骨干人员进行甄别、确认,保证项目组主要成员的行业经验及项目规划控制能力,必要的话,把这些主要人员签到合同中,明确项目付费的方式与关键顾问的出场的关联。
(5)确定合理的项目预算
企业既要避免大手笔投入不计成本,也不能过于计较成本而影响项目的质量和工期,更不能认为哪家软件厂商都能干,只是压价格,合理的项目预算要考虑以下几个方面:
①干什么:基于一定项目范围和项目目标的需求;
②怎么干:具体的实施规划和实施策略;
③拿什么干:走什么样的产品技术路线,高端、中端还是低端产品?
④谁来干:找什么样的软件公司和什么样的实施顾问来干?
⑤谁来一起干:企业需要组成什么样的组织结构,需要有什么样的制度和激励措施来保障?
4.实施时的注意事项
这个过程与一般的项目没有本质区别,基本的需求、分析、设计、开发、测试都是要有的。不同的地方是大数据项目采用的技术不像传统的基于数据库的SQL开发那么简单,对编程能力的要求较高,同时对遇到问题的排查能力要求也较高,因为是分布式运行,导致问题排查变得非常复杂。
(1)大数据项目实施过程中涉及到和客户的众多业务系统进行对接的,也就是数据的采集,到数据的清洗、集成、标准、数据治理、数据的建模、挖掘分析和最后的可视化等过程;
(2)在和业务系统对接的过程中需要注意的必须拿到业务系统的数据字典(如果没有,拿到数据对数据的识别和分析非常困难);
(3)数据业务分析维度,需要项目经理进场需要客户明确的需求后确定系统的范围和边界(否则需求和范围不停的变,开发周期遥遥无期);
(4)准备好大数据平台要求的底层环境和资源(CPU、内存、硬盘、网络等),大数据项目对于这些资源的要求还是相对比较高的,例如硬盘容量,例如要分析日志类的数据或是流水数据。
五、选型的5大风险因素
1.5大风险点
(1)需求风险
内部对需求没有共识,征集需求时要么不明确,都要想。到底什么是紧急的,什么是常规的。有些需求可以不是当前选型的系统解决的,需要系统来解决,如何判断系统的边界。
(2)规划风险
企业的起点不同,信息化的策略不同。有的选择大系统,有的选型小系统,有的选型自主开发,有的选择购买成熟软件。企业还在不断发展之中,业务和流程不稳定,系统上完以后,怎样判定系统的可拓展性和灵活性
(3)产品风险
软件厂商很多,各有特点,每种软件擅长的领域不同。有的擅长大数据平台,有的擅长数据整合,有的擅长数据可视化分析,有的擅长数据治理。商业软件总是一个比较通用性的产品。如何保证与业务特点的吻合度,二次开发的工作将影响成本和实施效果。软件厂商来演示,发现总是有一些需求能满足,有些需求不能满足,如何把握当中风险。
(4)实施风险
软件商良莠不齐,实施效果难以保证,往往签单前的期望。在实施过程中不断的引发失望。
(5)商务风险
商务谈判,各软件的价格体系不同,报价缺少可比性。软件的许可的价格也差别很大,把握项目商务谈判的要点,通过多种方式的组合应用。合理的尽可能地控制项目的合同价格。项目合同条款的沟通与确定。用法律条款严密保护企业利益。同时,也与实施伙伴达成双赢。
2.如何应对风险
(1)从简单的小规模起步
企业构建数据分析项目常见的最大错误往往是贪大求全。特别是如果项目是从上往下推,执行团队很有可能会被要求构建一套既没有明确成效却又十分复杂的解决方案,造成项目成本高昂且工期很长。
企业不如从规模较小的项目起步,让决策者很快可以看到成效,提升他们对同类项目的信心。利用现代化开源技术,企业不但不用作大量的前期投资,更可以让开发者迅速投入工作,在几天或几周内就能构建出所需的应用程序或是原型。
(2)及早考虑可扩展性
即使只是构建一个框架,也应尽早测试其可扩展性。很多项目之所以失败,全因应用程序在构建时并没有测试其扩展性,也可能是因为其所选技术并不是为处理大数据而设计的。
确保性能测试不是事后的事。先预计在这段时间内将会产生多少数据,并进行测试和评估,构建合适的架构,同时确保当数据量增加并需要横向扩展时,也不会影响业务。
(3)数据的实时性很重要
我们都经历过应用程序或网站没反应或是缓慢的那种痛苦,时至今日,任何不能实时响应的事情我们都不能接受。如果有一个请求没有被及时处理,用户可能很快就会因缺乏耐性而离开该网站或程序,从而导致客户流失及营收下降。
企业要确保所用的软件不但能处理大量数据,还要有能力实时响应这些请求。建议使用具备聚和与地理位置分析功能且能与实时搜索相结合的数据分析软件。
(4)采用灵活的数据模式
现今的系统主要包括结构化和非结构化数据。但不要被那些为结构化图表及数据而设计的关系型数据库所限制。这类数据库很难被加上索引,解析、搜索及分析这些日积月累的大量数据往往很难。
企业应采用具备通用数据结构的软件。很多用于数据分析的软件包括NoSQL数据库及Elasticsearch等均采用JSON作为数据格式,支持文字、数字、字符串、布尔值、数组和哈希等结构化和非结构化数据类型。
(5)挑选开发者易于使用的工具
现今数据流量之多让企业或开发者在应对大数据分析项目时,很难去使用不包含开放API接口的软件。API接口被用作数据录入、索引及数据分析,这些数据一般来自不同的数据源或是业务系统本身的数据。
企业应提供给开发者一套拥有丰富、开放及资料完整的应用程序API接口,让他们更快速有效地解决问题。久而久之,当项目壮大时,开发者亦能不断创新及改进这套应用程序。
六、小结
在选型时,重点考虑三个方面:
1.需要从企业所属行业的特性出发,这是企业需求和痛点的来源。不管是业务还是财务,不同的行业都会有不同的特点,同一个行业不同企业也会有不同的管理诉求或痛点,但这些诉求或痛点一定是跟你所在的行业有关系的。我们可以去学习借鉴其他行业的解决方案。
2.对于厂商,需要重点考察其在行业内的实践经验和成功案例,这个决定了厂商解决业务问题的实际能力和可落地性。如果厂商在行业内没有成功实践。
3.对于平台,需要重点考察其开放性、灵活性,这个决定了方案/系统上线后可持续迭代的能力。因为在考虑业财问题的基本上都是有一定规模或是多元化发展的企业,这就意味着后续会有很多的新业务、新场景进来,管理会越来越复杂,系统架构也会越来越复杂,如果平台不够开放、灵活,那么将难于支撑企业业务的快速创新发展。
CIO之家 www.ciozj.com 公众号:imciow