大数据思维与价值核心:数据驱动和业务场景化
吕品 网络收集


人人必谈大数据

说到大数据,大家并不陌生,从各种自媒体、线上线下沙龙,包括生活中大家经常提起。早在 2010 年之前,国内的很多互联网公司都已经在处理 “大数据”,只不过那时对大数据还没有一个清晰的定义。2013 年起,我们注意到在国内大数据这个词开始火了,火到什么程度? 举个例子:我每次回家,家里的亲人朋友都在问我是做什么的,我说我们是搞商业智能 BI 的,基本上听不懂。什么把数据变为信息、信息产生决策,什么 ETL、报表,几乎是懵圈的。后来提了一句,我们有一个技术网站,里面都是玩数据的,比如大数据、数据分析、数据挖掘...。“大数据啊!大数据我知道!”,我问什么是大数据,回答很简洁干脆:“大数据就是数据大呗!”

其实这种理解不能说错,只能说不全面,但是从某种角度上来说大数据还是比较深入人心的,“大数据”这三个字起到了一个很好的名词普及作用,至少不会像商业智能 BI 那样很难用一句或者几句话让大家有个哪怕是很基础的概念。

大数据 4V


我们经常提到的大数据四大特征:4个V

  • Volume 数据容量大:数据量从 GB 到 TB 到 PB 或以上的级别。

  • Variety 数据类型多:企业在解决好内部数据之后,开始向外部数据扩充。同时,从以往处理结构化的数据到现在需要处理大量非结构化的数据。社交网络数据采集分析、各种日志文本、视频图片等等。

  • Value 价值高,密度低:数据总量很大,但真正有价值的数据可能只有那么一部分,有价值的数据所占比例很小。就需要通过从大量不相关的、各种类型的数据中去挖掘对未来趋势和模型预测分析有价值的数据,发现新的规律和新的价值。

  • Velocity 快速化:数据需要快速处理和分析。2010年前后做过一个美国医疗保险的数据迁移项目,有一个 ETL 需要处理该公司几十年的历史文件和历史数据,文件数据量很大,并且逻辑非常复杂,一个流程几十个包,一趟下来 35 个小时执行完毕。这种情形如果放在现在的互联网比如电商平台很显然是不允许的。比如像电商促销、或者要打促销价格战,实时处理传统的 BI 是无法完成的。对有这种实时处理实时分析要求的企业来说,数据就是金钱,时间就是生命。

我相信上面提到的大数据的四个 V、核心特征还是比较容易理解的。如果我们不是站在技术层面去聊的话,大家对大数据或多或少都会有一些比较接近和类似的看法,并且在理解和认识上基本也不会有太大的偏差。

但是当我们谈到大数据,大家真正关心的问题在哪里呢? 从技术角度大家可能关心的是大数据的架构、大数据处理用到了什么样的技术。但是站在一个企业层面,特别是在着手考察或者规划大数据项目建设的负责人、企业高层来说,更多关心的应该是下面这几个问题:

1. 大数据到底能帮我们企业做什么,或者说能够带给我们企业什么变化。上了大数据对我们有什么用,会有什么样的改变,是经营成本下降、还是帮我们把产品卖的更多?

2. 我们的企业现在能不能上大数据?如果不能上大数据,为什么,那又需要怎么做?

3. 我们企业也想跟随潮流上大数据,问题是要怎么做。需要准备什么,关于投入、人才、还缺什么、需要用到什么样的技术?

4. 我们怎么验证这个大数据项目是成功还是失败,我们判断的标准是什么?

我相信这些问题都是大家比较关心的一些点,包括我自己。我们目前还是以 BI 分析为主,但我们也会去爬一些外部的数据,后面也在规划大数据相关的一些项目和开发。

当然大数据这个话题是非常大的,我们很难从一个或者两个角度把这些问题回答的非常全面。但是我觉得有一点是我们的企业高层或者决策者可以注意的:在规划和考虑大数据的时候需要具备一定的大数据思维,或者说是面对大数据时我们所要具备的考虑问题和看问题的角度。

大数据思维方式

大数据思维方式我简单概括为两个方面:第一个是以数据为核心、数据驱动的思维方式。第二个是业务核心,业务场景化的思维方式。

以数据为核心、数据驱动的思维方式包含这几个方面:


1. 尽可能完善自己的数据资源。我们手上握有什么样的数据资源,我们数据资源的质量如何?

企业需要关注和梳理我们有什么样的数据,以前是关注企业的流程,IT的流程、业务流程再造。现在大多数企业这些 IT 基础和应用的建设都已经完成了,更加关心的应该是在我们的企业里到底握有什么样的数据资源,在不同的行业我们的数据主题是不一样的。

比如电商零售行业,我们考虑更多的可能是消费数据、涉及到用户、产品、消费记录。因为我们可以围绕这些数据比如做用户画像、精准营销、定制化的产品、产品的市场定位分析等等。

比如制造生产行业,我们涉及更多的数据可能是产品本身、我们的生产流程、供应商等。因为我们可以围绕这些数据比如做我们的生产质量检查、降低生产成本、工艺流程再造等。

只有了解我们目前自身的数据资源,才能知道我们还缺少哪些数据资源。而这些缺少的数据资源从哪里来,如何获得,就是我们在规划大数据项目的时候是需要解决的。如果缺乏这种意识,等在规划和上大数据项目的时候你的大数据资源非常有限的。

2. 增加数据触点、尽可能多的去收集数据,增加数据收集和采集渠道。大数据的建设和大数据分析它是一个迭代的过程,很多的分析场景都是在不断的探索中找出来的,它有一定的不确定性。正是因为这种不确定性所以才需要我们尽可能收集更多的数据。

现在是移动互联网时代,人人都是数据的生产者和制造者。比如每天的社交数据、互联网点击网络的数据、刷卡消费的数据、电信运营、互联网运营数据。像我们的制造和生产行业,有自动化的传感器、生产流水线、自动设施的数据等。有些数据放在以前可能不值钱,但是现在看呢?这些数据现在或者在将来的某一天就会变得很有价值。

比如像我最开始提到的那家美国医疗保险公司,我看过他们的 COBOL 代码注释都有是七几年、八几年前的。他们积累了几十年的数据,突然在 2010 年前后开始意识到数据的价值了,开始通过数据进行一些变现了。之前知道这些数据的价值吗?不知道,但是尝试到数据的甜头,比如做自己的数据分析,咨询机构购买一些脱敏的数据,或者给咨询机构提供数据做市场研究用途。

所以大数据的构建不会是一天两天的,这个过程会持续很长的时间,我们需要为将来做准备。所以如果你的公司连个最简单的业务系统,IT 应用系统都没有,数据连存放的地方都没有,怎么能够上大数据呢?不合理。

数据越多,数据种类越丰富,我们观察数据的角度维度就越丰富,我们利用大数据从中就能够发掘出以前更多没有看到的东西。

3. 数据开放和共享思维。这一点在我们国内其实说起来很容易,但是实际上很难。

去年的时候我去看了一个市公安局的大数据项目,他们有两点意识非常好:

1)非常清楚的知道自己拥有哪些数据资源。比如市公安局以及下属分局、各个支队各个应用系统的数据:基础的人口管理、信访、犯罪信息、情报。包括数据监控所涉及到的铁路、网吧、民航购票、ETC 卡口等。

2)为了纳入更多的社会化数据资源、实现全行业的数据覆盖,他们准备接入交通、服务、科技信息化、教育、社保、民政等各个行业的数据。包括他们给下面的单位下了数据的指标,每个单位或者每个民警都有这种收集数据的指标,比如哪个单位今天上传了什么样的多少数据,每个月哪个单位上传的最多,这都是很好的数据收集的意识。

但问题在哪里?问题在于很多机构比如银行受国家政策限制很多数据是没有办法共享的、还有像教育机构,我凭什么把数据给你,在行政上大家是并级的机构。

所以这个时候就需要考虑数据开放和共享的思维,在满足数据安全性的基础之上我们可以不可以考虑数据互换共享的可能。公安局有的数据一定是教育机构没有的数据,那么同样的教育机构有的数据,公安机构也不一定有。如果两者数据在某种程度上形成共享,在保证数据安全和不冲突的情况下是可以创造出更多的社会价值的。比如公安局可以提供教育机构关于各个地区犯罪率的信息,包括交通安全事故多发地等,教育机构可以针对这些信息进行学校安全升级、学校周边交通事故比较多的地方应该要进行什么样的安全教育和防护等。

那么作为我们的企业而言,我们内部的数据打通自然是没有问题,但是外部数据就比较缺乏。我们能不能考虑我们企业的上下游比如供应链、物流等合作伙伴我们之前的数据本着平等和互利的原则进行打通和共享,这里面一定会创造出很多有价值的场景。内部共享没有问题的时候,我们可不可以把思路变得更加开阔一些,让外部的数据特别是上下游合作的数据流动起来去创造更多的价值 1+1>2。

数据只有流动才会有变得有价值,大数据思维下,数据流通和共享这需要我们把思维放得更开放。

4. 通过数据生成问题,发现问题,而不仅仅是回答问题。很多人都认为我只要上了大数据就可以帮我们自动找到企业或者业务中所有存在的问题,事实上我觉得大数据做不到。

大数据不是用来回答问题的,也不是用来去下结论的,大数据是基于海量数据用来洞察、预测和发现问题的,发现问题之后是需要我们的分析人员去进行分析得出结论,之后再去优化我们的产品、流程,然后再分析再预测和再验证的一个过程。

比如 Google Flu Trends Google 流感趋势分析 GFT,2008年11月 Google 启动的 GFT 项目,目前是预测美国疾控中心 CDC 报告的流感发病率。2009 年的时候 GFT 发表的报告对用户数十亿的搜索中,差不多 45 个跟流感相关的关键词做分析,GFT 就能比 CDC 提前两周预报 2007-2008 季流感病的发病率。

背后这是套非常复杂的算法,是通过数据生成问题,发现问题的一个过程,大数据回答不了具体的真正的发病率,但是它有很高的参考性,这就是它的预测。

就像之前在美的大数据里面看到的一个案例:关于一款产品在社交网络投诉率的问题,比如丢失配件,但是通过产品检查没有这个问题。通过大数据分析可能并不能直接得出到底是哪一个环节出现了问题,它回答不了。但是却可以让我们发现这个问题是存在,是需要后面我们人为去介入的。

所以我觉得正确的利用大数据的思维方式是,通过数据去发现更多的问题、数据洞察。

5. 由经验判断判断改为数据判断。之前我们有一个朋友他们是做医药行业的 BI 项目实施,他们有一个客户是一个医药连锁店,规模也不是非常的大,业务系统也不是非常的多。他们和客户去聊的时候,客户说我们不需要这些东西,太虚。为什么?每天闭着眼睛就知道哪些药是畅销药,自己一个小系统就能算出库存,季度的畅销药,没有必要去上这些 BI 系统。这说的是一个事实,一年下来数据不到几百兆内部的小数据用 EXCEL 就可以做做日常分析,这种就是经验判断。体量太小、业务单一,上 BI 都没有必要,何况大数据。

但是如果我们的业务体量上去了,比如大的电商平台,或者像上面提到的美的这样生产制造行业,全国又有庞大的终端销售门店包括各种电商平台,这个时候光靠经验能够判断出来市场上到底哪些是畅销产品,产品有什么问题,用户反馈吗?判断不出来。所以这个时候就需要靠数据驱动,由以往的经验判断变为数据驱动、数据判断。

所以总结起来,数据驱动的思维方式就是:了解和掌握我们已有的数据资源、寻找我们没有的新的数据资源、尽可能多的收集与我们行业、业务、上下游相关的数据资源、数据开放和数据流通、通过数据发现问题定位问题、由以往的经验判断过渡到数据驱动数据判断。

以业务为核心,业务场景化的思维方式

首先需要大家能够清晰认识到的是:大数据在不同的行业中不具备可复制性,大数据是一个高度个性化与行业深度结合的技术加业务的综合体。如果我们在外面碰到有大数据公司说我什么行业都能做,这基本上就是忽悠。目前大数据做的比较深的行业主要还是集中在互联网、电商、金融、银行这些领域。包括我在美的大数据那篇文章中提到的美云智数主要还是聚焦在生产制造、泛电商行业,这种大数据才是靠谱的。


有很多朋友说,我们企业数据有很多、业务我们也非常熟悉,要上大数据怎么做?我实话实说,就这么问我也不知道。原因非常简单,我不熟悉这个行业、我不熟悉你们的业务也不熟悉你们的数据。

在以前有一个朋友公司要上大数据,找了一个大数据项目实施公司,但是过去一聊,聊的全是大数据架构应该怎么搭建、技术怎么选型怎么开发,采购什么样的产品。但是很显然,这家大数据实施公司弄错了方向。这家企业目前要的不是大数据技术选型,也不是大数据技术架构应该怎么去搭,它要的是大数据的一个顶层设计,需要的是一个个具体的业务场景,我们的大数据在这些业务场景里面能够解决哪些具体的问题。只有这些问题弄清楚了之后,再才是数据调研和技术架构选型到最终的实施。

业务场景化

那么什么叫业务场景化? 举一个例子,比如我们天善智能在北京专门租了一个场地定名叫 xTechDay,4月份就会启动。

这个 xTechDay 专门用来主办大数据、人工智能、云计算相关的活动,主要是周末。周一到周五怎么办? 就要租出去解决一个空置率的问题,那么就要考虑到如何定价的问题,这个实际上就是一个业务场景。

我们到各种场地出租的网站,包括各种发布这种线下活动的网站去爬数据,看看在北京每天有哪些是和我们相关的活动,活动地点分布在哪个城区,各种场地大小、现场可以容纳的人数、活动密度,基本上就可以看出来每个月每周这种活动的密度和各个场地的租金。我们再去比较我们的场地和这些场地的优点缺点,比如最后得出的结论就是我们的活动场地在 80-150 人之间,在北京的东边地段,我们的场地日租金定在 4000元左右有很大的优势。

当然我们也没有打算靠场地能赚什么钱,只是希望拥有一个自己的高质量的活动场地,想做活动的时候就可以随时做。

会有人问,这个业务场景跟大数据没有关系啊,一般的分析就可以做。没错,因为这个不需要大数据,就是一个小数据分析的业务场景。

那么我们把它拉大一些,比如在电商平台新推出了一个畅销品,我们需要 24 小时监控这个产品上线之后大家的反馈。这个时候小数据做的了吗?很显然做不了,这个业务场景需要对各种海量数据进行实时的快速处理与分析,这个就是大数据下的业务场景—— 海量、实时、快速、价值。

前面做了一些铺垫,让大家理解了什么是业务场景化,接着我们再来看大数据业务场景化的思维方式包括哪些?


1. 懂行业、深挖业务,业务边界要先聚焦再扩散。每一个行业都各不相同,即使是同一个行业不同的企业对于自身业务、IT 应用流程构建的深度和广度也都不同。但是有一点是需要我们特别注意的是,不管是大数据还是小数据,做好数据平台的前提就是懂自身的行业、懂自身的业务。离开业务谈数据平台的建设,特别是大数据平台的建设基本上就是一个空中楼阁。

我有朋友公司说 Simon 你过来帮我们规划一下我们的大数据要怎么搞,我说我做不了,因为我不懂这个行业。我可以帮你们梳理和看看整体的方向,我有我自己的一套方法,但前提是我需要花时间去深入了解你们的业务,做到业务真正弄清楚了才会有下一步的规划。所以,没有业务的指引,大数据的建设就失去了方向。

另外,大数据的建设要阶段性的出成果,不是一上来所有的业务就需要全面打通。首先聚焦的应该是核心业务,企业业务核心重点在哪里?比如生产制造行业业务流程重点在生产、电商平台的核心业务重点在交易。

先把最有价值的业务场景梳理清楚,在逐步扩散到其它的重点业务流程。

2. 通过业务找数据、通过问题找数据。有很多企业在规划大数据业务场景的时候会有这样的困惑,企业已经有了很多需要分析的业务场景了,但是缺少数据资源。比如像银行信用理财机构想做用户画像、做精准营销,这是一个很好的业务场景,但是每个银行只具备自己的用户开户资源,而这些用户在自己银行的标签属性价值很低。这个时候就需要借助第三方的数据资源来完成这个业务场景,这就是通过业务找数据、通过问题找数据。

比如,像电信运营商掌握着大家移动上网的信息,你近期有没有看过金融、理财相关的文章。比如,像大家上网的手机 APP,你看过哪些新闻和金融、理财相关的内容。这些相关的数据都会通过一些渠道拿到,银行理财的精准推荐就会通过各种方式推到你面前,国内有一些大数据公司就在做这些事情。

民生银行如何去判断高价值的用户 – 开豪车、住豪宅、用好手机号码、出入高档消费场所最终从几十万的潜在客户群体中挖掘出了几千位高价值用户,然后再去做精准营销。最后的效果是节约了 90% 的营销费用,同时这项营销给一个分行带来了高达 X 个多亿的金融资产提升。那么这里面就涉及到了 4S店的消费数据、全国小区和物业收费信息、联通移动电信运营商的数据、刷卡消费记录等等。

像美的大数据也会借助各种电商平台和社交资源,抓取用户对产品的评价反馈等做了很多的事情。

所以业务场景化,需要具备通过业务发现缺失的数据资源,同时也需要掌握这种找数据的能力。有自己通过技术手段解决的,也有通过与第三方公司合作完成的。

3. 通过数据找问题、通过数据找业务。比如还是民生银行的阿拉丁项目,一个分行的运营人员就是通过大数据平台上的数据花了半天时间发现了一个 ATM 机选址和优化的问题。通过对 ATM 机的交易活跃度、交易类型分析,比如查询交易、转账交易、取款交易分析,最后发现 ATM 机的布局不合理,有很多能存能取的 ATM 机利用率并不高。最后通过 ATM 选址优化、ATM 最优资源优化,一年为一个分行节省了几百万人民币。

这个分析是一个非常偶然的发现,通过数据偶然找到了以可以对运营业务优化的方式,这个发现后面就可以推广到更多的分行,一年可以节约的成本可想而知。

4. 丰富和创造各种业务场景。比如像我上面提到的民生银行阿拉丁项目还有像美的大数据项目,各种业务分析场景和案例至少是几百个。业务场景的丰富程度决定大数据利用价值的深度和广度,但凡是成功的大数据项目它的业务场景都是非常丰富的。我们也对照一下我们自身的大数据项目建设,这种已有的和被创造出来的业务场景有多少个,如果一双手就能够数出来,很明显是不够的,大数据的价值没有被充分的发挥出来。

所以在大数据项目的规划和落地的过程中,我们首先要去想想我们的业务场景有哪些?有哪些业务场景可以被创造出来,有哪些业务场景是我们之前一直想做但由于条件限制没有办法做的。如果是因为数据资源的问题,我认为是可以解决的,需要分清楚哪些数据资源是我们内部可以解决的,哪些数据资源是需要通过外部合作创造的,有哪些数据资源是我们现在没有但是通过增加自身数据获取的渠道来丰富的。

比如像生产行业,我们想在流程监控、品质监控上去创造一些业务场景,那么就要去想一想我们的数据够不够,我们各个环节的数据存储是否到位。所以,业务场景的丰富程度取决于数据的积累程度,数据的积累程度不够,就需要首先解决数据的问题。

站的高才能看得远,业务场景多了,就会有场景交叉,数据的关联性也上去了,数据的价值才会充分的被利用。

5. 关注新技术、新资源、新渠道。我们以前是 PC 互联网时代,现在已经进入到移动互联网时代,但是不久的将来我们将进入到物联网时代。我们的企业高层还有大数据建设团队需要去关注新的技术、新的资源和渠道,特别是对我们的行业有变革性影响的技术和资源。

新的技术和资源渠道会影响甚至变革我们自身的业务,也可能带来新的业务模式,我们需要不断的关注这些新的业务模式带来的新的业务场景。新的业务场景也可能需要新的数据资源、数据渠道,保持对行业对新技术的好奇心,丰富我们考虑问题的思维场景这一点也是非常有必要的。

6. 专业的业务分析人员培养,专业咨询和规划人才可遇而不可求。虽然我们在这里讲的是大数据思维方式,那么思维方式表示的是一种看问题和解决问题的角度。大数据思维方式不仅仅限定在数据和业务场景化本身,也需要考虑人的因素。

我碰到过一些公司在搭建不管是BI还是大数据分析平台的时候,经常听到 IT 部门说 “我们的业务人员不懂怎么提出需求”,“我们的业务人员有数据不知道怎么用”。同样的业务部门的反馈是:“我们的技术人员不懂业务,讲一遍讲两遍也听不懂”。这说明一个问题:我们企业内部的人才培养是有缺陷的,IT 人员只懂技术只懂架构不懂业务,我们的业务人员对数据缺乏好奇心、缺乏基本的数据意识。

所以站在一定的高度上来看,不管是数据的创造、业务场景化的创造,本质都是需要人来驱动的。如果我们在规划和建设大数据平台的时候,忽略了懂业务懂分析专业人才的培养,这样的大数据平台是不会创造持久的价值的。

专业的分析、技术、咨询和规划人才可遇而不可求,很多异想天开、脑洞大开的大数据场景化的想法都是靠人来想出来的,都是对数据有很强的嗅觉、有很强的数据意识这批人给创造出来的。

比如像上面提到的有关民生银行 ATM 机的案例就是靠一个运营人员拿着数据花了一下午时间给分析出来的,这种业务场景被验证了,一个分行一年节省了几百万人民币,这种业务价值想想有多大。

美的大数据也是一样的,企业高层高屋建瓴,下面的大数据技术人员深入业务,企业 IT Inside 意识这些都是企业对人才的高投入,对应也就是高回报。

大数据价值

前面讲到的这么多内容都是有关大数据思维,提到了数据驱动和业务场景,在整个的分享过程中我们已经看到了大数据的价值所在。

我和很多朋友经常在聊到传统行业大数据项目案例的时候,就推荐看两个大数据案例,一个就是民生银行阿拉丁大数据项目,另外一个就是美的大数据。为什么? 因为我们去判断一个大数据项目建设是否成功是否落地的一个最核心的标准就是:大数据有没有实现业务价值!

文章链接:

深入解读民生银行阿拉丁大数据生态圈如何养成

大数据如何聚焦业务价值 | 世界500强美的大数据建设的启发

什么是业务价值?以业务驱动、数据驱动真正形成业务上的决策指导,让企业的业务决策、经营决策、生产决策、市场打法能够真正的落地,并产生实际看得见摸得着的实实在在的价值:比如利润的提升、市场产品的份额增长、经营成本的降低、发现新的商业模式等等。利润、份额、成本这些都是企业最为关注的地方,如果大数据实现不了,就不叫落地。

大数据思维与价值

最后我们来总结一下大数据思维的核心是什么?就是拼数据,拼业务场景,谁的数据多,数据辐射面广,就具备大数据时代数据探索的价值。谁创造的业务场景多,数据的价值就可以最大化的发挥作用,就可以改变或者推进提升业务的形态。

那么大数据价值是什么?就是大数据的实现最终一定要落地于业务场景,为业务创造价值!

本文作者天善智能联合创始人&运营总监吕品


CIO之家 www.ciozj.com 公众号:imciow
关联的文档
也许您喜欢