为了解大数据的运行状况,我们采访了Sumit Nijhawan。他是提供数据治理解决方案企业Infogix的首席执行官和总裁,他们对2017年数据趋势进行了前瞻性分析,以下是采访中的一些关键观点。
“几乎所有的客户都有一个大数据计划,许多项目都进行了大量的投资。但他们所取得的进步,他们从投资中获得的价值,往往无法达到预期效果。”Nijhawan一开始就这样说道。
他补充说:“我们正在与客户合作的一些事情,我们认为是可以带来变革的。主要是数据治理、数据准备、自助服务和更小的数据湖(译者注:数据湖泊是包含下面两个特征的信息系统:a.可以保存大数据的并行系统;b.能够在数据不移动的情况下进行计算的系统)部署的结合。”
问:所以你会说,从大数据中获取商业洞察的主要瓶颈是“发现公司所拥有的有价值数据,并使其可供分析”?
“是的,大部分的关注点都是提供存储环境——Hadoop,并让每个人都能将任何数据转储到其中。”这里要注意两件事情:首先,向Hadoop存储数据的目标是什么?其次,即使数据存在,但是无法管理,无法搜索,也无法挖掘,而且也没有办法使用数据去吸引消费者,来帮助企业获得价值。它非常依赖于技术,仍然需要技术人员来处理它。这并不是从这些投资中获取价值的最佳方式。”
问:这是否意味着“业务”与科技之间存在脱节——组织需要培养“数据文化”,让业务部门知道如何正确地分析数据,并产生商业洞察力?
“我们当然需要以数据驱动的企业文化。这并不是IT人员不想分享的东西。只是他们有这些工具,他们觉得自己做得很好,但他们并不知道分析数据最终的目标是什么。这就是为什么需要业务驱动了,否则很难实现任何有意义的事情。”
问:在许多组织中是否存在缺失的一环——首席数据官(CDO),谁能将业务部门连接到IT部门?
“这绝对是一个缺失的环节,但我不会说这只是一个人的问题。刚刚提到的“数据文化”指的是人、流程和技术,以及数据本身。这实际上是一个关于端到端的流程:这是如何从数据中获取所需数据的方式,也是如何处理数据的方式,更是如何交付数据的方式。这个端对端流程需要由业务负责人来发起,当然也可以是CDO。如今,首席数据官这个职位的问题在于,在许多企业中,它几乎都是一种官僚主义的立场:该CDO据称具有影响力,但最终却成为了供应商用来推销技术的人,而不是那些为了实现商业目标而在那里工作的人。”
问:当你与客户交谈时,目前哪些数据相关的技能最火?一些分析人士发现,企业对数据科学家的需求有所减弱。
“我认为需求正在减弱,但这并不是因为数据科学家的数量太多了。而是因为现有的数据科学家无法实现企业想要的价值。因此,问题就变成了:如果企业没有获得价值,那么招募更多的数据科学家有什么意义?为什么企业的运营人员、数据分析师不能更好的处理这些数据呢?
老实说,他们可以做到,因为数据科学家所解决的80%的问题都可以通过20%的算法来解决——而且这些算法都以易于使用的方式公开了,数据分析师和业务分析师可以将这些数据整合到运营和业务流程中。我认为这种情况正在发生,结果是对数据科学家的需求减少了。”
问:我们经常听到“自助式”分析,让更少的专家参与进来。你认为这个技术发展到什么程度了呢?
“我们对客户的做法是,我们首先会看到他们的数据湖项目在什么地方,然后告诉他们:也许你不需要花几个月和数百万美元来使用这些整合的开源技术。我们将为你提供一个完全自助服务的端到端设备,设备中所有东西都集成了,你所要做的就是使用这些数据来进行决策。你可以解雇你的业务人员,数据科学家,无论谁。这在市场上获得了很大的吸引力。
问:每个人都在谈论机器学习和人工智能,你认为它将会在大数据领域发挥作用吗?
“它已经存在了一段时间了,但是现在有很多关于它的新闻。就像我之前说过的那样,80%的问题可以通过20%的机器学习算法解决,比如切分、推荐、分类、回归和预测。我们关注的一个领域是大数据的质量,传统的数据质量一直都是关于精确匹配规则和重复规则等方面。现在数据量很高,人们向数据湖存储更多的数据,他们并不知道确切的规则是什么。相反,我们正在使用机器学习算法,比如切分和分类来寻找异常值。这就是机器学习已经增加了很多价值的地方——但同样的,你不需要非常成熟的数据科学家来做这件事。”
问:最后,你是否认为,随着自助工具的出现以及非专家、甚至“公民数据科学家”的参与,大数据领域正在进行民主化?
“我认为这是会发生的。这是对‘大数据’的投资能够持续、价值实现的唯一方式——没有其他选择。在IT和供应商领域,有足够多的人来推动这个问题,并找到能够实现这一目标的方法,可能还有三到五年的时间。在这期间,人们可能不会过多谈论“大数据”。相反,他们会谈论以自助服务方式交付的大数据的分析结果。”