企业在推行大数据项目时往往把项目规模和范围做得很大,但是事实却是,很多大数据项目通常都会失败。2016年,Gartner估算约60%的大数据项目都会失败。一年后,Gartner分析师Nick Heudecker表示,这个数据“过于保守”,大数据项目失败率应接近85%。直至现在他也是这样认为的。
并不只有Gartner这样认为。前微软高管Bob Muglia告诉分析网站Datanami,“我找不到完全满意的Hadoop客户。实际上,成功应用Hadoop的客户数量可能少于20个,甚至可能少于10个。考虑到其存在时间以及行业投入,这个结果很令人震惊。
熟悉大数据的人都知道,这个问题是真实且严重的,而不完全是技术问题。事实上,相对于本质原因,技术是失败的次要原因。以下是大数据项目失败的四个主要原因,以及可以成功的四种方式。
大数据问题1:整合不佳
Heudecker表示,大数据失败背后存在着一个重要的技术问题,那就是整合多个来源的孤立数据,以实现企业所需的数据处理能力。建立与孤立传统系统的连接并不容易。他说,整合成本是软件成本的五到十倍。其中最大的问题是简单集成:如何将多个数据源链接在一起?很多人选择数据湖路线,认为这个方式很简单,但事实并非如此。
孤立数据是问题的一部分。客户告诉他,当他们将数据从系统提取到像数据湖这样的公共环境中后,却无法弄清楚这些值的含义。“当你将数据输入数据湖时,怎么知道数字3意味着什么?”Heudecker问道。
普华永道(PwC)高级研究员Alan Morrison表示:“由于是在孤岛中工作,或者创建的数据湖只是数据沼泽,所以他们能完成的工作只是冰山一角。”“他们不理解数据中的关系,这些关系需要挖掘或推断,以便机器能够充分解释这些数据。另外,他们需要创建一个知识图层,以便机器能够解释下面映射的所有实例数据。否则,数据湖只能是一个数据沼泽,”
大数据问题2:不明确的目标
大多数人以为企业在进行大数据项目时会有明确的目标,但实际并不是这样的。很多公司通常是先启动项目,然后才去想目标。
数据集成软件公司Talend的产品营销经理Ray Christopher表示,“你必须认真审视这个问题。人们认为他们可以将结构化和非结构化数据连接起来,从而获得所需的信息。然而这必须提前确定目标,你想要什么样的信息?”
企业应用咨询公司的首席分析师Joshua Greenbaum表示,困扰大数据和数据仓库项目的部分原因是指导标准通常是大量数据的积累,而不是解决业务问题。
Greenbaum说,“如果将大量数据汇总在一起,就会得到数据转储,可以称之为卫生垃圾填埋场。这不是寻找解决方案的好方法。我一般建议客户先决定需要优先解决哪些业务问题,然后查看可用数据的质量,并在发现业务问题后解决数据问题。”
为什么大多大数据项目都失败了?对于初学者来说,大数据项目领导者都缺乏远见。Morrison这样认为。大多数企业只考虑数值数据或黑盒子NLP和识别引擎,并进行简单的文本挖掘和其他类型的模式识别。
大数据问题3:技能差距
很多时候,公司认为他们为数据仓库建立的内部技能将转化为大数据,而事实并非如此。 对于初学者来说,数据仓库和大数据以完全相反的方式处理数据:数据仓库在写入时执行模式,这意味着数据在进入数据仓库之前就会被处理和组织。
在大数据中,积累数据并应用读取模式,数据在读取时进行处理。因此,如果数据处理从一种方法转向另一种方法,技能和工具应该也是如此。
“技能永远是一个挑战。如果我们30年后谈论大数据,仍然会面临挑战。“很多人都依赖Hadoop。但Spark更好一些,因为栈更小也更容易训练。”
大数据问题4:技术代沟
大数据项目经常从旧的数据竖井中提取数据,并试图将它们与新的数据源(如传感器、网络流量或社交媒体)合并。这并不完全是企业的错,企业在大数据分析出现之前就收集了这些数据,但无论如何,这也是一个问题。
Greenbaum认为,企业缺少的最大技能是如何融合这两个数据源,让他们共同解决复杂问题。数据孤岛可能成为大数据项目的障碍,因为它没有任何标准。因此,当企业开始规划时,发现这些系统尚未以任何方式实施,所以这些数据将被重复使用。
Talend的Christopher认为,对于不同的架构需要以不同的方式进行处理。技术技能和架构差异是无法将当前工具用于本地数据仓库并将其与大数据项目集成的主要原因。因为这些技术处理新数据的成本太高。所以需要Hadoop和Spark等新的语言。
解决方案1:提前规划
虽然是陈词滥调,但适用于大数据项目。成功的公司必然是有结果的公司,选择一些小而可实现的新东西进行规划和实现。
Morrison说:“他们需要首先考虑数据,并以机器可读的方式为企业建模,以便数据服务于该企业。”
解决方案2:共同努力
股东往往被排除在大数据项目之外 。Heudecker说,如果所有股东合作,他们可以克服许多障碍。加上技术人员共同努力,并与业务部门合作以提供可行的结果,这可能有所帮助。
Heudecker指出,在大数据方面取得成功的公司大量投资于必需的技能。他认为这是数据驱动型公司普遍认可的,如金融服务公司、优步、Lyft和Netflix。公司的财富基于拥有可靠、可操作的数据。
Christopher认为,应该让大数据项目成为一项团队运动,所有人都帮助策划和收集数据并处理它,提高数据的完整性。
解决方案3:缩小焦点
人们似乎有一种心态,即大数据项目需要非常大的动作。但就像你第一次学习任何东西一样,成功的最好方法是从小到小,然后逐渐扩大。
“他们应该仔细定义他们在做什么,”Heudecker说,“应该选择一个问题域并研究解决它,例如欺诈检测、细分客户,或者弄清楚千禧一代市场中推出的新产品。”
Christopher说:“说到底,你必须问问自己想要什么,或者想要数字化的业务流程。不只是把技术扔到商业问题上,你必须预先定义它。数据湖是必要的,但如果数据湖不会被任何商业人士使用,你就不会想要收集数据。”
在很多情况下,这也意味着不要让自己的公司过度膨胀。 Morrison表示,在他研究过的每一家公司中,只有几百个关键概念和关系是整个企业赖以运作的。一旦你理解了这一点,你就会意识到,所有这些数以百万计的差别只是那几百件重要事情的微小变化。事实上,你会发现许多细微的变化根本不是变化。它们其实本质上是一样的东西,虽然有不同的名字、不同的结构、不同的标签。
解决方案4:抛弃传统
虽然您可能希望使用收集并存储在数据仓库中的那些TB级数据,但事实上您可能更好地服务于为大数据设计的存储系统中新收集的数据,并且设计为未经过处理的数据。
要避免因为企业拥有一项基础设施的许可证而只对现有的基础设施感兴趣。通常,新的复杂问题可能需要新的复杂解决方案。使用企业以往的就工具并不是正确做法,甚至有可能导致大数据项目失败。
Morrison认为,企业应该停止故步自封。他还表示,企业不能再一味依赖供应商为他们解决复杂的系统问题。“几十年来,许多人似乎都认为任何大数据问题都是系统性问题。但当面对复杂的系统变化时,企业必须建立自己的解决方案。
CIO之家 www.ciozj.com 公众号:imciow