大数据的十大谬见
记者 网络收集

1. 只有数据科学家才能处理大数据

事实上,在处理大数据时,光靠数据科学家是远远不够的。

“如果你不能首先确定到底需要什么样的信息的话,那么单凭数据科学家自己是不可能成功地从大数据中提取有用信息的”,宾夕法尼亚大学医院(Penn Medicine)数据分析部门高级主管Pat Farrell说:“你还需要熟悉业界动态、掌握相关领域知识的人才,他们知道问题的所在,也了解什么样的解决方案对于你所从事的领域最有价值。”

例如,在宾夕法尼亚大学医院有两个系统,一个是医疗系统,一个是医学院系统。长期以来,医疗系统通常从一个数据仓库中收集临床医疗数据。与此同时,在医学院系统中,出现了一个新的技术,可以实现对人类基金组的排序,并产生了大量的数据。

Farrell说:“我们知道这些数据一定存在着某些价值,而我们最终也有了能够获取这些价值的计算能力。我们将专业的医疗知识与数据分析技术相结合,为预测医疗开拓了一片新的、更广阔的领域。”

2. 数据越大,价值越大

收集数据,并把它储存起来再登记入册,这会花费许多时间、占用很多资源。如果企业或机构在收集数据时不加选择、任意地收集大量数据,那么很可能会造成大量的资源浪费,而这些资源完全可以用到更有价值的项目上去。

Farrell建议企业在收集数据之前一定要有一个具体的目标,或关键性能指标,要明确自己需要什么样的数据,再去有目的地收集数据。

Farrell说:“你需要从你收集的数据中提取有价值的信息,但这并不代表你收集的数据越多,你所获得的价值越大。”

3. 大数据用于大企业

大企业或许会有更多的内部数据来源,他们可以利用这些数据获取对自身企业发展有价值的东西。但这并不代表大数据只用于大企业,小企业也能够收集来自社交媒体平台、政府机构和数据供应商的数据,并从这些数据中提取有利信息。

戴尔软件信息管理解决方案部门的产品管理高级总监Darin Bartik说:“对于企业来说,不管它的规模有多大,利用数据分析制定的决策总比单纯依靠直觉或第六感制定的决策要好得多,且更加可靠。”

小企业虽然不像大企业那样经常利用数据分析来制定决策,但是当这些小企业真正这样做的时候,它们会使公司走向快速、正确的发展轨道。

Darin Bartik说:“小企业可以利用其最佳实践,进一步推动数据分析决策在企业中的发展,以此赶超或者胜过那些强大的竞争对手。”

4. 收集数据后不及时整理分类

位于美国旧金山的云计算商业智能供应商Birst的首席执行官Brad Peters表示,虽然数据存储的成本越来越低,但它并不是免费的。然而,对于许多大公司来说,它们对于数据欲望的增长速度要比数据存储成本降低的速度快得多。

许多企业往往在收集完数据之后,并不迅速处理这些数据,造成数据存储成本增加。Brad Peters说:“我发现很多大的企业或机构收集了一大堆数据之后却不及时处理这些数据,导致他们在这些数据上的开支逐渐增大,而他们也并没有从这些数据中获取任何价值。”

事实上,企业中的一些数据集已经开始造成了企业的收益递减。这种现象就像通过分析选民数据信息来预测选举结果一样,在预测过程中,你需要一定数量的选民作为样本,但是如果样本数量超过一个临界点之后,无论增加多少选民,对于预测结果不会有任何太大的影响。也就是说,样本数量过多,所花费的成本也就越多,但对于目标没有任何实质性的价值。

“数据冗余的话,企业支出的不仅仅是存储成本,还会面临许多其他的问题”, Recommind公司信息治理和大数据管理全球主管Dean Gonsowski说。比如,如果数据泄露的话,那么公司也会承担相应的损失。Recommind是一家位于美国旧金山的专注于非结构化数据分析的公司。

最终,数据越多,那么分类整理数据所需要的时间也就越多。Dean Gonsowski说:“当数据仓库的规模达到数十亿条记录时,那么光是检索数据就需要花上几个小时,甚至是几个星期。这时候,这些信息非但不会给企业带来商业价值,反而会阻碍企业系统的运转,因为这些系统根本不能处理这么大信息量。”

5. 所有数据都是一样的

美国佛吉尼亚州曾收集过在过去20年里学生的注册信息、奖学金,以及学位授予情况的数据,但这并不意味着20年前收集的与之存储在同一个数据域里的数据就一定是相同的数据。

佛吉尼亚州高等教育委员会的政策研究和数据仓库部门的主管Tod Massa说:“由于数据都存储在一个数据仓库里,这导致研究人员认为这些数据都是等同的,而这正是我需要处理的一个最大的问题。我们收集的ACT(American College Test,美国大学入学考试)和SAT(Scholastic Assessment Test,学术能力评估测试)的学生成绩,最初我们收集的只是整个佛吉尼亚州的学生成绩,但这导致我们的调查研究出现一个缺口,所以后来我们不仅收集了佛吉尼亚州的数据,还收集了其他州学生的数据。而且,不同种族在K-12级和高等教育的数据也不同。”

事实上,任何特定的数据,如果由不同的组织机构,或在不同的时间内,或由不同的人发布的话,也有所不同。Tod Massa说:“假如收集数据的这家公司或机构是完全孤立或与世隔绝的,那么情况可能会不一样。但我认为,随着时间的推移,它们收集的数据也会有所变化。”

因此,数据分析人员不仅要有数据统计的技能,还要掌握一定的数据知识,并清楚地了解相关行业内的动向和整体发展趋势。

这一点也同样适用于从外部数据源收集的数据,过去的那种数据收集和分析的方式已经完全改变了。能够了解不同的数据文化背景和数据环境,对于充分利用这些数据是非常必要的。

6. 数据预测越具体越好

我们通常认为,如果一件事情越具体,那么它就会越精确,比如,“下午三点十二分”就比“下午某个时候”更加精确;气象学家预测“周日早上会有降雨”就比“这周末50%会下雨”的预测要精确得多。

但是事实上,结果正好相反。大多数情况下,预测得越具体其准确率反而并不高。

例如,一个顾客买了一台具有特殊配置的电脑,而另一个购买了同样一款电脑的顾客又购买了一双亮粉色的高跟鞋。“在这一数据信息中,购买亮粉色高跟鞋的信息显得有些太过具体甚至有些多余,这可能会影响数据分析的过程,给数据分析结果造成一定的误差”,美国加利福尼亚圣塔莫尼卡的营销公司Retention Science的首席执行官Jerry Jao说。

Jerry Jao表示,这通常是业务和营销经理常会出现的问题。

7. 大数据等同于Hadoop

Hadoop是业界比较流行的非结构化数据的开源架构,近来也引起了不少业界的关注。但是Hadoop并不是大数据的唯一解决方案,企业还有许多其他的选择。

SAP大数据总经理和资深副总裁Irfan Khan 指出企业还可以选择NoSQL、MongoDB、Cassandra或其他相关技术来处理大数据。

这些技术中的某些技术对于处理一些特殊的大数据问题非常有效。尤其是Hadoop,它可以把数据分成若干个数据组,并能同时处理多个数据组。Hadoop解决方案可以用来处理许多大数据相关的问题,但并不是所有大数据的问题它都能处理。

位于美国加州雷德伍德城的大数据咨询公司LucidWorks 的首席技术官Grant Ingersoll 说:“YARN(Hadoop新版中的资源控制框架)和Hadoop2可以处理大数据的一些问题,但在大数据的其他问题上,Hadoop或许并不是最佳的解决方案。在处理大数据之前,企业应该认真分析问题,并根据自身的实际情况选出一个最佳的、最合适的解决方案,而不是盲目跟风,选择那些使用率较高的解决方案。

8. 最终用户不需要直接访问大数据

随着企业从各种各样的来源快速收集大量的数据信息,对于企业的普通员工而言,这些数据处理器起来非常复杂,但事实并非如此。

例如,在重症病房中,医疗设备上会产生大量的数据,如心跳速度、呼吸数据和心电图读数等,但大多情况下,医生和护士只能看到病人当前的数据,却看不到历史数据。

飞利浦医疗保健(Philips Healthcare)病患护理和临床信息(PCCI)系统的首席营销官Anthony Jones :“我根本看不到10分钟之前医疗器械上显示的病人的数据,更不可能画出这些数据在一个小时内的趋势曲线图。”

但是,对于医生来说,病人的历史数据是非常有价值的,他们可以根据这一数据制定更好的护理方案。

Anthony Jones表示,如今,我们需要让所有能够生成数据的医疗设备进行交互(尽管这些设备最初并没有这样的性能),并使用不同的平台、操作系统和程序语言。一旦我们这样做了,那么医护人员就能够获得他们所需要的有用的数据。

9. 大数据用来解决大问题

一家大型银行的首席信息官近期发表其对大数据的看法,同时也谈到了终端用户自主服务的问题。据Birst公司首席执行官Peters回忆说,这位银行的首席信息官并不支持最终用户自助服务。

Peters表示,许多企业的主管们认为大数据只能解决一些特殊类型的大问题。他说:“一些人使用大数据的目的是利用一个核心的数据科学家团队帮助他们解决少数且高价值的问题。他们从没有考虑过让普通人接触这些数据信息,因为他们觉得这些人根本不需要这些数据。”

对此,Peters并不赞同这种想法,但这种想法在很多行业里非常普遍。Peters说:“一些大的保险公司普遍陷入一个误区,它们认为他们的最终客户不具备处理自助服务的能力。”

10. 大数据的泡沫最终会破裂

媒体上对大数据的宣传和炒作反反复复、起伏跌宕,但就大数据技术本身来讲,它最终会面临变革。大数据的泡沫或许并不代表大数据的终结,就像互联网泡沫不代表互联网的终结一样。

即使有关大数据的炒作平息了下来,企业也仍然会有大数据需要处理。由于未来大数据将成指数级增长,企业要处理的大数据比他们想象的还要多。据市场调查公司IDC预测,到2020年企业所收集的数据总量每两年会翻一倍。

而且,未来企业收集的数据并不只是在数量上简单的增长,同时他们还将收集到许多新类型的数据信息,而这需要大量的数据存储空间。

Anthony Jones说:“到那时,医院可以根据病人的数据信息画出病人的基金组图,还可以为病人定制护理和治疗方案。当人们谈到大数据时,它涉及到的是巨量数据,而对于企业首席信息官们来说,处理这些数据并不是什么难事。”

“如果企业认为“大数据”只是一个阶段性的产物,那么这些企业将会彻底失去利用数据分析优化企业业务或促进业务增长的机会”,美国宾夕法尼亚州的互动营销机构Cadient Group的首席技术官Bryan Hill说。

未来,“大数据”这一术语很可能会发生变化,就像云计算出现变化一样,这实际上与Web或者互联网的变化并无太大区别。虽然“大数据”的术语可能会改变,但是大数据的实质不会改变。

CIO之家 www.ciozj.com 公众号:imciow
关联的文档
也许您喜欢