数据的核心不是“大”,也不是“数据”,而是蕴含在其中的商业价值。作为挖掘数据背后潜在价值的重要手段,商业智能和分析平台成为大数据部署中的关键环节。然而,获取价值的难点并不在于数据分析应用的部署,而在于专业数据分析人才的缺乏。市场研究机构IDC甚至认为,数据分析人才的欠缺可能会成为影响大数据市场发展的重要因素。
“让每个人都成为数据分析师”是大数据时代赋予的要求,数据可视化的出现恰恰从侧面缓解了专业数据分析人才的缺乏。Tableau、Qlik、Microsoft、SAS、IBM等IT厂商纷纷加入数据可视化的阵营,在降低数据分析门槛的同时,为分析结果提供更炫的展现方式。为了进一步让大家了解如何选择适合的数据可视化产品,本文将围绕这一话题展开,希望能对正在选型中的企业有所帮助。
一、数据可视化概述
数据可视化是技术与艺术的完美结合,它借助图形化的手段,清晰有效地传达与沟通信息。一方面,数据赋予可视化以意义;另一方面,可视化增加数据的灵性,两者相辅相成,帮助企业从信息中提取知识、从知识中收获价值。
维基百科对数据可视化的定义较为权威,它认为数据可视化是技术上较为高级的技术方法,而这些技术方法允许利用图形、图像处理、计算机视觉以及用户界面,通过表达、建模以及对立体、表面、属性以及动画的显示,对数据加以可视化解释。
1.发展历史
数据可视化的历史可以追溯到二十世纪50年代计算机图形学的早期,人们利用计算机创建出了首批图形图表。到了1987年,一篇题为《Visualization in Scientific Computing(科学计算之中的可视化,即‘科学可视化’)》的报告成为数据可视化领域发展的里程碑,它强调了新的基于计算机的可视化技术方法的必要性。
随着人类采集数据种类和数量的增长,以及计算机运算能力的提升,高级的计算机图形学技术与方法越来越多的应用于处理和可视化这些规模庞大的数据集。二十世纪90年代初期,“信息可视化”成为新的研究领域,旨在为许多应用领域之中对于抽象的异质性数据集的分析工作提供支持。
当前,数据可视化是一个既包含科学可视化,又包含信息可视化的新概念。它是可视化技术在非空间数据上新的应用,使人们不再局限于通过关系数据表来观察和分析数据信息,还能以更直观的方式看到数据及数据之间的结构关系。
2.市场调查
在2014年3月进行了一项有关数据可视化的调查,从中可以看出,当前已经部署数据可视化的企业仅为15%,但有56%的企业计划1-2年内部署相关应用。从企业部署可视化的目的来看,排在前三位的分别为:通过可视化发现数据的内在价值(36%)、满足高层领导的决策需要(30%)和满足业务人员的分析需要(25%),仅有9%的企业选择需要更美观的展现效果。
▲数据可视化知名度、流行度和领导者调查
在针对Tableau、Qlik、Tibco software、SAS、Microsoft、SAP、IBM和Oracle八家数据可视化产品和服务提供商的调查中,笔者分别从知名度、流行度和领导者三个角度进行分析。从知名度来看,八家厂商几乎不分先后,只有微小的差距;从流行度来看,SAP、IBM和SAS占据前三位,所在比例分别为19%、18%和17%;从领导者来看,Tableau以40%的优势遥遥领先,这与2014年Gartner的魔力象限排名也非常吻合。
3.技术趋势
数据可视化的思想是将数据库中每一个数据项作为单个图元元素,通过抽取的数据集构成数据图像,同时将数据的各个属性值加以组合,并以多维数据的形式通过图表、三维等方式用以展现数据之间的关联信息,使用户能从不同的维度以及不同的组合对数据库中的数据进行观察,从而对数据进行更深入的分析和挖掘。
传统的数据可视化工具仅仅将数据加以组合,通过不同的展现方式提供给用户,用于发现数据之间的关联信息。近年来,随着云和大数据时代的来临,数据可视化产品已经不再满足于使用传统的数据可视化工具来对数据仓库中的数据抽取、归纳并简单的展现。新型的数据可视化产品必须满足互联网爆发的大数据需求,必须快速的收集、筛选、分析、归纳、展现决策者所需要的信息,并根据新增的数据进行实时更新。因此,在大数据时代,数据可视化工具必须具有以下特性:
(1)实时性:数据可视化工具必须适应大数据时代数据量的爆炸式增长需求,必须快速的收集分析数据、并对数据信息进行实时更新;
(2)简单操作:数据可视化工具满足快速开发、易于操作的特性,能满足互联网时代信息多变的特点;
(3)更丰富的展现:数据可视化工具需具有更丰富的展现方式,能充分满足数据展现的多维度要求;
(4)多种数据集成支持方式:数据的来源不仅仅局限于数据库,数据可视化工具将支持团队协作数据、数据仓库、文本等多种方式,并能够通过互联网进行展现。
4.专家观点
中国传媒大学新闻学院沈浩教授:随着非结构和半结构化数据的增长,数据可视化的发展需要迎合多类型的数据,词云、泡泡图、热图等形式的出现更加贴合新的数据类型。另外,在展现形式上,数据可视化工具还应该满足直接发布到云端、移动端的需求。
阿里巴巴数据平台事业部资深开发工程师宁朗:数据可视化是大数据和大智慧之间的桥梁,大数据将数据变为设计师,每个人都可以利用。
Splunk中国区高级售前工程师崔玥:数据可视化重新定义了数据分析,如同Windows重新定义了操作系统,它将数据从晦涩的代码中脱离出来,通过简单的图形界面和大众更易接受的方式,提供一个展现、监控数据的平台,让数据分析工作更简单。
QlikView南北亚区售前经理张子斌:数据可视化利用人类发现复杂数据中的异常、模式、趋势甚至相关性的天然能力,这是我们无法用数据的行和列做到的。好的数据可视化伴随有内存中的关联技术、移动和社交商业探索能力,能让使用者自由、高效地挖掘数据以找出重要规律并做出时间关键的决策。
二、主流数据可视化工具介绍
企业获取数据可视化功能主要通过编程和非编程两类工具实现。主流编程工具包括以下三种类型:从艺术的角度创作的数据可视化,比较典型的工具是Processing.js,它是为艺术家提供的编程语言。从统计和数据处理的角度,R语言是一款典型的工具,它本身既可以做数据分析,又可以做图形处理。介于两者之间的工具,既要兼顾数据处理,又要兼顾展现效果,D3.js是一个不错的选择。像D3.js这种基于Javascript的数据可视化工具更适合在互联网上互动的展示数据。
除此之外,笔者还将盘点如下五款商业化的数据可视化工具,它们的共同特点是技术门槛低、便捷易用,并且支持多种数据源,能够帮助企业更直观的获得数据中的价值。
1. Tableau Desktop
Tableau Desktop是Tableau公司开发的桌面系统中最简单的商业智能工具软件,Tableau没有强迫用户编写自定义代码,新的控制台也可完全自定义配置。在控制台上,不仅能够监测信息,而且还提供完整的分析能力。Tableau控制台灵活,具有高度的动态性。
如上图所示,Tableau将数据运算与美观的图表完美地嫁接在一起。程序通过拖放将所有的数据展示到数字“画布”上,转眼间就能创建好各种图表。这一软件的理念是,界面上的数据越容易操控,公司对自己在所在业务领域里的所作所为到底是正确还是错误,就能了解得越透彻。
Tableau Desktop数据来源有多种方式,能同时支持Excel、支持各种数据库类型,同时能以web模式发布至网络中,以供别人访问。也支持团队协作,由多个人同时完成一件任务。
如上图所示,Tableau Desktop有多种展现形式,操作人员能操作人员能够自定义图表类型,并以多种图形的方式进行展现,同时根据图形的不同,针对不同的展示图形有不同的提示。
当用户从Tableau Desktop完成图形的绘制后,数据会从数据库中进行自动更新,从而对展示的数据进行自动同步,同时Tableau Desktop中集成了趋势分析,能对数据未来的走向进行一定的趋势分析,同时Tableau Desktop也与地理信息等进行了较好集成。
在Tableau Desktop使用中发现,使用该软件操作反应较慢,由于该软件将数据全部加载至内存,因此对计算机的内存等使用要求较高。
同时Tableau Desktop的趋势分析模块中,用户无法根据自己的需求选择算法,用户从而无法根据自己的商业特性对未来进行一个预测。
2. QlikView
下图是QlikView的界面截图,QlikView是一个完整的商业分析软件,使开发者和分析者能够构建和部署强大的分析应用。QlikView应用使各种各样的终端用户以一个高度可视化,功能强大和创造性的方式,互动分析重要业务信息。
QlikView把商业分析需要的三个因素放在一个独立软件包里。QlikView的客户能得到:
一个具有完全集成的ETL工具的向导驱动的应用开发环境、一个考虑到无限钻取的强大AQL分析引擎和一个高度直觉化的、使用简单的用户界面。QlikView让开发者能从多种数据库里提取和清洗数据,建立强大、高效的应用,而且使它们能被Power用户、移动用户和每天的终端用户修改后使用。QlikView获得专利的AQL构架利用了计算机和网络设备的提高,例如价格便宜,速度快的内存。当提供灵活、强大的分析能力时,AQL构架改变了需要OLAP立方体的需求,也不一定要使用数据库。QlikView是一个可升级的解决方案,完全利用了基础硬件平台,来用上亿的数据记录进行业务分析。QlikView由以下组成:开发工具(QlikView Local Client);服务器组件(QlikView Server);发布组件(QlikView Publisher);其他应用接口(SAP\Salesforce\Informatica)。服务器支持多种方式发布如AJAX客户端、ActiveX客户端。还可以与其他CS/BS系统进行集成。
上图是使用QlikView工具进行数据可视化的第一步,用户可以选择想使用的图表类型来进行建模,用上图可以看出,QlikView的图表类型较Tableau Desktop较少。QlikView 数据支持的格式与Tableau Desktop 一样,支持多种数据来源 ,所不同的是,QlikView通过导入数据后生成qvw来对数据进行展示,因为采用了自有的qvw格式,因此在使用QlikView过程中发现,该工具使用起来展示速度较Tableau View迅速。
3. Microsoft Excel
Excel一直为用户使用来进行数据可视化展示的软件之一,通过Excel内在集成的图表来对选定的数据源进行可视化展示。同时,Excel支持3D的可视化展示,微软发布了一款叫做 GeoFlow 的插件,它是结合Excel和Bing地图所开发出来的3D数据可视化工具。这个工具可以以加载项的形式运行,目前支持Excel 2013和Office 365 ProPlus。
上图为Excel 3D可视化的截图,GeoFlow的概念最早于 2011 年 6 月被提出,微软也曾在2012年11月的SharePoint大会上推出过GeoFlow。GeoFlow可以帮助用户创建和浏览时间敏感型数据并与之交互,而这些数据也可以应用到数字地图上。同时,用户也可以使用GeoFlow将数据转换为3D图像的形式与他人分享。
按照微软的说法,我们可以把GeoFlow理解为WorldWide Telescope项目的更新版。它可以帮助信息工作者通过详细的3D数据图来搜寻和分享全新的数据视角。
据介绍,GeoFlow目前支持的数据行规模最高可达100万行,并可以直接通过Bing地图引擎生成可视化3D地图。数据可以通过三维垂直或二维贴片的方式呈现,并且同时支持Execl Data Model和PowerPivot两种模型,还可实现对Bing Maps的区域可视化。目前,GeoFlow 支持包括立柱型、二维斑块以及“气泡图”在内的多种可视化类型。
来自微软研究院的Curtis Wong指出,他们是在构建一个巨大的“虚拟望远镜”,若想达到这个目的则先要构建一个“可视化宇宙”的引擎。他还表示GeoFlow将为全球公司带来动态、交互式的数据可视化功能。
微软在Excel的官方博客中解释了GeoFlow的工作方式。以德州达拉斯居民家庭能源使用数据为例,GeoFlow先将这些用户的位置在地图上标记出来,而Excel则会将这些家庭的房屋面积和市价用三维图像显示出来。
随着时间的变化,这个“地图”也会实时改变。用户若想将数据分享给他人,只需在GeoFlow中截取“画面”,然后创建一个“场景导游”最后导出就可以了。
目前GeoFlow只支持Office Professional Plus 2013和Office 365 ProPlus。
4. SAS可视化分析
作为SAS高性能分析方案家族中最新一款产品,SAS可视化分析拥有内存分析的卓越速度、自助服务功能和高度可视化的界面可为企业提供快速、简单而经济有效的商业洞察,并进行更好的商业决策。
SAS可视化分析(VA)具有强大的数据探索和显示能力,它不是一个简单的商业智能产品,而是一个将商业智能和分析能力充分结合,并且快速、易用的产品。我们正处于各项技术涌现急需整合的时期,SAS可视化分析适用范畴广,无论是小型工作组、中小型公司还是超大型企业均可从使用中受益。
SAS可视化分析的扩展性让各企业可以实现量身定制的数据可视化,或者按照实际需求逐步增加分析功能。其自助服务功能让非数据专家也可以轻松、有效地理解和分析大数据,在自己的数据中找到对业务问题的答案。用户可以在任何地点通过iPad等移动终端或者网页,生成交互式报表或从移动仪表盘中获取最更新的数据信息,由此更快速更好地做出决策。同时可将企业内部IT部门从不断增加的数据集、临时分析和一次性报表请求中解放出来,把更多精力用于其他项目,更为高效。
SAS可视化分析的高性能内存分析架构能够快速的完成不同规模的数据分析,让用户能够快速检查所有数据,消除了传统的由IT生成报告的等待时间,几分钟或几秒时间内可以在数十亿行数据中执行分析计算,和呈现可视结果。SAS VA 6.1的优势在于以下七个方面:完整的,随时可交付的系统;大数据的价值体现;高性能分析;移动应用;开箱即用;拥抱开源技术;无须开发,基于配置的操作。
SAS可视化分析的设计初衷是为解决大数据分析问题,可以低成本地利用行业标准刀片式服务器的扩展性,以及适用于EMC Greenplum和Teradata的数据库系统。目前其根据数据量大小,可应用于不同部门。除了支持各部门硬件平台之外,SAS可视化分析还可添加图形显示选项和特色分析功能,包括预测、多元回归模型选项,多重视觉互动,动态过滤,新可视化方法和更多其它功能。
5. IBM SPSS
SPSS是世界上最早采用图形菜单驱动界面的统计软件,它最突出的特点就是操作界面极为友好,输出结果美观漂亮。它将几乎所有的功能都以统一、规范的界面展现出来,使用Windows的窗口方式展示各种管理和分析数据方法的功能,对话框展示出各种功能选择项。用户只要掌握一定的Windows操作技能,粗通统计分析原理,就可以使用该软件为特定的科研工作服务。SPSS采用类似Excel表格的方式输入与管理数据,数据接口较为通用,能方便的从其他数据库中读入数据。
其统计过程包括了常用的、较为成熟的统计过程,完全可以满足非统计专业人士的工作需要。输出结果十分美观,存储时则是专用的SPO格式,可以转存为HTML格式和文本格式。对于熟悉老版本编程运行方式的用户,SPSS还特别设计了语法生成窗口,用户只需在菜单中选好各个选项,然后按“粘贴”按钮就可以自动生成标准的SPSS程序。极大的方便了中、高级用户。
SPSS for Windows是一个组合式软件包,它集数据录入、整理、分析功能于一身。用户可以根据实际需要和计算机的功能选择模块,以降低对系统硬盘容量的要求,有利于该软件的推广应用。SPSS的基本功能包括数据管理、统计分析、图表分析、输出管理等等。SPSS统计分析过程包括描述性统计、均值比较、一般线性模型、相关分析、回归分析、对数线性模型、聚类分析、数据简化、生存分析、时间序列分析、多重响应等几大类,每类中又分好几个统计过程,比如回归分析中又分线性回归分析、曲线估计、Logistic回归、Probit回归、加权估计、两阶段最小二乘法、非线性回归等多个统计过程,而且每个过程中又允许用户选择不同的方法及参数。SPSS也有专门的绘图系统,可以根据数据绘制各种图形。
最新的21.0版采用DAA(Distributed Analysis Architecture,分布式分析系统),全面适应互联网,支持动态收集、分析数据和HTML格式报告。
SPSS输出结果虽然漂亮,但是很难与一般办公软件如Office或是WPS2000直接兼容,如不能用Excel等常用表格处理软件直接打开,只能采用拷贝、粘贴的方式加以交互。在撰写调查报告时往往要用电子表格软件及专业制图软件来重新绘制相关图表,这已经遭到诸多统计学人士的批评;而且SPSS作为三大综合性统计软件之一,其统计分析功能与另外两个软件即SAS和BMDP相比仍有一定欠缺。
虽然如此,SPSS for Windows由于其操作简单,已经在我国的社会科学、自然科学的各个领域发挥了巨大作用。该软件还可以应用于经济学、数学、统计学、物流管理、生物学、心理学、地理学、医疗卫生、体育、农业、林业、商业等各个领域。
6.小结
根据对以上五个产品的使用及功能,总结如下:
·从产品的使用功能来看:Tableau Desktop 产品应用最丰富,能通过简便的拖拽来实现数据可视化,且能支持GIS地理信息、多数据来源等功能。
·专业性:SPSS 能通过各种算法及软件包来对业务数据进行很好的预判展示,能与其他算法进行良好的集成,其产品的BI程度最高。
·支持web及产品协作:SAS分布式存储以及多用户检索功能来搜索共享文件,通过共享的文件,不同用户能协同完成一个共同的任务。其余产品均支持进行web模式的发布;
·简便性及3D特性:Excel本身即为良好的数据可视化展示软件,同时通过3D展示更能有效的将数据展示给用户。
·性能:Qlikviw通过AQL构架提供灵活、强大的分析能力时,AQL构架改变了需要OLAP立方体的需求。通过将用户数据转换成自己的格式,从而拥有快速,灵活的分析性能。
三、数据可视化主流产品对比表
1.企业实施条件
2.可视化条件
3.技术条件
四、总结
总的来说,在数据可视化的分类中,免费的开源产品一般使用起来没有限制,但应用门槛高、学习成本高,适合有一定技术实力的企业;免费的商业化产品一般是数据可视化厂商提供的免费版本,功能和应用上会有一些限制,适合数据量不大、对分析要求不高的中小企业;而收费的商业化产品往往需要大量资金支持,但部署和应用简便、服务有保障,尤其适合有资金实力雄厚的企业。
当然,数据可视化产品的选择还需要每个企业根据自己的情况“具体问题具体分析”,找出适合自己的解决方案。企业在选择和部署商业智能和分析平台的软件时,不妨考虑一下数据可视化产品,让数据与业务人员之间、数据价值和企业之间真正实现“零距离”。
CIO之家 www.ciozj.com 公众号:imciow