几年前,企业的决策者往往是根据自己的直觉来确定企业未来的发展的战略,而不是依托于具体的数据。而利用数据获得有价值的线索,让决策者们看到了数据分析的重要性。然而从海量的数据中抽取数据样本,挖掘数据,形成报表的过程看似简单,实则盘根错节,涉及到企业IT系统的方方面面,如企业的数据中心,数据存储,数据管理等多个环节。传统的数据存储管理已经不能满足大数据时代的发展要求。
大数据存储管理面临诸多挑战
目前电信、金融、零售等行业希望通过大数据的分析手段来帮助自己做出理性的决策。特别是电信和金融行业表现尤为突出,市场数据没有办法与用户消费数据打通。而它们面临的第一个问题就是海量数据存储的问题。多数企业正在试图建设自己的数据中心,来满足大规模的数据量的产生,但是随着数据的进一步增多,很多数据的查询和分析性能急剧下降,有的数据中心甚至出现了无法响应的状况,为企业的业务带来了很大损失。
企业的CIO们有着这样的疑虑,怎样的数据管理策略能够对数据进行有效的保护,而且在需要时,让数据随时转变成价值的问题。只有数据与适合的存储系统相匹配,制定出管理数据的战略,才能高成本,高可靠,高效益的应对大量数据。对于企业来说,面临大数据首先解决的问题就是成本和时间效应问题。商机不容错过,而存储数据管理,可以通过自动化,磁盘和重复数据删除,备份和归档的软件,让企业的关键数据分存在不同的区域,然后按照特定的业务需求,对数据进行提取,操作和分析,并形成企业所需要的目标数据。大数据面临的存储难题迎刃而解。
大数据时代的数据管理的意义
大数据让数据变得神秘,又让数据变得简单。计算机从文字,图像,视频等数据中解构出共性的东西,从互联网浩瀚的数据中收获知识,洞察信息。而数据的分析建立数据的管理基础之上。有媒体曾经报道,马云成功预测到2008年的金融危机的爆发,神乎其神。这实际上马云并不具备具有高瞻远瞩的敏锐洞察力,而且通过阿里巴巴的交易平台首先看到了整体交易额的下滑趋势。
IDC的调查认为:领军企业与其他企业之间最大的显著差别在于新数据类型的引入。那些没有引入新的分析技术和新的数据类型的企业,不太可能成为其行业的领军者。
而企业的战略眼光与大数据的管理不无关系。信息是企业的财富,如果企业对大数据的管理适当,利用好大数据,并服务于企业发展战略,一定能做出明智的决策。现阶段的难点在于,企业分析的数据仅仅是企业标准化结构数据中的很小一部分,很多企业的这一数据还不到20%,企业未来的数据管理之路还很漫长。
大数据时代的数据管理技术
大数据的关注度在不断升温,而大数据管理的技术也层出不穷。在众多技术中,有6种数据管理技术普遍被关注,即分布式存储与计算、内存数据库技术、列式数据库技术、云数据库、NoSQL、移动数据库技术。其中分布式存储与计算受关注度最高。
分布式存储与计算架构可以让大量数据以一种可靠、高效、可伸缩的方式进行处理。因为以并行的方式工作,所以数据处理速度相对较快,且成本较低,Hadoop和NoSQL都属于分布式存储技术的范畴。
内存数据库技术可以作为单独的数据库使用,还能为应用程序提供即时的响应和高吞吐量,SAP的HANA是该技术的典型代表。
列式数据库的特点是可以更好的应对海量关系数据中列的查询,占用更少的存储空间,这也是构建数据仓库的理想架构之一。
云数据库可以不受任何部署环境的优势,随意的进行拓展,进而为客户提供适宜其需求的虚拟容量,并实现自助式资源调配和自助式使用计量。目前微软的SQL Server可以提供类似的服务。
NoSQL数据库适合于以下场景,即庞大的数据量、极端的查询量和模式演化。企业可以NoSQL得到高可扩展性、高可用性、低成本、可预见的弹性和架构灵活性的优势,甲骨文在2011年推出Oracle NoSQL数据库。
移动数据库技术是适应移动计算产物。随着智能移动终端的普及,人们对移动数据实时处理和管理要求的不断提高,移动数据库具有平台的移动性、频繁断接性、网络条件的多样性、网络通讯的非对称性、系统的高伸缩性和低可靠性以及电源能力的有限性等,也正是因为这些特性被业界所重视。
CIO之家 www.ciozj.com 公众号:imciow