现代化企业需要什么样的决策视图?
EMC中国-云计算 weibo.com

大家还记得前段时间我家大V CJ放出的年度预测嘛?2015的两大关键词:一个是混合云,一个是数据湖。


显然,“数据湖”是一个更具象,同时也更需要科普的概念。数据湖描述了一种现象,一种方法和一种思路,帮助企业在应用中充分释放数据的价值。希望通过这几个问题,帮助你更好地理解“数据湖”。


什么是数据湖?


通过将数据实时、近实时或批量地收集到一起,数据湖策略简化大数据存储、管理和分析。这一过程是跨越不同数据源和多种协议的。


首先,数据湖是将所有你可能想要使用的数据放到一起的场所。包括来自传统数据库的结构化数据,以及视频、音频、文本等非结构化数据。既包括企业内部生成的数据,也包括从外部资源和服务中获得的数据,还包含社交媒体、传感器、遥测等海量数据。


其次,数据湖支持大数据分析。在这里你可以分析你的数据,并且可以发现数据间的相关性,这是你以前从未检查过的。


再次,数据湖帮助企业解决长期存在的紧张关系。一方面,企业推动将标准数据归入数据仓库并持续使用,另一方面,业务单元需要局部视图,以及数据的不同组合。数据湖是一个共享的资源,包含许多精心管理的数据。不仅如此,数据湖还为业务单元提供一个平台,帮助他们获取数据,快速构建真正所需的视图和数据驱动的应用。


数据湖为什么重要?


数据湖为数据分析和点对点的探索性数据科学团队提供平台,是从生产/SLA驱动的企业数据仓库中清晰划定出来的。这些需求之间自然地存在摩擦点,因为像SAS这样的数据科学工具本质上会对数据仓库服务水平协议产生消极影响。通过数据湖,数据科学团队能够自由地访问他们需要的数据,同时不影响数据仓库服务水平协议。


数据湖的另外一个好处是消除ETL(提取、转换、加载)。数据湖可运行大规模、复杂的ETL处理,无需昂贵的数据仓库资源。


数据湖和传统数据仓库有何区别?


数据仓库组织的是结构化数据,以列和行的形式呈现。数据格式是提前确定好的,是数据使用的主要方式。


数据湖可存储各种各样的数据,结构化的和非结构化的,可大规模扩展,管理非常大的数据量。你不会永远存储所有数据,但可以收集有潜在好处的数据,无需一定清楚其用途。同时,可以根据需要移入移出大量数据,例如对特定营销分析有用的社交媒体数据,灵活度非常大。最重要的是,数据湖的目标不仅是存储和检索数据,而是探索数据,以未曾预见的方式组合数据、分析数据,学习数据并从分析中获得商业价值。


数据湖如何作为大数据分析平台使用?


很长时间以来,组织和个人一直在产生大量的数据。直到最近,我们才有了可相对容易地处理数据的技术和方法。数据湖帮助企业运用大数据。


数据科学家和其他分析专业人员有这样一个平台,可用来探索数据如何揭示复杂的业务问题,同时,迭代开发可视化和预测模型,表达并解决这些问题。


不过,企业需要他们的数据仓库和其他仓库与数据湖一起工作。数据仓库主要面向商业智能和报告。数据湖面向的是定制化的业务视图、分析和预测。数据应该按需迁移,从数据仓库到面向分析的数据湖,结果可以再反馈数据仓库,用做报告。彼此间互相带来价值,结合在一起,更综合地利用数据。


数据湖如何重塑信息管理实践?


数据湖是一种企业资源,为业务单元、职能部门带来前所未有的自由度和灵活性,收集、分析并使用他们最需要的数据。


例如,公司财务部门可以设立政策,划定数据是如何由业务单元提交,巩固财务状况的。但业务单元可以改变或丰富数据,更好地理解并管理他们自身的运营。


数据治理以有趣的方式发生改变。毫无疑问,构建大型数据仓库的人将大量精力和努力投入到数据治理中,尤其是那些通常很乏味,偶尔有争议的过程,让企业不同部门就数据意味着什么并且如何呈现这一问题达成一致。目标是让一切都提前达成一致,但这是不可能的,也解释了为什么即便是最好的数据仓库,似乎也是不完整且不灵活的。


通过数据湖,数据和其用途不会预先确定,因此数据治理更是一个进行中的、协作和分布式的活动。


CIO之家 www.ciozj.com 公众号:imciow
关联的文档
也许您喜欢