大数据工具,包括Hadoop集群、MapReduce项目模型和NoSQL数据库都已经催生了很多应用程序和使用案例,创造了商业价值。但同时,问题也随之出现:如何在企业数据仓库、商务智能和分析架构中集成大数据系统?
大数据工具不应该破坏现有的数据仓库环境。虽然大量低成本,甚至零成本的工具降低了准入门槛,它们构成了Hadoop的生态系统,支持其存储和管理大量数据集的能力。很多原本居于商务智能和分析系统中心地位的企业数据仓库收到冲击。但是企业在数据仓库中投入了很多资金、资源和时间,建立并完善数据仓库的查询、报表和分析功能。企业不愿意这一切都付之东流。即便企业已经选择在Hadoop或NoSQL数据库上搭建新的商务智能和大数据分析架构,这也不是一朝一夕能够完成的。通常,这种转变还要以牺牲服务质量,甚至业务中断为代价。
因此,大多数企业都会选择集成的方式,让新旧系统技术协同工作。比如把基于Hadoop的客户分析应用和现存客户数据仓库结合起来。来自于数据仓库的客户数据可以放到Hadoop应用程序里进行分析,分析结果在返回数据仓库。
大数据关联
集成的第一步是在数据仓库和大数据平台间设置关联。目前,大数据系统主要用于增强数据仓库的能力,其数据存储的成本要低于传统数据仓库。很多早期用户还会在数据仓库分析数据之前,采用Hadoop集群和NoSQL数据库存储数据。这些应用使用起来都很简单,就像用Hadoop分布式文件系统(HDFS)存储数据一样,也可以通过Hive,HBase,Cassandra和其他NoSQL技术建立更复杂的关联。
将这些工具和数据仓库与商务智能框架结合起来需要关联性和说明。可以使用应用程序界面为数据仓库提供Hadoop和NoSQL系统的接口。另外,不少供应商都提供连接SQL数据库和大数据系统的封闭的连接器,包括基于集成标准的ODBC(开放数据库连接)和JDBC(Java数据库连接)。对于不能适用于传统关系模型的系统,可以用一个集成层将半结构化数据从原格式(比如YAML或JSON)转到可被商务智能应用读取的格式。
如果要集成更加紧密,还有其他的方法。例如,数据仓库系统逐渐对MapReduce功能开放,从而增强SQL语言,将Hadoop集群的分析处理和商务智能查询结果结合起来。更一个例子是将Hadoop分析结果和数据仓库结合起来,用来生成报表和分析。
大数据阻力
随着大数据的不断发展,对很多IT和数据仓库团队来说,集成不同的应用迫在眉睫。一种高度灵活的集成方案至关重要。
脱节的体系结构。一种典型的方法是试点项目或验证概念,或测试早期产品应用,包括在自己孤立的环境中部署Hadoop或NoSQL系统。一个结构完整的集成方案必须把IT和数据架构与业务洞察力和设计结合起来,在混合型数据库、商务智能和分析架构中部署多种层。
管理缺陷。大数据工具的开源本质往往会导致企业只重功能不重管理。随着商业话大数据软件的成熟,这种状况会得以缓解。但现在仍要重视管理能力的提升。
技术短缺。扩大大数据集成面临的最大的挑战就在于使用Hadoop和NoSQL技术过程中产生的陡峭的学习曲线。毕竟在IT圈内,平行和分布式处理技术还很难懂,真正有开发和升级大数据应用经验的人就更少了。内部培训也许是速度最快、成本最低的方法。
在把Hadoop和NoSQL与数据仓库环境集成的问题上,很多公司关心的不是可行性,而是时间。早作准备,可以对面临的阻碍有一个良好的把握。对于不同的集成需求,企业需要构建可重复的解决流程,这才是项目的最终目标。
CIO之家 www.ciozj.com 公众号:imciow