Hadoop哪家强?

来源:中国大数据 作者:Craig Stedman

  Cloudera:加速数据分析

  Edo Interactive是一家美国市场营销公司,帮助广告主连接线上广告和线下数据,提供数据驱动的个性化推荐服务。不过几年前,Edo遇到了这样的问题:数据仓库系统处理信用卡交易数据耗时长,不能满足公司向消费者和餐馆进行个性化推荐的业务需求。

  Edo负责基础架构和信息系统的高级副总裁Tim Garnto表示:“处理每天的数据,要花费27小时,所以,任务是根本完不成的。”2013年,Edo用Hadoop集群替换了基于PostgreSQL的系统,为公司构建了数据资源池。

  公司每天会收集来自全美5千万次零售交易,把数据放到有20个节点的Cloudera发行的Hadoop集群上,使用Pentaho数据集成工具。从银行和信用卡公司收集来的数据经过处理,通过预测模型向持有银行卡或信用卡的用户推荐优惠券等内容。优惠券信息由Edo的合作伙伴每周向客户发送,自动和用户的消费行为匹配。

  Garnto介绍到,因为模型的复杂度不同,Edo的数据分析师可以在几分钟或几小时内处理数据,这在以前,是做不到的。

  不过在数据池搭建上,公司也遇到困难,最初,只有一个IT人员有Hadoop和MapReduce编程框架的经验。公司组织了对内部员工的培训,但新的MapReduce编程等于让员工放弃了关系型数据库的方法,公司在升级流程方面花费了很多时间。

  要让进入系统的生数据保持一致性,并生成标准化分析数据集也要花费一定的时间。Edo目前拥有的450亿条记录,总量255TB的数据对公司来说是核心资产,所以Garnto要倍加小心地管理,增添新的Hadoop生态系统技术,因为增加哪怕一项很小的技术,都会对系统工作的方式产生影响。Garnto因此说,在我们面临的所有挑战中,这是最有意思的,我们要富有远见地规划好集群开发的未来。

  Hortonworks:降低硬件成本

  收集和处理网络、收集和物联网活动数据的Webtrends是另一个数据资源池用户。这是一家波兰公司,它在去年7月部署了Hortonworks发行的Hadoop集群,在今年年初正式运行,最初是为了支持一款叫做Explore的产品,让公司市场人员对客户数据进行即时分析。公司负责产品架构的总监PeterCrossley表示,在60个节点的集群上,每个quarter上要添加500TB的数据,加起来有1.28PB。

  Webtrends计划使用Hadoop平台替换原有存储系统,通过使用Kafka信息队列技术和自动处理脚本,网络点击数据可以进入集群,能够在20到40毫秒之间进行数据分析。报表和分析基本上是实时的,比旧系统要快很多。Hadoop集群也支持更高级的分析,硬件成本要降低25%到50%。

  使用Hadoop数据资源池,意味着公司管理和使用信息的意识要改变。之前,公司要首先同数据仓库中广泛的数据列中构建通用的数据报表。

  公司还要考虑数据资源池架构和数据治理流程,以更好地管理Hadoop集群的数据。进入系统的生数据结构松散,但在数据治理上有严格的规定。另外,公司将Hadoop集群分成了三个独立的层,一层负责生数据,第二层负责增加的日常数据集,第三层负责第三方信息。每一层都有自己的数据分类和治理政策,因数据集不同而各异。

  MapR:有序的数据存储

  基于云的预测分析软件供应商Razorsight 的CTO Suren Nathan在谈到建立和使用Hadoop数据资源池时,也提到了要非常“有纪律、有组织”。如果不然,系统就会变成一个失控的垃圾场。

  Razorsight为电信行业提供云基础的分析服务,在2014年第二季度开始使用MapR发行的Hadoop集群。来自代理的客户、运营和网络数据通过自建的提取工具加载进系统,通过Spark处理引擎提供给数据科学家,该集群有5个产品节点,120TB的存储容量。

  像Webtrends一样,Razorsight把数据资源池分为三个部分,一部分负责6个月以内的数据,一部分负责时间更长但仍然有用的数据,最后一部分负责不再使用但需要保存的数据。目前,在前两个部分,公司有超过20TB的数据。为了使系统运行的更顺畅,公司聘请了有数据治理和分布系统部署经验的新员工,现有员工负责Hadoop、Spark和相关技术。

 

  Hadoop集群每TB数据的成本是2千美元,是IBM Netezza数据仓库系统的十分之一,不过Razorsight最开始建立Hadoop集群只是为了数据存储,分析模型和数据可视化仍然是在旧系统中完成,部分原因是因为Netezza硬件和IBM的SPSS分析软件绑定。Nathan预计今年年底能够完成可视化层和分析资源池想Hadoop数据资源池架构的迁移。翻译:Eunice


相关文档推荐

02 第二章 Hadoop环境设置.PPTX

4218621443  0.36MB 20页 积分5

01 第一章 初识Hadoop大数据技术.PPTX

4218621442  4.81MB 58页 积分5

00 Hadoop大数据技术与应用.PPTX

4218621441 杨汉波 3.53MB 27页 积分5

Hadoop Yarn在小米的实践.PDF

4218621205 涂瑜 1.86MB 31页 积分5

大数据处理架构Hadoop.PPT

4218621193  3.4MB 44页 积分5

小米Hadoop YARN弹性调度的探索与落地.PDF

4218621134 石龙飞 0.37MB 23页 积分5

贝壳hadoop集群演进.PDF

4218621048 方阳 0.72MB 23页 积分5

深入浅出hadoop.PPT

421862858  1.05MB 61页 积分4

携程Hadoop跨机房架构实践.PDF

421844809 陈昱康 0.83MB 23页 积分4

相关文章推荐