你知道新的市场领导者和曾经的领导者之间的关键区别是什么吗?
那就是“数据管理”。任何无法处理数据并将其投入使用的企业,很可能会让位给那些能够更好处理数据的。
事实上,大数据和其流动性的力量能促使企业发展。
大数据是大量数据的术语。由于数据的来源渠道众多,导致其太多样,太庞大,传统技术难以处理。这使得利用技术和基础设施对其进行有效处理十分重要。
这些数据必须通过计算来分析,以揭示模式和趋势,从而有助于市场和推广活动。
以下是一些企业机构利用大数据的例子:
? 政府组织通过紧跟社交媒体的动向,从而了解新疾病的出现和爆发的信息。
? 石油和天然气公司将钻探设备与传感器集成在一起,以确保安全和促进更有效的钻探。
? 零售商紧跟网络点击动向,并识别行为趋势来从而改进广告活动。
下面,让我们来看一下目前可以促进商务的流行大数据技术:
Apache Spark 作为大型数据处理的最快和通用的引擎,具备流媒体、机器学习、图形处理和 SQL 支持的内置模块。它支持所有重要的大数据语言,包括 Python、Java、R 和 Scala。
它补充了 Hadoop 最初出现的主要意图。数据处理中的主要关注点是速度,所以需要减少查询间的等待时间和运行程序所需的时间。
尽管 Spark 被用来加速 Hadoop 的计算软件过程,但它并不是后者的扩展。实际上,Spark 使用 Hadoop 有两个主要目的——存储和处理。
用例: Apache Spark 对旨在实时跟踪欺诈性交易的公司来说是一大福音,例如,金融机构、电子商务行业和医疗保健。假设你的钱包丢了,同时信用卡被盗刷了一大笔钱,那么该技术可以帮助你及时掌握卡被盗刷的时间和地点。
如果你知道 Apache Spark 和 Apache Hadoop,那么你很可以也听过 Apache Flink 。Flink 是由德国柏林工业大学的 Volker Markl 教授创建的一个社区驱动开源框架。在德语中,Flink 的意思是“敏捷的”,具有高性能和极其精确的数据流。
Flink 的功能受到 MPP 数据库技术(如声明性、查询优化器、并行内存、外核算法)和Hadoop MapReduce 技术(如大规模扩展、用户定义函数、阅读模式)等功能的启发。
NiFi 是一种强大且可拓展的工具,它能够以最小的编码和舒适的界面来存储和处理来自各种数据源的数据。这还不是全部,它还可以轻松地不同系统之间的数据流自动化。如果 NiFi 不包含你需要的任何源,那么通过简洁的 Java 代码你可以编写自己的处理器。
NiFi 的专长在于数据提取,这是过滤数据的一个非常有用的手段。由于 NiFi 是美国国家安全局的项目,其安全性也是值得称道的。
Kafka 是必不可少的,因为它是各种系统之间的强大粘合剂,从 Spark,NiFi 到第三方工具。可以实现高效的数据流实时处理。Kafka 具有开放源码,可水平伸缩,有容错能力,快速安全的特点。
作为一个分布式系统,Kafka 存储消息在不同主题中,并且主题本身在不同的节点上进行分区和复制。
当 Kafka 最初是建立在 LinkedIn 的分布式消息系统,但如今是 Apache 软件基金会的一部分,并被成千上万的公司使用。
用例: Pinterest(照片分享网站,堪称图片版的Twitter) 使用 Apache Kafka。该公司建立了名为 Secor 的平台,使用 Kafka、Storm 和 Hadoop 来进行实时数据分析,并将数据输入到 MemSQL 中。
Apache Samza 主要目的是为了扩展 Kafka 的能力,并集成了容错、持久消息、简单 API、托管状态、可扩展、处理器隔离和可伸缩的特性。
它使用 Apache Hadoop YARN 用于容错,同时使用 Kafka 进行通讯。因此,可以说它是一个分布式流处理框架。它还提供了一个可插入的 API 来运行 Samza 和其他通讯系统。
Cloud Dataflow 是谷歌的云数据处理服务,它集成了基于批处理和流数据处理任务的简单编程模型。
使用这个工具,无需担心操作任务,包括性能优化和资源管理。通过其完全托管的服务,可以动态地提供资源以保持较高的利用率,同时使延迟最小化。
同时通过其统一编程模型方法,无需担心编程模型转换成本的。这种方法有助于批量和连续的流处理,使其易于表达计算需求,同时无需担心数据源。
结论
大数据生态系统不断发展,新技术频频出现,其中许多技术进一步发展,超出了 hadoop - spark 集群。这些工具可以用来确保与安全和管理的无缝工作。
数据工程师需要利用这些工具来提取、清理和设置数据模式,以帮助数据科学家彻底地探究和检查它们,并构建模型。
CIO之家 www.ciozj.com 公众号:imciow