一、什么是数据湖?
数据湖是保存大量原始格式数据的中心位置。与以文件或文件夹形式存储数据的分层数据仓库相比,数据湖采用扁平化架构和对象存储方式来存储数据。?对象存储具有元数据标签和唯一标识符,便于跨区域定位和检索数据,提高性能。通过利用廉价的对象存储和开放格式,数据湖使许多应用程序能够利用数据。
数据湖是为了应对数据仓库的局限性而开发的。虽然数据仓库为企业提供高性能和可扩展的分析,但它们昂贵、专有,不能处理大多数公司正在寻求解决的现代用例场景。
数据湖通常用于将企业的所有数据合并到一个单一的中心位置,在那里数据可以“原样”保存,而不需要像数据仓库那样预先强加一个模式(即数据组织方式的正式结构)。细化过程中所有阶段的数据都可以存储在数据湖中:原始数据可以与组织的结构化、表格式数据源(如数据库表)以及在细化原始数据过程中生成的中间数据表一起被接入和存储。
与大多数数据库和数据仓库不同,数据湖可以处理所有数据类型——包括非结构化和半结构化数据,如图像、视频、音频和文档——这对今天的机器学习和高级分析用例至关重要。
二、为什么要使用数据湖?
首先,数据湖是开放格式的,因此用户可以避免被锁定在数据仓库这样的专有系统中,而数据仓库在现代数据体系结构中已经变得越来越重要。数据湖还具有高度的持久性和低成本,因为它们具有扩展和利用对象存储的能力。
此外,对非结构化数据的高级分析和机器学习是当今企业最重要的战略重点之一。以各种格式(结构化、非结构化、半结构化)摄取原始数据的独特能力,以及前面提到的其他优点,使数据湖成为数据存储的明确选择。
当架构正确时,数据湖能够:
为数据科学和机器学习提供支持:数据湖允许将原始数据转换为结构化数据,以便在低延迟的情况下进行SQL分析、数据科学和机器学习。原始数据可以以较低的成本无限期地保留,以便将来在机器学习和分析中使用。
对数据进行集中、合并和分类:集中式数据湖消除了数据烟囱的问题(如数据重复、多个安全策略和协作困难),为下游用户提供了一个查找所有数据源的单一位置。
快速无缝地集成各种数据源和格式:任何和所有数据类型都可以收集并无限期地保留在数据湖中,包括批处理和流数据、视频、图像、二进制文件等。由于数据湖为新数据提供了一个着陆区域,它总是最新的。
通过向用户提供自助服务工具使数据大众化:数据湖非常灵活,让拥有完全不同技能、工具和语言的用户能够同时执行不同的分析任务。
三、数据湖的挑战
尽管数据湖有很多优点,但数据湖带来的各种挑战会减缓创新和生产力。数据湖缺乏保证数据质量和可靠性所需的特性。看似简单的任务可能会大幅降低数据湖的性能,而且由于安全性和治理特性较差,数据湖无法满足业务和监管需求。
(1)可靠性的问题
如果没有适当的工具,数据湖可能会出现数据可靠性问题,使数据科学家和分析师难以对数据进行推理。这些问题可能源于难以组合批量数据和流数据、数据损坏和其他因素。
(2)缓慢的性能
随着数据湖中数据规模的增加,传统查询引擎的性能通常会变慢。一些瓶颈包括元数据管理、不正确的数据分区等。
(3)缺乏安全特性
由于缺乏可见性和删除或更新数据的能力,数据湖很难得到妥善的保护和治理。这些限制使其很难满足监管机构的要求。
解决数据湖挑战的方法是lakehouse,它通过在上面添加事务存储层来解决数据湖的挑战。一个lakehouse,使用类似于数据仓库的数据结构和数据管理功能,但直接在云数据湖上运行。最终,lakehouse允许传统的分析、数据科学和机器学习以一种开放的格式共存于同一个系统中。
lakehouse为企业数据分析、BI和机器学习项目提供了广泛的新用例,这些项目可以释放巨大的商业价值。通过使用SQL查询数据湖中的数据,数据分析师能获得丰富的见解,数据科学家可以加入和丰富的数据集生成ML模型与更高的精度,数据工程师可以构建自动化ETL管道,BI人员可以创建视觉仪表盘和报表工具,比以前更快和更容易。这些用例都可以在数据湖上同时执行,无需提升和移动数据,即使有新数据流入。
数据湖与数据仓库一般特征
| Data lake | Data lakehouse | Data warehouse |
数据类型 | 所有类型:结构化数据、半结构化数据、非结构化(原始)数据 | 所有类型:结构化数据、半结构化数据、非结构化(原始)数据 | 结构化数据 |
成本 | $ | $ | $$$ |
格式 | 开放格式 | 开放格式 | 封闭的专有格式 |
扩展性 | 扩展以低成本保存任何数量的数据,而不用考虑数据类型 | 扩展以低成本保存任何数量的数据,而不用考虑数据类型 | 由于供应商的成本,向上扩展的成本会呈指数级增长 |
目标用户 | 有限:数据科学家 | 统一:数据分析师、数据科学家、机器学习工程师 | 有限:数据分析师 |
可靠性 | 低质量,数据沼泽 | 高质量,数据可靠 | 高质量,数据可靠 |
易用性 | 困难:如果没有工具来组织和编目数据,探索大量的原始数据可能会很困难 | 简单:提供数据仓库的简单性和结构,并提供更广泛的数据湖用例 | 简单:数据仓库的结构使用户能够快速、方便地访问数据以进行报告和分析 |
性能 | Poor | High | High |
四、数据仓库VS数据湖
企业正在从各种来源收集海量数据,这些数据远远超出传统关系数据库可处理的范畴。这导致数据仓库与数据湖问题:何时使用哪一个以及它们与数据集市、操作数据存储和关系数据库的对比。
所有这些数据存储库都具有相似的核心功能:存储数据用于业务报告和分析。但是它们的目的、结构、它们存储的数据类型、来自哪里以及谁有权访问都各有不同。
通常情况下,这些存储库中的数据来自生成数据的系统:CRM、ERP、HR、财务应用程序和其他来源。这些系统创建的数据记录将应用业务规则,然后发送到数据仓库、数据湖或其他数据存储区域。
当来自不同业务应用程序的所有数据整理到单个数据平台后,我们就可以使用数据分析工具,以识别趋势或提供见解以帮助制定业务决策。
当企业从运营系统获得大量数据,并需要随时分析数据时,企业通常会选择数据仓库与数据湖。数据仓库通常作为单一事实来源,因为这些平台会存储历史数据,包括已经过清理和分类的数据。
数据仓库主要存储来自运营系统的大量数据,而数据湖则存储来自更多来源的数据,包括来自企业的运营系统和其他来源的各种原始数据资产集。
由于数据湖中的数据可能不准确,并且可能来自企业运营系统之外的来源,因此不是很适合普通的业务分析用户;数据湖更适合数据科学家和其他数据分析专家。
对于数据仓库与数据湖的不同之处,你可以想象一下仓库和湖泊的区别:仓库存储着来自特定来源的货物,而湖泊的水来自河流、溪流和其他来源,并且是原始数据。
数据仓库供应商包括AWS、Cloudera、IBM、谷歌、微软、甲骨文、Teradata、SAP、SnapLogic和Snowflake等。数据湖提供商包括AWS、谷歌、Informatica、微软、Teradata等。
数据集市和数据仓库经常会被混淆,但两者的用途明显不同。
数据集市通常是数据仓库的子集;它等数据通常来自数据仓库 – 尽管还可以来自其他来源。数据集市的数据专门针对特定的用户社区(例如销售团队),以便他们能够快速找到所需的数据。通常,数据保存在那里用于特定用途,例如财务分析。
数据集市也比数据仓库小得多 – 它们可以容纳数十千兆字节,相比之下,数据仓库可以存储数百千兆字节到PB级数据,并可用于数据处理。
数据集市可从现有数据仓库或其他数据源系统构建,你只需设计和构建数据库表,使用相关数据填充数据库表并决定谁可以访问数据集即可。
操作数据存储(ODS)是一种数据库,用作所有数据的临时存储区域,这些数据即将进入数据仓库进行数据处理。我们可以将其想象成仓库装卸码头,货物在此处交付、检查和验证。
在ODS中,数据在进入仓库前可以被清理、检查(因为冗余目的),也可检查是否符合业务规则。 在ODS中,我们可以对数据进行查询,但是数据是临时的,因此它仅提供简单信息查询,例如正在进行的客户订单状态。
ODS通常运行在关系数据库管理系统(RDBMS)或Hadoop平台。ODS中的数据通常通过数据集成和数据提取工具(例如Attunity Replicate或Hortonworks DataFlow)提供。
数据仓库、数据湖与关系数据库系统之间的主要区别在于,关系数据库用于存储和整理来自单个来源(例如事务系统)的结构化数据,而数据仓库则用于存储来自多个来源的结构化数据。数据湖的不同之处在于它可存储非结构化、半结构化和结构化数据。
关系数据库创建起来相对简单,可用于存储和整理实时数据,例如交易数据等。关系数据库的缺点是它们不支持非结构化数据库数据或现在不断生成的大量数据。这使得我们只能在数据仓库与数据湖间做出选择。尽管如此,很多企业仍然继续依赖关系数据库来完成运营数据分析或趋势分析等任务。