成功实施数据湖的关键因素

来源:51CTO 作者:Chris Foot

数据湖的实现需要很多关键因素,其中涉及从技术到治理,组织需要评估其实施策略中最重要的因素。

除了数据湖增长背后的业务驱动因素之外,价格不断下降的云服务提供大量存储和处理的能力,这正在使数据湖平台对各种规模的组织越来越有吸引力。

数据湖的实施继续吸引着IT行业的关注。调研机构Research and Markets公司最近的一份分析报告预测,数据湖市场将以26%的复合年增长率增长,到2024年将达到201亿美元。

如果组织正在考虑实施数据湖,则应考虑以下几点:

什么是数据湖?

定义和更好地理解数据湖的一种简单方法是将它们与数据仓库进行比较。尽管数据仓库和数据湖都用于存储大量数据,但是它们之间存在很大差异。

组织可以通过多种方式使用数据湖信息,并且数据源不需要预定义就可以被摄入数据湖。分析师可以通过探索、试验和评估数据湖信息,以识别其优势和用例。与此同时,数据仓库为预定目的摄取和存储数据。

数据仓库专家经常实施高级别的分析,以评估和识别输入源。但是,实施数据湖的策略是从几乎所有生成信息的系统中提取和分析数据。

数据仓库使用预定义的架构来摄取数据。在数据湖中,分析人员在提取过程完成后应用架构。数据湖以原始格式存储数据。因此,数据摄取是一个相当简单的过程。在数据仓库中,在提取数据时会对其进行大量处理,以确保数据符合架构及其预定义的目的。

数据湖专门研究结构化、半结构化和非结构化数据的提取。它们还提供了除批处理负载外还易于摄取流数据的机制。尽管数据仓库可以接受许多不同形式的数据,但它们通常使用批量加载来提取结构化数据。

如何开始实施

数据湖实施的第一步是通过供应商网站和其他资源来了解有关数据湖架构、平台、产品和工作流程的更多信息。

与任何产品评估一样,企业需要对竞争产品进行彻底的分析。以下是评估标准的列表,可帮助组织进行分析:

  • 技术。尽管Apache Hadoop及其支持产品套件一直是许多组织的首选,但替代方案却越来越多。许多将Hadoop用于其数据湖产品的供应商提供了自己的自定义产品和边缘产品,以简化管理和分析。如今有很多平台可用,其中包括Amazon Data Lake解决方案、微软 Azure Data Lake、谷歌Data Lake、Datafake Snowflake和Oracle Data Lake。

  • 安全和访问控制。数据湖包含有关业务的信息宝库。像所有组织的数据存储一样,需要保护数据湖以防止未经授权的访问。

  • 数据提取。平台是否可以轻松快速地提取结构化、半结构化和非结构化数据?它能够有效地吸收数据流、微批量处理和大批处理数据负载吗?

  • 元数据管理。大数据专家使用元数据来搜索、识别和更好地理解数据湖中的数据集。

  • 数据处理、性能和可扩展性。该平台为用户提供了哪些工具和流程来与数据进行交互?它如何实现数据浏览?它在日常操作过程中执行什么后台程序?这些流程的速度有多快,它们会扩展以满足组织的工作量要求吗?

  • 管理和监控。该平台是否为系统管理和监视提供了强大的用户界面(UI)?它提供哪些工作负载管理功能?

  • 数据治理。该平台是否提供确保数据一致和可靠的机制?它是否提供创建沙箱环境的能力,使用户可以在不影响数据湖内容的情况下进行数据实验?

  • 数据分析和可访问性。该平台提供什么机制来分析数据?它可以让组织轻松整合机器学习吗?它为消费者提供哪些数据分析功能?可以轻松集成第三方分析工具吗?

  • 成本核算策略。供应商将如何向企业收费?

数据湖实施

在选择平台之后,下一步是构建组织基础设施、流程和过程,以加载、管理和分析数据湖中的数据。

以下是数据湖植入策略中的关键步骤:

  • 确定有效支持平台和分析数据所需的专业知识。像许多复杂的技术一样,数据湖具有陡峭的学习曲线。企业需要雇用经验丰富的人才并培训内部人员,并且需要使用数据湖实施来定义新的组织角色和报告结构。

  • 为了执行经过深思熟虑的数据湖实施战略和设计,组织需要制定一个传统的项目计划,其中包括目标、里程碑和分配的行动项目。组织需要确定将用来评估数据湖项目的成功的标准,需要设计系统以促进自助式数据分析,还应该为数据存储和归档制定数据分类标准。

  • 实际上,组织生成的任何数据都是数据湖提取的潜在来源。挑战成为优先事项之一。一个更好的方法是评估生成数据的来源,并从高层次确定其对组织的重要性。

  • 组织应该确定当前是否正在分析信息以及正在发生的分析级别。高度分析的数据尽管仍然是潜在的摄取来源,但其重要性可能低于系统中未被评估的数据。

  • 制定、实施和实施数据治理策略,以确保数据安全、完整、一致、准确。

  • 为数据探索、实验和分析制定标准。数据科学家应该遵循一个标准化但灵活的过程来评估数据并确定将为业务带来最大价值的用例。这些数据的潜在目标是其他商业智能平台以及新的和现有的业务应用程序。


相关文档推荐

白酒制造主数据治理实践.PDF

1744330054 温来松 3.78MB 54页 积分8

提示词工程的理论与实践.PDF

1744283028 陈财猫 4.45MB 21页 积分5

智能化软件开发落地实践指南.PDF

1744265451  3.22MB 52页 积分5

智能AI企业大数据中台建设方案.PDF

1744157579  10.51MB 69页 积分6

大语言模型服务管理的实践.PDF

1744103522 马元元 8.6MB 27页 积分5

百度构建人机协同新范式的实践.PDF

1744103389 牛万鹏 2.72MB 33页 积分6

质量大模型及其在接口测试场景下的实践.PDF

1744026767 李庆泉 2.18MB 21页 积分5

基于GenAI的混合云智能运维实践.PDF

1744026734 周彩钦 2.29MB 23页 积分5

AI ChecklistQUNAR测试域结合AIGC提效实践.PDF

1744026643 崔宸 2.73MB 30页 积分6

相关文章推荐