使用Spark集群进行ETL的架构介绍

Forever-守望 CSDN博客

什么是ETL:

ETL（extract提取、transform转换、load加载）。ETL负责将分散的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后，进行清洗、转换、集成，最后加载到数据仓库或数据集市中，成为联机分析处理、数据挖掘提供决策支持的数据。

使用Spark开发ETL系统的优势：

1、由于海量的日志记录、交易记录，单机进行ETL变得越来越困难。搭建一套具备大规模数据处理能力的ETL系统成为大数据分析系统中不可或缺的环节。由于Spark在大数据处理能力上的高效率、及其简单易用的API、同时对各种数据库的访问都实现了良好的支持，使用Spark来开发搭建ETL成为一个不错的选择。

2、另外Spark DataFrame提供了详细的数据结构信息(即schema)，使得Spark SQL可以清楚地知道该数据集中包含哪些列，每列的名称和类型各是什么。同时SPark DataFrame提供了丰富的操作API且可以直接基于DataFrame进行SQL操作，成为了ETL存储中间数据的首选。

3、部署简单，只需要使用spark-submit命令提交worker即可。

相关架构和功能实现：

在此只介绍一些常用且使用spark开发容易实现的功能。

数据清洗、转换

数据合并：多表关联合并，字段合并

数据拆分：按一定规则进行数据拆分

数据解析提取：利用Spark的UDF、UDAF、UDTF等特性，自定义数据语义解析函数。

数据加载

增量ETL：1、使用时间戳作为增量字段，减小每次ETL的数据规模、提高数据ETL的效率。2、使用自增序列值做增量ETL，系统自动记录上次ETL过程的截至序列值作为下一次ETL的增量序列值进行ETL。

全量ETL：删除目标表数据，将源数据全部插入，同时对原始目标表数据备份。

异常处理

在ETL的过程中，必不可少的要面临数据异常而导致的ETL过程失败的问题，处理办法：

1、对于网络中断等外部原因造成的异常，设定尝试次数，

2、日志输出，记录ETL错误过程、执行的错误信息，Web方式查询及邮件通知。