使用Sqoop实现HDFS与Mysql互转

疯狂的艺术家开源中国

Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具，可以将一个关系型数据库（例如：MySQL ,Oracle ,Postgres等）中的数据导入到Hadoop的HDFS中，也可以将HDFS的数据导入到关系型数据库中。

http://sqoop.apache.org/

环境

当调试过程出现IncompatibleClassChangeError一般都是版本兼容问题。

为了保证hadoop和sqoop版本的兼容性，使用Cloudera，

Cloudera简介：

Cloudera为了让Hadoop的配置标准化，可以帮助企业安装，配置，运行hadoop以达到大规模企业数据的处理和分析。

http://www.cloudera.com/content/cloudera-content/cloudera-docs/CDHTarballs/3.25.2013/CDH4-Downloadable-Tarballs/CDH4-Downloadable-Tarballs.html

下载安装hadoop-0.20.2-cdh3u6，sqoop-1.3.0-cdh3u6。

目的

将mysql数据转换为hadoop文件，从而可以使用map/reduce进行大数据的分析，然后再将分析结果转换回mysql，供业务查询调用。

安装

安装比较简单，直接解压即可

唯一需要做的就是将mysql的jdbc适配包mysql-connector-java-5.0.7-bin.jar copy到$SQOOP_HOME/lib下。

配置好环境变量：/etc/profile

export SQOOP_HOME=/home/hadoop/sqoop-1.3.0-cdh3u6/

export PATH=$SQOOP_HOME/bin:$PATH

MYSQL转HDFS-示例

./sqoop import --connect jdbc:mysql://10.8.210.166:3306/recsys --username root --password root --table shop -m 1 --target-dir /user/recsys/input/shop/$today

输出数据：

./hadoop fs -cat /user/recsys/input/shop/2013-05-07/*

生成的hdfs数据

287,516809,0,0,6,25,45.78692,126.65384

288,523944,0,0,29,6,120.26087,30.17264

-------------------------------------------------------

HDFS转MYSQ-示例

./sqoop export --connect jdbc:mysql://10.8.210.166:3306/recsys --username root --password root --table shopassoc --fields-terminated-by ',' --export-dir /user/recsys/output/shop/$today

输入数据：

./hadoop fs -cat /user/recsys/output/shop/2013-05-07/*

Hdfs原始数据

null,857207,729974,947.0818,29,2013-05-08 10:22:29

null,857207,524022,1154.2603,29,2013-05-08 10:22:29

--------------------------------------------------------------------------

技巧

导出导入的数据与字段的顺序进行匹配

从HDFS转换回mysql 的时候，自动增长的主键字段处，可以留空

示例参数说明

参数类型	参数名	解释
公共	connect	Jdbc-url
公共	username	---
公共	password	---
公共	table	表名
Import	target-dir	制定输出hdfs目录，默认输出到/user/$loginName/
export	fields-terminated-by	Hdfs文件中的字段分割符，默认是“\t”
export	export-dir	hdfs文件的路径

导出大数据的拆分：

m	使用多少个并行导入，默认是1，未开启，数据量大的话会自动根据主键ID进行拆分
split-by	使用于没有主键的表的拆分，指定拆分的字段，拆分的原则是分布要广泛（自动拆分）
Where	同时可以手动执行多次，通过where条件进行手动拆分

参数	解释
Job	定时作业, 个人觉得没啥意义，通常我更相信crontab
eval	执行sql，远程进行一些操作，但是经过测试发现不支持 delete
create-hive-table	复制某一个数据源的数据存储到hive

CIO之家 www.ciozj.com 公众号:imciow

关联的文档

也许您喜欢

正确做数据治理的十个关键步骤
51CTO CIO之家的朋友
使用Storm实现实时大数据分析
CSDN 网友
什么是数据科学?如何把数据变成产品?
36大数据麦克.罗克德斯
消息订阅发布系统Apache Kafka分布式集群环境搭建和简单测试
51cto 网友
大数据和实时分析的算法分类
articles.e- 网友
Hadoop和传统大数据处理方式的差别
CIOZJ 记者