使用Sqoop将MySQL数据导入到Hadoop
Hadoop的安装配置这里就不讲了。
Sqoop的安装也很简单。
Sqoop的安装与使用 http://www.linuxidc.com/Linux/2014-10/108337.htm
完成sqoop的安装后,可以这样测试是否可以连接到mysql(注意:mysql的jar包要放到 SQOOP_HOME/lib 下):
sqoop list-databases --connect jdbc:mysql://192.168.1.109:3306/ --username root --password 19891231
结果如下

即说明sqoop已经可以正常使用了。
下面,要将mysql中的数据导入到hadoop中。
我准备的是一个300万条数据的身份证数据表:

先启动hive(使用命令行:hive 即可启动)
然后使用sqoop导入数据到hive:
sqoop import --connect jdbc:mysql://192.168.1.109:3306/hadoop --username root --password 19891231 --table test_sfz --hive-import
sqoop 会启动job来完成导入工作。


完成导入用了2分20秒,还是不错的。
在hive中可以看到刚刚导入的数据表:

我们来一句sql测试一下数据:
select * from test_sfz where id < 10;

可以看到,hive完成这个任务用了将近25秒,确实是挺慢的(在mysql中几乎是不费时间),但是要考虑到hive是创建了job在hadoop中跑,时间当然多。
接下来,我们会对这些数据进行复杂查询的测试:
我机子的配置如下:

hadoop 是运行在虚拟机上的伪分布式,虚拟机OS是ubuntu12.04 64位,配置如下:

相关推荐
victorzhzh 2020-04-07
Streamoutput 2020-03-27
硅步至千里 2020-02-18
SignalDu 2020-02-17
mycosmos 2020-02-01
飞鸿踏雪0 2020-01-30
sujins 2020-01-04
hitxueliang 2019-12-31
strongyoung 2019-12-28
tlsmile 2019-12-17
eternityzzy 2019-12-14
csdnhadoop 2019-12-01
Franklyn 2015-06-29
herohope 2019-11-05
lxypeter 2017-08-09
flushest 2017-01-21
hanhan 2019-09-02
一个人的世界 2018-04-29