数据迁移工具Sqoop和DataX功能比较
最近由于项目需要,对Apache Sqoop和Taobao DataX工具进行了调研,这里是对二者功能的初步梳理,不会涉及技术细节和使用方法,留作日后选型参考。
Sqoop是Apache下的顶级项目,用来将Hadoop和关系型数据库中的数据相互转移,可以将一个关系型数据库(例如:MySQL,Oracle,PostgreSQL等)中的数据导入到Hadoop的HDFS中,也可以将HDFS的数据导入到关系型数据库中。目前在各个公司应用广泛,且发展前景比较乐观。其特点在于:
1)专门为Hadoop而生,随Hadoop版本更新支持程度好,且原本即是从CDH版本孵化出来的开源项目,支持CDH4应该没问题。
2)支持并行导入,宣称速度很快(由于时间紧,未来得及进行真实环境的测试),可以指定按某个字段进行拆分并行化导入过程。
3)支持按字段进行导入与导出。
4)自带的辅助工具比较丰富,如sqoop-import、sqoop-list-databases、sqoop-list-tables等。
DataX是淘宝开源的数据导入导出的工具,支持HDFS集群与各种关系型数据库之间的数据交换。其特点在于:
1)官方版本支持的Hadoop版本较低(0.19),暂不支持高版本(如CDH4)。
2)支持从一个HDFS集群到另一个HDFS集群之间的数据导入导出。
3)支持数据不落地的并行导入导出。
注:以上并非是对这两个工具很全面的对比分析,仅供参考,欢迎拍砖。
相关推荐
leys 2011-04-21
硅步至千里 2020-02-18
victorzhzh 2020-04-07
Streamoutput 2020-03-27
SignalDu 2020-02-17
mycosmos 2020-02-01
飞鸿踏雪0 2020-01-30
sujins 2020-01-04
hitxueliang 2019-12-31
strongyoung 2019-12-28
tlsmile 2019-12-17
eternityzzy 2019-12-14
csdnhadoop 2019-12-01
Franklyn 2015-06-29
herohope 2019-11-05
flushest 2017-01-21
hanhan 2019-09-02
一个人的世界 2018-04-29