Sqoop是什么

FireFox

2017-01-21

Sqoop(发音：skup)是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。

Sqoop项目开始于2009年，最早是作为Hadoop的一个第三方模块存在，后来为了让使用者能够快速部署，也为了让开发人员能够更快速的迭代开发，Sqoop独立成为一个Apache项目。

Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。

对于某些NoSQL数据库它也提供了连接器。Sqoop，类似于其他ETL工具，使用元数据模型来判断数据类型并在数据从数据源转移到Hadoop时确保类型安全的数据处理。Sqoop专为大数据批量传输设计，能够分割数据集并创建Hadoop任务来处理每个区块。

sqoop示例

编辑

（例如： MySQL,Oracle,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。

sqoop注意事项

编辑

尽管有以上的优点，在使用Sqoop的时候还有一些事情需要注意。首先，对于默认的并行机制要小心。默认情况下的并行意味着Sqoop假设大数据是在分区键范围内均匀分布的。这在当你的源系统是使用一个序列号发生器来生成主键的时候工作得很好。打个比方，当你有一个10个节点的集群，那么工作负载是在这10台服务器上平均分配的。但是，如果你的分割键是基于字母数字的，拥有比如以“A”作为开头的键值的数量会是“M”作为开头键值数量的20倍，那么工作负载就会变成从一台服务器倾斜到另一台服务器上。

如果你最担心是性能，那么可以研究下直接加载。直接加载绕过通常的Java数据库连接导入，使用数据库本身提供的直接载入工具，比如MySQL的mysqldump。但是有特定数据库的限制。比如，你不能使用MySQL或者PostgreSQL的连接器来导入BLOB和CLOB类型。也没有驱动支持从视图的导入。Oracle直接驱动需要特权来读取类似dba_objects和v_$parameter这样的元数据。请查阅你的数据库直连驱动程序局限性的相关文档。

进行增量导入是与效率有关的最受关注的问题，因为Sqoop专门是为大数据集设计的。Sqoop支持增量更新，将新记录添加到最近一次的导出的数据源上，或者指定上次修改的时间戳。

由于Sqoop将数据移入和移出关系型数据库的能力，其对于Hive—Hadoop生态系统里的著名的类SQL数据仓库—有专门的支持不足为奇。命令“create-hive-table”可以用来将数据表定义导入到Hive。

sqoop出现背景

编辑

Apache框架Hadoop是一个越来越通用的分布式计算环境，主要用来处理大数据。随着云提供商利用这个框架，更多的用户将数据集在Hadoop和传统数据库之间转移，能够帮助数据传输的工具变得更加重要。Apache Sqoop就是这样一款工具，可以在Hadoop和关系型数据库之间转移大量数据

sqoop 关系型数据库 target hadoop

安科网

Sqoop是什么

FireFox

sqoop示例

sqoop注意事项

sqoop出现背景

FireFox

相关推荐

大数据 hadoop ---- Sqoop、flume、chukwa

SQOOP增量抽取时，在HIVE中实现类似Oracle的merge操作

sqoop oracle到hive，动态分区一次操作记录

Sqoop 一点通

2020年寒假假期总结0201

错误: 找不到或无法加载主类 org.apache.sqoop.Sqoop

七,sqoop 安装

Sqoop的安装和使用

Sqoop -- 用于Hadoop与关系数据库间数据导入导出工作的工具

sqoop--数据库和hdfs之间的搬运工

小记--------sqoop的简单从mysql导入到hbase操作

sqoop面试题

sqoop安装与使用

imp exp to in mysql in hadoop

大数据模块开发----结果导出

数据迁移工具Sqoop和DataX功能比较

Sqoop是什么

Sqoop 导数据到HDFS, 用Spark SQL进行查询

Linux搭建Sqoop开发环境

解决sqoop不能找到$SQOOP_HOME/lib下面jar的问题

FireFox