DataX安装使用实现MySQL到MySQL数据同步

暗夜之城

2020-07-26

关注关注

DataX安装使用实现MySQL到MySQL数据同步

1.前置条件：

1.1jdk安装

jdk安装前往官网，这里我安装jdk-8u261

解压

sudo mkdir -p /opt/moudle
sudo tar -zxvf jdk-8u261-linux-x64.tar.gz -C /opt/moudle/

设置环境变量

export JAVA_HOME=/opt/moudle/jdk1.8.0_261
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH

刷新配置
```
source /etc/profile
```

检查java

java -version

# 出现下面安装成功
java version "1.8.0_261"
Java(TM) SE Runtime Environment (build 1.8.0_261-b12)
Java HotSpot(TM) 64-Bit Server VM (build 25.261-b12, mixed mode)

1.2python安装

略（官方推荐>=2.6.X）

1.3 Hadoop单机伪分布式安装

2.安装DataX

DataX是阿里巴巴的一个异构数据源离线同步工具，致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。
!
下载地址：http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz

解压

tar -zxvf datax.tar.gz -C /opt/software/

运行自检脚本

cd /opt/software/datax/
bin/datax.py job/job.json

出现下面界面表示成功：

DataX安装使用实现MySQL到MySQL数据同步

/opt/software/datax/job/job.json格式。

{
	"content":[
		{
			"reader":{
				"name":"streamreader",# 流式读，根据DataX定义好的设置
				"parameter":{
					"column":[#把column里所有value读到流当中
						{
							"type":"string",
							"value":"DataX"
						},
						{
							"type":"long",
							"value":19890604
						},
						{
							"type":"date",
							"value":"1989-06-04 00:00:00"
						},
						{
							"type":"bool",
							"value":true
						},
						{
							"type":"bytes",
							"value":"test"
						}
					],
					"sliceRecordCount":100000
				}
			},
			"writer":{
				"name":"streamwriter",# 流式写，根据DataX定义好的设置
				"parameter":{
					"encoding":"UTF-8",
					"print":false#打印
				}
			}
		}
	],
	"setting":{
		"errorLimit":{# errorLimit错误限制
			"percentage":0.02,# 最大容忍错误限制百分比2%
			"record":0# 容忍错误记录调试 0
		},
		"speed":{# 控制并发数：通过byte或channel控制，这里默认通过byte控制
			"byte":10485760#以 sliceRecordCount乘以byte，打印数据条数占用空间
		}
	}
}

3.基本使用

3.1从stream读取数据并打印到控制台。

首先查看官方json配置模版

# 查看 streamreader --> streamwriter 模版
python /opt/software/datax/bin/datax.py -r streamreader -w streamwriter
# 模版如下：
DataX (DATAX-OPENSOURCE-3.0), From Alibaba !
Copyright (C) 2010-2017, Alibaba Group. All Rights Reserved.


Please refer to the streamreader document:
     https://github.com/alibaba/DataX/blob/master/streamreader/doc/streamreader.md 

Please refer to the streamwriter document:
     https://github.com/alibaba/DataX/blob/master/streamwriter/doc/streamwriter.md 
 
Please save the following configuration as a json file and  use
     python {DATAX_HOME}/bin/datax.py {JSON_FILE_NAME}.json 
to run the job.
{
    "job": {
        "content": [
            {
                "reader": {
                    "name": "streamreader", 
                    "parameter": {
                        "column": [], 
                        "sliceRecordCount": ""
                    }
                }, 
                "writer": {
                    "name": "streamwriter", 
                    "parameter": {
                        "encoding": "", 
                        "print": true
                    }
                }
            }
        ], 
        "setting": {
            "speed": {
                "channel": ""
            }
        }
    }
}

根据模版编写json文件

{
    "job": {
        "content": [
            {
                "reader": {
                    "name": "streamreader", 
                    "parameter": {
                        "column": [
                            {
                                "type":"string",
                                "value":"xujunkai, hello world!"
                            },
                            {
                                "type":"string",
                                "value":"徐俊凯, 你好!"
                            },
                        ], 
                        "sliceRecordCount": "10"#打印次数
                    }
                }, 
                "writer": {
                    "name": "streamwriter", 
                    "parameter": {
                        "encoding": "utf-8", #编码方式utf-8
                        "print": true
                    }
                }
            }
        ], 
        "setting": {
            "speed": {#控制并发数
                "channel": "2"#控制并发2次-->这里因为是打印所以会sliceRecordCount乘以channel 打印20遍。如果设置为mysql真的会进行并发
            }
        }
    }
}

创建一个json文件,在根目录

mkdir json
cd json/
vim stream2stream.json
# 将上述内容粘贴进去

运行job

/opt/software/datax/bin/datax.py ./stream2stream.json

如下图：

3.2从MySQL到MySQL批量插入

3.2.1预先准备工作：

写入和读取方准备创建库和表

# 创建库
create database `testdatax` character set utf8
# 创建表
create table user1w(
id int not null auto_increment,
name varchar(10) not null,
score int not null,
primary key(`id`))engine=InnoDB default charset=utf8;

编写一个简单存储过程，读取数据端插入数据：

DELIMITER //
create PROCEDURE add_user(in num INT)
BEGIN
DECLARE rowid INT DEFAULT 0;
DECLARE name CHAR(1);
DECLARE score INT;
WHILE rowid < num DO
SET rowid = rowid + 1;
set name = SUBSTRING(‘abcdefghijklmnopqrstuvwxyz‘,ROUND(1+25*RAND()),1);
set score= FLOOR(40 + (RAND()*60));
insert INTO user1w (name,score) VALUES (name,score);
END WHILE;
END //
DELIMITER ;

执行插入数据
```
call add_user(10000);
```

3.2.2 查看一下mysql到mysql的json配置

python /opt/software/datax/bin/datax.py -r mysqlreader -w mysqlwriter,json文件配置：

{
    "job": {
        "content": [
            {
                "reader": {
                    "name": "mysqlreader", # 读取端,根据DataX定义好的设置
                    "parameter": {
                        "column": [], # 读取端需要同步的列
            		   "splitPk": "",# 数据抽取时指定字段进行数据分片
                        "connection": [
                            {
                                "jdbcUrl": [], #读取端连接信息
                                "table": []# 读取端指定的表
                            }
                        ], 
                        "password": "", #读取端账户
                        "username": "", #读取端密码
                        "where": ""# 描述筛选条件
                    }
                }, 
                "writer": {
                    "name": "mysqlwriter", #写入端,根据DataX定义好的设置
                    "parameter": {
                        "column": [], #写入端需要同步的列
                        "connection": [
                            {
                                "jdbcUrl": "", # 写入端连接信息
                                "table": []# 写入端指定的表
                            }
                        ], 
                        "password": "", #写入端密码
                        "preSql": [], # 执行写入之前做的事情
                        "session": [], 
                        "username": "", #写入端账户
                        "writeMode": ""# 操作乐星
                    }
                }
            }
        ], 
        "setting": {
            "speed": {
                "channel": ""#指定channel数
            }
        }
    }
}

我的配置json：

{
    "job": {
        "content": [
            {
                "reader": {
                    "name": "mysqlreader", 
                    "parameter": {
                        "username": "root",
                        "password": "123"
                        "column": ["*"],
                        "splitPk": "id",
                        "connection": [
                            {
                                "jdbcUrl": [
                                    "jdbc:mysql://读取端IP:3306/testdatax?useUnicode=true&characterEncoding=utf8"
                                ], 
                                "table": ["user1w"]
                            }
                        ]
                    }
                }, 
                "writer": {
                    "name": "mysqlwriter", 
                    "parameter": {
                        "column": ["*"], 
                        "connection": [
                            {
                                "jdbcUrl": "jdbc:mysql://写入端IP:3306/testdatax?useUnicode=true&characterEncoding=utf8", 
                                "table": ["user1w"]
                            }
                        ], 
                        "password": "123", 
                        "preSql": [
                            "truncate user1w"
                        ], 
                        "session": [
                            "set session sql_mode=‘ANSI‘"
                        ], 
                        "username": "root", 
                        "writeMode": "insert"
                    }
                }
            }
        ], 
        "setting": {
            "speed": {
                "channel": "5"
            }
        }
    }
}

cd到datax下bin目录执行：

python2 datax.py /root/json/mysql2mysql.json

会打印同步数据信息完毕。更多配置见github-dataX

3.3从数据库MySQL数据导入到HDFS中

python /opt/software/datax/bin/datax.py -r mysqlreader -w mysqlwriter

未完待续...

datax mysql 数据同步 https

暗夜之城

0 关注 0 粉丝 0 动态

关注关注

MySQL超时参数以及相关DataX数据同步案例分享

MySQL系统变量提供关于服务器的一些配置和能力信息，大部分变量可在mysqld服务进程启动时设置，部分变量可在mysqld服务进程运行时设置。合理的系统变量设值范围，是保障MySQL稳定提供服务的重要因素。本文也结合数据同步的场景，对使用DataX3进行

SURLIYA 2016-09-26

数据源管理 | 基于DataX组件，同步数据和源码分析

DataX是一个异构数据源离线同步工具，致力于实现包括关系型数据库、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。解决异构数据源同步问题，DataX将复杂的网状的同步链路变成了星型数据链路，DataX作为中间传

cyydjt 2020-05-06

DataX分别使用Java代码实现和python代码实现

不管是Java代码实现DataX还是python代码实现DataX原理都是调用cmd界面调用DataX固定的接口实现数据导入。

Jonderwu 2020-03-04

使用DataX将.csv文件的数据读入Mysql数据库

检验是否存在python环境在cmd中输入python就会知道如果已经有python环境就如下所示出现版本等信息；进入安装好的datax目录下bin目录中，里面有datax.py文件，可以在cmd中测试：。python E:\大数据清洗工具\DataX\d

DonviYang 2020-03-04

使用dataX将数据从Mysql数据库同步到Oracle数据

最近有需求将数据从mysql同步到oracle，之前有使用kettle将表从oracle同步到mysql，这里使用的插件依然是阿里的dataX. OS name: "linux", version: "2.6.32-754.e

heniancheng 2020-02-11

DataX 产品说明

DataX是一个在异构的数据库/文件系统之间高速交换数据的工具，实现了在任意的数据处理系统之间的数据交换，由淘宝数据平台部门完成。而且以后每增加一种库类型，我们需要的工具数目将线性增长。DataX正是为了解决这些问题而生。(问题: 新增第n+1个数据源，是

huangliang00 2017-09-21

数据迁移工具Sqoop和DataX功能比较

最近由于项目需要，对Apache Sqoop和Taobao DataX工具进行了调研，这里是对二者功能的初步梳理，不会涉及技术细节和使用方法，留作日后选型参考。Sqoop是Apache下的顶级项目，用来将Hadoop和关系型数据库中的数据相互转移，可以将一

lxypeter 2017-08-09

异构数据源海量数据交换工具-Taobao DataX 下载和使用

DataX是一个在异构的数据库/文件系统之间高速交换数据的工具，实现了在任意的数据处理系统之间的数据交换。目前成熟的数据导入导出工具比较多，但是一般都只能用于数据导入或者导出，并且只能支持一个或者几个特定类型的数据库。)，并且经常需要在它们之间导入导出数据

Hashxu 2018-02-22

基于Tablestore Tunnel的数据复制实战

前言数据复制主要指通过互联的网络在多台机器上保存相同数据的副本，通过数据复制方案，人们通常希望达到以下目的：1）使数据在地理位置上更接近用户，进而降低访问延迟；2）当部分组件出现故障时，系统依旧可以继续工作，提高可用性；3）扩展至多台机器以同时提供数据访问

crhacq 2019-07-01

淘宝的数据解决方案：DataX产品说明

DataX是一个在异构的数据库/文件系统之间高速交换数据的工具，实现了在任意的数据处理系统之间的数据交换，由淘宝数据平台部门完成。DataX正是为了解决这些问题而生。DataX在淘宝的运用DataX上线后，我们对淘宝数据平台原有作业进行了逐步批量迭代替换。

yzj0 2013-03-15

【工具】Datax同步数据配置

$ python datax.py ../job/job.json4. 配置5 job json 文件配置nysql数据同步到odps：

hanniuniu 2019-06-21

在Tensorflow中使用RNN进行时间序列预测

目标是开始机器学习，并开始我的研究，这是关于在机器人中使用深度学习。这是一个具有非常独特模式的信号，因此我们的RNN应该几乎完美地预测它。例如，预测股票价格是一个时间依赖的概念。例如，在给定一系列单词的情况下，您可以训练RNN预测句子中的下一个单词。在这个

智能多媒体 2018-08-28

阿里云开源离线同步工具DataX3.0介绍

DataX 是一个异构数据源离线同步工具，致力于实现包括关系型数据库、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。为了解决异构数据源同步问题，DataX将复杂的网状的同步链路变成了星型数据链路，DataX作为

crhacq 2016-08-24

安科网

DataX安装使用实现MySQL到MySQL数据同步

暗夜之城

DataX安装使用实现MySQL到MySQL数据同步

1.前置条件：

1.1jdk安装

1.2python安装

1.3 Hadoop单机伪分布式安装

2.安装DataX

3.基本使用

3.1从stream读取数据并打印到控制台。

3.2从MySQL到MySQL批量插入

3.2.1预先准备工作：

3.2.2 查看一下mysql到mysql的json配置

3.3从数据库MySQL数据导入到HDFS中

暗夜之城

相关推荐

MySQL超时参数以及相关DataX数据同步案例分享

数据源管理 | 基于DataX组件，同步数据和源码分析

DataX分别使用Java代码实现和python代码实现

使用DataX将.csv文件的数据读入Mysql数据库

使用dataX将数据从Mysql数据库同步到Oracle数据

DataX 产品说明

数据迁移工具Sqoop和DataX功能比较

异构数据源海量数据交换工具-Taobao DataX 下载和使用

基于Tablestore Tunnel的数据复制实战

淘宝的数据解决方案：DataX产品说明

【工具】Datax同步数据配置

在Tensorflow中使用RNN进行时间序列预测

阿里云开源离线同步工具DataX3.0介绍

暗夜之城