面试题：如何造10w条测试数据，在数据库插入10w条不同数据

GhostLWB

2020-06-14

前言
面试题：如果造10w条测试数据，如何在数据库插入10w条数据，数据不重复
最近面试经常会问到sql相关的问题，在数据库中造测试数据是平常工作中经常会用到的场景，一般做压力测试，性能测试也需在数据库中先准备测试数据。那么如何批量生成大量的测试数据呢？
由于平常用python较多，所以想到用python先生成sql，再执行sql往数据库插入数据。
使用语言：python 3.6
插入数据
首先我要插入的 SQL 语句，需每条 id 不重复 ,下面是执行单个插入语句
INSERT INTO apps.apiapp_card (id, card_id, card_user, add_time) VALUES (‘1‘, ‘‘, ‘test123‘, ‘2019-12-17‘);
10w 太多执行时间长，用 python 先生成 1w条测下执行时间。
首先要生成多个inert 语句，这里我用 python 语言写段生成sql的文本。

用 %s 替换需要变的字段值，如果有多个值都需要变，可以用多个%s替换对应值，我这里设计的表，只要id不一样就可以插入成功。
用for 循环，每次循环 id 加1，这样 id 就可以保证不会重复，否则插入数据库时有重复的无法写入成功。
a 是追加写入
每条sql后面分号隔开
每次写入数据，最后面加\n 换行

python3

作者：上海-悠悠 QQ群717225969

for i in range(10000):
a = "INSERT INTO apps.apiapp_card (id, card_id, card_user, add_time) VALUES (‘%s‘, ‘‘, ‘test123‘, ‘2019-12-17‘);"%str(i+1)
with open("a.txt", "a") as fp:
fp.write(a+"\n")
执行python代码，在本地生成一个 a.text 文件，打开生成的数据，部分如下
INSERT INTO apps.apiapp_card (id, card_id, card_user, add_time) VALUES (‘1‘, ‘‘, ‘test123‘, ‘2019-12-17‘);
INSERT INTO apps.apiapp_card (id, card_id, card_user, add_time) VALUES (‘2‘, ‘‘, ‘test123‘, ‘2019-12-17‘);
INSERT INTO apps.apiapp_card (id, card_id, card_user, add_time) VALUES (‘3‘, ‘‘, ‘test123‘, ‘2019-12-17‘);
INSERT INTO apps.apiapp_card (id, card_id, card_user, add_time) VALUES (‘4‘, ‘‘, ‘test123‘, ‘2019-12-17‘);
......
INSERT INTO apps.apiapp_card (id, card_id, card_user, add_time) VALUES (‘10000‘, ‘‘, ‘test123‘, ‘2019-12-17‘);

如果id是手机号呢，如何生成10w个不同手机号？
可以按手机号前3位开头的号码段生成，比如186开头的，先用初始数据 1860000000，再这个数字基础上每次加1
加到 18600099999，这样号码段1860000000-18600099999就是10w个手机号了。
把id换成手机号后，修改代码如下

python3

作者：上海-悠悠 QQ群717225969

for i in range(10000):
a = "INSERT INTO apps.apiapp_card (id, card_id, card_user, add_time) VALUES (‘%s‘, ‘‘, ‘test123‘, ‘2019-12-17‘);"%str(i+1860000000)
with open("a.txt", "a") as fp:
fp.write(a+"\n")
只需在上面基础上把 str(i+1) 改成 str(i+1860000000) 就可以生成手机号了
INSERT INTO apps.apiapp_card (id, card_id, card_user, add_time) VALUES (‘1860000000‘, ‘‘, ‘test123‘, ‘2019-12-17‘);
INSERT INTO apps.apiapp_card (id, card_id, card_user, add_time) VALUES (‘1860000001‘, ‘‘, ‘test123‘, ‘2019-12-17‘);
INSERT INTO apps.apiapp_card (id, card_id, card_user, add_time) VALUES (‘1860000002‘, ‘‘, ‘test123‘, ‘2019-12-17‘);
把生成的文本复制出来，多个INSERT INTO 对应的 sql 一次性贴到 navicat 客户端执行
执行完成花了5分钟左右，也就是说10w条得50分钟，这太慢了，要是数据更多，会等太久，不是我们想要的效果！
批量执行
由于单个执行，花费时间太长，现在需要优化下改成一个 inert 语句，改成批量插入数据，只写一个 insert into 这样一次性批量写到数据库，会快很多。
可以将SQL语句进行拼接，使用 insert into table () values (),(),(),()然后再一次性插入。
批量执行要么全部成功，要么一个都不会写入成功，当写的 SQL 语法有问题时就不会写入成功了。
需注意：

拼接 sql ,多个values 值中间用英文逗号隔开
value 值要与数据表的字段一一对应
一定要注意最后一条数据后面不是逗号，改成分号

python3

作者：上海-悠悠 QQ群717225969

insert_sql = "INSERT INTO apps.apiapp_card VALUES "
with open("b.txt", "a") as fp:
fp.write(insert_sql+"\n")
for i in range(10000):
a = "(‘%s‘, ‘‘, ‘test123‘, ‘2019-12-17‘),"%str(i+10001)
with open("b.txt", "a") as fp:
fp.write(a+"\n")
执行完成后，复制 b.text 文件的内容，需注意的是这里一定要改成；结尾，否则语法报错
部分数据内容展示如下
INSERT INTO apps.apiapp_card VALUES
(‘10001‘, ‘‘, ‘test123‘, ‘2019-12-17‘),
(‘10002‘, ‘‘, ‘test123‘, ‘2019-12-17‘),
......
(‘20000‘, ‘‘, ‘test123‘, ‘2019-12-17‘);
复制生成的 INSERT INTO 到 navicat 客户端执行
执行完成，最后看的测试结果，1w条数据只用了0.217秒，速度明显提高不少。
10w数据插入
接着测下，当生成10 w条数据的时候，会花多少时间？

作者：上海-悠悠 QQ群717225969

python3

insert_sql = "INSERT INTO apps.apiapp_card VALUES "
with open("b.txt", "a") as fp:
fp.write(insert_sql+"\n")
for i in range(100000):
a = "(‘%s‘, ‘‘, ‘test123‘, ‘2019-12-17‘),"%str(i+100000)
with open("b.txt", "a") as fp:
fp.write(a+"\n")
使用python脚本执行后生成的数据如下
INSERT INTO apps.apiapp_card VALUES
(‘100000‘, ‘‘, ‘test123‘, ‘2019-12-17‘),
(‘100001‘, ‘‘, ‘test123‘, ‘2019-12-17‘),
......
(‘199999‘, ‘‘, ‘test123‘, ‘2019-12-17‘);
直接插入mysql 这时候会有报错：Err 1153 - Got a packet bigger than ‘max_allowed_packet‘ bytes
报错原因：由于数据量较大，mysql 会对单表数据量较大的 SQL 做限制，10w条数据的字符串超出了max_allowed_packet
的允许范围。
解决办法：需修改mysql 数据库的max_allowed_packet的值，改大一点
max_allowed_packet
先在 navicat 输入命令查看 max_allowed_packet 最大允许包
show global variables like ‘max_allowed_packet‘;
查看到 value 值是 4194304，最大限制是 40 M,我们只需的sql字符串太大了，超出了这个范围。
在 navicat 客户端我们无法直接修改对应 value值，需登录到mysql，用命令行修改。
我这里 mysql 是搭建在 docker 上，需先进容器，登录到mysql.
操作步骤如下：
docker exec 进docker容器
mysql -uroot -p 输入密码后登录mysql
set global max_allowed_packet=419430400; 设置最大允许包 400M
show global variables like ‘max_allowed_packet‘; 查看前面设置是否生效
[_0_2_centos ~]# docker exec -it 934b30a6dc36 /bin/bash
:/# mysql -uroot -p
Enter password:
Welcome to the MySQL monitor. Commands end with ; or \g.
Your MySQL connection id is 303822
Server version: 5.7.27 MySQL Community Server (GPL)

Oracle is a registered trademark of Oracle Corporation and/or its
affiliates. Other names may be trademarks of their respective
owners.

Type ‘help;‘ or ‘\h‘ for help. Type ‘\c‘ to clear the current input statement.

mysql> set global max_allowed_packet=419430400;
Query OK, 0 rows affected (0.00 sec)

mysql>
从上面的查询结果可以看到，已经生效了。
再次重新执行上面10w条数据，查看运行结果总共花11秒左右时间。
受影响的行: 100000
时间: 11.678s
上面的方法只能临时生效，当重启mysql后，你会发现又还原回去了。
这里还有一种永久生效的方法，需修改my.cnf配置文件
在[mysqld]部分添加一句，如果有就修改对应的值：

max_allowed_packet=40M
这里的值，可以用 M单位，修改后，需要重启下mysql就可以生效了
使用python执行
如果不用 navicat 客户端，直接用python去执行，会花多少时间呢？
先封装连接mysql的方法，然后拼接执行的sql语句，拼接的时候需注意，最后的字符，需改成；
在执行代码前先获取当前的时间戳，代码执行完成后再次获取一次时间戳。两次的时间间隔，就是执行的时间了，时间单位是s
python 执行 mysql 代码参考如下
import pymysql
‘‘‘

python3

作者：上海-悠悠 QQ群717225969
pip install PyMySQL==0.9.3
‘‘‘

dbinfo = {
"host": "192.168.1.x",
"user": "root",
"password": "123456",
"port": 3306}

class DbConnect():
def init(self, db_cof, database=""):
self.db_cof = db_cof
# 打开数据库连接
self.db = pymysql.connect(database=database,
cursorclass=pymysql.cursors.DictCursor,
**db_cof)

# 使用cursor()方法获取操作游标
    self.cursor = self.db.cursor()

def select(self, sql):
    # SQL 查询语句
    # sql = "SELECT * FROM EMPLOYEE     #        WHERE INCOME > %s" % (1000)
    self.cursor.execute(sql)
    results = self.cursor.fetchall()
    return results

def execute(self, sql):
    # SQL 删除、提交、修改语句
    # sql = "DELETE FROM EMPLOYEE WHERE AGE > %s" % (20)
    try:
       # 执行SQL语句
       self.cursor.execute(sql)
       # 提交修改
       self.db.commit()
    except:
       # 发生错误时回滚
       self.db.rollback()

def close(self):
    # 关闭连接
    self.db.close()

if name == ‘main‘:
import time
insert_sql = "INSERT INTO apps.apiapp_card VALUES "
insert_values = "".join(["(‘%s‘, ‘‘, ‘test123‘, ‘2019-12-17‘), \n"%str(i+100000) for i in range(100000)])
# 拼接sql
sql = insert_sql + insert_values[:-3]+";"
# print(sql)
# 执行sql
time1 = time.time()
db = DbConnect(dbinfo, database="apps")
db.execute(sql)
db.close()
time2 = time.time()
print("总过耗时：%s" % (time2-time1))
使用python执行结果：总过耗时：1.0816256999969482,结果超出我的想象，10w条数据居然只要1秒钟！

大数据数据库 python

安科网

面试题：如何造10w条测试数据，在数据库插入10w条不同数据

GhostLWB

python3

作者：上海-悠悠 QQ群717225969

python3

作者：上海-悠悠 QQ群717225969

python3

作者：上海-悠悠 QQ群717225969

作者：上海-悠悠 QQ群717225969

python3

python3

GhostLWB

相关推荐

分布式文档存储数据库之MongoDB备份与恢复的实践详解

分布式文档存储数据库之MongoDB分片集群的问题

Forrester发布全栈公有云开发平台报告，腾讯云再次入选领导者象限

SAP AMDP介绍 - ABAP托管的HANA数据库过程

docker容器与宿主机的数据交互方式总结

详解Vue数据驱动原理

vue+echarts+datav大屏数据展示及实现中国地图省市县下钻功能

THINKPHP5分页数据对象处理过程解析

需要知识的后深度学习时代，如何高效自动构建知识图谱

人工智能技术如何落地交通出行？

将云技术带入数据中心-走向数据驱动型业务的旅程

联想持续发力智能物联，构建新基建时代下的行业新引擎

数据科学面试中应了解的十种机器学习概念

雾计算在物联网中的应用

AI格局正在从“数据”转变为“知识”

数据骗子无处不在，教你拆穿所谓“万金油”

模型数据出现偏差怎么办？一文了解机器学习中的7种数据偏差类型

机器学习中处理缺失值的9种方法

人工智能和机器学习如何从物联网数据中提取关键见解

IT打工人，AI来“抢”你饭碗了！这次从数据中心下手

GhostLWB