mysql查询时offset过大影响性能的原因和优化详解

csdnxiaowei

2019-04-17

前言

mysql查询使用select命令，配合limit，offset参数可以读取指定范围的记录。本文将介绍mysql查询时，offset过大影响性能的原因及优化方法。

准备测试数据表及数据

1.创建表

CREATE TABLE `member` (
 `id` int(10) unsigned NOT NULL AUTO_INCREMENT,
 `name` varchar(10) NOT NULL COMMENT '姓名',
 `gender` tinyint(3) unsigned NOT NULL COMMENT '性别',
 PRIMARY KEY (`id`),
 KEY `gender` (`gender`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8;

2.插入1000000条记录

<?php
$pdo = new PDO("mysql:host=localhost;dbname=user","root",'');

for($i=0; $i<1000000; $i++){
 $name = substr(md5(time().mt_rand(000,999)),0,10);
 $gender = mt_rand(1,2);
 $sqlstr = "insert into member(name,gender) values('".$name."','".$gender."')";
 $stmt = $pdo->prepare($sqlstr);
 $stmt->execute();
}
?>

mysql> select count(*) from member;
+----------+
| count(*) |
+----------+
| 1000000 |
+----------+
1 row in set (0.23 sec)

3.当前数据库版本

mysql> select version();
+-----------+
| version() |
+-----------+
| 5.6.24 |
+-----------+
1 row in set (0.01 sec)

分析offset过大影响性能的原因

1.offset较小的情况

mysql> select * from member where gender=1 limit 10,1;
+----+------------+--------+
| id | name  | gender |
+----+------------+--------+
| 26 | 509e279687 |  1 |
+----+------------+--------+
1 row in set (0.00 sec)

mysql> select * from member where gender=1 limit 100,1;
+-----+------------+--------+
| id | name  | gender |
+-----+------------+--------+
| 211 | 07c4cbca3a |  1 |
+-----+------------+--------+
1 row in set (0.00 sec)

mysql> select * from member where gender=1 limit 1000,1;
+------+------------+--------+
| id | name  | gender |
+------+------------+--------+
| 1975 | e95b8b6ca1 |  1 |
+------+------------+--------+
1 row in set (0.00 sec)

当offset较小时，查询速度很快，效率较高。

2.offset较大的情况

mysql> select * from member where gender=1 limit 100000,1;
+--------+------------+--------+
| id  | name  | gender |
+--------+------------+--------+
| 199798 | 540db8c5bc |  1 |
+--------+------------+--------+
1 row in set (0.12 sec)

mysql> select * from member where gender=1 limit 200000,1;
+--------+------------+--------+
| id  | name  | gender |
+--------+------------+--------+
| 399649 | 0b21fec4c6 |  1 |
+--------+------------+--------+
1 row in set (0.23 sec)

mysql> select * from member where gender=1 limit 300000,1;
+--------+------------+--------+
| id  | name  | gender |
+--------+------------+--------+
| 599465 | f48375bdb8 |  1 |
+--------+------------+--------+
1 row in set (0.31 sec)

当offset很大时，会出现效率问题，随着offset的增大，执行效率下降。

分析影响性能原因

select * from member where gender=1 limit 300000,1;

因为数据表是InnoDB，根据InnoDB索引的结构，查询过程为：

通过二级索引查到主键值（找出所有gender=1的id)。
再根据查到的主键值通过主键索引找到相应的数据块（根据id找出对应的数据块内容）。
根据offset的值，查询300001次主键索引的数据，最后将之前的300000条丢弃，取出最后1条。

不过既然二级索引已经找到主键值，为什么还需要先用主键索引找到数据块，再根据offset的值做偏移处理呢？

如果在找到主键索引后，先执行offset偏移处理，跳过300000条，再通过第300001条记录的主键索引去读取数据块，这样就能提高效率了。

如果我们只查询出主键，看看有什么不同

mysql> select id from member where gender=1 limit 300000,1;
+--------+
| id  |
+--------+
| 599465 |
+--------+
1 row in set (0.09 sec)

很明显，如果只查询主键，执行效率对比查询全部字段，有很大的提升。

推测

只查询主键的情况

因为二级索引已经找到主键值，而查询只需要读取主键，因此mysql会先执行offset偏移操作，再根据后面的主键索引读取数据块。

需要查询所有字段的情况

因为二级索引只找到主键值，但其他字段的值需要读取数据块才能获取。因此mysql会先读出数据块内容，再执行offset偏移操作，最后丢弃前面需要跳过的数据，返回后面的数据。

证实

InnoDB中有buffer pool，存放最近访问过的数据页，包括数据页和索引页。

为了测试，先把mysql重启，重启后查看buffer pool的内容。

mysql> select index_name,count(*) from information_schema.INNODB_BUFFER_PAGE where INDEX_NAME in('primary','gender') and TABLE_NAME like '%member%' group by index_name;
Empty set (0.04 sec)

可以看到，重启后，没有访问过任何的数据页。

查询所有字段，再查看buffer pool的内容

mysql> select * from member where gender=1 limit 300000,1;
+--------+------------+--------+
| id  | name  | gender |
+--------+------------+--------+
| 599465 | f48375bdb8 |  1 |
+--------+------------+--------+
1 row in set (0.38 sec)

mysql> select index_name,count(*) from information_schema.INNODB_BUFFER_PAGE where INDEX_NAME in('primary','gender') and TABLE_NAME like '%member%' group by index_name;
+------------+----------+
| index_name | count(*) |
+------------+----------+
| gender  |  261 |
| PRIMARY |  1385 |
+------------+----------+
2 rows in set (0.06 sec)

可以看出，此时buffer pool中关于member表有1385个数据页，261个索引页。

重启mysql清空buffer pool，继续测试只查询主键

mysql> select id from member where gender=1 limit 300000,1;
+--------+
| id  |
+--------+
| 599465 |
+--------+
1 row in set (0.08 sec)

mysql> select index_name,count(*) from information_schema.INNODB_BUFFER_PAGE where INDEX_NAME in('primary','gender') and TABLE_NAME like '%member%' group by index_name;
+------------+----------+
| index_name | count(*) |
+------------+----------+
| gender  |  263 |
| PRIMARY |  13 |
+------------+----------+
2 rows in set (0.04 sec)

可以看出，此时buffer pool中关于member表只有13个数据页，263个索引页。因此减少了多次通过主键索引访问数据块的I/O操作，提高执行效率。

因此可以证实，mysql查询时，offset过大影响性能的原因是多次通过主键索引访问数据块的I/O操作。（注意，只有InnoDB有这个问题，而MYISAM索引结构与InnoDB不同，二级索引都是直接指向数据块的，因此没有此问题 ）。

InnoDB与MyISAM引擎索引结构对比图

这里写图片描述

mysql查询时offset过大影响性能的原因和优化详解

优化方法

根据上面的分析，我们知道查询所有字段会导致主键索引多次访问数据块造成的I/O操作。

因此我们先查出偏移后的主键，再根据主键索引查询数据块的所有内容即可优化。

mysql> select a.* from member as a inner join (select id from member where gender=1 limit 300000,1) as b on a.id=b.id;
+--------+------------+--------+
| id  | name  | gender |
+--------+------------+--------+
| 599465 | f48375bdb8 |  1 |
+--------+------------+--------+
1 row in set (0.08 sec)

附：MYSQL limit,offset 区别

SELECT
  keyword
FROM
  keyword_rank
WHERE
  advertiserid='59'
order by
  keyword
LIMIT 2 OFFSET 1;

比如这个SQL ，limit后面跟的是2条数据，offset后面是从第1条开始读取

SELECT
  keyword
FROM
  keyword_rank
WHERE
  advertiserid='59'
ORDER BY
  keyword
LIMIT 2 ,1;

而这个SQL，limit后面是从第2条开始读，读取1条信息。

这两个千万别搞混哦。

总结

offset mysql创建数据库 sql优化 mysql select

csdnxiaowei

0 关注 0 粉丝 0 动态

关注关注

Mysql limit offset示例

例1，假设数据库表student存在13条数据。代码示例:语句1：select * from student limit 9,4语句2：slect * from student limit 4 offset 9// 语句1和2均返回表student的第10

wkwanglei 2020-06-13

redis主从复制

　　redis的高并发有一种实现方式就是主从架构，一个master节点，多个slave节点，可以很好的实现slave节点的水平扩容；主从架构再加上读写分离，master节点负责写操作，slave节点负责读操作，使得redis可以很好的做一个高并发的处理。有

qingmuluoyang 2020-06-10

Spring boot集成Kafka消息中间件

#earliest 当各分区下有已提交的offset时，从提交的offset开始消费；无提交的offset时，从头开始消费

sweetgirl0 2020-05-14

kafka 关于offset的理解--关于__consumer_offsets分析

通过命令查 ./bin/kafka-consumer-groups.sh --bootstrap-server ip:9092 --describe --group consumer2. 保存到 kafka配置的~/data文件夹(现有集群为3/分析得出就

yangyutong00 2020-04-26

趣味编程：静夜思（Rust版）

let text = "床前明月光疑是地上霜举头望明月低头思故乡";

Trustport 2020-04-15

kafka从头消费数据

Properties p = new Properties();

guicaizhou 2020-03-25

LIMIT和OFFSET用法小结

②表示从数据库中的第二条数据开始查询两条数据，即第二条和第三条。③表示从数据库中直接取前三条数据。

hellobabygogo 2020-03-20

kafka手动设置offset

项目中经常有需求不是消费kafka队列全部的数据，取区间数据

amwayy 2020-02-03

Undefined offset原因以及解决办法-php利用for遍历二维数组方法-二维数组怎么遍历

echo "<br>数组个数为: $zong";PHP 出现 Notice: Undefined offset:functions - Undefined offsetphp Notice: Undefined offset

igogo00 2020-01-31

spark streaming读取kakfka数据手动维护offset

在spark streaming读取kafka的数据中，spark streaming提供了两个接口读取kafka中的数据，分别是KafkaUtils.createDstream，KafkaUtils.createDirectStream，前者会自动把of

adayan0 2020-01-31

kafka重新设置group的offset

使用Kafka自带的kafka-consumer-groups.sh脚本可随意设置消费者组，这是0.11.0.0版本提供的新功能，设置的前提是：consumergroup状态是inactive的，即不能是处于正在工作中的状态。bogon:kafka_0.1

guicaizhou 2020-01-25

kafka（一）

//创建一个topic,名称为test_kafka，partitions为2个，replication有3个，topic的name为test2:. kafka-topics --zookeeper zk1:2181,zk2:2181,zk3:2181 --

amwayy 2019-12-22

springboot中实现kafa指定offset消费

kafka消费过程难免会遇到需要重新消费的场景，例如我们消费到kafka数据之后需要进行存库操作，若某一时刻数据库down了，导致kafka消费的数据无法入库，为了弥补数据库down期间的数据损失，有一种做法我们可以指定kafka消费者的offset到之前

猫咪的一生 2019-12-14

深入了解Kafka【四】消费者的Offset管理

Consumer通过提交Offset来记录当前消费的最后位置，以便于消费者发生崩溃或者有新的消费者加入消费者组，而引发的分区再均衡操作，每个消费者可能会分到不同的分区。我测试的kafka版本是：0.11.0.2，消费者往一个特殊的主题“_consumer_

sweetgirl0 2019-12-08

使用limit,offset分页场景时为什么会慢

五年前在腾讯的时候，发现分页场景下，mysql请求速度非常慢。数据量只有10w的情况下，select xx from 单机大概2，3秒。假设status上面有索引。select * from table where status = xx limit 10

vimysql 2019-11-22

ios中正则表达式的使用

使用正则表达式可以很方便的操作一个字符串，根据一定的规则可以用来查找、替换。

xianfengmc 2013-08-27

JMeter Beanshell

生成Jar包放入jmeterlib目录中。

Cherishyuu 2019-11-17

redis主从复制

一.什么是主从复制？简单来说slave复制master数据。

八角塘塘主 2019-11-08

关于6410开发板Linux内存地址0Xc0008000的由来

查看6410数据手册可以看到，内存开始地址应该是0x50000000，而实际在real6410开发板使用过程中U-boot加载Linux内核都是加载到0xC0008000处开始运行，我猜测这个是因为Linux启动内核的地址为0xC0008000，而U-bo

Rafema 2011-03-08

深入理解Kafka必知必会（上）

与此同时，Kafka 还提供了大多数消息系统难以实现的消息顺序性保障及回溯消费的功能。

猫咪的一生 2019-11-07

安科网

mysql查询时offset过大影响性能的原因和优化详解

csdnxiaowei

csdnxiaowei

相关推荐

Mysql limit offset示例

redis主从复制

Spring boot集成Kafka消息中间件

kafka 关于offset的理解--关于__consumer_offsets分析

趣味编程：静夜思（Rust版）

kafka从头消费数据

LIMIT和OFFSET用法小结

kafka手动设置offset

Undefined offset原因以及解决办法-php利用for遍历二维数组方法-二维数组怎么遍历

spark streaming读取kakfka数据手动维护offset

kafka重新设置group的offset

kafka（一）

springboot中实现kafa指定offset消费

深入了解Kafka【四】消费者的Offset管理

使用limit,offset分页场景时为什么会慢

ios中正则表达式的使用

JMeter Beanshell

redis主从复制

关于6410开发板Linux内存地址0Xc0008000的由来

深入理解Kafka必知必会（上）

csdnxiaowei