腾讯开发工程师：Linux 机器 CPU 毛刺问题排查

Claroja

2020-10-16

关注关注

本文排查一个Linux 机器 CPU 毛刺问题，排查过程中不变更进程状态、也不会影响线上服务，最后还对 CPU 毛刺带来的风险进行了分析和验证。

本文中提到 CPU 统计和产生 core 文件的工具详见 simple-perf-tools 仓库。

问题描述

某服务所在机器统计显示，其 CPU 使用率在高峰时段出现毛刺。

暂时未收服务调用方的不良反馈。

初步排查

查看 CPU 1 分钟平均负载，发现 1 分钟平均负载有高有低，波动明显。说明机器上有些进程使用 CPU 波动很大。

登录机器排查进程，使用top指令。因为 CPU 会明显上升，重点怀疑使用 CPU 总时间高的进程，在打开 top 后，使用shift +t可以按照 CPU TIME 进行排序。

直观的看，有几个 spp_worker 相关的进程使用 CPU TIME 相对较高。

第一个进程因为启动的时间比较长，所以 CPU TIME 也比较大。可以使用下面的脚本，计算各个进程从各自拉起后 CPU 使用率：

uptime=`awk '{print $1}' /proc/uptime` # why is it too slow indocker? 
hertz=`zcat /proc/config.gz | grep CONFIG_HZ= |awk -F"=" '{print $2}'` 
awk -v uptime=$uptime -v hertz=$hertz -- '{printf("%d\t%s\t%11.3f\n", $1, $2, (100 *($14 + $15) / (hertz * uptime - $22)));}' /proc/*/stat 2> /dev/null | sort  -gr -k +3 | head -n 20

看到的也是这些 spp_worker 使用 CPU 相对要高一些：

选其中的一个 PID 为 45558 的 Worker 进程监控器 CPU 使用率：

可以发现其 CPU 大部分情况很低，但是在某一个时间点会升高，持续 1 秒左右。而且大部分时间是耗费在用户态，而非系统调用。

而《Linux Agent 采集项说明 - CPU 使用率》中描述的 CPU 使用率的采样策略为：

Linux Agent 每分钟会采集 4 次 15 秒内的 CPU 平均使用率。为了避免漏采集 CPU 峰值，网管 Agent 取这一分钟内四次采集的最大值上报。

因为采样可能采到高点或者低点，当 1 分钟内出现 CPU 飙升，则会表现为尖峰；如果四次都没有出现飙升，则表现为低谷。

至此，已经能确认是这批 Worker 进程引起了这种毛刺，但具体是哪部分代码有问题还需要进一步排查。

进一步排查

前边确认了没有太多的系统调用，所以不必使用strace工具。

使用perf工具

使用perf工具进行查看。具体的命令是perf top -p 45558，在低 CPU 使用率的时候：

但是当 CPU 飚上去的时候，perf采样的位置变成如下这样：

看一下红框的位置，可以发现可能是配置更新部分有问题，因为：

这个地方 Protobuf 特别多的地方，在做更新的操作（有MergeFrom，有Delete）
有大量的用到了std::map（有std::_Rb_tree，有字符串比较）

通过观察perf结果的方法，虽然能够猜测大计算量的位置，但是有两个不便之处：

如果 CPU 高的情况发生概率很低，人为观察比较耗时
不能明确的知道，具体在哪个文件的哪个函数

使用gcore

最初统计的时候，发现 CPU 高的情况会出现 1 秒多的时间，如果发现 CPU 高负载时，直接调用gcore {pid}的命令，可以保留堆栈信息，明确具体高负载的位置。

将使用 gcore 的指令，添加到统计工具中取，设置 CPU 上门先触发。

通过gdb看了几个 coredump 文件，发现堆栈和函数调用基本一致。可以明确的看到，大量的耗时发生在了AddActInfoV3这一函数中：

到此位置，我们明确了高计算量发生的具体位置。

风险点

CPU 突然飙升是否存在风险呢？是不是计算资源充足的时候，就不会有问题呢？

这个例子中，使用的是 SPP 微线程功能，每个 Worker 进程只启用一个线程。

如果仅仅是因为高计算量卡住 CPU，正常处理请求的逻辑将很难被调度到。这样势必会造成处理请求的延迟增大，甚至有超时返回的风险。

使用 spp 的cost_stat_tool工具

利用 spp 自带的统计工具印证这一风险点，查看 worker 处理前端请求时延统计信息，执行命令./cost_stat_tool -r 1：

上边的例子中，统计发生配置更新前后的 5 秒钟内，worker 处理的 231 个请求中，有 3 个请求的处理时间超过 500ms，远高于普通请求。

使用tcpdump抓包确认

因该服务没有打开详细的日志，想要进一步验证超过 500ms 的这些请求也是正常处理的请求，而非异常请求，可以通过抓包来分析。

tcpdump -i any tcp port 20391 -Xs0 -c 5000 -w service_spp.pcap

通过 wireshark 打开，需要过滤出返回时间 - 请求时间 > 500ms的相关请求。翻译成 wireshark 过滤器的表达式则是：

tcp.time_delta > 0.5 && tcp.dstport != 20391

过滤出一条符合条件的请求：

在该条记录上右键 -> Follow -> TCP Stream，可以查看该请求前后的 IP 包：

上边 4 个包分别是：

+0ms 客户端发送请求至服务端
+38ms 服务端回复 ACK，无数据
+661ms 服务端发送返回至客户端
+662ms 客户端回复 ACK

详细看了包中的内容为一条普通请求，逻辑简单，应该在 20ms 内返回。而此时的该进程使用 CPU 也确实为高负载的情况：

linux系统 cpu时间 perf uptime

Claroja

0 关注 0 粉丝 0 动态

关注关注

一文理解 Linux 平均负载，附排查工具

平均负载可以对于我们来说及熟悉又陌生，但我们问平均负载是什么，但大部分人都回答说平均负载不就是单位时间内CPU使用率吗？其实并不是这样的，如果可以的话，可以 man uptime 来了解一下平均负载的详细信息。简单的说平均负载是指单位时间内，系统处于可运行

AnotherSpace 2020-11-03

如何对Linux ps命令输出进行排序

ps命令是理解Linux系统上运行的内容和每个进程使用的资源的关键。了解如何显示ps以任何方式提供的信息都是非常有用的，这些信息可以帮助您集中精力解决您要解决的问题。这样做的一个方面是能够按任何列对ps aux命令的输出进行排序，以突出显示特定的信息，例如

farwang 2020-11-25

如何在Fedora中安装VirtualBox

如果你对 Fedora Linux 感兴趣，这有几种方式可以尝试它。最简单还不影响你操作系统的方式是制作 Fedora 的 USB 临场启动盘。在 Linux 发行版的使用方式上，有一种可以无需安装而通过光盘或 USB 存储棒直接在计算机上启动完整的 Li

星愿心愿 2020-11-24

一篇带给你Linux磁盘管理和Shell编程

Linux磁盘管理常用三个命令为df、du和fdisk。列出文件系统的磁盘使用状况 - 「df」。磁盘分区表操作 - 「fdisk」。磁盘分区工具 - 「parted」。-c - 创建文件系统时检查磁盘损坏情况。-v - 显示详细信息。Shell脚本是一种

tianhuak 2020-11-24

Linux日志文件系统原来是这样工作的

文件系统要解决的一个关键问题是怎样防止掉电或系统崩溃造成数据损坏，在此类意外事件中，导致文件系统损坏的根本原因在于写文件不是原子操作，因为写文件涉及的不仅仅是用户数据，还涉及元数据包括 Superblock、inode bitmap、inode、data

zhjn0 2020-11-24

Linux环境变量配置全攻略

在自定义安装软件的时候，经常需要配置环境变量，下面列举出各种对环境变量的配置方法。export命令显示当前系统定义的所有环境变量。这两个命令执行的效果如下。使用export命令直接修改PATH的值，配置MySQL进入环境变量的方法:. 配置的环境变量中不要

昭君出塞 2020-11-23

自动解锁Linux上的加密磁盘

通过使用网络绑定磁盘加密，无需手动输入密码即可打开加密磁盘。从安全的角度来看，对敏感数据进行加密以保护其免受窥探和黑客的攻击是很重要的。要使用 LUKS 配置加密磁盘或分区，你需要使用cryptsetup工具。然而，网络绑定磁盘加密Network-Boun

bluecarrot 2020-11-23

Linux安装Nginx步骤详解

修改完成之后,重启nginx服务器.

liuchen0 2020-11-13

Linux安装Nginx步骤详解

修改完成之后,重启nginx服务器.

LUOPING0 2020-11-11

linux自动化交互脚本expect详解

expect脚本是Tcl脚本语言的拓展。用来实现自动的交互式任务，无需人为干预。在实际开发中，运行shell脚本有时候会输入linux密码或者是mysql密码等，而expect可以帮我们输入。timeout：timeout是expect脚本的内部变量，我们

linuxwcj 2020-10-21

Linux Shell 如何获取参数的方法

是显示最后命令的退出状态，0表示没有错误，其他表示有错误。不同点：$* 和 $@ 都表示传递给函数或脚本的所有参数，不被双引号(" ")包含时，都以"$1" "$2" …"$n"

以梦为马不负韶华 2020-10-20

Linux Shell脚本中获取本机ip地址方法

ifconfig -a|grep inet|grep -v 127.0.0.1|grep -v inet6|awk '{print $2}'|tr -d "addr:". 假设某个机器有192.*.*.8和10.*.*.*网段的IP，现

彼岸随笔 2020-10-20

Linux 中shell脚本设置开头固定格式的实现方法

每次进入shell都要设置开头，很麻烦，现修改vim配置文件即可。之后新建一个shell ，开头就会有固定的格式。这是在root用户下的配置，切换到用户使用shell 可能还是什么都没有，不过一般都是用root用户进行机器的管理。不加sudo 没有权限进入

yutou0 2020-10-17

浅析Linux之bash反弹shell原理

反弹shell往往是在攻击者无法直接连接受害者的情况下进行的操作，原因有很多，例如目标是局域网，或者开启防火墙的某些策略等情况，而这时，我们就可以让受害者主动向攻击者发起连接，被控端发起请求到控制端某端口，并将其命令行的输入输出转到控制端，从而实现交互。L

applecarelte 2020-10-16

linux反弹shell的原理详解

0代表输入，0>&1 意思是，将输出的窗口上所输入的值当作当前窗口的输入。反弹shell后会有两个窗口，即靶机的shell窗口跟攻击机的shell口。2代表标准错误输出。这是因为我们已经将所有的输出都重定向到了外部主机上，但问题是现在我们的

ourtimes 2020-10-16

Linux 通过 autojump 命令减少 cd 命令的使用的实现方法

Linux - 通过 autojump 命令减少 cd 命令的使用。在文件的最后追加一行。这行代码在你安装的时候，软件会提示你的，你复制上去就行。路径前面的数字，就是这个路径的权重值，权重值高的，如果找到多个时，优先进去。通过 j s 简写就可以快速进

waterhorse 2020-09-19

Linux下redis5.0.5的安装过程与配置方法

先将 redis-5.0.5 里的配置文件 redis.conf 移动到刚创建的 config 文件夹。注释掉 bind 127.0.0.1 这一行。将 protected-mode 属性改为 no

MRFENGG 2020-11-11

Redis概述及linux安装redis的详细教程

性能极高，Redis能读的速度是110000次/s,写的速度是81000次/s 。Redis支持数据的持久化，可以将内存中的数据保持在磁盘中，重启的时候可以再次加载进行使用。Redis不仅仅支持简单的key-value类型的数据，同时还提供list，set

rainandtear 2020-10-30

linux 常见的标识与Redis数据库详解

第一个 xxx 只的是用户名。第二个 xxx 代表的是 HOST主机。查看当前命令所在的位置。drwxr-xr-x 2 xxx xxx 4096 9月 1 18:37 公共的。第一列由10个字符组成，由 0-9 标识每一个字符。7-9: 其他用户所对应的

kyssfanhui 2020-10-20

Aliyun Linux 编译安装 php7.3 tengine2.3.2 mysql8.0 redis5的过程详解

之前写过 CentOS 安装 PHP，MySQL，Nginx 的相关文章，具体介绍这里就不写了，直接上操作步骤.nginx rewrite依赖于PCRE库，所以在安装Tengine前一定要先安装PCRE，最新版本的PCRE可在官网获取。安装OpenSSL

liuhangtiant 2020-10-20

安科网

腾讯开发工程师：Linux 机器 CPU 毛刺问题排查

Claroja

问题描述

初步排查

进一步排查

使用perf工具

使用gcore

风险点

使用 spp 的cost_stat_tool工具

使用tcpdump抓包确认

Claroja

相关推荐

一文理解 Linux 平均负载，附排查工具

如何对Linux ps命令输出进行排序

如何在Fedora中安装VirtualBox

一篇带给你Linux磁盘管理和Shell编程

Linux日志文件系统原来是这样工作的

Linux环境变量配置全攻略

自动解锁Linux上的加密磁盘

Linux安装Nginx步骤详解

Linux安装Nginx步骤详解

linux自动化交互脚本expect详解

Linux Shell 如何获取参数的方法

Linux Shell脚本中获取本机ip地址方法

Linux 中shell脚本设置开头固定格式的实现方法

浅析Linux之bash反弹shell原理

linux反弹shell的原理详解

Linux 通过 autojump 命令减少 cd 命令的使用的实现方法

Linux下redis5.0.5的安装过程与配置方法

Redis概述及linux安装redis的详细教程

linux 常见的标识与Redis数据库详解

Aliyun Linux 编译安装 php7.3 tengine2.3.2 mysql8.0 redis5的过程详解

Claroja