谈谈Linux中的TCP重传抓包分析

boante

2019-11-05

关注关注

文章首发于公众号:松花皮蛋的黑板报
作者就职于京东,在稳定性保障、敏捷开发、高级JAVA、微服务架构有深入的理解

谈谈Linux中的TCP重传抓包分析

收到研发反馈，TCP重传严重。主机报文重传是TCP最基本的错误恢复功能，它的目的是防止报文丢失

谈谈Linux中的TCP重传抓包分析

报文丢失的可能因素有很多种

1、网络设备或线路故障
案例：设备接口常常出现的CRC数据校验错误
特点：问题一直持续，所有经过该节点的数据都受影响，影响服务器数量大
2、数据路径上的流量突发导致链路拥塞
案例：专线打满导致丢包严重
特点：突发性极强，持续时间短。更多时候有周期性。所有经过该节点的数据都受影响，影响服务器数量大
3、客户端服务器故障
案例：某服务器网卡故障，或者性能下降
特点：故障长时间持续，仅仅影响单台设备
4、服务器端服务器故障
案例：某服务器网卡故障
特点：故障长时间持续，所有请求到该节点的数据都受影响，影响服务器数量大
5、服务器端性能下降
案例：有运营活动的时候服务端请求量太大，导致性能下降
特点：突发，如果服务端有巨量请求会有周期性，所有请求到这台设备(集群)的数据都有可能受影响，影响服务器数量大
6、代理节点或者VIP性能下降
案例：某一负载均衡集群故障或性能下降
特点：突发，有周期性。所有请求到该节点的数据都受影响，影响服务器数量大
先抓包生成pcap文件，tcpdump -i nsdb475e5d-86 -vvv -w tcp_retry.pcap，保留证据要紧，同时留意值班群和网络应急响应群是否有相同的反馈，如果有其他人反馈，及时确认受影响范围，服务器是否有一些共性，比如集中在某个数据中心上、某个POD下、某台物理机上

使用以下命令实时可以观察系统中每秒tcp重传报文数量，线上监控工具推荐使用阿里出品的tsar-Taobao System Activity Reporter

nstat -z -t 1 | grep -e TcpExtTCPSynRetrans -e TcpRetransSegs -e TcpOutSegs -e TcpInSegs

谈谈Linux中的TCP重传抓包分析

使用netstat -s查看整体情况，按各个协议进行统计结果如下

谈谈Linux中的TCP重传抓包分析

ss -anti |grep -B 1 retrans查看重传统计情况，具体到IP+端口，这里方便显示使用ss -tanl演示

谈谈Linux中的TCP重传抓包分析

1、 LISTEN 状态：
这两个值表示的是最大的listen backlog积压数值，这里显示为0，实际上会取内核参数net.core.somaxconn的值

2、其他状态：
(1)、 recv-Q:表示网络接收队列，表示收到的数据已经在本地接收缓冲，但是还有多少没有被进程取走，如果短暂不为0，可能是处于半连接状态，如果接收队列Recv-Q一直处于阻塞状态，可能是遭受了拒绝服务 denial-of-service 攻击
(2)、send-Q:表示网路发送队列，对方没有收到的数据或者说没有Ack的,还是在本地缓冲区.如果发送队列Send-Q不能很快的清零，可能是有应用向外发送数据包过快，或者是对方接收数据包不够快
非LISTEN状态下则通常应该为0，如果不为0可能是有问题的，packets在两个队列里都不应该有堆积状态，可接受短暂的非0情况

ulimit -a检查服务打开的文件句柄上限,10多万正常是足够的

谈谈Linux中的TCP重传抓包分析