深入理解Linux下的Socket异常

andwey

2017-01-12

关注关注

在各种网络异常情况的背后，TCP是怎么处理的?又是怎样把处理结果反馈给上层应用的?本文就来讨论这个问题，分为两个场景来讨论。

建立连接时的异常情况

1.正常情况下

经过三次握手，客户端连接成功，服务端有一个新连接到来。

深入理解Linux下的Socket异常

2.客户端连接了服务端未监听的端口

在这种情况下，服务端会对收到的SYN回应一个RST(RFC 793 3.4)，客户端收到RST之后，终止连接，并进入CLOSED状态。

客户端的connect返回ECONNREFUSED 111 /* Connection refused */。

深入理解Linux下的Socket异常

3.客户端与服务器之间的网络不通，这又分两种情况:

connect返回主机不可达。具体信息在不同系统上不一样，比如linux上的定义是EHOSTUNREACH 113 /* No route to host */。明显给出了一个不可访问的地址(例如，访问一个不存在的本地网络地址，或者DNS解析失败会导致这种情况。

connect返回连接超时。这种情况下，客户端发送的SYN丢失在网络中，没有得到确认，客户端的TCP会超时重发SYN。以Ubuntu 12.04为例，重发SYN的时间,系列是：0,1,3,7,15,31,63(2n-1-1)。即发送7个SYN后等待一个超时时间(例如：127秒)，如果在这段时间内仍然没有收到ACK，则connect返回超时。

在这两种情况下，服务端的状态没有变化，对服务端来讲什么也没发生。

4.建立连接的过程中包丢失

三次握手发送的包系列是SYN > SYN-ACK > ACK

SYN丢失。这种情况就是3种的第2种情况。

SYN-ACK丢失。从客户端的角度来讲以前面一种情况类似。从服务端的角度来讲，由LISTEN状态进入SYN_REVD状态。服务端的TCP会重发SYN-ACK，直到超时。SYN攻击正是利用这一原理，攻击方伪造大量的SYN包发送到服务器，服务器对收到的SYN包不断回应SYN-ACK，直到超时。这会浪费服务器大量的资源，甚至导致奔溃。对服务端的应用层来讲，什么也没有发生。因为TCP只有在经过3次握手之后才回通知应用层，有新的连接到来。

深入理解Linux下的Socket异常

ACK丢失。这对服务端来讲与2相同。对于客户端来讲，由SYN_SENT状态进入了ESTABLISED状态，即连接成功了。连接成功后客户端就可以发送数据了。

但实际上数据是发送不到服务端的(我们假设客户端收到SYN-ACK之后，客户端与服务端之间的网络就断开了)，客户端发送出去的数据得不到确认，一般重发3次左右就会处于等待ACK的状态(win7)。而ubuntu 12.10下，调用send会返回成功，直到TCP的缓冲被填满(测试环境：局域网，感觉这个不是很合理，按照书上所说：应该是使用“指数退避”进行重传 -- TCP/IP协议详解，大概是我的测试环境中有NAT所致吧)。最终，客户端产生一个复位信号并终止连接。返回给应用程序的结果是Connection time out(errno: 110)

连接建立成功后出现的异常情况

1.客户端与服务器的网络断开，双方不再发送数据

这样，双方都不知道网络已经不通，会一直保持ESTABLISHDED状态，除非打开了SO_KEEPALIVE选项。

2.网络断开，一方给另一方发送数据

这种情况下，接收一方不知道网络出问题，会一直等待数据到来。对于发送方，理论上的情况是，重传一定次数后，返回连接超时。不过实际，很可能是这样的情况，发送方显示发送数据成功(send返回发送的数据长度)，但实际接收方还没有接收到数据。

对于已经发送成功的数据有3种可能情况：

在本机的TCP缓存中
在网络上的某个NAT的缓存中
对方已经成功接收到

在实验的过程中发现，即使网络断开了，发送方仍然收到了对数据的ACK(在有NAT的情况下)，猜测是NAT把数据缓存起来并发送了ACK。

当网络恢复时，那些被缓存的数据会被发送到接收方。鉴于这样的结果，给我们一个提示：不能依赖于TCP的可靠性，认为我发送成功的数据，对方一定能收到。TCP可以保证可靠、有序的传输，这意思是说保证收到的数据时有序正确的，并没有说已经发送成功的数据，对方一定就收到了。

在ubuntu 12.10上，发送方一直在发送数据，直到缓冲区满。而在win7下，重发3次就会停止，进入等待ACK状态。

解决的办法是：应用层对数据是否接收完成进行确认(需要的时候)。

3.网络断开，一方等待着另一方发送数据

这种情况下，等待数据的一方将一直等待下去。接收方无法直接知道网络已经断开，一般是设置一个超时时间，超时时间到就判断为网络已断开。发送数据的一方的反应如2所述。

4.一方crash，另一方继续发送/接收数据

这依赖于TCP协议栈对crash的反应。与系统相关性很大，例如：

在windows下：按ctrl+c结束程序，会发送RST段。而在linux下，按ctrl+c结束程序，会调用close。

在wind7下，如果没有调用close而结束程序，TCP会发送RST。而Ubuntu12.10上，则会发送FIN段。

1).crash的一端发送FIN，相当于调用了close

没有crash的一端接收数据，具体的反应与系统有关，例如

linux 3.8.0-29-generic调用recv返回-1，errno被设置为22，Invalid argument，而linux3.3.6-030306-generic调用recv返回0.在TCP内部，调用recv时，发送FIN，终止连接(Linux)。

windows情况以此不同，recv返回0，表示对方调用了shutdown。TCP内部发送一个RST。

但共同点是recv都会立即返回失败。

没有crash的一端发送数据

第一次调用send返回成功，数据会被发送到crash的一端，crash的一端会回应一个RST，再次调用send返回-1， errno被设置为32， Broken pipe。注意：这会向应用程序发送SIGPIPE信号，你的程序会莫名其妙退出。这是因为程序对SIGPIPE的默认处理就是结束程序。

这是编写服务器程序是最需要注意的一个问题。最简单的处理方法是忽略该信号 -- signal(SIGPIPE,SIG_IGN);

windows下行为是一样的，不同的是返回的错误是10053 - WSAECONNABORTED，由于软件错误，造成一个已经建立的连接被取消。

共同点第一次send成功，之后就出错。

2).crash的一端发送RST

没有crash的一端接收数据

调用recv返回-1，errno被设置为104， Connection reset by peer。在TCP内部，当收到RST时，把错误号设为ECONNRESET。

没有crash的一端发送数据

调用send返回-1，errno被设置为104， Connection reset by peer。在TCP内部，当收到RST时，把错误号设为ECONNRESET

3).crash的一端即没发送FIN也没发送RST

没有crash的一端接收数据

调用recv会一直阻塞等待数据到来

没有crash的一端发送数据

重传一定次数后，返回connection time out。

5.一端关闭连接

这种情况与一端crash并发送FIN 的情况相同，参看4.1

总结

上面分析的目的是：当程序出现网络异常时，能够知道问题的原因在哪?

作为开发者，我们主要关心应用层面的返回状态。一般出错的地方是调用connect, recv, send的时候。

下面做一个总结

connect函数返回状态及其原因

深入理解Linux下的Socket异常

recv函数返回状态及其原因

深入理解Linux下的Socket异常

send函数返回状态及其原因

socket linux服务器

安科网

深入理解Linux下的Socket异常

andwey

andwey

相关推荐

php使用event扩展的io复用测试的示例

从Linux源码看Socket(TCP)的Listen及连接队列

从Linux源码看Socket(TCP)的Bind

基于python实现简单C/S模式代码实例

Python gevent协程切换实现详解

php 利用socket发送GET，POST请求的实例代码

python socket了解使用

浅析Linux中的零拷贝技术

浅析Linux中的零拷贝技术

关于linux进程间的close-on-exec机制

【从BIO到Netty】1.BIO存在的问题

记录一次kattle抽取数据报错：socket read timeout

ubuntu 16.04快速搭建nginx + php7.1 + mysql 环境

Node.js API详解之 dgram模块用法实例分析

从linux源码看socket的阻塞和非阻塞

nginx优化之keepalive

Redis单线程的正确理解

Python3 socket 实现即时通讯脚本，threading 多线程

Socket.IO入门原理

RHEL 7.4 下yum安装配置nginx与php

andwey