计算机网络应用层之HTTP协议
一、什么是HTTP协议
HTTP是HyperText Transfer Protocol即超文本传输协议的缩写,是Web应用层协议之一。
HTTP协议由两部分程序实现:一个客户机程序和一个服务器程序,它们运行在不同的端系统中,通过交换HTTP报文运行会话。HTTP定义了Web客户机是如何向Web服务器请求Web页面,以及服务器如何将Web页面传送给客户机的。
HTTP使用 TCP作为它的支撑运输协议。HTTP客户机发起一个与服务器的TCP连接,一旦连接建立,浏览器(客户机)和服务器进程就可以通过套接字接口访问 TCP。至于TCP是什么,在后面的文章中,会详细介绍,这里读者只需要知道,TCP是面向连接的,提供可靠的数据传输服务,可以无差错、按顺序地交付要发送的数据。即使用TCP作为其支撑的HTTP协议不用担心数据丢失,也不用担心TCP是如何从网络的数据丢失和乱序故障中恢复的,因为那是TCP以及协议栈底层协议的工作。
HTTP是一个无状态协议,所以服务器向客户机发送被请求的文件时,并不存储任何关于该客户机的状态信息。举个例子来说,就是假如某个特定的客户机在短短几秒内两次请求同一个对象,服务器并不会因为刚刚为该用户提供了该对象而不做出反应,而是重新发送该对象,就好像服务器已经完全忘记了之前所做的事一样。
最后补充一下,我们平时上网请求的Web页面是由对象组成的。对象,简单点来说就是文件,如HTML文件、jpg图片、视频等文件,这些文件可通过一个URL地址寻址。当我们请求一个页面时,我们通常会得到一个HTML文件和几个引用对象,然后再根据HTML文件中对象的URL地址来加载对象。
二、非持久连接和持久连接
当客户机/服务器的交互运行于TCP协议上时,应用程序的每个请求/响应对是经一个单独的TCP连接,则该应用程序使用非持久连接,而当应用程序的每个请求/响应对是经相同的TCP连接发送,则该应用程序使用持久连接。
1、首先,我们来研究一下非持久连接。
在非持久连接的情况下,服务器在发送响应后,关闭TCP连接。我们定义往返时间RTT为一个小分组从客户机到服务器再回到客户所花费的时间。所以RTT包括分组传播时延、排列时延以及分组处理时延。
我们知道 HTTP协议基于TCP协议作为运输层,所以使用HTTP与服务器之间建立一个连接,则要发起一个到服务器的TCP连接,而TCP建立连接涉及一个“三次握手”的过程。关于“三次握手”在后面介绍TCP的文章中会详细介绍,这里我们只需要知道,它就是客户机向服务器发送一个小TCP报文段,服务器用一个小的报文段做出确认和响应,最后,客户机向服务器返回确认。注意,完成了三次握手的前两部分后,客户机将三次握手的第三部分(确认)与一个HTTP请求报文结合起来发送到该TCP连接。一旦请求报文到达服务器,服务器向该TCP连接发送HTML文件。从上面的描述,我们可以知道,对于一个非持久连接,请求一个HTTP请求/响应需要的总时间为两个RTT+服务器传输HTML文件的时间。
2、再来看看持久连接。
在持久连接的情况下,服务器在发送响应后,保持该TCP连接打开。在相同的客户机与服务器之间的后续请求和响应报文通过相同的连接进行传送。特别是一个完整的Web页面(包括多个对象)可以使用单个持久TCP连接进行传送。如果一个连接经过一定时间间隔仍未被使用,HTTP服务器就关闭该连接。
位于同一台服务器的多个Web页面在从该服务器发送给同一个客户机时,可以在单个持久TCP连接上进行,这睦对象请求可一个接一个地发出,而不必等待未决请求的回答,这种方式叫做流水线式的持久连接,它是HTTP默认使用的持久连接。
3、非持久连接的缺点
首先,非持久连接必须为每一个请求的对象建立和维护一个全新的连接。对于每个这样的连接,在客户机和服务器都要分配TCP的缓冲区和变量,从而给服务器带来了严重的负担。其次,每一个对象的传输时延为两个RTT,即一个RTT用于建立TCP,另一个RTT用于请求和接收一个对象。
三、HTTP报文格式
1、HTTP的请求报文格式
首先,来看看HTTP的请求报文的报文格式,如下图所示:
第一行是请求行,请求行有3个字段,方法字段、URL字段和HTTP版本字段。方法字段可以取值GET、POST、HEAD、PUT和DELETE等,绝大多数请求使用GET方法。其后继行叫做首部行。当使用GET方法时,实体主体通常为空,而当使用POST方法时,实体主体通常为需要POST给服务器的内容,例如,我们在网页上输入的数据。
下面,给出一个真正的HTTP请求报文,如下:
GET /xxx/page.html HTTP/1.1
Host: www.xxx.com
Connection: close
User-agent:Mozilla/4.0
Accept-language: fr
跟上图对应,这个报文第一行表示请求行,浏览器向服务器请求一个对象,使用了GET方法,它的地址在URL字段中,为/xxx/page.html,所使用的HTTP版本为1.1。
其余的行为首部行,冒号前的是首部字段名,后面是字段的值。
Host: www.xxx.com 定义了目标所在的主机,首部行提供的信息是Web代理高速缓存所要求的。
Connection: close 它告诉服务器不希望使用持久连接,它要求服务器在发送完被请求的对象后就关闭连接。
User-agent:Mozilla/4.0 用来定义用户代理,即向服务器发送请求的浏览器类型,这里为Netscape浏览器。
Accept-language: fr 表示用户想得到该对象的法语版本。
2、HTTP响应报文格式
HTTP响应报文格式与HTTP请求报文有点不同,HTTP的响应报文格式如下图所示:
我们可以看到它同样由三部分组成,第一行为状态行,其后的为首部行,最后的为要发送的实体主体。实体主体部分是报文的主体,即它包含了所请求的对象本身。
下面来看看一个真实的HTTP响应报文,如下:
HTTP/1.1 200 OK
Connection: close
Data: Thu, 03, Jul, 2013 00:00:00 GMT
Server: Apache/1.3.0 (Unix)
Last-Modified: Sun, 6, May 2007 09:23:24 GMT
Content-Type: text/html
(data ... data ...)
首先看一看第一行,它对应上图中的状态行,在该报文中,状态行指示服务器使用的协议是HTTP/1.1,状态码为200,短语为OK,表示一切正常,信息包含在返回的响应报文中。
第2到5行为首部行,
Connection: close 告诉客户机在报文发送完后关闭该TCP连接。
Data 首部行指示服务器产生并发送该响应报文的日期和时间,它是服务器从它的文件系统中检索到该对象,插入到响应报文的时间。
Server 首部行表明该报文是由一个Apache Web服务器产生的,它类似于请求报文中的User-agent首部行。
Last-Modified 首部行指示了该对象创建或者最后修改的时间和日期。
Content-Type 首部行指示了实体主体中的对象的文件类型,对象类型应该正式地使用该首部行而不是用文件扩展名来指示,因为在某些系统(如Linux),文件的类型并不是用扩展名为区分的。
Content-Length 首部行表明了被发送对象的字节数。
3、常见的HTTP状态码和短语
200 OK:请求成功,信息包含在返回的响应报文中。
301 Moved Permanently:请求的对象已经被永久转移了,新的URL定义在响应报文的Location 首部行中指定。客户机可自动用新的URL获取该对象。
400 Bad Repuest:一个通用差错代码,指示该请求不能被服务器所理解。
404 Not Found:被请求的文档不在服务器上。