大型网站后台架构的Web Server与缓存
1.1 Web server
Webserver 用来解析HTTP协议。当web 服务器接收到一个HTTP请求时,会返回一个HTTP响应,例如送回一个HTML页面。为了处理一个请求,web服务器可以响应一个静态页面或者图片。进行页面跳转,或者把动态响应的产生委托给一些其它的程序完成,比如CGI,JSP,servlets,ASP,PHP脚本。
当用户访问一个网站时,首先用户通过查询DNS服务器,得到该域名对应的IP地址,然后使用这个IP地址来进行访问。用户的请求是一个url地址,在web 服务器端,url地址对应web服务器上的文件系统中的某个网站文件的路径。Web server的作用就是解析HTTP协议,通过用户发来请求的url地址从web服务器的文件系统中找到用户需要的HTML页面、静态文件,然后返回给用户。如果用户访问的是动态页面,则将请求转发到应用服务器来执行。
1.1.1 FastCGI
1.1.1.1 CGI
CGI(Common Gateway Interface) ,指运行在服务器上,提供同客户端HTML页面的接口。多数CGI程序被用来解释处理来自表单的输入信息,并在服务器产生相应的处理,或将相应的信息反馈给浏览器。
1.1.1.2 FastCGI
FastCGI是语言无关的、可伸缩架构的CGI开放扩展,其主要行为是将CGI解释器进程保持在内存中并因此获得较高的性能。而CGI解释器的反复加载是CGI性能低下的主要原因。如果CGI解释器保持在内存中并接受FastCGI进程管理器的调度,则可以提供良好的性能、伸缩性能和Fail-over特性等。
FastCGI的工作原理如下:
(1) FastCGI进程管理器自身初始化,启动多个CGI解释器进程(多php-cgi进程)并等待来自web server的连接。启动php-cgi FastCGI进程时,可以配置以TCP和UNIX套接字两种方式启动。
(2)当客户端请求到达web服务器时,web服务器将请求采用TCP协议或者UNIX套接字方式转发到FastCGI主进程,FastCGI主进程选择并连接到一个CGI解释器(子进程)。Web服务器将CGI环境变量和标准输入法发送到FastCGI子进程php-cgi。
(3)FastCGI子进程完成处理后将标准输出和错误信息从同一连接返回web服务器。当FastCGI子进程关闭连接时,请求便告知处理完成。FastCGI子进程接着等待并处理来自FastCGI进程管理器的下一个连接。
FastCGI的优点如下:
(1)稳定性。fastcgi是以独立的进程池运行cgi,单独一个进程死掉,系统可以轻松的丢弃,然后重新分配新的进程。
(2)安全性。fastcgi和宿主server完全独立,fastcgi如果down了,不会影响到server的性能。
(3)高性能。fastcgi和宿主server分开,大负荷的IO处理留给web server进行,比如大量图片、CSS等静态文件的IO操作,完全由web server处理完成。[2]
1.1.1.3 Lighttpd服务器
Lighttpd是一个具有非常低的内存开销,cpu占用率低,性能好的轻量级web server。支持fastCGI,CGI,输出压缩,URL重写,Alias等重要功能。
Lighttpd使用FastCGI方式运行php。
1.1.1.4 Apache服务器
Apache是世界上使用最多的web服务器,市场占有率50%以上。Apache支持SSL技术,支持多个虚拟主机。Apache是以进程为基础结构,进程相对线程消耗更多系统资源。相对Lighttpd和Nginx,Apache是一款重量级的web服务器。总体来讲,Apache web 服务器具有以下特性:
(1) 支持HTTP1.1通信协议。
(2) 支持通用网关接口。
(3) 支持基于ip、域名、端口的虚拟主机。
(4) 支持服务器端包含指令(ssl)。
(5) 支持FastCGI。
(6) 支持url重写。
1.1.1.5 Nginx服务器
1.1.1.6 Lighttpd、Apache、Nginx比较
Lighttpd是一个单进程模型的web server,内存使用量很小。Nginx在内存分配方面,表现良好。它使用多线程来处理请求,这使得多个线程之间可以共享内存资源,从而使它的内存使用量大大减少。此外,Nginx使用分阶段的内存分配策略,按需分配,及时释放,所以总体占用内存很小。可以支持较大的并发连接数。Apache在运行时使用较大的内存,Apache是多进程模型。Apache使用基于内存池策略的内存管理方法,这种方法使得Apache在运行开始时便一次性申请大片内存作为内存池,这样在随后需要的时候只在内存池中直接获取,不需要再分配。显然,Apache很占用内存。根据国内金山技术经理、系统架构师张宴给出的统计信息,2009年的web server使用情况如表4-1-1-5所示。
表4-1-1-5 各种webserver市场占有率排名
Web server | 2008.12使用数 | 占有率 | 2009.01使用数 | 占有率 | 占有率变化 |
Apache | 95678052 | 51.24% | 96947298 | 52.26% | +1.02% |
IIS | 63126940 | 33.81% | 61038371 | 32.91% | -0.90% |
10455103 | 5.60% | 9868819 | 5.32% | -0.28 | |
Nginx | 3354329 | 1.80% | 3462551 | 1.87% | +0.07% |
Lighttpd | 3046333 | 1.63% | 2989416 | 1.61% | -0.02% |
1.2 缓存
在计算机系统中,缓存有很多种。比如CPU内部的一级缓存、二级缓存。文件系统的缓存,磁盘的缓存。在大型网站的后台部署过程中,也灵活运用了各级缓存。主要有客户端的浏览器缓存,服务器端的web server自身缓存,代理缓存,分布式缓存,数据库自身的缓存等。本节主要分析一下代理缓存和分布式缓存。
1.2.1 代理缓存
常用的代理缓存有varnish和squid。如图4-2-1所示。
图4-2-1 代理缓存(黄色部分)
1.2.1.1 Squid
Squid是一个高性能的代理缓存服务器,可以用来加快浏览网页的速度,提高客户机的访问命中率。Squid不仅支持HTTP协议,还支持FTP、SSL、WAIS等协议。Squid用一个单独的、非模块化的、I/O驱动的进程来处理所有的客户端请求。
Squid的原理如下:
(1)每一台squid代理服务器上存有若干个颗磁盘。每颗磁盘又分割成多个分区,每一个分区又可建立很多目录,目录下存放着具体的文件(object)。
(2)squid通过查询表的方式来定位某个资源的位置。所查询的表有两种,一种是Hash table,一种是Digest table。Hash table记录着所有Digest table表信息,所以Hash table可以称之为目录或者提纲。而Digest table记录了磁盘上每个分区、每个目录里存放的缓存摘要,所以Digest table可以称之为摘要或者索引。所以,Squid接到请求后先查询Hashtable,根据Hash table所指向的Digest table,再查询所需要的文件。
(3)squid服务器存在两种工作关系,一种为Child-Parent,当child squid server没有用户需要的数据时,就向parent squid server发送请求,并持续等待,直到parent squid server回应为止;另一种为Sibling,当本地squid server没有用户请求的数据时,会向sibling server发送请求,如果sibling server没有资料则会向上级sibling或者internet发送数据请求。
所以,综上所述,squid运行模式如下: