Linux网站服务器(Apache)的日志与监视

环境:Linux Ubuntu 2.6.27-7 + PHP Version 5.3.2 + Apache/2.2.9

我们可以利用UNIX/Linux的一些工具和一此专门的日志分析工具对日志文件进行分析。
日志一方面是我们分析网站的第一手资料,一方面却是吞噬大量磁盘空间的罪魁祸首。所以别忘了定期转储或删除一些老的日志文件。

Web服务器日志轮循

Web服务器日志轮循比较好的方式有三种:第一种方法是利用Linux系统自身的日志文件轮循机制logrotate;第二种方法是利用Apache自带的日志轮循程序rotatelogs;第三种是使用在Apache的FAQ中推荐发展已经比较成熟的一个日志轮循工具 cronolog(本文以此为例)。

对于大型的Web服务来说,往往使用实用负载均衡技术提高Web站点服务能力,这样后台有多个服务器提供Web服务,大大方便了服务的分布规划和扩展性。如果有多个服务器的分布需要对日志进行合并,统一进行统计分析。因此为了保证统计的精确性,需要严格按照每天的时段来自动生成日志。

用cronolog实现日志轮循

首先需要下载和安装cronolog,可以到http://www.cronolog.org下载最新版本的cronolog。下载完毕以后,解压安装即可。方法如下所示:

  1. tar xvfz cronolog-1.6.2.tar.gz
  2. cd cronolog-1.6.2
  3. ./configure
  4. make
  5. make check
  6. make install

在Ubuntu下直接apt-get install cronolog安装

这样就完成了cronolog的配置和安装,默认情况下cronolog是安装在/usr/local/sbin下。

修改Apache日志配置命令如下所示:

  1. <VirtualHost *:80>
  2. DocumentRoot /web/www/eetag.com
  3. ServerName www.eetag.com
  4. ServerAdmin webmaster@eetag.com
  5. CustomLog "|/usr/local/sbin/cronolog /web/logs/eetag.com/%Y%m%d/%H/%M.log" combined
  6. </VirtualHost>

生成日志和路径内容如下:/web/logs/eetag.com/20100929(年月日)/11(小时)/05.log(分)

  1. 119.145.71.82 - - [29/Sep/2010:11:08:04 +0800] "GET /c.php?a=roger HTTP/1.1" 200 - "-" "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.2.10) Gecko/20100914 Firefox/3.6.10"
  2. 119.145.71.82 - - [29/Sep/2010:11:08:04 +0800] "GET /c.php?a=roger HTTP/1.1" 200 - "-" "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.2.10) Gecko/20100914 Firefox/3.6.10"
  1. LogFormat "%h\"%{%Y-%m-%d %H:%M:%S}t\"%q\"%{Referer}i\"%{User-agent}i" mysql 
  2. SetEnvIf Request_URI \.gif$ gif-image
  3. CustomLog "|/usr/local/sbin/hiidolog /web/logs/mall/%Y%m%d/%H/%M.log" mysql env=gif-image

从上面的日志文件可以看出,日志记录会记录客户端的IP地址、访问发生的时间、访问请求的页面、Web服务器对于该请求返回的状态信息、返回给客户端的内容的大小(以字节为单位)、该请求的引用地址、客户浏览器类型等信息。

自定义日志文件的内容格式

  1. <VirtualHost *:80>
  2. DocumentRoot /web/www/eetag.com
  3. ServerName www.eetag.com
  4. ServerAdmin webmaster@eetag.com
  5. LogFormat "%a,%>s,%{%S}t,%q" rogerFormat //定义一个名叫rogerFormat的内容格式
  6. CustomLog "|/usr/local/sbin/cronolog /web/logs/eetag.com/%Y%m%d/%H/%M.log" rogerFormat
  7. </VirtualHost>

只记录图片���问日志

  1. <VirtualHost *:80>
  2. DocumentRoot /web/www/eetag.com
  3. ServerName www.eetag.com
  4. ServerAdmin webmaster@eetag.com
  5. LogFormat "%a,%>s,%{%S}t,%q" rogerFormat //定义一个名叫rogerFormat的内容格式
  6. SetEnvIf Request_URI \.gif$ gif-image
  7. CustomLog "|/usr/local/sbin/cronolog /web/logs/eetag.com/%Y%m%d/%H/%M.log" rogerFormat  env=gif-image
  8. </VirtualHost>

具体的日志格式,可以参考apache官方手册:http://httpd.apache.org/docs/2.2/mod/mod_log_config.html#formats
Apache文档已经给出了所有可用于格式串的变量及其含义,下面是其译文:

  1. %...a: 远程IP地址
  2. %...A: 本地IP地址
  3. %...B: 已发送的字节数,不包含HTTP
  4. %...b: CLF格式的已发送字节数量,不包含HTTP头。例如当没有发送数据时,写入‘-’而不是0
  5. %e: 环境变量FOOBAR的内容
  6. %...f: 文件名字
  7. %...h: 远程主机
  8. %...H 请求的协议
  9. %i: Foobar的内容,发送给服务器的请求的标头行。
  10. %...l: 远程登录名字(来自identd,如提供的话)
  11. %...m 请求的方法
  12. %n: 来自另外一个模块的注解“Foobar”的内容
  13. %o: Foobar的内容,应答的标头行
  14. %...p: 服务器响应请求时使用的端口
  15. %...P: 响应请求的子进程ID
  16. %...q 查询字符串(如果存在查询字符串,则包含“?”后面的部分;否则,它是一个空字符串。)
  17. %...r: 请求的第一行
  18. %...s: 状态。对于进行内部重定向的请求,这是指*原来*请求的状态。如果用%...>s,则是指后来的请求。
  19. %...t: 以公共日志时间格式表示的时间(或称为标准英文格式)
  20. %t: 以指定格式format表示的时间
  21. %...T: 为响应请求而耗费的时间,以秒计
  22. %...u: 远程用户(来自auth;如果返回状态(%s)是401则可能是伪造的)
  23. %...U: 用户所请求的URL路径
  24. %...v: 响应请求的服务器的ServerName
  25. %...V: 依照UseCanonicalName设置得到的服务器名字
  26. “...”表示一个可选的条件。如果没有指定条件,则变量的值将以“-”取代。分析前面来自默认httpd.conf文件的 LogFormat指令示例,可以看出它创建了一种名为“common”的日志格式,其中包括:远程主机,远程登录名字,远程用户,请求时间,请求的第一行代码,请求状态,以及发送的字节数。

相关推荐