Linux如何分析和排查系统故障——分析日志文件

在处理Linux系统出现的各种故障时,故障的症状是最易发现的,而导致这一故障的原因才是最终排除故障的关键。熟悉Linux系统中常见的日志文件,了解一般故障的分析与解决办法,将有助于管理员快速定位故障点,"对症下药",及时解决各种系统问题。

Linux如何分析和排查系统故障——分析日志文件

日志的功能

  • 用于记录系统、程序运行中发生的各种事件
  • 通过阅读日志,有助于诊断和解决系统故障

一、主要日志文件

1.主要的日志类型:

  • 内核及系统日志

由系统服务syslog统一进行管理,日志格式基本相似

  • 用户日志

记录系统用户登录及退出系统的相关信息

  • 程序日志

由各种应用程序独立管理的日志文件,记录格式不统一

注:Linux系统本身和大部分服务器程序的日志文件默认都放在目录/var/log/下。一部分程序共用一个日志文件,一部分程序使用单个日志文件,而有些大型服务器程序由于日志文件不知一个,所以会在/var/log/目录中建立相应的子目录来存放日志文件,这样既保证了日志文件目录的结构清晰,又可以快速定位日志文件。有相当一部分日志文件只有root用户才有权读取,这保证了相关日志信息的安全性。

2.常见的日志文件

对于Linux系统中的日志文件,有必要了解其各自的用途,这样才能在需要的时候更快地找到问题所在,及时解决各种故障。

  • /var/log/messages:记录Linux内核消息及各种应用程序的公共日志信息,包括启动、I/O错误、网络错误、程序故障等。对于未使用独立日志文件的应用程序或服务,一般都可以从该日志文件中获取相关的记录信息。
  • /var/log/cron:记录crond计划任务产生的事件信息。
  • /var/log/dmesg:记录Linux系统在引导过程中的各种事件信息。
  • /var/log/maillog:记录进入或发出系统的电子邮件活动。
  • /var/log/lastlog:记录每个用户最近的登录事件。
  • /var/log/secure:记录用户认证相关的安全事件信息。
  • /var/log/wtmp:记录每个用户登录、注销及系统启动和停机事件。
  • /var/log/btmp:记录失败的、错误的登录尝试及验证事件。

图示:

Linux如何分析和排查系统故障——分析日志文件

二、日志文件分析

对于大多数文本格式的日志文件(如内核及系统日志、大多数的程序日志),只要使用tail、more、less、cat(这些命令我以前都分享过,感兴趣的话,可以在我的主页找一下)等文本处理工具就可以查看日志内容。而对于一些二进制格式的日志文件(如用户日志),则需要使用特定的查询命令。

1.内核及系统日志

由系统服务 rsyslogd 统一管理

软件包:rsyslog-5.8.10-8.el6.x86_64

主要程序:/sbin/rsyslogd

配置文件:/etc/rsyslog.conf,通过查看/etc/rsyslog.conf文件中的内容,可以了解到系统默认的日志设置。

示例:

Linux如何分析和排查系统故障——分析日志文件

从配置文件/etc/rsyslog.conf中可以看到,受rsyslogd服务管理的日志文件都是Linux系统中最主要的日志文件,它们记录了Linux系统中内核、用户认证、邮件、计划任务等最基本的系统消息。在Linux内核中,根据日志消息的重要程度不同,将其分为不同的优先级别(数字等级越小优先级越高,消息越重要)。

日志消息的级别(这个很重要)

  • 0 EMERG(紧急):会导致主机系统不可用的情况
  • 1 ALERT(警告):必须马上采取措施解决的问题
  • 2 CRIT(严重):比较严重的情况
  • 3 ERR(错误):运行出现错误
  • 4 WARNING(提醒):可能会影响系统功能的事件
  • 5 NOTICE(注意):不会影响系统但值得注意
  • 6 INFO(信息):一般信息
  • 7 DEBUG(调试):程序或系统调试信息等

内核及大多数系统消息都被记录到公共日志文件/var/log/messages中,而其他一些程序消息被记录到各自独立的日志文件中,此外日志消息还能够记录到特定的存储设备中,或者直接发送给指定用户。查看/var/log/messages文件中内容如下:

Linux如何分析和排查系统故障——分析日志文件

如上图所示:对于rsyslog服务统一管理的大部分日志文件,使用的日志记录格式基本都是相同的。每一行表示一条日志消息,每一条消息均包括四个字段:

  • 时间标签:消息发出的日期和时间。
  • 主机名:生成消息的计算机名称。
  • 子系统名称:发出消息的应用程序的名称。
  • 消息:消息的具体内容。

注:在有些情况下,可以设置rsyslog,使其把日志信息记录到文件的同时将日志信息发送到打印机进行打印,这样无论网络入侵者怎样修改日志都不能清除入侵的痕迹。Rsyslog日志服务是一个常会被攻击的显著目标,破坏了它将会使管理员难以发现入侵及入侵痕迹,因此要特别注意监控其守护进程及配置文件。

2.用户日志

在var/log下的wtmp、btmp、lastlog等日志文件中,保存了系统用户登录、退出等相关的事件消息。但是这些文件都是二进制的数据文件、不能直接使用tail、less等文本工具进行浏览,需要使用who、w、users、last和lastb等用户查询命令来获取日志信息。

1) 查询当前登录的用户情况——users、who、w

users命令:只简单地输出当前登录的用户名称,每个显示的用户名对应一个登录会话。

who命令:用于报告当前登录到系统中的每个用户的信息。默认输出信息包括用户名、终端类型、登录日期及远程主机。

w命令:用于显示当前系统中每个用户及其所运行的进程信息,输出的信息比users、who更丰富。

示例:

Linux如何分析和排查系统故障——分析日志文件

2) 查询用户登录的历史记录——last、lastb

last命令:用于查询成功登录到系统的用户记录,最近的登录情况将显示在最前面。

lastb命令:用于查询登录失败的用户记录,如登录名错误、密码错误等情况。也可以直接从安全日志文件/var/log/secure中获取相关信息

示例:

Linux如何分析和排查系统故障——分析日志文件

3.程序日志

在Linux系统中,还有相当一部分应用程序并没有使用rsyslog服务来管理日志,而是由程序自己维护日志记录。例如:

Web服务:/var/log/httpd/

access_log、error_log

代理服务:/var/log/squid/

access.log、cache.log、squid.out、store.log

FTP服务:/var/log/xferlog

总地来说,作为一名合格的系统管理人员,应该提高警惕,随时注意各种可疑状况,定期并随机地检查各种系统日志文件,包括一般信息日志、网络连接日志、文件传输日志及用户登录日志记录等。例如:

  • 用户在非正常规定的时间登录,或者用户登录系统的IP地址和以往的不一样。
  • 用户登录失败的日志记录,尤其是那些一再连续尝试进入失败的日志记录。
  • 非法使用或不正当使用超级用户权限。
  • 无故或者非法重启各项网络服务的记录。
  • 不正常的日志记录,如日志残缺不全,或者是诸如wtmp这样的日志文件无故缺少了中间的记录文件。

另外,日志并不是完全可靠的,高明的黑客在入侵系统后,经常会打扫现场。所以需要综合运用以上的系统命令,全面、综合地进行审查和检测,切忌断章取义,否则可能做出错误的判断。

三、日志管理策略

  • 及时作好备份和归档
  • 延长日志保存期限
  • 控制日志访问权限

日志中可能会包含各类敏感信息,如账户、口令等

  • 集中管理日志

将服务器的日志文件发到统一的日志文件服务器

相关推荐