数据库服务器硬盘故障分析及建议
产品信息:
产 品:DL580 G5
型 号:487381-B21
序列号:CNG941S242
硬件架构:
DL580 G5单机
系统架构:
Red Hat Linux Enterprise 5 + Oracle Database
故障现象:
一台DL580 G5 BAY5上一块300G硬盘与06月07日亮红灯报警,在06月08日惠普金牌服务工程师更换上新硬盘后,后台同步数据20~30分钟后,同一阵列中另外一块BAY2硬盘亦亮红灯,操作系统死机。重启服务器后,无法正常进入操作系统,LOGVOL04有文件损坏。
故障分析:
1.RAID5实质内容为N-1的阵列特性,本CASE中DL580 G5是由8块硬盘构成,所以实际应用中,为7块硬盘的容量在被实际数据使用,另外一块的硬盘容量可以简单理解为存放校验数据。所以,RAID5阵列模式下,只允许损坏一块硬盘。RAID5阵列模式下,不对存储的数据进行备份,而是把数据和相对应的奇偶校验信息存储到组成RAID5的各个磁盘上,并且奇偶校验信息和相对应的数据分别存储于不同的磁盘上。当RAID5的一块硬盘数据发生损坏后,利用剩下的数据和相对应的奇偶校验信息去恢复被损坏的数据。
以4个硬盘为例:见下图
2.本CASE中,DL580 G5在06月07日出现第一块即BAY5硬盘亮红灯,在次日即06月08日早晨07:00左右,此阵列中的另外一块硬盘BAYA2亦出现了读错误,但尚未达到报废的程度,所以未亮红灯报警,请见下图通过日志读到的BAY2硬盘错误信息:
06-08-2011 07:41:35 | Physical Drive Drive State | Drive failed. SCSI Port 1 SCSI ID 2 Physical drive 0002. Failure reason: Aborted command. Configured drive flag 01. Spare drive flag 00. Big drive 00000002. Enclosure bay 02. Enclosure box 00. (00 04 00 00 00 00 00 00 00 00 00 02 00 00 00 0e 00 00 00 01 00 00 00 00 00 00 00 02 07 db 06 08 00 00 6c 2f 02 17 1b 68 00 00 00 06) |
06-08-2011 07:41:35 | Logical Drive Status | State change, logical drive 00000000. Previous logical drive state: Logical drive is currently recovering. New logical drive state: Logical drive failed. Old spare status: 00000000 New spare status: No spare assigned (00 05 00 00 00 00 00 00 00 00 00 00 00 00 00 05 00 00 00 01 00 00 00 00 00 00 00 00 07 db 06 08 00 00 6c 2f 02 17 1b 68 00 00 00 07) |
通过以上内容可以看出,此RAID5阵列中先后有两块硬盘出现问题,所以阵列信息已经不完整。
3.所以,在更换完第一块硬盘即BAY5硬盘后,通过其它7块硬盘抓取回校验数据时,在读到BAY2硬盘上相应的数据时发生紊乱,所以出现如下报错现象:
4.BAY2硬盘在06月11日22:00左右彻底报错,亦亮红灯。
以上为此次的故障分析。
后续建议:
1.通过以上的分析可以看出,在相对较重要的一个系统中,如果采用RAID5阵列级别的冗余模式,数据方面的风险是很大的。因为在后台,数据时刻产生,校验数据亦时刻产生,对硬盘的读写负荷是很大的,如果一个以上的硬盘出现坏块甚至完全报FAIL的话,整个阵列是非常危险甚至会导致应用系统崩溃的。
2.通过此次故障,建议贵公司在重要应用系统的服务器中采用RAID5+HOTSPARE或ADG两种阵列模式,此两种模式均允许在同一时间段内损失两块硬盘。
3.定期进行相关硬件的检测及日志的搜集,以达到提前查询是否会有故障隐患的产生及防范,此项内容惠普金牌服务可以协助。如果有必要惠普金牌服务可以提供两个月进行一次的巡检(需要提前安排停机时间)。
4.如果在此服务器同一网段中有WINDOWS系统平台的机器,可以考虑安装惠普目前正在主推的IRS远程监控软件,通过此软件,被监控的服务器会在故障产生时自动将相关报错内容通过网络的方式发送给惠普CALLCENTER,惠普客服端会通过邮件的方式主动告知用户,以做好故障出现后及时的修复动作。(此软件为免费,但是需主机端开放三个端口以连接到互联网)
以上为本次故障产生原因的分析及后续建议。