结合Zabbix监控系统io相关性能服务
一、环境及说明
本次实验基于CentOS6.x_x64 zabbix2.4.5(其实可以是其他版本的zabbix服务端),i测试的客户端机器:10.168.118.61(安装zabbix-agent的机器)上,所使用到的工具如下:
iostat来源于syssat软件包
#rpm -qa |grep sysstat
如果没有安装 请执行
#yum install sysstat -y
iostat 工具常用说明:
常用 $iostat -dxkt 1 输出选项说明:
rrqm/s 每秒进行merge的读操作数目。即delta(rmerge)/s
wrqm/s 每秒进行merge的写操作数目。即delta(wmerge)/s
r/s 每秒完成的读I/O设备次数。即delta(rio)/s
w/s 每秒完成的写I/O设备次数。即delta(wio)/s
rsec/s 每秒读扇区数。即delta(rsect)/s
wsec/s 每秒写扇区数。即delta(wsect)/s
rkB/s 每秒读K字节数。是rsect/s的一半,因为每扇区大小为512字节。(需要计算)
wkB/s 每秒写K字节数。是wsect/s的一半。(需要计算)
avgrq-sz 平均每次设备I/O操作的数据大小(扇区)。delta(rsect+wsect)/delta(rio+wio)
avgqu-sz 平均I/O队列长度。即delta(aveq)/s/1000(因为aveq的单位为毫秒)。
await 平均每次设备I/O操作的等待时间(毫秒)。即delta(ruse+wuse)/delta(rio+wio)
svctm 平均每次设备I/O操作的服务时间(毫秒)。即delta(use)/delta(rio+wio)
%util
一秒中有百分之多少的时间用于I/O操作,或者说一秒中有多少时间I/O队列是非空的。即delta(use)/s/10
00(因为use的单位为毫秒)
二、利用iostat -dxkt 1 手动监控disk io
1、编写发现磁盘的脚本 (shell):
$cd /etc/zabbix/bin
$cat disk_discovery.sh
#!/bin/bash
diskarray=(`
cat
/proc/diskstats
|
grep
-E
"\bsd[a-z]\b|\bxvd[a-z]\b|\bvd[a-z]\b"
|
awk
'{print
$3}'|
sort
|
uniq
2>
/dev/null
`)
length=${
#diskarray[@]}
printf
"{\n"
printf
'\t'
"\"data\":["
for
((i=0;i<$length;i++))
do
printf
'\n\t\t{'
printf
"\"{#DISK_NAME}\":\"${diskarray[$i]}\"}"
if
[ $i -lt $[$length-1] ];
then
printf
','
fi
done
printf
"\n\t]\n"
printf
"}\n"
$ sh disk_discovery.sh
{
"data"
:[
{
"{#DISK_NAME}"
:
"xvda"
},
{
"{#DISK_NAME}"
:
"xvdb"
}
]
}
2、编写获取磁盘I/O信息的脚本
nohup /usr/bin/iostat -dxkt 1 > /tmp/iostat_output 2>/dev/null &
运行并放入/etc/rc.local 临时解决方案,看后面添加 iostat sysv服务开机启动并定期清除
iostat_output文件大小
3、编写disk_status.sh脚本用于实时检测磁盘io
$cd /etc/zabbix/bin
$vim disk_status.sh
#/bin/sh
device=$1
item=$2
case
$item
in
rrqm)
/usr/bin/tail
-n20
/tmp/iostat_output
|
grep
"\b$device\b"
|
tail
-1|
awk
'{print $2}'
;;
wrqm)
/usr/bin/tail
-n20
/tmp/iostat_output
|
grep
"\b$device\b"
|
tail
-1|
awk
'{print $3}'
;;
rps)
/usr/bin/tail
-n20
/tmp/iostat_output
|
grep
"\b$device\b"
|
tail
-1|
awk
'{print $4}'
;;
wps)
/usr/bin/tail
-n20
/tmp/iostat_output
|
grep
"\b$device\b"
|
tail
-1|
awk
'{print
$5}'
;;
rKBps)
/usr/bin/tail
-n20
/tmp/iostat_output
|
grep
"\b$device\b"
|
tail
-1|
awk
'{print
$6}'
;;
wKBps)
/usr/bin/tail
-n20
/tmp/iostat_output
|
grep
"\b$device\b"
|
tail
-1|
awk
'{print
$7}'
;;
avgrq-sz)
/usr/bin/tail
-n20
/tmp/iostat_output
|
grep
"\b$device\b"
|
tail
-1|
awk
'{print
$8}'
;;
avgqu-sz)
/usr/bin/tail
-n20
/tmp/iostat_output
|
grep
"\b$device\b"
|
tail
-1|
awk
'{print
$9}'
;;
await)
/usr/bin/tail
-n20
/tmp/iostat_output
|
grep
"\b$device\b"
|
tail
-1|
awk
'{print
$10}'
;;
svctm)
/usr/bin/tail
-n20
/tmp/iostat_output
|
grep
"\b$device\b"
|
tail
-1|
awk
'{print
$11}'
;;
util)
/usr/bin/tail
-n20
/tmp/iostat_output
|
grep
"\b$device\b"
|
tail
-1|
awk
'{print
$12}'
;;
esac
4、修改zabbix agent配置文件
cd /etc/zabbix/zabbix_agentd.d/
vim disk_status.conf
UserParameter=disk.discovery,
/bin/bash
/etc/zabbix/bin/disk_discovery
.sh
UserParameter=disk.status[*],
/bin/bash
/ect/zabbix/bin/disk_status
.sh $1 $2
重启zabbix agent
#service zabbix-agent restart
5、测试(zabbix server上):
$sudo zabbix_get -s 10.168.118.61 -k "disk.discovery"
{
"data":[
{
"{#DISK_NAME}":"xvda"
},
{
"{#DISK_NAME}":"xvdb"
}
]
}
如果能获得10.168.118.61上磁盘信息说明disk_discovery.sh脚本正确
$sudo zabbix_get -s 10.168.118.61 -k disk.status[xvda,wps]
10.00
如上能获取xvda盘的wps值说明disk_status.sh脚本正常
三、到zabbix server前端web上添加磁盘IO监控模板
configuration(中文叫组态) --Templates(模板)--选择一个你常用的模板(或先创建一个模块) Applications(应用集) --Create application(创建应用)输入名为 DISK_IO
Discovery -- Create discovery rule
Name:Disk_Discovery
Key:disk.discovery
Update interval(in sec):3600
Filters:{#DISK_NAME}
Name Key Interval
Item prototypes--Create item prototypes -- Write
requests merqed per second on {#DISK_NAME}
disk.status[{#DISK_NAME},wrqm] 60 90 120 Zabbix
agent DISK_IO Enabled
Write
requests issued per second to {#DISK_NAME} disk.status[{#DISK_NAME},wps] 60 90 120
Zabbix agent DISK_IO Enabled
Requests
average size(sectors) issued to {#DISK_NAME} disk.status[{#DISK_NAME},avgrq-sz] 60 90
120 Zabbix agent DISK_IO Enabled
Requests
average queue length issued to {#DISK_NAME} disk.status[{#DISK_NAME},avgqu-sz] 60 90
120 Zabbix agent DISK_IO Enabled
Read
requests merqed per second on{#DISK_NAME} disk.status[{#DISK_NAME},rrqm] 60 90 120
Zabbix agent DISK_IO Enabled
Read
requests issued per second to {#DISK_NAME} disk.status[{#DISK_NAME},rps] 60 90 120
Zabbix agent DISK_IO Enabled
I/O
requests average time(Miliseconds) issued to {#DISK_NAME} disk.status[{#DISK_NAME},await]
60 90 120 Zabbix agent DISK_IO Enabled
Bytes
written per second on {#DISK_NAME} disk.status[{#DISK_NAME},wKBps] 60 90 120 Zabbix
agent DISK_IO Enabled
Bytes
read per second on {#DISK_NAME} disk.status[{#DISK_NAME},rKBps] 60 90 120 Zabbix
agent DISK_IO Enabled
Bandwidth utilization for {#DISK_NAME} disk.status[{#DISK_NAME},util] 60 90 120 Zabbix
agent DISK_IO Enabled
在添加item的时候注意,由于使用的是iostat -k
获取每秒的读写大小,所以iostat显示的是以KB为单位,在zabbix上以B为基本单位,需要用到Use
custom multiplier 这个选项将zabbix agent返回的KB值乘以1024变成B,然后zabbix
agent再以B为单位显示成B或KB或MB便于查看。
以上的监控不能算完美,缺陷在于iostat_output文件大小会不断增长一般一个月差不多到1G,所以为了让
它开机能自动启动并能重置iostat_output文件大小大小,做成系统服务并添加到计划任务中,指定时间重
启,这样就会自动重置iostat_output文件大小
四、添加iostate系统服务并添加到计划任务
cat iostat
#!/bin/sh
# chkconfig: - 99 11
# description: iostat
# processname: iostatus
# Author: san 2015-12-29
.
/etc/init
.d
/functions
iostat=${IOSTAT-
/usr/bin/iostat
}
prog=iostat
iostat_tmp=
/tmp/iostat_output
pidfile=${PIDFILE-
/var/run/iostat
.pid}
lockfile=${LOCKFILE-
/var/lock/subsys/iostat
}
RETVAL=0
if
[ ! -f
"$iostat"
]
then
echo
"iostat startup: command cannot found.cannot start."
exit
2
fi
start(){
if
[ ! -f ${pidfile} ];
then
echo
-n $
"Starting $prog:"
$iostat -dxkt 1 > $iostat_tmp 2>
/dev/null
&
[
"$?"
-
eq
0 ] && success $
"$base startup"
|| failure $
"$base startup"
iostat_pid=$(
ps
aux |
grep
iostat|
grep
dxkt |
grep
-
v
grep
|
awk
'{print $2}'
)
echo
$iostat_pid >$pidfile
RETVAL=$?
echo
[ $RETVAL = 0 ] &&
touch
${lockfile}
return
$RETVAL
else
status -p ${pidfile}
exit
0
fi
}
stop(){
echo
-n $
"Stoping $prog: "
killproc -p ${pidfile} iostat
RETVAL=$?
echo
[ $RETVAL = 0 ] &&
rm
-f ${lockfile} ${pidfile}
rm
-rf $iostat_tmp
}
case
"$1"
in
start)
start
;;
stop)
stop
;;
status)
status -p ${pidfile} $iostat
RETVAL=$?
;;
restart)
$0 stop
$0 start
;;
*)
echo
"Usage: iostat { start | stop | restart | status } "
exit
1
esac
添加到系统服务和开机自启
#chkconfig --add iostat
#chkconfig iostat on
#service iostat start
Starting iostat: [确定]
#service iostat status
iostat (pid 2810) 正在运行...
cat /tmp/iostat_output
-rw-r--r-- 1 root root 443M 1月 13 10:48 iostat_output
###运行13天 iostat_output文件大小
添加到计划任务中 每月1号1时1分重启iostat
$crontab -l
1 1 1 1 * service iostat restart
到此完美自动监控系统io
更多Zabbix相关教程集合:
ZABBIX 的详细介绍:请点这里
ZABBIX 的下载地址:请点这里