Ganglia 和 Nagios,第 2 部分: 使用 Nagios 监视企业集群
第 1 部分回顾
数据中心正在不断增长,而管理职员却在缩减,因此公司迫切需要监视计算资源的工具。本系列的第 1 部分讨论了结合使用 Ganglia 和 Nagios 的好处,然后向您展示了如何使用自定义的监视脚本安装和扩展 Ganglia。
回顾 Ganglia 和 Nagios,第 1 部分:用 Ganglia 监视企业集群 中的多个监视 定义(取决于运行的环境):
- 如果在集群上运行应用程序,您会想:“我的作业何时运行?何时完成?相比上一次它的执行如何?”
- 如果是网络操作中心的操作员,您会想:“什么时候会看到红灯,表示需要修复某些内容或者需要安排某个服务?”
- 如果在系统工程组,您会想:“我们的机器如何执行?所有的服务功能都正常吗?趋势是什么?我们如何更好地利用计算资源?”
您可以找到代码来监视希望监视的内容,也可以 从开源代码中找到类似功能。使用开源监视工具最困难的地方在于,实现安装后如何找出最适合所在环境的配置。开源(和商业)监视软件有两个主要问题如下:
- 没有任何工具可以监视您所需的一切内容。
- 要让工具完全适应您的需求需要做许多自定义工作。
Ganglia 是一个监视数据中心的工具,频繁用于高性能计算环境中(但是对于其他环境,比如云、渲染场、寄存中心,它的吸引力也是很大的)。它更重视收集标准然后随时跟踪,而 Nagios 主要关注警告机制。Ganglia 用来请求代理在每个主机上运行,以收集主机信息,但是通过 Ganglia 的欺骗机制,现在可以轻松获取所有标准。Ganglia 没有内置的通知机制,但是它可以在目标主机上支持可扩展的内置代理。
学习了第 1 部分之后,您可能已经安装了 Ganglia,也能回答不同用户组可能咨询的监视问题。您也可能已经配置了基本的 Ganglia 设置,使用 Python 模块扩展 IPMI(Intelligent Platform Management Interface,智能平台管理界面)的功能,并使用 Ganglia 主机欺骗机制监视 IPMI。
现在,让我们了解一下 Nagios。