告警压缩与降噪
运维监控工具/平台,一般是通过配置固定阈值,达到阈值后自动触发/生成告警。如网络中断、闪断;系统升级更新;设备多监控内容多等情况下,更会产生海量告警。以下为告警管理常见问题:
- 故障期间,告警风暴,手机/邮箱会被海量告警淹没;
- 运维人员很难从海量告警从筛选出重要告警,容易忽略重要告警;
- 固定阈值控制,频繁误报、漏报告警;
如何实现告警压缩与降噪?
睿象云智能告警平台 Cloud Alert(后文为:CA)适应不同行业、不同规模、不同运维水平公司的各种告警需求,平台支持多维度告警压缩合并与降噪,帮助您在不遗漏重要告警前提下,快速减少告警。
CA实现告警降噪根据降噪程度不同,分为事前和事后共三种方式:
事前:也就是影响告警通知的方式;
事后:不影响告警通知的方式,可以用作事后分析判断。
1.自动去重压缩;(事前)
2.规则压缩;(事前)
3.算法智能降噪(事后)
自动去重(事前)
全量告警推送到CA平台后,CA平台会自动基于时间序列,将相同的事件/告警压缩。不同监控工具去重压缩机制有细微差异:根据 eventId(事件ID)和告警对象,去除重复告警。
规则压缩(事前)
自动去重后的告警,会按照压缩规则,将相似、同源(同一设备不同类型的信息)告警再次进行压缩。一共分为两种压缩机制,分别是:
1.算法智能降噪
2.自定义压缩规则降噪
算法智能降噪
主要原理是将指定时间内的告警,提取相应的关键词放在一组模板中,通过我们的算法将告警进行比对,符合要求的告警会被压缩、整合后在进行通知。
自定义压缩规则降噪
用户可根据自身需求来设置主机、服务、告警内容、告警对象的压缩条件,设置完毕后告警会根据告警压缩规则,来进行压缩降噪。
智能算法降噪(事后)
这个事后的算法智能降噪,用于用户的告警分析,使得用户可以清晰的排查告警主要出现的问题在哪,是在通知后进行的,所以不影响告警通知,其中有两种降噪方式,分别是:
1.高聚合智能算法降噪
2.仿阅读智能算法降噪
高聚合智能算法降噪
主要原理是将告警的内容,进行文本以算法进行比较,将符合要求的告警文本进行告警聚类。
仿阅读智能算法降噪
主要原理是将告警内容模板化,再将告警模板以一种特定的算法进行对比,将符合规定的告警进行合并。
仿阅读智能算法比高聚合智能算法,降噪条件更严格,因此聚类后的结果一般多于后者。
一个高效的压缩与降噪方式,能够有效的避免告警风暴问题,并且能够减少大部分的成本。更多高效功能,欢迎访问睿象云智能告警平台,进行产品使用。