且构网

分享程序员开发的那些事...
且构网 - 分享程序员编程开发的那些事

SLS新版本告警入门——告警策略_抑制和静默

更新时间:2022-02-03 11:56:45

概述

在告警管理的过程中,除了通过路由合并来进行降噪,减少通知次数之外,还有一些更加高级的场景,例如需要暂时不发送通知。这就是告警抑制和告警静默所提供的功能。

告警静默

告警静默用来阻止一段时间内符合特定规则的告警发出通知。例如某个时间段内,某个测试集群在维护,会产生一些预期内的告警,此时因为这些告警是在预期之内的,因此没有通知的必要,那么就可以通过配置静默规则来阻止通知的发送。


例如:

  • 符合特定规则:告警标签 env 的值为 test
  • 一段时间:2021-06-22 00:00:00 ~ 2021-06-22 12:00:00


那么配置参考为:

SLS新版本告警入门——告警策略_抑制和静默

当然,也可以进行反向配置,例如配置只接受满足条件的告警,对于其它不符合条件的告警都不通知。继续上面的例子,假如这段时间内我们只接收标签 env 为 prod 的告警,对于其它环境的告警都不接收通知,那么可以配置为:

SLS新版本告警入门——告警策略_抑制和静默

告警抑制

告警抑制与告警静默比较类似,最终效果也是不发送某些告警通知。与静默相比,抑制是一个动态的作用,表示的是告警之间的相互影响。例如某个集群网络故障可能导致大量的服务调用错误,此时根本原因是网络故障,因此可以暂时忽略服务调用错误,只接收网络故障的告警通知,从而可以只收到最根本的错误原因,有利于快速定位和恢复。或者当产生了严重的告警的时候,可以暂时不接收低级别的故障,避免被打扰到。


由于抑制表示的是告警之间的相互影响,因此抑制是具有动态时效性的。也就是说,产生抑制的告警,一旦恢复了,那么这个抑制的作用也就消失了。因此,抑制作用的时间,其实是和产生抑制的告警的生命周期相对应的。


例如我们配置高严重度的告警抑制低级别的告警,那么可以配置如下:

SLS新版本告警入门——告警策略_抑制和静默

另外需要注意的是,抑制的生效前提是,两个告警要处于同一个合并集合内。例如下面的示例:

SLS新版本告警入门——告警策略_抑制和静默

抑制和静默的关系

从本质上来说,抑制其实是产生了一条动态的静默规则,最终的效果都是在通知发送之前,根据静默规则(静态的静默规则以及抑制产生的动态静默规则)进行过滤,然后只发送过滤后的告警通知。


最后,如果您还想了解更多智能运维前沿资讯,欢迎您报名参加【数智创新行·智能运维专场】。

6月25日|上海·西岸国际人工智能中心

数智创新行上海站·智能运维专场

阿里云将带来云原生智能运维解决方案,满足海量事件有效感知、高效响应,可观测数据统一分析、故障定位,以及基于AI的异常检测等需求,助力企业构建自己的运维平台,成为开发、运维人员高效可靠的助手。

扫描海报二维码或点击下方链接报名, 期待您一起开启智能运维新时代!

https://www.aliyun.com/page-source//developer/special/osssalon

SLS新版本告警入门——告警策略_抑制和静默