概要
ノードが再起動した際にアラートを上げるルールを紹介します
またその効果を紹介します
環境
- Gitlab 16.3.6
- Alertmanager 2.30.4
ルール
groups:
- name: Custom
rules:
- alert: NodeHasRebooted
annotations:
description: Node has rebooted
summary: Node {{ (or $labels.node $labels.instance) }} has rebooted {{ $value }} seconds ago.
expr: (time() - node_boot_time_seconds < 600) and (time() - 600 - (node_boot_time_seconds offset 10m) > 600)
labels:
severity: critical
効果
- ノードが再起動した際に必ずアラートします
- それにより再起動時に RESOLVED メールが届かないという問題が解消します
- 再起動アラートは10分間なので10分間ノードが起動すると解消します
- もし他のアラートが上がっている状態でノードが再起動しそのアラートがノード再起動時に解消していると RESOLVED メールが届かないことがあります
- それをノード再起動アラートを必ず起こすことで解消メールが送信させることができます
最後に
600sec 以下だと time との差が短すぎてアラートが上がらないことがあるので少し長めに設定しましょう
0 件のコメント:
コメントを投稿