2023年12月13日水曜日

Alertmanager でノードが再起動したときにアラートを上げる方法とその効果

Alertmanager でノードが再起動したときにアラートを上げる方法とその効果

概要

ノードが再起動した際にアラートを上げるルールを紹介します
またその効果を紹介します

環境

  • Gitlab 16.3.6
  • Alertmanager 2.30.4

ルール

groups:
- name: Custom
  rules:
  - alert: NodeHasRebooted
    annotations:
      description: Node has rebooted
      summary: Node {{ (or $labels.node $labels.instance) }} has rebooted {{ $value }} seconds ago.
    expr: (time() - node_boot_time_seconds < 600) and (time() - 600 - (node_boot_time_seconds offset 10m) > 600)
    labels:
      severity: critical

効果

  • ノードが再起動した際に必ずアラートします
  • それにより再起動時に RESOLVED メールが届かないという問題が解消します
  • 再起動アラートは10分間なので10分間ノードが起動すると解消します
  • もし他のアラートが上がっている状態でノードが再起動しそのアラートがノード再起動時に解消していると RESOLVED メールが届かないことがあります
  • それをノード再起動アラートを必ず起こすことで解消メールが送信させることができます

最後に

600sec 以下だと time との差が短すぎてアラートが上がらないことがあるので少し長めに設定しましょう

参考サイト

0 件のコメント:

コメントを投稿