Запрос активных предупреждений в диспетчере предупреждений Prometheus через json ввод - PullRequest
0 голосов
/ 14 февраля 2020

Я использую alertmanager, чтобы публиковать оповещения на слабину. Вот конфигурация моего оповещения:

expr: <a query that takes 5 seconds>
for: 60m

Вот настройки моего диспетчера предупреждений:

global:
  resolve_timeout: 5m
route:
  group_by: ['alertname', 'cluster']
  group_interval: 5m
  group_wait: 30s
  receiver: "slack"
  repeat_interval: 12h

Чтобы повысить производительность, я создал правило записи так, чтобы 5-секундный запрос занимает 100 мс.

У меня есть две проблемы:

1) Я столкнулся с проблемой, при которой у меня возникало «переключение» в слабом канале, что означает, что предупреждение будет в неразрешенном состоянии , быстро решить, затем go вернуться в неразрешенное состояние. В этом случае предупреждение фактически не было разрешено. При просмотре Прометея, предупреждение будет отображаться, но при просмотре диспетчера предупреждений, предупреждение будет периодически исчезать, а затем появляться снова. Почему менеджер предупреждений потерял предупреждение только через несколько секунд? 2) Как ведет себя слабая отправка сообщений? Я хотел бы предположить, что он будет отправлять сообщения в следующих ситуациях: 1) Оповещение переходит в состояние тревоги

2) Оповещение переходит в состояние тревоги

3) num_firing при предупреждении либо увеличивается, либо уменьшается

Когда я смотрю на свой свободный канал, несмотря на приведенные выше настройки alertmanager, я вижу сообщения, отправленные в следующее время:

12:02AM
12:08AM
1:02AM
1:08AM
1:52AM
2:53AM
2:58AM
3:18AM
3:38AM
4:23AM
6:23AM
6:43AM
6:48AM
6:53AM
6:59AM
8:39AM
8:54AM
9:04AM
9:19AM

В итоге у меня возникло 2 вопроса: почему alertmanager отбрасывает оповещения ? Почему менеджер предупреждений посылает сообщения, чтобы расслабиться в неопределенное время?

...