Я использую alertmanager, чтобы публиковать оповещения на слабину. Вот конфигурация моего оповещения:
expr: <a query that takes 5 seconds>
for: 60m
Вот настройки моего диспетчера предупреждений:
global:
resolve_timeout: 5m
route:
group_by: ['alertname', 'cluster']
group_interval: 5m
group_wait: 30s
receiver: "slack"
repeat_interval: 12h
Чтобы повысить производительность, я создал правило записи так, чтобы 5-секундный запрос занимает 100 мс.
У меня есть две проблемы:
1) Я столкнулся с проблемой, при которой у меня возникало «переключение» в слабом канале, что означает, что предупреждение будет в неразрешенном состоянии , быстро решить, затем go вернуться в неразрешенное состояние. В этом случае предупреждение фактически не было разрешено. При просмотре Прометея, предупреждение будет отображаться, но при просмотре диспетчера предупреждений, предупреждение будет периодически исчезать, а затем появляться снова. Почему менеджер предупреждений потерял предупреждение только через несколько секунд? 2) Как ведет себя слабая отправка сообщений? Я хотел бы предположить, что он будет отправлять сообщения в следующих ситуациях: 1) Оповещение переходит в состояние тревоги
2) Оповещение переходит в состояние тревоги
3) num_firing при предупреждении либо увеличивается, либо уменьшается
Когда я смотрю на свой свободный канал, несмотря на приведенные выше настройки alertmanager, я вижу сообщения, отправленные в следующее время:
12:02AM
12:08AM
1:02AM
1:08AM
1:52AM
2:53AM
2:58AM
3:18AM
3:38AM
4:23AM
6:23AM
6:43AM
6:48AM
6:53AM
6:59AM
8:39AM
8:54AM
9:04AM
9:19AM
В итоге у меня возникло 2 вопроса: почему alertmanager отбрасывает оповещения ? Почему менеджер предупреждений посылает сообщения, чтобы расслабиться в неопределенное время?