Мы используем Grafana для мониторинга определенных событий и срабатывания сигнализации. Данные хранятся в Prometheus (но мы не используем менеджер предупреждений Prometheus).
Вчера вечером у нас возникла проблема с одним из наших показателей, о котором у нас в настоящее время нет тревоги. Я хотел бы добавить один, но я изо всех сил пытаюсь определить лучший способ сделать это.
В этом случае ось Y для этот показатель c довольно низкий, и в одночасье (02: 00-07: 00 слева от графика) вы можете увидеть, что показатель c падает почти до нуля.
Мы хотели бы обнаружить резкое падение на правой стороне в 8 вечера. Мы обнаружили падение до нуля примерно в 9 часов вечера (плоская линия), но я хотел бы определить внезапное падение.
Наш запрос Прометея:
sum(rate({__name__=~"metric_name_.+"}[1m])) by (grouping)
Я пытался Рассмотрим несколько вещей, таких как:
sum(increase({__name__=~"metric_name_.+"}[1m])) by (grouping)
Но в целом все они в конечном итоге имеют похожий график, приведенный ниже, но с дисперсией по шкале оси Y и усложняют различие между ними " около нуля и тишины »и« около нуля, потому что показатели упали с обрыва ».
Какую комбинацию настроек Grafana и Prometheus мы можем использовать для эффективной идентификации этого изменения?