В настоящее время я пытаюсь настроить инфраструктуру с помощью Prometheus и Alertmanager. Должно быть возможно отправить сообщение о разрешении через определенное время. Проблема в том, что это не работает для меня.
В Alertmanager вы можете установить «resol_timeout». Я настроил его на 20 секунд. Однако разрешенное сообщение появляется только через 3-4 минуты.
Может кто-нибудь сказать, что я делаю не так?
Prometheus.yml
# my global config
global:
# - scrape_interval: 15s # Set the scrape interval to every 15 seconds. Default is every 1 minute.
# Evaluate rules every 15 seconds. The default is every 1 minute.
evaluation_interval: 10s
scrape_interval: 10s
# - Rules and alerts are read from the specified file(s)
rule_files:
- slackrules.yml
#Alertmanager config
alerting:
alertmanagers:
- static_configs:
- targets:
# Alertmanager's default port is 9093
- localhost:9093
scrape_configs:
- job_name: 'MSS'
scrape_interval: 10s
static_configs:
- targets:
- localhost:2112
# -['localhost:9090']
# - influxDB stuff --------------------------------------------------------------------------------
# can write to a remote database (Graphite, OpenTSDB, InfluxDB)
remote_write:
- url: "http://localhost:8086/api/v1/prom/write?db=prometheus"
# can read from remote database (InfluxDB)
remote_read:
- url: "http://localhost:8086/api/v1/prom/read?db=prometheus"
slackrules. yml
groups:
- name: Alert_rules
rules:
# - name of the alert
- alert: Counter_loop
# - expression: when should a alert be triggered
expr: Golang_MSS_counterLoop > 10
# - how long should the alert be pending
for: 5s
# - extra annotations
labels:
severity: error
annotations:
summary: Value Golang_MSS_Counterloop is higher than 10
description: "{{ $labels.instance }} of job {{ $labels.job }} has a value that is to high"
startsAt: "2020-03-25T20:11:00-01:00"
endsAt: "2020-03-25T20:11:00-01:00"
- alert: PrometheusRuleEvaluationFailures
expr: increase(prometheus_rule_evaluation_failures_total[3m]) > 0
for: 5s
labels:
severity: error
annotations:
summary: "Prometheus rule evaluation failures (instance {{ $labels.instance }})"
description: "Prometheus encountered {{ $value }} rule evaluation failures, leading to potentially ignored alerts.\n VALUE = {{ $value }}\n LABELS: {{ $labels }}"
Большое спасибо заранее.