Prometheus & Alertmanager resolved_timeouts - PullRequest
0 голосов
/ 25 марта 2020

В настоящее время я пытаюсь настроить инфраструктуру с помощью Prometheus и Alertmanager. Должно быть возможно отправить сообщение о разрешении через определенное время. Проблема в том, что это не работает для меня.

В Alertmanager вы можете установить «resol_timeout». Я настроил его на 20 секунд. Однако разрешенное сообщение появляется только через 3-4 минуты.

Может кто-нибудь сказать, что я делаю не так?

Prometheus.yml

    # my global config
    global:
      # - scrape_interval:     15s # Set the scrape interval to every 15 seconds. Default is every 1 minute.
       # Evaluate rules every 15 seconds. The default is every 1 minute.
      evaluation_interval: 10s
      scrape_interval: 10s

    # - Rules and alerts are read from the specified file(s)
    rule_files:
      - slackrules.yml

    #Alertmanager config
    alerting:
      alertmanagers:
        - static_configs:
            - targets:
                # Alertmanager's default port is 9093
                - localhost:9093

    scrape_configs:
      - job_name: 'MSS'
        scrape_interval: 10s
        static_configs:
          - targets:
            - localhost:2112
            # -['localhost:9090']


    # - influxDB stuff --------------------------------------------------------------------------------

    # can write to a remote database (Graphite, OpenTSDB, InfluxDB)
    remote_write:
      - url: "http://localhost:8086/api/v1/prom/write?db=prometheus"

    # can read from remote database (InfluxDB)
    remote_read:
      - url: "http://localhost:8086/api/v1/prom/read?db=prometheus"

slackrules. yml

groups:
  - name: Alert_rules
    rules:
        # - name of the alert
      - alert: Counter_loop
        # - expression: when should a alert be triggered
        expr: Golang_MSS_counterLoop > 10
        # - how long should the alert be pending
        for: 5s
        # - extra annotations
        labels:
          severity: error
        annotations:
          summary: Value Golang_MSS_Counterloop is higher than 10
          description: "{{ $labels.instance }} of job {{ $labels.job }} has a value that is to high"
        startsAt: "2020-03-25T20:11:00-01:00"
        endsAt: "2020-03-25T20:11:00-01:00"


      - alert: PrometheusRuleEvaluationFailures
        expr: increase(prometheus_rule_evaluation_failures_total[3m]) > 0
        for: 5s
        labels:
          severity: error
        annotations:
          summary: "Prometheus rule evaluation failures (instance {{ $labels.instance }})"
          description: "Prometheus encountered {{ $value }} rule evaluation failures, leading to potentially ignored alerts.\n  VALUE = {{ $value }}\n  LABELS: {{ $labels }}"

Большое спасибо заранее.

...