Как уменьшить Прометей (Федерация) Продолжительность чистки - PullRequest
0 голосов
/ 20 ноября 2018

У меня есть федерация Prometheus с 2 серверами Prometheus - по одному на кластер Kubernetes и центральный, который управляет ими всеми.

Со временем продолжительность очистки увеличивается.В какой-то момент длительность очистки превышает время ожидания, а затем метрики теряются, и оповещение срабатывает.

Я пытаюсь сократить длительность очистки, отбрасывая метрики, но это тяжелая битва и больше похоже на сизиф, а не на Прометея.,

Кто-нибудь знает способ сократить время очистки без потери метрик и без необходимости отбрасывать все больше и больше с течением времени?

Заранее спасибо!

1 Ответ

0 голосов
/ 20 ноября 2018

В документации Prometheus * , эти настройки определяют глобальную частоту ожидания и оценку правил оповещения:

global:
  # How frequently to scrape targets by default.
  [ scrape_interval: <duration> | default = 1m ]

  # How long until a scrape request times out.
  [ scrape_timeout: <duration> | default = 10s ]

  # How frequently to evaluate rules.
  [ evaluation_interval: <duration> | default = 1m ]

... и для каждого задания очистки конфигурация позволяет установить специфичные для задания значения:

# The job name assigned to scraped metrics by default.
job_name: <job_name>

# How frequently to scrape targets from this job.
[ scrape_interval: <duration> | default = <global_config.scrape_interval> ]

# Per-scrape timeout when scraping this job.
[ scrape_timeout: <duration> | default = <global_config.scrape_timeout> ]

Не зная больше о количестве целей и количестве метрик на цель ... Я могу предложитьпопытайтесь настроить соответствующий scrape_timeout для каждого задания и соответствующим образом настроить глобальный evaluation_interval.

Другой вариант, в сочетании с предложением выше или сам по себе, может состоять в том, чтобы экземпляры Prometheus выделялись для пересечения непересекающихсянабор целей.Таким образом, позволяя масштабировать Прометей и иметь различные evaluation_interval для набора целей.Например, более длинное scrape_timeout и менее частое evaluation_interval (более высокое значение) для заданий, которые занимают больше времени и не влияют на другие задания.

Кроме того, проверьте, не ведет ли экспортер плохое поведение, накапливаяметрики с течением времени вместо того, чтобы просто показывать текущие показания во время очистки - в противном случае список того, что возвращается прометею, будет продолжать расти со временем.

...