Часто высокая загрузка процессора при установке netdata в среде Docker - PullRequest
0 голосов
/ 09 мая 2018

Мы запускаем netdata в среде докера на больших машинах (64 ГБ, 10 ЦП), на многих машинах (> 40) выполняется одинаковая настройка, включая postgres, mongo, tomcat, httpd, solr.

Внутри каждой машины у нас есть служба сетевых данных, которая собирает подробные данные и отправляет их в центральный экземпляр сетевых данных. У нас работает 6 таких больших машин в двух разных центрах обработки данных.

Все отлично работает: есть только одна странная проблема: - поскольку мы интегрировали netdata во все машины, загрузка ЦП увеличивается каждые 90 минут до нагрузки 120 (что очень много для 10-процессорной системы, где 20 будет нормально в течение короткого времени).

Нагрузка остается высокой в ​​течение нескольких минут, а затем возвращается к уровню 2-4 (что просто означает, что большинство машин большую часть времени бездействует, что верно).

Мы проверили процессы и не нашли ни одного процесса с высокой нагрузкой. Единственное, что все сценарии Python Netdata на разных машинах, кажется, работают одновременно и вместе создают высокую нагрузку).

Мониторинг одного большого сервера

Что мы уже сделали: - большинство плагинов netdata отключены: мы используем только мониторинг процессора, сети, диска, tomcat, apache - плагины netdata запускаются только каждые 5 секунд (любая более высокая частота создает еще большую нагрузку, и сервер не возвращается к нормальной загрузке) - отключить плагины для измерения postgres и mongodb (я бы хотел это контролировать, но они полностью ломают сервер, вызывая большую нагрузку)

Мой вопрос:

Как мы можем изменить конфигурацию netdata таким образом, чтобы не происходили регулярные скачки нагрузки на процессор. У нас 40 одинаковых конфигураций, 40 tomcats / apache / sql и т. Д. Является ли это средой докера в сочетании с netdata внутри машин?

Мы можем только догадываться, почему это происходит только каждые 90 минут. Может быть, какая-то схема определения времени, как netdata вызывает плагины, я не знаю ...

Любые советы или предложения, как управлять мониторингом в такой системе?

...