Мы запускаем netdata в среде докера на больших машинах (64 ГБ, 10 ЦП), на многих машинах (> 40) выполняется одинаковая настройка, включая postgres, mongo, tomcat, httpd, solr.
Внутри каждой машины у нас есть служба сетевых данных, которая собирает подробные данные и отправляет их в центральный экземпляр сетевых данных. У нас работает 6 таких больших машин в двух разных центрах обработки данных.
Все отлично работает: есть только одна странная проблема:
- поскольку мы интегрировали netdata во все машины, загрузка ЦП увеличивается каждые 90 минут до нагрузки 120 (что очень много для 10-процессорной системы, где 20 будет нормально в течение короткого времени).
Нагрузка остается высокой в течение нескольких минут, а затем возвращается к уровню 2-4 (что просто означает, что большинство машин большую часть времени бездействует, что верно).
Мы проверили процессы и не нашли ни одного процесса с высокой нагрузкой. Единственное, что все сценарии Python Netdata на разных машинах, кажется, работают одновременно и вместе создают высокую нагрузку).
Мониторинг одного большого сервера
Что мы уже сделали:
- большинство плагинов netdata отключены: мы используем только мониторинг процессора, сети, диска, tomcat, apache
- плагины netdata запускаются только каждые 5 секунд (любая более высокая частота создает еще большую нагрузку, и сервер не возвращается к нормальной загрузке)
- отключить плагины для измерения postgres и mongodb (я бы хотел это контролировать, но они полностью ломают сервер, вызывая большую нагрузку)
Мой вопрос:
Как мы можем изменить конфигурацию netdata таким образом, чтобы не происходили регулярные скачки нагрузки на процессор. У нас 40 одинаковых конфигураций, 40 tomcats / apache / sql и т. Д. Является ли это средой докера в сочетании с netdata внутри машин?
Мы можем только догадываться, почему это происходит только каждые 90 минут. Может быть, какая-то схема определения времени, как netdata вызывает плагины, я не знаю ...
Любые советы или предложения, как управлять мониторингом в такой системе?