Jenkins приводит к зависанию узла Kubernetes при высокой загрузке процессора - PullRequest
0 голосов
/ 05 апреля 2019

Я заметил, что при запуске некоторых сборок Jenkins иногда узел, содержащий Jenkins, застревает навсегда. Это означает, что весь узел недоступен, а все его модули отключены (не готовы на панели инструментов).

Чтобы снова все сделать, мне нужно удалить его из кластера и добавить его снова (я нахожусь на GCE, поэтому мне нужно удалить его из группы экземпляров, чтобы иметь возможность удалить его).

Примечание: в течение нескольких часов я не могу подключиться через SSH к узлу, он явно не работает ^^

Насколько я понимаю, при достижении вершины памяти происходит сбой узла, но при достижении максимальной загрузки ЦП должно просто замедляться работа сервера, а не иметь ничего общего с тем, что у меня происходит. В худшем случае Kubelet должен быть недоступен, пока процессор не станет лучше.

Может ли кто-нибудь помочь мне определить причину этой проблемы? Что может вызвать такую ​​проблему?

Метрика узла 1

Метрика узла 2

Метрики Дженкинса Раб

Метрика узла от GCE

С другой стороны, после нескольких часов ожидания я смог получить доступ к узлу через SSH, и я запускаю sudo journalctl -u kubelet, чтобы посмотреть, что происходит. Я не вижу ничего конкретного в 7 часов вечера, но могу видеть повторяющуюся ошибку, такую ​​как:

Apr 04 19:00:58 nodes-s2-2g5v systemd[43508]: kubelet.service: Failed at step EXEC spawning /home/kubernetes/bin/kubelet: Permission denied
Apr 04 19:00:58 nodes-s2-2g5v systemd[1]: kubelet.service: Main process exited, code=exited, status=203/EXEC
Apr 04 19:00:58 nodes-s2-2g5v systemd[1]: kubelet.service: Unit entered failed state.
Apr 04 19:00:58 nodes-s2-2g5v systemd[1]: kubelet.service: Failed with result 'exit-code'.
Apr 04 19:01:00 nodes-s2-2g5v systemd[1]: kubelet.service: Service hold-off time over, scheduling restart.
Apr 04 19:01:00 nodes-s2-2g5v systemd[1]: Stopped Kubernetes Kubelet Server.
Apr 04 19:01:00 nodes-s2-2g5v systemd[1]: Started Kubernetes Kubelet Server.
Apr 04 19:01:00 nodes-s2-2g5v systemd[43511]: kubelet.service: Failed at step EXEC spawning /home/kubernetes/bin/kubelet: Permission denied
Apr 04 19:01:00 nodes-s2-2g5v systemd[1]: kubelet.service: Main process exited, code=exited, status=203/EXEC
Apr 04 19:01:00 nodes-s2-2g5v systemd[1]: kubelet.service: Unit entered failed state.
Apr 04 19:01:00 nodes-s2-2g5v systemd[1]: kubelet.service: Failed with result 'exit-code'.
Apr 04 19:01:02 nodes-s2-2g5v systemd[1]: kubelet.service: Service hold-off time over, scheduling restart.
Apr 04 19:01:02 nodes-s2-2g5v systemd[1]: Stopped Kubernetes Kubelet Server.
Apr 04 19:01:02 nodes-s2-2g5v systemd[1]: Started Kubernetes Kubelet Server.

Я захожу в старые журналы и в 17:30 обнаружил начало такого рода сообщений:

Apr 04 17:26:50 nodes-s2-2g5v kubelet[1841]: I0404 17:25:05.168402    1841 prober.go:111] Readiness probe for "...
Apr 04 17:26:50 nodes-s2-2g5v kubelet[1841]: I0404 17:25:04.021125    1841 prober.go:111] Readiness probe for "...
-- Reboot --
Apr 04 17:31:31 nodes-s2-2g5v systemd[1]: Started Kubernetes Kubelet Server.
Apr 04 17:31:31 nodes-s2-2g5v systemd[1699]: kubelet.service: Failed at step EXEC spawning /home/kubernetes/bin/kubelet: Permission denied
Apr 04 17:31:31 nodes-s2-2g5v systemd[1]: kubelet.service: Main process exited, code=exited, status=203/EXEC
Apr 04 17:31:31 nodes-s2-2g5v systemd[1]: kubelet.service: Unit entered failed state.
Apr 04 17:31:31 nodes-s2-2g5v systemd[1]: kubelet.service: Failed with result 'exit-code'.
Apr 04 17:31:33 nodes-s2-2g5v systemd[1]: kubelet.service: Service hold-off time over, scheduling restart.
Apr 04 17:31:33 nodes-s2-2g5v systemd[1]: Stopped Kubernetes Kubelet Server.
Apr 04 17:31:33 nodes-s2-2g5v systemd[1]: Started Kubernetes Kubelet Server.

В это время узел kubelet перезагружается и соответствует сборке Jenkins. Та же самая картина с высокой загрузкой процессора. Я не знаю, почему раньше он просто перезагружался и около 7 вечера узел просто зависал: /

Мне очень жаль, это много информации, но я полностью потерян, это не первый раз, когда это случается со мной ^^

Спасибо,

1 Ответ

0 голосов
/ 11 апреля 2019

Как упомянул @Brandon, это было связано с ограничениями ресурсов, применяемыми к моим рабам Дженкинс.

В моем случае, даже если это было уточнено в моем файле YAML диаграммы Хелма, значения не были установлены. Мне пришлось углубиться в пользовательский интерфейс, чтобы установить их вручную.

Из этой модификации все теперь стабильно! :)

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...