Я заметил, что при запуске некоторых сборок Jenkins иногда узел, содержащий Jenkins, застревает навсегда. Это означает, что весь узел недоступен, а все его модули отключены (не готовы на панели инструментов).
Чтобы снова все сделать, мне нужно удалить его из кластера и добавить его снова (я нахожусь на GCE, поэтому мне нужно удалить его из группы экземпляров, чтобы иметь возможность удалить его).
Примечание: в течение нескольких часов я не могу подключиться через SSH к узлу, он явно не работает ^^
Насколько я понимаю, при достижении вершины памяти происходит сбой узла, но при достижении максимальной загрузки ЦП должно просто замедляться работа сервера, а не иметь ничего общего с тем, что у меня происходит. В худшем случае Kubelet должен быть недоступен, пока процессор не станет лучше.
Может ли кто-нибудь помочь мне определить причину этой проблемы? Что может вызвать такую проблему?
Метрика узла 1
Метрика узла 2
Метрики Дженкинса Раб
Метрика узла от GCE
С другой стороны, после нескольких часов ожидания я смог получить доступ к узлу через SSH, и я запускаю sudo journalctl -u kubelet
, чтобы посмотреть, что происходит. Я не вижу ничего конкретного в 7 часов вечера, но могу видеть повторяющуюся ошибку, такую как:
Apr 04 19:00:58 nodes-s2-2g5v systemd[43508]: kubelet.service: Failed at step EXEC spawning /home/kubernetes/bin/kubelet: Permission denied
Apr 04 19:00:58 nodes-s2-2g5v systemd[1]: kubelet.service: Main process exited, code=exited, status=203/EXEC
Apr 04 19:00:58 nodes-s2-2g5v systemd[1]: kubelet.service: Unit entered failed state.
Apr 04 19:00:58 nodes-s2-2g5v systemd[1]: kubelet.service: Failed with result 'exit-code'.
Apr 04 19:01:00 nodes-s2-2g5v systemd[1]: kubelet.service: Service hold-off time over, scheduling restart.
Apr 04 19:01:00 nodes-s2-2g5v systemd[1]: Stopped Kubernetes Kubelet Server.
Apr 04 19:01:00 nodes-s2-2g5v systemd[1]: Started Kubernetes Kubelet Server.
Apr 04 19:01:00 nodes-s2-2g5v systemd[43511]: kubelet.service: Failed at step EXEC spawning /home/kubernetes/bin/kubelet: Permission denied
Apr 04 19:01:00 nodes-s2-2g5v systemd[1]: kubelet.service: Main process exited, code=exited, status=203/EXEC
Apr 04 19:01:00 nodes-s2-2g5v systemd[1]: kubelet.service: Unit entered failed state.
Apr 04 19:01:00 nodes-s2-2g5v systemd[1]: kubelet.service: Failed with result 'exit-code'.
Apr 04 19:01:02 nodes-s2-2g5v systemd[1]: kubelet.service: Service hold-off time over, scheduling restart.
Apr 04 19:01:02 nodes-s2-2g5v systemd[1]: Stopped Kubernetes Kubelet Server.
Apr 04 19:01:02 nodes-s2-2g5v systemd[1]: Started Kubernetes Kubelet Server.
Я захожу в старые журналы и в 17:30 обнаружил начало такого рода сообщений:
Apr 04 17:26:50 nodes-s2-2g5v kubelet[1841]: I0404 17:25:05.168402 1841 prober.go:111] Readiness probe for "...
Apr 04 17:26:50 nodes-s2-2g5v kubelet[1841]: I0404 17:25:04.021125 1841 prober.go:111] Readiness probe for "...
-- Reboot --
Apr 04 17:31:31 nodes-s2-2g5v systemd[1]: Started Kubernetes Kubelet Server.
Apr 04 17:31:31 nodes-s2-2g5v systemd[1699]: kubelet.service: Failed at step EXEC spawning /home/kubernetes/bin/kubelet: Permission denied
Apr 04 17:31:31 nodes-s2-2g5v systemd[1]: kubelet.service: Main process exited, code=exited, status=203/EXEC
Apr 04 17:31:31 nodes-s2-2g5v systemd[1]: kubelet.service: Unit entered failed state.
Apr 04 17:31:31 nodes-s2-2g5v systemd[1]: kubelet.service: Failed with result 'exit-code'.
Apr 04 17:31:33 nodes-s2-2g5v systemd[1]: kubelet.service: Service hold-off time over, scheduling restart.
Apr 04 17:31:33 nodes-s2-2g5v systemd[1]: Stopped Kubernetes Kubelet Server.
Apr 04 17:31:33 nodes-s2-2g5v systemd[1]: Started Kubernetes Kubelet Server.
В это время узел kubelet перезагружается и соответствует сборке Jenkins. Та же самая картина с высокой загрузкой процессора. Я не знаю, почему раньше он просто перезагружался и около 7 вечера узел просто зависал: /
Мне очень жаль, это много информации, но я полностью потерян, это не первый раз, когда это случается со мной ^^
Спасибо,