Мой кластер Kubernetes Engine продолжает перезагружать один из моих узлов, несмотря на то, что все модули в нем "хорошо себя ведут". Я попытался просмотреть журналы Stackdriver кластера, но не смог найти причину. Через некоторое время непрерывные перезагрузки, как правило, прекращаются, и повторяются через несколько часов или дней.
Обычно затрагивается только один единственный узел, тогда как с остальными узлами все в порядке, но удаление этого узла и создание нового вместо него помогает только временно.
Я уже отключил авто-восстановление узла, чтобы увидеть, имеет ли это значение (он был включен ранее), и если я правильно помню, это началось после обновления моего кластера до Kubernetes 1.13 (в частности, версия 1.13.5-gke
). Проблема сохраняется после обновления до 1.13.6-gke.0
. Даже создание нового пула узлов и его миграция не имели никакого эффекта.
Кластер состоит из четырех узлов с 1 ЦП и 3 ГБ ОЗУ каждый. Я знаю, что это мало для кластера k8s, но в прошлом это работало нормально.
Я использую новый Stackdriver Kubernetes Monitoring, а также Istio на GKE.
Буду признателен за любые указания относительно того, что может быть причиной или где я ищу возможные причины.
Снимки экрана со списком событий узла (рады предоставить другие журналы; пока не удалось найти что-либо значимое в ведении журнала Stackdriver):