Двигатель Kubernetes: узел продолжает становиться нездоровым и перезагружается без видимой причины - PullRequest
1 голос
/ 05 июня 2019

Мой кластер Kubernetes Engine продолжает перезагружать один из моих узлов, несмотря на то, что все модули в нем "хорошо себя ведут". Я попытался просмотреть журналы Stackdriver кластера, но не смог найти причину. Через некоторое время непрерывные перезагрузки, как правило, прекращаются, и повторяются через несколько часов или дней.

Обычно затрагивается только один единственный узел, тогда как с остальными узлами все в порядке, но удаление этого узла и создание нового вместо него помогает только временно.

Я уже отключил авто-восстановление узла, чтобы увидеть, имеет ли это значение (он был включен ранее), и если я правильно помню, это началось после обновления моего кластера до Kubernetes 1.13 (в частности, версия 1.13.5-gke). Проблема сохраняется после обновления до 1.13.6-gke.0. Даже создание нового пула узлов и его миграция не имели никакого эффекта.

Кластер состоит из четырех узлов с 1 ЦП и 3 ГБ ОЗУ каждый. Я знаю, что это мало для кластера k8s, но в прошлом это работало нормально.

Я использую новый Stackdriver Kubernetes Monitoring, а также Istio на GKE.

Буду признателен за любые указания относительно того, что может быть причиной или где я ищу возможные причины.

Снимки экрана со списком событий узла (рады предоставить другие журналы; пока не удалось найти что-либо значимое в ведении журнала Stackdriver):

node event list node event list

...