Я смог воссоздать вашу проблему, однако не уверен, что основная причина была той же.
1)
Вы можете получить все события из всего кластера
kubeclt get events
В вашем случае, когда есть 22 узла, было бы лучше, если бы вы использовали grep
kubectl get events | grep Warning
или
kubectl get events | grep daemonset-controller
2)
SSH к узлу без модуля. Используйте команду
docker ps -a
Найдите ИД КОНТЕЙНЕРА из записи, где ИМЕНА включает имя узла.
docker inspect <ContainerID>
Вы получите много информации о контейнере, которая может помочь вам определить причину его отказа.
В моем случае у меня была проблема с PersistentVolumeClaim (не было класса хранения gp2) и недостаточными ресурсами ЦП.
Класс хранения можно получить по
kubectl get storageclass