Мы используем Google Kubernetes Engine на 1.9.6-gke.1 и имеем кластер с несколькими пулами узлов, для которых мы включаем автоматическое масштабирование, поскольку узлы в них содержат подключенные графические процессоры (p100).
Иногда мы запускаем задания на ночь через Pod Kubernetes на узле, который был вызван из-за инициированного события автоматического масштабирования, и спустя много часов возвращаемся, чтобы найти, что модуль исчез, потому что модуль завершился, в каком-то неизвестном состоянии, и с тех порникакой другой модуль не запланирован на узел в течение 10 минут, узел, на котором он работал, был высушен и удален.
То есть, как только узел исчезает, стручок исчезает с точки зрения бревен и плоскости управления Kubernetes, т. Е. Таких вещей, как kubectl get pods
и kubectl describe pod
.Мы хотели бы иметь возможность знать статус этих контейнеров во время завершения, например.«Завершено, ошибка, OOM».Можно ли зарегистрировать эту информацию о жизненном цикле модуля в облачной платформе Google, возможно, через Stackdriver или другой?Если он уже доступен, где бы мы его нашли?
Обратите внимание, что это для модулей, для которых узел, на котором запущен модуль, больше не находится в кластере.
Заранее спасибо!