Как сохранить состояния и события жизненного цикла модуля в движке Google Kubernetes? - PullRequest
0 голосов
/ 22 мая 2018

Мы используем Google Kubernetes Engine на 1.9.6-gke.1 и имеем кластер с несколькими пулами узлов, для которых мы включаем автоматическое масштабирование, поскольку узлы в них содержат подключенные графические процессоры (p100).

Иногда мы запускаем задания на ночь через Pod Kubernetes на узле, который был вызван из-за инициированного события автоматического масштабирования, и спустя много часов возвращаемся, чтобы найти, что модуль исчез, потому что модуль завершился, в каком-то неизвестном состоянии, и с тех порникакой другой модуль не запланирован на узел в течение 10 минут, узел, на котором он работал, был высушен и удален.

То есть, как только узел исчезает, стручок исчезает с точки зрения бревен и плоскости управления Kubernetes, т. Е. Таких вещей, как kubectl get pods и kubectl describe pod.Мы хотели бы иметь возможность знать статус этих контейнеров во время завершения, например.«Завершено, ошибка, OOM».Можно ли зарегистрировать эту информацию о жизненном цикле модуля в облачной платформе Google, возможно, через Stackdriver или другой?Если он уже доступен, где бы мы его нашли?

Обратите внимание, что это для модулей, для которых узел, на котором запущен модуль, больше не находится в кластере.

Заранее спасибо!

1 Ответ

0 голосов
/ 19 июня 2018

В журнале Stackdriver есть два журнала, в которых вы можете проверить журналы GKE.Первый называется «Операции кластера GKE», а второй - «Журналы контейнеров».

Журналы «Операции кластера GKE» покажут вам все операции, которые выполняются в кластере, такие как создание модуля, создание контейнера и т. Д.

Журналы контейнера будут регистрироватьоперации контейнера.Я создал простую работу, используя файл yaml, заданный здесь .После выполнения задания я вошел в «Журналы контейнеров», и он успешно показал выходные данные контейнера.

В этом случае вы должны увидеть журналы состояния модуля из «GKE Cluster».Операции »журналы в GCP.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...