GCP kubernetes узлы с GPU вытесняются слишком рано - PullRequest
0 голосов
/ 06 ноября 2019

У меня есть кластер kubeflow k8s с настраиваемым вытесняемым пулом узлов на базе графического процессора в us-central1-a: enter image description here

Я запускаю сервер ноутбука kubeflow на этих узлах графического процессора. По какой-то таинственной причине узлы получают сообщение compute.instances.preempted очень скоро после запуска (5-10 минут): enter image description here

Почему это происходит?

1 Ответ

3 голосов
/ 06 ноября 2019

Поскольку вы создали пул вытесняемых узлов, это довольно ожидаемое поведение. GCE может закрыть прерванные экземпляры в любое время , и единственная реальная гарантия, что у вас есть это то, что вы не будете платить за экземпляр (но вы будете платить за все запрошенные ОС премиум-класса - из которых COS являетсяа не один), если они работают менее минуты (и, конечно, они всегда будут выгружаться через 24 часа).

Вероятно, что узлы графического процессора будут пользоваться высоким спросом, как и в случае других вытесняемых экземпляров. это будет зависеть от конкретной зоны и времени суток. Если вам нужно, чтобы экземпляры оставались доступными, вы должны использовать экземпляры с полной ценой. Используя GKE, есть способ автомасштабировать узлы графического процессора , чтобы помочь контролировать расходы.

...