У меня есть учебная работа по Gcloud ML Engine, которая обычно отлично работает на ML Engine, однако недавно я заметил, что виртуальная машина перезагружается случайно. Это приводит к тому, что он теряет весь прогресс (мой код не делает ничего умного, например, перезагружает кэшированные контрольные точки), поэтому увеличивает стоимость этой операции и увеличивает ее продолжительность. Единственные сообщения, указанные в логах gcloud:
Прекращено обслуживанием. Если работа должна продолжаться, она
будет перезапущен на другой виртуальной машине в ближайшее время.
Модуль завершен; уборка.
Очистка закончена.
[service] Произошла внутренняя ошибка для текущей попытки.
Мне не ясно, относится ли «Внутренняя ошибка» к проблеме, которая вызвала сбой ВМ, или к попытке очистки.
Это происходило уже несколько раз. Я выполняю две работы одновременно, так что, возможно, это проблема с ресурсами? Что я могу сделать, чтобы это случалось реже?
Я тренируюсь с Керасом.
Файл конфигурации графического процессора выглядит следующим образом:
trainingInput:
scaleTier: CUSTOM
masterType: standard_gpu
runtimeVersion: "1.13"