Работа Google ML прерывается случайным образом и перезапускается без указания причины - PullRequest
2 голосов
/ 19 июня 2019

У меня есть учебная работа по Gcloud ML Engine, которая обычно отлично работает на ML Engine, однако недавно я заметил, что виртуальная машина перезагружается случайно. Это приводит к тому, что он теряет весь прогресс (мой код не делает ничего умного, например, перезагружает кэшированные контрольные точки), поэтому увеличивает стоимость этой операции и увеличивает ее продолжительность. Единственные сообщения, указанные в логах gcloud:

Прекращено обслуживанием. Если работа должна продолжаться, она будет перезапущен на другой виртуальной машине в ближайшее время.

Модуль завершен; уборка.

Очистка закончена.

[service] Произошла внутренняя ошибка для текущей попытки.

Мне не ясно, относится ли «Внутренняя ошибка» к проблеме, которая вызвала сбой ВМ, или к попытке очистки.

Это происходило уже несколько раз. Я выполняю две работы одновременно, так что, возможно, это проблема с ресурсами? Что я могу сделать, чтобы это случалось реже?

Я тренируюсь с Керасом.

Файл конфигурации графического процессора выглядит следующим образом:

trainingInput:
  scaleTier: CUSTOM
  masterType: standard_gpu
  runtimeVersion: "1.13"

Ответы [ 2 ]

0 голосов
/ 28 июня 2019

Переключение одного из заданий на другой регион остановило это для меня, что будет делать сейчас.Отметит это как ответ, если это окажется последовательным, если не получится реальное объяснение.

0 голосов
/ 28 июня 2019

Проблема не связана с тем, сколько заданий вы выполняете одновременно. Завершено обслуживанием журнала. Если задание должно продолжаться, оно будет перезапущено на другой виртуальной машине в ближайшее время. означает, что виртуальная машина, на которой выполняется ваша работа, была прервана событием обслуживания Google Compute Engine для обновления программного обеспечения или оборудования. В случае этих событий ML Engine автоматически выполнит вашу работу на другой виртуальной машине. Похоже, что вы отменили работу и, таким образом, эта повторная попытка не состоялась Если вы столкнулись с подобной проблемой снова, пожалуйста, не отменяйте работу, а проверьте позже.
Пожалуйста, дайте нам знать, если у вас есть какие-либо вопросы.

...