Question

У меня есть учебная работа по Gcloud ML Engine, которая обычно отлично работает на ML Engine, однако недавно я заметил, что виртуальная машина перезагружается случайно. Это приводит к тому, что он теряет весь прогресс (мой код не делает ничего умного, например, перезагружает кэшированные контрольные точки), поэтому увеличивает стоимость этой операции и увеличивает ее продолжительность. Единственные сообщения, указанные в логах gcloud:

Прекращено обслуживанием. Если работа должна продолжаться, она будет перезапущен на другой виртуальной машине в ближайшее время.

Модуль завершен; уборка.

Очистка закончена.

[service] Произошла внутренняя ошибка для текущей попытки.

Мне не ясно, относится ли «Внутренняя ошибка» к проблеме, которая вызвала сбой ВМ, или к попытке очистки.

Это происходило уже несколько раз. Я выполняю две работы одновременно, так что, возможно, это проблема с ресурсами? Что я могу сделать, чтобы это случалось реже?

Я тренируюсь с Керасом.

Файл конфигурации графического процессора выглядит следующим образом:

trainingInput:
  scaleTier: CUSTOM
  masterType: standard_gpu
  runtimeVersion: "1.13"

Patrick · Answer 1 · 28 июня 2019

Переключение одного из заданий на другой регион остановило это для меня, что будет делать сейчас.Отметит это как ответ, если это окажется последовательным, если не получится реальное объяснение.

Bo yang · Answer 2 · 28 июня 2019

Проблема не связана с тем, сколько заданий вы выполняете одновременно. Завершено обслуживанием журнала. Если задание должно продолжаться, оно будет перезапущено на другой виртуальной машине в ближайшее время. означает, что виртуальная машина, на которой выполняется ваша работа, была прервана событием обслуживания Google Compute Engine для обновления программного обеспечения или оборудования. В случае этих событий ML Engine автоматически выполнит вашу работу на другой виртуальной машине. Похоже, что вы отменили работу и, таким образом, эта повторная попытка не состоялась Если вы столкнулись с подобной проблемой снова, пожалуйста, не отменяйте работу, а проверьте позже.
Пожалуйста, дайте нам знать, если у вас есть какие-либо вопросы.

Работа Google ML прерывается случайным образом и перезапускается без указания причины

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Работа Google ML прерывается случайным образом и перезапускается без указания причины

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы