CUDA_ERROR_LAUNCH_FAILED: сбой в AMLS Compute после запуска тренировки в течение некоторого времени - PullRequest
1 голос
/ 18 марта 2020

Я сталкиваюсь с "Опросом ошибки для состояния события: не удалось запросить событие: CUDA_ERROR_LAUNCH_FAILED: неопределенная ошибка запуска" при выполнении обучения модели потока Tensor на Azure ML Compute. Эта ошибка возникает случайно иногда после запуска в течение нескольких эпох.

Это появляется случайным образом и работает иногда с повторным запуском на том же ML-вычислении, а иногда с повторным созданием нового ML-вычисления.

Нашел предложение о том, почему это происходит здесь: https://forums.developer.nvidia.com/t/gpu-occasionally-gets-lost-when-running-tensorflow/69620

Не могли бы вы помочь понять истинную причину root для этого.

Сообщение об ошибке:

E tensorflow/stream_executor/cuda/cuda_event.cc:48] Error polling for event status: failed to query event: CUDA_ERROR_LAUNCH_FAILED: unspecified launch 
F tensorflow/stream_executor/cuda/cuda_dnn.cc:194] Check failed: status == CUDNN_STATUS_SUCCESS (7 vs. 0)Failed to set cuDNN stream.
E tensorflow/stream_executor/cuda/cuda_driver.cc:1000] could not wait stream on event: CUDA_ERROR_LAUNCH_FAILED: unspecified launch failure
E tensorflow/stream_executor/cuda/cuda_event.cc:48] Error polling for event status: failed to query event: CUDA_ERROR_LAUNCH_FAILED: unspecified launch 
E tensorflow/stream_executor/cuda/cuda_event.cc:48] Error polling for event status: failed to query event: CUDA_ERROR_LAUNCH_FAILED: unspecified launch 
E tensorflow/stream_executor/cuda/cuda_driver.cc:1000] could not wait stream on event: CUDA_ERROR_LAUNCH_FAILED: unspecified launch failure
E tensorflow/stream_executor/cuda/cuda_driver.cc:1000] could not wait stream on event: CUDA_ERROR_LAUNCH_FAILED: unspecified launch failure

Ниже приведены сведения о версии:

  1. Тип вычисления ML: Библиотека Intel (R) MPI для Linux* ОС, Версия 2018, обновление 3, сборка 20180411 (id: 18329)
  2. tenorflow-gpu == 1.13.1
  3. Multi-GPU - NC24
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...