Я сталкиваюсь с "Опросом ошибки для состояния события: не удалось запросить событие: CUDA_ERROR_LAUNCH_FAILED: неопределенная ошибка запуска" при выполнении обучения модели потока Tensor на Azure ML Compute. Эта ошибка возникает случайно иногда после запуска в течение нескольких эпох.
Это появляется случайным образом и работает иногда с повторным запуском на том же ML-вычислении, а иногда с повторным созданием нового ML-вычисления.
Нашел предложение о том, почему это происходит здесь: https://forums.developer.nvidia.com/t/gpu-occasionally-gets-lost-when-running-tensorflow/69620
Не могли бы вы помочь понять истинную причину root для этого.
Сообщение об ошибке:
E tensorflow/stream_executor/cuda/cuda_event.cc:48] Error polling for event status: failed to query event: CUDA_ERROR_LAUNCH_FAILED: unspecified launch
F tensorflow/stream_executor/cuda/cuda_dnn.cc:194] Check failed: status == CUDNN_STATUS_SUCCESS (7 vs. 0)Failed to set cuDNN stream.
E tensorflow/stream_executor/cuda/cuda_driver.cc:1000] could not wait stream on event: CUDA_ERROR_LAUNCH_FAILED: unspecified launch failure
E tensorflow/stream_executor/cuda/cuda_event.cc:48] Error polling for event status: failed to query event: CUDA_ERROR_LAUNCH_FAILED: unspecified launch
E tensorflow/stream_executor/cuda/cuda_event.cc:48] Error polling for event status: failed to query event: CUDA_ERROR_LAUNCH_FAILED: unspecified launch
E tensorflow/stream_executor/cuda/cuda_driver.cc:1000] could not wait stream on event: CUDA_ERROR_LAUNCH_FAILED: unspecified launch failure
E tensorflow/stream_executor/cuda/cuda_driver.cc:1000] could not wait stream on event: CUDA_ERROR_LAUNCH_FAILED: unspecified launch failure
Ниже приведены сведения о версии:
- Тип вычисления ML: Библиотека Intel (R) MPI для Linux* ОС, Версия 2018, обновление 3, сборка 20180411 (id: 18329)
- tenorflow-gpu == 1.13.1
- Multi-GPU - NC24