Я пытаюсь использовать TensorFlow на общем хосте, где проводятся другие эксперименты.Иногда я сталкиваюсь с tensorflow.python.framework.errors_impl.InternalError
, который я пытаюсь поймать за исключением:
try:
with tf.Session() as sess:
...
except tensorflow.python.framework.errors_impl.InternalError as e:
...
К сожалению, это не очень хорошо работает, так как я получаю:
tensorflow.python.framework.errors_impl.InternalError: failed initializing StreamExecutor for CUDA device ordinal 1: Internal: failed call to cuDevicePrimaryCtxRetain: CUDA_ERROR_INVALID_VALUE: invalid argument
...
During handling of the above exception, another exception occurred:
...
NameError: name 'tensorflow' is not defined
Как я могу поймать InternalError
и попытаться перезапустить мой эксперимент с небольшой задержкой?