CUDNN_STATUS_INTERNAL_ERROR при использовании как Pytorch, так и TensorFlow - PullRequest
0 голосов
/ 14 мая 2018

Я запускаю программу для обработки некоторых данных, и я делаю выводы как к модели TensorFlow, так и к модели Pytorch.

При выводе любой из моделей все работает нормально. Однако, когда я добавляю ввод pytorch, моя программа вылетает с этой ошибкой:

2018-05-14 12:55:05.525251: E tensorflow/stream_executor/cuda/cuda_dnn.cc:385] could not create cudnn handle: CUDNN_STATUS_INTERNAL_ERROR
2018-05-14 12:55:05.525280: F tensorflow/core/kernels/conv_ops.cc:717] Check failed: stream->parent()->GetConvolveAlgorithms( conv_parameters.ShouldIncludeWinogradNonfusedAlgo<T>(), &algorithms) 

Обратите внимание, что это уже происходит, прежде чем я что-то сделаю с Pytorch. Модели не загружены, на GPU ничего не ставится, устройства не проверяются.

Кто-нибудь знает, что может быть не так, как это исправить, и если есть какие-то параметры, которые я могу изменить?

Что-то, что я уже пробовал - отключение бэкэнда PyTorch с помощью этого кода:

import torch.backends.cudnn as cudnn
cudnn.enabled = False

Но, к сожалению, это не помогает ...

1 Ответ

0 голосов
/ 28 марта 2019

Вы найдете на форумах NVIDIA некоторые ссылки на cuBLAS, которые не очень хорошо взаимодействуют с несколькими процессами Python, взаимодействующими с ним одновременно.Это упоминается в этом выпуске за 1 год для Tensorflow , но оно должно быть таким же для любых клиентских приложений с несколькими PyTorch, взаимодействующих с графическим процессором через CUDA - и cuBLAS, чтобы быть более конкретным.Дескрипторы cuBLAS не были должным образом инициализированы из-за слишком большого количества проблем, связанных с кэшированием на диске и использованием ОЗУ.Решением было как удалить кэш на диске для cuBLAS,

sudo rm -rf ~/.nv

, так и ограничить объем использования памяти для сетей.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...