Я настроил узел kubernetes с nvidia tesla k80 и следовал этому руководству , чтобы попытаться запустить образ докера pytorch с работающими драйверами nvidia и cuda.
Мне удалосьустановите наборы демонов nvidia, и теперь я вижу следующие модули:
nvidia-driver-installer-gmvgt
nvidia-gpu-device-plugin-lmj84
Проблема в том, что даже при использовании рекомендованного образа nvidia/cuda:10.0-runtime-ubuntu18.04
я все еще не могу найти драйверы nvidia внутри моего модуля:
root@pod-name-5f6f776c77-87qgq:/app# ls /usr/local/
bin cuda cuda-10.0 etc games include lib man sbin share src
Но в руководстве упоминается:
Библиотеки CUDA и утилиты отладки доступны внутри контейнера в /usr/local/nvidia/lib64
и /usr/local/nvidia/bin
соответственно.
Я также пытался проверить, работала ли cuda через torch.cuda.is_available()
, но я получаю False в качестве возвращаемого значения.
Многие заранее помогают за вашу помощь