GKE - GPU NVIDIA - драйверы CUDA не работают - PullRequest
1 голос
/ 08 ноября 2019

Я настроил узел kubernetes с nvidia tesla k80 и следовал этому руководству , чтобы попытаться запустить образ докера pytorch с работающими драйверами nvidia и cuda. ​​

Мне удалосьустановите наборы демонов nvidia, и теперь я вижу следующие модули:

nvidia-driver-installer-gmvgt
nvidia-gpu-device-plugin-lmj84

Проблема в том, что даже при использовании рекомендованного образа nvidia/cuda:10.0-runtime-ubuntu18.04 я все еще не могу найти драйверы nvidia внутри моего модуля:

root@pod-name-5f6f776c77-87qgq:/app# ls /usr/local/
bin  cuda  cuda-10.0  etc  games  include  lib  man  sbin  share  src

Но в руководстве упоминается:

Библиотеки CUDA и утилиты отладки доступны внутри контейнера в /usr/local/nvidia/lib64 и /usr/local/nvidia/bin соответственно.

Я также пытался проверить, работала ли cuda через torch.cuda.is_available(), но я получаю False в качестве возвращаемого значения.

Многие заранее помогают за вашу помощь

1 Ответ

1 голос
/ 08 ноября 2019

Хорошо, так что я наконец-то заставил работать драйверы nvidia.

Обязательно установить ограничение ресурсов для доступа к драйверу nvidia, что странно, учитывая, как мой модуль находился на нужном узле с установленными драйверами nvidia. ..

Это сделало папку nvidia доступной, но я все еще не могу заставить установку cuda работать с pytorch 1.3.0 .. [ проблема здесь ]

...