Rapids / docker: не удалось выбрать драйвер устройства "" с возможностями: [[gpu]] - PullRequest
1 голос
/ 09 мая 2020

Я новичок в Rapids и редко имел хороший опыт работы с conda. Поэтому я пытаюсь работать с контейнерной версией. Я новичок в Docker, и сочетание неизвестных не дает мне возможности разобраться.

У меня есть сервер Ubuntu 18.04,

# uname -v
#30~18.04.1-Ubuntu SMP Fri Jan 17 06:14:09 UTC 2020

, на котором я установил fre sh версия Docker

# apt-get install docker docker-ce docker-ce-cli containerd.io
# docker --version
Docker version 19.03.8, build afacb8b7f0

На этом компьютере установлено cuda v10.2

# nvcc --version
nvcc: NVIDIA (R) Cuda compiler driver
Copyright (c) 2005-2019 NVIDIA Corporation
Built on Wed_Oct_23_19:24:38_PDT_2019
Cuda compilation tools, release 10.2, V10.2.89

и Python v3.6.9

# python3 --version
Python 3.6.9

Как показано в разделе NVIDIA Container Toolkit Quickstart , я устанавливаю список nvidia- docker в /etc/apt/sources.list.d/

# curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add -
# curl -s -L https://nvidia.github.io/nvidia-docker/ubuntu18.04/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list

, явно подставляя ubuntu18.04 для распределения $, поскольку это эквивалент Ubuntu для Linux Mint 19.3 .

Следуя инструкциям по запуску контейнера и сервера ноутбука в RAPIDS - Open GPU Data Science , Я вытащил среду выполнения 0.13-cuda10.2-runtime-ubuntu18.04-py3.6.

# docker pull rapidsai/rapidsai:0.13-cuda10.2-runtime-ubuntu18.04-py3.6

Долгое время и несколько ГБ спустя казалось, что все в порядке. (Без предупреждений или сообщений об ошибках.) Кроме того, похоже, что изображение было зарегистрировано с Docker.

# docker images -a
REPOSITORY          TAG                                       IMAGE ID            CREATED             SIZE
rapidsai/rapidsai   0.13-cuda10.2-runtime-ubuntu18.04-py3.6   c7440af853b5        4 days ago          9.26GB
rapidsai/rapidsai   cuda10.2-runtime-ubuntu18.04-py3.6        c7440af853b5        4 days ago          9.26GB

Однако затем я попытался запустить сервер ноутбука:

# docker run --gpus all --rm -it -p 8888:8888 -p 8787:8787 -p 8786:8786 \
       rapidsai/rapidsai:cuda10.0-runtime-ubuntu18.04-py3.6
docker: Error response from daemon: could not select device driver "" with capabilities: [[gpu]].

Это кажется удивительным, поскольку обнаружено два графических процессора GTX 1080 Ti

# nvidia-smi
Fri May  8 16:41:57 2020       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 440.33.01    Driver Version: 440.33.01    CUDA Version: 10.2     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  GeForce GTX 108...  On   | 00000000:08:00.0 Off |                  N/A |
| 21%   38C    P8    10W / 250W |      1MiB / 11178MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+
|   1  GeForce GTX 108...  On   | 00000000:42:00.0 Off |                  N/A |
| 23%   42C    P8    10W / 250W |      1MiB / 11177MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID   Type   Process name                             Usage      |
|=============================================================================|
|  No running processes found                                                 |
+-----------------------------------------------------------------------------+

После очистки

# docker system prune -a
# apt-get purge docker docker-engine docker.io containerd runc    

Я переустановил docker и снова вытащил образ Rapidsai . Результат не изменился.

Есть ли конфликт с версией драйвера NVIDIA: 440.33.01?

Есть предложения?

1 Ответ

0 голосов
/ 12 мая 2020

Спасибо, что попробовали RAPIDS. У вас получилось установить nvidia-container-toolkit? https://github.com/NVIDIA/nvidia-docker#quickstart. Я не видел этого в ваших шагах, и отсутствие этого могло вызвать эту проблему. Это в наших предварительных условиях на https://rapids.ai/start.html

...