Я получаю сообщение об ошибке при использовании nvidia-docker run для запуска образа - PullRequest
0 голосов
/ 14 июня 2019

Я пытаюсь запустить образ докера nvidia с помощью -

$ nvidia-docker run --rm --name=kitty1 -ti nvcr.io/nvidia/tensorflow:19.01-py3

Но выдает ошибку -

/usr/bin/docker-current: error during connect: Post http://%2Fvar%2Frun%2Fdocker.sock/v1.26/containers/create?name=kitty1: EOF. See '/usr/bin/docker-current run --help'.

Я использую удаленный хост, кстати, и подключаюсьSSH-Ing.Образ взят из https://ngc.nvidia.com/catalog/containers/nvidia:tensorflow, который я получил с помощью docker pull.

Версия докера - Docker version 1.13.1, build 07f3374/1.13.1 Драйвер nvidia также правильно установлен в хост-системе.Это я проверил, пытаясь запустить $nvidia-smi, в котором перечислены все графические процессоры и их данные.

Я попытался использовать обычный запуск Docker (без префикса 'nvidia-'), и он все-таки запустился, но не смог загрузить диск GPU.поддержка, которая очень необходима.

$docker run -it --rm nvcr.io/nvidia/tensorflow:19.01-py3

Вывод:

================
== TensorFlow ==
================

NVIDIA Release 19.01 (build 5238117)
TensorFlow Version 1.12.0+

Container image Copyright (c) 2018, NVIDIA CORPORATION.  All rights reserved.
Copyright 2017-2018 The TensorFlow Authors.  All rights reserved.

Various files include modifications (c) NVIDIA CORPORATION.  All rights reserved.
NVIDIA modifications are covered by the license terms that apply to the underlying project or file.

WARNING: The NVIDIA Driver was not detected.  GPU functionality will not be available.
   Use 'nvidia-docker run' to start this container; see
   https://github.com/NVIDIA/nvidia-docker/wiki/nvidia-docker .

NOTE: MOFED driver for multi-node communication was not detected.
      Multi-node communication performance may be reduced.

NOTE: The SHMEM allocation limit is set to the default of 64MB.  This may be
   insufficient for TensorFlow.  NVIDIA recommends the use of the following flags:
   nvidia-docker run --shm-size=1g --ulimit memlock=-1 --ulimit stack=67108864 ...

root@bed8972b5e93:/workspace#

# Выше # - приглашение bash, работающее от имени пользователя root.Как видно в сообщении, он не может загрузить драйверы GPU.

Префикс 'nvidia-' все еще вызывает ошибку

Что я ожидаю -

Контейнер работает, загружаетДрайверы GPU и, вероятно, отображает приветственное сообщение, а затем приглашение, готовое для команд.

Что происходит

Я получаю сообщение об ошибке -

/usr/bin/docker-current: error during connect: Post http://%2Fvar%2Frun%2Fdocker.sock/v1.26/containers/create?name=kitty1: EOF. See '/usr/bin/docker-current run --help'.

Я ломаля думал над этим часами, но до сих пор не имею ни малейшего понятия о том, что вызвало это.

...