Я пытаюсь отправить это задание:
sbatch --gres=gpu:v100:1 -p defq -J convolutional-mnist /cm/shared/jobs/convolutional-mnist/convolutional-mnist.slurm
sbatch: ошибка: отправка пакетного задания завершилась неудачно: Запрошенная конфигурация узла недоступна
Но конфигурация кажется правильной.Вот вывод sinfo:
$ sinfo -o "%.10P %.5a %.10l %.6D %.6t %.20N %.10G"
PARTITION AVAIL TIMELIMIT NODES STATE NODELIST GRES
defq* up infinite 1 idle cnode001 gpu:v100:1
defq* up infinite 2 idle cnode[002-003] (null)
idle up infinite 1 idle cnode001 gpu:v100:1
idle up infinite 2 idle cnode[002-003] (null)
long up infinite 1 idle cnode001 gpu:v100:1
long up infinite 2 idle cnode[002-003] (null)
Обратите внимание, что узел cnode001 принадлежит defq и имеет строку gres gpu: v100: 1.
Я не понимаю, почему Slurm говорит RequestedКонфигурация узла недоступна.
Любая помощь, которую вы можете предоставить, будет принята с благодарностью.