Решение SLURM «sbatch: ошибка: не удалось отправить пакетное задание: запрашиваемая конфигурация узла недоступна» - PullRequest
1 голос
/ 22 марта 2019

В нашем локальном кластере имеется 4 узла графического процессора с 2 36-ядерными процессорами и 200 ГБ оперативной памяти. Когда я пытаюсь отправить задание в следующей конфигурации:

#SBATCH --nodes=1
#SBATCH --ntasks=40
#SBATCH --cpus-per-task=1
#SBATCH --mem-per-cpu=1500MB
#SBATCH --gres=gpu:4
#SBATCH --time=0-10:00:00

Я получаю следующую ошибку:

sbatch: ошибка: не удалось отправить пакетное задание: запрашиваемая конфигурация узла недоступна

В чем может быть причина этой ошибки? Узлы имеют именно то оборудование, которое мне нужно ...

Ответы [ 2 ]

1 голос
/ 29 марта 2019

Процессоры, скорее всего, 36-ниточные, а не 36-ядерные, и Slurm, вероятно, настроен на распределение ядер, а не потоков.

Проверьте вывод scontrol show nodes, чтобы увидеть, что на самом деле предлагают узлы.

0 голосов
/ 22 марта 2019

Вы запрашиваете 40 задач на узлах с 36 процессорами.Конфигурация SLURM по умолчанию связывает задачи с ядрами, поэтому может сработать сокращение задач до 36 или меньше.(Или увеличивает количество узлов до 2, если ваше приложение может справиться с этим)

...