В нашем локальном кластере имеется 4 узла графического процессора с 2 36-ядерными процессорами и 200 ГБ оперативной памяти. Когда я пытаюсь отправить задание в следующей конфигурации:
#SBATCH --nodes=1 #SBATCH --ntasks=40 #SBATCH --cpus-per-task=1 #SBATCH --mem-per-cpu=1500MB #SBATCH --gres=gpu:4 #SBATCH --time=0-10:00:00
Я получаю следующую ошибку:
sbatch: ошибка: не удалось отправить пакетное задание: запрашиваемая конфигурация узла недоступна
В чем может быть причина этой ошибки? Узлы имеют именно то оборудование, которое мне нужно ...
Процессоры, скорее всего, 36-ниточные, а не 36-ядерные, и Slurm, вероятно, настроен на распределение ядер, а не потоков.
Проверьте вывод scontrol show nodes, чтобы увидеть, что на самом деле предлагают узлы.
scontrol show nodes
Вы запрашиваете 40 задач на узлах с 36 процессорами.Конфигурация SLURM по умолчанию связывает задачи с ядрами, поэтому может сработать сокращение задач до 36 или меньше.(Или увеличивает количество узлов до 2, если ваше приложение может справиться с этим)