Я хотел бы распределить свою работу равномерно по нескольким узлам и указал --dicribution = циклический в моем файле sbatch, но slurm игнорирует это и использует вместо этого распределение блоков.
Раньше задачи былираспределяя равномерно по узлам.Из прочтения документации я ожидаю, что это будет поведение по умолчанию, если только в файле slurm.conf не указано иное.
Начиная с сегодняшнего дня, задачи кластеризуются на первом узле, и на каждом из них только одна задача.узлы.Я явно что-то изменил в конфиге, но не могу понять, где это исправить.Я внес изменения в образ для вычислительных узлов и перезагрузил их сегодня.
Когда я пытаюсь остановить slurmctld на головном узле, он немедленно перезапускается моим монитором Bright Cluster Manager.Не уверен, мешает ли это обновлению конфигурации.
Я исследовал файл slurm.conf, но он выглядит нормально.Я пробовал оба SelectTypeParameters = CR_Core и CR_CPU, но получаю один и тот же результат.
Чтобы попытаться обойти это, я добавил --distribution = циклический в мой файл sbatch, но slurm все еще выделяется с помощью блока 'метод.Но добавлять это в sbatch не нужно, по крайней мере, в соответствии с моим пониманием документов.
Вот соответствующие строки из slurm.conf и моего сценария sbatch:
# RESOURCES
SelectType=select/cons_res
SelectTypeParameters=CR_Core
# Node Description
NodeName=DEFAULT Sockets=2 CoresPerSocket=20 ThreadsPerCore=1
# Scheduler
SchedulerType=sched/backfill
#SBATCH --ntasks=12
#SBATCH --nodes=3
#SBATCH --distribution=cyclic:cyclic
Я ожидаю, что задачи будут равномерно распределены между узлами, по 4 задачи на каждом из 3 узлов.
Вот как задачи распределяются на самом деле:
NODELIST STATE CPUS(A/I/O/T) MEMORY TMP_DISK REASON
compute001 mixed 10/30/0/40 192006 2038 none
compute002 mixed 1/39/0/40 192006 2038 none
compute003 mixed 1/39/0/40 192006 2038 none
compute004 idle 0/40/0/40 192006 2038 none