slurm игнорирует флаг --distribution = cyclic в моем файле sbatch и вместо этого использует метод распределения 'block' - PullRequest
0 голосов
/ 28 июня 2019

Я хотел бы распределить свою работу равномерно по нескольким узлам и указал --dicribution = циклический в моем файле sbatch, но slurm игнорирует это и использует вместо этого распределение блоков.

Раньше задачи былираспределяя равномерно по узлам.Из прочтения документации я ожидаю, что это будет поведение по умолчанию, если только в файле slurm.conf не указано иное.

Начиная с сегодняшнего дня, задачи кластеризуются на первом узле, и на каждом из них только одна задача.узлы.Я явно что-то изменил в конфиге, но не могу понять, где это исправить.Я внес изменения в образ для вычислительных узлов и перезагрузил их сегодня.

Когда я пытаюсь остановить slurmctld на головном узле, он немедленно перезапускается моим монитором Bright Cluster Manager.Не уверен, мешает ли это обновлению конфигурации.

Я исследовал файл slurm.conf, но он выглядит нормально.Я пробовал оба SelectTypeParameters = CR_Core и CR_CPU, но получаю один и тот же результат.

Чтобы попытаться обойти это, я добавил --distribution = циклический в мой файл sbatch, но slurm все еще выделяется с помощью блока 'метод.Но добавлять это в sbatch не нужно, по крайней мере, в соответствии с моим пониманием документов.

Вот соответствующие строки из slurm.conf и моего сценария sbatch:

# RESOURCES
SelectType=select/cons_res
SelectTypeParameters=CR_Core
# Node Description
NodeName=DEFAULT Sockets=2 CoresPerSocket=20 ThreadsPerCore=1
# Scheduler
SchedulerType=sched/backfill
#SBATCH --ntasks=12
#SBATCH --nodes=3
#SBATCH --distribution=cyclic:cyclic

Я ожидаю, что задачи будут равномерно распределены между узлами, по 4 задачи на каждом из 3 узлов.

Вот как задачи распределяются на самом деле:

   NODELIST       STATE  CPUS(A/I/O/T)  MEMORY TMP_DISK REASON
 compute001       mixed     10/30/0/40  192006     2038 none
 compute002       mixed      1/39/0/40  192006     2038 none
 compute003       mixed      1/39/0/40  192006     2038 none
 compute004        idle      0/40/0/40  192006     2038 none
...