Slurm: как перезапустить неудачную работу - PullRequest
0 голосов
/ 03 июня 2018

Если кто-то запускает задание массива в кластере slurm, как можно перезапустить сбойное задание?

В очереди Sun Grid Engine можно добавить #$ -r y в файл задания, чтобы указатьзадание должно быть перезапущено в случае неудачи - что эквивалентно Slurm этому флагу?

1 Ответ

0 голосов
/ 04 июня 2018

Вы можете использовать --requeue

#SBATCH --requeue                   ### On failure, requeue for another try

- требование

Указывает, что пакетное задание должно иметь право на получение.Задание может быть явно поставлено в очередь системным администратором, после сбоя узла или после вытеснения заданием с более высоким приоритетом.Когда задание ставится в очередь, пакетный скрипт запускается с его начала.Также смотрите параметр --no-Requeue.Параметр конфигурации JobRequeue управляет поведением по умолчанию в кластере.

Подробнее здесь: https://slurm.schedmd.com/sbatch.html#lbAE

...