Повторное выполнение сбойного задания массива PBS - PullRequest
0 голосов
/ 22 марта 2020

У меня возникает следующая проблема:

Я отправляю задания массива PBS через qsub -J 0:99 job.pbs, но некоторые из моих заданий не выполняются и завершаются с кодом ошибки (в Python: sys.exit (-1)).

Существует ли возможность автоматического повторного запуска этих заданий (с тем же номером задания) на другом узле до тех пор, пока задание не завершится нормально (в Python: sys.exit (0))?

Любая помощь будет принята с благодарностью!

Спасибо, Ян

...