У меня возникает следующая проблема:
Я отправляю задания массива PBS через qsub -J 0:99 job.pbs
, но некоторые из моих заданий не выполняются и завершаются с кодом ошибки (в Python: sys.exit (-1)
).
Существует ли возможность автоматического повторного запуска этих заданий (с тем же номером задания) на другом узле до тех пор, пока задание не завершится нормально (в Python: sys.exit (0)
)?
Любая помощь будет принята с благодарностью!
Спасибо, Ян