Я отправляю задания в массиве.Иногда одно задание приводит к ошибке из-за сложной проблемы диагностики памяти графического процессора.Простой повторный запуск задания приводит к успеху.
Я хотел бы поймать эту ошибку, зарегистрировать ее и вернуть задание в очередь для повторного выполнения.Если это невозможно сделать с работой с массивами, это нормально, не обязательно использовать массивы (хотя и предпочтительнее).
Я пытался поиграться с sbatch --rerun, но это не таккажется, что я делаю то, что хочу (я думаю, что этот вариант предназначен для повторного запуска после аппаратной ошибки, обнаруженной в slurm, или если узел перезапускается при выполнении задания - это не так для моих заданий).
Любой совет хорошо принят.