У меня есть программа, которая будет динамически освобождать ресурсы во время выполнения задания, используя команду:
scontrol update JobId = $ SLURM_JOB_ID NodeList = $ {Остальные Хосты}
Однако это приводит к некоторыминогда очень странное поведениеГде работа находится в очереди.Ниже приведен вывод команды sacct
sacct -j 1448590
JobID NNodes Состояние Начало Конец NodeList
1448590 4 RESIZING 20:47:28 01:04:22[0812,0827], [0663-0664]
1448590.0 4 ЗАВЕРШЕНО 20:47:30 20:47:30 [0812,0827], [0663-0664]
1448590.1 4 RESIZING20:47:30 01:04:22 [0812,0827], [0663-0664]
1448590 3 RESIZING 01:04:22 01:06:42 [0812,0827], 0663
1448590 2 Изменение размера 01:06:42 1:12:42 0827, tnxt-0663
1448590 4 ЗАВЕРШЕНО 05:33:15 Неизвестно 0805-0807,0809]
ПервыйСтроки показывают, что все работает нормально, узлы освобождаются, но в последней строке он показывает совершенно другой набор узлов с неизвестным временем окончания.Журналы slurm показывают, что задание было поставлено в очередь:
требуемый JobID = 1448590 State = 0x8000 NodeCnt = 1 из-за сбоя узла.
Я подозреваю, что это может произойти, потому что головной узел убит, ноДокументация по слёрму ничего об этом не говорит.
У кого-нибудь была идея или предложение?
Спасибо