У меня есть работа в кластере SLURM, которая остановилась и теперь говорит «ПРЕДВАРИТЕЛЬНО», что это значит? - PullRequest
0 голосов
/ 15 мая 2018

Я выполнил задание в кластере SLURM, и некоторое время задание выполнялось просто отлично. В последний раз, когда я использовал команду очереди squeue, она сообщила:

JOBID   PARTITION NAME     USER    ST     TIME  NODES NODELIST(REASON)
2394852 serial_re CombineP user_1  R      22:29 1     bigcluster112

Однако, я только что проверил это, и теперь оно говорит:

JOBID   PARTITION NAME     USER    ST     TIME  NODES NODELIST(REASON)
2394852 serial_re CombineP user_1  PD     0:00      1 (Priority)

и я получил электронное письмо, в котором говорилось, что работа была "ПРЕДОСТАВЛЕНА". Я искал в Интернете, и он говорит, что, когда есть высокоприоритетное задание, низкоприоритетное останавливается, а высокоприоритетное выполняется. Это в общем кластере университета. Я не выполнял никаких других работ. Означает ли это, что кто-то другой только что выполнил работу, которая теперь ставит мою работу в низкоприоритетную? Как установить или превзойти этот приоритет? Спасибо!

1 Ответ

0 голосов
/ 16 мая 2018

Да, кто-то отправил задание с более высоким приоритетом или с QOS, обладающим правами вытеснения над другими QOS, или с разделом, обладающим правами вытеснения над другими разделами.

Найдите слово «Preempt»в выводе scontrol show config, scontrol show partitions и sacctmgr list qos для получения дополнительной информации.

Чтобы узнать, как вычисляется приоритет, посмотрите вывод scontrol show config | grep Priority и найдите соответствующие ключевые слова в man-страница slurm.conf .

...