SLURM освобождение ресурсов с использованием обновления scontrol приводит к неизвестному конечному времени - PullRequest
0 голосов
/ 05 декабря 2018

У меня есть программа, которая будет динамически освобождать ресурсы во время выполнения задания, используя команду:

scontrol update JobId = $ SLURM_JOB_ID NodeList = $ {Остальные Хосты}

Однако это приводит к некоторыминогда очень странное поведениеГде работа находится в очереди.Ниже приведен вывод команды sacct

sacct -j 1448590

JobID NNodes Состояние Начало Конец NodeList


1448590 4 RESIZING 20:47:28 01:04:22[0812,0827], [0663-0664]

1448590.0 4 ЗАВЕРШЕНО 20:47:30 20:47:30 [0812,0827], [0663-0664]

1448590.1 4 RESIZING20:47:30 01:04:22 [0812,0827], [0663-0664]

1448590 3 RESIZING 01:04:22 01:06:42 [0812,0827], 0663

1448590 2 Изменение размера 01:06:42 1:12:42 0827, tnxt-0663

1448590 4 ЗАВЕРШЕНО 05:33:15 Неизвестно 0805-0807,0809]

ПервыйСтроки показывают, что все работает нормально, узлы освобождаются, но в последней строке он показывает совершенно другой набор узлов с неизвестным временем окончания.Журналы slurm показывают, что задание было поставлено в очередь:

требуемый JobID = 1448590 State = 0x8000 NodeCnt = 1 из-за сбоя узла.

Я подозреваю, что это может произойти, потому что головной узел убит, ноДокументация по слёрму ничего об этом не говорит.

У кого-нибудь была идея или предложение?

Спасибо

1 Ответ

0 голосов
/ 06 декабря 2018

В этом посте обсуждался вопрос изменения размера заданий.

В вашем конкретном случае для сокращения я бы использовал:

  1. Предполагаячто j1 было отправлено с:

    $ salloc -N4 bash
    
  2. Обновление j1 до нового размера:

    $ scontrol update jobid=$SLURM_JOBID NumNodes=2
    $ scontrol update jobid=$SLURM_JOBID NumNodes=ALL
    
  3. И обновите переменные среды j1 (сценарий создан предыдущими командами):

    $ ./slurm_job_$SLURM_JOBID_resize.sh
    

Сейчас, В j1 есть 2 узла.

В вашем примере, как вы говорите, из списка "Остальные хосты" может быть исключен головной узел, который необходим Slurm для сокращения задания.Если вы указываете количество вместо списка, изменение размера должно работать.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...