На узлах исключенных Slurm не выполняются задания - PullRequest
0 голосов
/ 25 сентября 2018

С нашим локальным кластером у нас возникла следующая проблема со Slurm.Пользователь A отправляет много заданий, которые заполняют кластер с высоким приоритетом, и хочет оставить несколько узлов свободными для использования пользователем B.Таким образом, пользователь B может продолжать работать даже при очень ограниченных ресурсах.

Реализация и проблема: пользователь A исключает некоторые узлы, и они действительно пусты при запуске.Но задания пользователя B все еще не запускаются на этих узлах, даже если они пусты!Это может быть связано с тем, что задания пользователя A имеют гораздо более высокий приоритет, чем B, но, тем не менее, если есть свободные ресурсы, задания пользователя B должны использовать их.

Так что, возможно, исключение узлов не является способом достижения этого в Slurm?Как еще мы можем делать то, что хотим?

1 Ответ

0 голосов
/ 25 сентября 2018

Первым делом нужно убедиться, что обратная засыпка включена.Проверьте свой файл конфигурации на SchedulerType, который должен быть sched/backfill.

. Затем вы должны рассмотреть:

  • создание резервирования для пользователя Bили
  • добавьте узлы в отдельный раздел , в который пользователь B может отправлять сообщения, или
  • создайте QOS для пользователя B с приоритетомповышение и ограничение ресурсов.
...