В моем проекте у меня есть стратегия планирования HPC lsf。
Мне нужно зарезервировать около 1000 ядер для большой работы.
Я устанавливаю содержимое ResourceReservation в lsb.resources,содержимое выглядит так:
# Allow user "user1 user2" to be able to make reservations on
# "hostA hostB" between 8:00 and 18:00 every day.
Begin ResourceReservation
NAME = dayPolicy
USERS = ccse-xiezy
HOSTS = hg_r09
TIME_WINDOW = 8:00-18:00
End ResourceReservation
, а затем я запускаю:
[lsfadmin@lsf01 ~]$ badmin reconfig
результат в порядке:
Checking configuration files ...
No errors found.
Reconfiguration initiated
И затем я устанавливаю brsvadd:
[root@lsf01 configdir]# brsvadd -n 25000 -m hg_skl6148 -u ccse-xiezy -b 10:30 -e 18:00
Reservation root#8 is created
Через несколько минут я проверяю хосты:
[ccse-xiezy@login01 ~]$ bhosts | grep ok | awk '{if($5==0) print $0}'
r02n57 ok - 40 0 0 0 0 0
r05n22 ok - 40 0 0 0 0 0
r07n20 ok - 40 0 0 0 0 0
r07n50 ok - 40 0 0 0 0 0
r11n05 ok - 40 0 0 0 0 0
r11n49 ok - 40 0 0 0 0 0
r13n03 ok - 40 0 0 0 0 0
Я обнаружил, что 7 хостов - это IDLE, и я подпишусь на работу, для которой нужны 2 хоста:
[ccse-xiezy@login01 ~]$ bjobs
JOBID USER STAT QUEUE FROM_HOST EXEC_HOST JOB_NAME SUBMIT_TIME
924454 ccse-xi PEND medium login01 *--------- Sep 27 10:07
Ожидаемая причина:
Job slot limit reached: 595 hosts;
Не знаю почему, кажется, в этом нет ничего плохого, кто может мне помочь?