Почему задание hpc не работает с LSF - PullRequest
0 голосов
/ 27 сентября 2019

В моем проекте у меня есть стратегия планирования HPC lsf。

Мне нужно зарезервировать около 1000 ядер для большой работы.

Я устанавливаю содержимое ResourceReservation в lsb.resources,содержимое выглядит так:

# Allow user "user1 user2" to be able to make reservations on 
# "hostA hostB" between 8:00 and 18:00 every day.
Begin ResourceReservation
NAME  = dayPolicy
USERS = ccse-xiezy
HOSTS = hg_r09 
TIME_WINDOW = 8:00-18:00      
End ResourceReservation 

, а затем я запускаю:

[lsfadmin@lsf01 ~]$ badmin reconfig

результат в порядке:

Checking configuration files ...
No errors found.
Reconfiguration initiated

И затем я устанавливаю brsvadd:

[root@lsf01 configdir]#  brsvadd -n 25000 -m hg_skl6148 -u ccse-xiezy -b 10:30 -e 18:00
Reservation root#8 is created

Через несколько минут я проверяю хосты:

[ccse-xiezy@login01 ~]$ bhosts | grep ok | awk '{if($5==0) print $0}'
r02n57             ok              -     40      0      0      0      0      0
r05n22             ok              -     40      0      0      0      0      0
r07n20             ok              -     40      0      0      0      0      0
r07n50             ok              -     40      0      0      0      0      0
r11n05             ok              -     40      0      0      0      0      0
r11n49             ok              -     40      0      0      0      0      0
r13n03             ok              -     40      0      0      0      0      0

Я обнаружил, что 7 хостов - это IDLE, и я подпишусь на работу, для которой нужны 2 хоста:

[ccse-xiezy@login01 ~]$ bjobs
JOBID   USER    STAT  QUEUE      FROM_HOST   EXEC_HOST   JOB_NAME   SUBMIT_TIME
924454  ccse-xi PEND  medium     login01                 *--------- Sep 27 10:07

Ожидаемая причина:

 Job slot limit reached: 595 hosts;

Не знаю почему, кажется, в этом нет ничего плохого, кто может мне помочь?

...