На недавно установленных и сконфигурированных вычислительных узлах в нашем небольшом кластере я не могу отправлять задания slurm, используя пакетный скрипт и команду 'sbatch'.После отправки запрашиваемый узел переходит в состояние «дренирован».Тем не менее, я могу запустить ту же команду в интерактивном режиме, используя 'srun'.
Работает:
srun -p debug --ntasks=1 --nodes=1 --job-name=test --nodelist=node6 -l echo 'test'
Не работает:
sbatch test.slurm
с test.slurm
:
#!/bin/sh
#SBATCH --job-name=test
#SBATCH --ntasks=1
#SBATCH --nodes=1
#SBATCH --nodelist=node6
#SBATCH --partition=debug
echo 'test'
Это дает мне:
PARTITION AVAIL TIMELIMIT NODES STATE NODELIST
debug up 1:00:00 1 drain node6
, и я должен возобновить работу узла.
Все узлы работают под Debian 9.8, используют Infiniband иNIS.Я убедился, что все узлы имеют одинаковую конфигурацию, версию пакетов и работающих демонов.Итак, я не вижу, чего мне не хватает.