sbatch отправляет вычислительный узел в состояние «дренирован» - PullRequest
0 голосов
/ 22 марта 2019

На недавно установленных и сконфигурированных вычислительных узлах в нашем небольшом кластере я не могу отправлять задания slurm, используя пакетный скрипт и команду 'sbatch'.После отправки запрашиваемый узел переходит в состояние «дренирован».Тем не менее, я могу запустить ту же команду в интерактивном режиме, используя 'srun'.

Работает:
srun -p debug --ntasks=1 --nodes=1 --job-name=test --nodelist=node6 -l echo 'test'

Не работает:
sbatch test.slurm
с test.slurm:

#!/bin/sh
#SBATCH --job-name=test
#SBATCH --ntasks=1
#SBATCH --nodes=1
#SBATCH --nodelist=node6
#SBATCH --partition=debug

echo 'test'

Это дает мне:

PARTITION  AVAIL  TIMELIMIT  NODES  STATE NODELIST
debug         up    1:00:00      1  drain node6

, и я должен возобновить работу узла.

Все узлы работают под Debian 9.8, используют Infiniband иNIS.Я убедился, что все узлы имеют одинаковую конфигурацию, версию пакетов и работающих демонов.Итак, я не вижу, чего мне не хватает.

1 Ответ

0 голосов
/ 27 марта 2019

Похоже, проблема была связана с существующим NIS.Просто нужно добавить в конец / etc / passwd эту строку:

+::::::

и перезапустить slurmd на узле:

/etc/init.d/slurmd restart
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...