slurm sbatch ставит в очередь задачи, но ничего не выполняет - PullRequest
0 голосов
/ 25 января 2019

Я использую slurm в кластере AWS и написал сценарий для выполнения, который, похоже, не работает.Если я запускаю скрипт сам по себе, он работает нормально.Однако при запуске с sbatch он не работает.

Я вызываю sbatch со следующим кодом:

for sample in `cat url.txt`;
    do sudo /opt/slurm/bin/sbatch ./slurm_script.sh $sample; 
    sleep 1;
done

Скрипт slurm_script.sh содержит очень длинный конвейер биоинформатики,Он работает, когда вызывается сам по себе [bash slurm_script.sh someString]

. Он выводит на главный узел:

Submitted batch job 2
Submitted batch job 3
Submitted batch job 4
Submitted batch job 5
...

, но когда я запускаю ssh на любом вычислительном узле, процессы не выполняются.Файлы тоже не создаются.Есть идеи?

1 Ответ

0 голосов
/ 26 января 2019

Мне потребовалось некоторое время, чтобы понять это, но каталоги ошибок и выходов slurm не были созданы в нужной папке до запуска сценария.Я создал эти каталоги в ~ / slurm_out и ~ / slurm_error.Однако после запуска следующего предложения @Poshi

scontrol show job

я увидел, что slurm ищет их в следующих каталогах:

...
WorkDir=/scratch/missing
StdErr=/scratch/missing/slurm_error/error_85.txt
StdIn=/dev/null
StdOut=/scratch/missing/slurm_out/output_85.txt
Power=
...

После создания slurm_error и slurm_outв каталоге, где искала slurm, скрипт начал работать!

...