Snakemake зависает, когда кластер (slurm) отменил задание - PullRequest
0 голосов
/ 25 сентября 2018

Возможно, ответ для многих очевиден, но я очень удивлен, что не смог найти вопрос по этой теме, который представляет для меня большую проблему.Я был бы очень признателен за подсказку!

При отправке задания в кластере, управляемом slurm, если администратор очередей отменяет задание (например, из-за недостатка ресурсов или времени), snakemake, похоже, не получает никакого сигнала и зависаетнавсегда.С другой стороны, когда работа терпит неудачу, змеиное мастерство терпит неудачу, как и ожидалось.Это поведение нормальное / желаемое?Как я могу заставить змейку терпеть неудачу, даже когда работа отменяется?У меня была эта проблема с snakemake версии 3.13.3, и она продолжала обновляться до 5.3.0.

Например, в этом случае я запускаю простой конвейер с недостаточными ресурсами для правила pluto:

$ snakemake -j1 -p --cluster 'sbatch --mem {resources.mem}' pluto.txt
Building DAG of jobs...
Using shell: /usr/bin/bash
Provided cluster nodes: 1
Unlimited resources: mem
Job counts:
    count   jobs
    1       pippo
    1       pluto
    2

[Tue Sep 25 16:04:21 2018]
rule pippo:
    output: pippo.txt
    jobid: 1
    resources: mem=1000

seq 1000000 | shuf > pippo.txt
Submitted job 1 with external jobid 'Submitted batch job 4776582'.
[Tue Sep 25 16:04:31 2018]
Finished job 1.
1 of 2 steps (50%) done

[Tue Sep 25 16:04:31 2018]
rule pluto:
    input: pippo.txt
    output: pluto.txt
    jobid: 0
    resources: mem=1

sort pippo.txt > pluto.txt
Submitted job 0 with external jobid 'Submitted batch job 4776583'.

Здесь висит.А вот и содержание работы бухгалтерии:

$ sacct -S2018-09-25-16:04 -o jobid,JobName,state,ReqMem,MaxRSS,Start,End,Elapsed
       JobID    JobName      State     ReqMem     MaxRSS               Start                 End    Elapsed
------------ ---------- ---------- ---------- ---------- ------------------- ------------------- ----------
4776582      snakejob.+  COMPLETED     1000Mn            2018-09-25T16:04:22 2018-09-25T16:04:27   00:00:05
4776582.bat+      batch  COMPLETED     1000Mn      1156K 2018-09-25T16:04:22 2018-09-25T16:04:27   00:00:05
4776583      snakejob.+ CANCELLED+        1Mn            2018-09-25T16:04:32 2018-09-25T16:04:32   00:00:00
4776583.bat+      batch  CANCELLED        1Mn      1156K 2018-09-25T16:04:32 2018-09-25T16:04:32   00:00:00
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...