Ошибка Mpirun с SLURM: «Демон ORTE неожиданно потерпел неудачу», но только при передаче параметров с помощью sbatch - PullRequest
0 голосов
/ 08 марта 2020

Я получаю следующую ошибку при попытке отправить задание с помощью sbatch:

An ORTE daemon has unexpectedly failed after launch and before
communicating back to mpirun. This could be caused by a number
of factors, including an inability to create a connection back
to mpirun due to a lack of common network interfaces and/or no
route found between them. Please check network connectivity
(including firewalls and network routing requirements).

Когда я использую sbatch без параметров, он работает нормально, но когда я пытаюсь передать любой параметр (например, --job-name или --export) с sbatch, появляется вышеуказанная ошибка.

Я использую openmpi 3 и запускаю скрипт python с mpirun. И mpirun, и orted, похоже, используют одну и ту же версию openmpi, о чем свидетельствует вызов which в моем скрипте slurm непосредственно перед использованием mpirun:

which mpirun: /opt/openmpi30/bin/mpirun
which orted: /opt/openmpi30/bin/orted

Любая помощь будет принята с благодарностью.

...