Я получаю следующую ошибку при попытке отправить задание с помощью sbatch:
An ORTE daemon has unexpectedly failed after launch and before
communicating back to mpirun. This could be caused by a number
of factors, including an inability to create a connection back
to mpirun due to a lack of common network interfaces and/or no
route found between them. Please check network connectivity
(including firewalls and network routing requirements).
Когда я использую sbatch без параметров, он работает нормально, но когда я пытаюсь передать любой параметр (например, --job-name
или --export
) с sbatch, появляется вышеуказанная ошибка.
Я использую openmpi 3 и запускаю скрипт python с mpirun. И mpirun, и orted, похоже, используют одну и ту же версию openmpi, о чем свидетельствует вызов which
в моем скрипте slurm непосредственно перед использованием mpirun:
which mpirun: /opt/openmpi30/bin/mpirun
which orted: /opt/openmpi30/bin/orted
Любая помощь будет принята с благодарностью.