У меня есть кластер из 8 узлов Ubuntu 18.04.3 под управлением openmpi 4.0.0 Я запускаю mpirun на 2 узлах, скажем node02 и node03 .
mpirun --hostfile my-hosts --report-bindings --oversubscribe --bind-to core -np 4 my-program
У меня есть 2 сценария ios
- [УСПЕХ] подключен к node02 и затем запустите выше с my-hosts равно
localhost slots=8 max-slots=8
node03 slots=8 max-slots=8
FAILED вошел в систему
node03 и затем выполнить вышеупомянутое с
my-hosts равным
localhost slots=8 max-slots=8
node02 slots=8 max-slots=8
The 2. Ошибка с такой ошибкой
sh: 1: orted: not found
ORTE was unable to reliably start one or more daemons.
This usually is caused by:
* not finding the required libraries and/or binaries on
one or more nodes. Please check your PATH and LD_LIBRARY_PATH
settings, or configure OMPI with --enable-orterun-prefix-by-default
* lack of authority to execute on one or more specified nodes.
Please verify your allocation and authorities.
* the inability to write startup files into /tmp (--tmpdir/orte_tmpdir_base).
Please check with your sys admin to determine the correct location to use.
* compilation of the orted with dynamic libraries when static are required
(e.g., on Cray). Please check your configure cmd line and consider using
one of the contrib/platform definitions for your system type.
* an inability to create a connection back to mpirun due to a
lack of common network interfaces and/or no route found between
them. Please check network connectivity (including firewalls
and network routing requirements).
Я пробовал это на всех 8 парах, но оно всегда одинаково, если имя локального хоста> имя удаленного хоста. Это тот случай или что на самом деле не так?