почему ошибка mpirun с другим порядком хостов? - PullRequest
0 голосов
/ 29 января 2020

У меня есть кластер из 8 узлов Ubuntu 18.04.3 под управлением openmpi 4.0.0 Я запускаю mpirun на 2 узлах, скажем node02 и node03 .

mpirun --hostfile my-hosts --report-bindings --oversubscribe --bind-to core -np 4 my-program

У меня есть 2 сценария ios

  1. [УСПЕХ] подключен к node02 и затем запустите выше с my-hosts равно
localhost slots=8 max-slots=8
node03 slots=8 max-slots=8
FAILED вошел в систему node03 и затем выполнить вышеупомянутое с my-hosts равным
localhost slots=8 max-slots=8
node02 slots=8 max-slots=8

The 2. Ошибка с такой ошибкой

sh: 1: orted: not found
--------------------------------------------------------------------------
ORTE was unable to reliably start one or more daemons.
This usually is caused by:

* not finding the required libraries and/or binaries on
  one or more nodes. Please check your PATH and LD_LIBRARY_PATH
  settings, or configure OMPI with --enable-orterun-prefix-by-default

* lack of authority to execute on one or more specified nodes.
  Please verify your allocation and authorities.

* the inability to write startup files into /tmp (--tmpdir/orte_tmpdir_base).
  Please check with your sys admin to determine the correct location to use.

*  compilation of the orted with dynamic libraries when static are required
  (e.g., on Cray). Please check your configure cmd line and consider using
  one of the contrib/platform definitions for your system type.

* an inability to create a connection back to mpirun due to a
  lack of common network interfaces and/or no route found between
  them. Please check network connectivity (including firewalls
  and network routing requirements).
--------------------------------------------------------------------------

Я пробовал это на всех 8 парах, но оно всегда одинаково, если имя локального хоста> имя удаленного хоста. Это тот случай или что на самом деле не так?

...