Я настроил синхронизированный по NFS диск с моего головного узла (node0) и подключил этот диск к своим рабочим узлам (node1 ... node3).Я использую этот синхронизированный диск в качестве «царапины» для пользователей для выполнения своих заданий через SLURM.Кроме того, я использую его для установки общих программ, таких как MPICH 3.2, который был скомпилирован и установлен через узел 0.
Я заметил, что при выполнении задания MPI через SLURM задание выполняется до тех пор, пока узел 0хост-узел.Если я отправляю задание на другие узлы (например, узел2 и узел3, где узел2 - это хост), задание не выполняется.Как я могу заставить его работать на других узлах, чтобы освободить головной узел?
РЕДАКТИРОВАТЬ: FF.является выводом задания MPI, если оно выполняется через SLURM:
srun: error: timeout waiting for task launch, started 1 of 2 tasks
srun: Job step 4118.0 aborted before step completely launched.
srun: Job step aborted: Waiting up to 32 seconds for job step to finish.
slurmstepd: *** STEP 4118.0 ON node2 CANCELLED AT 2018-05-21T20:24:29 ***
srun: error: node2: task 0: Killed
[mpiexec@node2] control_cb (pm/pmiserv/pmiserv_cb.c:208): assert (!closed) failed
[mpiexec@node2] HYDT_dmxu_poll_wait_for_event (tools/demux/demux_poll.c:76): callback returned error status
[mpiexec@node2] HYD_pmci_wait_for_completion (pm/pmiserv/pmiserv_pmci.c:198): error waiting for event
[mpiexec@node2] main (ui/mpich/mpiexec.c:340): process manager