Я столкнулся с проблемой MPI, которая, похоже, не может найти решение здесь (или в другом месте), хотя я предполагал, что это будет дубликат.
На моем локальном HP C, существует проблема при использовании Singularity с OpenMPI. К сожалению, я не могу контролировать тот факт, что мне нужно использовать эти два.
Когда я пытаюсь вызвать MPI_Init
в моем контейнеризованном приложении, иногда (возможно, 2/5 заданий, которые я отправляю), я нажимаю ошибка, которая выглядит следующим образом:
[<host>] PMIX ERROR: PMIX TEMPORARILY UNAVAILABLE in file ptl_tcp.c at line 688
[<host>] OPAL ERROR: Unreachable in file pmix2x_client.c at line 112
*** An error occurred in MPI_Init
*** on a NULL communicator
*** MPI_ERRORS_ARE_FATAL (processes in this communicator will now abort,
*** and potentially your MPI job)
Это известная проблема с Singularity, которая обычно указывает на несоответствие между реализацией MPI внутри и снаружи контейнера. К сожалению, я проверил это, так что не , кажется, моя проблема. Я прекратил попытки решить проблему и теперь просто хочу смягчить.
Я хотел бы использовать MPI_ERRORS_RETURN
вместо MPI_ERRORS_ARE_FATAL
, чтобы я мог прервать свое приложение более изящно, но, к сожалению, Я не могу установить это до вызова MPI_Init
.
Есть ли способ получить это?