Ошибка времени выполнения openmpi: Hello World работает на хостах - PullRequest
0 голосов
/ 20 ноября 2018

Я пытаюсь настроить кластер. До сих пор я тестирую его только с 1 ведущим и 1 ведомым. При запуске сценария от мастера он начинает печатать HelloWorld, но затем я получаю следующую ошибку:

Primary job  terminated normally, but 1 process returned a non-zero exit code.. Per user-direction, the job has been aborted.

продолжает печатать HelloWorld и через некоторое время:

mpirun detected that one or more processes exited with non-zero status, thus causing the job to be terminated. The first process to do so was: 
Process name: [[62648,1],2]
Exit code:    2

Тогда код останавливается. Случайно я попытался запустить скрипт от раба, и он работает. Я не могу понять, почему. Я установил SSH без пароля и запустил файл, расположенный в папке, смонтированной nfs. Вы можете мне помочь?

Спасибо

1 Ответ

0 голосов
/ 16 декабря 2018

решено: я проанализировал все файлы конфигурации, которые я изменил, и, наконец, произошла ошибка в / etc / hosts. Речь идет о работе программы, если она запускается с узла на мастер, а не наоборот. Что касается остановки программы, это как-то связано с тем, что узел не может найти файл для запуска. Исправлена ​​эта настройка снова NFS. Спасибо за вашу помощь, надеюсь, что это может быть полезно для других пользователей.

...