Openmpi с mpi4py не работают на нескольких узлах - PullRequest
0 голосов
/ 12 июня 2018

У меня есть программа на языке Python, написанная на mpi4py.Я пытаюсь сделать это распространенным.Я установил виртуальную машину, установил openmpi, сервер openssh, обменялся ключами и все такое.На локальном компьютере у меня есть hostfile:

127.0.0.1 slots=4
192.168.1.104 slots=2

, и я пытаюсь запустить программу с:

mpirun -np 2 --hostfile hostfile python2 algen.py 0.85 0.02 20 70

, но я получаю следующую ошибку:

[Kreutz: 13090] tcp_peer_recv_connect_ack: неверный тип заголовка: 0

ORTE не удалось надежно запустить один или несколько демонов.Обычно это вызвано тем, что:

  • не находит необходимые библиотеки и / или двоичные файлы на одном или нескольких узлах.Проверьте параметры PATH и LD_LIBRARY_PATH или настройте OMPI с параметром --enable-orterun-prefix-prefix-по-умолчанию

  • отсутствие полномочий для выполнения на одном или нескольких указанных узлах.Пожалуйста, проверьте ваше распределение и полномочия.

  • невозможность записи файлов запуска в / tmp (--tmpdir / orte_tmpdir_base).Пожалуйста, свяжитесь с вашим системным администратором, чтобы определить правильное местоположение для использования.

  • компиляция с динамическими библиотеками, когда требуются статические (например, на Cray).Пожалуйста, проверьте строку конфигурации cmd и рассмотрите возможность использования одного из определений contrib / platform для типа вашей системы.

  • невозможность создать соединение обратно к mpirun из-за отсутствия общих сетевых интерфейсови / или не найден маршрут между ними.Пожалуйста, проверьте сетевое подключение (включая требования к брандмауэрам и сетевой маршрутизации).

И я не знаю, что делать сейчас.У вас есть идеи, что я могу попробовать?

...