OpenMPI зависает с тремя узлами - PullRequest
1 голос
/ 29 февраля 2012

Здравствуйте: я просто настраиваю для меня среду OpenMPI, в которой у меня есть три виртуальные машины с аутентификацией без пароля и т.д.*

Что я наблюдаю, когда у меня есть имена узлов трех разных узлов в «машинном файле», работа зависает.Каждый отдельный узел функционирует нормально - я пробовал также комбинации из двух (то есть любых двух из трех узлов), и он работает нормально.Таким образом, я могу исключить возможность того, что любой из узлов не работает.

Как я могу исследовать это подробнее?Спасибо!

Ответы [ 2 ]

0 голосов
/ 22 марта 2012

Я выяснил (некоторое время назад), что у меня нет слотов в моем машинном файле, и я выполняю больше заданий, чем количество узлов (4 задания, 3 узла). Так что это была причина. Извините, это было глупо.

0 голосов
/ 01 марта 2012

printf или IO файла здесь не будут иметь значения.

Я только что добавил раздел об этом в Open MPI README, извлеките https://svn.open -mpi.org / trac / ompi / browser /филиалы / v1.5 / README # L1404 .Короткая версия: сначала попробуйте mpiruning для некоторых не MPI-приложений, таких как имя хоста или время безотказной работы.Если они не работают, то есть что-то, что мешает среде выполнения OMPI даже запускаться должным образом (что, как я подозреваю, происходит здесь).

(получите сертификат CA SSL сайта, если вы боитесь предупреждения SSL, которое вы получите: http://www.cs.indiana.edu/Facilities/FAQ/Mail/csci.crt. Это CA от факультета компьютерных наук Университета Индианы в США; они - наш хостингпровайдер)

Вы отключили свои брандмауэры?Или, если вы параноик, оставили брандмауэры включенными, но включили случайную связь через порт TCP между всеми узлами, на которых будут выполняться задания Open MPI?(iptables сложно настроить правильно - вы можете сначала попытаться отключить его, а если это сработает, то попытаться выяснить, как разрешить случайную связь по TCP-порту между доверенными узлами)

...