Как настроить Chapel / GASNet для запуска мультилокальных кодов в сети MXM Infiniband с ключом раздела? - PullRequest
0 голосов
/ 08 декабря 2018

Я пытаюсь запустить многослойный код Chapel в кластере с сетью MXM Infiniband (40 Гбит / с, модель: Mellanox Technologies MT26428).

Я следовал как документации Chapel, так и GASNet, и установил

export CHPL_COMM_SUBSTRATE=ibv

export CHPL_LAUNCHER=gasnetrun_ibv

export GASNET_IBV_SPAWNER=mpi

вместо использования CHPL_COMM_SUBSTRATE=mxm, как только mxm устареет.

Проблема в том, что я могу построить Часовню, используя подложку ibv.Но я не могу работать в нескольких локалях.Я получаю огромное количество ошибок тайм-аута.

Во-первых, я думал, что проблема в PKEY.Итак, я добавил "--mca btl_openib_pkey "0x8100"" к MPIRUN_CMD.Но безуспешно.

Я также пытался использовать устаревшую конфигурацию mxm:

CHPL_LAUNCHER=gasnetrun_mxm

export CHPL_LAUNCHER=gasnetrun_ibv

export GASNET_MXM_SPAWNER=mpi

Однако я не могу построить часовню с такой конфигурацией.Это сообщение об ошибке:

"User requested --enable-mxm, but I don't know how to build mxm programs for your system."

Кстати, использование GASNET поверх MPI, UDP и Infiniband без ключа разделения работает просто отлично.

Кто-нибудь знает, как использовать Chapel в кластере, оборудованном сетью MXM Infiniband и ключом раздела (PKEY)?

С наилучшими пожеланиями,

Tiago Carneiro.

1 Ответ

0 голосов
/ 11 декабря 2018

Tiago,

Как автор и сопровождающий iBV-проводника GASNet (поддержка libibverbs), я могу сказать, что у нас никогда не было поддержки PKey не по умолчанию.Сообщение *** FATAL ERROR: failed to connect (snd) status=12 согласуется с использованием неправильного PKey.

Основываясь на вашем вопросе, я предпринял попытку обеспечить поддержку указанного пользователем PKey.Вы можете найти мой прототип в качестве pull-запроса в git-репозитории GASNet на Bitbucket: https://bitbucket.org/berkeleylab/gasnet/pull-requests/248 (или https://bitbucket.org/PHHargrove/gasnet-public/commits/ibv-pkey/raw, чтобы получить только необработанный патч).Вы должны иметь возможность применить один коммит в этом PR в каталоге third-party/gasnet/gasnet-src источника Chapel.У меня нет разделенной сети IB для тестирования.Итак, вы бы мне помогли, если бы вы могли убедиться, что это решит вашу проблему.

Что касается User requested --enable-mxm, but I don't know how to build mxm programs for your system, я подозреваю, что зонду конфигурации GASNet не удалось найти необходимые заголовки или библиотеки.Подробная информация об ошибке должна быть в config.log файле ниже third-party/gasnet/build.Если ваши заголовки и библиотеки mxm установлены не в /opt/mellanox/mxm, а в другом месте, вы можете установить переменную окружения MXM_HOME при сборке Chapel, чтобы сообщить скрипту конфигурации GASNet о фактическом местоположении.Однако я не знаю никакой поддержки PKey в libmxm.Так что это может быть тупик.

-Поль

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...