Как запустить кластер dask на этом суперкомпьютере? - PullRequest
1 голос
/ 18 июня 2020

Я пытаюсь запустить кластер Dask на 4 узлах по 32 ядра в каждом. Указанный Intel MPI не разрешает процессы разветвления, поэтому я отключил nanny. Интерфейс InfiniBand быстрый. Я попытался запустить его с протоколом tcp и с протоколом ucx.

Блокировка NFS также отключена, поэтому в конфигурации я добавил:

use-file-locking: False

С протоколом TCP я получаю в логах:

waiting to connect to tcp://ip:port

Я построил UCX и UCX-PY. По протоколу UCX я попадаю в журналы:

[1592509288.112709] [hostname:21579:1]      sockcm_ep.c:143  UCX  ERROR failed to connect to ip:port

Сообщите мне, как я могу запустить кластер Dask.

Команда для tcp:

mpirun --np 4 /home/harsh/packages/Python-3.8/bin/dask-mpi \
       --no-nanny                                           \
       --interface ib0                                       \
       --memory-limit 115GB                                   \
       --scheduler-file /home/harsh/scheduler.json             \
       2>&1 | tee /home/harsh/dask_output.txt

Команда для ucx:

mpirun --np 4 /home/harsh/packages/Python-3.8/bin/dask-mpi \
       --no-nanny                                           \
       --interface ib0                                       \
       --protocol ucx                                         \
       --memory-limit 115GB                                    \
       --scheduler-file /home/harsh/scheduler.json              \
       2>&1 | tee /home/harsh/dask_output.txt
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...