Я пытаюсь запустить кластер Dask на 4 узлах по 32 ядра в каждом. Указанный Intel MPI не разрешает процессы разветвления, поэтому я отключил nanny
. Интерфейс InfiniBand быстрый. Я попытался запустить его с протоколом tcp
и с протоколом ucx
.
Блокировка NFS также отключена, поэтому в конфигурации я добавил:
use-file-locking: False
С протоколом TCP я получаю в логах:
waiting to connect to tcp://ip:port
Я построил UCX и UCX-PY. По протоколу UCX я попадаю в журналы:
[1592509288.112709] [hostname:21579:1] sockcm_ep.c:143 UCX ERROR failed to connect to ip:port
Сообщите мне, как я могу запустить кластер Dask.
Команда для tcp
:
mpirun --np 4 /home/harsh/packages/Python-3.8/bin/dask-mpi \
--no-nanny \
--interface ib0 \
--memory-limit 115GB \
--scheduler-file /home/harsh/scheduler.json \
2>&1 | tee /home/harsh/dask_output.txt
Команда для ucx
:
mpirun --np 4 /home/harsh/packages/Python-3.8/bin/dask-mpi \
--no-nanny \
--interface ib0 \
--protocol ucx \
--memory-limit 115GB \
--scheduler-file /home/harsh/scheduler.json \
2>&1 | tee /home/harsh/dask_output.txt