Я использую PyTorch с интерфейсом Openmpi для связи, но у меня возникают проблемы при попытке развернуть код в многоузловом кластере.Мой код остается на некоторое время, а затем я получаю следующую ошибку:
--------------------------------------------------------------------------
WARNING: Open MPI failed to TCP connect to a peer MPI process. This
should not happen.
Your Open MPI job may now hang or fail.
Local host: g2-nasp
PID: 29103
Message: connect() to 172.17.0.1:1027 failed
Error: Operation now in progress (115)
--------------------------------------------------------------------------
Это происходит только тогда, когда я пытаюсь выполнить какой-либо тип отправки / получения с pytorch.Странно то, что он успешно подключается к удаленному серверу, развертывает там мои нужные процессы.
Я также могу получать отладочные сообщения, которые я печатаю в консоль, с удаленного компьютера.Единственная проблема возникает, когда я использовал распределенные стандартные функции API isend / ireceive.Также обратите внимание, что IP-адрес, указанный в строке «Сообщение об ошибке выше», чужд.
Есть мысли?