Pytorch распространяется с openmpi backend - PullRequest
0 голосов
/ 08 мая 2019

Я использую PyTorch с интерфейсом Openmpi для связи, но у меня возникают проблемы при попытке развернуть код в многоузловом кластере.Мой код остается на некоторое время, а затем я получаю следующую ошибку:

--------------------------------------------------------------------------
WARNING: Open MPI failed to TCP connect to a peer MPI process.  This
should not happen.

Your Open MPI job may now hang or fail.

  Local host: g2-nasp
  PID:        29103
  Message:    connect() to 172.17.0.1:1027 failed
  Error:      Operation now in progress (115)
--------------------------------------------------------------------------

Это происходит только тогда, когда я пытаюсь выполнить какой-либо тип отправки / получения с pytorch.Странно то, что он успешно подключается к удаленному серверу, развертывает там мои нужные процессы.

Я также могу получать отладочные сообщения, которые я печатаю в консоль, с удаленного компьютера.Единственная проблема возникает, когда я использовал распределенные стандартные функции API isend / ireceive.Также обратите внимание, что IP-адрес, указанный в строке «Сообщение об ошибке выше», чужд.

Есть мысли?

...