Может ли infiniband ускорить распределенное обучение без GPUDirect? - PullRequest
0 голосов
/ 12 мая 2019

У меня есть две машины 4x2080ti. Я хочу обучить свою распределенную модель Pytorch распределенному бэкэнду NCCL. Но обучение идет медленно, потому что эти две машины соединены сетевой картой 1000M. Поэтому я хочу использовать две карты Infiniband для соединения этих двух машин. Но мой графический процессор - GeForce, а не Tesla. Вопрос в том, может ли Infiniband ускорить обучение, если GPU не поддерживает GPUDirect?

Спасибо.

...