У меня есть две машины 4x2080ti. Я хочу обучить свою распределенную модель Pytorch распределенному бэкэнду NCCL. Но обучение идет медленно, потому что эти две машины соединены сетевой картой 1000M.
Поэтому я хочу использовать две карты Infiniband для соединения этих двух машин.
Но мой графический процессор - GeForce, а не Tesla. Вопрос в том, может ли Infiniband ускорить обучение, если GPU не поддерживает GPUDirect?
Спасибо.