Я тестирую CondenseNet в 1 1080Ti против 4 1080Ti, это мой результат теста: 1 1080Ti
4-1080Ti
Я простоизмените размер пакета с 32 на 128, набор данных и модель совпадают.почему время составляет 300 мс / партия в 4 1080Ti вместо 80 мс.Когда я увеличиваю количество графических процессоров до 4, объем данных также увеличивается в 4 раза.Разве время не должно быть близко?Кто-нибудь может мне помочь?