При обучении MXNet, если размер пакета велик (скажем, 128), а количество графических процессоров невелико (скажем, 2), и каждый графический процессор может обрабатывать только несколько выборок в каждой итерации (скажем, 16).По умолчанию максимальный размер пакета в этой конфигурации составляет 16 * 2 = 32.
Теоретически мы можем выполнить 4 итерации перед обновлением весов, чтобы сделать эффективный размер пакета 128. Возможно ли это с MXNet?