Увеличение глобального пакета в размере параллелизма данных вызывает ошибку OOM - PullRequest
0 голосов
/ 11 октября 2019

Я увеличиваю размер пакета по мере увеличения количества графических процессоров при обучении модели AlexNet на наборе данных ImageNet. Он прекрасно работает до 4096, когда я получаю ошибки OOM. Я начинаю с размера пакета 1024 для 4 графических процессоров, затем 2048 для 8 графических процессоров. Тем не менее, когда я пытаюсь 4096 на 16 графических процессорах, я получаю OOM. В идеале этого не должно происходить, поскольку при параллелизме данных выборки на один графический процессор остаются неизменными. Я использую ChainerMN для обучения.

...