Обучение контрастным потерям при внедрении нескольких графических процессоров - PullRequest
0 голосов
/ 17 марта 2020

Не могли бы вы помочь мне понять, как тренировать любой тип контрастных потерь в параллельном режиме данных на нескольких графических процессорах? Я использую horovod для работы с несколькими графическими процессорами. При обучении классификации дело обстоит довольно просто - каждый вывод модели сравнивается с ее меткой. Но когда выходы и функция потерь зависят от всей партии, я не уверен, как это работает.

Если, например, я тренируюсь на 8 графических процессорах с BS = 64, «эффективный размер партии» будет 64 * 8 в случае классификации. Но когда я использую любые потери, которые сравнивают выходы с другими выходами в пакете, какой смысл использовать несколько графических процессоров?

Спасибо!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...