Градиентное квантование в параллельных данных SGD с пользовательским квантователем - PullRequest
0 голосов
/ 11 декабря 2018

Я хотел бы провести параллельное обучение SGD с собственным градиентным квантованием (чтобы уменьшить связь).Каждый рабочий узел отправляет закодированный (сжатый) градиент на главный узел.Главный узел декодирует сжатый градиент и обновляет параметры.Я буду использовать свои собственные функции кодирования (квантования) и декодирования.

Мне было интересно, в какой среде глубокого обучения это сделать относительно легче.Спасибо!

1 Ответ

0 голосов
/ 11 декабря 2018

Tensorflow имеет встроенный распределенный подход (сервер параметров). Тензорный поток Распределен

Horovod от Uber Engg исключительно посвящен этой проблеме. Обзор Horovod Horovod github .Я лично предпочитаю подход Horovod, поскольку он масштабируется по тензорному потоку и pytorch.И действительно, многие команды сегодня используют diff takeits для задач diff.Так что, если вы тратите время, упростите портирование между наборами инструментов.

...