Я хотел бы провести параллельное обучение SGD с собственным градиентным квантованием (чтобы уменьшить связь).Каждый рабочий узел отправляет закодированный (сжатый) градиент на главный узел.Главный узел декодирует сжатый градиент и обновляет параметры.Я буду использовать свои собственные функции кодирования (квантования) и декодирования.
Мне было интересно, в какой среде глубокого обучения это сделать относительно легче.Спасибо!