Я думаю, что этот документ отвечает на ваш вопрос: https://arxiv.org/pdf/1507.04296.pdf
В этом документе работает центральный ученик с центральной памятью воспроизведения.Также есть n
рабочих, которые являются копиями центрального ученика, каждый из которых имеет свою собственную память воспроизведения.Каждый работник заполняет свою собственную память воспроизведения и на каждом этапе поезда может использовать свою собственную память воспроизведения (если она достаточно велика) или использовать центральную память воспроизведения.Перед каждым выбором действия веса сети синхронизируются с сервером, и после каждого отдельного этапа обучения градиенты отправляются обратно на сервер.
Также рассмотрим: https://arxiv.org/pdf/1602.01783.pdf
, в котором предлагается A3C, а затем предлагается A2C, который является более простой версией A3C.Дело в том, что алгоритм асинхронного Q-обучения не привлек к себе большого внимания из-за производительности A3C.По сути, использование алгоритма распределенного DQN неэффективно, поскольку для воспроизведения памяти необходимо перемещать большое количество данных от разных работников к серверам.Действительно, A3C предлагается решить эту проблему с памятью воспроизведения, которая запускает один экземпляр модели и env в каждом работнике и только асинхронно обновляет весовые коэффициенты.
Надеюсь, это ответило на ваш вопрос.
Афшин