Выше приведены средние оценки каждые 100 эпизодов, когда агент работает в среде gym
LunarLanderContinuous-v2
.оранжевая и синяя линии - это результаты, когда операторы подают последовательные переходы к алгоритму градиента политики (например, ppo
), а красная линия - результат, когда агенты перемешивают собранные переходы перед передачей их в алгоритм.Я не понимаю, почему просто перетасовка данных может иметь такое значение.Насколько мне известно, нейронные сети предполагают, что входные данные - это IID, поэтому такие алгоритмы, как DQN, перетасовывают данные (или случайную выборку из буфера воспроизведения), чтобы нарушить корреляцию.Но здесь перемешивание данных, кажется, только усугубляет ситуацию. Почему это происходит?
Вот мой проект https://github.com/xlnwel/Distributed-Model-Free-RL/tree/master/dppo.
Каждый работник выбирает переходы до тех пор, пока не будет собрано определенное количество переходов, а затем вычислит градиентыотправка градиента учащемуся для обновления весов, а затем повторите описанный выше процесс.Код, соответствующий данным перетасовки, находится в строках 143 и 150 в worker.py
.