Почему DDPG / TD3 извлекает выгоду из старых данных, а PPO - нет - PullRequest
0 голосов
/ 25 сентября 2019

У меня есть вопрос более общего характера, касающийся обучения глубокому подкреплению.Я всегда немного борюсь, в чем именно разница между политикой и вне политики.Конечно, можно сказать, что вне политики - это выборка из другого распределения для действий во время выборки по траектории, а по политике используется фактическая политика для генерации траектории.Либо внутри политики не может извлечь выгоду из старых данных, в то время как вне политики может.Оба на самом деле не отвечают, какова точная разница, а скорее сообщают мне результат.

В моем понимании, DDPG и PPO основаны на A2C и параллельно тренируются как актер и критик.В то время как критик обычно обучается на основе MSE, используя наблюдаемое вознаграждение следующего временного шага (возможно, используя некоторую регистрацию для нескольких шагов, но пренебрегая регистрацией на данный момент) и самой сети следующего временного шага.Я не вижу здесь разницы между DDPG вне политики и PPO вне политики (хорошо, что TD3 делает это немного по-другому, но на данный момент им пренебрегают, поскольку идея идентична).

Актер сам имеет в обоих случаяхфункция потерь, основанная на ценности, сгенерированной критиком.В то время как PPO использует соотношение политик для ограничения размера шага, DDPG использует политику, чтобы предсказать действие для значения, рассчитанного критиком.Поэтому обе политики CURRENT используются в функции потерь для критика и действующего лица в обоих методах (PPO и DDPG).

Итак, теперь мой актуальный вопрос: почему DDPG может извлечь выгоду из старых данных или, скорее,почему PPO не извлекает выгоду из старых данных.Можно утверждать, что соотношение политик в PPO ограничивает расстояние между политиками и, следовательно, требует свежих данных.Но как A2C в политике и неспособен извлечь выгоду из старых данных по сравнению с DDPG?

Я действительно понимаю разницу между Q-обучением, которое гораздо более вне политики, чем изучение политики.Но я не понимаю разницы между этими методами PG.Означает ли это только тот факт, что DDPG является детерминированным.Есть ли в DDPG какие-либо поправки вне политики, позволяющие извлекать выгоду из старых данных?

Я был бы очень рад, если бы кто-то приблизил меня к пониманию этих политик.

Cheers

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...