Внедрение PPO / TRPO - PullRequest
       50

Внедрение PPO / TRPO

0 голосов
/ 02 октября 2018

Итак, я недавно посмотрел это видео на PPO и хочу обновить свой алгоритм критики актера, написанный на PyTorch, с помощью PPO, но я не уверен, как рассчитываются новые параметры / тэты.

Данный алгоритм в статье:
enter image description here
говорит, что нужно выполнить pi_theta_old, вычислить оценки преимуществ и оптимизировать цель, но как мы можем рассчитать pi_theta для цели, так как мы имеемеще не обновили policy_old?

РЕДАКТИРОВАТЬ: Для всех тех, кто ищет четкий ответ, я разместил тот же вопрос на искусственном интеллекте стека обмена (https://ai.stackexchange.com/questions/8212/ppo-trpo-implementation).

...