Действительно ли ограничение градиента PPO предотвращает превышение r (θ) на 1 ± эпсилон? - PullRequest
0 голосов
/ 16 января 2020

При обновлении политики в PPO останавливает ли часть отсечения веса с точным значением, для которого r (θ) равно 1 ± эпсилон, или это позволяет превышать это значение, а затем предотвращает его дальнейшее развитие, устанавливая градиент к нулю? Какой из них на самом деле происходит?

1 Ответ

1 голос
/ 03 февраля 2020

или он позволяет превысить это значение, а затем предотвратить дальнейшее его перемещение, установив градиент на ноль?

Это именно то, что он делает , Термин отсечения в PPO не может помешать r (θ) выйти за пределы 1 ± ε, но после того, как он превысит его, градиент будет равен нулю, а r (θ) будет эффективно игнорироваться обратным распространением.

Имейте в виду однако все это происходит одновременно с опытом других временных шагов; это означает, что r (θ) в момент времени t может вернуться в область 1 ± ε, после чего он снова начнет обновляться.

Конечный результат заключается в том, что | 1-r (θ) | будет грубо (но не совсем) ограничен ε на всех временах.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...