Question

При обновлении политики в PPO останавливает ли часть отсечения веса с точным значением, для которого r (θ) равно 1 ± эпсилон, или это позволяет превышать это значение, а затем предотвращает его дальнейшее развитие, устанавливая градиент к нулю? Какой из них на самом деле происходит?

Brett Daley · Answer 1 · 03 февраля 2020

или он позволяет превысить это значение, а затем предотвратить дальнейшее его перемещение, установив градиент на ноль?

Это именно то, что он делает , Термин отсечения в PPO не может помешать r (θ) выйти за пределы 1 ± ε, но после того, как он превысит его, градиент будет равен нулю, а r (θ) будет эффективно игнорироваться обратным распространением.

Имейте в виду однако все это происходит одновременно с опытом других временных шагов; это означает, что r (θ) в момент времени t может вернуться в область 1 ± ε, после чего он снова начнет обновляться.

Конечный результат заключается в том, что | 1-r (θ) | будет грубо (но не совсем) ограничен ε на всех временах.

Действительно ли ограничение градиента PPO предотвращает превышение r (θ) на 1 ± эпсилон?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Действительно ли ограничение градиента PPO предотвращает превышение r (θ) на 1 ± эпсилон?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы