или он позволяет превысить это значение, а затем предотвратить дальнейшее его перемещение, установив градиент на ноль?
Это именно то, что он делает , Термин отсечения в PPO не может помешать r (θ) выйти за пределы 1 ± ε, но после того, как он превысит его, градиент будет равен нулю, а r (θ) будет эффективно игнорироваться обратным распространением.
Имейте в виду однако все это происходит одновременно с опытом других временных шагов; это означает, что r (θ) в момент времени t может вернуться в область 1 ± ε, после чего он снова начнет обновляться.
Конечный результат заключается в том, что | 1-r (θ) | будет грубо (но не совсем) ограничен ε на всех временах.