Мне интересно, почему Оптимизация Политики Трастового Региона является алгоритмом On-policy?
По моему мнению, в TRPO мы проводим выборку по старой политике, обновляем новую политику и применяем выборку важности для исправления смещения.Таким образом, это больше похоже на алгоритм вне политики.Но недавно я прочитал статью , в которой говорилось:
В отличие от алгоритмов вне политики, методы на политике требуют обновления аппроксиматоров функций в соответствии с текущей политикой.В частности, мы рассмотрим Trust Region PolicyOptimization, расширение традиционных методов градиента политики, использующих направление естественного градиента.
Неужели я не так понял любую точку?