Почему Оптимизация Политики Трастового Региона является алгоритмом On-policy? - PullRequest
1 голос
/ 27 марта 2019

Мне интересно, почему Оптимизация Политики Трастового Региона является алгоритмом On-policy?

По моему мнению, в TRPO мы проводим выборку по старой политике, обновляем новую политику и применяем выборку важности для исправления смещения.Таким образом, это больше похоже на алгоритм вне политики.Но недавно я прочитал статью , в которой говорилось:

В отличие от алгоритмов вне политики, методы на политике требуют обновления аппроксиматоров функций в соответствии с текущей политикой.В частности, мы рассмотрим Trust Region PolicyOptimization, расширение традиционных методов градиента политики, использующих направление естественного градиента.

Неужели я не так понял любую точку?

1 Ответ

0 голосов
/ 27 марта 2019

Ключевая особенность методов on-policy заключается в том, что они должны использовать предполагаемую политику для взаимодействия со средой. В случае оптимизации политики области доверия он эффективно запрашивает образцы (т.е. взаимодействует со средой) с использованием текущей политики, затем обновляет политику и использует новую оценку политики в следующей итерации.

Итак, алгоритм использует оценочную политику в процессе обучения, которая является определением on-policy методов.

...