Question

Мне интересно, почему Оптимизация Политики Трастового Региона является алгоритмом On-policy?

По моему мнению, в TRPO мы проводим выборку по старой политике, обновляем новую политику и применяем выборку важности для исправления смещения.Таким образом, это больше похоже на алгоритм вне политики.Но недавно я прочитал статью , в которой говорилось:

В отличие от алгоритмов вне политики, методы на политике требуют обновления аппроксиматоров функций в соответствии с текущей политикой.В частности, мы рассмотрим Trust Region PolicyOptimization, расширение традиционных методов градиента политики, использующих направление естественного градиента.

Неужели я не так понял любую точку?

Pablo EM · Answer 1 · 27 марта 2019

Ключевая особенность методов on-policy заключается в том, что они должны использовать предполагаемую политику для взаимодействия со средой. В случае оптимизации политики области доверия он эффективно запрашивает образцы (т.е. взаимодействует со средой) с использованием текущей политики, затем обновляет политику и использует новую оценку политики в следующей итерации.

Итак, алгоритм использует оценочную политику в процессе обучения, которая является определением on-policy методов.

Почему Оптимизация Политики Трастового Региона является алгоритмом On-policy?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Почему Оптимизация Политики Трастового Региона является алгоритмом On-policy?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы