Я рассматриваю статью Оптимизация политики с исследованиями на основе моделей , раздел 2 о выводе V (s) и Q (s, a)
цель агента - найти политику π ∗ из ограниченного семейства параметризованных функций политики, которая максимизирует ее производительность,
Статьясостояния в уравнении 2, где целевое значение производительности определено следующим образом:
, где J (π) - целевое значение производительности, определенное как
Далее авторы создают эту произвольную функцию (уравнение 3), определяемую как:
Для удобства пусть ρ π (s) обозначает (ненормализованное) дисконтированное накопленное распределение состоянийвызвано политикой π,
И по какой-то причине они используют это, чтобы получить следующее:
тогда задание производительности можно переписать как
Кроме того,они находят следующее основанное на предыдущем выводе.
Мои вопросыследующее:
- Может кто-нибудь объяснить мне, как построить эту функцию Rho
- Как они создают новую функцию J?
- Основываясь на новой функции J, как они строят Q из этого?
- Кроме того, я раньше не видел эту запись для V, что авторы делают здесь?