Я рассматриваю статью Оптимизация политики с исследованиями на основе моделей , раздел 2 о выводе V (s) и Q (s, a)
цель агента - найти политику π ∗ из ограниченного семейства параметризованных функций политики, которая максимизирует ее производительность,

Статьясостояния в уравнении 2, где целевое значение производительности определено следующим образом:
, где J (π) - целевое значение производительности, определенное как

Далее авторы создают эту произвольную функцию (уравнение 3), определяемую как:
Для удобства пусть ρ π (s) обозначает (ненормализованное) дисконтированное накопленное распределение состоянийвызвано политикой π,

И по какой-то причине они используют это, чтобы получить следующее:
тогда задание производительности можно переписать как

Кроме того,они находят следующее основанное на предыдущем выводе.


Мои вопросыследующее:
- Может кто-нибудь объяснить мне, как построить эту функцию Rho
- Как они создают новую функцию J?
- Основываясь на новой функции J, как они строят Q из этого?
- Кроме того, я раньше не видел эту запись для V, что авторы делают здесь?