Вывод V (s) и Q (s, a) из целевого показателя производительности в MDP - PullRequest
2 голосов
/ 22 июня 2019

Я рассматриваю статью Оптимизация политики с исследованиями на основе моделей , раздел 2 о выводе V (s) и Q (s, a)

цель агента - найти политику π ∗ из ограниченного семейства параметризованных функций политики, которая максимизирует ее производительность,

enter image description here

Статьясостояния в уравнении 2, где целевое значение производительности определено следующим образом:

, где J (π) - целевое значение производительности, определенное как

enter image description here

Далее авторы создают эту произвольную функцию (уравнение 3), определяемую как:

Для удобства пусть ρ π (s) обозначает (ненормализованное) дисконтированное накопленное распределение состоянийвызвано политикой π,

enter image description here

И по какой-то причине они используют это, чтобы получить следующее:

тогда задание производительности можно переписать как

enter image description here

Кроме того,они находят следующее основанное на предыдущем выводе.

enter image description here

enter image description here

Мои вопросыследующее:

  1. Может кто-нибудь объяснить мне, как построить эту функцию Rho
  2. Как они создают новую функцию J?
  3. Основываясь на новой функции J, как они строят Q из этого?
  4. Кроме того, я раньше не видел эту запись для V, что авторы делают здесь?
...