Question

цель агента - найти политику π ∗ из ограниченного семейства параметризованных функций политики, которая максимизирует ее производительность,

Статьясостояния в уравнении 2, где целевое значение производительности определено следующим образом:

, где J (π) - целевое значение производительности, определенное как

Далее авторы создают эту произвольную функцию (уравнение 3), определяемую как:

Для удобства пусть ρ π (s) обозначает (ненормализованное) дисконтированное накопленное распределение состоянийвызвано политикой π,

И по какой-то причине они используют это, чтобы получить следующее:

тогда задание производительности можно переписать как

Кроме того,они находят следующее основанное на предыдущем выводе.

Мои вопросыследующее:

Вывод V (s) и Q (s, a) из целевого показателя производительности в MDP

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.