Внеполитический актер-критик: Каково обоснование зависимости целевой функции от распределения состояния поведенческой политики? - PullRequest
0 голосов
/ 19 октября 2018

In Degris et al.(2012) paper Критик-актор вне политики , целевая функция Jb определена как функция значения целевой политики, усредненная по состоянию распределение поведенияполис b :

J_b(\pi) = \sum_{s \in \mathcal S} d^b(s)V^{\pi_\theta}(s)

Однако обычная цель усредняется по распределению состояний целевой политики π.В статье, как и где-либо еще, я не могу найти оправдания, почему максимизация этой цели Jb привела бы к улучшению , поскольку нас интересует именно истинное количество, Я верю.

Можете ли вы дать какое-либо понимание, объяснение или обоснование, почему максимизация Jb правильная вещь?

...