In Degris et al.(2012) paper Критик-актор вне политики , целевая функция Jb определена как функция значения целевой политики, усредненная по состоянию распределение поведенияполис b :
Однако обычная цель Jπ усредняется по распределению состояний целевой политики π.В статье, как и где-либо еще, я не могу найти оправдания, почему максимизация этой цели Jb привела бы к улучшению Jπ , поскольку нас интересует именно истинное количество, Я верю.
Можете ли вы дать какое-либо понимание, объяснение или обоснование, почему максимизация Jb правильная вещь?