In Degris et al.(2012) paper Критик-актор вне политики , целевая функция Jb определена как функция значения целевой политики, усредненная по состоянию распределение поведенияполис b :
![J_b(\pi) = \sum_{s \in \mathcal S} d^b(s)V^{\pi_\theta}(s)](https://latex.codecogs.com/gif.latex?J_b%28%5Cpi%29%20%3D%20%5Csum_%7Bs%20%5Cin%20%5Cmathcal%20S%7D%20d%5Eb%28s%29V%5E%7B%5Cpi%7D%28s%29)
Однако обычная цель Jπ усредняется по распределению состояний целевой политики π.В статье, как и где-либо еще, я не могу найти оправдания, почему максимизация этой цели Jb привела бы к улучшению Jπ , поскольку нас интересует именно истинное количество, Я верю.
Можете ли вы дать какое-либо понимание, объяснение или обоснование, почему максимизация Jb правильная вещь?