Question

In Degris et al.(2012) paper Критик-актор вне политики , целевая функция Jb определена как функция значения целевой политики, усредненная по состоянию распределение поведенияполис b :

$J_b(\pi) = \sum_{s \in \mathcal S} d^b(s)V^{\pi_\theta}(s)$

Однако обычная цель Jπ усредняется по распределению состояний целевой политики π.В статье, как и где-либо еще, я не могу найти оправдания, почему максимизация этой цели Jb привела бы к улучшению Jπ , поскольку нас интересует именно истинное количество, Я верю.

Можете ли вы дать какое-либо понимание, объяснение или обоснование, почему максимизация Jb правильная вещь?

Внеполитический актер-критик: Каково обоснование зависимости целевой функции от распределения состояния поведенческой политики?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Внеполитический актер-критик: Каково обоснование зависимости целевой функции от распределения состояния поведенческой политики?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы