Question

У меня есть сомнения относительно алгоритма градиента политики (PG) в RL. Я пытаюсь реализовать алгоритм, который использует PG, однако среда не стохастическая, а детерминированная. Могу ли я использовать перекрестную энтропию (ниже), чтобы максимизировать вознаграждение? Если нет, то как можно решить эту проблему? Спасибо.

neg_cross_entropy = tf.nn.softmax_cross_entropy_with_logits_v2(logits=OUTPUT_NN, labels=ONE_HOT_CODE_ACTIONS)
        self.cost = tf.reduce_mean(tf.multiply(neg_cross_entropy,REWARDS))

Детерминированная среда - градиент политики

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Детерминированная среда - градиент политики

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы