У меня есть сомнения относительно алгоритма градиента политики (PG) в RL.
Я пытаюсь реализовать алгоритм, который использует PG, однако среда не стохастическая, а детерминированная. Могу ли я использовать перекрестную энтропию (ниже), чтобы максимизировать вознаграждение? Если нет, то как можно решить эту проблему?
Спасибо.
neg_cross_entropy = tf.nn.softmax_cross_entropy_with_logits_v2(logits=OUTPUT_NN, labels=ONE_HOT_CODE_ACTIONS)
self.cost = tf.reduce_mean(tf.multiply(neg_cross_entropy,REWARDS))