Детерминированная среда - градиент политики - PullRequest
0 голосов
/ 04 июля 2019

У меня есть сомнения относительно алгоритма градиента политики (PG) в RL. Я пытаюсь реализовать алгоритм, который использует PG, однако среда не стохастическая, а детерминированная. Могу ли я использовать перекрестную энтропию (ниже), чтобы максимизировать вознаграждение? Если нет, то как можно решить эту проблему? Спасибо.

neg_cross_entropy = tf.nn.softmax_cross_entropy_with_logits_v2(logits=OUTPUT_NN, labels=ONE_HOT_CODE_ACTIONS)
        self.cost = tf.reduce_mean(tf.multiply(neg_cross_entropy,REWARDS))
...