Получите отрицательный общий убыток от функции потерь Актера-критика - PullRequest
0 голосов
/ 19 октября 2019

Я пытаюсь реализовать актер-критика с тензорным потоком, я настраиваю функцию потерь для актера-критика следующим образом:

As = V_next - V  
loss_policy = tf.keras.losses.SparseCategoricalCrossentropy()(y_Action_Index, Action_logit) * As  
loss_value = 0.5 * tf.square(As) # minimize value error  
entropy = 0.01 * tf.reduce_sum(Action_Prob * tf.math.log(Action_Prob + 1e-15), axis=1)  
loss_total = tf.reduce_sum(loss_policy + loss_value + entropy)

И я получил отрицательные потери при обучении. И когда преимущество (As) отрицательно, вероятность того, что действие заняло это время, не уменьшается после тренировки. Вероятность увеличивается. Есть ли проблемы с функцией потери?

...