- В блоге Лилиана Вена в DPG:
Это может выглядеть странно - как рассчитать градиент функции политики при выводеодиночное действие?
Почему «странно» вычислять градиент детерминированной функции политики?Большинство знакомых мне градиентов рассчитываются по детерминированным функциям, так как большинство NN-слоев являются детерминированными (напр., Слой conv, relu и т. Д.).
Зачем использовать дисконтированное состояние?Разве коэффициент дисконтирования не предназначен в первую очередь для расчета лучшего значения (т. Е. Значения, которое делает больший акцент на текущем вознаграждении, а не на будущем и стоимости, которое сходится на бесконечных временных шагах)?