вопросы по DPG - PullRequest
       54

вопросы по DPG

0 голосов
/ 03 июля 2019
  1. В блоге Лилиана Вена в DPG:

Это может выглядеть странно - как рассчитать градиент функции политики при выводеодиночное действие?

Почему «странно» вычислять градиент детерминированной функции политики?Большинство знакомых мне градиентов рассчитываются по детерминированным функциям, так как большинство NN-слоев являются детерминированными (напр., Слой conv, relu и т. Д.).

Зачем использовать дисконтированное состояние?Разве коэффициент дисконтирования не предназначен в первую очередь для расчета лучшего значения (т. Е. Значения, которое делает больший акцент на текущем вознаграждении, а не на будущем и стоимости, которое сходится на бесконечных временных шагах)?
...