Question

В блоге Лилиана Вена в DPG:

Это может выглядеть странно - как рассчитать градиент функции политики при выводеодиночное действие?

Почему «странно» вычислять градиент детерминированной функции политики?Большинство знакомых мне градиентов рассчитываются по детерминированным функциям, так как большинство NN-слоев являются детерминированными (напр., Слой conv, relu и т. Д.).

Зачем использовать дисконтированное состояние?Разве коэффициент дисконтирования не предназначен в первую очередь для расчета лучшего значения (т. Е. Значения, которое делает больший акцент на текущем вознаграждении, а не на будущем и стоимости, которое сходится на бесконечных временных шагах)?

вопросы по DPG

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

вопросы по DPG

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы