Question

Я пишу сценарий MATLAB, который использует Deep Determininsti c Градиент политики для управления активной системой приостановки (система Dynami c), но я застрял при обновлении сети актера. Во всех примерах и статьях, которые я читаю, используются тензорные библиотеки типа tf.gradients (). Однако мне нужно точно знать, как применять правило цепочки для вычисления градиента политики детерминированного c, показанного на изображении, для его реализации в моем коде MATLAB.

Как вычислить детерминированные c градиенты политики в DDPG?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Как вычислить детерминированные c градиенты политики в DDPG?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы