Как вычислить детерминированные c градиенты политики в DDPG? - PullRequest
0 голосов
/ 10 февраля 2020

Я пишу сценарий MATLAB, который использует Deep Determininsti c Градиент политики для управления активной системой приостановки (система Dynami c), но я застрял при обновлении сети актера. Во всех примерах и статьях, которые я читаю, используются тензорные библиотеки типа tf.gradients (). Однако мне нужно точно знать, как применять правило цепочки для вычисления градиента политики детерминированного c, показанного на изображении, для его реализации в моем коде MATLAB.

image

...