Я пишу сценарий MATLAB, который использует Deep Determininsti c Градиент политики для управления активной системой приостановки (система Dynami c), но я застрял при обновлении сети актера. Во всех примерах и статьях, которые я читаю, используются тензорные библиотеки типа tf.gradients (). Однако мне нужно точно знать, как применять правило цепочки для вычисления градиента политики детерминированного c, показанного на изображении, для его реализации в моем коде MATLAB.