Я пытаюсь реализовать DDPG в tenorflow 2, используя класс модели keras. Моя реализация здесь . Оригинал статьи доступен здесь . Проблема, с которой я сталкиваюсь, заключается в оценке градиента на шаге dJ/dTheta = dQ / da * da / dTheta
(строка № 201 в моей реализации). Градиент Актера по отношению к его обучаемым переменным выходит в виде четырех списков, и, следовательно, я не могу умножить его на градиент критического значения c относительно действий. Реализация использует среду Pendulum-v0. Я борюсь с градиентами тензорного потока, и любая помощь будет очень признательна
Заранее спасибо