Реализация Deep Deterministi c градиента политики с использованием Keras & Tensorflow 2 - PullRequest
0 голосов
/ 10 февраля 2020

Я пытаюсь реализовать DDPG в tenorflow 2, используя класс модели keras. Моя реализация здесь . Оригинал статьи доступен здесь . Проблема, с которой я сталкиваюсь, заключается в оценке градиента на шаге dJ/dTheta = dQ / da * da / dTheta (строка № 201 в моей реализации). Градиент Актера по отношению к его обучаемым переменным выходит в виде четырех списков, и, следовательно, я не могу умножить его на градиент критического значения c относительно действий. Реализация использует среду Pendulum-v0. Я борюсь с градиентами тензорного потока, и любая помощь будет очень признательна

Заранее спасибо

...