Question

Я пытаюсь реализовать DDPG в tenorflow 2, используя класс модели keras. Моя реализация здесь . Оригинал статьи доступен здесь . Проблема, с которой я сталкиваюсь, заключается в оценке градиента на шаге dJ/dTheta = dQ / da * da / dTheta (строка № 201 в моей реализации). Градиент Актера по отношению к его обучаемым переменным выходит в виде четырех списков, и, следовательно, я не могу умножить его на градиент критического значения c относительно действий. Реализация использует среду Pendulum-v0. Я борюсь с градиентами тензорного потока, и любая помощь будет очень признательна

Заранее спасибо

Реализация Deep Deterministi c градиента политики с использованием Keras & Tensorflow 2

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Реализация Deep Deterministi c градиента политики с использованием Keras & Tensorflow 2

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы