Я пытаюсь реализовать Глубокий детерминистический градиент политики с помощью Keras.
Вот алгоритм:
Алгоритм DDPG
Проблема в шаге 14.
Здесь у нас есть 2 модели: актер π и критик Q.
Цель состоит в том, чтобы изменить параметры π таким образом, чтобы максимизировать Q (s, π (s)). Поскольку нет целевых значений, невозможно использовать потери Кераса.
Итак, вопрос: возможно ли использовать оптимизаторы Keras для максимизации функции Q (s, π (s))?
[Более подробно: возможно ли оптимизировать функцию f (π (s))?]
Отметим также, что Q также является моделью, поэтому при оптимизации необходимо указать, что рассмотренные параметры соответствуют параметрам π.