Question

Я пытаюсь реализовать Глубокий детерминистический градиент политики с помощью Keras.

Вот алгоритм:

Проблема в шаге 14.

Здесь у нас есть 2 модели: актер π и критик Q. Цель состоит в том, чтобы изменить параметры π таким образом, чтобы максимизировать Q (s, π (s)). Поскольку нет целевых значений, невозможно использовать потери Кераса.

Итак, вопрос: возможно ли использовать оптимизаторы Keras для максимизации функции Q (s, π (s))? [Более подробно: возможно ли оптимизировать функцию f (π (s))?]

Отметим также, что Q также является моделью, поэтому при оптимизации необходимо указать, что рассмотренные параметры соответствуют параметрам π.

Как максимизировать функции с Keras

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Как максимизировать функции с Keras

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы