Как определяется градиент политики детерминированной c в библиотеке Deepmid trfl?

Я не могу набрать asp шаги для строки 87 до строки 92 . Почему создается target_a, последующий stop_gradient понятен, поскольку мы не хотим обновлять обучаемые переменные Q-сети. Но тогда, что означает эта потеря в следующей строке? DPG для меня - это применение правила цепочки. Как оптимизация потерь помогает обновлять сеть?

Как определяется градиент политики детерминированной c в библиотеке Deepmid trfl?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Как определяется градиент политики детерминированной c в библиотеке Deepmid trfl?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы