Как определяется градиент политики детерминированной c в библиотеке Deepmid trfl? - PullRequest
0 голосов
/ 08 февраля 2020

Я не могу набрать asp шаги для строки 87 до строки 92 . Почему создается target_a, последующий stop_gradient понятен, поскольку мы не хотим обновлять обучаемые переменные Q-сети. Но тогда, что означает эта потеря в следующей строке? DPG для меня - это применение правила цепочки. Как оптимизация потерь помогает обновлять сеть?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...