Глубокая функция потери RL - PullRequest
1 голос
/ 24 марта 2020

Как определяется функция потерь глубокого Q-обучения? Что я не могу понять, так это то, что каждый раз, когда мы находимся в состоянии и выбираем действие, основанное на политике, полученной из Deep Q-network, учитывается только одно из значений Q, что означает, что вместо вектора у нас есть скаляр , Другими словами, функция потерь состоит только из одного члена. Я прав? Обозначения, используемые в статьях, неоднозначны.

...