Question

Как определяется функция потерь глубокого Q-обучения? Что я не могу понять, так это то, что каждый раз, когда мы находимся в состоянии и выбираем действие, основанное на политике, полученной из Deep Q-network, учитывается только одно из значений Q, что означает, что вместо вектора у нас есть скаляр , Другими словами, функция потерь состоит только из одного члена. Я прав? Обозначения, используемые в статьях, неоднозначны.

Глубокая функция потери RL

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Глубокая функция потери RL

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы