Question

Я пишу простой пример q-обучения и для обновления q-значений вам нужен maxQ '.

Я не уверен, относится ли maxQ к сумме всех возможных наград или максимально возможной награды:

Afshin Oroojlooy · Answer 1 · 02 июля 2019

Это максимум Q-values среди всех возможных действий для государства s'.По сути, вам нужно взять max над всеми Q(s',a') за все действительные действия a' в состоянии s'.

Является ли MaxQ суммой всех возможных наград или самой высокой наградой?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Является ли MaxQ суммой всех возможных наград или самой высокой наградой?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы