Question

Просматривая различные материалы об обучении подкреплению, я нашел две версии V и Q уравнений:

Эта пара:

V(s) = maxa (sums' P(s'|s,a) (R(s,a,s') + lambda V(s')))

Q(s,a) = sums' P(s'|s,a) (R(s,a,s') + lambda maxa' Q(s',a'))

И эта пара:

V(s) = R(s,a) + maxa (sum s' P(s'|s,a) lambda V(s'))

Q(s,a) = R(s,a) + sum<sub>s'</sub> (P(s'|s,a) lambda max<sub>a'</sub> Q(s',a'))

Основное отличие состоит в том, включают ли V и Q немедленное вознаграждение в их значение и то, определяется ли значение состояния исключительно состоянием или переходом. Хотя я вижу более позднюю пару реже, я уверен, что она правильная.

Эти или какие-либо другие различия между этими двумя факторами влияют на работу различных алгоритмов подкрепления?

Afshin Oroojlooy · Answer 1 · 21 февраля 2020

Первая пара используется, когда вознаграждение определено c для данного состояния и действия, вторая пара используется, когда вознаграждение также стохастически c.

На самом деле, среда определяет, какую пару вы должны использовать. Например, в таких средах, как Atari-2600, первая пара действительна, поскольку для данного состояния и действия вы всегда получаете одно и то же значение вознаграждения.

Версии уравнения Беллмана

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Версии уравнения Беллмана

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы