Какая польза от наличия функции значения состояния и функции значения действия? - PullRequest
0 голосов
/ 03 мая 2020

Я новичок в RL и хочу знать, в чем преимущество наличия функции значения состояния, а также функции значения действия в алгоритмах RL, например, Markov Design Process. Какая польза от них обоих в задачах прогнозирования и контроля?

1 Ответ

1 голос
/ 06 мая 2020

Я думаю, вы имеете в виду функцию значения состояния и функцию значения состояния.

Цитирование этот ответ Джеймса МакГлашана:

Чтобы объяснить, Давайте сначала добавим ясность. Функции значений (либо V, либо Q) всегда зависят от некоторой политики ?. Чтобы подчеркнуть этот факт, мы часто пишем их как ?? (?) и ?? (?, ?). В случае, когда мы говорим о функциях значений, зависящих от оптимальной политики ? ∗, мы часто используем сокращения ? ∗ (?) и ? ∗ (?, ?). Иногда в литературе мы пропускаем ? или * и просто ссылаемся на V и Q, потому что это подразумевается в контексте, но в конечном итоге каждая функция значения всегда относится к какой-то политике.

Учитывая это, определение этих функций должно прояснить для вас различие.

?? (?) выражает ожидаемое значение следующей политики ? навсегда, когда агент начинает следовать за ней из состояния ?.

?? (? , ?) выражает ожидаемое значение первого действия ? из состояния ?, а затем следования политике ? навсегда.

Основное различие заключается в том, что значение Q позволяет вам выдвинуть гипотетическое предположение о том, что вы потенциально можете предпринять другое действие в первый временной шаг, чем то, что может предписать политика, а затем следование политике из состояния, в котором находится агент.

Например, предположим, что в состоянии ? Я в шаге от конечного состояния цели, и я получить -1 награду за каждый переход, пока я не достигну цели. Предположим, что моя политика - это оптимальная политика, поэтому она всегда говорит мне идти к цели. В этом случае ?? (?) = - 1, потому что я на расстоянии одного шага. Однако, если я рассматриваю Q-значение для действия ?, которое отходит на 1 шаг от цели, то ?? (?, ?) = - 3, потому что сначала я отхожу на 1 шаг (-1), а затем я следую политике теперь мне нужно сделать два шага, чтобы добраться до цели: один шаг, чтобы вернуться туда, где я был (-1), и один шаг, чтобы добраться до цели (-1), всего -3 награды.

...