Как Value Iteration определяет оптимальную политику? - PullRequest
0 голосов
/ 09 октября 2018

Я понимаю, как реализовать итерацию значения.Однако я изо всех сил пытаюсь понять, как итерация значения определяет оптимальную политику.

В своей практике я вижу проблемы, которые после нескольких итераций значения сходятся очень быстро и что значение одного состояния поднимается выше остальных.Действительно ли итерация значения означает, что оптимальной политикой является сохранение агента в состоянии с самым высоким значением?

...