Я понимаю, как реализовать итерацию значения.Однако я изо всех сил пытаюсь понять, как итерация значения определяет оптимальную политику.
В своей практике я вижу проблемы, которые после нескольких итераций значения сходятся очень быстро и что значение одного состояния поднимается выше остальных.Действительно ли итерация значения означает, что оптимальной политикой является сохранение агента в состоянии с самым высоким значением?