Таким образом, в процессе обучения Q вы обновляете функцию Q следующим образом: Qnew (s, a) = Q (s, a) + альфа (r + гамма * MaxQ (s ', a) - Q (s, a).
Теперь, если бы я использовал тот же принцип, но изменил функцию Q на V, вместо того чтобы выполнять действие, основанное на текущей функции V, вы фактически выполняете все действия (при условии, что вы можете сбросить моделируемую среду), ивыберите лучшее из них и обновите функцию V. для этого состояния. Это даст лучший результат?
Конечно, время обучения, вероятно, увеличится, потому что вы фактически делаете все действия один раз для каждого обновления., но так как вы гарантированно выбираете лучшее действие каждый раз (кроме случаев, когда исследуете), это в конечном итоге даст вам глобальную оптимальную политику?
Это немного похоже на итерацию значения, за исключением того, что яне имею и не строю модель для проблемы.