Question

Я понимаю, как реализовать итерацию значения.Однако я изо всех сил пытаюсь понять, как итерация значения определяет оптимальную политику.

В своей практике я вижу проблемы, которые после нескольких итераций значения сходятся очень быстро и что значение одного состояния поднимается выше остальных.Действительно ли итерация значения означает, что оптимальной политикой является сохранение агента в состоянии с самым высоким значением?

Как Value Iteration определяет оптимальную политику?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Как Value Iteration определяет оптимальную политику?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы