Question

Как работает приведенный ниже расчет?

maxy · Answer 1 · 02 июня 2019

Когда вы находитесь в состоянии S_ {n-2}, оптимальными действиями являются

[a0, a0, {a0|a1}, {a0|a1}, {a0|a1}, ...]

, что даст вам следующую последовательность вознаграждений:

[0.0, 0.0, 1.0, 1.0, 1.0, ...]

Чтобы получить оптимальное значениев S_ {n-2} вам просто нужно обесценить оптимальное вознаграждение с помощью γ:

γ^0*0.0 + γ^1*0.0 + γ^2*1.0 + γ^3*1.0 + γ^4*1.0 + ...
= γ^2 * (1.0 + γ + γ^2 + ...)
= γ^2 * V(G)

Вы получаете нулевое промежуточное вознаграждение, прежде чем достигнете шага цели.Так что это равносильно дисконтированию значения G двумя временными шагами.

Расчет MDP

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Расчет MDP

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы