Задача оптимального управления была впервые введена в 1950-х годах.Проблема заключалась в том, чтобы разработать контроллер для максимизации или минимизации целевой функции.Ричард Беллман подошел к этой задаче оптимального управления, введя уравнение Беллмана:
Где значение эквивалентно дисконтированной сумме вознаграждений.Если мы сделаем первый шаг, мы получим следующее:
Впоследствии классическое обучение с подкреплением основывается на процессе принятия решений Маркова и предполагаетвсе переходы между состояниями известны.Таким образом, уравнение становится следующим:
То есть суммирование эквивалентно суммированию всех возможных переходов из этого состояния, умноженному нанаграда за достижение нового состояния.
Приведенные выше уравнения записаны в виде значения.Иногда мы хотим, чтобы значение также было функцией действия, создавая, таким образом, значение действия.Преобразование приведенного выше уравнения в форму значения действия:
Самая большая проблема с этим уравнением состоит в том, что в реальной жизни переходные вероятностина самом деле не известно.Невозможно узнать переходные вероятности каждого отдельного состояния, если проблема не предельно проста.Чтобы решить эту проблему, мы обычно берем максимум будущей дисконтированной доли.То есть мы предполагаем, что будем вести себя оптимально в будущем, а не брать средние значения по всем возможным сценариям.
Однако среда может быть сильностохастик в реальном сценарии.Следовательно, лучшая оценка функции-значения в любом состоянии - это просто оценка.И пост вероятностный случай - ожидаемое значение.Таким образом, давая вам:
Условное обозначение награды - t + 1 в вашем уравнении.Это в основном из-за разных интерпретаций.Приведенное выше доказательство остается верным для вашей записиЭто просто говорит, что вы не будете знать свою награду, пока не доберетесь до следующего времени отбора проб.