Путаница в понимании формулы Q (s, a) для обучения усилению MDP? - PullRequest
0 голосов
/ 15 сентября 2018

Я пытался понять, почему теорема улучшения политики может применяться к эпсилон-жадной политике.

Доказательство начинается с математического определения -

Barto and Sutton - Reinforcement Learning: An Introduction

Я запутался в самой первой строке доказательства.

enter image description here

Это уравнение является уравнением ожидания Беллмана для Q (s, a), тогда как V (s) и Q (s, a) следуют соотношению -

enter image description here

Так как же мы можем получить первую строку доказательства?

1 Ответ

0 голосов
/ 17 сентября 2018

Задача оптимального управления была впервые введена в 1950-х годах.Проблема заключалась в том, чтобы разработать контроллер для максимизации или минимизации целевой функции.Ричард Беллман подошел к этой задаче оптимального управления, введя уравнение Беллмана:

enter image description here

Где значение эквивалентно дисконтированной сумме вознаграждений.Если мы сделаем первый шаг, мы получим следующее:

enter image description here

Впоследствии классическое обучение с подкреплением основывается на процессе принятия решений Маркова и предполагаетвсе переходы между состояниями известны.Таким образом, уравнение становится следующим:

enter image description here

То есть суммирование эквивалентно суммированию всех возможных переходов из этого состояния, умноженному нанаграда за достижение нового состояния.

Приведенные выше уравнения записаны в виде значения.Иногда мы хотим, чтобы значение также было функцией действия, создавая, таким образом, значение действия.Преобразование приведенного выше уравнения в форму значения действия:

enter image description here

Самая большая проблема с этим уравнением состоит в том, что в реальной жизни переходные вероятностина самом деле не известно.Невозможно узнать переходные вероятности каждого отдельного состояния, если проблема не предельно проста.Чтобы решить эту проблему, мы обычно берем максимум будущей дисконтированной доли.То есть мы предполагаем, что будем вести себя оптимально в будущем, а не брать средние значения по всем возможным сценариям.

enter image description here

Однако среда может быть сильностохастик в реальном сценарии.Следовательно, лучшая оценка функции-значения в любом состоянии - это просто оценка.И пост вероятностный случай - ожидаемое значение.Таким образом, давая вам:

enter image description here

Условное обозначение награды - t + 1 в вашем уравнении.Это в основном из-за разных интерпретаций.Приведенное выше доказательство остается верным для вашей записиЭто просто говорит, что вы не будете знать свою награду, пока не доберетесь до следующего времени отбора проб.

...