Нам необходимо различать «выбор действия» и «оценка стоимости действия».
Оценка значения действия (обозначается Q(s, a)
) состоит в вычислении некоторого вида "оценки" (часто называемой "ожидаемой будущей наградой") для конкретного действия a
в данном состоянии s
. Мы просто оцениваем это значение Q(s, a)
, но мы до сих пор не знаем, какое действие мы предпримем.
Затем, есть выбор действия, который является функцией f
, которая, основываясь на некоторой информации, возвращает действие, которое мы выполняем.
Широкий класс, именуемый Методы действия-значения - это методы "выбора действия", которые при получении оценок (баллов) * действия-действия дают нам действие для выполнения. Примером такого метода является эпсилон-жадный метод . Этот метод с вероятностью 1 - epsilon
выбирает действие с наибольшим значением значения действия, а с вероятностью epsilon
(обычно это небольшое число) выбирает действие случайным образом. Единственная информация, которую мы используем, это Q баллы.
Градиент политики методы выполнения выбор действия . Информация, которую мы передаем f
, представляет собой текущее состояние s
и некоторые параметры theta
: f(s, theta)
Мы можем представить эти параметры theta
как веса нейронной сети. Таким образом, на практике мы установили бы веса нейронной сети на значения theta
, передали бы состояние сети s
в качестве входа и получили бы действие a
в качестве вывода. Это только один пример того, как может выглядеть метод градиента политики. Нам не нужны никакие оценки состояния или ценности действия, чтобы получить политику. Кроме того, функция f
должна быть дифференцируемой.
Actor-Critic методы также выполняют выбор действий . Отличие от методов градиента политики состоит в том, что функция f
также принимает оценки значения действия, то есть Q
, в качестве входных данных: f(s, theta, Q)
. Нам нужны оценки стоимости действия, чтобы получить действие.
Подробнее о различиях в " Обучение усилению: Введение " Саттона и Барто можно прочитать в главе 13: Методы градиента политики.