В чем разница между методами градиента политики и нейросетевыми методами действия-ценности? - PullRequest
0 голосов
/ 05 мая 2018

В чем разница между методами градиента политики и методами действия-ценности на основе нейронной сети?

1 Ответ

0 голосов
/ 05 мая 2018

Нам необходимо различать «выбор действия» и «оценка стоимости действия».

Оценка значения действия (обозначается Q(s, a)) состоит в вычислении некоторого вида "оценки" (часто называемой "ожидаемой будущей наградой") для конкретного действия a в данном состоянии s. Мы просто оцениваем это значение Q(s, a), но мы до сих пор не знаем, какое действие мы предпримем.

Затем, есть выбор действия, который является функцией f, которая, основываясь на некоторой информации, возвращает действие, которое мы выполняем.

Широкий класс, именуемый Методы действия-значения - это методы "выбора действия", которые при получении оценок (баллов) * действия-действия дают нам действие для выполнения. Примером такого метода является эпсилон-жадный метод . Этот метод с вероятностью 1 - epsilon выбирает действие с наибольшим значением значения действия, а с вероятностью epsilon (обычно это небольшое число) выбирает действие случайным образом. Единственная информация, которую мы используем, это Q баллы.

Градиент политики методы выполнения выбор действия . Информация, которую мы передаем f, представляет собой текущее состояние s и некоторые параметры theta: f(s, theta) Мы можем представить эти параметры theta как веса нейронной сети. Таким образом, на практике мы установили бы веса нейронной сети на значения theta, передали бы состояние сети s в качестве входа и получили бы действие a в качестве вывода. Это только один пример того, как может выглядеть метод градиента политики. Нам не нужны никакие оценки состояния или ценности действия, чтобы получить политику. Кроме того, функция f должна быть дифференцируемой.

Actor-Critic методы также выполняют выбор действий . Отличие от методов градиента политики состоит в том, что функция f также принимает оценки значения действия, то есть Q, в качестве входных данных: f(s, theta, Q). Нам нужны оценки стоимости действия, чтобы получить действие.

Подробнее о различиях в " Обучение усилению: Введение " Саттона и Барто можно прочитать в главе 13: Методы градиента политики.

...