Обучение усилению только с глубокими ценностями: Поезд V (s) вместо Q (s, a)? - PullRequest
1 голос
/ 24 марта 2020

Имеется ли алгоритм обучения с глубоким подкреплением, основанный на ценностях, и если нет, то почему, или его легко реализовать? - что полностью сосредоточено на изучении только функции состояния-значения V(s), в отличие от функции-состояния-значения Q(s,a)? Любые реализации, даже доступные в rllib, pytorch или около того?

Я спрашиваю, потому что

  • У меня есть проблема с несколькими агентами, чтобы симулировать, где в действительности некоторые эффективные централизованы принятие решения, которое (i) успешно стимулирует правду от имени децентрализованных агентов, и (ii) по существу зависит от ценностных функций различных действующих лиц i (от V i (s i, t + 1 ) для различных достижимых состояний после периода s i, t + 1 для всех субъектов i), определяет действия агентов. С точки зрения отдельных агентов, многоагентная природа с постепенным обучением означает, что система выглядит нестационарной до тех пор, пока обучение не закончено, и из-за характера проблемы я скорее убежден, что изучение любого естественного Функция Q (s, a) для моей задачи значительно менее эффективна, чем просто изучение функции терминального значения V (s), из которой централизованный механизм может легко получить возможные действия для всех агентов путем решения отдельной подзадачи на основе всех агентов. 'values.

  • Математика типичного DQN с обучением по разнице во времени, по-видимому, естественным образом адаптируется к обучению на основе значений только для состояния глубокой сети для V (s) вместо комбинированного Q (с, а). Тем не менее, в субдомене RL, основанном на значениях, все, кажется, сосредоточены на изучении Q (s, a), и я до сих пор не нашел никаких чисто обучающих алгоритмов V (s) (кроме аналитических и не глубоких, традиционных Bellman-). Уравнение динамическое c методы программирования).

Мне известно о Dueling DQN (DDQN), но, похоже, это не совсем то, что я ищу. «По крайней мере» у DDQN есть отдельный ученик для V(s), но в целом он все еще нацелен на то, чтобы легко выучить Q(s,a) децентрализованным способом, что в моем случае не способствует.

...