Имеется ли алгоритм обучения с глубоким подкреплением, основанный на ценностях, и если нет, то почему, или его легко реализовать? - что полностью сосредоточено на изучении только функции состояния-значения V(s)
, в отличие от функции-состояния-значения Q(s,a)
? Любые реализации, даже доступные в rllib, pytorch или около того?
Я спрашиваю, потому что
У меня есть проблема с несколькими агентами, чтобы симулировать, где в действительности некоторые эффективные централизованы принятие решения, которое (i) успешно стимулирует правду от имени децентрализованных агентов, и (ii) по существу зависит от ценностных функций различных действующих лиц i (от V i (s i, t + 1 ) для различных достижимых состояний после периода s i, t + 1 для всех субъектов i), определяет действия агентов. С точки зрения отдельных агентов, многоагентная природа с постепенным обучением означает, что система выглядит нестационарной до тех пор, пока обучение не закончено, и из-за характера проблемы я скорее убежден, что изучение любого естественного Функция Q (s, a) для моей задачи значительно менее эффективна, чем просто изучение функции терминального значения V (s), из которой централизованный механизм может легко получить возможные действия для всех агентов путем решения отдельной подзадачи на основе всех агентов. 'values.
Математика типичного DQN с обучением по разнице во времени, по-видимому, естественным образом адаптируется к обучению на основе значений только для состояния глубокой сети для V (s) вместо комбинированного Q (с, а). Тем не менее, в субдомене RL, основанном на значениях, все, кажется, сосредоточены на изучении Q (s, a), и я до сих пор не нашел никаких чисто обучающих алгоритмов V (s) (кроме аналитических и не глубоких, традиционных Bellman-). Уравнение динамическое c методы программирования).
Мне известно о Dueling DQN (DDQN), но, похоже, это не совсем то, что я ищу. «По крайней мере» у DDQN есть отдельный ученик для V(s)
, но в целом он все еще нацелен на то, чтобы легко выучить Q(s,a)
децентрализованным способом, что в моем случае не способствует.