Есть ли какой-нибудь метод в подкреплении? Учимся выбирать несколько одновременных действий? - PullRequest
0 голосов
/ 14 марта 2020

Я работаю над исследовательским проектом, который включает в себя применение усиленного обучения к задачам планирования и принятия решений. Как правило, эти проблемы включают выбор (выборку) нескольких действий в состоянии на основе ранжирования [от max_q до min_q]. Литература по RL, кажется, сфокусирована на политиках, которые сопоставляют набор состояний с одним отдельным действием, а не несколькими. Кто-нибудь знает подходы, которые могут не только сопоставлять состояния с несколькими одновременными действиями, но и поддерживать отношения между этими действиями? Вот исходный код функции выбора действия DQN

Спасибо

...