Я работаю над исследовательским проектом, который включает в себя применение усиленного обучения к задачам планирования и принятия решений. Как правило, эти проблемы включают выбор (выборку) нескольких действий в состоянии на основе ранжирования [от max_q до min_q]. Литература по RL, кажется, сфокусирована на политиках, которые сопоставляют набор состояний с одним отдельным действием, а не несколькими. Кто-нибудь знает подходы, которые могут не только сопоставлять состояния с несколькими одновременными действиями, но и поддерживать отношения между этими действиями? Вот исходный код функции выбора действия DQN
Спасибо