Question

Я работаю над исследовательским проектом, который включает в себя применение усиленного обучения к задачам планирования и принятия решений. Как правило, эти проблемы включают выбор (выборку) нескольких действий в состоянии на основе ранжирования [от max_q до min_q]. Литература по RL, кажется, сфокусирована на политиках, которые сопоставляют набор состояний с одним отдельным действием, а не несколькими. Кто-нибудь знает подходы, которые могут не только сопоставлять состояния с несколькими одновременными действиями, но и поддерживать отношения между этими действиями? Вот исходный код функции выбора действия DQN

Спасибо

Есть ли какой-нибудь метод в подкреплении? Учимся выбирать несколько одновременных действий?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Есть ли какой-нибудь метод в подкреплении? Учимся выбирать несколько одновременных действий?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы