В настоящее время я работаю над проблемой, в которой я последовательно выполняю действия для разных игроков в одной спортивной среде. Игроки являются однородными, и поэтому я хочу обучить одну модель, которая может быть использована для последовательного выбора действий для разных игроков. Я выбираю этот подход, так как не хочу тренировать отдельные модели для разных однородных игроков, а работа с пространством мультидискретных действий дает сбой, когда я хочу масштабировать до нескольких сотен игроков.
Я хочу сделатьэто следующим образом:
для n у игроков:
Select state of the player n and determine action
Perform action and update state for player n
Determine reward based on the new state of player n
Обычно в RL «обновленное состояние» используется для определения следующего действия. Однако в моей задаче я хотел бы выбрать действие, основанное на состоянии отдельного игрока, которое отличается от состояния других игроков (имеет другую цель).
Мои вопросы:
- Можно ли обучить одну модель описанным выше способом?
Где я могу перебирать разных агентов (я нев состоянии сделать это в функции шага, и я не хочу сбрасывать эпизод после одного шага)?
Есть ли у вас какие-либо другие предложения, как решить эту проблему?