Обучение усилению, когда действие не определено в ранее обновленном состоянии - PullRequest
0 голосов
/ 08 ноября 2019

В настоящее время я работаю над проблемой, в которой я последовательно выполняю действия для разных игроков в одной спортивной среде. Игроки являются однородными, и поэтому я хочу обучить одну модель, которая может быть использована для последовательного выбора действий для разных игроков. Я выбираю этот подход, так как не хочу тренировать отдельные модели для разных однородных игроков, а работа с пространством мультидискретных действий дает сбой, когда я хочу масштабировать до нескольких сотен игроков.

Я хочу сделатьэто следующим образом:

для n у игроков:

Select state of the player n and determine action
Perform action and update state for player n
Determine reward based on the new state of player n

Обычно в RL «обновленное состояние» используется для определения следующего действия. Однако в моей задаче я хотел бы выбрать действие, основанное на состоянии отдельного игрока, которое отличается от состояния других игроков (имеет другую цель).

Мои вопросы:

  • Можно ли обучить одну модель описанным выше способом?
  • Где я могу перебирать разных агентов (я нев состоянии сделать это в функции шага, и я не хочу сбрасывать эпизод после одного шага)?

  • Есть ли у вас какие-либо другие предложения, как решить эту проблему?

...