Я пытаюсь спроектировать игровое пространство в тренажерном зале openai и преодолеваю следующий блокпост. Я посмотрел этот пост ( Открытая среда ИИ с изменением пространства действия после каждого шага ), который тесно связан, но слегка отличается.
Среда, которую я пишу, должна позволять агенту совершать между 1
и n
подэтапами на каждом шаге. Оставьте это на усмотрение агента, чтобы решить, сколько дополнительных действий он хочет предпринять. Так что-то вроде (sub-action-category, sub-action-id, action)
, где агент может указывать от 1
до n
таких кортежей.
Кажется невозможным определить Box
пространство без указания границ на фигуре, что мне и нужно. Я пытаюсь избежать определения пространства действия, в котором каждое вспомогательное действие явно перечисляется средой, например, (action)
кортеж с n
записями для каждого вспомогательного действия.
Существуют ли другие пространства, которые я мог бы использовать для динамического масштабирования пространства?