Openai-gym определяет пространство действий, когда агент может выполнить несколько подэтапов за шаг - PullRequest
0 голосов
/ 09 июля 2019

Я пытаюсь спроектировать игровое пространство в тренажерном зале openai и преодолеваю следующий блокпост. Я посмотрел этот пост ( Открытая среда ИИ с изменением пространства действия после каждого шага ), который тесно связан, но слегка отличается.

Среда, которую я пишу, должна позволять агенту совершать между 1 и n подэтапами на каждом шаге. Оставьте это на усмотрение агента, чтобы решить, сколько дополнительных действий он хочет предпринять. Так что-то вроде (sub-action-category, sub-action-id, action), где агент может указывать от 1 до n таких кортежей.

Кажется невозможным определить Box пространство без указания границ на фигуре, что мне и нужно. Я пытаюсь избежать определения пространства действия, в котором каждое вспомогательное действие явно перечисляется средой, например, (action) кортеж с n записями для каждого вспомогательного действия.

Существуют ли другие пространства, которые я мог бы использовать для динамического масштабирования пространства?

...