Я использую инструментарий тренажерного зала для создания собственной среды env и keras-rl, чтобы использовать мою среду env в агенте.Проблема в том, что пространство моих действий меняется, это зависит от реального состояния.Например, у меня есть 46 возможных действий, но с учетом определенного состояния доступно только 7, и я не могу найти способ смоделировать это.
Я прочитал этот вопрос open-ai-enviroment-with-change-action-space-after-each-step
но это не решило мою проблему.
В документации Gym нет инструкций для этого, только вопрос об их репозитории Github (все еще открыт).Я не могу понять, как агент (keras-rl, dqn agent) выбирает действие, выбирается ли оно случайно?а откуда?
Может кто-нибудь мне помочь?Идеи?