Пространство действий среды спортзала (openAI) зависит от реального состояния - PullRequest
0 голосов
/ 24 октября 2018

Я использую инструментарий тренажерного зала для создания собственной среды env и keras-rl, чтобы использовать мою среду env в агенте.Проблема в том, что пространство моих действий меняется, это зависит от реального состояния.Например, у меня есть 46 возможных действий, но с учетом определенного состояния доступно только 7, и я не могу найти способ смоделировать это.

Я прочитал этот вопрос open-ai-enviroment-with-change-action-space-after-each-step

но это не решило мою проблему.

В документации Gym нет инструкций для этого, только вопрос об их репозитории Github (все еще открыт).Я не могу понять, как агент (keras-rl, dqn agent) выбирает действие, выбирается ли оно случайно?а откуда?

Может кто-нибудь мне помочь?Идеи?

1 Ответ

0 голосов
/ 27 августа 2019

Я справился с этим, просто игнорируя любые недопустимые действия и позволяя механике исследования не дать ему застрять.Быстрые и простые, но, вероятно, более эффективные способы сделать это.

Я думаю, что лучший вариант - каким-то образом установить вероятность выбора этого действия равной нулю, но у меня возникли проблемы с выяснением, как это сделать.

...