Как я могу определить пространство наблюдения для моей пользовательской среды openai? - PullRequest
0 голосов
/ 04 июня 2019

В настоящее время я работаю над пользовательской средой Gym, которая представляет сетевой график (с узлами и ссылками), и я пытаюсь определить, как должна выглядеть переменная observation_space в моей среде.Я не планирую использовать графическое представление моей среды (это означает, что метод render() будет использовать только терминал).

Я искал ответы на странице openai gihub и нашел это вопрос .Тем не менее, я до сих пор не понимаю, как должна выглядеть моя переменная observation_space.

Моя среда в спортзале в настоящее время выглядит как this .

TL; DR:

  • текущее состояние фактически является узлом, на котором расположен агент
  • текущее состояние является символом
  • список возможных состояний описан в конструкторе

Более того, я планирую использовать алгоритмы Q-обучения для использования этого графа: я должен дискретизировать observation_space?Я планирую использовать алгоритм RL, например , например, .

Как мне представить мои observation_space?

Заранее спасибо!

1 Ответ

0 голосов
/ 14 июня 2019

В среде Gym пространство наблюдения представляет все возможные наблюдения, которые могут быть возвращены методом step (). Я посмотрел на код вашей среды и для меня, похоже, что ваше пространство наблюдения - это список узлов вашего графа. В этом случае вам придется расширить класс gym.spaces.Space, так как в Gym по умолчанию нет места для списка.

...