Question

В настоящее время я работаю над пользовательской средой Gym, которая представляет сетевой график (с узлами и ссылками), и я пытаюсь определить, как должна выглядеть переменная observation_space в моей среде.Я не планирую использовать графическое представление моей среды (это означает, что метод render() будет использовать только терминал).

Я искал ответы на странице openai gihub и нашел это вопрос .Тем не менее, я до сих пор не понимаю, как должна выглядеть моя переменная observation_space.

Моя среда в спортзале в настоящее время выглядит как this .

TL; DR:

текущее состояние фактически является узлом, на котором расположен агент
текущее состояние является символом
список возможных состояний описан в конструкторе

Более того, я планирую использовать алгоритмы Q-обучения для использования этого графа: я должен дискретизировать observation_space?Я планирую использовать алгоритм RL, например , например, .

Как мне представить мои observation_space?

Заранее спасибо!

rodolfo.mendes · Answer 1 · 14 июня 2019

В среде Gym пространство наблюдения представляет все возможные наблюдения, которые могут быть возвращены методом step (). Я посмотрел на код вашей среды и для меня, похоже, что ваше пространство наблюдения - это список узлов вашего графа. В этом случае вам придется расширить класс gym.spaces.Space, так как в Gym по умолчанию нет места для списка.

Как я могу определить пространство наблюдения для моей пользовательской среды openai?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как я могу определить пространство наблюдения для моей пользовательской среды openai?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы