В настоящее время я работаю над пользовательской средой Gym, которая представляет сетевой график (с узлами и ссылками), и я пытаюсь определить, как должна выглядеть переменная observation_space
в моей среде.Я не планирую использовать графическое представление моей среды (это означает, что метод render()
будет использовать только терминал).
Я искал ответы на странице openai gihub и нашел это вопрос .Тем не менее, я до сих пор не понимаю, как должна выглядеть моя переменная observation_space
.
Моя среда в спортзале в настоящее время выглядит как this .
TL; DR:
- текущее состояние фактически является узлом, на котором расположен агент
- текущее состояние является символом
- список возможных состояний описан в конструкторе
Более того, я планирую использовать алгоритмы Q-обучения для использования этого графа: я должен дискретизировать observation_space
?Я планирую использовать алгоритм RL, например , например, .
Как мне представить мои observation_space
?
Заранее спасибо!