Question

Я использую алгоритм PPO, предоставляемый Ray, для обучения агента RL по стабилизации трафика. В процессе обучения я продолжаю видеть ValueError («Наблюдение за пределами ожидаемого диапазона значений», Box (500,) снимок экрана

Однако я не знаю, какая часть моего сценария вызываетэта проблема или если она вообще вызвана потоком?

Eugene Vinitsky · Answer 1 · 15 октября 2019

Да, это очень маленькая ошибка, вызванная обновлением RLlib. В основном, версия Ray, которую мы использовали, не была строгой в отношении ограничений пространства наблюдения, но новая версия Ray делает. Вы можете исправить это, зайдя в соответствующую среду и изменив низкие и высокие значения пространства наблюдения, чтобы они были немного более допустимыми (скажем, от -2 до 2 вместо текущих от -1 до 1)

Ошибка обработки события с использованием алгоритма луча PPO

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Ошибка обработки события с использованием алгоритма луча PPO

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы