Ошибка обработки события с использованием алгоритма луча PPO - PullRequest
1 голос
/ 15 октября 2019

Я использую алгоритм PPO, предоставляемый Ray, для обучения агента RL по стабилизации трафика. В процессе обучения я продолжаю видеть ValueError («Наблюдение за пределами ожидаемого диапазона значений», Box (500,) снимок экрана

Однако я не знаю, какая часть моего сценария вызываетэта проблема или если она вообще вызвана потоком?

1 Ответ

0 голосов
/ 15 октября 2019

Да, это очень маленькая ошибка, вызванная обновлением RLlib. В основном, версия Ray, которую мы использовали, не была строгой в отношении ограничений пространства наблюдения, но новая версия Ray делает. Вы можете исправить это, зайдя в соответствующую среду и изменив низкие и высокие значения пространства наблюдения, чтобы они были немного более допустимыми (скажем, от -2 до 2 вместо текущих от -1 до 1)

...