Я использую TRPO Пэта Коади (https://github.com/pat-coady/trpo) для поиска политики, которая заменяет контроллер динамической модели
Вдохновленный методами управления LQ, я реализовал следующее вознаграждение:
0.7*exp(-error^2)+0.3*exp(-action)
, с помощью которого я намерен побудить агента минимизировать ошибку отслеживания, делая как можно меньше усилий.
Я застрял в точке, где все эпизоды убиты 0,5 секунд после запуска команды (после ~ 2000 эпизодов обучения). Я пробовал использовать разные типы ссылок (синусоида, положительный шаг, отрицательный шаг), и это всегда происходит.
Кто-нибудь знает о трюке , который может улучшить мое обучение?
Спасибо!