Награда Дизайн - Укрепление обучения - PullRequest
0 голосов
/ 27 апреля 2020

Я использую TRPO Пэта Коади (https://github.com/pat-coady/trpo) для поиска политики, которая заменяет контроллер динамической модели

Вдохновленный методами управления LQ, я реализовал следующее вознаграждение:

0.7*exp(-error^2)+0.3*exp(-action)

, с помощью которого я намерен побудить агента минимизировать ошибку отслеживания, делая как можно меньше усилий.

Я застрял в точке, где все эпизоды убиты 0,5 секунд после запуска команды (после ~ 2000 эпизодов обучения). Я пробовал использовать разные типы ссылок (синусоида, положительный шаг, отрицательный шаг), и это всегда происходит.

Кто-нибудь знает о трюке , который может улучшить мое обучение?

Спасибо!

...