Question

Я использую TRPO Пэта Коади (https://github.com/pat-coady/trpo) для поиска политики, которая заменяет контроллер динамической модели

Вдохновленный методами управления LQ, я реализовал следующее вознаграждение:

0.7*exp(-error^2)+0.3*exp(-action)

, с помощью которого я намерен побудить агента минимизировать ошибку отслеживания, делая как можно меньше усилий.

Я застрял в точке, где все эпизоды убиты 0,5 секунд после запуска команды (после ~ 2000 эпизодов обучения). Я пробовал использовать разные типы ссылок (синусоида, положительный шаг, отрицательный шаг), и это всегда происходит.

Кто-нибудь знает о трюке , который может улучшить мое обучение?

Спасибо!

Награда Дизайн - Укрепление обучения

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Награда Дизайн - Укрепление обучения

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы