Перенос Дискретного действия в Непрерывное действие в Укреплении - PullRequest
0 голосов
/ 16 октября 2018

В обучении с подкреплением мы эмпирически знаем, что с помощью дискретных действий легче обучаться, чем с помощью непрерывных действий.

Но теоретически непрерывные действия более точны и быстры, как и наши люди, большинство наших действий непрерывны,

Так есть ли какой-либо метод или связанное исследование, которое обучает политику дискретных действий для более легкого запуска, а затем передает эту политику для вывода непрерывных действий для большей точности?

Спасибо.

1 Ответ

0 голосов
/ 23 октября 2018

Вы, безусловно, можете сделать это, любые бумаги, которые осуществляют непрерывный контроль с использованием обучения с подкреплением, будут делать это.Единственными, кто этого не делает, являются исследователи, которые используют deep обучение с подкреплением или обучение с подкреплением функций.В моих исследованиях применяются как обучение с подкреплением, так и обучение с глубоким подкреплением на динамических системах.Я дискретизирую свое состояние и пространство действия до адекватного разрешения, а затем применяю его для контроля проблем.

В настоящее время я работаю над некоторыми методами, чтобы заставить дискретную систему работать для непрерывных пространств.Одним из методов является использование линейной интерполяции.Если ваше состояние находится между 2 дискретизированными точками, вы можете использовать линейную интерполяцию для определения оптимального действия (в непрерывном пространстве).Это особенно хорошо работает для линейной системы, поскольку закон управления линейен следующим образом:

u = Kx

И этот метод прямо соответствует тому, что вы спрашиваете: тренировка в дискретном пространстве изатем применяя его к задаче непрерывного управления.

Однако традиционно задачи непрерывного управления решаются с использованием либо приближения линейной функции, такого как кодирование мозаики, либо приближения нелинейной функции, такой как искусственные нейронные сети.Эти методы более продвинуты, я бы предложил сначала попытаться использовать более простые дискретные методы RL.У меня есть * RL-код на моем Github , который вы можете использовать, дайте мне знать, если у вас есть какие-либо проблемы.

...