Вы, безусловно, можете сделать это, любые бумаги, которые осуществляют непрерывный контроль с использованием обучения с подкреплением, будут делать это.Единственными, кто этого не делает, являются исследователи, которые используют deep обучение с подкреплением или обучение с подкреплением функций.В моих исследованиях применяются как обучение с подкреплением, так и обучение с глубоким подкреплением на динамических системах.Я дискретизирую свое состояние и пространство действия до адекватного разрешения, а затем применяю его для контроля проблем.
В настоящее время я работаю над некоторыми методами, чтобы заставить дискретную систему работать для непрерывных пространств.Одним из методов является использование линейной интерполяции.Если ваше состояние находится между 2 дискретизированными точками, вы можете использовать линейную интерполяцию для определения оптимального действия (в непрерывном пространстве).Это особенно хорошо работает для линейной системы, поскольку закон управления линейен следующим образом:
u = Kx
И этот метод прямо соответствует тому, что вы спрашиваете: тренировка в дискретном пространстве изатем применяя его к задаче непрерывного управления.
Однако традиционно задачи непрерывного управления решаются с использованием либо приближения линейной функции, такого как кодирование мозаики, либо приближения нелинейной функции, такой как искусственные нейронные сети.Эти методы более продвинуты, я бы предложил сначала попытаться использовать более простые дискретные методы RL.У меня есть * RL-код на моем Github , который вы можете использовать, дайте мне знать, если у вас есть какие-либо проблемы.