Question

Я пытаюсь реализовать алгоритм ограниченного PPO для классической задачи управления, такой как поддержание комнатной температуры, заряда батареи и т. Д. В определенных пределах.До сих пор я видел реализации только в игровой среде.Мой вопрос заключается в том, отличаются ли игровые среды и классические проблемы управления, когда речь идет о реализации ограниченного алгоритма PPO?Если да, то помощь и советы о том, как реализовать алгоритм для моего случая, приветствуются.

mkisantal · Answer 1 · 02 мая 2019

Я отвечаю на ваш вопрос с общей точки зрения RL, я не думаю, что конкретный алгоритм (PPO) имеет какое-либо значение в этом вопросе.

Я думаю, что нет принципиальных отличий, оба могут рассматриваться как проблемы дискретного управления. В игре вы наблюдаете состояние, затем выбираете действие и действуете в соответствии с ним, и получаете вознаграждение за наблюдение за последующим состоянием.

Теперь, если вы берете простую задачу управления, вместо игры у вас, вероятно, есть симуляция (или просто очень простая динамическая модель), которая описывает поведение вашей проблемы. Например, уравнения движения для перевернутого маятника (еще одна классическая задача управления). В некоторых случаях вы можете напрямую взаимодействовать с реальной системой, а не с ее моделью, но это редко, поскольку она может быть очень медленной, а типичные сложности примеров алгоритмов RL делают обучение на реальной (физической) системе менее практичным.

По сути, вы взаимодействуете с моделью вашей проблемы точно так же, как и с игрой: вы наблюдаете состояние, выполняете действие и действуете, и наблюдаете следующее состояние. Единственное отличие состоит в том, что, хотя в играх вознаграждение обычно предопределено (некоторый счет или состояние цели), вероятно, вам необходимо определить функцию вознаграждения для вашей задачи. Но опять же, во многих случаях вам также нужно определить награды за игры, так что это тоже не главное различие.

Как внедрить алгоритм Proximal Policy Optimization (PPO) для классических задач управления?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как внедрить алгоритм Proximal Policy Optimization (PPO) для классических задач управления?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы