Я отвечаю на ваш вопрос с общей точки зрения RL, я не думаю, что конкретный алгоритм (PPO) имеет какое-либо значение в этом вопросе.
Я думаю, что нет принципиальных отличий, оба могут рассматриваться как проблемы дискретного управления. В игре вы наблюдаете состояние, затем выбираете действие и действуете в соответствии с ним, и получаете вознаграждение за наблюдение за последующим состоянием.
Теперь, если вы берете простую задачу управления, вместо игры у вас, вероятно, есть симуляция (или просто очень простая динамическая модель), которая описывает поведение вашей проблемы. Например, уравнения движения для перевернутого маятника (еще одна классическая задача управления). В некоторых случаях вы можете напрямую взаимодействовать с реальной системой, а не с ее моделью, но это редко, поскольку она может быть очень медленной, а типичные сложности примеров алгоритмов RL делают обучение на реальной (физической) системе менее практичным.
По сути, вы взаимодействуете с моделью вашей проблемы точно так же, как и с игрой: вы наблюдаете состояние, выполняете действие и действуете, и наблюдаете следующее состояние. Единственное отличие состоит в том, что, хотя в играх вознаграждение обычно предопределено (некоторый счет или состояние цели), вероятно, вам необходимо определить функцию вознаграждения для вашей задачи. Но опять же, во многих случаях вам также нужно определить награды за игры, так что это тоже не главное различие.