Мой вопрос связан не с реализацией обучения с подкреплением, а с пониманием концепции RL, когда каждое состояние является конечным.
Я приведу пример: робот учится играть в футболстреляю.Награда - это расстояние между мячом и стойкой ворот после того, как он пробил по воротам.Состояние - это массив из множества элементов, а действие - это массив с трехмерной силой.
Если мы рассматривали эпизодические RL, я чувствую, что подход не имеет смысла.Действительно, робот стреляет, и выдается награда: каждый эпизод является последним эпизодом.Не имеет смысла передавать следующее состояние в систему, так как алгоритм не заботится об этом, чтобы оптимизировать вознаграждение - в этом случае я бы использовал подход Actor-Critic для обработки непрерывного состояния и пространства действий.Кто-то может возразить, что другой контролируемый подход к обучению, такой как глубокая нейронная сеть, может работать лучше.Но я не уверен, так как в этом случае алгоритм не сможет достичь хороших результатов с вводом, далеким от тренировочного набора.Насколько я видел, RL способен лучше обобщать для этого контекста.
Вопрос в том, является ли RL допустимой методологией для этой проблемы, и как в этом случае управляются состояния терминала?Вам известны подобные примеры в литературе?