RL предполагает, что у вас есть какой-то способ симуляции окружающей среды.Идея состоит в том, что агент RL «играет в игру» в симулированной среде много раз, и при этом он учится хорошо играть.Я не уверен, что вы имеете в виду «каждый раз, когда у нас появляется новый ввод (среда и состояние различны)» - если состояние меняется, вы не запускаете его повторно (т.е. переобучаете модель).Если среда меняется - например, меняется структура ценообразования или распределения спроса - тогда вам необходимо пройти переподготовку.Но если среда меняется, то есть вы переходите в новое состояние в той же среде, вы не переучиваетесь.
Для динамического ценообразования RL может работать примерно так: у вас есть симулятор реального мира.Для любого действия, которое вы предпринимаете (например, по любой установленной вами цене), симулятор имитирует требования, действия ваших конкурентов и т. Д. В течение нескольких периодов времени.Агент RL играет в игру несколько раз и узнает, как выбирать хорошие действия в каждом периоде, основываясь на состоянии среды в каждом из этих периодов.
Многопериодные среды являются типичными настройками для RL.Если это всего лишь один период, тогда вам не нужно RL, есть гораздо более простые модели для оптимизации доходов в подобных ситуациях.