Как использовать модели обучения подкреплению MDP Q-learning? - PullRequest
2 голосов
/ 26 мая 2019

Я заинтересован в изучении подкрепления, в частности, как использовать RL для динамического ценообразования. Я пытался прочитать некоторые статьи об этом, и большую часть времени я вижу примеры, где авторы пытаются смоделировать среду, чтобы увидеть лучшие варианты.

  1. https://arxiv.org/pdf/1803.09967.pdf RL для справедливого динамического ценообразования
  2. https://ieeexplore.ieee.org/document/1210269 - Приложения для обучения усилению при динамическом ценообразовании на розничных рынках

Я пытаюсь понять, в этом случае каждый раз, когда у нас возникает какая-то неопределенность, можно смоделировать среду, чтобы получить ответ. И каждый раз, когда у нас появляется новый ввод (среда и состояние различны), мы запускаем программу и получаем результаты? Можно ли развернуть модель RL?

Я был бы очень признателен за любую информацию / ссылки, связанные с RL в динамическом ценообразовании и о том, как можно использовать / повторно использовать модели RL.

1 Ответ

2 голосов
/ 27 мая 2019

RL предполагает, что у вас есть какой-то способ симуляции окружающей среды.Идея состоит в том, что агент RL «играет в игру» в симулированной среде много раз, и при этом он учится хорошо играть.Я не уверен, что вы имеете в виду «каждый раз, когда у нас появляется новый ввод (среда и состояние различны)» - если состояние меняется, вы не запускаете его повторно (т.е. переобучаете модель).Если среда меняется - например, меняется структура ценообразования или распределения спроса - тогда вам необходимо пройти переподготовку.Но если среда меняется, то есть вы переходите в новое состояние в той же среде, вы не переучиваетесь.

Для динамического ценообразования RL может работать примерно так: у вас есть симулятор реального мира.Для любого действия, которое вы предпринимаете (например, по любой установленной вами цене), симулятор имитирует требования, действия ваших конкурентов и т. Д. В течение нескольких периодов времени.Агент RL играет в игру несколько раз и узнает, как выбирать хорошие действия в каждом периоде, основываясь на состоянии среды в каждом из этих периодов.

Многопериодные среды являются типичными настройками для RL.Если это всего лишь один период, тогда вам не нужно RL, есть гораздо более простые модели для оптимизации доходов в подобных ситуациях.

...