Как развернуть модель Q-обучения? - PullRequest
0 голосов
/ 17 октября 2019

Я пытаюсь ознакомиться с Укреплением Обучения. Я создал RL, используя подход Q-обучения.

Описание проблемы

  1. У меня есть набор клиентов, и у каждого из них есть следующие функции [цена, категория, кластер] - эти клиенты представляют состояние
  2. Существует диапазон 10 действий , на сколько можно изменить цену - например, [0,9, 0,8, 0,7, 0,6, 0,5, 1, 1,2, 1.5, 1.7, 1.9] - используя некоторые вероятности, можно определить вознаграждение при применении новых цен с помощью Q-функции.
  3. Мне удалось создать и обучить алгоритм, но теперь предположим, что я хочу использовать его в производстве. Моя идея заключается в следующем: в качестве входных данных хотелось бы использовать состояние [цена, категория, кластер], а в качестве выходных данных я хочу получить наилучшее действие для данного клиента. Я также думаю, что важно обновить модель, как только вы получите ответ от клиента, чтобы дать новое вознаграждение модели.

Я пытался найти несколько примеров, как сохранить и использовать функцию Q-learning и как использовать обновление с новыми данными, но пока я не вижу никаких примеров. Кто-нибудь может предложить несколько примеров или объяснений о том, как можно развернуть и обновить модель Q-обучения?

...