Я пытаюсь ознакомиться с Укреплением Обучения. Я создал RL, используя подход Q-обучения.
Описание проблемы
- У меня есть набор клиентов, и у каждого из них есть следующие функции [цена, категория, кластер] - эти клиенты представляют состояние
- Существует диапазон 10 действий , на сколько можно изменить цену - например, [0,9, 0,8, 0,7, 0,6, 0,5, 1, 1,2, 1.5, 1.7, 1.9] - используя некоторые вероятности, можно определить вознаграждение при применении новых цен с помощью Q-функции.
- Мне удалось создать и обучить алгоритм, но теперь предположим, что я хочу использовать его в производстве. Моя идея заключается в следующем: в качестве входных данных хотелось бы использовать состояние [цена, категория, кластер], а в качестве выходных данных я хочу получить наилучшее действие для данного клиента. Я также думаю, что важно обновить модель, как только вы получите ответ от клиента, чтобы дать новое вознаграждение модели.
Я пытался найти несколько примеров, как сохранить и использовать функцию Q-learning и как использовать обновление с новыми данными, но пока я не вижу никаких примеров. Кто-нибудь может предложить несколько примеров или объяснений о том, как можно развернуть и обновить модель Q-обучения?