Алгоритм RL MAB с разными значениями вознаграждений? - PullRequest
0 голосов
/ 07 июня 2019

Я пытаюсь решить проект, используя алгоритм RL, в частности, я хочу использовать e-жадность и UBC.

Проблема в том, что у меня есть клиенты и я устанавливаю цену, но я не знаю, примет ли клиент это или отклонит. Например, я рассчитал, что цена для 1-го клиента равна x (допустим, это будет 100 $), x - это максимум. Цена для следующего человека может быть другой, поэтому у меня будет несколько диапазонов, которые я могу взять. This is how I form the matrix

Предположим, что 1-й клиент принимает диапазон 0,3, но в этом случае я также могу взимать 0,1 с цены, и клиент принимает это. Для симуляции я думаю использовать набор данных, который будет выглядеть так: -1 - максимально допустимая цена:

enter image description here

Я думаю использовать для этой задачи эпсилон-жадный алгоритм и UCB, но я не уверен, что смогу рассчитать вознаграждение, учитывая, что у меня будут не только 0 и 1, будет ли это хорошим выбором? Есть ли другие варианты? Я предполагаю, что изначально я не знаю никакой статистики о клиентах, поэтому MDP, я думаю, не очень хороший вариант. Как я могу принять во внимание различные значения вознаграждения?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...