Question

Я пытаюсь решить проект, используя алгоритм RL, в частности, я хочу использовать e-жадность и UBC.

Проблема в том, что у меня есть клиенты и я устанавливаю цену, но я не знаю, примет ли клиент это или отклонит. Например, я рассчитал, что цена для 1-го клиента равна x (допустим, это будет 100 $), x - это максимум. Цена для следующего человека может быть другой, поэтому у меня будет несколько диапазонов, которые я могу взять.

Предположим, что 1-й клиент принимает диапазон 0,3, но в этом случае я также могу взимать 0,1 с цены, и клиент принимает это. Для симуляции я думаю использовать набор данных, который будет выглядеть так: -1 - максимально допустимая цена:

Я думаю использовать для этой задачи эпсилон-жадный алгоритм и UCB, но я не уверен, что смогу рассчитать вознаграждение, учитывая, что у меня будут не только 0 и 1, будет ли это хорошим выбором? Есть ли другие варианты? Я предполагаю, что изначально я не знаю никакой статистики о клиентах, поэтому MDP, я думаю, не очень хороший вариант. Как я могу принять во внимание различные значения вознаграждения?

Алгоритм RL MAB с разными значениями вознаграждений?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Алгоритм RL MAB с разными значениями вознаграждений?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы