У меня есть вопрос о моем случае в теме обучения с подкреплением.
Я хочу измерить принятие цены двух продуктов, которые зависят друг от друга. Это означает, что если я изменю цену на Продукт А, возможно, клиенты захотят купить продукт Б.
В моем воображении мне нужен алгоритм обучения подкрепления для этого.
Штатом будут действительные цены A и B, например (A: 15 €, B: 12 €).
Действиями будут возможные изменения цены (например, цена A - 2 €)
Таким образом, следующим состоянием в этом примере будет (A: 13 €, B: 12 €)
Наградой будет что-то вроде разницы в прибыли или любой другой переменной, которая говорит мне, насколько успешным было изменение цены.
Мой вопрос сейчас таков: у меня нет окончательного состояния, верно? Как я могу справиться с этим? Я просто хочу максимизировать вознаграждение. Является ли «Усиление обучения» правильным методом или есть что-то более подходящее для меня?