Укрепление обучения без окончательного состояния? - PullRequest
0 голосов
/ 22 мая 2019

У меня есть вопрос о моем случае в теме обучения с подкреплением.

Я хочу измерить принятие цены двух продуктов, которые зависят друг от друга. Это означает, что если я изменю цену на Продукт А, возможно, клиенты захотят купить продукт Б.

В моем воображении мне нужен алгоритм обучения подкрепления для этого. Штатом будут действительные цены A и B, например (A: 15 €, B: 12 ​​€).

Действиями будут возможные изменения цены (например, цена A - 2 €)

Таким образом, следующим состоянием в этом примере будет (A: 13 €, B: 12 ​​€)

Наградой будет что-то вроде разницы в прибыли или любой другой переменной, которая говорит мне, насколько успешным было изменение цены.

Мой вопрос сейчас таков: у меня нет окончательного состояния, верно? Как я могу справиться с этим? Я просто хочу максимизировать вознаграждение. Является ли «Усиление обучения» правильным методом или есть что-то более подходящее для меня?

1 Ответ

0 голосов
/ 22 мая 2019

Конечное состояние не является обязательным в обучении восстановлению, вам просто нужно быть осторожным с настройкой гаммы.

Можем ли мы получить немного больше информации о расчете приемлемости цены?

Еще одна вещь, я не особо заинтересован в использовании нейронной сети в вашей проблеме, дело в том, что ваша цель - найти лучшую пару цен на продукты (A, B) в соответствии с вашей ценой окружающей среды. Принятие, которое принесет вам максимальную прибыль, но когда вы найдете эту пару, независимо от того, что такое сетевые входы, лучшая пара останется прежней, не так ли?

Я думаю, что интерес к использованию нейронной сети с Q-обучением должен заключаться в том, если вы прямо в качестве входных данных своей сети дадите переменных среды связанные с принятием цены в дополнение к текущим ценам.

...