В настоящее время я изучаю изучение подкрепления и построил игру в блэкджек.
В конце игры есть очевидное вознаграждение (выплата), однако некоторые действия не приводят к вознаграждениям (попадание в счет 5), который следует поощрять, даже если конечный результат отрицательный (потеря руки).
Мой вопрос: какой должна быть награда за эти действия?
Я мог бы Жесткий код положительная награда (часть вознаграждения за победу в руке) за попадания, которые не приводят к перебоям, но мне кажется, что я не подхожу к проблеме правильно.
Кроме того, когда я назначаю вознаграждение за выигрыш (после окончания раздачи), я обновляю q-значение, соответствующее последней паре действие / состояние, которое кажется неоптимальным, так как это действие может не иметь непосредственного привести к победе.
Другой вариант, который я думал, - назначить одинаковое конечное вознаграждение всем парам действий / состояний в последовательности, однако некоторые действия (такие как попадание на счет <10) следует поощрять даже если это приводит к проигранной руке. </p>
Примечание: моя конечная цель - использовать deep-RL с LSTM, но я начинаю с q-learning.