Параметр гамма действительно используется, чтобы сказать что-то о том, как вы цените свои будущие награды. Более подробно ваше дисконтированное вознаграждение (которое используется в обучении) выглядит так:
Награда со скидкой:
Это означает, что экспоненциальная функция решает, как будут учитываться будущие награды.
В качестве примера, давайте сравним 2 значения гаммы:
гамма = 0,9
гамма = 0,99
Давайте посмотрим, когда гамма ** шагов достигает 0,5. В случае гамма = 0,9 это 6 шагов. С гаммой = 0,99 это больше похоже на 60 шагов. Это означает, что для гаммы = 0,9 вознаграждение за 6 шагов вдвое менее важно, чем немедленное вознаграждение, но для гаммы = 0,99 то же самое справедливо для 60 шагов. Таким образом, спад гораздо менее значим для гаммы = 0,99, а вознаграждение в будущем будет выше, чем при гамме = 0,9.
Чтобы установить, какой гамма-параметр вам нужен для вашего приложения, важно иметь некоторое представление о том, сколько шагов в вашей среде вам нужно, чтобы получить вознаграждение.
Чтобы вернуться к вашим вариантам А и В. А должен иметь низкое значение гаммы, так как немедленная награда очень важна. Вариант B должен иметь более высокое значение гаммы, потому что награда в будущем.