Вы обычно устанавливаете вознаграждение и скидку таким образом, чтобы с помощью RL вы заставляли агента решать задачу.В примере со студентом цель - сдать экзамен.Студент может проводить время, посещая занятия, спя, на Facebook или в пабе.Посещение класса - это что-то «скучное», поэтому студент не видит непосредственной выгоды от этого.Отсюда и отрицательная награда.Наоборот, ходить в паб - это весело и дает положительное вознаграждение.Однако, только посещая все 3 класса, студент может сдать экзамен и получить большую итоговую награду.Теперь возникает вопрос: насколько студент оценивает непосредственные и будущие награды?Коэффициент дисконтирования говорит вам, что: небольшая скидка придает большее значение немедленным вознаграждениям, потому что будущие вознаграждения просто «исчезают» в долгосрочной перспективе.Если мы используем небольшую скидку, студент может предпочесть всегда идти в паб или спать.Со скидкой, близкой к 0, уже после одного шага все вознаграждения также приближаются к 0, поэтому в каждом штате студент будет стремиться максимизировать немедленное вознаграждение, потому что после этого «ничего больше не имеет значения».
Вкл.наоборот, высокие скидки (макс. 1) больше ценят долгосрочные вознаграждения: в этом случае оптимальный ученик будет посещать все занятия и сдавать экзамен.
Выбор скидки может быть сложным, особенно если нет состояния терминала (в этом случае «сон» является терминалом), поскольку при скидке 1 агент может игнорировать количество шагов, используемых для достижения наибольшеговознаграждение.Например, если классы дали бы вознаграждение -1 вместо -2, для агента было бы то же самое, чтобы тратить время, чередуя между "классом" и "пабом" навсегда и в некоторый момент, чтобы сдать экзамен, потому что со скидкой 1награды никогда не исчезают, поэтому даже через 10 лет студенты все равно получат +10 за сдачу экзамена.
Подумайте также о виртуальном агенте, который должен достичь целевой позиции.Со скидкой 1 агент не научится достигать ее за наименьшее количество шагов: до тех пор, пока она достигает ее, для него то же самое.
Кроме того, существует также численная проблема со скидкой 1Так как цель состоит в том, чтобы максимизировать совокупную сумму дисконтированного вознаграждения, если вознаграждения не дисконтируются (и горизонт бесконечен), сумма не будет сходиться.