Из подкрепления склоняющихся кандидатов в мастера:
Альфа - скорость обучения. Если функция вознаграждения или перехода является стохастической (случайной), то альфа должна меняться со временем, приближаясь к нулю на бесконечности. Это связано с аппроксимацией ожидаемого результата внутреннего продукта (T (переход) * R (награда)), когда один из двух или оба имеют случайное поведение.
Этот факт важно отметить.
Гамма - это ценность будущей награды. Это может немного повлиять на обучение и может быть динамическим или статическим значением. Если оно равно единице, агент оценивает будущую награду ПРОСТО как МНОГО в качестве текущей награды. Это означает, что в десяти действиях, если агент делает что-то хорошее, это ТОЛЬКО ЦЕННО, как выполнение этого действия напрямую. Так что при высоких значениях гаммы обучение не очень хорошо работает.
И наоборот, нулевая гамма заставит агента оценивать только немедленные вознаграждения, что работает только с очень подробными функциями вознаграждения.
Также - что касается исследовательского поведения ... на самом деле есть тонны литературы по этому вопросу. Все ваши идеи на 100% были опробованы. Я бы порекомендовал более подробный поиск, и даже начать прибегать к поиску решений и теории улучшения политики.
Просто добавив примечание к Альфе: представьте, что у вас есть функция вознаграждения, которая выплевывает 1 или ноль для определенного состояния действия комбо SA. Теперь каждый раз, когда вы выполняете SA, вы получите 1 или 0. Если вы оставите альфа равным 1, вы получите Q-значения 1 или ноль. Если это 0,5, вы получите значения +0,5 или 0, и функция всегда будет колебаться между двумя значениями навсегда. Однако, если вы каждый раз уменьшаете свою альфу на 50 процентов, вы получаете такие значения. (при условии, что вознаграждение получено 1,0,1,0, ...). Ваши Q-значения в конечном итоге будут 1,0,5,0,75,0,9,0,8, ... и в конечном итоге будут сходиться примерно до 0,5. На бесконечности это будет 0,5, что является ожидаемой наградой в вероятностном смысле.