Какие бы изменения вы ни внесли в свою модель, всегда найдется компромисс между ее реактивностью и объемом памяти. Модель не сможет сохранить все и при этом догнать поведение клиента. Например, если модель сохраняет все, она не найдет причин попробовать другое оружие, даже если поведение клиента изменилось. С другой стороны, чтобы оставаться реактивной, модель должна продолжать пробовать неоптимальные руки, чтобы проверить, не стало ли одно из них оптимальным, даже если это может вызвать дополнительное сожаление. Обратите внимание, что в нестационарной настройке невозможно будет выполнить так же, как и стационарные настройки.
Вы пробовали оба стандартных способа придания большего веса новым данным: дисконтирование (с коэффициентом 0,9) и учитывая данные только за последние n дней. Если вы обнаружите, что использование этих значений параметров дает вам модели, которые слишком забывчивы, вы можете попробовать увеличить коэффициент скидки или число n (дни, которые вы считаете).
По мере увеличения этих По параметрам ваши модели станут менее забывчивыми и менее реактивными. Вам нужно найти ценности, которые работают для вас. Кроме того, возможно, не удастся одновременно достичь того уровня реактивности и забывчивости, на который вы надеетесь.
Надеюсь, это поможет!