Эпсилон уменьшается, потому что по мере того, как ваша модель исследует и учится, становится все менее и менее важно исследовать и все более важным становится следовать выученной политике. Представьте себе такой сценарий: если ваша модель все еще «исследует» после изучения политики, она может выбрать действие, которое знает как плохой выбор. Вся идея использования эпсилон-жадности заключается в том, что это помогает в процессе обучения, а не в процессе принятия решений. * эпизоды. Я считаю, что sentdex на самом деле предоставляет его позже в своих видео / ах. Ключевым фактором в определении вашей функции распада эпсилон обычно является масштаб, в котором он распадается (в экспоненциальном случае, на какой процент он распадается и через сколько эпизодов вы распадаете его?). Также возникает вопрос, будет ли ваша среда полезна для этой функции пола.