Мой вопрос следует за моим исследованием кода в учебнике по PyTorch DQN, но затем относится к обучению с подкреплением в целом: каковы наилучшие практики для оптимального изучения / эксплуатации в обучении подкреплению?
В учебном пособии по DQNпеременная steps_done является глобальной переменной, и EPS_DECAY = 200. Это означает, что: после 128 шагов пороговое значение epsilon = 0.500;после 889 шагов эпсилон-порог = 0,0600;и после 1500 шагов пороговое значение epsilon = 0.05047.
Это может работать для проблемы CartPole, описанной в руководстве - где ранние эпизоды могут быть очень короткими, а задача довольно простой - но как насчет более сложных задач?в каком гораздо больше исследований требуется?Например, если бы у нас была проблема с 40 000 эпизодов, каждый из которых имел 10 000 временных шагов, как бы мы настроили политику жадных исследований эпсилон?Есть ли какое-то эмпирическое правило, которое используется в работе RL?
Заранее спасибо за любую помощь.