Я попробовал алгоритм DoubleDQN и DQN в игре NChain в спортзале и понял, что производительность DoubleDQN не была более стабильной или лучшей, чем у DQN.
Я устанавливаю размер пакета обучения после каждого принятого действия равным 1. Могу ли я знать, что по этой причине DoubleDQN не превосходит DQN?
Сравнение результатов