Я пытаюсь обучить двойной DQN с буфером ответов в версии OpenAI Breakout Ram (пробовал как Breakout-ram-v0, так и Breakout-ram-v4). Код здесь (tf 2.0).
Я перепробовал множество настроек параметров, а также много других деталей. Аппаратное обеспечение ограничено, поэтому на моем MacBook Pro обучено только 200 эпизодов и около 4 тыс. Шагов. (не должно быть проблемой, хотя) Общая награда в каждой игре все еще находится между 0 ~ 5.
Если бы кто-нибудь мог дать мне какие-либо предложения / советы, это было бы очень признательно !!! Очень смущен сейчас. Спасибо!