Сложность в обучении Lunar Lander Discrete - PullRequest
0 голосов
/ 29 мая 2020

Я реализовал алгоритм DQN и A2 C с использованием Tensor Flow 2 и python 3.6. Он хорошо работал в Cartpole (он научился играть примерно в 100 эпизодах, он набрал около 150, а позже улучшился до 500 очков в 300 эпизодах). Но теперь я пытаюсь заставить его работать в дискретном лунном посадочном модуле, и все go почти не показывают улучшений (тренировались для 2000 эпизодов). Не могли бы вы поделиться таким параметром, как модель тензорного потока, используемая для обучения скорости обучения и графика результатов? Спасибо за вашу помощь.

...