Question

Я реализовал алгоритм DQN и A2 C с использованием Tensor Flow 2 и python 3.6. Он хорошо работал в Cartpole (он научился играть примерно в 100 эпизодах, он набрал около 150, а позже улучшился до 500 очков в 300 эпизодах). Но теперь я пытаюсь заставить его работать в дискретном лунном посадочном модуле, и все go почти не показывают улучшений (тренировались для 2000 эпизодов). Не могли бы вы поделиться таким параметром, как модель тензорного потока, используемая для обучения скорости обучения и графика результатов? Спасибо за вашу помощь.

Сложность в обучении Lunar Lander Discrete

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Сложность в обучении Lunar Lander Discrete

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы