Производительность Deep Q-Learning Agent снижается после определенного количества эпох - PullRequest
0 голосов
/ 13 января 2019

У меня есть агент DQN, который обучен в определенной сети для выполнения задачи. Однако, когда я обучал агента, я заметил, что после начального числа эпох, когда агент показывает общий рост оценки задачи, внезапно происходит резкое снижение производительности агента, как если бы он начинал заново. Это происходит несколько раз.

Мой агент показывает колебания производительности от плохого к хорошему и т. Д. Это нормально для агентов DQN. Какой диагноз мне следует поставить, чтобы можно было устранить такие колебания? Я использовал опыт воспроизведения и разведки-эксплуатации для агента. Я относительно новичок в этой области, поэтому вопрос может быть довольно тривиальным.

1 Ответ

0 голосов
/ 14 января 2019

Эти колебания нормальны, пока не достигнут оптимального уровня. В большинстве экспериментов и работ по армированию результаты показаны в виде средневзвешенного значения с window size of 15-30. Вот график моей dqn реализации.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...