У меня есть агент DQN, который обучен в определенной сети для выполнения задачи. Однако, когда я обучал агента, я заметил, что после начального числа эпох, когда агент показывает общий рост оценки задачи, внезапно происходит резкое снижение производительности агента, как если бы он начинал заново. Это происходит несколько раз.
Мой агент показывает колебания производительности от плохого к хорошему и т. Д. Это нормально для агентов DQN. Какой диагноз мне следует поставить, чтобы можно было устранить такие колебания? Я использовал опыт воспроизведения и разведки-эксплуатации для агента. Я относительно новичок в этой области, поэтому вопрос может быть довольно тривиальным.