Question

У меня есть агент DQN, который обучен в определенной сети для выполнения задачи. Однако, когда я обучал агента, я заметил, что после начального числа эпох, когда агент показывает общий рост оценки задачи, внезапно происходит резкое снижение производительности агента, как если бы он начинал заново. Это происходит несколько раз.

Мой агент показывает колебания производительности от плохого к хорошему и т. Д. Это нормально для агентов DQN. Какой диагноз мне следует поставить, чтобы можно было устранить такие колебания? Я использовал опыт воспроизведения и разведки-эксплуатации для агента. Я относительно новичок в этой области, поэтому вопрос может быть довольно тривиальным.

Ankish Bansal · Answer 1 · 14 января 2019

Эти колебания нормальны, пока не достигнут оптимального уровня. В большинстве экспериментов и работ по армированию результаты показаны в виде средневзвешенного значения с window size of 15-30. Вот график моей dqn реализации.

Производительность Deep Q-Learning Agent снижается после определенного количества эпох

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Производительность Deep Q-Learning Agent снижается после определенного количества эпох

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы