Попробуйте пройти в этом есть подробное объяснение того, как построить DQN для решения проблемы CartPole. Вы также можете взглянуть на this , в котором реализованы многие алгоритмы DRL
Затем вы можете заменить код в agent.py, присутствующий в репо, на код агента DQN