Построение обучения глубокому подкреплению с помощью cnn q - приближения - PullRequest
1 голос
/ 31 марта 2020

Я новичок в ДХО. Исходя из этого кода https://github.com/jaromiru/cwcf, я хотел бы заменить MLP, используемое для приближения функции q, на CNN, но я не знаю, как это сделать. Кто-нибудь может мне помочь? Спасибо

1 Ответ

1 голос
/ 03 апреля 2020

Попробуйте пройти в этом есть подробное объяснение того, как построить DQN для решения проблемы CartPole. Вы также можете взглянуть на this , в котором реализованы многие алгоритмы DRL

Затем вы можете заменить код в agent.py, присутствующий в репо, на код агента DQN

...