Двойное Q-обучение сразу после переключения возвращается к Q-learning - PullRequest
0 голосов
/ 13 февраля 2020

Я пытаюсь лучше понять статью https://arxiv.org/pdf/1509.06461.pdf, где упоминается «мы увеличили количество кадров между каждыми двумя копиями целевой сети с 10 000 до 30 000, чтобы еще больше сократить завышенные оценки, поскольку сразу после каждого переключения DQN и Double DQN оба возвращаются к Q-learning ». Связано ли это с возвращением к DQN, или Double DQN фактически становится Q-learning с FMDP?

...