В DQN, почему y_i вычисляется, но не сохраняется? - PullRequest
1 голос
/ 21 мая 2019

Алгоритм DQN ниже

enter image description here

Источник

В записях D у нас есть поля phi_t, a_t, r_t и phi_ {t + 1}. Почему в записях D нет поля 'y', поэтому мы можем хранить вычисленные значения 'y'?

Я имею в виду, что мини-пакеты выбираются случайным образом из D без каких-либо ограничений, поэтому одна запись может выбираться несколько раз, особенно когда количество записей D недостаточно велико. Если это произойдет, y нужно будет пересчитать несколько раз. Я правильно это думаю?

1 Ответ

1 голос
/ 21 мая 2019

Поскольку y_i вычисляется с использованием функции Q, которая изменяется от итерации к итерации. Поэтому значения, хранящиеся в одной итерации, недопустимы для следующих итераций.

В рамках одной и той же итерации, я думаю, вы точно указали, что если вы делаете выборку одного и того же перехода несколько раз, то нет необходимости вычислять y_i несколько раз, вместо этого вы можете использовать один и тот же результат. Я предполагаю, что псевдокод более сфокусирован на ключевых концепциях, чем на деталях такого рода.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...