Алгоритм трассировки прав, порядок обновления - PullRequest
0 голосов
/ 15 октября 2018

Я читаю Silver et al (2012) "Поиск временных различий в компьютере Go" и пытаюсь понять порядок обновления для алгоритма трассировки приемлемости.В Алгоритме 1 и 2 статьи веса обновляются перед обновлением трассы приемлемости.Интересно, правильный ли это порядок (строки 11 и 12 в алгоритме 1 и строки 12 и 13 алгоритма 2).Думая о крайнем случае с lambda=0, параметр не обновляется исходной парой состояние-действие (поскольку e по-прежнему равно 0).Поэтому я сомневаюсь, что порядок, возможно, должен быть противоположным.

Может кто-то прояснить этот вопрос?

Я считаю, что статья очень поучительна для изучения области обучения подкреплению, поэтому хотел бы понять статью вподробнее.

Если есть более подходящая платформа для постановки этого вопроса, пожалуйста, дайте мне знать.

enter image description here enter image description here

1 Ответ

0 голосов
/ 18 октября 2018

Мне кажется, что вы правы, e следует обновить до theta.Это также должно произойти в соответствии с математикой в ​​газете.См., Например, уравнения (7) и (8), где e_t сначала вычисляется с использованием phi(s_t), и только THEN обновляется theta с использованием delta V_t (что в случае управления будет delta Q).

Обратите внимание, что то, что вы написали о крайнем случае с lambda=0, не совсем правильно.Пара начальных состояний и действий все еще будет участвовать в обновлении (не в первой итерации, но они будут включены в e во время второй итерации).Однако мне кажется, что самая первая награда r никогда не будет использоваться ни в каких обновлениях (поскольку она появляется только в самой первой итерации, где e по-прежнему 0).Поскольку эта статья о Go, я подозреваю, что это не будет иметь значения;если они не делают что-то необычное, они, вероятно, используют ненулевое вознаграждение только для состояния игры в терминале.

...