Question

Я читаю Silver et al (2012) "Поиск временных различий в компьютере Go" и пытаюсь понять порядок обновления для алгоритма трассировки приемлемости.В Алгоритме 1 и 2 статьи веса обновляются перед обновлением трассы приемлемости.Интересно, правильный ли это порядок (строки 11 и 12 в алгоритме 1 и строки 12 и 13 алгоритма 2).Думая о крайнем случае с lambda=0, параметр не обновляется исходной парой состояние-действие (поскольку e по-прежнему равно 0).Поэтому я сомневаюсь, что порядок, возможно, должен быть противоположным.

Может кто-то прояснить этот вопрос?

Я считаю, что статья очень поучительна для изучения области обучения подкреплению, поэтому хотел бы понять статью вподробнее.

Если есть более подходящая платформа для постановки этого вопроса, пожалуйста, дайте мне знать.

Dennis Soemers · Answer 1 · 18 октября 2018

Мне кажется, что вы правы, e следует обновить до theta.Это также должно произойти в соответствии с математикой в газете.См., Например, уравнения (7) и (8), где e_t сначала вычисляется с использованием phi(s_t), и только THEN обновляется theta с использованием delta V_t (что в случае управления будет delta Q).

Обратите внимание, что то, что вы написали о крайнем случае с lambda=0, не совсем правильно.Пара начальных состояний и действий все еще будет участвовать в обновлении (не в первой итерации, но они будут включены в e во время второй итерации).Однако мне кажется, что самая первая награда r никогда не будет использоваться ни в каких обновлениях (поскольку она появляется только в самой первой итерации, где e по-прежнему 0).Поскольку эта статья о Go, я подозреваю, что это не будет иметь значения;если они не делают что-то необычное, они, вероятно, используют ненулевое вознаграждение только для состояния игры в терминале.

Алгоритм трассировки прав, порядок обновления

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Алгоритм трассировки прав, порядок обновления

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы