Question

Я учу PER.
Что я изучаю

Имею опыт
Рассчитать приоритет
Нормализовать приоритет
Воспроизведение опыта с высоким приоритетом

Теперь вопрос. Как я собираюсь повторить опыт? Например, нужно ли мне вернуть положение объекта в игре, которое я получил из опыта с высоким приоритетом, а затем рассчитать действие и затем вознаграждение? Или если мне придется снова и снова обучать сеть на этом опыте, в этом случае это похоже на настройку EPOCH? Как рассчитать new_q при переподготовке с более высоким приоритетом без вознаграждения?

Я прочитал несколько блогов и код, но не могу вспомнить PER.

Разница между DDQN + приоритет воспроизведения опыта и DDQN + больше эпох?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Разница между DDQN + приоритет воспроизведения опыта и DDQN + больше эпох?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы