Разница между DDQN + приоритет воспроизведения опыта и DDQN + больше эпох? - PullRequest
0 голосов
/ 08 марта 2020

Я учу PER.
Что я изучаю

  1. Имею опыт
  2. Рассчитать приоритет
  3. Нормализовать приоритет
  4. Воспроизведение опыта с высоким приоритетом

Теперь вопрос. Как я собираюсь повторить опыт? Например, нужно ли мне вернуть положение объекта в игре, которое я получил из опыта с высоким приоритетом, а затем рассчитать действие и затем вознаграждение? Или если мне придется снова и снова обучать сеть на этом опыте, в этом случае это похоже на настройку EPOCH? Как рассчитать new_q при переподготовке с более высоким приоритетом без вознаграждения?

Я прочитал несколько блогов и код, но не могу вспомнить PER.

...