Я учу PER.
Что я изучаю
- Имею опыт
- Рассчитать приоритет
- Нормализовать приоритет
- Воспроизведение опыта с высоким приоритетом
Теперь вопрос. Как я собираюсь повторить опыт? Например, нужно ли мне вернуть положение объекта в игре, которое я получил из опыта с высоким приоритетом, а затем рассчитать действие и затем вознаграждение? Или если мне придется снова и снова обучать сеть на этом опыте, в этом случае это похоже на настройку EPOCH? Как рассчитать new_q при переподготовке с более высоким приоритетом без вознаграждения?
Я прочитал несколько блогов и код, но не могу вспомнить PER.