Ответ, предоставленный Филиппом, правильный.Просто чтобы добавить интуицию к его ответу, причина, по которой используется переигровка опыта, состоит в том, чтобы декоррелировать переживания, которые испытывал RL.Это важно, когда используется аппроксимация нелинейных функций, таких как нейронные сети.
Пример. Представьте, что у вас было 10 дней на подготовку к тесту по химии и математике, и оба теста были в один и тот же день.Если вы потратите первые 5 дней на химию и последние 5 дней на математику, вы забудете большую часть изученной вами химии.Нейронная сеть ведет себя аналогично.
Декоррелируя опыт, можно определить более общую политику через данные обучения.
И во время обучения нейронной сети у нас есть пакет памяти (то есть данные), и мы выбираем случайные мини-партии из 32 из них для обучения под наблюдением, так же как любая другая нейронная сеть обучается.