Я полагаю, что раздел X (начиная со страницы 687) из Анализ разностного обучения с приближением функции дает ответ на ваш вопрос. Таким образом, существуют нелинейные функции, средняя ошибка предсказания которых фактически увеличивается после применения оператора Беллмана TD (0); следовательно, политика в конечном итоге будет расходиться. Как правило, это относится к глубоким нейронным сетям, поскольку они по своей природе нелинейны и имеют тенденцию к плохому поведению с точки зрения оптимизации.
В качестве альтернативы, обучение по независимым и одинаково распределенным ( iid ) данные позволяют вычислять несмещенные оценки градиента, которые требуются для алгоритмов оптимизации первого порядка, таких как Stochasti c Gradient Descent (SGD), чтобы сходиться к локальному минимуму функции потерь. Вот почему DQN выбирает случайные мини-пакеты из большой памяти воспроизведения, а затем уменьшает потери, используя RMSProp (расширенная форма SGD).