Почему рандомизированные выборки модели обучения с подкреплением с нелинейным приближением функции уменьшают дисперсию? - PullRequest
0 голосов
/ 28 января 2020

Я прочитал тезис DQN.

Читая статью DQN, я обнаружил, что случайный выбор и изучение выборок уменьшали расхождение в RL с использованием аппроксиматора функции нелинейного типа.

Если так Почему изучение RL с использованием нелинейного аппроксиматора функции расходится, когда входные данные сильно коррелируют?

1 Ответ

0 голосов
/ 30 января 2020

Я полагаю, что раздел X (начиная со страницы 687) из Анализ разностного обучения с приближением функции дает ответ на ваш вопрос. Таким образом, существуют нелинейные функции, средняя ошибка предсказания которых фактически увеличивается после применения оператора Беллмана TD (0); следовательно, политика в конечном итоге будет расходиться. Как правило, это относится к глубоким нейронным сетям, поскольку они по своей природе нелинейны и имеют тенденцию к плохому поведению с точки зрения оптимизации.

В качестве альтернативы, обучение по независимым и одинаково распределенным ( iid ) данные позволяют вычислять несмещенные оценки градиента, которые требуются для алгоритмов оптимизации первого порядка, таких как Stochasti c Gradient Descent (SGD), чтобы сходиться к локальному минимуму функции потерь. Вот почему DQN выбирает случайные мини-пакеты из большой памяти воспроизведения, а затем уменьшает потери, используя RMSProp (расширенная форма SGD).

...