Шаг установки в Deep Q Network - PullRequest
       40

Шаг установки в Deep Q Network

0 голосов
/ 29 октября 2019

Меня смущает, почему dqn с алгоритмом воспроизведения опыта будет выполнять шаг градиентного спуска для каждого шага в данном эпизоде? Это будет соответствовать только один шаг, верно? Это сделало бы это очень медленно. Почему не после окончания каждого эпизода или при клонировании модели?

1 Ответ

1 голос
/ 07 ноября 2019

В оригинальной статье автор помещает одну выборку в буфер воспроизведения опыта и случайным образом выбирает 32 перехода для обучения модели в режиме мини-пакета. Образцы, взятые при взаимодействии с окружающей средой, не подаются непосредственно на модель. Чтобы увеличить скорость обучения, автор сохраняет сэмплы каждый шаг, но обновляет модель каждые четыре шага.

Использовать OpenAI Базовый проект ;этот однопроцессный метод может справиться с такими простыми играми, как Atari Pong (Pong-v4), около 2,5 часов, используя один графический процессор. Конечно, обучение этому виду однопроцессного процесса приводит к недостаточному использованию ресурсов многоядерной, многоядерной (или одноядерной) системы. Так что в новых публикациях развязаны действия выбора и оптимизации моделей. Они используют несколько «действующих лиц» для одновременного взаимодействия со средами и один графический процессор «Leaner» для оптимизации модели или несколько Leaners с несколькими моделями на различных графических процессорах. Мульти-актер-один ученик описан в методе Deepmind's Apex-DQN ( Distributed Prioritized Experience Replay, D. Horgan et al., 2018 ) и метод мульти-актер-мульти-ученик, описанный в ( Ускоренные методы глубокого обучения, Stooke and Abbeel, 2018 ). При использовании нескольких учеников обмен параметрами между процессами становится существенным. Старый след описан в PDQN Deepmind ( Массивно-параллельные методы обучения глубокому укреплению, Nair et al., 2015 ), который был предложен в период между DQN и A3C. Тем не менее, работа была выполнена полностью на процессорах, поэтому она выглядит с использованием огромных ресурсов, результат может быть легко превзойден с помощью пакетного выбора действий PPAC для метода GPU.

Невозможно оптимизировать каждый конец эпизода, поскольку длина эпизода не фиксирована, чем лучше модель, как правило, приводит к более длительным шагам эпизода. Способность модели к обучению снизится, когда они будут работать немного лучше. Процесс обучения будет нестабильным.

Мы также не обучаем модель только на клоне целевой модели, потому что введение цели состоит в том, чтобы стабилизировать процесс обучения, сохраняя более старый набор параметров. Если вы обновляете только клоны параметров, параметры целевой модели будут такими же, как у модели, что приведет к нестабильности. Потому что, если мы используем те же параметры, одно обновление модели приведет к тому, что следующее состояние будет иметь более высокое значение.

В газете Deepmind 2015 года Nature говорится, что:

Вторая модификация онлайнового Q-обучения, направленная на дальнейшее повышение стабильности нашего метода с нейронными сетями, заключается в использовании отдельногосеть для генерации цели yj в обновлении Q-обучения. Точнее, при каждом обновлении C мы клонируем сеть Q, чтобы получить целевую сеть Q 'и используем Q' для генерации целей Q-обучения y j для следующих обновлений C до Q. Эта модификация делает алгоритмболее стабильный по сравнению со стандартным онлайн-Q-обучением, где обновление, которое увеличивает Q (s t , a t ), часто также увеличивает Q (s t + 1 , а) для всех а и, следовательно, также увеличивает цель y j , что может привести к колебаниям или расхождению политики. Генерация целей с использованием более старого набора параметров добавляет задержку между временем обновления Q и временем, когда обновление влияет на цели y j , делая расхождение или колебания гораздо более маловероятными.

Контроль уровня человека посредством глубокого обучения подкреплению, Mnih et al., 2015

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...