Обучение DDQN одновременно - PullRequest
1 голос
/ 15 мая 2019

Мой друг и я тренируем DDQN для изучения 2D футбола.Я тренировал модель около 40 000 эпизодов, но это заняло 6 дней.Есть ли способ обучить эту модель одновременно?

Например, у меня есть 4 ядра и 4 потока, и каждый поток обучает модель 10.000 раз одновременно.Таким образом, время на подготовку 40 000 эпизодов сокращается с 6 дней до 1,5 дней, как в случае параллельности цикла for.

РЕДАКТИРОВАТЬ: если мы обучаем модель 10.000 эпизодов в 4 потока отдельно, образуется новая модель, состоящая изсреднее из этих обученных моделей дает эффект обучения 40 000 эпизодов, или это будет модель, которая была обучена 10 000 эпизодов, но лучше?

1 Ответ

0 голосов
/ 15 мая 2019

Я думаю, что этот документ отвечает на ваш вопрос: https://arxiv.org/pdf/1507.04296.pdf

В этом документе работает центральный ученик с центральной памятью воспроизведения.Также есть n рабочих, которые являются копиями центрального ученика, каждый из которых имеет свою собственную память воспроизведения.Каждый работник заполняет свою собственную память воспроизведения и на каждом этапе поезда может использовать свою собственную память воспроизведения (если она достаточно велика) или использовать центральную память воспроизведения.Перед каждым выбором действия веса сети синхронизируются с сервером, и после каждого отдельного этапа обучения градиенты отправляются обратно на сервер.

Также рассмотрим: https://arxiv.org/pdf/1602.01783.pdf

, в котором предлагается A3C, а затем предлагается A2C, который является более простой версией A3C.Дело в том, что алгоритм асинхронного Q-обучения не привлек к себе большого внимания из-за производительности A3C.По сути, использование алгоритма распределенного DQN неэффективно, поскольку для воспроизведения памяти необходимо перемещать большое количество данных от разных работников к серверам.Действительно, A3C предлагается решить эту проблему с памятью воспроизведения, которая запускает один экземпляр модели и env в каждом работнике и только асинхронно обновляет весовые коэффициенты.

Надеюсь, это ответило на ваш вопрос.

Афшин

...