Question

Мой друг и я тренируем DDQN для изучения 2D футбола.Я тренировал модель около 40 000 эпизодов, но это заняло 6 дней.Есть ли способ обучить эту модель одновременно?

Например, у меня есть 4 ядра и 4 потока, и каждый поток обучает модель 10.000 раз одновременно.Таким образом, время на подготовку 40 000 эпизодов сокращается с 6 дней до 1,5 дней, как в случае параллельности цикла for.

РЕДАКТИРОВАТЬ: если мы обучаем модель 10.000 эпизодов в 4 потока отдельно, образуется новая модель, состоящая изсреднее из этих обученных моделей дает эффект обучения 40 000 эпизодов, или это будет модель, которая была обучена 10 000 эпизодов, но лучше?

Afshin Oroojlooy · Answer 1 · 15 мая 2019

Я думаю, что этот документ отвечает на ваш вопрос: https://arxiv.org/pdf/1507.04296.pdf

В этом документе работает центральный ученик с центральной памятью воспроизведения.Также есть n рабочих, которые являются копиями центрального ученика, каждый из которых имеет свою собственную память воспроизведения.Каждый работник заполняет свою собственную память воспроизведения и на каждом этапе поезда может использовать свою собственную память воспроизведения (если она достаточно велика) или использовать центральную память воспроизведения.Перед каждым выбором действия веса сети синхронизируются с сервером, и после каждого отдельного этапа обучения градиенты отправляются обратно на сервер.

Также рассмотрим: https://arxiv.org/pdf/1602.01783.pdf

, в котором предлагается A3C, а затем предлагается A2C, который является более простой версией A3C.Дело в том, что алгоритм асинхронного Q-обучения не привлек к себе большого внимания из-за производительности A3C.По сути, использование алгоритма распределенного DQN неэффективно, поскольку для воспроизведения памяти необходимо перемещать большое количество данных от разных работников к серверам.Действительно, A3C предлагается решить эту проблему с памятью воспроизведения, которая запускает один экземпляр модели и env в каждом работнике и только асинхронно обновляет весовые коэффициенты.

Надеюсь, это ответило на ваш вопрос.

Афшин

Обучение DDQN одновременно

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Обучение DDQN одновременно

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы