Использование данных обучения для обучения другой модели - PullRequest
0 голосов
/ 14 мая 2018

Я работаю над проектом NIPS 2017 Learning to Run.У меня ограниченное время, и мне нужно попробовать 2 модели (DDPG и Soft Actor Critic).Симуляция медленная и занимает слишком много времени.Интересно, после того, как я обучил одного из них, можно ли использовать его данные о состоянии-действии для обучения другого?

1 Ответ

0 голосов
/ 14 мая 2018

Если вы заменили Q-таблицу необученной модели SAC на обученную Q-таблицу DDPG, то вы бы использовали конвергентную политику, созданную методом DDPG.Аналогично, замена Q-таблицы необученной модели DDPG на Q-таблицу из обученной модели SAC даст ей конвергентную политику из-за применения метода SAC.

Если вы еще этого не сделали, вам следует проверить этот документ , в котором рассматриваются и экспериментируют с различиями между DDPG и SAC.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...