Question

Я работаю над проектом NIPS 2017 Learning to Run.У меня ограниченное время, и мне нужно попробовать 2 модели (DDPG и Soft Actor Critic).Симуляция медленная и занимает слишком много времени.Интересно, после того, как я обучил одного из них, можно ли использовать его данные о состоянии-действии для обучения другого?

R.F. Nelson · Answer 1 · 14 мая 2018

Если вы заменили Q-таблицу необученной модели SAC на обученную Q-таблицу DDPG, то вы бы использовали конвергентную политику, созданную методом DDPG.Аналогично, замена Q-таблицы необученной модели DDPG на Q-таблицу из обученной модели SAC даст ей конвергентную политику из-за применения метода SAC.

Если вы еще этого не сделали, вам следует проверить этот документ , в котором рассматриваются и экспериментируют с различиями между DDPG и SAC.

Использование данных обучения для обучения другой модели

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Использование данных обучения для обучения другой модели

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы