Где NGU, R2D2, MuZero и Agent57 подходят для Таксономии Обучения по Усилению? - PullRequest
0 голосов
/ 02 мая 2020

OpenAI обладает отличной таксономией алгоритмов обучения для подкрепления. Мне было интересно, где следующие бумаги будут go на этом дереве?

  1. Никогда не сдавайся
  2. Agent57
  3. MuZero
  4. R2D2

A Taxonomy of RL Algorithms

1 Ответ

0 голосов
/ 04 мая 2020

Я делаю таксономию RL [1], и недавно мне пришлось самому ответить на этот вопрос. Вот мой взгляд на это.

  • Agent57 основан на NGU, который, в свою очередь, основан на R2D2, что означает Распределенный DQN с повторным воспроизведением. Так что все они Q-Learning, безмодельный RL.
  • MuZero основан на модели, и он изучает модель. Об этом говорится в документе (стр. 2, первое утверждение), а также в документе Agent57.

[1] https://github.com/bennylp/RL-Taxonomy

...