Я делаю таксономию RL [1], и недавно мне пришлось самому ответить на этот вопрос. Вот мой взгляд на это.
- Agent57 основан на NGU, который, в свою очередь, основан на R2D2, что означает Распределенный DQN с повторным воспроизведением. Так что все они Q-Learning, безмодельный RL.
- MuZero основан на модели, и он изучает модель. Об этом говорится в документе (стр. 2, первое утверждение), а также в документе Agent57.
[1] https://github.com/bennylp/RL-Taxonomy