Войти

Запомнить

Регистрация

PullRequest

Лента
Топ
Теги
Новая

Новая

kiaora 02 мая 2020 85

Где NGU, R2D2, MuZero и Agent57 подходят для Таксономии Обучения по Усилению?

0 голосов

kiaora / 02 мая 2020

OpenAI обладает отличной таксономией алгоритмов обучения для подкрепления. Мне было интересно, где следующие бумаги будут go на этом дереве?

Никогда не сдавайся
Agent57
MuZero
R2D2

усиление-обучения

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

0 голосов

bennylp / 04 мая 2020

Я делаю таксономию RL [1], и недавно мне пришлось самому ответить на этот вопрос. Вот мой взгляд на это.

Agent57 основан на NGU, который, в свою очередь, основан на R2D2, что означает Распределенный DQN с повторным воспроизведением. Так что все они Q-Learning, безмодельный RL.
MuZero основан на модели, и он изучает модель. Об этом говорится в документе (стр. 2, первое утверждение), а также в документе Agent57.

[1] https://github.com/bennylp/RL-Taxonomy

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.

Похожие темы

Какие виды линейных преобразований я могу применить к награде в обучении подкреплению?
Ошибка времени выполнения: несоответствие размера, m1: [5 x 10], м2: [5 x 32] в /pytorch/aten/src/TH/generic/THTensorMath.cpp
Какая польза от наличия функции значения состояния и функции значения действия?
Обучение Змеи есть пищу за определенное количество шагов c, используя обучение Усилению
Игра в змею с использованием обучения подкреплению и DQN (с deeplearning4j)
В изучении блэкджека, функции вознаграждения?
A3 C рабочие и глобальное обновление сети
RL-Coach простой пример поведенческого клонирования
Ray / Rllib QMIX ничего не изучает
Реализация итерации Q-значения с нуля

...