Почему и когда необходимо глубокое обучение с подкреплением вместо q-обучения? - PullRequest
0 голосов
/ 25 мая 2018

Я изучал подкрепляющее обучение и понимаю концепции итерации «ценность / политика», TD (1) / TD (0) / TD (Lambda) и Q-learning.Чего я не понимаю, так это почему Q-learning не может быть использован для всего.Зачем нам нужно «глубокое» обучение с подкреплением, как описано в документе DeepMind DQN ?

Ответы [ 2 ]

0 голосов
/ 27 июня 2019

Q-learning использует Q-таблицы для хранения Q-значений и использует их для выбора действий для текущего состояния, используя соответствующие Q-значения.

Но это не всегдавозможно.Когда у нас большое пространство состояний, наша Q-таблица становится очень большой, и каждое оценочное Q-значение обновляется очень долго, и большинство из них могут обновляться лишь очень мало раз, поэтому они неточны.

Для решения подобных проблем мы используем функциональные аппроксиматоры, чтобы узнать общие Q-значения.Нейронные сети хороши в приближении функций, поэтому было предложено DQN , чтобы получить представление состояния и оценить Q-значения.Теперь сеть учится прогнозировать значения Q, используя низкоуровневую функцию состояния, что помогает в обобщении.

0 голосов
/ 25 мая 2018

Q-learning - это метод обучения с подкреплением без модели, впервые задокументированный в 1989 году. Он является «безмодельным» в том смысле, что агент не пытается моделировать свою среду.Он приходит к политике, основанной на Q-таблице, в которой хранится результат выполнения каких-либо действий из заданного состояния.Когда агент находится в состоянии s, он ссылается на Q-таблицу для состояния и выбирает действие с наивысшим ассоциированным вознаграждением.Чтобы агент достиг оптимальной политики, он должен сбалансировать исследование всех доступных действий для всех состояний с использованием того, что в Q-таблице является оптимальным действием для данного состояния.Если агент всегда выбирает случайное действие, он никогда не достигнет оптимальной политики;аналогично, если агент всегда выбирает действие с наибольшим предполагаемым вознаграждением, он может прийти к неоптимальной политике, поскольку некоторые пары состояния-действия могут быть не полностью изучены.

При наличии достаточного времени Q-learningможет в конечном итоге найти оптимальную политику π для любого конечного процесса решения Маркова (MDP).В примере простой игры в крестики-нолики общее количество разрозненных игровых состояний составляет менее 6000.Это может звучать как большое число, но рассмотрим простую игровую среду в среде OpenAI gym , известную как «Лунный корабль».

Цель состоит в том, чтобы использовать двигатели судна, чтобы перемещаться по нему.приземлиться между желтыми флагами, гарантируя, что инерция спускаемого аппарата достаточно замедлена, чтобы не вызвать его падение.Возможные действия: ничего не делать, использовать левое подруливающее устройство, использовать правое подруливающее устройство, использовать основное центральное подруливающее устройство.Использование основного движителя влечет за собой небольшое отрицательное вознаграждение.Посадка без сбоев дает большую награду, а посадка между флагами также обеспечивает большую награду.Сбой дает большое отрицательное вознаграждение.Агент воспринимает состояние как комбинацию следующих параметров: координаты x и y спускаемого аппарата, а также его скорость x и y, вращение, угловая скорость и простые двоичные значения для каждой ветвичтобы определить, касается ли он земли.Рассмотрим все возможные состояния, с которыми агент может столкнуться при различных комбинациях этих параметров;пространство состояний этого MDP огромно по сравнению с крестиками-ноликами.Агенту потребовалось бы слишком много времени, чтобы испытать достаточно эпизодов, чтобы надежно управлять посадочным аппаратом.Пространство состояний, предоставляемое средой Lunar Lander, слишком велико для традиционного Q-обучения, чтобы эффективно решить его за разумное время, но с некоторыми корректировками (в форме «глубокого» Q-обучения) агенту действительно возможночтобы успешно перемещаться по среде на регулярной основе в течение разумного промежутка времени.

Как подробно описано в документе DeepMind, с которым вы ссылаетесь, Deep Q-learning основана на подходе Tesauro TD-Gammon, который аппроксимирует функцию значения изинформация, полученная, когда агент взаимодействует с окружающей средой.Одно из основных отличий состоит в том, что вместо постоянного обновления функции значения события эпизода обрабатываются в фиксированных наборах или партиях.После завершения эпизода самый старый эпизод удаляется из набора, а самый последний эпизод помещается в набор.Это помогает алгоритму более эффективно исследовать среду, поскольку он пытается предотвратить петли обратной связи.Такое использование пакетирования называется «повторением опыта». Оно также более эффективно, поскольку изучение пар последовательных состояний может привести к неточностям из-за того, насколько тесно связаны эти два состояния.

TL; DR: Когда пространство состояния-действия настолько велико, что регулярное Q-обучение может занять слишком много времени, чтобы сойтись, обучение с глубоким подкреплением может быть жизнеспособной альтернативой из-за использования функции приближения функций.

...