Q-learning - это метод обучения с подкреплением без модели, впервые задокументированный в 1989 году. Он является «безмодельным» в том смысле, что агент не пытается моделировать свою среду.Он приходит к политике, основанной на Q-таблице, в которой хранится результат выполнения каких-либо действий из заданного состояния.Когда агент находится в состоянии s
, он ссылается на Q-таблицу для состояния и выбирает действие с наивысшим ассоциированным вознаграждением.Чтобы агент достиг оптимальной политики, он должен сбалансировать исследование всех доступных действий для всех состояний с использованием того, что в Q-таблице является оптимальным действием для данного состояния.Если агент всегда выбирает случайное действие, он никогда не достигнет оптимальной политики;аналогично, если агент всегда выбирает действие с наибольшим предполагаемым вознаграждением, он может прийти к неоптимальной политике, поскольку некоторые пары состояния-действия могут быть не полностью изучены.
При наличии достаточного времени Q-learningможет в конечном итоге найти оптимальную политику π для любого конечного процесса решения Маркова (MDP).В примере простой игры в крестики-нолики общее количество разрозненных игровых состояний составляет менее 6000.Это может звучать как большое число, но рассмотрим простую игровую среду в среде OpenAI gym , известную как «Лунный корабль».
Цель состоит в том, чтобы использовать двигатели судна, чтобы перемещаться по нему.приземлиться между желтыми флагами, гарантируя, что инерция спускаемого аппарата достаточно замедлена, чтобы не вызвать его падение.Возможные действия: ничего не делать, использовать левое подруливающее устройство, использовать правое подруливающее устройство, использовать основное центральное подруливающее устройство.Использование основного движителя влечет за собой небольшое отрицательное вознаграждение.Посадка без сбоев дает большую награду, а посадка между флагами также обеспечивает большую награду.Сбой дает большое отрицательное вознаграждение.Агент воспринимает состояние как комбинацию следующих параметров: координаты x
и y
спускаемого аппарата, а также его скорость x
и y
, вращение, угловая скорость и простые двоичные значения для каждой ветвичтобы определить, касается ли он земли.Рассмотрим все возможные состояния, с которыми агент может столкнуться при различных комбинациях этих параметров;пространство состояний этого MDP огромно по сравнению с крестиками-ноликами.Агенту потребовалось бы слишком много времени, чтобы испытать достаточно эпизодов, чтобы надежно управлять посадочным аппаратом.Пространство состояний, предоставляемое средой Lunar Lander, слишком велико для традиционного Q-обучения, чтобы эффективно решить его за разумное время, но с некоторыми корректировками (в форме «глубокого» Q-обучения) агенту действительно возможночтобы успешно перемещаться по среде на регулярной основе в течение разумного промежутка времени.
Как подробно описано в документе DeepMind, с которым вы ссылаетесь, Deep Q-learning основана на подходе Tesauro TD-Gammon, который аппроксимирует функцию значения изинформация, полученная, когда агент взаимодействует с окружающей средой.Одно из основных отличий состоит в том, что вместо постоянного обновления функции значения события эпизода обрабатываются в фиксированных наборах или партиях.После завершения эпизода самый старый эпизод удаляется из набора, а самый последний эпизод помещается в набор.Это помогает алгоритму более эффективно исследовать среду, поскольку он пытается предотвратить петли обратной связи.Такое использование пакетирования называется «повторением опыта». Оно также более эффективно, поскольку изучение пар последовательных состояний может привести к неточностям из-за того, насколько тесно связаны эти два состояния.
TL; DR: Когда пространство состояния-действия настолько велико, что регулярное Q-обучение может занять слишком много времени, чтобы сойтись, обучение с глубоким подкреплением может быть жизнеспособной альтернативой из-за использования функции приближения функций.