В чем разница между подкрепляющим обучением, глубоким обучением и глубоким подкрепляющим обучением? - PullRequest
0 голосов
/ 26 мая 2018

В чем разница между обучением с подкреплением, глубоким обучением и обучением с глубоким подкреплением?Где вписывается Q-learning?

Ответы [ 3 ]

0 голосов
/ 13 ноября 2018

Усиление обучения относится к окончательно-ориентированным алгоритмам, которые учатся, как достичь цели (цели) координационного соединения или максимизировать по определенному измерению за много шагов.Основная тема обучения подкреплению заключается в том, что агентская роль будет извлекать уроки из среды, взаимодействуя с ней и получая вознаграждение за выполнение действий.

Глубокое обучение использует несколько слоев нелинейных блоков обработки для извлечения признаков и преобразования

Подход глубокого обучения вводит глубокие нейронные сети для решения проблем обучения подкреплению, поэтому они называются «глубокие».

0 голосов
/ 24 июня 2019

Глубокое обучение - это метод, использующий нейронные сети для создания аппроксиматоров функций для решения различных задач.Пример: изучение функции, которая принимает изображение в качестве входных данных и выводит ограничивающие рамки объектов на изображении.

Обучение усилению - это поле, в котором у нас есть агент, и мы хотим, чтобы этот агентвыполнить задачу, то есть задачи, основанные на цели, где мы используем методы проб и ошибок обучения.Пример: агент учится переходить из одной позиции в мире сетки в целевую позицию, не попадая в лужу между ними.

Обучение с глубоким подкреплением - это способ решения задач на основе целей с использованием нейронныхсетей.Это потому, что когда мы хотим, чтобы агенты выполняли задачи в реальном мире или в текущих играх, пространство состояний очень велико.Агенту требуется очень много времени, чтобы хотя бы раз посетить каждое состояние, и мы не можем использовать справочные таблицы для хранения функций-значений.Итак, для решения этой проблемы мы используем нейронные сети для аппроксимации состояния для обобщения процесса обучения. Пример: Мы используем DQN для решения многих игр atari.

Q-learning : Это временноеметод разностного обучения, где у нас есть Q-таблица для поиска наилучшего возможного действия в текущем состоянии на основе функции Q-значения.Для изучения значений Q мы используем вознаграждение и максимально возможное значение Q следующего состояния.

Q-обучение в основном относится к обучению с подкреплением, и его аналогом глубокого обучения является сеть Deep Q.

0 голосов
/ 26 мая 2018

Усиление обучения заключается в обучении агента ориентироваться в окружающей среде, используя награды.Q-обучение является одним из основных методов обучения с подкреплением.

Глубокое обучение использует нейронные сети для достижения определенной цели, такой как распознавание букв и слов по изображениям.

Глубокое обучение с подкреплением является комбинациейиз двух, используя Q-learning в качестве основы.Но вместо использования реальных пар состояние-значение это часто используется в средах, где пространство состояния-действия настолько велико, что для схождения Q-обучения потребуется слишком много времени.Используя нейронные сети, мы можем найти другие пары состояния-действия, которые похожи.Это «приближение функции» позволяет эффективно учиться в средах с очень большими пространствами действия состояния.

...