Награды в Q-Learning и в TD (лямбда) - PullRequest
1 голос
/ 10 января 2012

Как работают награды в этих двух техниках RL?Я имею в виду, они оба улучшают политику и ее оценку, но не вознаграждение.Как мне угадать их с самого начала?

Ответы [ 2 ]

0 голосов
/ 20 октября 2013

Укрепление обучения предназначено для задач, в которых агент ИИ не имеет информации о мире, в котором он работает. Поэтому алгоритмы обучения Укреплению не только дают вам стратегию / оптимальные действия в каждом состоянии, но и ориентируются в совершенно чужой среде (без знать о том, какое действие приведет к тому или иному состоянию результата), и узнать параметры этой новой среды. Это алгоритм обучения на основе модели

Теперь Q Learning и Temporal разностное обучение являются алгоритмами обучения без подкрепления модели. Это означает, что агент ИИ делает то же самое, что и в алгоритме на основе моделей, но ему не нужно изучать модель (такие как вероятности переходов) мира, в котором он работает. На протяжении многих итераций он создает отображение каждого состояния к оптимальному действию, которое будет выполнено в этом состоянии.

Теперь, перейдя к вашему вопросу, вам не нужно угадывать награды в разных штатах. Первоначально, когда агент является новичком в среде, он просто выбирает случайное действие для выполнения из состояния, в котором он находится, и передает его симулятору. Симулятор, основанный на функциях перехода, возвращает состояние результата этой пары действий состояния, а также возвращает вознаграждение за нахождение в этом состоянии.

Симулятор аналогичен Природе в реальном мире. Например, вы находите что-то незнакомое в мире, вы выполняете какое-то действие, например касаетесь его, если вещь оказывается горячим объектом. Природа дает вознаграждение в виде боли, так что в следующий раз вы узнаете, что происходит, когда вы попробуйте это действие. При программировании этого важно отметить, что работа симулятора не видна агенту ИИ, который пытается изучить окружающую среду.

Теперь, в зависимости от этой награды, которую чувствует агент, он резервирует свое Q-значение (в случае Q-Learning) или служебное значение (в случае TD-Learning). На многих итерациях эти Q-значения сходятся, и вы можете выбрать оптимальное действие для каждого состояния в зависимости от Q-значения пар состояние-действие.

0 голосов
/ 22 марта 2013

Вам не нужно угадывать награды.Награда - это обратная связь с окружающей средой, а награда - это параметры окружающей среды.Алгоритм работает при условии, что агент может наблюдать только обратную связь, пространство состояний и пространство действий.

Ключевой идеей Q-learning и TD является асинхронная стохастическая аппроксимация, в которой мы приближаем фиксированную точку оператора Беллмана, используя шумные оценки ожидания долгосрочного вознаграждения.

Например, если мы хотим оценить гауссовское распределение ожиданий, мы можем выбрать и усреднить его.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...