Укрепление обучения для непрерывного состояния и пространства действия - PullRequest
0 голосов
/ 05 января 2019

Задача

Моя цель - применить Reinforcement Learning для прогнозирования следующего состояния объекта под действием известной силы в трехмерной среде (этот подход сводится к контролируемому обучению, автономному обучению).

Подробности моего подхода

Текущее состояние - это вектор, представляющий положение объекта в среде (3 измерения) и скорость объекта (3 измерения). Начальная позиция случайным образом инициализируется в окружающей среде, а также начальная скорость.

Действие - это вектор, представляющий движение из состояния t в состояние t + 1 .

Награда - это просто евклидово расстояние между предсказанным следующим состоянием и реальным следующим состоянием (у меня уже есть целевая позиция).

Что я уже сделал?

Я искал много способов сделать это. Глубокие детерминированные градиенты политики работает для пространства непрерывных действий, но в моем случае у меня также есть пространство непрерывных состояний. Если вы заинтересованы в этом подходе, вот оригинальная статья, написанная на DeepMind: http://proceedings.mlr.press/v32/silver14.pdf

Подход Actor-Critic должен работать, но обычно (или всегда) применяется к дискретному и низкоразмерному пространству состояний.

Q-Learning и Deep-Q Learning не может работать с пространством состояний высокой размерности, поэтому моя конфигурация не будет работать даже при дискретизации пространства состояний.

Обучение обратному подкреплению (пример имитационного обучения, с Поведенческим клонированием и Прямое обучение по политике ) приближает функцию вознаграждения, когда поиск функции вознаграждения больше сложнее, чем найти функцию политики. Интересный подход, но я не видел никакой реализации, и в моем случае функция вознаграждения довольно проста. Есть ли методология для работы с моей конфигурацией, которую я не исследовал?

Ответы [ 2 ]

0 голосов
/ 07 января 2019

В вашем вопросе, я полагаю, может быть много путаницы и заблуждений.

  1. Во-первых, глубокий детерминистический градиент политики (DDPG) может определенно обрабатывать непрерывные состояния и действия. И это так известно только благодаря этому. Кроме того, это первая стабильная архитектура, которая сделала это. Кроме того, документ, на который вы ссылаетесь, на самом деле является DPG, а не DDPG. Тем не менее, DDPG и DPG могут обрабатывать непрерывные состояния и действия, но последнее гораздо более нестабильно. На самом деле этот документ опубликован моим «старшим» в UofA. Вот ссылка на DDPG: https://arxiv.org/pdf/1509.02971.pdf.

  2. Актер-критик RL - это не алгоритм, а семейство алгоритмов RL, в которых актер отображает состояния в действия, а критик «предварительно обрабатывает» сигнал обратной связи, чтобы актер мог его более эффективно изучить. , DDPG является примером установки актера-критика. В DDPG DQN используется в качестве критика для предварительной обработки сигналов обратной связи для детерминированного градиента политики (субъект).

  3. Q-обучение и глубокое Q-обучение также являются семейством алгоритмов RL. Q-обучение, конечно, не может обрабатывать пространства с высоким состоянием, учитывая недостаточную вычислительную мощность, однако, глубокое Q-обучение, безусловно, может. Примером является Deep Q-network.

Вернуться к исходному вопросу.

Я почти гарантирую, что вы сможете решить свою проблему с помощью DDPG. Фактически, DDPG по-прежнему является единственным алгоритмом, который можно использовать для управления агентом в непрерывном состоянии, в пространстве непрерывных действий.

Другой метод, который может это сделать, называется оптимизацией политики области доверия (TRPO). Он разработан командой UC Bekelery (вместе с OpenAI?). Фундаментальная структура TRPO и DDPG идентична (оба актер-критик), однако, обучение отличается. DDPG использует подход целевой сети, чтобы гарантировать конвергенцию и стабильность, в то время как TRPO накладывает ограничение расхождения Kullerback-Leibler на обновление сетей, чтобы гарантировать, что каждое обновление сети не слишком велико (т.е. оптимальная политика сети при t не слишком отличается из т - 1). TRPO чрезвычайно сложно кодировать, поэтому OpenAI опубликовал еще одну статью под названием Proximal Policy Gradient (PPO). Этот метод похож на TRPO, но проще в реализации.

Короче говоря, я бы порекомендовал попробовать DDPG, потому что если ваша задача проста, как вы говорите, DDPG определенно будет работать.

0 голосов
/ 06 января 2019

Похоже, это может быть хорошей бумагой для просмотра. Если пространство действий не дискретизировано, то трудно определить или выбрать действие из огромного пространства непрерывных состояний. Когда пространство действия дискретизируется, это может привести к значительной потере информации. Представленный алгоритм начинается с действий, инициализированных политикой сети в дискретизированном пространстве. Затем он исследует и оценивает действия с сетью значений, используя верхнюю доверительную границу (UCB) в непрерывном пространстве.

Есть пара других статей, на которые стоит обратить внимание, однако вышеупомянутая статья является самой последней. Надеюсь, это поможет.

...