Укрепление обучения, где каждый штат является конечным - PullRequest
0 голосов
/ 25 февраля 2019

Мой вопрос связан не с реализацией обучения с подкреплением, а с пониманием концепции RL, когда каждое состояние является конечным.

Я приведу пример: робот учится играть в футболстреляю.Награда - это расстояние между мячом и стойкой ворот после того, как он пробил по воротам.Состояние - это массив из множества элементов, а действие - это массив с трехмерной силой.

Если мы рассматривали эпизодические RL, я чувствую, что подход не имеет смысла.Действительно, робот стреляет, и выдается награда: каждый эпизод является последним эпизодом.Не имеет смысла передавать следующее состояние в систему, так как алгоритм не заботится об этом, чтобы оптимизировать вознаграждение - в этом случае я бы использовал подход Actor-Critic для обработки непрерывного состояния и пространства действий.Кто-то может возразить, что другой контролируемый подход к обучению, такой как глубокая нейронная сеть, может работать лучше.Но я не уверен, так как в этом случае алгоритм не сможет достичь хороших результатов с вводом, далеким от тренировочного набора.Насколько я видел, RL способен лучше обобщать для этого контекста.

Вопрос в том, является ли RL допустимой методологией для этой проблемы, и как в этом случае управляются состояния терминала?Вам известны подобные примеры в литературе?

Ответы [ 3 ]

0 голосов
/ 27 февраля 2019

В эпизодическом RL следующего состояния нет, это просто оптимизация черного ящика (BB).Ваш случай контекстуальный BB, поскольку у вас также есть состояние (позиция мяча, я думаю).Вы можете использовать градиент политики (например, NES или PGPE ), поиск политики ( здесь - хороший опрос), эволюционный ( CMA-ES ) или гибрид.Они отличаются тем, как выполняется обновление, но все они не зависят от награды, то есть они не знают функцию вознаграждения, а просто получают значения вознаграждения.

Все они используют один и тот же подход:

  • У вас есть начальная политика (также называемая поисковым распространением),
  • Просмотрите функции и отправьте их в политику, которая даст вам «действие» (в вашем случае: нарисуйте параметры управления изробот, затем стреляйте),
  • См. награду,
  • Повторяйте и собирайте данные (features, action, reward),
  • Обновляйте политику, пока не изучите контроллер робота, способный всегдаударить по мячу в любой позиции.

РЕДАКТИРОВАТЬ

Поскольку у вас нет следующего состояния, ваша проблема в некотором роде является проблемой регрессии, но вы неНе знаю оптимальной цели (оптимальное действие = оптимальный контроллер робота).Вместо этого вы рисуете какую-то цель и медленно подходите к лучшим (медленно, как с градиентным спуском, потому что могут быть и лучшие, которые вам еще предстоит исследовать).

0 голосов
/ 04 марта 2019

Если я правильно понял ваш вопрос, описываемая вами проблема известна в литературе как Контекстуальные бандиты .В таком случае у вас есть набор состояний, и агент получает вознаграждение после выполнения одного действия.Эти проблемы тесно связаны с обучением с подкреплением, но у них есть некоторые особенности, которые используются для разработки конкретных алгоритмов.

На следующем рисунке, извлеченном из статьи Артура Джулиани , показано основное отличиемежду многоруким бандитом, контекстуальным бандитом и проблемами в обучении подкреплению:

enter image description here

0 голосов
/ 25 февраля 2019

Усиление обучения решает проблему, которой у вас нет

Основная трудность, на которую нацелены подходы RL, касается присуждения вознаграждения за гораздо более ранние действия, выяснения способов, как справиться с (распространенным) осложнением, когда нетявный отзыв о том, что (и когда) вы сделали правильно или неправильно.У вас нет этой проблемы - у вас есть немедленное вознаграждение, которое напрямую связано с действием.

Базовые подходы к обучению под наблюдением хорошо бы с этим справились, и нет никаких причин использовать «механизм» обучения с подкреплением.

...