Как я могу применить усиленное обучение к пространствам непрерывных действий? - PullRequest
22 голосов
/ 17 августа 2011

Я пытаюсь заставить агента учить движения мыши, необходимые для наилучшего выполнения какой-либо задачи в условиях обучения с подкреплением (т. Е. Сигнал вознаграждения является единственной обратной связью для обучения).

Я надеюсьиспользовать технику Q-обучения, но хотя я нашел способ распространить этот метод на пространства непрерывных состояний , я не могу понять, как решить проблему с пространством непрерывных действий.

Я мог бы просто заставить все движения мыши быть определенной величины и только в определенном количестве различных направлений, но любой разумный способ сделать действия дискретными привел бы к огромному пространству действия.Поскольку стандартное Q-обучение требует, чтобы агент оценил всех возможных действий, такое приближение не решает проблему в практическом смысле.

Ответы [ 6 ]

14 голосов
/ 05 августа 2016

Перенесемся в этот год, ребята из DeepMind предлагают метод изучения и критики актеров с глубоким подкреплением для работы с и непрерывным состоянием и пространством действия.Он основан на методике, называемой детерминированным политическим градиентом.См. Статью Непрерывный контроль с углубленным изучением подкрепления и некоторые реализации .

10 голосов
/ 18 августа 2011

Существует множество способов расширить обучающее обучение на непрерывные действия. Одним из способов является использование методов актер-критик. Другой способ - использовать методы градиента политики.

Довольно подробное объяснение различных методов можно найти в следующей статье, которая доступна онлайн: Обучение усилению в непрерывном пространстве состояний и действий (Хадо ван Хасселт и Марко А. Виринг).

8 голосов
/ 18 августа 2011

Обычный способ решения этой проблемы - методы критики актера . Они естественным образом распространяются на пространства непрерывного действия. Базовое Q-обучение может расходиться при работе с аппроксимациями, однако, если вы все еще хотите использовать его, вы можете попробовать объединить его с самоорганизующейся картой, как это сделано в "Применение самоорганизующейся карты к обучению с подкреплением «. В документе также содержатся некоторые дополнительные ссылки, которые могут оказаться полезными.

4 голосов
/ 18 августа 2011

Для того, что вы делаете, я не верю, что вам нужно работать в пространстве непрерывного действия. Хотя физическая мышь движется в непрерывном пространстве, внутри курсор перемещается только дискретными шагами (обычно на уровнях пикселей), поэтому достижение какой-либо точности выше этого порога, похоже, не повлияет на производительность вашего агента. Пространство состояний все еще довольно велико, но оно конечно и дискретно.

1 голос
/ 24 июня 2018

Я знаю, что этот пост несколько устарел, но в 2016 году был предложен вариант Q-обучения, применяемый к пространствам непрерывных действий, в качестве альтернативы методам актера-критика. Это называется нормализованные функции преимущества (NAF). Вот статья: Непрерывное глубокое Q-обучение с ускорением на основе модели

0 голосов
/ 09 июля 2019

Еще одним документом для создания списка из школы, основанной на значениях, является Входные выпуклые нейронные сети .Идея состоит в том, чтобы требовать, чтобы Q (s, a) были выпуклыми в действиях (не обязательно в состояниях).Затем решение вывода Q argmax сводится к нахождению глобального оптимума с использованием выпуклости, намного быстрее, чем исчерпывающая развертка, и проще в реализации, чем другие подходы, основанные на значениях.Тем не менее, вероятно, за счет меньшей мощности представления, чем обычные прямые или сверточные нейронные сети.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...