Усиление изучения политики для нескольких субъектов в больших государственных пространствах - PullRequest
3 голосов
/ 24 января 2012

У меня есть область реального времени, где мне нужно назначить действие N акторам, включающее перемещение одного из O объектов в одно из L местоположений. На каждом временном шаге мне дают награду R, что указывает на общий успех всех актеров.

У меня есть 10 актеров, 50 уникальных объектов и 1000 локаций, поэтому для каждого актера мне нужно выбрать из 500000 возможных действий. Кроме того, я могу принять во внимание 50 факторов окружающей среды, например, насколько близко каждый объект находится к стене или как близко он находится от актера. В результате получается 25000000 потенциальных действий на каждого актера .

Почти все алгоритмы обучения с подкреплением не подходят для этой области.

Во-первых, почти все они включают оценку ожидаемой полезности каждого действия в данном состоянии. Мое пространство состояний огромно, поэтому потребуется время, чтобы объединить политику с использованием чего-то столь же примитивного, как Q-learning, даже если бы я использовал приближение функций. Даже если бы я мог, это заняло бы слишком много времени, чтобы найти лучшее действие из миллиона действий в каждом временном шаге.

Во-вторых, большинство алгоритмов предполагают одну награду на каждого актера, тогда как награда, которую я получаю, может быть загрязнена ошибками одного или нескольких актеров.

Как мне подойти к этой проблеме? Я не нашел никакого кода для таких областей, как эта, и несколько академических статей, которые я нашел по алгоритмам обучения с многофакторным подкреплением, не дают достаточно подробных сведений для воспроизведения предложенного алгоритма.

1 Ответ

4 голосов
/ 25 января 2012

Разъяснение проблемы

N = 10 актеров
O = 50 объектов
L = 1K местоположений
S = 50 функций

Насколько я понимаю, у вас есть склад с N актерами, O объектами, L локациями и некоторыми стенами. Цель состоит в том, чтобы убедиться, что каждый из объектов O окажется в любом из L местоположений за наименьшее количество времени. Пространство действий состоит из решений о том, какой субъект должен перемещать какой объект в какое место в любой момент времени. Пространство состояний состоит из примерно 50-мерных факторов окружающей среды , которые включают такие особенности, как близость актеров и объектов к стенам и друг к другу. Итак, на первый взгляд, у вас есть X S (OL) N значений действий, причем большинство измерений действий дискретны.

Сложившаяся проблема не является хорошим кандидатом для обучения с подкреплением. Тем не менее, неясно, что на самом деле представляют собой факторы окружающей среды, и сколько ограничений являются добровольными. Итак, давайте посмотрим на связанную, но другую проблему.

Решение другой проблемы

Мы смотрим на одного актера. Скажем, он знает свою собственную позицию на складе, позиции остальных 9 актеров, позиции 50 объектов и 1000 локаций. Он хочет получить максимальное вознаграждение, которое происходит, когда каждый из 50 объектов находится в одном из 1000 мест.

Предположим, у нас есть P-мерное представление позиции на складе. Каждая позиция может быть занята действующим субъектом, одним из других действующих лиц, объектом или локацией. Действие состоит в том, чтобы выбрать объект и местоположение. Следовательно, у нас есть 4 P -мерное пространство состояний и P 2 -мерное пространство действия. Другими словами, у нас есть 4 P P 2 -мерная функция значения. Продолжая экспериментировать с представлением, используя кодирование с различной точностью для различных параметров и используя options 2 , можно было бы перенести проблему в практическую сферу.

В качестве примеров обучения в сложных пространственных условиях я бы порекомендовал прочитать статьи Конидариса 1 и 2 .


1 Konidaris, G., Osentoski, S. & Thomas, P., 2008. Аппроксимация функции значения в обучении подкреплению с использованием базы Фурье. Факультет компьютерных наук Публикация Серия , стр.101.

2 Konidaris, G. & Barto, A., 2009. Обнаружение навыков в областях непрерывного обучения с использованием навыков. Y. Bengio et al., Eds. Достижения в нейронных системах обработки информации, 18, стр.1015-1023.

...