Разъяснение проблемы
N = 10 актеров
O = 50 объектов
L = 1K местоположений
S = 50 функций
Насколько я понимаю, у вас есть склад с N актерами, O объектами, L локациями и некоторыми стенами. Цель состоит в том, чтобы убедиться, что каждый из объектов O окажется в любом из L местоположений за наименьшее количество времени. Пространство действий состоит из решений о том, какой субъект должен перемещать какой объект в какое место в любой момент времени. Пространство состояний состоит из примерно 50-мерных факторов окружающей среды , которые включают такие особенности, как близость актеров и объектов к стенам и друг к другу. Итак, на первый взгляд, у вас есть X S (OL) N значений действий, причем большинство измерений действий дискретны.
Сложившаяся проблема не является хорошим кандидатом для обучения с подкреплением. Тем не менее, неясно, что на самом деле представляют собой факторы окружающей среды, и сколько ограничений являются добровольными. Итак, давайте посмотрим на связанную, но другую проблему.
Решение другой проблемы
Мы смотрим на одного актера. Скажем, он знает свою собственную позицию на складе, позиции остальных 9 актеров, позиции 50 объектов и 1000 локаций. Он хочет получить максимальное вознаграждение, которое происходит, когда каждый из 50 объектов находится в одном из 1000 мест.
Предположим, у нас есть P-мерное представление позиции на складе. Каждая позиция может быть занята действующим субъектом, одним из других действующих лиц, объектом или локацией. Действие состоит в том, чтобы выбрать объект и местоположение. Следовательно, у нас есть 4 P -мерное пространство состояний и P 2 -мерное пространство действия. Другими словами, у нас есть 4 P P 2 -мерная функция значения. Продолжая экспериментировать с представлением, используя кодирование с различной точностью для различных параметров и используя options 2 , можно было бы перенести проблему в практическую сферу.
В качестве примеров обучения в сложных пространственных условиях я бы порекомендовал прочитать статьи Конидариса 1 и 2 .
1 Konidaris, G., Osentoski, S. & Thomas, P., 2008. Аппроксимация функции значения в обучении подкреплению с использованием базы Фурье. Факультет компьютерных наук Публикация Серия , стр.101.
2 Konidaris, G. & Barto, A., 2009. Обнаружение навыков в областях непрерывного обучения с использованием навыков. Y. Bengio et al., Eds. Достижения в нейронных системах обработки информации, 18, стр.1015-1023.