Применимо ли обучение подкреплению к СЛУЧАЙНОЙ среде? - PullRequest
0 голосов
/ 10 октября 2018

У меня есть фундаментальный вопрос о применимости обучения с подкреплением (RL) к проблеме, которую мы пытаемся решить.

Мы пытаемся использовать RL для управления запасами - гдеспрос полностью случайный (он, вероятно, имеет закономерность в реальной жизни, но сейчас давайте предположим, что мы были вынуждены рассматривать его как чисто случайный).

Как я понимаю, RL может помочь научиться играть в игру (скажем, в шахматы) или помочь роботу научиться ходить. Но во всех играх есть правила , как и в случае с «полюсом телеги» (в OpenAI Gym) - существуют правила «физики», которые определяют, когда упадет и упадет полюс телеги.над.

Для нашей проблемы нет никаких правил - среда меняется случайным образом (спрос на продукт).

Действительно ли RL действительно применима к таким ситуациям?

Если это так -тогда что улучшит производительность?

Более подробная информация: - Единственные два стимула, доступные из «среды», - это доступный в настоящее время уровень продукта «X» и текущий спрос «Y» - И «действие»является двоичным - я должен заказать количество «Q» для пополнения или нет (дискретное пространство действия).- Мы используем DQN и оптимизатор Adam.

Наши результаты неудовлетворительны - я признаю, что я тренировался только около 5000 или 10000 - я должен позволить ему тренироваться в течение нескольких дней, потому что это случайная среда?

спасибо Раджеш

Ответы [ 2 ]

0 голосов
/ 14 октября 2018

Случайность может быть обработана путем замены одного среднего результата вознаграждения на распределение с возможными значениями.Благодаря введению нового правила обучения, отражающего переход от (среднего) уравнения Беллмана к его распределенному аналогу, подход распределения значений смог превзойти эффективность всех других сопоставимых подходов.

https://deepmind.com/blog/going-beyond-average-reinforcement-learning/

0 голосов
/ 11 октября 2018

Вы говорите случайное в смысле нестационарного, так что нет, RL здесь не самый лучший.

Обучение усилению предполагает, что ваша среда неподвижна.Распределение вероятностей в вашей среде (как функция перехода, так и функция вознаграждения) должно поддерживаться постоянным на протяжении всего взаимодействия.

Конечно, RL и DRL могут иметь дело с некоторыми проблемами, которые немного нестационарны, но с этим трудно справиться.Марковские процессы принятия решений (MDP) и частично наблюдаемые MDP предполагают стационарность.Поэтому алгоритмам, основанным на значениях, которые специализируются на использовании MDP-подобных сред, таких как SARSA, Q-learning, DQN, DDQN, Dueling DQN и т. Д., Будет трудно изучать что-либо в нестационарных средах.Чем больше вы переходите на алгоритмы, основанные на политике, такие как PPO, TRPO или даже лучше без градиента, такие как GA, CEM и т. Д., Тем больше у вас шансов, поскольку эти алгоритмы не пытаются использовать это предположение.

Лучше всего перейти на методы оптимизации черного ящика, такие как генетические алгоритмы и т. Д.

...