У меня есть фундаментальный вопрос о применимости обучения с подкреплением (RL) к проблеме, которую мы пытаемся решить.
Мы пытаемся использовать RL для управления запасами - гдеспрос полностью случайный (он, вероятно, имеет закономерность в реальной жизни, но сейчас давайте предположим, что мы были вынуждены рассматривать его как чисто случайный).
Как я понимаю, RL может помочь научиться играть в игру (скажем, в шахматы) или помочь роботу научиться ходить. Но во всех играх есть правила , как и в случае с «полюсом телеги» (в OpenAI Gym) - существуют правила «физики», которые определяют, когда упадет и упадет полюс телеги.над.
Для нашей проблемы нет никаких правил - среда меняется случайным образом (спрос на продукт).
Действительно ли RL действительно применима к таким ситуациям?
Если это так -тогда что улучшит производительность?
Более подробная информация: - Единственные два стимула, доступные из «среды», - это доступный в настоящее время уровень продукта «X» и текущий спрос «Y» - И «действие»является двоичным - я должен заказать количество «Q» для пополнения или нет (дискретное пространство действия).- Мы используем DQN и оптимизатор Adam.
Наши результаты неудовлетворительны - я признаю, что я тренировался только около 5000 или 10000 - я должен позволить ему тренироваться в течение нескольких дней, потому что это случайная среда?
спасибо Раджеш