Мне интересно использовать Deep Reinforcement Learning, чтобы найти - уникальный - оптимальный путь домой среди (слишком многих) возможностей и нескольких (обязательных) промежуточных остановок (например, купить кофе или заправиться топливом).
Кроме того, я хочу применить это в случаях, когда агент не знает «модель» среды, и агент не может попробовать все возможные комбинации состояний и действий вообще.Т.е. необходимо использовать методы аппроксимации в функции Q-значения (и / или политике).
Я читал о методах для рассмотрения таких случаев, как это - где вознаграждения, если таковые имеются, являются редкими и двоичными - как Монте-КарлоПоиск по дереву (который, как я понимаю, подразумевает какое-то моделирование и планирование) или Hindsight Experience Replay (HER) с применением идей DDPG.
Но есть так много разных типов алгоритмов, которые я должен рассмотреть,Я немного запутался, что лучше всего начать с.Я знаю, что это сложная проблема, и, может быть, слишком наивно спрашивать об этом, но есть ли какой-нибудь ясный, прямой и известный нам способ решения проблемы, с которой я хочу столкнуться?
Спасибо большое!
Матиас