Усиление обучения в произвольно больших пространствах действия / состояния - PullRequest
2 голосов
/ 13 марта 2019

Мне интересно использовать Deep Reinforcement Learning, чтобы найти - уникальный - оптимальный путь домой среди (слишком многих) возможностей и нескольких (обязательных) промежуточных остановок (например, купить кофе или заправиться топливом).

Кроме того, я хочу применить это в случаях, когда агент не знает «модель» среды, и агент не может попробовать все возможные комбинации состояний и действий вообще.Т.е. необходимо использовать методы аппроксимации в функции Q-значения (и / или политике).

Я читал о методах для рассмотрения таких случаев, как это - где вознаграждения, если таковые имеются, являются редкими и двоичными - как Монте-КарлоПоиск по дереву (который, как я понимаю, подразумевает какое-то моделирование и планирование) или Hindsight Experience Replay (HER) с применением идей DDPG.

Но есть так много разных типов алгоритмов, которые я должен рассмотреть,Я немного запутался, что лучше всего начать с.Я знаю, что это сложная проблема, и, может быть, слишком наивно спрашивать об этом, но есть ли какой-нибудь ясный, прямой и известный нам способ решения проблемы, с которой я хочу столкнуться?

Спасибо большое!

Матиас

1 Ответ

0 голосов
/ 30 мая 2019

Если конечный пункт назначения фиксирован, как в этом случае (дома), вы можете перейти к динамическому поиску , так как * не будет работать из-за изменяемой среды.А если вы хотите использовать алгоритм глубокого обучения, тогда переходите к a3c с повторением опыта из-за большого пространства действий / состояний. Он способен обрабатывать сложные проблемы.

...