Q-learning очень прост в реализации и может легко применяться для изучения и решения различных сред или игр. Но по мере усложнения состояний увеличиваться и нет. возможных действий увеличивается, практичность Q-обучения снижается.
Предположим, у меня есть игра (давайте возьмем в качестве примера управление автомобилем в GTA), для которой я передаю состояния в виде предварительно обработанных кадров и прошу их предпринять некоторые действия. Но здесь возникают две проблемы: -
- Нет. значений Q увеличиваются, поскольку существует множество уникальных состояний с соответствующими «высокими» действиями вознаграждения.
- Значения состояний также будут состоять из значительного массива, поскольку все они представляют собой значения пикселей, поэтому они становятся очень громоздкими.
Таким образом, если мы столкнемся с несколькими Q-значениями и большими значениями 'состояния', то агенту потребуется некоторое время, чтобы сравнить, в каком состоянии он находится, а затем принять действие, с помощью которого мы бы перешли в новое состояние (скорость является очень важным фактором в этом)
Итак, как бы мы решили этот сценарий? Я думаю мы можем использовать, возможно, Монте-Карло для этого, но это также может занять время. Так есть ли другое решение / алгоритм для его решения? Или я действительно могу использовать Q-learning в этом сценарии? Или, может быть, я просто должен получить оперативную память DDR5 и назвать это день? Прямо сейчас я на DDR3;)
Любая помощь или руководство?