Максимальные значения Q в практическом сценарии? - PullRequest
1 голос
/ 06 марта 2020

Q-learning очень прост в реализации и может легко применяться для изучения и решения различных сред или игр. Но по мере усложнения состояний увеличиваться и нет. возможных действий увеличивается, практичность Q-обучения снижается.

Предположим, у меня есть игра (давайте возьмем в качестве примера управление автомобилем в GTA), для которой я передаю состояния в виде предварительно обработанных кадров и прошу их предпринять некоторые действия. Но здесь возникают две проблемы: -

  1. Нет. значений Q увеличиваются, поскольку существует множество уникальных состояний с соответствующими «высокими» действиями вознаграждения.
  2. Значения состояний также будут состоять из значительного массива, поскольку все они представляют собой значения пикселей, поэтому они становятся очень громоздкими.

Таким образом, если мы столкнемся с несколькими Q-значениями и большими значениями 'состояния', то агенту потребуется некоторое время, чтобы сравнить, в каком состоянии он находится, а затем принять действие, с помощью которого мы бы перешли в новое состояние (скорость является очень важным фактором в этом)

Итак, как бы мы решили этот сценарий? Я думаю мы можем использовать, возможно, Монте-Карло для этого, но это также может занять время. Так есть ли другое решение / алгоритм для его решения? Или я действительно могу использовать Q-learning в этом сценарии? Или, может быть, я просто должен получить оперативную память DDR5 и назвать это день? Прямо сейчас я на DDR3;)

Любая помощь или руководство?

1 Ответ

1 голос
/ 06 марта 2020

Поскольку вы имеете дело с большим количеством состояний в вашей среде, вероятно, вам следует рассмотреть возможность использования какого-либо приближения функции вместо использования табличного представления для Q-значений.

Во многих реальных проблемах сохранение всех значений Q в таблице нецелесообразно по нескольким причинам. Из книги Саттона и Барто :

Проблема заключается не только в памяти, необходимой для больших таблиц, но в времени и данных, необходимых для их точного заполнения. Другими словами, ключевым вопросом является проблема обобщения. [...] Аппроксимация функций является примером контролируемого обучения, основной темы c, изучаемой в области машинного обучения, искусственных нейронных сетей, распознавания образов и статистического подбора кривой. В принципе, любой из методов, изученных в этих областях, может быть использован в обучении с подкреплением, как описано в этой главе.

В этом случае Q-learning не так прост в реализации, хотя принципы работы остаются теми же.

...