Позвольте мне сначала прокомментировать пару концепций, пытающихся дать вам дальнейшие направления исследований в соответствии с вашими комментариями:
- Вероятно, термин "прогноз" не подходит для описания проблем, решаемых с помощью обучения с подкреплением.,В некотором смысле RL необходимо выполнить внутренний процесс прогнозирования, чтобы выбрать лучшие действия в долгосрочной перспективе.Но решенная проблема - агент, выбирающий действия в окружающей среде.Итак, если ваша проблема - это проблема прогноза, возможно, другие методы больше подходят, чем RL.
- Между табличными методами и глубоким Q-обучением существует множество других методов, которые, возможно, более подходят для вашей проблемы.Возможно, они менее мощные, но простые в использовании (более стабильные, менее настраиваемые и т. Д.). Вы можете комбинировать Q-обучение с другими приближениями функций (проще, чем глубокая нейронная сеть).В общем, лучший выбор - самый простой, способный решить проблему.
- Я не знаю, как смоделировать проблему человеческой деятельности с видением от первого лица.На самом деле, я не совсем понимаю настройку проблемы.
А что касается исходного вопроса о применении RL без доступа к моделируемой среде, как я уже говорил в комментариях, если у вас есть достаточно данных, вы, вероятно, могли бы применить алгоритм RL.Я предполагаю, что вы можете хранить данные из вашей среды, но вы не можете легко взаимодействовать с ними.Это типично, например, в медицинских областях, где существует много данных о [статусе пациента, лечении, статусе следующего пациента], но вы не можете взаимодействовать с пациентами, применяя случайное лечение.В этой ситуации необходимо принять во внимание некоторые факты:
- Методы RL обычно потребляют очень большое количество данных.Это особенно верно в сочетании с глубокими сетями.Сколько данных необходимо, полностью зависит от проблемы, но будьте готовы хранить миллионы кортежей [состояние, действие, следующее состояние], если ваша среда сложна.
- Сохраненные кортежи следует собирать с помощью политики, котораясодержит некоторые исследовательские действия.Алгоритм RL попытается найти наилучшие возможные действия среди тех, которые содержатся в данных.Если агент может взаимодействовать с окружающей средой, он должен выбрать исследовательские действия, чтобы найти лучшее.Точно так же, если агент не может взаимодействовать и вместо этого данные собираются заранее, эти данные также должны содержать исследовательские действия.Документы Итерация Q с нейронной подгонкой - первые опыты с эффективным методом обучения нейронному усилению данных и Изучение на основе дерева в пакетном режиме может помочь понять эти концепции.