Как применять модели глубокого подкрепления обучения, когда доступ к реальной среде затруднен? - PullRequest
0 голосов
/ 24 апреля 2018

Обучение глубокому подкреплению может быть очень полезным при применении его к реальным задачам, которые имеют высокую динамичность.Можно привести несколько примеров, таких как финансы, здравоохранение и т. Д. Но когда речь идет о таких проблемах, сложно создать имитацию среды.Итак, что можно сделать?

1 Ответ

0 голосов
/ 04 мая 2018

Позвольте мне сначала прокомментировать пару концепций, пытающихся дать вам дальнейшие направления исследований в соответствии с вашими комментариями:

  • Вероятно, термин "прогноз" не подходит для описания проблем, решаемых с помощью обучения с подкреплением.,В некотором смысле RL необходимо выполнить внутренний процесс прогнозирования, чтобы выбрать лучшие действия в долгосрочной перспективе.Но решенная проблема - агент, выбирающий действия в окружающей среде.Итак, если ваша проблема - это проблема прогноза, возможно, другие методы больше подходят, чем RL.
  • Между табличными методами и глубоким Q-обучением существует множество других методов, которые, возможно, более подходят для вашей проблемы.Возможно, они менее мощные, но простые в использовании (более стабильные, менее настраиваемые и т. Д.). Вы можете комбинировать Q-обучение с другими приближениями функций (проще, чем глубокая нейронная сеть).В общем, лучший выбор - самый простой, способный решить проблему.
  • Я не знаю, как смоделировать проблему человеческой деятельности с видением от первого лица.На самом деле, я не совсем понимаю настройку проблемы.

А что касается исходного вопроса о применении RL без доступа к моделируемой среде, как я уже говорил в комментариях, если у вас есть достаточно данных, вы, вероятно, могли бы применить алгоритм RL.Я предполагаю, что вы можете хранить данные из вашей среды, но вы не можете легко взаимодействовать с ними.Это типично, например, в медицинских областях, где существует много данных о [статусе пациента, лечении, статусе следующего пациента], но вы не можете взаимодействовать с пациентами, применяя случайное лечение.В этой ситуации необходимо принять во внимание некоторые факты:

  • Методы RL обычно потребляют очень большое количество данных.Это особенно верно в сочетании с глубокими сетями.Сколько данных необходимо, полностью зависит от проблемы, но будьте готовы хранить миллионы кортежей [состояние, действие, следующее состояние], если ваша среда сложна.
  • Сохраненные кортежи следует собирать с помощью политики, котораясодержит некоторые исследовательские действия.Алгоритм RL попытается найти наилучшие возможные действия среди тех, которые содержатся в данных.Если агент может взаимодействовать с окружающей средой, он должен выбрать исследовательские действия, чтобы найти лучшее.Точно так же, если агент не может взаимодействовать и вместо этого данные собираются заранее, эти данные также должны содержать исследовательские действия.Документы Итерация Q с нейронной подгонкой - первые опыты с эффективным методом обучения нейронному усилению данных и Изучение на основе дерева в пакетном режиме может помочь понять эти концепции.
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...