Изучение структуры задачи иерархического подкрепления - PullRequest
2 голосов
/ 27 сентября 2010

Я изучал проблемы обучения с иерархическим подкреплением, и хотя во многих статьях предлагаются интересные способы изучения политики, все они, похоже, предполагают, что они заранее знают структуру графа, описывающую действия в этой области.Например, Метод MAXQ для изучения иерархического подкрепления от Dietterich описывает сложный график действий и подзадач для простого домена Такси, но не как этот граф был обнаружен.Как бы вы узнали иерархию этого графика, а не только политику?

Ответы [ 3 ]

1 голос
/ 27 сентября 2010

В MAXQ Диттериха график строится вручную.Считается, что это задача для разработчика системы, точно так же, как и пространство представления и функции вознаграждения.

В зависимости от того, чего вы пытаетесь достичь, вы можете захотеть автоматически разложитьпространство состояний, изучить соответствующие функции или перенести опыт из простых задач в более сложные.

Я бы посоветовал вам начать читать статьи, относящиеся к той MAXQ, на которую вы ссылались.Не зная, чего именно вы хотите достичь, я не могу быть очень строгим (и я не в курсе всех текущих исследований RL), но вы можете найти соответствующие идеи в работах Luo, Bell & McCollum илидокументы Madden & Howley.

1 голос
/ 07 октября 2010

В этой статье описывается один подход, который является хорошей отправной точкой:

N.Мехта, С. Рэй, П. Тадепалли и Т. Диттерич.Автоматическое обнаружение и передача иерархий MAXQ.На Международной конференции по машинному обучению, 2008 г.

http://web.engr.oregonstate.edu/~mehtane/papers/hi-mat.pdf

0 голосов
/ 27 сентября 2010

Скажите, что этот агент там что-то делает. Вы не знаете его внутренних целей (график задач). Как вы определяете его цели?

Кстати, это невозможно. Точно так же, как я не могу знать, на какую цель ты возражал, когда убирал эту коробку: может быть, ты устал, может, ты видел пчелу-убийцу, может, тебе пришлось пописать ...

Вы пытаетесь смоделировать внутреннюю структуру целей агента. Для этого вам нужно какое-то руководство относительно того, каков набор возможных целей и как они представлены действиями. В исследовательской литературе эта проблема изучалась в терминах «признание плана», а также с использованием POMDP (частично наблюдаемый процесс принятия решения Маркова), но оба эти метода предполагают, что вы действительно что-то знаете о целях другого агента.

Если вы ничего не знаете о его целях, все, что вы можете сделать, это вывести одну из приведенных выше моделей (Это то, что мы, люди, делаем. Я предполагаю, что у других есть те же цели, что и у меня. Я никогда не думаю: «О , он уронил свой ноутбук, он должен быть готов отложить яйцо "cse, он человек." или смоделировать его как черный ящик: простая функция состояния к действию, а затем добавлять внутренние состояния по мере необходимости (хммм, кто-то должен иметь написал статью об этом, но я не знаю, кто).

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...