Зависимое от государства действие, установленное в обучении с подкреплением - PullRequest
0 голосов
/ 25 апреля 2018

Как люди справляются с проблемами, когда юридические действия в разных штатах различны?В моем случае у меня всего около 10 действий, юридические действия не перекрываются, а это означает, что в некоторых штатах одни и те же 3 государства всегда являются законными, а эти государства никогда не являются законными в других типах государств.

Мне также интересно узнать, будут ли решения отличаться, если юридические действия будут совпадать.

Для обучения Q (где моя сеть дает мне значения для пар состояние / действие), я подумал, может быть, я мог бы просто быть осторожным с тем, какое значение Q выбрать при построении целевого значения.(т. е. вместо выбора максимума, я выбираю максимум среди юридических действий ...)

Для методов с градиентом политики я менее уверен в том, что такое подходящая настройка.Можно ли просто маскировать выходной слой при вычислении потерь?

Ответы [ 3 ]

0 голосов
/ 26 апреля 2018

Я недавно построил агента DDQ для connect-four и должен был решить эту проблему.Всякий раз, когда выбиралась колонка, которая уже была заполнена токенами, я назначал вознаграждение, эквивалентное проигрышу в игре.В моем случае это -100, и это сработало хорошо.

В четвертом коннекте разрешить незаконный ход (эффективно пропуская ход) в некоторых случаях может быть выгодно для игрока.Вот почему я установил вознаграждение, эквивалентное проигрышу, а не меньшее отрицательное число.

Так что, если вы установите отрицательное вознаграждение больше, чем проигрыш, вам придется рассмотреть в своем домене, каковы последствия разрешения незаконногоходы происходят в разведке.

0 голосов
/ 10 мая 2018

В настоящее время эта проблема, похоже, не имеет единого, универсального и прямого ответа.Может быть, потому что это не проблема?

Ваше предложение выбрать наилучшее значение Q для законных действий - фактически один из предложенных способов справиться с этим.Для методов градиента политики вы можете достичь аналогичного результата, маскируя незаконные действия и правильно увеличивая вероятность других действий.

Другой подход - дать отрицательное вознаграждение за выбор незаконного действия - или игнорировать этот выбор и не вносить никаких изменений в среду, возвращая то же вознаграждение, что и раньше.Для одного из моих личных опытов (метод Q Learning) я выбрал последнее, и агент узнал, чему он должен научиться, но время от времени он использовал незаконные действия как действие «бездействия».Это не было для меня проблемой, но отрицательные награды, вероятно, устранят это поведение.

Как видите, эти решения не меняются и не отличаются, когда действия «перекрываются».

Отвечая на ваши вопросы в комментариях - я не верю, что вы можете тренироватьсяАгент в описанных условиях без ознакомления с правилами законных / незаконных действий.Это потребует, например, что-то вроде отдельных сетей для каждого набора юридических действий и не будет лучшей идеей (особенно, если существует множество возможных наборов юридических действий).

Но трудно ли изучить эти правила?

Вы должны ответить на некоторые вопросы самостоятельно - это условие, которое делает действие незаконным, трудно выразить / сформулировать? Это, конечно, специфично для окружающей среды, но я бы сказал,что это не так сложно выразить большую часть времени, и агенты просто изучают их во время обучения.Если это сложно, предоставляет ли ваша среда достаточно информации о состоянии?

0 голосов
/ 25 апреля 2018

Не уверен, правильно ли я понимаю ваш вопрос, но если вы имеете в виду, что в определенных состояниях некоторые действия невозможны, вы просто отражаете это в функции вознаграждения (большое отрицательное значение). Вы даже можете решить прекратить эпизод, если неясно, в каком состоянии это незаконное действие. Агент должен узнать, что эти действия нежелательны в определенных состояниях.

В режиме исследования агент все еще может принять решение о незаконных действиях. Однако в режиме эксплуатации их следует избегать.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...