В настоящее время эта проблема, похоже, не имеет единого, универсального и прямого ответа.Может быть, потому что это не проблема?
Ваше предложение выбрать наилучшее значение Q для законных действий - фактически один из предложенных способов справиться с этим.Для методов градиента политики вы можете достичь аналогичного результата, маскируя незаконные действия и правильно увеличивая вероятность других действий.
Другой подход - дать отрицательное вознаграждение за выбор незаконного действия - или игнорировать этот выбор и не вносить никаких изменений в среду, возвращая то же вознаграждение, что и раньше.Для одного из моих личных опытов (метод Q Learning) я выбрал последнее, и агент узнал, чему он должен научиться, но время от времени он использовал незаконные действия как действие «бездействия».Это не было для меня проблемой, но отрицательные награды, вероятно, устранят это поведение.
Как видите, эти решения не меняются и не отличаются, когда действия «перекрываются».
Отвечая на ваши вопросы в комментариях - я не верю, что вы можете тренироватьсяАгент в описанных условиях без ознакомления с правилами законных / незаконных действий.Это потребует, например, что-то вроде отдельных сетей для каждого набора юридических действий и не будет лучшей идеей (особенно, если существует множество возможных наборов юридических действий).
Но трудно ли изучить эти правила?
Вы должны ответить на некоторые вопросы самостоятельно - это условие, которое делает действие незаконным, трудно выразить / сформулировать? Это, конечно, специфично для окружающей среды, но я бы сказал,что это не так сложно выразить большую часть времени, и агенты просто изучают их во время обучения.Если это сложно, предоставляет ли ваша среда достаточно информации о состоянии?