Когда модель обучения обучению с подкреплением,
В момент времени t существует состояние S (t) и пространство действия A (t), но выбор действия a (t) повлиял бы на следующееПространство действий A (t + 1), Как и некоторые действия в пространстве действий A (t + 1), было запрещено, в этой ситуации, как я могу смоделировать это в процессе обучения?
Я выяснил, что может бытьтри способа сделать это: - Отключить / удалить некоторое пространство действий в процессе обучения, но окажет ли это влияние на процесс обучения?- Или мы можем предоставить огромную отрицательную награду, если обученный агент выберет запрещенное действие.- Или мы просто использовали второе лучшее значение, если запрещенный выбор - лучший вариант.
Какой из них может быть лучшим выбором, почему и есть ли другие варианты?