Усиление обучения - действие, выбранное в момент времени t, будет влиять на время t + 1 - PullRequest
0 голосов
/ 04 января 2019

Когда модель обучения обучению с подкреплением,

В момент времени t существует состояние S (t) и пространство действия A (t), но выбор действия a (t) повлиял бы на следующееПространство действий A (t + 1), Как и некоторые действия в пространстве действий A (t + 1), было запрещено, в этой ситуации, как я могу смоделировать это в процессе обучения?

Я выяснил, что может бытьтри способа сделать это: - Отключить / удалить некоторое пространство действий в процессе обучения, но окажет ли это влияние на процесс обучения?- Или мы можем предоставить огромную отрицательную награду, если обученный агент выберет запрещенное действие.- Или мы просто использовали второе лучшее значение, если запрещенный выбор - лучший вариант.

Какой из них может быть лучшим выбором, почему и есть ли другие варианты?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...