Question

Когда модель обучения обучению с подкреплением,

В момент времени t существует состояние S (t) и пространство действия A (t), но выбор действия a (t) повлиял бы на следующееПространство действий A (t + 1), Как и некоторые действия в пространстве действий A (t + 1), было запрещено, в этой ситуации, как я могу смоделировать это в процессе обучения?

Я выяснил, что может бытьтри способа сделать это: - Отключить / удалить некоторое пространство действий в процессе обучения, но окажет ли это влияние на процесс обучения?- Или мы можем предоставить огромную отрицательную награду, если обученный агент выберет запрещенное действие.- Или мы просто использовали второе лучшее значение, если запрещенный выбор - лучший вариант.

Какой из них может быть лучшим выбором, почему и есть ли другие варианты?

Усиление обучения - действие, выбранное в момент времени t, будет влиять на время t + 1

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Усиление обучения - действие, выбранное в момент времени t, будет влиять на время t + 1

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы