Question

Я реализовал q обучающий алгоритм, в котором агент пытается путешествовать как можно дальше.Я использую мгновенные награды и награду за финальный эпизод.Когда агент сталкивается, я даю высокую награду за столкновение в минус, и я не останавливаю эпизод.Можно ли так делать, или эпизод должен быть закончен после столкновения агента?

Sushrut Tadwalkar · Answer 1 · 19 апреля 2019

В моем случае я определил минимальный порог вознаграждения, если он падает ниже, чем я заканчиваю эпизод.

Случай 1: Завершить эпизод с недействительным действием Если вы закончите игру до того, как оштрафуете недействительный ход, сеть не сможет понять, что ход был недействительным.
Случай 2: Завершить эпизод после N недопустимого действия Это дает ему возможность предпринять несколько неверных действий до окончания эпизода. Это похоже на игру: у вас есть N жизней, чтобы пройти уровень, или вы проигрываете игру
Случай 3: Не завершать игру вообще после недействительных действий Это может привести к тому, что агент теряется в среде, иногда делая только недопустимые действия, вам нужно хорошее условие завершения, чтобы остановить эпизод

Надеюсь, это поможет

Необходимо ли заканчивать эпизоды, когда в обучении подкреплению происходит столкновение

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Необходимо ли заканчивать эпизоды, когда в обучении подкреплению происходит столкновение

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы