Question

В моем понимании, обучение с подкреплением получит награду за действие.

Однако, при игре в видеоигры, в большинстве шагов нет вознаграждения (награда == 0) (например, улицабоец), в конце концов, мы получили награду (например: победа игрока, награда = 1), так много действий, как машина узнает, какой из них является ключевым для победы в этой игре?

agold · Answer 1 · 07 мая 2019

В Обучение усилению вознаграждение может быть немедленным или отсроченным [ 1 ]:

немедленная награда может быть:
- очень высокий положительный результат, если агент выигрывает игру (это последнее действие, которое побеждает противника);
- очень низкий минус, если агент проигрывает игру;
- положительно, если действие наносит урон вашему противнику;
- отрицательно, если агент теряет очки здоровья.
Задержанная награда вызвана будущей наградой, которая возможна в результате текущего действия. Например, перемещение на один шаг влево может привести к тому, что на следующем шаге удастся избежать удара и ударить противника.

Алгоритмы обучения с подкреплением, такие как Q-learning , выбирают действие, которое дает наибольшую ожидаемую награду. Эта награда постоянно обновляется с текущей наградой ( r в момент t ) и с возможными будущими наградами (последнее значение в уравнении, max Q , на основе на действия со времени t + 1 и более поздних):

Более подробная информация о (глубоком) обучении подкреплению с некоторыми примерами применения к играм приведена в Руководство для начинающих по глубокому обучению подкреплению .

Как машина узнает, за какой шаг можно получить максимальное вознаграждение?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как машина узнает, за какой шаг можно получить максимальное вознаграждение?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы