Как машина узнает, за какой шаг можно получить максимальное вознаграждение? - PullRequest
2 голосов
/ 07 мая 2019

В моем понимании, обучение с подкреплением получит награду за действие.

Однако, при игре в видеоигры, в большинстве шагов нет вознаграждения (награда == 0) (например, улицабоец), в конце концов, мы получили награду (например: победа игрока, награда = 1), так много действий, как машина узнает, какой из них является ключевым для победы в этой игре?

1 Ответ

2 голосов
/ 07 мая 2019

В Обучение усилению вознаграждение может быть немедленным или отсроченным [ 1 ]:

  • немедленная награда может быть:
    • очень высокий положительный результат, если агент выигрывает игру (это последнее действие, которое побеждает противника);
    • очень низкий минус, если агент проигрывает игру;
    • положительно, если действие наносит урон вашему противнику;
    • отрицательно, если агент теряет очки здоровья.
  • Задержанная награда вызвана будущей наградой, которая возможна в результате текущего действия. Например, перемещение на один шаг влево может привести к тому, что на следующем шаге удастся избежать удара и ударить противника.

Алгоритмы обучения с подкреплением, такие как Q-learning , выбирают действие, которое дает наибольшую ожидаемую награду. Эта награда постоянно обновляется с текущей наградой ( r в момент t ) и с возможными будущими наградами (последнее значение в уравнении, max Q , на основе на действия со времени t + 1 и более поздних): qlearning

Более подробная информация о (глубоком) обучении подкреплению с некоторыми примерами применения к играм приведена в Руководство для начинающих по глубокому обучению подкреплению .

...