В моем понимании, обучение с подкреплением получит награду за действие.
Однако, при игре в видеоигры, в большинстве шагов нет вознаграждения (награда == 0) (например, улицабоец), в конце концов, мы получили награду (например: победа игрока, награда = 1), так много действий, как машина узнает, какой из них является ключевым для победы в этой игре?