Авторы статьи, кажется, рассматривают этот вопрос в нескольких местах. Самое главное, они упоминают отсечение вознаграждения:
Награды и ошибки TD обрезаются, чтобы попасть в [-1, 1] по соображениям стабильности.
Это означает, что если вознаграждение равно 1000000, затем они обрезают его до 1, а если оно равно -1000000, они обрезают его до -1. Награды между -1 и 1 не меняются.
В целом алгоритмы глубокого Q-обучения очень нестабильны с экстремальными значениями вознаграждения. Поскольку они используются в обратном распространении, параметры модели, вероятно, будут сильно нарушены из-за больших значений ошибок TD, что затрудняет сходимость алгоритма. По этой причине обычно используется награда или градиентное отсечение. метод. Они используют альфа-параметр в уравнении (1), чтобы сделать политику менее жадной, если стохастичность вызывает проблему, это может помочь. Они также обсуждают приоритизацию на основе рангов как более устойчивую к величине ошибок и выбросам в Разделе 5 и говорят, что она может не понадобиться из-за «интенсивного использования отсечения».
настроены на детерминированные c награды - они также упоминают, что среды, в которых они тестировали (игры Atari), были «почти детерминированными c».
В более широком смысле, большое несоответствие награды предполагает наличие есть чему поучиться в переходе, который вы выделяете - кажется, что вы можете выиграть или проиграть игру на основе этого перехода. Если это так, алгоритм (который не знает, является ли игра детерминированной c или сточасти c) потратит очень много времени, пытаясь узнать об этом переходе. Это имеет смысл, если вы хотите научиться побеждать в игре, но в этом случае игра кажется случайной, так что вам нечему учиться.