Как правильно обновить функцию R (s) во время Q-learning ?Например, скажем, агент посещает состояние s1 пять раз и получает вознаграждение [0,0,1,1,0].Должен ли я вычислить среднее вознаграждение, например, R (s1) = сумма ([0,0,1,1,0]) / 5?Или я должен использовать скользящую среднюю, которая придает больший вес последним значениям вознаграждения, полученным для этого состояния?В большинстве описаний Q-обучения, которые я читал, R (s) рассматриваются как некая константа, и, кажется, никогда не описывается, как вы можете изучать это значение с течением времени.может путать R (s) в Q-Learning с R (s, s ') в процессе принятия решений Маркова .Вопрос остается похожим.При изучении MDP, как лучше всего обновить R (s, s ')?