Я пытаюсь повторить оценки DQN для Breakout, используя RLLib. После 5M шагов среднее вознаграждение составляет 2,0, в то время как известный результат для Breakout с использованием DQN составляет 100+. Мне интересно, если это из-за отсечения вознаграждения и, следовательно, фактическое вознаграждение не соответствует баллу от Atari. В базовых показателях OpenAI фактическая оценка помещается в info['r']
, а значение вознаграждения фактически является ограниченным значением. Это тот же самый случай для RLLib? Есть ли способ увидеть фактический средний балл во время тренировки?