Оценка Atari против награды в реализации RQLIB DQN - PullRequest
0 голосов
/ 03 ноября 2019

Я пытаюсь повторить оценки DQN для Breakout, используя RLLib. После 5M шагов среднее вознаграждение составляет 2,0, в то время как известный результат для Breakout с использованием DQN составляет 100+. Мне интересно, если это из-за отсечения вознаграждения и, следовательно, фактическое вознаграждение не соответствует баллу от Atari. В базовых показателях OpenAI фактическая оценка помещается в info['r'], а значение вознаграждения фактически является ограниченным значением. Это тот же самый случай для RLLib? Есть ли способ увидеть фактический средний балл во время тренировки?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...