Question

Я пытаюсь повторить оценки DQN для Breakout, используя RLLib. После 5M шагов среднее вознаграждение составляет 2,0, в то время как известный результат для Breakout с использованием DQN составляет 100+. Мне интересно, если это из-за отсечения вознаграждения и, следовательно, фактическое вознаграждение не соответствует баллу от Atari. В базовых показателях OpenAI фактическая оценка помещается в info['r'], а значение вознаграждения фактически является ограниченным значением. Это тот же самый случай для RLLib? Есть ли способ увидеть фактический средний балл во время тренировки?

Оценка Atari против награды в реализации RQLIB DQN

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Оценка Atari против награды в реализации RQLIB DQN

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы