RAY - RLLIB - Сбой при обучении DQN с использованием автономного образца пакета - значение episode_len_mean: .nan - PullRequest
0 голосов
/ 16 апреля 2019

RAY - библиотека RLLIB - оценка модели DQN с использованием автономных данных пакета. Модель не в состоянии учиться. episode_len_mean: .nan Для примера CartPole, а также для набора данных для личного домена

Ubuntu Лучевая библиотека - RLIB DQN Не в сети среда: - пробовал с Cartpole-v0, а также с примером пользовательской среды.

episode_len_mean: .nan episode_reward_max: .nan episode_reward_mean: .nan episode_reward_min: .nan Количество эпизодов: 0 общее количество эпизодов: 0

Генерация данных с использованием PG

rllib train --run=PG --env=CartPole-v0 --config='{"output": "/tmp/cartpole-out", "output_max_file_size": 5000000}' --stop='{"timesteps_total": 100000}'

Модель поезда в автономном режиме

rllib train --run=DQN --env=CartPole-v0 --config='{"input": "/tmp/cartpole-out","input_evaluation": ["is", "wis"],"soft_q": true, "softmax_temp": 1.0}'

Ожидается: - episode_len_mean: числовые значения episode_reward_max: числовые значения episode_reward_mean: числовые значения episode_reward_min: числовые значения

Фактические результаты (улучшения не наблюдается и в тензорной доске): - episode_len_mean: .nan episode_reward_max: .nan episode_reward_mean: .nan episode_reward_min: .nan

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...