RAY - библиотека RLLIB - оценка модели DQN с использованием автономных данных пакета. Модель не в состоянии учиться. episode_len_mean: .nan Для примера CartPole, а также для набора данных для личного домена
Ubuntu
Лучевая библиотека - RLIB
DQN
Не в сети
среда: - пробовал с Cartpole-v0, а также с примером пользовательской среды.
episode_len_mean: .nan
episode_reward_max: .nan
episode_reward_mean: .nan
episode_reward_min: .nan
Количество эпизодов: 0
общее количество эпизодов: 0
Генерация данных с использованием PG
rllib train --run=PG --env=CartPole-v0 --config='{"output": "/tmp/cartpole-out", "output_max_file_size": 5000000}' --stop='{"timesteps_total": 100000}'
Модель поезда в автономном режиме
rllib train --run=DQN --env=CartPole-v0 --config='{"input": "/tmp/cartpole-out","input_evaluation": ["is", "wis"],"soft_q": true, "softmax_temp": 1.0}'
Ожидается: -
episode_len_mean: числовые значения
episode_reward_max: числовые значения
episode_reward_mean: числовые значения
episode_reward_min: числовые значения
Фактические результаты (улучшения не наблюдается и в тензорной доске): -
episode_len_mean: .nan
episode_reward_max: .nan
episode_reward_mean: .nan
episode_reward_min: .nan