Я тренирую вертолет, чтобы лететь к целям, используя Агенты машинного обучения Unity и C#. Обучение в основном работает (см. Оранжевую линию), но я хотел попробовать добавить любопытство в качестве награды intrinsi c в микс (см. Синюю линию в процессе; это эксперимент, чтобы увидеть, поможет ли вертолет неоднократно натыкаться в то же здание).
Было бы нормально, или это признак того, что что-то пошло не так, когда диаграммы "Потери / Потеря / Любопытство обратные" пустые, так как они повернулись что будет?
Мои настройки yaml:
HelicopterFindTarget:
max_steps: 500000
normalize: true
num_layers: 3
reward_signals:
extrinsic:
strength: 1.0
gamma: 0.99
curiosity:
strength: 0.1
gamma: 0.99
encoding_size: 256
Спасибо!