Question

Я тренирую вертолет, чтобы лететь к целям, используя Агенты машинного обучения Unity и C#. Обучение в основном работает (см. Оранжевую линию), но я хотел попробовать добавить любопытство в качестве награды intrinsi c в микс (см. Синюю линию в процессе; это эксперимент, чтобы увидеть, поможет ли вертолет неоднократно натыкаться в то же здание).

Было бы нормально, или это признак того, что что-то пошло не так, когда диаграммы "Потери / Потеря / Любопытство обратные" пустые, так как они повернулись что будет?

Мои настройки yaml:

HelicopterFindTarget:
    max_steps: 500000
    normalize: true
    num_layers: 3
    reward_signals:
        extrinsic:
            strength: 1.0
            gamma: 0.99
        curiosity:
            strength: 0.1
            gamma: 0.99
            encoding_size: 256

Спасибо!

Диаграмма TensorBoard «Потеря форварда любопытства» пуста?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Диаграмма TensorBoard «Потеря форварда любопытства» пуста?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы