Question

Насколько мне известно, вся система вознаграждений зависит от функции потерь в нейронной сети, которую необходимо изучить.Давайте предположим, что функция потерь - это -R (награда) для упрощения.Если вознаграждение положительное, то потеря отрицательная, поэтому мы ослабляем модель.Если вознаграждение отрицательное, мы работаем над укреплением модели.Это утверждение правильно?И, наконец, приводит ли большее значение выходного слоя к лучшей модели?Нужна ли инфляция в выходных нейронах для увеличения сложности и точности модели?Или плюс и минус R в функции потерь достаточно, чтобы правильно обучить модель для RL?

Как работает система поощрений в обучении с подкреплением?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Как работает система поощрений в обучении с подкреплением?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы