Как работает система поощрений в обучении с подкреплением? - PullRequest
0 голосов
/ 21 сентября 2018

Насколько мне известно, вся система вознаграждений зависит от функции потерь в нейронной сети, которую необходимо изучить.Давайте предположим, что функция потерь - это -R (награда) для упрощения.Если вознаграждение положительное, то потеря отрицательная, поэтому мы ослабляем модель.Если вознаграждение отрицательное, мы работаем над укреплением модели.Это утверждение правильно?И, наконец, приводит ли большее значение выходного слоя к лучшей модели?Нужна ли инфляция в выходных нейронах для увеличения сложности и точности модели?Или плюс и минус R в функции потерь достаточно, чтобы правильно обучить модель для RL?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...