В обучении с подкреплением и, в частности, в отношении алгоритмов актер / критик c, потеря значения - это разница (или среднее из многих таких различий) между ожиданием алгоритма обучения значения состояния и эмпирически наблюдаемое значение этого состояния.
Что такое значение состояния ? Короче говоря, ценность государства - это то, какую награду вы можете ожидать, учитывая, что вы начинаете в этом штате. Немедленное вознаграждение полностью способствует этой сумме. Вознаграждение, которое может произойти, но не может сразу же внести свой вклад, а более отдаленные события - все меньше и меньше. Мы называем это уменьшение вклада в стоимость «дисконтом», или мы говорим, что эти вознаграждения «дисконтированы».
Ожидаемое значение - это сколько критично c часть алгоритма предсказывает значение будет. В случае критики c, реализованной в виде нейронной сети, это выход нейронной сети с состоянием в качестве входных данных.
Эмпирически наблюдаемое значение - это сумма, которую вы получаете, когда складываете вознаграждения, которые вы фактически получили, когда вышли из этого состояния, плюс любые вознаграждения (дисконтированные на некоторое количество), которые вы получили сразу после этого за некоторое количество шагов (скажем, после этих шагов вы оказались в состоянии X) и (возможно, в зависимости от реализации) плюс некоторая скидочная сумма, основанная на значении состояния X.
Короче говоря, чем он меньше, тем лучше он предсказывает, насколько хорошо он будет работать. Это не означает, что в игре становится лучше - в конце концов, в игре можно быть ужасным, но быть точным в предсказании того, что они проиграют, а когда проиграют, научатся выбирать действия, которые заставят их быстро проиграть!