Как интерпретировать график «Потеря стоимости» в TensorBoard? - PullRequest
0 голосов
/ 03 февраля 2020

У меня есть вертолет для нахождения цели, избегая препятствий в агентах машинного обучения Unity. Глядя на TensorBoard для моих тренировок, я пытаюсь понять, как интерпретировать «потери / потери стоимости».

enter image description here

I Я погуглил много статей о ML Loss, например, , эта , но я пока не могу понять, что это значит для моего маленького вертолета, и возможные изменения, которые я должен внести, если таковые имеются. (Вертолет награждается тем, что он приближается к цели и снова приближается к нему, и наказывается тем, что идет дальше или сталкивается. Он измеряет различные параметры, такие как относительная скорость, относительное положение цели, датчики лучей и т. Д., И он в основном работает в цели - в то время как более сложные препятствия лабиринтного типа еще не тестировались и не тренировались. Используются 3 слоя.) Спасибо!

1 Ответ

2 голосов
/ 03 февраля 2020

В обучении с подкреплением и, в частности, в отношении алгоритмов актер / критик c, потеря значения - это разница (или среднее из многих таких различий) между ожиданием алгоритма обучения значения состояния и эмпирически наблюдаемое значение этого состояния.

Что такое значение состояния ? Короче говоря, ценность государства - это то, какую награду вы можете ожидать, учитывая, что вы начинаете в этом штате. Немедленное вознаграждение полностью способствует этой сумме. Вознаграждение, которое может произойти, но не может сразу же внести свой вклад, а более отдаленные события - все меньше и меньше. Мы называем это уменьшение вклада в стоимость «дисконтом», или мы говорим, что эти вознаграждения «дисконтированы».

Ожидаемое значение - это сколько критично c часть алгоритма предсказывает значение будет. В случае критики c, реализованной в виде нейронной сети, это выход нейронной сети с состоянием в качестве входных данных.

Эмпирически наблюдаемое значение - это сумма, которую вы получаете, когда складываете вознаграждения, которые вы фактически получили, когда вышли из этого состояния, плюс любые вознаграждения (дисконтированные на некоторое количество), которые вы получили сразу после этого за некоторое количество шагов (скажем, после этих шагов вы оказались в состоянии X) и (возможно, в зависимости от реализации) плюс некоторая скидочная сумма, основанная на значении состояния X.

Короче говоря, чем он меньше, тем лучше он предсказывает, насколько хорошо он будет работать. Это не означает, что в игре становится лучше - в конце концов, в игре можно быть ужасным, но быть точным в предсказании того, что они проиграют, а когда проиграют, научатся выбирать действия, которые заставят их быстро проиграть!

...