Построение кривой вознаграждения в обучении подкреплению - PullRequest
0 голосов
/ 13 ноября 2018

Мне интересно, как построить кривые вознаграждения в обучении подкреплению.

Особенно, в моей моделируемой среде есть значительная случайность.Таким образом, в исходных данных о вознаграждении есть так много зигзагообразных паттернов, даже если политика вывода сходится.

Есть ли способ построить график в этом случае?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...