Мне интересно, как построить кривые вознаграждения в обучении подкреплению.
Особенно, в моей моделируемой среде есть значительная случайность.Таким образом, в исходных данных о вознаграждении есть так много зигзагообразных паттернов, даже если политика вывода сходится.
Есть ли способ построить график в этом случае?