Построение кривой вознаграждения в обучении подкреплению

Мне интересно, как построить кривые вознаграждения в обучении подкреплению.

Особенно, в моей моделируемой среде есть значительная случайность.Таким образом, в исходных данных о вознаграждении есть так много зигзагообразных паттернов, даже если политика вывода сходится.

Есть ли способ построить график в этом случае?

Построение кривой вознаграждения в обучении подкреплению

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Построение кривой вознаграждения в обучении подкреплению

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы