В обучении с подкреплением есть некоторые агенты, которые инициализировали случайные веса. Они получают различную награду в процессе обучения. Я хочу нарисовать это в одном сюжете, используя тензорную доску.
Другими словами, минимальное / максимальное вознаграждение агентов рисуется ниже / выше линии. Между линией ниже и выше, цвет, который означает дисперсию алгоритма. и рисуется другая линия, которая означает ЗНАЧЕНИЕ вознаграждения агентов.
Похоже на график ниже. Он скопирован из статьи «УЛУЧШЕНИЕ ОБОБЩЕНИЯ В МЕТА-УЧЕБНОМ УЧЕБНОМ ИССЛЕДОВАНИИ, ИСПОЛЬЗУЯ ЦЕЛИ, ICLR2020».
Как мне получить этот график?