Question

В обучении с подкреплением есть некоторые агенты, которые инициализировали случайные веса. Они получают различную награду в процессе обучения. Я хочу нарисовать это в одном сюжете, используя тензорную доску.

Другими словами, минимальное / максимальное вознаграждение агентов рисуется ниже / выше линии. Между линией ниже и выше, цвет, который означает дисперсию алгоритма. и рисуется другая линия, которая означает ЗНАЧЕНИЕ вознаграждения агентов.

Похоже на график ниже. Он скопирован из статьи «УЛУЧШЕНИЕ ОБОБЩЕНИЯ В МЕТА-УЧЕБНОМ УЧЕБНОМ ИССЛЕДОВАНИИ, ИСПОЛЬЗУЯ ЦЕЛИ, ICLR2020».

Как мне получить этот график?

Как получить график, который показывает MIN, MAX, дисперсию случайных агентов затравки с использованием тензорной доски?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Как получить график, который показывает MIN, MAX, дисперсию случайных агентов затравки с использованием тензорной доски?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы