Question

Я обучал агента RL в среде, похожей на Puckworld. Но шайбы нет! Агент находится в непрерывном пространстве и хочет достичь фиксированной цели. В каждом эпизоде агент рождается в случайном месте, и к каждому действию добавляется шум, чтобы сделать обучение менее тривиальным. Награда выдается за каждый шаг в виде масштабированной версии расстояния до цели.

Я хочу построить график сходимости нейронной сети. Та же проблема в дискретном пространстве и с использованием Q-обучения, я бы построил сумму всех элементов в Q-матрице в зависимости от номера эпизода. Это дало мне хорошее представление о производительности сети. Как я могу сделать то же самое для нейронной сети?

Отображение вознаграждения, полученного в эпизоде, по сравнению с номером эпизода здесь не оптимально. Я использую PyTorch. Любая помощь приветствуется

Deep Q Learning: как визуализировать конвергенцию?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Deep Q Learning: как визуализировать конвергенцию?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы