Я обучал агента RL в среде, похожей на Puckworld. Но шайбы нет! Агент находится в непрерывном пространстве и хочет достичь фиксированной цели. В каждом эпизоде агент рождается в случайном месте, и к каждому действию добавляется шум, чтобы сделать обучение менее тривиальным. Награда выдается за каждый шаг в виде масштабированной версии расстояния до цели.
Я хочу построить график сходимости нейронной сети. Та же проблема в дискретном пространстве и с использованием Q-обучения, я бы построил сумму всех элементов в Q-матрице в зависимости от номера эпизода. Это дало мне хорошее представление о производительности сети. Как я могу сделать то же самое для нейронной сети?
Отображение вознаграждения, полученного в эпизоде, по сравнению с номером эпизода здесь не оптимально. Я использую PyTorch. Любая помощь приветствуется