Deep Q Learning: как визуализировать конвергенцию? - PullRequest
0 голосов
/ 09 мая 2020

Я обучал агента RL в среде, похожей на Puckworld. Но шайбы нет! Агент находится в непрерывном пространстве и хочет достичь фиксированной цели. В каждом эпизоде ​​агент рождается в случайном месте, и к каждому действию добавляется шум, чтобы сделать обучение менее тривиальным. Награда выдается за каждый шаг в виде масштабированной версии расстояния до цели.

Я хочу построить график сходимости нейронной сети. Та же проблема в дискретном пространстве и с использованием Q-обучения, я бы построил сумму всех элементов в Q-матрице в зависимости от номера эпизода. Это дало мне хорошее представление о производительности сети. Как я могу сделать то же самое для нейронной сети?

Отображение вознаграждения, полученного в эпизоде, по сравнению с номером эпизода здесь не оптимально. Я использую PyTorch. Любая помощь приветствуется

...