Я обучаю алгоритм обучения актерско-критическому усилению, такой как DDPG, для многих эпизодов. Однако время на шаг сначала увеличивается, а затем остается на стабильном уровне, как показано на следующем рисунке.
Сначала я подумал, что забыл элементы .detach () /. Item (), которые я помещаю в буфер воспроизведения (элемент deque размера1e6), как это указано в некоторых других сообщениях stackoverflow, но это не так. Кто-нибудь сталкивался с подобной ситуацией раньше и может указать мне, где искать причину?