Я написал программу на python для обучения агентов, использующих RL, чтобы максимизировать их вознаграждение, выбирая выпускников, которые награждают их случайным образом на основе некоторых распределений и заданного отклонения. Поскольку агенты выполняют 10000 или более действий, сохраняя эту информацию для большого числа агентов в списке для последующего отображения, звучит расточительно. Есть ли способ динамически добавлять на график каждый раз, когда действие завершается?
Вот код
for action in range(actions):
# Determine agents behavior
.
.
.
#Calculate reward based on deviation
reward = machine[picked_leaver] + deviation * random.uniform(-1,1)
total_reward += reward
times_pulled[picked_leaver] += 1
#calculating avg
rewards_arr[picked_leaver] += ((reward - rewards_arr[picked_leaver]) / times_pulled[picked_leaver])
Некоторый код отсутствует, но здесь он не нужен, и он работает.
Как видите, на каждой итерации награда перезаписывается, поэтому для составления графика награды / действия мне нужно все хранить. Есть ли способ добавить к сюжету каждую награду после ее расчета?