Question

Я написал программу на python для обучения агентов, использующих RL, чтобы максимизировать их вознаграждение, выбирая выпускников, которые награждают их случайным образом на основе некоторых распределений и заданного отклонения. Поскольку агенты выполняют 10000 или более действий, сохраняя эту информацию для большого числа агентов в списке для последующего отображения, звучит расточительно. Есть ли способ динамически добавлять на график каждый раз, когда действие завершается?

Вот код

for action in range(actions):
    # Determine agents behavior
    .
    .
    .
    #Calculate reward based on deviation
    reward = machine[picked_leaver] + deviation * random.uniform(-1,1)
    total_reward += reward

    times_pulled[picked_leaver] += 1

    #calculating avg
    rewards_arr[picked_leaver] += ((reward - rewards_arr[picked_leaver]) / times_pulled[picked_leaver])

Некоторый код отсутствует, но здесь он не нужен, и он работает.

Как видите, на каждой итерации награда перезаписывается, поэтому для составления графика награды / действия мне нужно все хранить. Есть ли способ добавить к сюжету каждую награду после ее расчета?

Динамически добавлять точки на график Matplotlib, чтобы избежать их сохранения

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Динамически добавлять точки на график Matplotlib, чтобы избежать их сохранения

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов