Из вашего вопроса кажется, что у вас есть модель мира (игры на основе Pacman), и вы хотите обучить алгоритм Q-обучения для решения окружающей среды.После завершения вы хотите сохранить модель.
Сохранение модели полностью зависит от того, какой алгоритм RL вы используете.И, конечно, все они могут быть сохранены, или это было бы бесполезно в реальном мире.
Tabular RL : Табличное Q-learning в основном хранит политику (Q-значения)агента в матрицу формы (S x A), где s - все состояния, a - все возможные действия.После того, как среда решена, просто сохраните эту матрицу в виде CSV-файла.Я быстро реализовал это на моем GitHub в разделе «Обучение усилению».
Линейный RL : Если пространство состояний и / или пространство действий слишком велико, вы можете использовать приближение функций.В этом случае вы строите линейную модель, которая приближается к Q-матрице.Чтобы сохранить эту модель, вам просто нужно сохранить веса этой линейной модели в виде CSV или даже текстового файла.
Deep RL : То же, что и линейный RL.Вам просто нужно сохранить вес нейронной сети.Если вы сами закодировали сеть, сохранить ее как файл csv будет тривиально.Если вы используете tenorflow, вы можете создавать контрольные точки следующим образом:
saver = tf.train.Saver() # Builds the saver
где бы ни был конец вашего обучения, введите:
saver.save(sess, model_path)
У меня также есть реализация этого дляглубокий детерминированный политический градиент на моем GitHub.