В статье MDP, на которую вы ссылаетесь, дается хороший обзор ценности и итерации политики, но не стоит упоминать асинхронное динамическое программирование.Дело в том, что вам не нужно выполнять полностью изолированные развертки графика, чтобы значения сходились [1];Вы можете обновлять вершины по одной в любом порядке, учитывая, что вы не пренебрегаете ни одной из них.То есть вам вообще не нужно делать копию графа.
[1] Берцекас Д., 1982. Распределенное динамическое программирование. Транзакции IEEE с автоматическим управлением , 27 (3), с.610-616.