Если вы заменили Q-таблицу необученной модели SAC на обученную Q-таблицу DDPG, то вы бы использовали конвергентную политику, созданную методом DDPG.Аналогично, замена Q-таблицы необученной модели DDPG на Q-таблицу из обученной модели SAC даст ей конвергентную политику из-за применения метода SAC.
Если вы еще этого не сделали, вам следует проверить этот документ , в котором рассматриваются и экспериментируют с различиями между DDPG и SAC.