Модель выбирает действия в настроенной среде для каждого временного шага. Это меняет состояние окружающей среды. (состояние t) -> (состояние t + 1)
Вторая модель может изменить конфигурацию среды для следующего временного шага. Это не меняет состояние, но влияет на общее вознаграждение. (состояние t) -> (конфигурация t + 1)
(состояние, конфигурация) -> вознаграждение
Конфигурация является нелинейной функцией, выбирающей непрерывный результат для каждого события, происходящего в окружающая обстановка. Таким образом, объединение обеих моделей с категориальной конфигурацией не представляется возможным.
Как я могу обучить эту конфигурацию, так как обе модели зависят друг от друга? Возможно ли с другими идеями объединить обе модели в одну? Были ли уже изучены подобные проблемы?
Моя текущая идея: реализовать обе модели с PPO2 из stable_baselines. Заморозить model2 для x эпох, чтобы позволить model1 улучшить и предотвратить колебания. Обе модели получат одинаковое вознаграждение. Имеет ли смысл чередовать заморозку (заморозка 2, поезд 1; заморозка 1, поезд 2)?