Question

Модель выбирает действия в настроенной среде для каждого временного шага. Это меняет состояние окружающей среды. (состояние t) -> (состояние t + 1)

Вторая модель может изменить конфигурацию среды для следующего временного шага. Это не меняет состояние, но влияет на общее вознаграждение. (состояние t) -> (конфигурация t + 1)

(состояние, конфигурация) -> вознаграждение

Конфигурация является нелинейной функцией, выбирающей непрерывный результат для каждого события, происходящего в окружающая обстановка. Таким образом, объединение обеих моделей с категориальной конфигурацией не представляется возможным.

Как я могу обучить эту конфигурацию, так как обе модели зависят друг от друга? Возможно ли с другими идеями объединить обе модели в одну? Были ли уже изучены подобные проблемы?

Моя текущая идея: реализовать обе модели с PPO2 из stable_baselines. Заморозить model2 для x эпох, чтобы позволить model1 улучшить и предотвратить колебания. Обе модели получат одинаковое вознаграждение. Имеет ли смысл чередовать заморозку (заморозка 2, поезд 1; заморозка 1, поезд 2)?

Глубокое усиленное обучение для обучения конфигурации с задержкой по времени

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Глубокое усиленное обучение для обучения конфигурации с задержкой по времени

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы