Я обучил агента RL, который использует сеть DQN, чтобы предсказать наилучшее действие с учетом состояния.
- Используемая нейронная сеть: ANN
- Вход: Вектор состояния (100)
- Выход: Предсказать правильное действие на основе состояния входа. (10)
Этот агент RL обучен и отлично работает.
Проблема: если предположим, завтра у меня есть требование, которое просит добавить еще одно действие в действие пространство. (новое пространство действия = 11), или даже, просит добавить новый набор функций в пространство входного состояния (новое пространство ввода = 101), затем есть способ использовать ранее обученную модель. Или мне придется снова обучать новую сеть.