Я инициализирую состояние своего окружения с некоторым значением s'
.Также я заново инициализирую состояние окружающей среды каждый раз, когда запускается новый epsiode.Но я заметил, что когда я создаю среду и инициализирую состояние, как, скажем, [10,3]
, политика, полученная после обучения, совсем не близка к оптимальной.Однако с другими состояниями, скажем, [20,3].[20,7]....
и т. Д., Я получаю результаты, довольно близкие к оптимальным.Таким образом, вопрос в том, возможно ли, что запуск из состояния [10,3]
может привести к зависанию сети в локальных минимасах?