Question

Я инициализирую состояние своего окружения с некоторым значением s'.Также я заново инициализирую состояние окружающей среды каждый раз, когда запускается новый epsiode.Но я заметил, что когда я создаю среду и инициализирую состояние, как, скажем, [10,3], политика, полученная после обучения, совсем не близка к оптимальной.Однако с другими состояниями, скажем, [20,3].[20,7].... и т. Д., Я получаю результаты, довольно близкие к оптимальным.Таким образом, вопрос в том, возможно ли, что запуск из состояния [10,3] может привести к зависанию сети в локальных минимасах?

Filip O. · Answer 1 · 22 ноября 2018

Строго отвечая на вопрос, конечно, это может привести к неоптимальным политикам.Основной случай может быть, если агент недостаточно изучает, и не так просто добраться до конечного состояния из состояния, которое вы выбрали для инициализации.В результате агент найдет локальный минимум, потому что он никогда не покинет это «локальное пространство».

Один вопрос, который вы можете себе задать, - почему вы не инициализируете свое состояние случайно?Конечно, есть случаи, когда имеет смысл иметь одно основное состояние для инициализации, но если ваш алгоритм учится лучше для других начальных точек, возможно, стоит попробовать инициализировать каждый эпизод с другим состоянием и позволить агенту обобщить состояниеПространство лучше.Другим предложением было бы проверить вашу стратегию исследования и посмотреть, оказывает ли она достаточное влияние.

Состояние инициализации в DQN

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Состояние инициализации в DQN

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы