Question

Модель RL определяется как P^a_ss', пространство действия непрерывно. Чтобы агент знал, что env будет вести себя по-своему, независимо от того, что делает агент, что я буду делать?

Желательно также изучить изменение состояния env, достаточно ли RL для работы? Если да, env имеет только одну непрерывную переменную x_0 в пространстве наблюдений и множество скрытых факторов x_1, x_2, ..., которые влияют на x_0; x_1, x_2, ... тоже должен быть в пространстве наблюдения? Если нет, что я буду делать рядом с RNN?

Укрепление обучения для среды, на которую агент не может повлиять

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Укрепление обучения для среды, на которую агент не может повлиять

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы