Укрепление обучения для среды, на которую агент не может повлиять - PullRequest
0 голосов
/ 05 июля 2018

Модель RL определяется как P^a_ss', пространство действия непрерывно. Чтобы агент знал, что env будет вести себя по-своему, независимо от того, что делает агент, что я буду делать?

Желательно также изучить изменение состояния env, достаточно ли RL для работы? Если да, env имеет только одну непрерывную переменную x_0 в пространстве наблюдений и множество скрытых факторов x_1, x_2, ..., которые влияют на x_0; x_1, x_2, ... тоже должен быть в пространстве наблюдения? Если нет, что я буду делать рядом с RNN?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...